欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    2024下一代高性能算力底座技术白皮书-70正式版.docx

    • 资源ID:1646927       资源大小:319.53KB        全文页数:45页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2024下一代高性能算力底座技术白皮书-70正式版.docx

    1.1.2 虚拟机211.1.3 容器221.1.4 GPU服务器221.1.5 应用场景与选择策略232.3 网络业务分析242.4 存储业务分析252.5 安全业务分析262.6 平台服务业务分析272.6.1 数据库272.6.2 中间件272.6.3 服务治理28«3*鹰性能云计91»/晚修293.1 通用算力技术分析293.1.1 CPU的计算能力发展历程293.1.2 云计算卸载技术为CPU算力提升带来的优势303.1.3 I。D技术为HyPerViSor卸载提供最佳支撑323.2 智算算力技术分析343.2.1 GPU的计算能力发展历程343.2.2 GPU算力提升带来与网络吞吐的矛盾现状353.2.3 无损网络技术为A1.训练带来的性能提升363.3 云计算网络技术分析383.3.1 云计算网珞是算力连通的基础383.3.2 云计算网关是算力开放的门户393.3.3 高性能云计算需要网络卸载进行性能提升393.4 云计算存储技术分析423.4.1 单一存储技术方案无法满足云计算要求423.4.2 云存储需要引入新技术突破性能限制433.4.3 I。D技术可以提升存算分离架构下的处理性能443.5 云计算安全技术分析453.5.1 纷繁庞杂的云计算安全体系453.5.2 安全处理性能提升需要异构算力加持463.5.3 安全卸载技术在高性能云安全中至关重要473.5.4 DPU将成为可信计算服务中的重要组件473.5.5 I。D技术助力构建“零信任”网络483.6 云计算服务治理技术分析503.6.1 服务治理技术是云原生时代的重要基础503.6.2 传统服务治理技术的局限性503.6.3 I。D技术带来新的服务治理模式513.7 IaaSonDPU(IoD)高性能云计算全景51«4«育性修云计算系传架构持演进534.1 高性能云计算可观测性建设534.1.1 可观测建设是云计算运维体系的关键环节534.1.2 当前观测方法所面临的难题544.1.3 高性能云可观测性建设建议554.2 轻量级虚拟化系统演进架构革新564.2.1 轻量级虚拟化技术演进路线564.2.2 轻量级虚拟化技术为云计算带来新气象574.2.3 DPU+轻量级虚拟化=新一代技术革命584.3 “一云多芯”系统庭合594.3.1 "一云多芯1的应用困境594.3.2 I。D技术有肋于完善“一云多芯”的服务评估体系59«5«育性鲁云计算为PaaS1.K务JRgB615.1 高性能大数据计算服务615.2 高性能中间件服务625.3 高性能数据库服务62«6*未来AM64第1章云计算发展趋势1.1 云计算系统已经成为数字世界的“操作系统”1.1.1 云计算的发展历程云计算技术的最初起源可以追溯到20世纪50年代ChristopherStrachey发表的CrimeSharingin1.argeFastComputer)论文,开启了对虚拟化技术探讨的大门。随后的60年代,以旧M与M1.T为首的产业与学术巨头纷纷投入相关研究并在虚拟化领域取得了众多突破,最具代表性的事件是1974年,Gera1.dJ.Popek和RobertP.Go1.dberg发表论文(Forma1.RequirementsforVirtua1.izab1.eThirdGenerationArchitectures',提出了波佩克与戈德堡虚拟化需求(PopekandGo1.dbergvirtua1.izationrequirements)和I型与I1.型虚拟化类型。随着虚拟化技术的不断成熟与基础算力设施能力的提升,使得具备一弹性、按用计量、在线、无限这几个云计算典型特征的业务类型逐步具备了落地应用的可行性.期间虚拟化技术领域也涌现出了Qemu、Xen、KVM等众多明星项目。终于在2006年,Goog1.e时任CEOEricSchmidt在搜索引擎大会上首次提出PoudComPUting-概念.亚马逊在同年成立了亚马逊网络服务公司(AWS),云计算产业轰轰烈烈的发展起来。2010年,OPenStaCk项目创建,标志着云计算技术进入平民化时代,将云计算行业发展正式推向了高潮。云计算技术的另一个分支,容器技术起源于20世纪70年代UnixV7引入的Chroot工具,并在2009年以1.XC形式成为1.inux内核的容器管理器。容器技术凭借显著的轻化优势取得快速发展并借助CNCF社区进行大力推广,在2018年发布的云原生技术定义中,容器被确立为云原生的代表技术之一。随着业务的多样化发展,云原生技术逐渐显现出强大的统治力,成为未来发展的主要方向。伴陵酒云计算的蓬勃发展,当前世界上的主要算力基础设施几乎都是通过云计算技术进行管理与调度,可以说云计算技术已经成为数字世界的操作系统1.1.2 云计算技术特点云计算的发展呈现出显著的业务驱动特征,当前AIGC、IoT、5GB5G.Web3.0等行业的发展一方面要求云计算技术随为其提供融合性的底层技术支撑,能够按需以裸金属、容器或虚拟机形式承载上层业务,另一方面对云计算性能也提出了前所未有的要求。于是我们看到,OpenStaCk社区涌现出大容器相关项目,如ZUn、Magnum、Kyrur等,CNCF社区中的KUbeVirtMetaI3等项目也逐渐成熟,这些都是为提供多模态服务类型做出的努力。同时.融合了CPU、GPU与DPU的“3U一体”新型服务器成为当前云计算算力基础设施的主力形式,CPU负责调度管理与运行业务进程,是通用“算力”的承载组件,GPU负责提升大规模并行运算能力,是智算“算力”的核心引擎,DPU负责算力集群菽础设施卸载与集群的联通,三者通力合作,构成了高性能云计算的菽础底座。历史的经验告诉我们,技术的发展总是呈现出摆旋式上升的样貌。也总有人调侃,当前的问题都可以在故纸堆中找到答案。虽然异构运算并非新鲜事物,但随着单项技术的突破与不同技术领域间的融合,在当下,如图1.1所示的基于“3U一体”的融合算力基咄设施构建的融合性云计算平台,正是支撑不断爆发的上层业务应用运转的最佳实践方案。算力中心i三P算力节点J1.力单元CP5通用算力GPU-智能算力DPU-基础算力维护应用生态大模型训练/推理远程资源本地化局部资源管理视频/VR/AR异构资源虚拟化B1.1:"3U一体”融合基础设施总体来说,当前云计算技术的发展呈现出如下典型特征:业务承载多模化为了满足业务向云端平滑迁移的需求,会要求云平台能够适配业务系统的当前情况,从容器、虚拟机、裸金麻中选择最佳的云上承载方式。例如对逐件设施有特殊需求的业务褥要通过裸金属承载,对操作系统有特殊需求的业务以虚拟机承载,其余业务以容器承载。计算性能极致化在A1.GC大爆发的背景下,上层业务系统从网络性能、存储性能、安全性能等众多方面都对云平台提出了更高的要求,百G级别的以太网络接入能力已经逐渐成为云计算系统的标配,400G的无损网络接入也逐渐在行业落地。系统构成组件化云计算技术体系越来越庞杂,单独的封闭体系很难满足来自业务系统层出不穷的各种需求,良好的模块划分与AP1.设计已经成为主流云计算系统的构成基础。“开放、可替换”模式已经成为云计算技术架构的主旋律。1.2A1.产业催生高性能云计算需求1.2.1 A1.技术发展柢述人工智能(Artificia1.Inte1.1.igence,简称A1.)是指通过计算机技术和算法模拟人类智能的一种技术。目标是使计算机能够模拟人的思维方式和行为,让计算机可以像人类一样思考和学习,并最终实现自主决策的智能化行为。进入21世纪后,互联网的普及和大数据的爆发为A1.提供了丰富的训练材料,加速了算法的发展。2006年加拿大Hinton教授提出了深度学习的概念,极大地发展了人工神经网络算法。2012年,AIexNet在ImageNet竞赛中取得突破性成果,标志启深度学习时代的到来。当前人工智能处于深度学习和生成式A1.大发展的时期。过去十多年基于深度学习的人工智能技术主要经历了如下的研究范式转变:从早期的1数据标注监督学习“的任务特定模型,到“无标注数据预训练+标注数据微调”的预训练模型,再到如今的“大规模无标注数据预训练+指令微调+人类对齐的大模型,经历了从小数据到大数据,从小模型到大模型,从专用到通用的发展历程,人工智能技术正逐步进入大模型时代。自2017年Goog1.e提出TranSfOrmer模型以来,A1.大语言模型(1.1.M,1.arge1.anguageMode1.)已取得飞速进展。2022年底,由OPenA1.发布的基于GPT3.5的语言大模型ChatGPT引发了社会的广泛关注。在“大模型+大数据+大算力11的加持下,ChatGPT能够通过自然语言交互完成多种任务,具备了多场景、多用途、跨学科的任务处理能力。以ChatGPT为代表的3 .分布式训练:云计算平台支持模型的分布式训练,通过多节点并行计算,可以处理更大规模的数据集和更复杂的模型.同时减少训练时间。这对于大型语言模型、图像识别模里等尤为重要。4 .模里优化:利用云计算资源,可以进行大量的模型调优实的,比如超参数调优、模型架构搜索等,找到最优模型配厘。云计算的灵活性允许数据科学家和工程师快速迭代,提高模型性能。5 .存储与IO性能:高速的存储系统和优化的IO性能减少了数据读写瓶颈,确保训练过程中数据的快速存取,这对于大规模数据处理和模型训练至关重要。6 .资源调度与自动化:云平台的智能资源调度能力可以根据A1.训练任务的需求动态调整资源分配,保证计算资源的高效利用。自动化工具和服务进一步简化了模型训练流程,降低了操作复杂度。7 .成本效益:云计算的按需付费模式降低了进入门槛,使得企业和研究机构无需前期大量投资硬件设施,就可以开展高级A1.项目,促进了A1.技术的普及和创新。缘上所述,云计算不仅提供了必要的基础设施来支撑A1.训练,还通过其灵活、高效、可扩展的特性,直接促进了A1.模型训练质和效率的提升,推动了A1.技术的快速发展和广泛应用。1.2.3主流A1.训练的云计算支撑架构智算云数据中心架构可划分为基础设施层、管理调度层、大模型平台层、AIGC应用层,各层的作用说明如图1.2所示:n1.2:智算中心架构基础设施层适度超前建设,满足面向未来客户的算力多元化需求,基于开放计算,兼倾软硬件将DPU能力引入到云原生技术栈中,并将Worker节点的基础设施组件完全运行在DPU中。MMIefBMComponentVM-ComponeMC1.uvter-Pr*d*CSKontroNr1.m<e-Con<ro1.tefX-Comro1.1.erSeMCMthCNI<orttroUfWorker1.5:IoD技术架构图如图1.5所示,典型的IoD技术部署在DPU上的核心组件包括: BM-Agent:裸金属业务组件,裸金属系统盘采用DPU虚拟的磁盘,通过在虚拟磁盘中挂载用户镜像,可以实现裸金属业务的快速切换与业务温迁移。 VM-Agent:虚抵机业务蛆件,通过监控本机虚拟机声明和实例资源,实现对服务器上所有虚机实例的管理。 CM-Agent:容器业务组件,定期从Kubernetes接收新的或修改的Pod规范,并确保Pod及其容器在期望规范下运行。 CNI-DPU:网络插件,提供高性能网络卸载方案,同时提供高性能网络接入组件、可以灵活高效对接各种外部网络。 CSI-DPU:存错插件,提供高性能存储卸载方案,同时兼容多种存储方案。,Sec-DPU:安全插件,提供高性能分布式安全方案,是集群网络安全策略执行的储点O,ServiceAgent:服务治理组件,可以根据业务需要通过流量劫持的方式实现服务治理功能,为虚拟机、容器以及裸金属业务提供通用的服务治理能力。,Image-Preheater:镜像预加载组件,对通用的基础镜像进行多节点媛存,容器优先调度使用具有预热镜像的Worker节点,以避免其频繁拉取远端镜像。 TargetAbstraction:驱动抽象层,用来对接各种DPU产品,屏蔽底层差异,需要与不同DPU开发套件进行适配。提供极高的带宽,以确保数据可以在节点间快速流动,减少传输瓶颈。例如,在科学计算、大数据处理、深度学习训练等场景中,数据集可能达到PB级别,要求网络带宽至少达到百GB甚至更高。2 .延迟(1.atency):对于需要频繁通信和数据交换的应用,网络延迟需要控制在微秒级甚至纳秒级,以保证系统的响应速度和实时性。3 .并发连接(Concurrency):在高负载和大规模分布式环境中,单节点需要同时处理成数万并发连接,确保每个连接都能得到及时响应。4 .网络服务质(QoS):不同类型的数据流和服务对网络资源的需求和优先级不同,QoS功能允许网络管理员根据服务类型动态分配带宽和其他资源,确保关键应用的性能不受非关键流量的影响。5 .冗余:(Redundancy)高性能网络应具备高度的弹性和冗余设计,即使部分组件出现故障,也能保持网络的连通性和稳定性。这意味着网络需要有多条路径和备份卷路,以及自动故障检测和恢复机制。6 .可管理性(ManageabiIity):网络应易于管理和监控,提供详细的性能指标和日志记录,韵肋运维人员及时发现和解决问胭。1.3.3.2高性能存储规格定义在云计算场景下,存储处理性能直接影响着系统的整体性能和用户体蚣,高性能存储对于处理性能的规格定义通常包括以下关便指标和参数:1 .吞吐量(ThrOUghPUt):吞吐量是指存储系统能够处理的数据量或信息流量。高性能存储目前主流性能在100-400Gbs,根据云规模的不同略有浮动。2 .IOPS(InpuVOutputOperationsPerSend):10PS是指存储系统每秒钟可以执行的输入/输出操作次数。高性能存储后端需要提供至少千万级的总IOPS数据处理能力,特定场景如AIGC应用中,单个存储前蹄也需要百万级的单班盘IOPS能力。3 .延迟(1.atenCy):存储系统的延迟是指数据请求从发起到完成所需的时间。考虑到存储系统的额外延迟开销,高性能云计算的延迟总体开销应控制在亚冬秒级(即百微秒量级)。4 .容量(Capacity):存储系统的容量指的是其可以存储的数据量,在高性能存储方案中,存储容量可以达到EB级。5 .鲁棒性(Robustness):高性能存储系统需要具备高可靠性和高可用性,以确保数据的安全性和持续性。这包括数据冗余、故障恢复能力、备份与恢复机制等。6 .数据保护(Security):高性能存储系统需要提供有效的数据保护机制,包括数据加密、访问控制、数据备份等,以确保数据的安全性和完整性。7 .扩展性(Extendibi1.ity):高性能存储系统应具备良好的扩展性,能够根据掂求灵活扩展存储容Ja和性能,以适应不断增长的数据需求。8 .融合性(Integration):高性能存储系统通常支持多种存储访问协议,如NFS、SMB、Object,iSCS1.FC、NVMe-OF等,以满足不同应用场景的需求。1.3.3.3高性能安全规格定义对于高性能云计算场景,传统安全设备通常部署在网络边界处,无法部署在安全计算环境中,而传统网络安全软件无论是防火墙、VPN、IPS等产品都非谯消耗服务器主机算力资源,这将严里影响服务圈所承裁业务应用的客户体脸,也是当前计算环境的安全防护比较薄弱的一个里要原因。1 .算力损耗(1.oss-rate):不因开启网络安全功能而导致处理高性能网络处理性能明显下降;安全计算环境开启网络安全软件功能后,服务器主机算力资源消耗小,平均算力占用率不超过5%。2 .吞吐(Throughput):吞吐是在各种帧长的满负载双向发送和接收数据包而没有丢失情况下的最大数据传输速率,开启安全功建后,安全吞吐量可能为正常情况的70-90%o3 .延时(1.atency):开启安全功缝后,网络延时需要控制在微秒级。4 .会话数量(Numberofsession):最大会话数量指基于防火墙所能顺利建立和保持的最大并发TCP/UDP会话数,对于高性能网络,最大会活数量至少为千万级。5 .每秒新建连接数(ConneCtiOnPerSeCond,CPS):每秒新建连接数指一秒以内所能建立及保持的TCP/UDP新建连接请求的数,每秒新建连接数通常需要几十万级。6 .误报率(FaISeaIarmra1.e):误报率是指某种类型的网络业务流被误识别为其它类型网络业务流量在所有被测试网络业务流量样本中的占比,此指标需要接近于0%o7 .漏判率(MiSSrate):漏判率是指网络业务流中预期应该被识别出来的业务类型没有识别到的网络业务流量占总网络业务流量样本的百分比,此指标接近于0%。8 .识别准确率(IdentifiCationaCCUraCy):识别准确率是指测试用的网络业务流量样本中被准确识别的比例。此指标识别准确率接近100%,至少要求在95%以上。9 .隧道会话数(NumberofIPSectunne1.s):最大IPSec隧道会话数指IPSeC隧道会话所能顺利建立和保持的最大并发会话数,IPSeC隧道会话数量至少为数万级到数十万级。10 .每秒新建IPSeC会话数(IPSeCConnectionPerSecond):每秒新建连接数指一秒以内IPSeC所能建立及保持的IPSec隧道会话的数量,至少要求在几千或数万级。1.4IOD高性能云计算应用范式1.4.1 .兼容并包的公有云公有云服务是最典型的云计算应用场景,通过互联网将算力以按需使用、按量付费的形式提供给用户,包括:计算、存储、网络、数据库、大数据计算、大模型等算力形态O基础设施能力的提升会为公有云服务商带来很多优势: 拓展用户宽度:云计算服务的性能是对部分客户至关重要,云计算服务的网络带览、存储性能、响应时间等往往成为客户是否选择一家云厂商的关键因素,因此更高的性能有助于云计算厂商有效的拓展用户宽度。 降低客户成本:更高的性能意味着云计算客户可以用更短的时间完成任务,直接关系到客户的使用成本,高性能云计算平台可以帮助云服务商在价格竞争中取得身位领先。 极致资源利用:通过卸载技术降低CPU负荷意味着相同集群规模可以提供更多的可售卖资源,因此高性能云底座将直接关系到云服务商的生产能力。 提升RCH:1.。D技术不仅仅可以提升算力资源池的服务性能,在网络资源池、安全资源池与存储后端等领域也可以通过性能提升为云服务商带来更高的经济效益。整体看来,部分公有云厂商在选定技术路线后会采用自研DPU的方式来获得更高的业务定制性,但芯片研发的巨额资金投入也带来了巨大的不确定性。其余大部分云服务厂商会选择引入硬件供应商的设备来构筑自己的技术体系,此时DPU设备的规范性、可定制能力以及服务支持能力将成为至关重要的因素。1.4.3 小巧精美的边缘云边缘云是将计算、存储和网络资源部署在靠近用户、设备或数据源的位置,以提供低延迟、高带宽和实时处理地力的云计算服务。这些资源通常位于电信基站、商业园区、区域数据中心或本地服务器等边缘设备上。具有规模小,部署环境受限等特点,优势是能够减少数据传输的延迟,提高响应速度,优化带宽使用.增强数据隐私和安全性。IoD技术对于边缘云的发展来说也具有重大意义: 空间节约:由于边缘云的部署方式往往受空间限制较大,集群规模很小,因此借助IoD技术,不仅可以将工作节点组件部署在DPU上,还可以将云平台管理组件也运行在DPU中,进一步减少边缘集群服务器数量,实现对物理空间的节约。 定制性强:边缘云部署的业务往往具有很强的定制性,借助DPU的高度可编程特性,可以对实现对特定类业务的优化处理。例如5GMEC系统可以借助DPU实现更高的UPF数据转发性能与SD-WAN接入能力,视频监控边缘云系统中可以实现视频数据包的预处理等。 性能提升:DPU的网络与存储卸载能力对边缘云性随提升大有帮助,同时大边缘部署的应用对系统时延较为敏感,DPU系统的低时延能力也可以帮助边缘云系统应对更多的业务挑战。当前还处于边缘云业务大规模部署的初期阶段,此时正是边缘云技术体系引入DPU应用的最佳时机,但是同样面临的最大挑战是需要DPU系统对不同边缘云应用需求的优化与增强,对DPU的可编程能力与服务厂商的定制研发支撑能力具有很强的要求。1.4.4 "异军突起的智算云智算云平台可以为大模型、生成式A1.提供1.aaS、PaaS.SaaS等多个层面的云服务.同时满足A1.训练和推理服务两种业务需求。智算云可以以公有云或私有云等各种形式呈现,但由于其专门为AI/HPC应用设计,在整体架构上有自己的独到之处,总体架构如图1.6所示:基础设施层多采用CPU+DPU+GPU3U一体异构算力架构,提供通用算力和智算算力,满足多种算力需求。其中CPU多采用X86和ARM两种处理器架构,1.gArch,A1.pha等架构也逐渐开始进入智算算力视野。GPU的引入可以良好的支持人工智能的推理和训练业务,满足智算业务通用性需求。网络层硬件采用DPU系列产品,通过将智算的计算、存储、网络、安全、管理等卸载到DPU硬件层处理,实现在超高带宽、超特点和应用场景,满足了从基础计算到高性能计算、从轻量级应用到大规模数据处理的广泛需求。2.2.1 裸金BIJK务器性能特点: 极致性能与低延迟:裸金属服务器直接运行在物理硬件之上,消除了虚拟化层的开销,提供了接近硬件极限的性能。这使得它们成为对计算性能和低延迟有极高要求应用的理想选择,如高频交易系统、大规模数据库和高性能计算(HPC)场景。 资源独享:与虚拟机不同,裸金属服务器的资源(CPU、内存、存储、网络)完全为单一用户所用,避免了资源竞争,确保了性能的稳定性和可预测性,适合对资源隔葡性有严格要求的应用。 高度可定制与扩展:用户可以根据特定需求选择和配置硬件,如特定型号的CPU、内存大小、存储类型和网络配置,以及添加GPU等特殊耍件,以满足特定应用的优化需求。衡量指标:1 .CPU基准测试:使用SPECCPBenChmarkSUite等工具评估处理器的整数和浮点运算性能。2 .内存带宽测试:通过StreamBenChmark测试内存读写速度,反映大块数据操作的效率。3 .存储I/O性能:使用fio工具测磁盘读写速度和IoPS(每秒输入检出操作),评估存储系统的响应能力。4 .网络吞吐与延迟:使用iperf或netperf工具测试网络接口的最大吞吐和数据包往返时间。2.2.2虚拟机性能特点: 资源灵活分配与管理:虚抵机能够在一台物理服务器上创建多个独立的运行环境,每个环境都拥有自己的操作系统、内存、CPU份颔和存储。这使得资源的分配和回收变得非常灵活,适合快速开发和测试环境的搭建。 并行计算加速:GPU(图形处理器)拥有数千个核心,特别拈合执行高度并行的任务,如深度学习训练、大规模数据分析、科学计算和3D渲染,相比CPU能显著缩短计算时间。 高带宽显存:GPU配备有高带宽内存(如HBM2、GDDR),适合处理大规模数据集,减少内存访问瓶颈。 能效比:在处理特定类型的工作负载时,GPU相比CPU展现出更高的挖源效率,有利于降低长期运营成本。衡指标:1 .浮点运算性能:通过FP32、FP1.6、INT8等不同精度的TensorF1.OPS(TF1.OPS)衡GPU的计算能力。2 .显存带宽:衡量GPU内存的数据传输速度,对处理大型数据集至关重要。3 .并行处理效率:以深度学习为例,测量每秒处理图像数量(ImagesPerSecond1IPS)或模型训练时间,评估GPU加速效果。4 .功耗与散热:考虑GPU服务器在高负载下的能源消耗和散热需求,评估其在数据中心的运维成本。2.2.5应用场量与选择策咯在实际应用中,往往会根据业务特点选择使用不同的云计算服务: 裸金属服务器:适合对性能和安全性有极端要求的场景,如核心数据库、大规模数据分析、金融交易系统、高性能计算等。.虚拟机:适合需要灵活资源分配、快速部署和低成本试错的场景,如开发测试环境、网站托管、轻量级应用部署。 容器:适合微服务架构、持续集成的续部署(CI/CD)流程、快速迭代的软件开发.以及需要快速扩展和高密度部署的场景。 GPU服务器:针对深度学习、科学计算、3D图形渲染、大数据分析等高度并行计算需求,以及对计算效率和能效比有特殊要求的应用。综上所述,选择合适的云服务形态需综合考虑业务需求、性能要求、成本预算和运维能力。随着技术的不断进步,如智能调度、自动化运维、云原生技术的发展,未来云服务将更加灵活、高效,更好地服务于多样化的业务场景。火墙、负载均衡等)以软件的形式运行在通用服务器上,从而提高了资源利用率、降低了硬件成本,并增强了灵活性和可扩展性。第一代NFV网关虽然实现了功能的虚拟化.但在性能、可管理性和集成度上仍有待提升。SDN技术的引入,使得网络控制层面与数据转发层面分黑,网关技术也随之升级。SDN集成网关能够与SDN控制器配合,实现网络策略的集中控制和动态配置,提高了网络的自动化水平和响应速度。SDN网关不仅能够执行传统网关的功能,还能动态适应网络拓扑变化,优化数据路径,为云环境提供了更高的灵活性和可埔程性。随着网珞流量的持续增长,网络数据包处理效率的问题开始凸显,对应的云计算网络技术也在持续演进。虚拟交换机经过1.inUX内核交换机、用户态DPDK交换机阶段,现在通过DPU、智能网卡等设备的硬件卸载能力,来进一步提升虚拟交换能力。传统虚拟交换机的大部分数据包处理任务(如封包转发、V1.AN标记/去标记、流量控制等)依赖于主机CPU。随着虚拟机数量的增长,网络流量的增加,CPU负担加重,成为性能瓶颈。DPU通过将这些网络处理任务从CPU卸载到专门的硬件设备上,显著减轻了CPU的压力,提高了整体系统性能和效率。另外DP1.J等设备通常配备高性能的网络接口和加速引擎,能够以硬件加速的方式处理网络数据包,相比软件实现,其处理速度更快,延迟更低,吞吐量更高I)2.4 存储业务分析在云计算业务模型中.存储性能要求在不同场景下扮演着关便角色。大数据分析需要高吞吐、低延迟和良好的扩展性;人工智能应用则侧歪于高速数据读写和一致性;在线交易场景要求低延迟、高并发读写和数据可靠性;而多媒体存储与流媒体场景则需要高带宽、低延迟和数据稳定性。这些场景下的存储性能需求突显了各自的重点,包括吞吐量、延迟、可靠性和扩展性等关键指标。因此,在设计和优化存储系统时,必须针对特定业务场景的需求进行有针对性的考,以确保系统能够满足不同场景下的性能要求。 大数据分析场景:在大数据分析场景下,存储系统需要具备高吞吐量和低延迟的特性,以支持快速的数据读取和处理。同时,大数据分析通常涉及大规模数据的并行处理,因此存储系统需要具备良好的扩展性和并发处理能力。 人工智能应用场景:对于人工智能应用,存储系统需要具备高速的数据读取和写入能力,以支持大规模的数据训练和推理过程。低延迟和高IoPS对于实时推理和训练任务至关重要,同时数据的一致性和可兆性也是关键指标。 在线交易场景:在线交易场景对存储系统的响应速度和数据一致性要求较高。存储系统需要具备低延迟、高并发读写能力,以确保交易数据的实时性和准确性。同时,数据的持久性和可靠性也是关键考量因素。 多媒体存储与流媒体场景:在多媒体存储和流媒体场景下,存储系统需要具备高带宽、高吞吐量和低延迟的特性,以支持大规模的多媒体数据的存储和传输。同时,数据的稳定性和可靠性对于保障媒体数据的完整性至关重要。2.5 安全业务分析随着云计算技术的快速发展,高性能云计算对网络架构和弹性提出了更高要求,基础设施暴露了更大的攻击面,业务数据更加集中,数据价值越来越高,黑客攻击越来越多,企业面临着更加复杂的安全威胁。高性能云计算改变了传统数据中心的网络和业务模型,同时给网络安全建设带来了巨大的挑战,需要高性建、弹性的分布式安全防护体系。传统安全方案采取集中式部署方式,可以有效防御南北向网络攻击,无法应对东西向流的网络攻击,无论是从成本还是机房空间等其他方面考虑无法部署到计算环境中。攻击者一旦进入网络,通过内部网络横向发起扩散攻击,入侵更多的主机,扩散范围包括VPC之间和VPC内部各个主机、虚机、容器等。为了解决云计算东西向网络攻击,客户通常采用基于网络引流模式的安全资源池,或者采用基于代理模式的独立虚拟防火墙进行防护,这两种旁路安全防护方式,在防护效率、复杂度、覆盖度等多方面面临如下挑战: 网络引流路径长,产生额外开销,防护效率低。 需要操作交换机,网络操作复杂,出借风险增加。 无法对跨虚拟机、容器的流量进行隔离防护。 服务器处理防火墙、加解密等安全功能性能低,尤其是国产化服务器平台。 需要增加颔外的服务器,占用机房物理空间,综合成本增加。通过上述安全性能分析,针对薄弱的安全计算环境,云计算需要一种新的网络安全防护体系,这种防护体系可以面向租户进行贴身防护,满足云内虚机/容器安全隔宙,具有高安全、高性能、分布式部署能力,可以与第三方安全软件控制面进行适配,具有弹性犷展的能力。安全防护体系不应该依赖于业务服务器算力,不影响业务应用的效率,不增加颔外的机房空间。2.6 平台服务业务分析2.6.1 IdK库通常我们希望高性能数据库应具备高并发处理能力、低延迟响应、高TP/AP性能、低资源使用率、高可靠性、可扩展性、数据安全等关键特性。在云计算业务场景下,分布式数据库的部署通常具备更好的资源弹性,以及采用“存算分赛”的部署方式,相较于传统的“存算一体”架构,这对网络提出了更高的性能要求。分布式数据库的业务场景分为计算密集型、IO密集型和网络密集型,分别容易造成计算瓶颈、IO瓶颈和网络瓶颈,传统方案中,一般都是通过增加相对应的资源来解决相应的业务瓶颈,这无疑增加了相应的建设成本。继续细分业务场景,我们简单分为O1.TP场景和O1.AP场景,O1.TP场景下,我们对数据席的高并发处理能力、低延迟响应、高TP性能提出了较高的要求。O1.AP场景下,我们则对高AP性能、低资源使用率提出了较高的要求。再继续下沉到IaaS基础能力上,高并发处理能力,需要高计算处理能力、高带宽、高I。性能(高带宽/高IOPS);低延迟响应需要网络和IO的低延迟;资源使用,一方面依赖数据库本身的功能实现,以及任务本身,另一方面也取决于IaaS整体架构对于资源使用的优化能力。2.6.2 中间件云计算场景下,中间件服务通常都是分布式的部署方式,服务状态或持久化数据通然存储于云盘或分布式文件系统中.同样需求更高的网络和IO性能。高性能中间件应具备高吞吐量、低延迟、高可用性、可扩展性、灵活性、易用性、容错性等多个特性。从有无状态或持久化数据的角度上,我们可简单将中间件分为有状态中间件和无状态中间件。有状态中间件,由于通常有大量的数据从数据盘进行读写,因此对IO性能需求较高;无状态中间件没有数据落盘,通常更偏向网络型应用场景,更依赖网络性能。同时,两者一般都有低延迟的性能需求,因此需要依赖网络和IO的低延迟。2.6.3 服务治理伴随着云原生技术的发展,微服务架构已经成为现代软件开发的主流架构。在微服务架构中,由于原来的单体应用被拆分为众多的微服务组件,一次业务请求通常需要多级链式调用才能完成处理。因此,通过服务治理技术在众多微服务容器间完成业务调度的工作就显得尤为关键。当前许多开发框架均能提供服务治理的技术栈并被广泛适用,如SpringC1.oud.Dubbo等。但是一般都存在Setup困难,绑定开发语言,增加额外组件与业务逻辑侵入等问邈,需要开发者深入了解所使用的框架特性与琉程模式,才能取得较好的服务治理效果。相比之下,SerViCeMeSh技术具有明显的优势,业务开发人员只需关注自己的业务逻辑,其余像服务注册与发现、动态路由与业务追踪等功能,全部通过SerViCeMeSh体系的边车容器完成。但是,SerViCeMeSh体系中边车容器的引入,造成了整体通信链路的性能降低,这又成为了新的痛点。因此,在云计算场景下,高性能服务治理是在微服务时代必须要解决的核心问题,一方面要能够提供兼具高吞吐与低时延性能的方案,另一方面也需要尽量减少资源消耗。第3章高性能云计算基础设施建设路径3.1 通用算力技术分析3.1.1 CPU的计算能力发展历程CPU计算能力的发展大致可分为以下几个阶段:1.早期发展(1971-2000):从1971年英特尔推出首款商用微处理器4004开始,CPU性能主要通过提高时钟级率和改进微架构来提升。这个时期遵循摩尔定律,晶体管数量大约每18-24个月翻一番。2.多核时代(2000-2010):雅核心频率提升遇到瓶颈后,处理器厂商转向多核设计。这一时期出现了双核、四核等多核心处理器,通过并行计算提高性能。3.异构计算与专用处理器(2010-2015):除了继续提高核心数量,处理器开始整合GPU等专用单元,形成异构计算架构。同时,针对特定应用如A1.的专用处理器开始出现。4.近10年的发展(2015-2024): 核心数量持续增加:消费级CPU从四核发展到现在的16核甚至更多,服务器CPU则已达到64核甚至128核。 制程工艺不断进步:从22nm、14nm,到现在主流的7nm、5nm,甚至已有3nm制程的CPU问世。更先进的制程带来了更高的能效比和更强的性能。 架构创新:各大厂商不断推出新的CPU架构,如英特尔的Sky1.ake.AMD的Zen等,通过优化指令集、爆存结构等提升性能。 异构计算:CPU在同一芯片上越来越多地集成了GPU、A1.加速器和安全处理器等专用组件。 3D封装技术:如AMD的3DV-Cache技术,通过堆叠更大容的线存来提升性能。 大小核设计:借鉴移动处理器的设计理念,将高性能核心和高能效核心结合,如英特尔的Aider1.ake架构。 A1.加速:集成专门的A1.处理单元,以应对日益增长的A1.计算需求。 安全性增强:加入更多硬件级安全特性,如英特尔的SGX、AMD的SEV等。在具体性能方面,以消费级CPU为例,2014年的顶级CPU(如英特尔i7-4790K)单核性能约为2500points(Passmark单核测试),多核性签约为100OOpoints而2024年的顶级CPU(如AMDRyzen97950X)单核性能已达到4000+points,多核性能超过50000POints1IO年间性能提升了约5倍。服务器CPU的进步更为显著。2014年的高端服务器CPU(如Inte1.XeonE5-2699v3)拥有18核心,36线程,多核性能约为24000pointso而2024年的顶级服务器CPU(511AMDEPYC9654)拥有96核心,192线程,多核性能超过150000points,性能提升超过6

    注意事项

    本文(2024下一代高性能算力底座技术白皮书-70正式版.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开