2024下一代高性能算力底座技术白皮书-70正式版.docx
《2024下一代高性能算力底座技术白皮书-70正式版.docx》由会员分享,可在线阅读,更多相关《2024下一代高性能算力底座技术白皮书-70正式版.docx(45页珍藏版)》请在课桌文档上搜索。
1、1.1.2 虚拟机211.1.3 容器221.1.4 GPU服务器221.1.5 应用场景与选择策略232.3 网络业务分析242.4 存储业务分析252.5 安全业务分析262.6 平台服务业务分析272.6.1 数据库272.6.2 中间件272.6.3 服务治理283*鹰性能云计91/晚修293.1 通用算力技术分析293.1.1 CPU的计算能力发展历程293.1.2 云计算卸载技术为CPU算力提升带来的优势303.1.3 I。D技术为HyPerViSor卸载提供最佳支撑323.2 智算算力技术分析343.2.1 GPU的计算能力发展历程343.2.2 GPU算力提升带来与网络吞吐的矛
2、盾现状353.2.3 无损网络技术为A1.训练带来的性能提升363.3 云计算网络技术分析383.3.1 云计算网珞是算力连通的基础383.3.2 云计算网关是算力开放的门户393.3.3 高性能云计算需要网络卸载进行性能提升393.4 云计算存储技术分析423.4.1 单一存储技术方案无法满足云计算要求423.4.2 云存储需要引入新技术突破性能限制433.4.3 I。D技术可以提升存算分离架构下的处理性能443.5 云计算安全技术分析453.5.1 纷繁庞杂的云计算安全体系453.5.2 安全处理性能提升需要异构算力加持463.5.3 安全卸载技术在高性能云安全中至关重要473.5.4 D
3、PU将成为可信计算服务中的重要组件473.5.5 I。D技术助力构建“零信任”网络483.6 云计算服务治理技术分析503.6.1 服务治理技术是云原生时代的重要基础503.6.2 传统服务治理技术的局限性503.6.3 I。D技术带来新的服务治理模式513.7 IaaSonDPU(IoD)高性能云计算全景514育性修云计算系传架构持演进534.1 高性能云计算可观测性建设534.1.1 可观测建设是云计算运维体系的关键环节534.1.2 当前观测方法所面临的难题544.1.3 高性能云可观测性建设建议554.2 轻量级虚拟化系统演进架构革新564.2.1 轻量级虚拟化技术演进路线564.2.
4、2 轻量级虚拟化技术为云计算带来新气象574.2.3 DPU+轻量级虚拟化=新一代技术革命584.3 “一云多芯”系统庭合594.3.1 一云多芯1的应用困境594.3.2 I。D技术有肋于完善“一云多芯”的服务评估体系595育性鲁云计算为PaaS1.K务JRgB615.1 高性能大数据计算服务615.2 高性能中间件服务625.3 高性能数据库服务626*未来AM64第1章云计算发展趋势1.1 云计算系统已经成为数字世界的“操作系统”1.1.1 云计算的发展历程云计算技术的最初起源可以追溯到20世纪50年代ChristopherStrachey发表的CrimeSharingin1.argeF
5、astComputer)论文,开启了对虚拟化技术探讨的大门。随后的60年代,以旧M与M1.T为首的产业与学术巨头纷纷投入相关研究并在虚拟化领域取得了众多突破,最具代表性的事件是1974年,Gera1.dJ.Popek和RobertP.Go1.dberg发表论文(Forma1.RequirementsforVirtua1.izab1.eThirdGenerationArchitectures,提出了波佩克与戈德堡虚拟化需求(PopekandGo1.dbergvirtua1.izationrequirements)和I型与I1.型虚拟化类型。随着虚拟化技术的不断成熟与基础算力设施能力的提升,使得具
6、备一弹性、按用计量、在线、无限这几个云计算典型特征的业务类型逐步具备了落地应用的可行性.期间虚拟化技术领域也涌现出了Qemu、Xen、KVM等众多明星项目。终于在2006年,Goog1.e时任CEOEricSchmidt在搜索引擎大会上首次提出PoudComPUting-概念.亚马逊在同年成立了亚马逊网络服务公司(AWS),云计算产业轰轰烈烈的发展起来。2010年,OPenStaCk项目创建,标志着云计算技术进入平民化时代,将云计算行业发展正式推向了高潮。云计算技术的另一个分支,容器技术起源于20世纪70年代UnixV7引入的Chroot工具,并在2009年以1.XC形式成为1.inux内核的
7、容器管理器。容器技术凭借显著的轻化优势取得快速发展并借助CNCF社区进行大力推广,在2018年发布的云原生技术定义中,容器被确立为云原生的代表技术之一。随着业务的多样化发展,云原生技术逐渐显现出强大的统治力,成为未来发展的主要方向。伴陵酒云计算的蓬勃发展,当前世界上的主要算力基础设施几乎都是通过云计算技术进行管理与调度,可以说云计算技术已经成为数字世界的操作系统1.1.2 云计算技术特点云计算的发展呈现出显著的业务驱动特征,当前AIGC、IoT、5GB5G.Web3.0等行业的发展一方面要求云计算技术随为其提供融合性的底层技术支撑,能够按需以裸金属、容器或虚拟机形式承载上层业务,另一方面对云计
8、算性能也提出了前所未有的要求。于是我们看到,OpenStaCk社区涌现出大容器相关项目,如ZUn、Magnum、Kyrur等,CNCF社区中的KUbeVirtMetaI3等项目也逐渐成熟,这些都是为提供多模态服务类型做出的努力。同时.融合了CPU、GPU与DPU的“3U一体”新型服务器成为当前云计算算力基础设施的主力形式,CPU负责调度管理与运行业务进程,是通用“算力”的承载组件,GPU负责提升大规模并行运算能力,是智算“算力”的核心引擎,DPU负责算力集群菽础设施卸载与集群的联通,三者通力合作,构成了高性能云计算的菽础底座。历史的经验告诉我们,技术的发展总是呈现出摆旋式上升的样貌。也总有人调
9、侃,当前的问题都可以在故纸堆中找到答案。虽然异构运算并非新鲜事物,但随着单项技术的突破与不同技术领域间的融合,在当下,如图1.1所示的基于“3U一体”的融合算力基咄设施构建的融合性云计算平台,正是支撑不断爆发的上层业务应用运转的最佳实践方案。算力中心i三P算力节点J1.力单元CP5通用算力GPU-智能算力DPU-基础算力维护应用生态大模型训练/推理远程资源本地化局部资源管理视频/VR/AR异构资源虚拟化B1.1:3U一体”融合基础设施总体来说,当前云计算技术的发展呈现出如下典型特征:业务承载多模化为了满足业务向云端平滑迁移的需求,会要求云平台能够适配业务系统的当前情况,从容器、虚拟机、裸金麻中
10、选择最佳的云上承载方式。例如对逐件设施有特殊需求的业务褥要通过裸金属承载,对操作系统有特殊需求的业务以虚拟机承载,其余业务以容器承载。计算性能极致化在A1.GC大爆发的背景下,上层业务系统从网络性能、存储性能、安全性能等众多方面都对云平台提出了更高的要求,百G级别的以太网络接入能力已经逐渐成为云计算系统的标配,400G的无损网络接入也逐渐在行业落地。系统构成组件化云计算技术体系越来越庞杂,单独的封闭体系很难满足来自业务系统层出不穷的各种需求,良好的模块划分与AP1.设计已经成为主流云计算系统的构成基础。“开放、可替换”模式已经成为云计算技术架构的主旋律。1.2A1.产业催生高性能云计算需求1.
11、2.1 A1.技术发展柢述人工智能(Artificia1.Inte1.1.igence,简称A1.)是指通过计算机技术和算法模拟人类智能的一种技术。目标是使计算机能够模拟人的思维方式和行为,让计算机可以像人类一样思考和学习,并最终实现自主决策的智能化行为。进入21世纪后,互联网的普及和大数据的爆发为A1.提供了丰富的训练材料,加速了算法的发展。2006年加拿大Hinton教授提出了深度学习的概念,极大地发展了人工神经网络算法。2012年,AIexNet在ImageNet竞赛中取得突破性成果,标志启深度学习时代的到来。当前人工智能处于深度学习和生成式A1.大发展的时期。过去十多年基于深度学习的人
12、工智能技术主要经历了如下的研究范式转变:从早期的1数据标注监督学习“的任务特定模型,到“无标注数据预训练+标注数据微调”的预训练模型,再到如今的“大规模无标注数据预训练+指令微调+人类对齐的大模型,经历了从小数据到大数据,从小模型到大模型,从专用到通用的发展历程,人工智能技术正逐步进入大模型时代。自2017年Goog1.e提出TranSfOrmer模型以来,A1.大语言模型(1.1.M,1.arge1.anguageMode1.)已取得飞速进展。2022年底,由OPenA1.发布的基于GPT3.5的语言大模型ChatGPT引发了社会的广泛关注。在“大模型+大数据+大算力11的加持下,ChatG
13、PT能够通过自然语言交互完成多种任务,具备了多场景、多用途、跨学科的任务处理能力。以ChatGPT为代表的3 .分布式训练:云计算平台支持模型的分布式训练,通过多节点并行计算,可以处理更大规模的数据集和更复杂的模型.同时减少训练时间。这对于大型语言模型、图像识别模里等尤为重要。4 .模里优化:利用云计算资源,可以进行大量的模型调优实的,比如超参数调优、模型架构搜索等,找到最优模型配厘。云计算的灵活性允许数据科学家和工程师快速迭代,提高模型性能。5 .存储与IO性能:高速的存储系统和优化的IO性能减少了数据读写瓶颈,确保训练过程中数据的快速存取,这对于大规模数据处理和模型训练至关重要。6 .资源
14、调度与自动化:云平台的智能资源调度能力可以根据A1.训练任务的需求动态调整资源分配,保证计算资源的高效利用。自动化工具和服务进一步简化了模型训练流程,降低了操作复杂度。7 .成本效益:云计算的按需付费模式降低了进入门槛,使得企业和研究机构无需前期大量投资硬件设施,就可以开展高级A1.项目,促进了A1.技术的普及和创新。缘上所述,云计算不仅提供了必要的基础设施来支撑A1.训练,还通过其灵活、高效、可扩展的特性,直接促进了A1.模型训练质和效率的提升,推动了A1.技术的快速发展和广泛应用。1.2.3主流A1.训练的云计算支撑架构智算云数据中心架构可划分为基础设施层、管理调度层、大模型平台层、AIG
15、C应用层,各层的作用说明如图1.2所示:n1.2:智算中心架构基础设施层适度超前建设,满足面向未来客户的算力多元化需求,基于开放计算,兼倾软硬件将DPU能力引入到云原生技术栈中,并将Worker节点的基础设施组件完全运行在DPU中。MMIefBMComponentVM-ComponeMC1.uvter-Pr*d*CSKontroNr1.me-Conro1.tefX-Comro1.1.erSeMCMthCNIorttroUfWorker1.5:IoD技术架构图如图1.5所示,典型的IoD技术部署在DPU上的核心组件包括: BM-Agent:裸金属业务组件,裸金属系统盘采用DPU虚拟的磁盘,通过在
16、虚拟磁盘中挂载用户镜像,可以实现裸金属业务的快速切换与业务温迁移。 VM-Agent:虚抵机业务蛆件,通过监控本机虚拟机声明和实例资源,实现对服务器上所有虚机实例的管理。 CM-Agent:容器业务组件,定期从Kubernetes接收新的或修改的Pod规范,并确保Pod及其容器在期望规范下运行。 CNI-DPU:网络插件,提供高性能网络卸载方案,同时提供高性能网络接入组件、可以灵活高效对接各种外部网络。 CSI-DPU:存错插件,提供高性能存储卸载方案,同时兼容多种存储方案。,Sec-DPU:安全插件,提供高性能分布式安全方案,是集群网络安全策略执行的储点O,ServiceAgent:服务治理
17、组件,可以根据业务需要通过流量劫持的方式实现服务治理功能,为虚拟机、容器以及裸金属业务提供通用的服务治理能力。,Image-Preheater:镜像预加载组件,对通用的基础镜像进行多节点媛存,容器优先调度使用具有预热镜像的Worker节点,以避免其频繁拉取远端镜像。 TargetAbstraction:驱动抽象层,用来对接各种DPU产品,屏蔽底层差异,需要与不同DPU开发套件进行适配。提供极高的带宽,以确保数据可以在节点间快速流动,减少传输瓶颈。例如,在科学计算、大数据处理、深度学习训练等场景中,数据集可能达到PB级别,要求网络带宽至少达到百GB甚至更高。2 .延迟(1.atency):对于需
18、要频繁通信和数据交换的应用,网络延迟需要控制在微秒级甚至纳秒级,以保证系统的响应速度和实时性。3 .并发连接(Concurrency):在高负载和大规模分布式环境中,单节点需要同时处理成数万并发连接,确保每个连接都能得到及时响应。4 .网络服务质(QoS):不同类型的数据流和服务对网络资源的需求和优先级不同,QoS功能允许网络管理员根据服务类型动态分配带宽和其他资源,确保关键应用的性能不受非关键流量的影响。5 .冗余:(Redundancy)高性能网络应具备高度的弹性和冗余设计,即使部分组件出现故障,也能保持网络的连通性和稳定性。这意味着网络需要有多条路径和备份卷路,以及自动故障检测和恢复机制
19、。6 .可管理性(ManageabiIity):网络应易于管理和监控,提供详细的性能指标和日志记录,韵肋运维人员及时发现和解决问胭。1.3.3.2高性能存储规格定义在云计算场景下,存储处理性能直接影响着系统的整体性能和用户体蚣,高性能存储对于处理性能的规格定义通常包括以下关便指标和参数:1 .吞吐量(ThrOUghPUt):吞吐量是指存储系统能够处理的数据量或信息流量。高性能存储目前主流性能在100-400Gbs,根据云规模的不同略有浮动。2 .IOPS(InpuVOutputOperationsPerSend):10PS是指存储系统每秒钟可以执行的输入/输出操作次数。高性能存储后端需要提供至
20、少千万级的总IOPS数据处理能力,特定场景如AIGC应用中,单个存储前蹄也需要百万级的单班盘IOPS能力。3 .延迟(1.atenCy):存储系统的延迟是指数据请求从发起到完成所需的时间。考虑到存储系统的额外延迟开销,高性能云计算的延迟总体开销应控制在亚冬秒级(即百微秒量级)。4 .容量(Capacity):存储系统的容量指的是其可以存储的数据量,在高性能存储方案中,存储容量可以达到EB级。5 .鲁棒性(Robustness):高性能存储系统需要具备高可靠性和高可用性,以确保数据的安全性和持续性。这包括数据冗余、故障恢复能力、备份与恢复机制等。6 .数据保护(Security):高性能存储系统
21、需要提供有效的数据保护机制,包括数据加密、访问控制、数据备份等,以确保数据的安全性和完整性。7 .扩展性(Extendibi1.ity):高性能存储系统应具备良好的扩展性,能够根据掂求灵活扩展存储容Ja和性能,以适应不断增长的数据需求。8 .融合性(Integration):高性能存储系统通常支持多种存储访问协议,如NFS、SMB、Object,iSCS1.FC、NVMe-OF等,以满足不同应用场景的需求。1.3.3.3高性能安全规格定义对于高性能云计算场景,传统安全设备通常部署在网络边界处,无法部署在安全计算环境中,而传统网络安全软件无论是防火墙、VPN、IPS等产品都非谯消耗服务器主机算力
22、资源,这将严里影响服务圈所承裁业务应用的客户体脸,也是当前计算环境的安全防护比较薄弱的一个里要原因。1 .算力损耗(1.oss-rate):不因开启网络安全功能而导致处理高性能网络处理性能明显下降;安全计算环境开启网络安全软件功能后,服务器主机算力资源消耗小,平均算力占用率不超过5%。2 .吞吐(Throughput):吞吐是在各种帧长的满负载双向发送和接收数据包而没有丢失情况下的最大数据传输速率,开启安全功建后,安全吞吐量可能为正常情况的70-90%o3 .延时(1.atency):开启安全功缝后,网络延时需要控制在微秒级。4 .会话数量(Numberofsession):最大会话数量指基于
23、防火墙所能顺利建立和保持的最大并发TCP/UDP会话数,对于高性能网络,最大会活数量至少为千万级。5 .每秒新建连接数(ConneCtiOnPerSeCond,CPS):每秒新建连接数指一秒以内所能建立及保持的TCP/UDP新建连接请求的数,每秒新建连接数通常需要几十万级。6 .误报率(FaISeaIarmra1.e):误报率是指某种类型的网络业务流被误识别为其它类型网络业务流量在所有被测试网络业务流量样本中的占比,此指标需要接近于0%o7 .漏判率(MiSSrate):漏判率是指网络业务流中预期应该被识别出来的业务类型没有识别到的网络业务流量占总网络业务流量样本的百分比,此指标接近于0%。8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 下一代 性能 底座 技术 白皮书 70 正式版

链接地址:https://www.desk33.com/p-1646927.html