YD_T 4390-2023 AI服务器及能力平台测试方法.docx
《YD_T 4390-2023 AI服务器及能力平台测试方法.docx》由会员分享,可在线阅读,更多相关《YD_T 4390-2023 AI服务器及能力平台测试方法.docx(34页珍藏版)》请在课桌文档上搜索。
1、ICS33.(M0.40CCSW2YD中华人民共和通信行业标准YD/T43902023AI服务器及能力平台测试方法TestspecificationsforAIserversandcapabi1.ityp1.atforms2023-11-01实施2023-07-28发布中华人民共和国工业和信息化部发布目次前三IIII范困I2规范性引用文件I3术谱、定义和缩略谱13.1 术语和定义13.2 缩略泌24测试环境35 A1.通用平台测试45.1 平台技术架构45.2 数据集及预处理类75.3 数据标注业务85.4 蟆型开发业务95.5 模型推理业务I5.6 深度学习工具类125.7 运智管理业务14
2、5.8 平台安全性185.9 平台可靠性185.10 平台扩展性205.11 通用A1.能力216 A1.限务器测试226.1 产品信息检脸226.2 菸本限置检骁226.3 可靠性测试296.4 性能测试296.5 能耗测试30本文件按照GB,T1.1-2020标准化工作导则笫】部分:标准化文件的结构和起草规的规定内容起草.请注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别这些专利的货任.本文件由中国通信标准化物会提出并归口.本文件起草单位:中国信总通信研究院、中国电信集团有限公司、北京百度网讯科技有限公司。本文件主要起草人:郭亮、高飞、赵继壮、李士保、陈子开、谢丽娜、李洁、王峰
3、、郑超、程帅、康亚京、张学聪、王少鹏、盛凯、芦帅、郑常至贾冠一张巧月.AI服务器及能力平台测试方法1范围本文件规定了AI服务战及其所承致的A1.能力平台的测试方法,主要包括服务器和平台两个方面.服务器方面包含对A1.服务器基本配置检验、功能、性能、可靠性、能耗等方面的测试方法:平台方面主要包含对技术架构、功能、安全性、可靠性等方面的测试方法。本文件适用于对R1.服芬器及配套A1.能力平台的测试选型.2规范性引用文件本文件没有规范性引用文件。3术语、定义和1语3.1 术语和定义卜列术语、定义适用于本文件。3.1.1模型mode1.训练完的结果文件和配置文件集合(包括网络结构、参数等),3.1.2
4、引擎engine将模型部署为栖定服务时,模型可进行推理的容器环境.3.1.3能力abi1.ity模型部署完成后提供稔定访问的服务,能力部署时包括模31和引繁两部分.注:业务层需提阳伸洲功能,对各能力有版本、调用权限的管理。3.1.4数据9(处理datapreprocessing对原始数据进行必要的清理、集成、转换、齿散和规约等一系列的处理工作.注:处理有多种方法,例如数据清理、数据集成、数据交换、数据方的等,3.16特征工程featurecn&inccring本质是一项工程活动,目的是最大程质地从原始数据中提取特征以供疗法和模型使用.3.1.6关联分析associationana1.ysis通
5、过研究已经产生的数据,找出存在于项目集合之间的关联模式,在具备关联性情况下通过其中一个项集对另外一个项集进行预测。3.1.7敷据标注dataannotations数据标注员借助标注工具,对图像、文本、谙音、视频等数据进行拉框、描点、转写、语义分割等操作,以产出适合机器学习数据集的过程。注:通常数据标注的类型包括图像标注、语音标注、文本僦也视颇标注等种类,标记的小本形式由质i洵枢、3D国框、文本转录、图像打点、目标物体轮喊等.3.1.8超参数hyperparameter在机器学习中,超参数是指在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据,通常情况下,需要对超参数进行优化,给学习机
6、选择一蛆最优侬参数,以提高学习的性能和效果.3.1.9租户tenant可根据自身需求对租用的系统实例进行个性化配置的主体,且保证同一平分下的数据隔离.3.2 缩略语下列缩略语适用于本文件AI人工智能Artificia1.Inte1.1.igenceBIOS刘本输入愉出系统BasicInputOutputSystemBMC基板管理控制器BaseboardManagementContro1.1.erHBA主机总线适配器Hs1.BusAdapterIPMi智能型平台管理接口Inte1.1.igentP1.aifbimManageineniInterfaceKVM键盘、显示涔、以标KeyboaniVi
7、deoMouseOC:R光学字符识别Optica1.CharacterRecognitionPCIE商速外设互联标准Periphera1.ComponentIn1.erconncc1.ExpressRAID独立磁盘冗余阵列RedUndantArrayOf1.ndependcntDisksSAS一行连接SCSI接口Seria1.AttachedSCSISA1.A小行高级技术附件Seria1.AdvancedTechno1.ogyAttachmentSNMP简单网络管理生议Simp1.eNetworkManageinen1.Protixro1.SSD同态硬盘So1.idStateDrives4满试
8、环境A1.HIi务湍及能力平价参考配置要求见表I.1A1.务及能力7自KEH求分类GPV服务器要求配置Ia台)K2(1)应用场景深度学习瑞线训缥场景在级推理场景CPU单颗CTt核数1212核主频2.3(GHz)2.3(GHZ)数量2个2个内存32GB32GB内存娱率2400MHz24丽Z类型DDR4DDR4r12个12个硬盐1(系统就)480GB180GB硬盘1硬Ia咨数SSD(企业级)SSD(企业级)接口类型ST(6Gbits)SAT(6Gbits)ftft2个2个硬盘Iraid要求IUIDO,RR1.DOJ硬12(数据盘)1.92T1.92T硬盘2SSD(企业级)SSD(企业级)接口类型S
9、jT(6Gbits)SAT(6Cbits)6个6个硬速2raid要求RAIDO11,5.6,KM支持电池保护或电容保护方案,提供掉电保护)RA1.DOJ,5,6,10(支柠电池保护或电容保护方案,提供掉电保护)缓存X2G接口类型SAS(12Gbits)SASGPU卡24G24G1A1.展务及力台TEU*分类GFt服务器要求配-M1.-)配置2(1台)应用场景深度学习点歧训嫁场屋在线推理场景GPU卡数景8个8个CPU与GPU超比1:8IMPae拓扑管理网卡xiPMiti.板栽)IX1.PM1.(电口,板拗管理W卡数盘I个1个扩展要求1内存牯梏内存插梏扩爬Sfrt2124城加是否热物城是或他电源也
10、置220VAa白金级以上电理模块,满配.N+N冗余220VAC,白金级以上电源模块.商用.N+N冗余风扇配置满配,支持风扇N+I冗余满闿,支持风审NT冗余USB接口不少于2个不少于2个Jt架要求上架套件上架睿件5A1.通用平台测试5.1 平台技术渠构&1.1平台技术架(求用例名称平台技术架构要求预置条件记录系统部X过程,并在部署全部完成后进行校杳测试步碟1)检杳是否系统上要组件均运行于集群之上,井H资潴两改找为K8S扩剧两度器非默认调度器.2)检查平台是否具径开放性奥构,提供业务的REsTAP1.控制搂口,支持AI组件的集成,3)检查平台监控数据库是否支持指标监控系统,例如PrcaCthCUS
11、等.1)检查平台是否支持集中H志系统,例如E1.K或EFK等预期结果D步骤I可登录到K8SdHshh3rd或通过kubtI杼到容器化运行的平台调慢器组件、门户组件、标注组件、模型训练、模型管理、模型服务的功能扭件,2)步舞2中可通过restAP1.客户端成功创建训炼和推理任务.杳询任务执行状态,并在nb门户中看到这些通过API创建的任务.3)步磔3中可在指标监控系统中实时君列系统9控数据,.1)步骤,1中可在集中H志系统中实时对川户日志和系统H志进行搜索通过标点饮期结果全都满足5.1.2资源EM*Binpack埠法Jf1.fJI名稗费流管理编排商-BinPaCkJr法预置条件GPIJ集桶无运行
12、中的训统作业测试步骤D在模型训涿页面按期序提交I个通机Ik宽源需求的任务.2)在GPU联务耦的节点监控页面杳看两个物理节点各自承我的任务统计预期结果步骤2中可以赤到一个节点上有,1个作业,另一个节点上有0个作业通过标准:预期结果全部满足5.1.3潮”9NMHFmk算於用例名称资源管理编柞器-排队算法预置条件/测试步臊D设置项目喷源配制为4张GPtJ卡.2项目P用户U1.提交4卡任务T1.3)恃11成功运行时,项目P用户U2提交2卡任务T2.4)防后在界面停止T1.,观察T2预期结果D步骅3平台界而显示T2囚资源不足处于挎队等待状态.2步骤1防着TI结束运行新放资源,T2获取以海自动进入运行状态
13、通过标准预期结果全部满足5.1.4冼ft算法用例名称资源管理承排器-优先级算法但粗条件/测试加舞在租户空间内,设定四个不同等级的项目.并同时启动基于GpV的任务HU切结果D平台界面支持设定项目不同S1.A等汲.2)在资源不足的情况下.高优先级的项H优先执行通过林准预期结果全部演足5.1.5业务流利副精|用例名称业务潦程褊排牌预置条件/测试步歌I)Het系统是否具备深度学习端到端业务流程编执器.2)直看前水线弓I整是否可以统一编建深度学习各个流程限期结果1)步骤1可在后台看到业务编排正实例.2)步骤2编扑器可以对数据饮处理、校电训练进行条龙流程连接,支持各个洵程容器间输入就出数据集的自动传递.3
14、)揄排器罐同时支持按照时间进行周JW调度.4)编加器提供AP1.投创接口通过标准预期结果全部满足5.1.6m*Jf1.例名称镜像仓库预置条件测试步磔I)妁过平台贝面炎后摊像仓库中H1.置的饰像内容,2)通过平台端写、构比钺愧.发布镜像到德像仓库预期结果D步舞I中项目人员可以看到系统公共境像和私有镜像.至少包括镜像名称.标签.版本、下敕次数、创建时何、悔像大小.2)步骤2中平台以M页形式提供编辑功能,提交后由乎台后台执行构世过和通过标准但期站梁全部满足5.1.7防同开发会事用例幺称协同开发仓库预置条件/测试步骤1)检查平台是否具有git仓麻.2校过平台模型开发流程中代玛是否可进行管控预期结果D平
15、台中部箸有git仓麻网元.2在平台预置开发工R中可以在页面提交代班,进行代码版本技制.3)可在平台统一页面看到所有用户提交的代玛和版本地过标准预期结果全部酒足5.1.8OJU切片ifi件用例名称GPVW片姐件预置条件/测试步骤检杳平台在训练任务迎推理任务创建流程中是否共名把】张GPu卡切分为4个虚拟GHJ并行运行,1个任务的功位依期结果1)在创建训携任务或推理任务Wrb界面流程中,界面使输入为此任务分配的GPIJ资源为单张物理卡25%的资源,2)在系统监控界而可以看到的生物理卡同时运行了4个训i或推理任务通过标府饮期结果全都满足5.25.2.1mmra用例名称数据集首理预置条件测试步骤D拴侵平
16、台是否支持数据隔点.2拴住平台是否支持数据共察,3)校行平台是否支持数据在沛程中的传递.力依杳平台是否支持大文件上传下载.5)检查平台是否支柠数据史的收管理预期结果D步骤I中应支持按照租户和项目进行数据访问的隔离,2)步骤2中应支持S项目各个成员间数据史的共享,支持过区不同攻11间数据集的共享.3)步舞3中应支持的处理、标注、训统环节各个业务流程间数据的自动化传递.力步骤4中应支持2GB以上大文件的打包-.1.5)步骤5应支持业务人员和管理员财所加数据集的增删Afi通过标准预期结果全部涵足5.2.2KM用例名称数据预处理Ri徨条件赛试步IS检查平台深度学习前双淘程中是否具备以下功能;势征触换,
17、数据肾推、特征提取、珞征衍生但期希果成功验i在平台Web网页上提供的以下功位.D特证技涣,支持数据归一化、标准化、分箱,类型转换。2)数抠管维,可通过对应的映射算法招高维空间中的数据点映射到低维度的空间中.3)特征提取:能帔按照给定的定义成功提取特征.。特征衍生:将多个特征祖合或衍生,成为新的特征.投过持证工程处理的数据可在模型训练页面液程中引用狗通道标准预期结果全部满足5.2.3WtmSt用例名称预处理调度预置条件府备修安使处理的数据奥测试步骤D顶口人员通过以向创建指定到CPU集中运行的任务TI和T2.T1中运行对数据案进行规范化的代码,T2中运行对标注数据耍图片进行转换的代码.2)当任务T
18、1f束后,在CPU集群中提交任务T3.使用任务T1.的结果嫁出路径.3)当任务T2结束后,在标注项目背理中可以送样T2处理过后的数据集预期结果1)步骤1中TI提交时WBb页面可指定CptJ核数利内存入小,可通过柒的控制台找到该任务容JS所在物理机,并嘀认该伪理机非GPWK务溜.2)步辖2中项目人员在其数榭集管理页面可以成功看到T1.的拓果轮I1.1.,并且在T3任务提交页面可以指定该路径作为数据集路径“3步骤3中项U人房在其数据集笆理页面可以成功看到T2的结果验出,并H在标注项目管理页面可以指定该路径作为标注任务数据奥通过标准依期结果全部满足5.3敷瞰注业务用例名称标注顼日管理预押条件测试步骤
19、依宜平台标注攻目管理和流程管理功能预期结果1)平台至少支持按标注员.审核员、验收角色对标注、侦检和验收敢掘进行任务处理.2)平台应支持M置标注任务的质检比例和笠收合格率.3)平台应支持标注项目进度宣希通过标准饮期结果全部满足5.3.2用例名称标注工具功能预置条件/测试步骤1)对标注工具进行配SS酋理.2)操作文本类标注任务.3)扭作图片类标注任务.1)撵作语音类标注任务.5)撵作初顼类标注任务预JW结果D步骤I可对标注工具进行厢双管建.可新增标签工具(包含标签、标注属性、角色等)、编辑、副除、住看等.2)步腺2支持选择特定标签时文本进行分类打标:支持对选择的文本按照关堆字进行打标.3)步骤3支
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- YD_T 4390-2023 AI服务器及能力平台测试方法 4390 2023 AI 服务器 能力 平台 测试 方法

链接地址:https://www.desk33.com/p-1692090.html