GB_T 43782-2024 人工智能 机器学习系统技术要求.docx
ICS35.240CeS1.70三中华人民共和国国家标准GB/T437822024人工智能机器学习系统技术要求Artificialintelligence'Technicalrequirementsformachinelearningsystem2024-03-15实施2024-03T5发布国家市场监督管理总局国家标准化管理委员会发布目次前言2规范性引用文件3 术谱和定义4 缩略谐5 系统楸架25.1 概述25.2 机器学习运行时组件35.3 机器学习框架35.4 机器学习服务组件35.5 工具5.6 运维管理6功能要求6.1 机器学习运行时组件6.2 机器学习框架46.3 机器学习服务撤件56.4 工具66.5 运维管理77可标性要求88维护性要求89兼容性要求89.1 软件慈容性要求89.2 硬件兼容性要求8IO安全性要求9Il可扩展性要求参考文献本文件按照GBT1.12020标潴化工作导则第1部分I标准化文件的结构和起草规则的规定起草.请注意本文件的某些内容可能涉及专利.本文的发布机构不承担识别专利的贡任.本文件由全国信纪技术标准化技术委员会(SACZrC28)提出并归I.本文件起草单位:中国电子技术标准化研究院、华为技术有限公司、北京百度网讯科技有限公司、上海商汤智能科技行附公司、膜讯云计尊(北京)有限责任公司、网易(杭州)网络有限公司、浪潮电子信息产业股份右限公司、北京眼神科技仃限公司、中国【:程物理研究联计算机应用研究所'沈阳东秋智能医疗科技研究院有IS公司、北京软件产品质量检测检脸中心、山东看计算中心(国靠超级计算济南中心人上海燧原科技有限公司、美的集团(上海)有限公司、海信集团控股股份有限公司、上海计故机软件技术开发中心、清华大学、北京航天自动控制研究所、中国科学院软件研究所、上海人工智健研究院有限公司、郑州中业科技股份有限公司.北京智芯微电子科技有限公司、武汉精测电子集团股份有限公司、长或佰息科技发展股价外限公司,江汉大学,飞夥信息技术(北京)付限公司、中国医学科学院生物医学工科研究所,北京林业大学、中国电子科技集团公司第二十八研究所、常州微亿科域科技仲限公司、兴容(上海信息技术股份有限公司.本文件主要起草人:水建、王匏尔、马骋是、仲阳奇、斯伟、蜘双符海芳、诚、谢永康、郑少秋、于埼、张军、蒋慈、刘海涛,煲岬碎,杨春林、吴庚、王RB媛、程万军、孔吴、漆连芝、高永超、周昱瑶,王思善、车正平、徐洋、高雪松、陈岐刚、李川于、群云志、孟令中、宋海涛、B马珊珊、李精娥、王资凯、李介、裳福生、张胜萩、蚁文艳、谷潇聪、潴江波、吴铉祥、赵雅借、李仁刚、朱宝峰、马泽宇、光明、李亚坤、廖班志、1三W.徐颂、黄超、高卉、马元S三,夏寅力、卢国鸣一蒋第、梁汝照.人工锂能机器学习系统技术要求1Mfl本文件提出了机器学习系统框架,规定了功能、可雅性、维护性、兼容性、安全性和可扩展性要求.本文件适用于各领域机器学习支持服务的系统及相关解决方案的规划、研发、评估、选型及验收的依据.2提范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款,其中,注口期的引用文件,仅该H期对应的版本适用于本文件:不注口期的引用文件,其最新版本(包括所有的撼改单)适用于本文件。GB/T17235.1信息技术连续色调峥态图像的数字压缩及端码第1部分:要求和指南GB/T33175.2信息技术高效多媒体涮码第2部分:视领GB/T33175.3倍息技术高效多媒体编码第3部分:音频GB/T11867-2022信息技术人工智能术语GB/T-12018-2022信息技术人工智能平台计算资源规莅1SO/IEC1449610信息技术视Wf对象编码第IO部分:先进视频编码(InformationtechnologyCodingofaudio-visualobjects-Pait10:AdYanCedvideocoding)ISO/IEC15948信息技术计竟机图形和图像处理便携式网络图形:功能规范Inbrmaiicntechnology-COmPUlergraphicsandimagewocessing-PortableNetworkGraphics(PNG):FunctionalspccitkationISO/IEC23008-2信息技术异构环境中的高效编码和媒体传输第2部分:掰效视频编码(Informationtechnology-HighefficiencycodingandmediadeliveryinheterogeneousCnvironmcnts-Part2:Highefficiencyvideocoding)ISO/IEC230083信息技术异构环境中的高效编网和媒体传獭第3部分:3D音短(Infor三tiontechnologyHighefficiencycodingandmediadeliveryinheterogeneousenvironments-Part3:3Daudio)3*三*½XGBT41867-2022.GBT420182022界定的以及下列术谱和定义适用于本文件.机学习jR4tmachinelearningSyStem能运行或用于开发机潺学习模型、算法和相关应用的软件系统.3.2机习machinekamingfrainework利用预先构建和优化好的组件集合定义模型.实现对机器学习算法封装、数据词用处理和计算资源使用的软件库。3.3机学习,务11u'hinckaurningsenior利用机零学习粳型算法及火系统作为I:只为组织或个人提供一种其期望的便利的方式的价值的IT服务.½机牌学习算法服务是机潺学习服务的一种,用浓受IH户的应用请求.对输入数据期政风,返网处理结果,3.4帙和tHmodelcompiler将机寄学习校型定义的计算过程转换为使在特定人工招徒计尊资源上执行的代码序列的计算机程序.注r松件中定义的模型印科敞用于机器学习领域,来源:ISO/IEC/IEEE2-4765:2017,3.6813.5资源池resourcepool各类系统贲源的集合体,job机器学习训练或推理任务的逻辑组合.注iT4同k破卜田啊卜某一个资滴6,一个作业包括一个或多个任务。3.7fiMtask实现特定目标所需襄的活动.注:任务用于完成一个相对独立的业务功能.一个任务帆丹I仅展于一个作业.来源:ISO/IEC22989:2022,3.1.35.St¾4me下列缩略语适用于本文件.ASIC:专用妪成电路(Applicalion-SpcdticIntegratedCircuit)CPU:中央处理瑞(CemralProcessingUnit)DAG:有向无环图(DirCCtCdAcyclicGraph)FPGA:现场"J编程逻HHJ阵列(FiekIProgrammableGateArray)GPU:图形处理潺(GraPhiCProcessingUnit)IDE:集成开发环境(InlCgratCdDevelopmentEnvironment)ObjwtNtxalion)StateTransfer)Call)Architecture)JSON:JUVaSCrip(对像注记法UmaScriplREST:表现层状态转换(RCPmSenUUiOnalRPC:远程过IV调用(RCmotCProcedureSOA:fl''J版务的架ij(Scrvicc-OricntedSQ1.:结构化CE询语行(StrUetUredQuery1.anguage)XMI.:可扩展五标语?(ExtensibleMarkuplanguage)机港学习系统包含机器学习运行时批件、机器学习框强、机器学习服务组件、工具和运维管理。提itffWin<'供机器学习应用的开发、训练、部M、运行和管理健力,机器学习系统框架见图1.MM*注I图奥嫡分对应本文件楣彷I定,峻部分仅为创火炉能平伽系统细必不属于本文件规定.5.2 机学习迳行时组件机器学习运行时坦件是为保障机潜学习应用按照预期在特定机器学习系统上运行所必衡的软件环境,包括设备第动软件和兜子际.设爸题动软件负货机器学习各种类型任务的调度与执行,包拈为机罂学习任务分配提供费源管理通道,为应用提供存储管现、设缶管理、执行流管理、事件管理和核函数执行功能。柒子库提供机器学习算法在设得执行调K的呆小计算单元,包括面向机器学习计算任务的通用算子和面向特定设备if算加速任务的优化算子.5.3 机学习楣H机涔学习框架包含模里训练、模型推理及空法限三个模块,为机瑞学习应用开发、优化、验证和部界过程提供工具支撑.模里训练用于机器学习应用设计开发阶段,该模块提供用动微分、损失函数和优化器等两用接.提供模型定义、自动分布式并行调练和多硬件后端玷配等能力.模型推理用机器学习应用的验证部狎阶段,该模块提供模型加我、然调、性能许估和我换等接1,提供模型部??及推理加速等能力.算法库而向机器学习调练、推理和模型性能优化任务.提供预先优化好的算法,以封装函数库的方式供用户说用,提升机器学习模型开发、优化、的证和邮署的效率.5.4 机学习务Ifl件机器学习服务是人工智能行业应用访问、利用机器学习能力和资源的主要方式,机涔学习服务出件支持工作流管理、通用算法模板和双用的'号.机器学习系统通过服务组件进行服务部运行环境准备、运行状态汇报和服务容祜等,并提供服务谢川接口,供各衡域上层应刖调用,为满足应用场景的需求,机器学习娱统可提供文本.图像、讦版和视软及其他类型智能化操作的算法服务.&5I*5.5.1 ftMKE*数据管理工具提供人工智能数据的生存周期,包含定义、采集、预处理、模型构建、系统部看、系统维护、数据退出和系统退出的管理能力。提供各类数据源,包括结肉化、半结构化和非结构化数据的接入、标注和旗砥控制,中间数据的管理、最终数据的管理、元数据的管理和数据使用潮源等能力,支持对海收结构化、非结构化数据的顼处理与特征挖掘.&&2mnzA模型管理工具提供常用的机渊学习模型及其变形.能按照一定的方式,如算法结构、应用范围,提供模型的分类检索:模型管理工具也可扩展支挣模型导入、导出、更新、发布、迁移和版本控制等功能.在机器学习应用开发阶段通过多模型组合开发、多模型集成'超参数设置和模型二次训练等方式支持模型优化与应用开发.开发环境是机器学习全流程开发工具威,支持模型开发、算子开发和应用开发二个主流程中的开发任务,提供模型可视化、算力测试和IDE整机仿真询试等功能.模型编译器将计算过程的计算图和算子转换为环境孜容的中间友达或设备可执行的代码,支持编评优化、编译参数自动寻优、端译结果存储我入、自定义算子注册编译、模型格式转换等功能,&6运维管理提供系统所需的域本运维(例如安装部署、扩展、监控、报警、健康检查、问题及故障定位、升娘和朴丁、得份恢奴和操作审计等)及管理功能(例如计算资源管理、权限管理、用户管理、日志管理、配置管理和安全管理等6功”求&1机学习Mw件机器学习运行时组件的功能要求包括:a)应具备售法程序正常运行所需的基础软件坦件,如设法驱动、通用算子库和操作系统等;b)应具备保障机器学习任务执行所需的设备管理及资源调度能力,包括设备管理、内存管理、事件管理、上下文管理、执行控制、榭礴知与上报等:C)应具需基于设需定制开发的优化算子库:d)应具的算子级的执行控制和调度优化功能:e)应具备对环境中运行程序的访问权限控制和资源隔离功能:n应具备计算资源的虚拟化与调度能力:g)应具曾面向两种及以上机器学习框架模型格式的解析能力:h)应具爵或集成集合通信库,以及单机多卡及多机多K的计蚱平台架构,&2机”习BR机涔学习框架的功能要求包括以下内容.a模型训炼:D应具备财用户自定义数据的处理能力.包括图像的伸缩变换.音领特征提取和文本分词:2)应具备用户自定义开发机港学习模型的能力,包括基本源元(如神经网络层)的菸类、损失函数茹类、用于参数更新的优化寄基类:3)应具备全连接层的谓用和实例化功能,具备非线性激活函数的调用功能:-I)应提供接11获取训练过程信息,包括神径网络层的权重和偏置参数:5)应具备峥态图或动态图的执行模式:6)应具备面向参数限务器和生合通侑两种分布式架构的分布式并行能力I7)应具备包恬自动数1«弁行和模型并行结合的自动混合并行能力:8)应具备时期和步.獴粒度的数擀处理回同功能:注1:时期(EPah用训练时数据集的诙完整遍历.注2:步骤(SiCP海训练时完成一次前向计算和反向传播.9)应具备打动湿件精度(如FP32ftlFP16)调练功能,面向不同的运尊自动采用不同的数值精度按预期实施运算;10宜具备计匏图里组等优化功能.b)模型推理:1)如同时具符云侧和端例推理能力,应提供云侧和端俯统一的中间表示,具备保存和演我该中间表示的能力:2)应具法包括CPU和GPU的多种后端设饴执行推理能力;3)应具备至少两种编程语宫接I,如C+、PyIbOn和JaVa等:4)宜具备多个模型的弁发推埋能力:5)宜具备模型推理加速优化功能,如模生业化、内存1X用和烧子血新很挂.C)算法库:1)应具饴模型评价函数,如准价度、精确度和平均城对值误差等:2)位具备损失函数,如回归损失和分类攒失等:3)应具备优化器。法:4)应封装训练过程中常用的张班操作,包括池化运算和卷枳操作等:5)应提供激活函数,如废性单元激活函数、离斯误差税性单元激活函数:6)应提供数学运班函数.6.3机学习务蜗件机器学习系统提供通用服务健力,机器学习眼务祖件功能要求应包括:a)具备种成多种班法服务:b)具缶通用人工智能功能,如取流、解码、检浏、识别分类、特征生成、特征比对和检索等功能:C)具备种或多种睢机服务,如模型自学习服务和批业推理眼分等:d)具任一种或多种远程实时服务,如实时推理眼务等;e)提供统版务框架,如SoA和战服务等;0提供统一、易用的算法服务接口如REST和RpC等:e)具备常见的消息报文体格式,如JSON和XM1.等:h)具备同一打法服务的务实例部罟功能:i)具备不同算法服务并发谓用能力,各股务独立运行:j)具备多用户同时使用算法服务的功能.具备在多用户和高弁发情况下的流星负效均衡,保证服务法定运行:k)乳在独立部者和运行能力,并具备服务动态扩容;O具备服务容错能力,包括熔断、隔尚、限流和降级等容错机制.来保证服芬持续可用性:n»具茁可扩展性,可方便增加新眼务和动态调整服务节点等。IIA&4JMMZA数据管理工具的功能要求包括:a)应具备各类数据源对接功能,包括结构化数据(例如传统关系型数据嗥)、半结构化数据、非结构化数据(例如文本、图像、音频和视频等);b)应具备图像类数据格式采集功能,图像格式应符合CBT17235.I和ISQTECI594X的要求:c)应具备音频类数据格式采集功能,音频格式应符合IS0/IEC23008-3和GB/T33475.3的要求:d)应具的视频类数据格式采集功能,视频格式应符合IS0/IEC14496-10,IS0/IEC23008-2和GB/T33475.2的要求:C)应具的对各类数据(例如文本'图像,音频和视频等)进行标注的能力:O应具在引入和解析常见文件和数据格式的能力,如parquet和Carboodaia等:g)应具备多形态数据采集功能,包括单表采集、多去采集、增奴果集、批数据采集和流数据采集:h)应具备对训练数据集、测试数据集和验证数据集独.立提供数据生存周期管理的功能:0应具品对原始数据、中间数据及产出数据进行增删改查及数据检索等操作的功能:j)应提供数据访问权限控制和版本控制能力,具备发粒度和字段粒度权限控制能力:k)应提供数据IDE工具,具备编写SQ1.和PyIhOn等脚本进行数据分析和探索的功能;1)应具备对敏感数据进行潮源管理功能:n)8p>q>玲s)(>m宜具备原始数据的诊断功能,如数据完整性检查、空值检变、规则校验和统计指标校蛉等:宜具备原始数据的相似度检溯功能,过沌相似数据;宜具备多种元数据管理方法,如数据元信息生成、增剧改查和曲缘管理等:宜具缶多种数据预处理手段,如数据的拆分、聚合、过泄和排序等;宜具备多种数据组合方法,如异构数据的组合、对齐和纠错等:宜具备用户数据集多版本管理功能:宜具备多人协同标注功能,并且具备多人协1乍任务的管理:宜具的不同数捌集版本之间的数据分析统计功能.对比数据分布差异:u)宜具备推理结果数据结果网传模式.6.4.2««TA模型管埋工具的功能要求包括:a)应具备模里的导入导出、更新、版本管理和权限控制等基础功能,模里导入导出地址应具备木地及远程对象存储等多种杉式:b)应集成典型机器学习模型,具备模型的二次训练和保存模型多版本参数的能力:O应施于多用户的权限控制,具备模型的安全管控能力:d)应提供模型封装和发布的能力,通过统一的接口提供模型服务的调用:e)应具备模型超多数的设置和保存功能;0应提供用户友好的模型管理界面,展示模型的基本信息:g)应兵需包括律法、超参数、参数、模型输入规范和模型输出规范五个要素的模型存储必能;h)宜提供多种形式的也慢方式,如拖拽式DAG和Notebook等:i)宜具备多人协同建模能力:j)宜提供完整的模型分析报告,提高用户的模型选择和决策能力。643开婀境开发环境的功能要求包括:a)应提供应用编程接11方式和图娘排方式的应用开发方式.具的系统城调优、调试传输和异常分析等开发功能:b)应具备应用开发的单步调试功能:c)应具备自定义算子开发和尊子级别性能分析功旎或工具:d)应提供模型压缩、模型转换和模鞭显示输出工具;e应提供模型训练询优工具:D宜提供从模型训练到应用开发、调试、系统集成、构建打包和应用部署等的一站式应用集成开发环境:g)直具备实时一站式图形界面诩试环境,如当文本、图像、音领和飒等作为输入数据,开发环堆可直接查看算法程序输出结果:h)宜具备边云协同的服务插件开发功能,如实现模型的边云同步和证书管理等:i)宜具备算子开发的自动调优、仿真调试调优和以优算子搜索工具。&44MMW帙型编译器的功能要求包括:fM,)/)<JKl,abCdefgh应提供簿译器,对机器学习前玷框架衣达的计尊过程进行图级和算子级确谛:应具备多种机器学习算法模型和算子到设符可执行代码的自动映射功能:应具符机器学习以法程序的编译优化功能,如衣达式化简和内存发用等;应具备自定义算子注册和编译功能:应具计算图的自动切分功能;应具备涮洋结果的存储和或入功能;宜具备面向特定前端或硬件的定制优化规则接入机制:宜具备面向计算性能或内存空间的编译参数自动寻优功能.6.5fimra运维管埋的功能要求包括:a)应提供多用户管理功能,具备多用户的权限管理能力,具瑞身份签别系统(例如KbbCTuS);b)应提供多租户管理功能,具备租户间的应用隔离、数据的为、资源隔国和运行隔离等功能:C)应提供安装与升级功能,具需分发安装包、数据或模型参数文件,进行安装、升级、万展和回滚:d)应提供备份与恢笈功能,具备安装包、数据或模型舂数文件的备份能力,以供故障后的系统恢复;C)应具备运行环境的监控能力,包括底层资源的统一监控,如CPlI利用率和系蛟负就等:n应提供日志管理功能,可椒据日志诳行故障定位及推音:S)应提供针对监控指标及日志的报警功能:h)宜提供主要监控指标的可视化展示功能.7可性要求可弥性要求包括:a)应具备巩踪任务的执行状态,并对异常任芬进行提示的能力:b)应具备资源受限或系统失效后持续提供或恢发眼务的能力,如具饴历史版本回濠、框架提供参数的保存能力等:C)应具分容错机制,具符系统在检测出异常输入或危险操作时的错误提示功能;d)应具缶时谈操作的抵御能力,确保误操作后系统的正常运行:e)应具备不同容砒场妣过我控制机制:f)应具备系统故障诊断能力,如机擀学习框架可保存关键运行数据以用于故障定位和恢复:g)应具备系统故障隔离能力,如集群训练中,单一节点出现故障时可快速隔离:h)宜具备系统状态文件的冗余备份功能和容灾能力.8修护性晏来Ift护性要求包括:a)应具的数据集规模、均衡性、标注质域和污染情况对舞法结果的影响分析功能:b)应具备在设计、实现和运行各阶段对应的性能度灵指标和验证方法:O应具备代码实现算法功能的JE确性分析能力,包括代码规范性和代码漏洞检查;(1)应具备系统实际运行中环境干扰的影响分析能力,包括噪声干扰和数据分布迁移等:O宜具备异常数据的存储和导出能力.9墓叁性要求9.1 软件聋4唯要求软件兼容性要求包括:a)应具备软件服务兼容性,相互关联的软件服务能弊正常运行,且在数据、信息和交互三个方面具有相互兼容的性质:b)不应依赖特定的软件运行环境;c)应具备系统运行的可移植性:d)C)应兼容主流操作系统,款容多种织程谙吉:及我咨开源的通用接11般据系统要求在最新版本中增强或优化:D*具备快块间及模块内接”信息传述和互.操作功能:g)应具备异源数据'异构数据库和新旧数据接11的转换功能:h)应兼容不同场妣应用,康容特定应用系统下的优化和扩展,9.2 硬帽!博性要求硬件兼容性要求包括:a)应就容多种计算单元,例如CH:、GPU,FPGA和ASIC等:b)应兼容多种存储系统,例如分布式云存储和本地存储等:O应兼容多种网络连接方式,例如以太网和InnnlBand网络;山宜兼容多种计算平台,例如服务器、移动通信终端、平板式计算机和可穿帔设品等,b)sse)Ds)h).D10安全性要求包括:a)应提供对训练数据、部署模型、目法程序和服务接口的访问权限管理能力:应提供抵御对抗样本攻击和噪声污染的能力;应具箸对访问用户的访问历史查询能力:应具备对权重文件的防藻改能力以及保护能力:应具备将任务详细状态抬出到日志的能力:应具备对分布式任务的鉴别和加密迪信能力:应具备部分模型的可解择能力:应具的部分模型的差分隐私训练能力:应具备部分模型和任务的稔健性评估能力;j)应屏蔽非法输入.Hwr*tts*可扩展性要求包括:a)应具有标准格式的接口,降低维护和运行机器学习模型的成本;b)应具有模型部署到生产环境的标准流程.降低系统整合风险:C)应提供机器学习生存周期管理工具.考文IM1 ISO.1EC22989:2022InfOnnalionKxhnuhgy?rlificialintelligenceArtificialinklligccamCqMyand(e11ninlgy2 ISoJIEeIEEE24765:2017SystemsandsoftwareengineeringVoCabUlaryio