数据智能白皮书(2024年).docx
《数据智能白皮书(2024年).docx》由会员分享,可在线阅读,更多相关《数据智能白皮书(2024年).docx(44页珍藏版)》请在课桌文档上搜索。
1、一、数据智能综述1(一)数据智能概念探讨1(三)数据智能的历史发展沿革3(三)数据智能的价值和意义5二、数据智能技术8(一)数据智能技术体系概览8(二)数据智能关键技术发展态势9(三)数据智能技术未来展望21三、数据智能应用22(一)数据智能应用发展态势23(二)数据智能应用当前问题26(三)数据智能应用未来展望28四数据智能产业生态34(一)数据智能全景化布局提速,产业体系逐步完善34(二)全球数据智能产业快速发展,规模化效应初显37(三)数据智能产业挑战与机遇并存40五、总结与展望44图目录图I数据和智能间关系的变化1图2数据智能发展脉络3图3数据智能技术体系概览8图4部分生成式大模型发布
2、情况统计17图5数据智能应用体系概览22图6大模型赋能的数据智能应用场景29图7数据智能产业图谱35图8数据智能企业营收分布情况36图9数据智能企业研发人员数域占比情况37表目录表1数据智能应用发展阶段24表2各行业数据智能应用落地的头部场景25一、数据军能综述(一)数据智能概念探讨近年来,智能领域突破“量变引发质变”的临界点,相关技术产业进入剧烈变革期。自1956年人工智能(A1.)概念诞生以来,智能计算领域历经多个阶段的技术方向探索,逐渐收敛在深度学习这一主线,但仍以“决策式人工智能为主要发展领域。近两年,在以TranSformer模型为代表的算法、极致算力支撑下的千亿级模型参数、大规模高
3、质量的训练数据三者共同的作用下,生成式大语言模型的应用效果出现跨越式提升。以GPT4为代表的大模型能实时对图像、音频、视频等多种形式输入进行理解,根据要求完成高效问答、内容生成等多种任务,甚至以前10%的成绩通过美国模拟律师考试,由此“生成式人工智能的发展成为全球焦点,带动人工智能技术产业进入剧烈变革期。伴随智能领域变革,“数据”与“智能”间的发展关系亦呈现两点重要变化,“数据智能”概念亟需明确。如图1所示,数据和智能间的关系变化在近期主要体现为两点:图1数据和智能间关系的变化一是“智能”将成为“数据”价值释放的主要路径,“数据”成为“智能”成效进一步跃迁的胜负手,两者关系由“松耦合”转向“紧
4、耦合”。长期以来,受制于智能技术的局限性,数据仍以非智能化的传统应用方式发挥价值,同时,智能应用效果的明显提升主要由算法驱动,数据仅作为研发过程中的基础一环,两者呈现“松耦台式发展关系。然而,随着生成式大语言模型应用效果的飞跃式提升,人工智能对于生产生活各领域将逐渐不可或缺,进而成为数据价值释放的主要路径;同时,随着算力、算法的演进模式逐渐收敛,数据对智能持续发展的价值愈发突出。由此,助力智能发展将成为数据工作的核心,智能的效果提升也更加依赖数据工程及技术的托底,两者后续将转向“紧耦合”式发展关系。二是智能化技术开始反向助力数据技术发展和非结构化数据应用。一方面,智能化技术开始应用至数据技术领
5、域,在生成式人工智能的赋能下,数据的汇聚技术、存算技术、管理技术、开发技术、安全技术等快速向智能化升级,相应环节的生产效率有望得到大幅提升:另一方面,智能化技术突破传统数据技术面向非结构化数据的能力瓶颈,占据未来数据总量约80%的文档、视频、音频等非结构化数据在生成式人工智能技术的助力下,可被迅速处理和分析,从而实现全形态数据的价值释放。通过以上两点变化可见,数据与智能的融合大势所趋,由此“数据智能”的概念也应运而生。数据智能的概念可以初步概括为,以全形态数据为关键资源,以大数据和人工智能深度融合后的新技术体系为关键手段,以决策式、生成式人工智能和传统数据应用形式协同应用于生产生活各领域为最终
6、目标,由此形成的新兴生产生活方式,以及相应延展出的新技术新产业、新生态。(二)数据智能的历史发展沿革数据和智能是信息技术领域中最受关注的方向,其历史最早可以追溯到计算机的诞生,随后至今的近80年大致可分为三个阶段,总体的技术演进脉络如卜.图所示。:-k-,:a-三b三-三三三*三8_HMHaMMNWWTMaM*vIIiSMBAMfto-XB.bmBmb*MHB4MBTMMB:CIIi接水Iii1.E1.含山用州图2数抠智能发展昧络第一个阶段是技术准备时期(2000年以前),这一阶段主要是由技术驱动的发展阶段。在计算机诞生后的20年内,通过计算能力形成人造智能的人工符能(AD概念,和对数据进行管
7、理和处理的数据库理论均已提出。随后,人工智能经历了从基于规则的推理方法到基于统计的机器学习方法的转变,经典机器学习和早期人工智能理论逐渐形成体系。数据领域则由关系型数据库完成大多数据管理和处理需求,同时诞生了数据仓库理论,指导企业使用数据库等相关工具实现基本的经营管理数据分析。这一阶段中,新兴信息技术不断涌现,为企业、产业、社会带来葩新的生产力,信息技术的重要性为人所熟知。第二个阶段是大数据时期(2000年2020年),这一阶段主要是由数据驱动的发展阶段。隙着互联网时代的全面到来,数据量的爆发式增长、数据类型的多样复杂化、时效性需求的愈发强烈,为数据的处理能力、智能算法的计算效率与效果均带来了
8、新的要求,也使传统机器学习和数据库技术出现瓶颈,催生出以分布式处理为代表的提升数据处理规模和效率大数据技术,及通过多层神经网络学习加深模型效果的深度学习技术,数据和智能各自的技术发展进入快速迭代阶段。这一阶段中,数据量和数据类型的S速增长进一步引领了技术的被动式革新,数据开始作为关键角色登场,受到的重视程度也与日俱增。第三个阶段是融合应用时期(2020年至今),这一阶段是由应用驱动的发展阶段,也是当前所处的发展阶段。近年来,移动互联网的普及和应用推动数据和智能技术的发展更加极致,更多样化和复杂的需求催使技术的发展和应用趋向融合,流批一体、湖仓一体、多模化处理、多模态深度学习等已成为前沿发展方向
9、,数据与智能技术进入相互融合深度应用以促进共同发展的道路。这阶段中,单技术的发展速度逐渐放缓,如何深化对已有技术的应用,充分发挥数据的内蕴价值,将数据和智能更为有机的结合成为更受关注的问题。当下,以大语言模型为代表的生成式人工智能技术实践效果突出,其结合大量场景的应用正在加速落地,围绕其应用落地相关的数据供给、模型优化、场珏发掘、伦理安全等一系列问题成为时下热点。(三)数据智能的价值和意义价值产生的本质,是能量、物质、信息三者内部或之间转换效率的增加。因此价值的具象化,也往往以效率提升的形式体现。数据智能借由传统数据技术加速了信息的收集和处理加工,借由智能化技术提升了信息精炼过程和人机信息传递
10、交互的效率,从结果上实现了信息流动过程中更多环节由人工处理向智能化自动处理的靠拢和转变。人力由于自身生理条件制约效率有限,相较由庞大能量支撑、运转速率高且信息传递顺畅的信息系统,更多的成为人机混合流程中的瓶颈环节,阻碍着串行流程运行的总体效率。随着智能化技术的持续进步,智能化自动处理模块相较人工处理造成的有效信息损失被压缩至相对可控和可接受的范围,使得智能化自动处理替代人工带来的整体效率提升更为可观,为更多人工环节的替换提供了现实基础。在数据智能的实践下,以人为核心的生产环节,或被替代,或受益于技术赋能带来的生产效率提升,或受益于技术效果突破可用性临界点带来的新型生产方式及由此诞生的新生产环节
11、。其中,被替代的是具体环节而小.人员本身,相反每个个人作为独立的信息生产处理系统在综合作用下将得到最大程度的效率提升,进一步的,随着规模效应的放大,将逐渐为企业、产业、社会等各层面带来新的价值和意义。在企业层面,数据智能的实践能提升企业从数据中提取有效信息、精炼转化为知识、最终指导决策这一过程的总体效率,半自动化、自动化决策方式逐步落地。决策效率的提升和决策方式的转变,能够显著提高企业经营的响应速度和市场适应能力,促进业务流程优化和创新。例如,在金融业,帮助企业实现精准营销、风险控制和欺诈检测;在制造业,优化生产流程、预测设备故障、降低运营成本:在外卖、出行等行业,系统自动形成最佳调度方式并直
12、接完成决策,显著提高效率和响应速度。在产业层面,数据智能的实践在直接带动相关技术服务产业发展的同时,还将带来模式创新和对生产关系的重塑,以改善产业链总体产出效率。方面,对于更高效专业化技术服务的持续性需求,将催熟联合运营等新兴产业合作模式。另一方面,生产端个人生产能力的水位上升将带动部分行业领域离散型个体供给模式的进一步兴起。例如,在内容生产行业,大模型的应用使个人生产效率全方位提升,专业分工进一步细化和整合,专业岗位进一步向外包、众包、共创等模式转变,最终提升综合生产效率。在更多行业中类似实践还将孕育者更多旧赛道的革新和新赛道的催生。在社会层面,数据智能的实践能直接提升信息、知识在全社会范围
13、内的流动效率,同时借由对信息的互通和技术的应用强化总体协同性,优化社会资源的配置效率。世界历史上的重要发明如文字、纸张、印刷术、通信、互联网等都分别在各自的历史时期通过对知识传播效率的提升推动了生产力的发展和时代的进步。数据智能当下同样能够提高知识的易获取性以加速其在全社会范围内的流动和配置,并且在此基础上,能帽进一步实现物理空间与数字空间的映射,实现社会运行各方面的高效协同,加速社会资源的合理配置,提升总体运行效率,为全社会带来更多福祉。二、数据智能技术(一)数据智能技术体系概览当前,数据智能技术体系由数据技术及人工智能技术两大部分组成:数据技术旨在从各种类型的数据中快速获取有价值信息.,涵
14、盖数据全生命周期的各环节。人工智能技术是模拟人类智能行为的技术,涵盖基础自然语言处理、计算机视觉、智能推荐等细分技术方向。总体来看,人工智能技术与数据技术相辅相成。在模型训练前的数据准备环节,数据的处理离不开各类高性能存储及大数据平台的支持;在模型训练环节,各类数据平台为人工智能领域各类冲算框架提供了有力的算力支撑;在应用开发环节,数据应用为各类人工智能模型提供了广阔的应用场景及用户数据,助力模型应用效果的进一步提升。W3数据智能技术体系枢览当前,伴随着数据与人工智能技术的不断融合,逐渐演化出“5+3”技术体系。其中,数据技术可以按照数据生命周期分为数据汇聚、数据存储&计算、数据管理、数据开发
15、&应用、数据安全五大部分,人工智能技术可以分为数据准备、模型训练&推理、模型开发&应用三大阶段。在应用需求的驱动下,数据与智能进一步融合创新。一方面,模型的生产需要高质量的数据资源以及更高效的数据底座支撵,另一方面人工智能技术的最新成果能够进一步赋能数据技术,提升数据处理效率和数据应用效果。由此,逐渐衍生出数据供给、多模数据存储与治理、数据智能平台、智能化数据安全技术等一系列新兴技术。(二)数据智能关键技术发展态势1 .数据供给技术赋能模型训练高质量的数据供给在人工智能模型的训练中扮演着至关重要的角色,直接影响模型的最终效果。高质量的数据可以提供准确的训练信号,帮助模型学习到有效的特征和模式,
16、避免过拟合现象,增强模型在面对噪声、异常值和数据分布变化时的稳定性。随着各行业不断深挖数据要素价值,在数据供给领域,通过数据标注、合成数据提供高质量数据已经成为赋能模型训练的两大关键技术。数据标注此指对原始数据进行分类、识别、标记和注释的过程。通过这过程,数据的含义以能够被机器接收处理的形式表征,从而为模型训练提供结构化和有意义的输入,也是提升训练数据质量的关健环节。OPenA1.在GPT4训练过程中就使用了数据标注技术对大量互联网数据进行清洗和标注,保障数据的质量和一致性。合成数据是通过专用数学模型或算法进行数据生成的过程,通常可反映出目标原始数据特征,同时具备隐私保护、规模扩展、数据模拟等
17、能力,可有效解决数据规模和质量不足等问题。如JRMorgan使用合成数据来模拟市场环境和交易数据,用于其金融服务策略的测试和优化。数据与智能的融合应用,对高质量数据集的建设提出了新要求。当前数据资源顺存在不能用不够肺、”不好即三方面问题。一是存在数据开放程度有限、共享意愿低等问题,数据“不能用”。当前很多数据缺乏有效机制保障其流通性和可访问性,易形成数据孤岛,同时,公共数据目前开放和利用程度有限,未能充分发挥作用,造成企业难以获得高质量数据。二是数据供给规模及效率有待提升,数据“不够用”。当前高质量数据供给难以满足模型训练和分析决策需求,数据供给质量低,整合清洗环节依赖人工处理存在效率瓶颈。三
18、是数据标准化及互操作性不足,数据“不好用”。数据格式、接口、存储等方面的标准化程度不足,导致数据整合难度高,互操作性差,增加数据处理成本。随着企业数智化转型对数据价值释放需求的提升和对隐私保护的重视,数据供给技术将呈现如下趋势:一是合成数据应用价值更加显著,将逐步应用于企业内风险预测、用户需求分析、模型训练等更多场景,满足企业数智化转型对高质量数据、高价值数据、多模态数据的需求。二是数据标注向自动化、智能化演进。未来数据标注将更多地依IO赖于自动化、智能化工具完成数据预处理过程,提供初步标注结果,再由人工进行校正和细化的方式提高数据标注效率。三是数据质量问题将成为关注重点,通过建立严格的数据采
19、集标准和流程,确保供给数据具有高质量、高相关性和高准确性。2 .多模态数据存储与治理支撑模型高质量训练高质量、多维度,大规模的数据是支撑大模型训练应用的关键基础。当训练数据存在样本过少、错值、缺失、偏差等异常时,模型训练输出会产生偏见和错误,因此准确、可靠且涵盗各类场景的高质量数据对大模型训练必不可少。同时,不同模态数据的共同作用能够有效提升模型使用效果,一方面,将同场景的图片、文本、音视频、知识库等同时作为训练数据能够增强大模型的理解能力:另一方面,当基于文本数据的训练出现偏差时,其他模态数据可以辅助大模型进行错误纠正,减少“幻觉”。如何对多模态数据进行高效存储、计算、治理已逐渐成为数据智能
20、领域的重要技术方向。当前多模态数据的存储治理仍存在以卜突出问题:一是多模态数据整合处理难度大,读取效率有待提升。多模态数据包括结构化、非结构化及半结构化数据,数据来源多样、数据量大、格式不一,因此整合难度较大。此外,在模型训练过程中需要对海量数据进行读取操作,对多模态数据的缓存加速能力也提出更高要求。二是面向模型训练,数据质量治理环节歪需前置。在模型训练过程中,数据质量治理环节需前置,在数据收集阶段同步并行,以保证训练数据集的准确、合规、完整。但当前数据治理流程通常是在数据应用过程中发现问题,从末端到源端,层层梳理数据血缘,定位问题点,进行数据的改进和补充,造成数据治理环节后置,难以满足需求。
21、未来,多模数据存储与治理领域呈现出三大趋势:一是支撑多模数据的高并发高吞吐存取需求。底层存储将更加注重性能优化与扩展性,支持统一管理多个命名空间,避免单点瓶颈,以解决多中心集群数据统-存储与共享问题;兼容多种存储协议,如PoSIX、HDFS,S3及CS1.等;支持分布式缓存,通过多级缓存加速,提高热点数据命中率,持续提升存储集群性能。二是构建多模态数据标准,促进数据的整合、共享、交换。通过构建个多层次、可扩展的多模态数据标准体系,为不同来源和类型的数据提供统一的处理和分析方法,有效解决多模态数据不均衡、难对齐、存在语义鸿沟等问题,降低多模态数据的整合难度,减少数据转换和清洗工作量,助力多模态数
22、据的有效利用。三是依托各类技术工具实现数据质量治理环节前置。当前,如英伟达、微软、谷歌和OPenA1.等厂商已经开始基于多模态元数据和多模态数据标准,制定多模态数据质量检测指标并构建检测任务的技术实践,在数据汇聚阶段保障数据质量。未来,数据质量治理环节前置将成为提升模型训练效率,增强数据融合水平的关键。3 .数据智能平台支撑企业数据及模型开发数据智能平台是企业数智化能力构建的重要基础,为上层应用、决策提供数据、算力支撑。一方面,人工智能技术被用于将复杂的数据分析过程F1.动化,快速识别数据中的模式和趋势;另一方面,数据平台为上层模型提供更强的算力及更高质量的数据,推动模型开发范式向以数据为中心
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 智能 白皮书 2024

链接地址:https://www.desk33.com/p-1533206.html