2023AIGC发展趋势报告.docx
《2023AIGC发展趋势报告.docx》由会员分享,可在线阅读,更多相关《2023AIGC发展趋势报告.docx(64页珍藏版)》请在课桌文档上搜索。
1、AIGC发展趋势报告2023迎接人工智能的下一个时代目录前言01一、AIGC技术、应用和产业生态迎来发展快车道031、生成算法、预训练模型、多模态等Al技术累积融合I催生了AlGC的大爆发042、AIGC产业生态加速形成和发展,走向模型即服务(MaaS)的未来10二、消费端:AlGe牵引数字内容领域的全新变革121、AlGC有望望造数字内容生产与交互新定式,成为未来互联网的内容生产基础设地132、AIGC的应用生态和内容消费市场逐渐繁荣173、AIGC将日益成为未来3D互滕网的基础支撑204、聊天机器人和数字人成为新的、更包容性的用户交互界面,不断拓展应用领域245、AIGC将作为生产力工具来
2、推动元宇宙发展28三、产业端;合成数据牵引人工智能的未来311、合成数据为AI侬训练开发提供强大助推器,推动实现AI2.0332、合成数据助力破解Al“深水区”的数据难题,持续拓展产业互联网应用空间343、合成数据产业加快成为数据要素市场新赛道,科技大厂和创新企业抢先布局374、合成数据加速构建Al嘛旨、数实融合的大型虚拟世界39四、社会端;AIGC助力可持续社会价值411、元价值;解放人类创造力,革新艺术领域432、AlGC社会价值案例45五、发展与挑战并生:积极应对AIGC带来的社会伦理问题481、知识产权挑战492、安全挑战523、伦理挑战544、环境挑战57六、展望;拥抱人工智能的下一
3、个时代,打造可信AIGC生态60刖言2022年是AlGC(Al-GeneratedCOntent,人工智能生成内容)爆火出圈的一年不仅被消费者追捧,而且备受投资界关注,更是被技术和产业界竞相追逐。9月23日,红杉美国发表文章生成式Al:一个创造性的新世界,认为AlGC会代表新一轮范式转移的开始。2022年10月,StabilityAl获得约1亿美元融资,估值高达10亿美元,跻身狸角兽行列。StabilityAl发布的开源模型StableDiffusion,可以根据用户输入的文字描述(称为提示词,prompts)自动生成图像,即文生图(Text-to-hmage,T2l)oStableDiffu
4、sionsDA1.1.-E2、MidJoUmey等可以生成图片的AIGC模型引爆了AI作画领域,AI作画风行一时,标志人工智能向艺术领域渗透。2022年12月,OpenAI的大型语言生成模型ChatGPT刷爆网络,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让网友们不禁怀疑ChatGPT是否已经具有人类智能。全球各大科技企业都在积极拥抱AIGQ不断推出相关的技术、平台和应用。AIGC用户创作UGCAl辅助用户创作AIUGC专业制作PGC内客创作模式三:内容创作模式的四个发展阶段从字面意思上看,AIGC是相对于过去的PCG.UCG而提出的。因此,AIGC的狭
5、义概念是利用Al自动生成内容的生产方式。但是AlGC已经代表了Al技术发展的新趋势。过去传统的人工智能偏向于分析能力,即通过分析一组数据,发现其中的规律和模式并用于其他多种用途,比如应用最为广泛的个性化推荐算法。而现在人工智能正在生成新的东西,而不是仅仅局限于分析已经存在的东西,实现了人工智能从感知理解世界到生成创造世界的跃迁。因此,从这个意义上来看,广义的AlGC可以看作是像人类一样具备生成创造能力的Al技术,即生成式A1.它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容(如虚拟化身、虚拟物品、虚拟环境)等各种形式的内容和数据,以及包括开启科学新发现、创
6、造新的价值和意义等。01因此,AIGC已经加速成为了Al领域的新强域,推动人工智能迎来下一个时代。Gartner将生成性Al列为2022年5大影晌力技术之一。MIT科技评论也将Al合成数据列为2022年十大突破性技术之一,甚至将生成性Al(GenerativeAl)称为是Al领域过去十年最具前景的进展。未来,兼具大模型和多模态模型的AIGC模型有望成为新的技术平台。如果说Al推荐算法是内容分发的强大引擎,AIGC则是数据与内容生产的强大引擎。AIGC正朝着效率和品质更高、成本更低的方向发展,在某些情况下,它比人类创造的东西更好。包括从社交媒体到游戏、从广告到建筑、从编码到平面设计、从产品设计到
7、法律、从营销到销售等各个需要人类知识创造的行业都可能被AlGC所影晌和变革。数字经济和人工智能发展所需的海量数据也能通过AJGC技术生成、合成出来,即合成数据(SynthetiCdata)。未来,人类的某些创造性的工作可能会被生成性Al完全取代,也有一些创造性工作会加速进入人机协同时代一人类与AlGC技术共同创造比过去单纯人的创造之下更高效、更优质。在本质上,AlGC技术的最大影响在于,AJGC技术将会把创造和知识工作的边际成本降至零,以产生巨大的劳动生产率和经济价值。换句话说,正如互联网实现了信息的零成本传播、复制I未来AlGC的关腿影响在于,将实现低成本甚至零成本的自动化内容生产,这一内容
8、生产的范式转变,将升级甚至重塑内容生产供给,进而给依赖于内容生产供给的行业和领域带来巨大影响O但是任何技术都是一把“双刃剑二AlGC在引领Al技术新趋势和相关产业发展的同时I也可能带来一定的风险挑战,诸如知识产权保护、安全、技术伦理、环境影晌等。各界需要秉持科技向善理念,负责任地、安全可控地发展应用AlGC,打造安全可信的AlGC技术和应用,以科技向善引领AlGC技术创新发展和应用,实现高质量、健康可持续的发展。01注:国外他向干使用生成式AI(Genefat流Al)的表迷.国内iJfe使用AIGC的表港.本IR告U为两者至表述有不问.但总表怠累一悴的.然而正行又中不欺侍刈的区分.AIGC技术
9、和产业生态迎来发展快车道本身主箸:胡晓荫僵讯研究院研究员虽然从严格意义上来说,1957年莱杰伦希勒(1.ejarenHiller)和伦纳德艾萨克森(1.eonardIsaacson)完成了人类历史上第一支由计算机创作的音乐作就可以看作是AiGC的开潴,距今已有65年,这期间也不断有各种形式的生成模型、Al生成作品出现,但是2022年才真正算是AIGC的爆发之年,人们看到了AlGC无限的创造潜力和未来应用可能性。目前,AlGC技术沉淀、产业生态已初步形成,保持强劲发展和创新势头。1、生成算法、预训练模型、多模态等Al技术累积融合,催生了AIGC的大爆发UAlGC技术来积融合似一是I基础的生成算法
10、模型不断突破创新。2014年,伊恩古德费洛(IanGoodfehw)提出的生成对抗网络(GeneratiVeACiVelrSarialNetWOrk,GAN)成为早期最为著名的生成模型。GAN使用合作的零和博弈框架来学习,被广泛用于生成图像、视频、语音和三维物体模型等。GAN也产生了许多流行的架构或变种IDCGAN1StyIeGAN.BigGAN1StackGAN1Pix2pixlAge-cGAN1CycIeGAN,对抗自编码器(AdVerSaHalAUtOerKOderSlAAE),对抗推断学习(Aclversanally1.earnedInference,A1.I)等。02圉魁:以CAII
11、E2R例.它通过顼训练模型的石式.名联航合了打遢又字与圉像两种摸忑的CIJP成型.控制图像生成的T歌模型.以今蔽器何时处座多慎退至任务的暹言慢型,显终成为支楮文字生成El像的多嗯秘IGC工具.随后,Transformer、基于流的生成模型(FlOW-basedmodels)、扩散模型(DiffUSionModel)等深度学习的生成算法相继涌现。其中,Transformer模型是一种采用自注意力机制的深度学习模型,这一机制可以按照输入数据各部分重要性的不同而分配不同的权重,可以用在自然语言处理(N1.P),计算机视觉(CV)领域应用。后来出现的BERT、GPT31.aMDA等预训练模型都是基于开
12、ansformer模型建立的。而扩散模型(DiffUSiOnModeI)是受非平衡热力学的启发,定义一个扩散步骤的马尔可夫链I逐渐向数据添加随机噪声,然后学习逆扩散过程.从噪声中构建所需的数据样本。扩散模型最初设计用于去除图像中的噪声。随着降噪系统的训练时间越来越长并且越来越好,它们最终可以从纯噪声作为睢一输入生成逼真的图片。031犷散模型结构然而,从最优化模型性能的角度出发,扩散模型相对GAN来说具有更加灵活的模型架构和精确的对数似然计算,已经取代GAN成为最先进的图像生成器。2021年6月,QDenAl发表论文已经明确了这个结论和发展趋势。0403P.DharirtaIA.Nichol.D
13、iffusionModelsBeatGANsonImage*nthesis(2021Q4httpsai.ggIebbg.om2021/07/hlgh-flttelity-nage-generatbn-using.htmI模型提出时间模型描述变分自动编码(VariationalAutoencoclers,VAE)2014年基于变分下界约束得到的EnCoder-DeCOder模型对生成对抗网络(GAN)2014年基于对抗的Genelrator-DiSCriminator模型对基于流的生成模型(Flow-basedmodels)2015年学习一个非线性双射转换(bijectivetransforma
14、tion)l其将训练数据映射到另一个空间,在该空间上分布是可以因子化的,整个模型架构依靠直接最大化Iog-IikelihOod来完成扩散模型(DiffusionModel)2015年扩散模型有两个过程,分别为扩散过程和逆扩散过程。在前向扩散阶段对图像逐步施加噪声,直至图像被破坏变成完全的高斯噪声,然后在逆向阶段学习从高斯噪声还原为原始图像的过程。经过训练,该模型可以应用这些去现方法,从随机输入中合成新的“干净”数据。FanSfolrmer模型2017年一种基于自注意力机制的神经网络模型I最初用来完成不同语言之间的文本翻译任务,主体包含EnCoder和DeCOder部分,分别负责对源语言文本进行
15、编码和将编码信息转换为目标语言文本神经辐射场(NeuralRadianceFieIdlNeRF)2020年它提出了一种从一组输入图像中优化连续5D神经辐射场的表示(任何连续位置的体积密度和视角相关颜色)的方法,要解决的问题就是给定一些拍摄的图,如何生成新的视角下的图C1.IP(Contrastive2021年1、进行自然语言理解和计算机视觉分析;1.anguage-ImagePre-2、使用已经标记好的“文字-图像”训练数Training)模型据。一方面对文字进行模型训练。一方面对另一个模型的训练I不断调整两个模型的内部参数,使得模型分别输出的文字特征和图像特征值并确认匹配。主流生成模型一览表
16、二是,预训练模型引发了AIGC技术能力的质变。虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。预训练模型的出现引发了AIGC技术能力的质变,以上的诸多落地问题得到了解决。质着2018年谷歌发布基于TranSformer机器学习方法的自然语言处理预训练模型BERT1人H智能领域进入了大炼模型参数的预训练模型时代。Al预训练模型,又称为大模型、基础模型(foundatiOnmodeI),即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型,可以适应广泛的下游任务。这些模型基于迁移学习
17、的思想和深度学习的最新进展,以及大规模应用的计算机系统,展现了令人惊讶的涌现能力,并显著提高各种下游任务的性能。05鉴于这种潜力,预训练模型成为Al技术发展的范式变革,许多跨领域的Al系统将直接建立在预训练模型上。具体到AIGC领域,Al预训练模型可以实现多任务、多语言、多方式,在各种内容的生成上将扮演关键角色。按照基本类型分类,预训练模型包括;(1)自然语言处理(N1.P)预训练模型,如谷歌的1.aMDA和Pa1.M、OPenAl的GPT系列;(2)计算机视觉(CV)预训练模型,如微软的Florence;(3)多模态预训练模型,即融合文字、图片、音视频等多种内容形式。05https7a1.s
18、ianford.edWneWSAMectbnafou11dation-modeIs预训练模型应用参数量领域谷歌BERT语言理解与生成4810亿N1.P1.aMDA对话系统N1.PPa1.M语言理解与生成、推理、代5400亿N1.P码生成Imagen语言理解与图像生成IlO亿多模态Parti语言理解与图像生成200亿多模态微软Florence视觉识别6.4亿CVIuring-N1.G语言理解、生成170亿N1.PFacebookOPT-175B语言模型1750亿N1.PM2M-100100种语言互译150亿N1.PDeepMindGato多面手的智能体12亿多模态Gopher语言理解与生成280
19、0亿N1.PAIphaCocIe代码生成414亿N1.POpenAlGPT3语言理解与生成、推理等1750亿N1.PC1.IP&DA1.1.-E图像生成、跨模态检索120亿多模态Codex代码生成120亿N1.PChatGPT语言理解与生成、推理等N1.P英伟达Megatron-语言理解与生成、推理5300亿N1.PTuringN1.GStabilityAlStable语言理解与图像生成多模态Diffusion国外主要的AIGC预训练模型一览表三是,多模态技术推动了AIGC的内容多样性.让AlGC具有了更通用的能力。预训练模型更具通用性,成为多才多艺、多面手的Al模型,主要得益于多模型技术(m
20、ultimOdaltechnol-Ogy)的使用,即多模态表示图像、声音、语言等融合的机器学习。2021年,Q)enAI团队将跨模态深度学习模型C1.lP(COntraStiVe1.angUage-ImagePre-Training,以下简称C1.IP)进行开源。C1.IP模型能够将文字和图像进行关联,比如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。因此,OJP模型具备两个优势:一方面同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练,C1.IP模型广泛利用互联网上的图片,这些圄片一般都带有各种文本描述,成为C1.IP天然的
21、训练样本。据统计,C1.IP模型搜集了网络上超过40亿个“文本-图像”训练数据,这为后续AIGC尤其是输入文本生成图像/视频应用的落地奠定了基础。在多模态技术的支持下,目前预训练模型已经从早期单一的N1.P或CV模型,发展到现在语言文字、图形图像、音视频等多模态、跨模态模型。2021年3月QDenAl发布Al绘画产品DA1.1.El只需要输入一句文字,DA1.1.E就能理解并自动生成一幅意思相符的图像,且该图像是独一无二的。DA1.1.E背后的关诞技术即是ClJP。C1.IP让文字与图片两个模态找到能够对话的交界点,成为DA1.1.EDA1.1.-E2.0.StabIeDiffUSion等突破
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 AIGC 发展趋势 报告

链接地址:https://www.desk33.com/p-1340321.html