欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    谁将取代DeepSeek——对DeepSeek的冷思考.docx

    • 资源ID:1885812       资源大小:25.60KB        全文页数:16页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    谁将取代DeepSeek——对DeepSeek的冷思考.docx

    谁将取代DeepSeek对DeepSeek的冷思考-VDeepSeek的一般情况(一)DeePSeek是谁DeepSeek成立于2023年,公司位于中国杭州,由前对冲基金幻方(High-FlyerQUant)的领导者梁文峰创立。DeePSeek的主要特点是基于开源模型和提供低推理成本的技术。DeePSeek聚集了一支年轻、技术技能出色的团队,其核心目标是推动通用人工智能(AGI),并以透明和开源的方式进行研究,同时强调通过低成本的技术使先进的人工智能(AI)更容易获取。(二)DeePSeek的成就DeepSeek在模型开发上采用了混合专家架构(MOE)等先进算法,这有助于节省显存资源,并提高底层算力的使用效率。这种技术思路在DeePSeek-V2中已经得到验证。公司通过开源其模型和相关技术,允许更多的Al团队基于这些最先进且成本最低的技术开发新的应用。DeepSeek-Rl是公司推出的一款模型,在短时间内登顶苹果美国区应用商店免费APP下载排行榜,并在中国区也取得了领先的位置。该模型在多个领域(如文本创作、代码生成等)达到了与OpenAI相当的水平,但成本仅为OpenAI模型费用的一小部分。DeepSeek的突出功能之一是其令人难以置信的非常低的API调用价格,使高级Al更容易访问。例如,DeepSeek-Rl的起价每百万输入Token为0.55美元、每百万输出TOken为2.19美元,这一价格远低于OpenAI或其他美国AI实验室的产品。(三)DeePSeek引起的市场轰动DeepSeek的成功可能会促使OpenAI和其他美国供应商降价以保持现有的领先地位。如果更高效的模型能够以少得多的支出参与竞争,那么人们就会质疑Meta和微软等公司的巨额支出,他们分别承诺在2025年将至少650亿美元主要投入在Al基础设施上这一资本支出。DeePSeek在全球市场掀起风浪,阿斯麦、英伟达等之前受益于AI服务需求欣欣向荣的股票大跌,而科大讯飞等与DeepSeek相关的中国股票则出现上涨。1月27日,纳斯达克100指数期货跌幅扩大至5%,标普500指数期货下跌3%。欧洲方面,科技股领跌,芯片设备制造商阿斯麦控股下跌11%,Cboe波动率指数(Vl某)走高。如果此番跌势维持,纳斯达克100和欧洲斯托克600科技股指数所蒸发的市值总额将达大约L2万亿美元。''DeepSeek的成功显示出开发成本较低的强大AI模型是可能的,”瑞士联合私立银行(UnionBanCairePriVee)董事总经理Vey-SernLing表示,“这可能会冲击目前由少数科技巨头高额支出来驱动整个Al供应链的投资逻辑。”(四)DeePSeek的创新DeepSeek-VS和DeepSeek-Rl都利用了混合专家架构(MoE),该架构仅激活其6710亿个参数中的一个子集。可以把它想象成部署数百名专业的微观专家,在需要他们的技能时介入。这种设计确保了计算效率,同时保持了高模型质量。DeePSeek采用纯强化学习(RL)方法,进一步使其与众不同。这些模型通过连续的反馈回路自主学习和改进,实现自我校正和适应性,这种机制显著提高了其解决问题的能力,特别是对于需要深入推理和逻辑分析的任务。除了MoE,多头潜在注意力机制(MLA)提高了模型同时处理多个数据流的能力。通过将焦点分布在几个“注意力”头上,可以更好地识别上下文关系并处理细微的输入,即使在处理单个请求中的数万个Token时也是如此。(五)用户评价用户对DeepSeekTU的高度评价主要集中在其思考过程的细腻性、自洽性和全面性上,它能够提供深度和细节丰富的输出。一些用户也指出了DeePSeek在某些方面的“用力过猛”,如生成过于复杂的语言或不适当的用词,特别是针对特定受众(如儿童)的内容。DeePSeek面临的技术挑战包括如何进一步优化模型的性能、降低成本的同时保持高效率,以及克服可能存在的幻觉和偏差问题。DeepSeek公司正在专注于增强其uDeepThink+Webv搜索的功能,以实现实时在线查找能力。此外,还考虑开发针对特定行业的定制化模型,以及建立全球合作伙伴关系。二、关于DeePSeek影响的分析与DeePSeek基本信息相对的,是其所产生的巨大影响。这些影响中有哪些是短期性的,哪些可能是长期性的?(一)对中美战略竞争的影响:“星际之门”计划DeePSeek对中美战略竞争的影响,首先表现在对美国“星际之门”计划CtheStargateproject)的影响。2025年1月22日,美国总统特朗普在白宫新闻发布会上宣布启动“星际之门”计划。这一计划被称为“21世纪AI时代的'星球大战'计划”。“星际之门”计划由软银、OpenAI,甲骨文等科技巨头联合推动,注资高达5000亿美元。该计划旨在建设先进的数据中心和配套基础设施,以支持人工智能技术的快速发展,预计在未来四年内完成。DeepSeek出现后,一个显而易见的疑问是美国耗费5000亿美元的计划所完成的工作。中国人难道不能用500亿美元甚至更低的成本完成,乃至做得更好吗?这样一来,“星际之门”计划还有意义吗?因此特朗普评价道,DeePSeek的问世是一记“警钟”。DeePSeek对“星际之门”计划的影响主要体现在技术竞争、市场情绪、政策与战略调整等方面。首先,技术竞争方面,DeePSeek凭借其低成本、高性能的技术优势,给Al行业带来了新的竞争格局。“星际之门”计划的参与者可能会重新评估投资策略和技术方向,思考是否有更高效低成本的方式实现目标。例如,原本计划大量投入算力资源的企业可能会因DeePSeek的出现而调整策略,这增加了美国在人工智能领域的技术竞争压力。其次,市场情绪方面,DeePSeek的发展吸引了市场的关注,使得投资者对高成本Al相关项目产生了怀疑。DeepSeek的市场预期和成本估值,会吸引更多投资者关注。最后,政策与战略调整方面,DeePSeek的成功表明中国科研团队在有限条件下通过创新实现了弯道超车,这可能会促使美国政府重新评估“星际之门”计划的可行性和成本效益,进行政策与战略上的调整。此外,抛开成本不说,马斯克质疑“星际之门”计划的融资情况。这一计划似乎没有与马斯克很好沟通。马斯克在社交平台发文说,“他们实际上没有钱”“软银能确保的资金远低于100亿美元”。这是暗指软银去年负债3.8万亿日元。马斯克还曾表示他“不信任"C)PenAl的奥特曼。美国外交政策(ForeignPoIiCy)上的文章DeepSeek揭示了美中竞争的未来(WhatDeepseekrevealedaboutthefutureofU.S.-Chinacompetition)指出,DeepSeek的非凡成功引发了美国国家安全界的担忧,他们担心美国最先进的Al产品可能再也无法与中国更廉价的替代品竞争。文章分析,美国一直在利用其对半导体供应链的控制,限制中国获取高端芯片。然而,DeepSeek取得的成功让一些人开始质疑,美国的芯片出口管制是否毫无作用,甚至适得其反。文章最后指出,如果美国和中国的AI模型都存在双方不确定如何控制的危险能力的风险,那么美国与中国领导层就此进行沟通则是国家安全的当务之急lo(二)对中美科技竞争的影响DeepSeek的问世,在科技界眼中,缩短了中美在AI上的差距。Meta创始人兼CEO扎克伯格表示,DeepSeek非常先进,并认为中美之间的Al差距非常小。1. 不仅是中美之争本身,还是开源、闭源之争图灵奖得主、MetaAI首席科学家YannLeCIm在社交媒体上表示:"DeepSeek的成功凸显了保持Al模型开源的价值,这样任何人都可以从中受益。这表明开源模式正在超越专有模式。”他认为:“当人们看到DeepSeek的表现,惊呼中国Al正在赶超美国,但这种解读有误。更准确的结论是,开源模型正在超越闭源系统。2”福布斯杂志则指出,DeePSeek的开源策略可能重塑全球Al标准,推动中国成为开源模型的主导者之一。自然杂志评价称,Rl的开放性远超闭源模型的“黑匣子”特性。由于美国公司出于商业利益,更倾向闭源系统,这给利用开源系统的中国公司更多机会,特别是在打造科技生态系统方面的机会,而这是以往中国相对于美国的薄弱环节。支持这一看法的事实是,DeepSeek因开放吸引了开发界的热烈响应,很短时间内就衍生出600多个应用。当然,国内科技界也有人对此持怀疑态度,主要是基于以往的开源往往在应用中被当作自主技术保守(伪开源)的历史。DeePSeek目前还没有完全商业化,一旦商业化,将面临如何处理技术开放与商业模式开放的关系的问题。如果处理得好,如将基础业务与增值业务充分分开,形成互补,那么中国在这方面将形成对美国的优势。当然,中国如果在打造包容技术与商业开放的制度环境(如反垄断政策环境)方面落后于美国,也会使技术与商业上的优势化为乌有。2. DeePSeek对巨头的挑战DeePSeek现在俨然具有了当年U盘替代软驱那种“同等功能、巨大价差”的以小博大的势头。DeePSeek的崛起对现有的Al巨头如C)PenAI、Meta等构成了挑战,促使他们重新评估成本、战略和研究方法。一是通过开源策略和低成本技术,DeepSeek为小型企业、研究人员和开发者提供了新的机遇。一旦形成良好开发生态,有可能重现当年谷歌取代雅虎的历史。DeepSeek目前已进入搜索技术领域,这要求百度打起十二分的精神来应对,懈怠就意味着出局。二是随着用户采用率的增加和市场对AI能力需求的增长,DeePSeek有望继续在AI领域发挥颠覆性作用。公司可能会进一步优化模型性能、加强与硬件供应商的合作,并开发针对特定行业领域的定制化解决方案。DeepSeek是通过开源技术、低成本策略和创新算法推动人工智能发展的中国初创企业,其成功不仅体现在市场表现上,还在于对Al社区的影响力,以及为小型企业和开发者提供的新机遇。随着未来的发展,DeepSeek有望在AI领域持续产生重大影响,并可能引领下一波变革性突破。同时,也要看到,DeePSeek的出现在中国不是偶然的。中国还有一批潜在的同类技术和公司即将浮出水面,包括阿里团队、李飞飞(华人)团队都已提出了初步的成果,共同推动Al的改朝换代。3. DeePSeek对投资的影响DeePSeek的初步成功,引发了人们对OPenAI、微软和其他公司所追求的投资计划的重大质疑。首先对OpenAI来说,DeepSeek以极低的成本实现极高性能,让人们对OPenAl投资回报能力产生怀疑。将DeepSeek节俭、分散的创新,与OpenAI等其他开发商对集中、资源密集型基础设施的依赖,进行了对比。结果发现,打造一个世界水平Al模型,只需要投入巨头一个高管的年薪就可以做到,巨头动辄养着十几个、几十个这种价位的高管的合理性,就会遭到投资人普遍质疑,甚至会产生受骗的感觉。可以想见,巨头内部现在慌作一团,即使为了保住工资,也有动机赶紧向投资人证明DeepSeek的种种不是。但问题是,如果与DeePSeek类似的小公司成批涌现时,想通过栽赃和甩锅来摆脱困境,将不会有效。当然,有一点现在还看不清楚,这就是DeePSeek本身的资本模式。这家公司出身对冲基金。在DeepSeek这个案例中,对冲基金对Al的投入(包括包装与炒作)是可以看清的;但AI的产出和商业化现在还没有发生,将会怎样,还有待观察。一旦演化成一个金融的故事,就会存在各种变数。从投资上,人们期待DeePSeek做实,而不要变成一个壳。三、谁将取代DeePSeek:从一滴水看Al大海作为专门研究人工智能的业内人士,还要跳出媒体与资本的喧嚣,用平常心冷静观察DeePSeek,这样看出的门道自然有所不同。(一)冷思考之一:DeePSeek是弯道超车还是换道超车?人工智能的权威专家钟义信教授认为,DeePSeek还在传统轨道的同一个赛道上,可以评价为“在同一个赛道上,DeepSeek以更优秀的技术超越了GPTol要看到在同一赛道弯道超车的局限。钟义信指出,DeePSeek的技术(主要是算法效率)比GPT更优秀,但是,两者的范式(科学观和方法论)是一样的。具体来说,两者的科学观都是把人工智能看作“人工脑”,两者的方法论都遵循“唯形式化”和“分而治之二然而,研究人工智能所需要的真正科学观,是应该把人工智能看作“主体主导下的主体客体相互作用的信息生态过程”(即整体论)。这是DeepSeek热中的一种冷思考。钟义信的观点无异于认为,DeepSeek与其追赶的OpenAI是同类,都是美国计算主义同一赛道上的赛手,区别只是一个跑了50步,一个跑了100步。这与一般业内人士的见解(包括马斯克的见解)非常不一样,业内都是看到了开放与封闭路线的区别,看到微软收购OpenAI,使得OpenAI变成了一个忘记“初衷”的商业化工具。马斯克的不满很大程度也来自这里,而不是如特朗普认为的与“星际之门”计划中的某人“有仇”。不过在这里,钟义信进了一步,直指“初衷”本身存在的局限。这涉及对人工智能本质的理解,属于一个更深的问题。现有Al主流坚持物质学科范式(强调客体计算,缺主体价值判断),这是其时代局限。这种局限在DeePSeek骨子里也有。未来取代它的,将是信息学科的范式,即强调客体与主体统-O从这个意义上说,下一步替代DeePSeek们的,将是克服主客二元论的Al新范式,由此开启换道超车。在前沿上,这一趋势的苗头在生成式AI中(如新生成主义,neo-enactivisn)隐约可见。本周作出DeePSeek同类成果的李飞飞,其实就在这条路上,她的野心肯定不止于DeePSeek。(二)冷思考之二:知还是行?著名人工智能专家蔡恒进对DeepSeek的成就有一个独特的看法,认为DeePSeek对巨头的冲击的意义不只在于成本,而在于模式。蔡恒进说:'OpenAI现在走的路,就是把算力集中起来,把参数推上去来实现AGI,这实际上是世界的前景就变成很中心化的Al系统,然后这个系统会需要大量的资源、能量,还有芯片算力的集中。”而DeepSeek的发展是分布式计算的方向,这比业界一般的“开放-封闭”视野多了一个“集中-分布”角度。蔡恒进同样主张主客一体的Al新范式,不满意计算主义的Al路线,认为“我们有人类或者生命的参与、有主观能动性”,要把这种主体性加入计算的客体性中。他具体提出了“认知坎陷说”,即一种加入布伦塔诺意向性的认知论。对于AI来说,“认知坎陷说”相当于一个“知难行易”模型。目前计算主义把重点放在前者(知难),体现为“AI的进步都是通过规模来实现的”“只有堆算力才是成功的"(李德毅院士称为“暴力计算”)。他从理查德萨顿(RichardS.Sutton)的Thebitterlesson(可译为"苦涩的教训”)一文中,引出对通用算力的质疑。夸奖DeePSeek"实际上打破了这个结论”“已经偏离了那条路线了",这是指DeepSeek不靠堆GPU而提高性能。蔡恒进主张的新方向,把重点放在后者(行易),相当于认为实践是简、认识是繁。计算主义重认知、轻实践,形成对通用算力和暴力计算的迷信。如果把Al的重点从认识转向实践,知行合一,就可以化繁为简。用他的话说,“并不是说规模越大越好,只是说在它那个场景里才能生成”。在走偏到客体方向的Al中加入主体因素的方法是,将算法从认识角度调整为实践角度,变为场景的认知、具身的认知,“只是根据场景或需要进行一定程度的数字化:这与李飞飞的具身Al思路有相通之处。为此,“追求用更小的数据库、更少的语料、更小的系统来实现更高的智能,在我看来才是正确的方向”。人们在能行的时候,从不长篇大论,是因为有主体目标、意向在指引,将世界化繁为简到自己的目的上。蔡恒进看好DeePSeek深度学习的方向,尤其是“不用人干预地强化学习”,但是认为DeepSeek还可以进一步在可持续的自学习这个方向上改进。(三)冷思考之三:向上与向下两条曲线胡延平作为业内资深专家,这轮也没有跟着媒体跑,而是得出了独立的判断。他比较冷静地分析了当前形势,看出大模型的“两条路线”是向上曲线与向下曲线不同取向的分别,认为DeePSeek走在向下曲线的道路上。他说:“大模型现在是两条曲线交织的双螺旋进化。向上走的曲线,追求整体感知理解行为能力的通用智能,拼的是整体理解意义上的脑能力、思考和监督思考、视觉在内的整体理解,空间智能等现实模型、物理等科学模型、多模态更不在话下。思维链、皮层计算、不同模型原理是当下前沿探索的核心。向下走的曲线提升数据质量、训练意义上的量效比、算力能效比,大幅降低推理成本。DeepSeek在这个双螺旋里向下有余向上不足。“胡延平说:“向下曲线对成本效率有改变,但对捧得AGl圣杯的贡献可以忽略4。”他认为,DeePSeek没有展现分毫对未来的思考和探索,实质上依然处在追赶阶段。DeepSeek不仅属于古典LLM(大语言模型,LargeLanguageModel)范畴,呈现的其实还是“性价比”。在胡延平看来,DeePSeek主要是对于合成数据、知识蒸储、FP8低精度(FT8为一种8位浮点数格式)、稀疏模型、MoE,甚至包括多头注意力机制等”已有已知技术”进行组合,“在资源和性能之间调优,取得最佳平衡,这是DeePSeebV3的成功之处:当然,对于什么才是值得追求的“AGI圣杯”,仁者见仁,智者见智。(四)不冷不热地思考:高性能计算路线上的两种走法我认为把DeePSeek当作一个事件看,代表的是高性能计算思潮的崛起,从中既反映出DeePSeek的成就所在,也自然显示出其不足。高性能计算是与美国相反的计算路线,在中国形成已有近20年历史。早在上个世纪,国家863计划就开始实施“国家高性能计算环境”项目。美国计算主义的路线无以为名,可称为高速度计算。高速度与高性能的不同,反映技术与技术经济的区别。技术不受资源(如GPU)制约时,越快就越好,主要靠上规模、堆硬件实现;技术经济在资源约束(从担心系统、芯片“卡脖子”到强调应用)下,强调性价比,一个突出特征是强调成本。打个形象的比方,同为轿车,美国车设计不太考虑省油,是因为石油资源不受限制;而日本车设计主要考虑省油,是因为担心石油哪天被断供。Al也是如此。高性能计算路线在中国有两种走法,一种是弯道超车,另一种是换道超车。DeePSeek代表的是弯道超车的一支,如专家判断的,是在美式路线的既定赛道内,通过强化成本控制,提供高性价比的算力。走这条路,时间在前。DeepSeek只是第一个冒头的,最近五年会是不断开花结果之时。DeePSeek的出现不是偶然的。梁文锋说取得成就是“站在巨人肩膀上”,国内外都误以为巨人是指巨头、大厂,其实不尽然。这个巨人应该说主要是中国科研院校,特别是北大、北邮和清华三校。DeePSeek的140人团队,大多是这三校的应届毕业生。如果没有导师这个群体,以及国家高性能计算环境的近20年打造,梁文锋到哪儿去找那么多博士论文成果,连人带论文都拿来,而且拿来就可以用,用了就可以超过美国巨头。举例来说,DeePSeek的一个窍门是重视模型算法和硬件工程的配合,其中的技术就由这些学生以DeepSeek-AI的名义发表在论文Fire-FlyerAI-HPC:Acost-effectivesoftware-hardwareco-designfOrdeeplearning中。其中的HPC,就是高性能计算highperfOrmancecomputing的缩写。美国巨头现在总觉得自己才是“巨人”,从DeepSeek这个鸡蛋里挑有没有自己的骨头(研究成果)。这些应届生是站在HPC这个巨人肩膀上成长起来的。其实巨头们找一下DeePSeek中全部应届毕业生的毕业论文,就知道技术是哪里来的了。举例来说,要想了解DeePSeek中不常见的3D生成技术是从哪儿来的,到清华大学检索一下,可得知是清华博士生孙景翔在DeePSeek实习期间,与导师刘炸斌等共同完成的。诸如此类,不胜枚举。高性能计算路线的第二种走法,目前还潜伏在冰山下的大海中,这种走法的特征是换道超车。所谓换道,就是指与美国主流计算主义分道扬镀的路线。最大的不同,在于范式。追的时候是同范式的,超的时候用的是不同范式。范式的不同,涉及的主要是对“科学是什么”的理解有了根本性的分歧。其中的思路,从国家数据空间发展战略中可以看到,目前国家数据空间发展战略正处在二期工程阶段。开花结果,还需要多年以后。应该说,DeePSeek作为中国应届毕业生群体的代表作,还没有进入这个主力赛道。DeepSeek包括马上涌现的大批同行者,作为高性质计算这个大的中国思潮的一部分,只看到LLM成本问题的表层,即与Al物质科学范式有关的那一方面。当然解决了这方面的问题,成就也堪称伟大。但是,再过几年,美国人就会领教中国主力军团的出击,看到冰山一角下庞大的水下部分。那将是一场范式革命,是从目前的客体范式向未来的主客体统一范式转变的伟大长征。我们可以从上面介绍的钟义信、蔡恒进的思想中,从外围体会到其中的潮流上的思路。美国最前卫的科学家也有类似想法,但不成气候。而在中国,这不是一个人两个人的思想,而是代表整个群体走向共识的技术觉醒。

    注意事项

    本文(谁将取代DeepSeek——对DeepSeek的冷思考.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开