梁文锋署名论文，DeepSeek最强开源Agent模型炸场

智东西作者陈骏达编辑云鹏

智东西12月2日报道，昨晚，DeepSeek发布了两款新模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale。这是DeepSeek当前性能最强大的模型，在推理、智能体等多领域基准测试中斩获全球开源模型第一的表现。

DeepSeek称，标准版的DeepSeek-V3.2在公开的推理类基准测试中，达到了GPT-5的水平，仅略低于Gemini-3.0-Pro；相比Kimi-K2-Thinking，V3.2的输出长度大幅降低，显著减少了计算开销与用户等待时间。

长思考增强版DeepSeek-V3.2-Speciale结合了DeepSeek-Math-V2的定理证明能力，具备较强的指令跟随、数学证明与逻辑验证能力，在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro。

在开源世界里，DeepSeek-V3.2也是领先的存在。据权威大模型测评平台Artificial Analysis数据显示，在未计入DeepSeek-V3.2时，当前业内智能水平最高的开源模型是Kimi-K2-Thinking。

在DeepSeek-V3.2和Kimi-K2-Thinking两款模型均公布结果，且测试设置相同的基准测试上，DeepSeek-V3.2均领先于Kimi-K2-Thinking。

▲DeepSeek-V3.2和Kimi-K2-Thinking基准测试对比，数据来源为官方渠道

DeepSeek-V3.2还是DeepSeek推出的首个将思考融入工具使用的模型，并且同时支持思考模式与非思考模式的工具调用。

DeepSeek-V3.2模型在智能体评测中达到了当前开源模型的最高水平，大幅缩小了开源模型与闭源模型的差距。值得说明的是，V3.2并没有针对这些测试集的工具进行特殊训练，这意味着V3.2在真实应用场景中能够展现出较强的泛化性。

此外，DeepSeek-V3.2-Speciale模型还成功斩获IMO 2025（国际数学奥林匹克）、CMO 2025（中国数学奥林匹克）、ICPC World Finals 2025（国际大学生程序设计竞赛全球总决赛）及 IOI 2025（国际信息学奥林匹克）金牌。其中，ICPC与IOI成绩分别达到了人类选手第二名与第十名的水平。

在高度复杂任务上，Speciale模型大幅优于标准版本，但消耗的Tokens也显著更多，成本更高。目前，DeepSeek-V3.2-Speciale仅供研究使用，不支持工具调用，暂未针对日常对话与写作任务进行专项优化。

目前，DeepSeek官方网页端、App和API均已更新为正式版DeepSeek-V3.2。Speciale版本目前仅以临时API服务形式开放，以供社区评测与研究。DeepSeek-V3.2系列模型已经开源，技术报告同期发布。

值得一提的是，在技术报告的作者名单里，我们能看到不少熟悉的名字，比如DeepSeek创始人兼CEO梁文锋、前段时间代表DeepSeek在乌镇世界互联网大会上发声的研究员陈德里等。

技术报告：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

开源链接：

DeepSeek-V3.2

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

一、开源模型、闭源模型差距越来越大？DeepSeek找到三个原因

过去几个月，开源模型和专有模型的差距为什么在不断扩大？这是DeepSeek团队一直在思考的问题。

DeepSeek团队认为，限制开源模型在复杂任务中能力的因素，主要有三点。

首先，在架构上，开源模型主要依赖于原始注意力机制，这严重限制了长序列处理的效率。这种低效性对规模化部署和有效的训练后阶段都构成了重大障碍。

其次，在资源分配方面，开源模型在训练后阶段的算力投入不足，限制了其在困难任务上的表现。

最后，在智能体应用场景中，与专有模型相比，开源模型在泛化能力和指令遵循能力上表现出明显滞后，这阻碍了其在真实部署中的有效性。

为了解决这些关键限制，DeepSeek首先引入了DSA（DeepSeek Sparse Attention），这是一种高效的稀疏注意力机制，旨在显著降低计算复杂度。该架构有效解决了效率瓶颈，即使在长上下文场景下也能保持模型性能。

其次，DeepSeek开发了一个稳定且可扩展的强化学习协议，允许在训练后阶段进行大规模算力扩展。值得注意的是，该框架分配的训练后算力预算超过了预训练成本的10%，这在业内是较为少见的，从而解锁了模型的高级能力。

第三，DeepSeek提出了一种新颖的流程来促进工具使用场景中的泛化推理。研发团队利用DeepSeek-V3方法实施冷启动阶段，将推理和工具使用统一在单一轨迹中。

随后，推进到大规模的智能体任务合成，生成了超过1800个不同的环境和85000个复杂提示。这些广泛合成的数据驱动了强化学习过程，显著增强了模型在智能体上下文中的泛化能力和指令遵循能力。

二、基于DeepSeek-V3.1最终版打造，DSA让模型计算更聪明

DeepSeek-V3.2使用的架构与此前发布的实验版DeepSeek-V3.2-Exp完全相同。与DeepSeek-V3.1系列的最后一版DeepSeek-V3.1-Terminus相比，DeepSeek-V3.2唯一的架构改动是通过持续训练引入了DSA。

传统的注意力机制在处理一个token时，需要和它前面所有的toekn进行计算，这在长文本中非常耗时。DSA的思路就是先快速筛选出最重要的几个token，然后只对这些token进行详细分析。

这一选择是通过闪电索引器（lightning indexer）实现的。闪电索引器计算查询token与前序token的索引分数，以决定应该选择哪些token进行计算。鉴于闪电索引器头数少且可在FP8下实现，其计算效率非常出色。

给定每个查询token的索引分数后，细粒度令牌选择机制仅检索与top-k索引分数对应的键值条目，并计输出。

DeepSeek-V3.2的训练从上下文长度已扩展到128K的DeepSeek-V3.1-Terminus基础检查点开始。

在继续预训练过程中，模型先经历“密集预热”，即保持完整注意力不变，只训练索引器，使其学会模仿原注意力的分布。

随后进入稀疏训练阶段，引入真正的令牌选择机制，并同时优化整个模型。通过这种逐步过渡的方式，模型能够平稳从密集注意力迁移到稀疏结构，而不会导致性能崩塌。

在能力评估方面，DeepSeek-V3.2-Exp在标准基准测试、人类偏好评估以及多项长上下文任务中均表现出与前代相当甚至更优的结果。

无论是ChatbotArena的Elo得分，还是AA-LCR与Fiction.liveBench等长序列测试，皆显示其在引入稀疏注意力后并未牺牲模型质量，反而在长序列推理中获得明显优势。

在实际推理成本上，DSA将模型的核心注意力复杂度从平方级降低为近似线性增长，使得序列越长，节省越明显。虽然索引器本身仍需处理全局信息，但其开销远小于原MLA。

结合工程优化，DeepSeek-V3.2在H800 GPU上实现了显著的端到端加速，并在短上下文下利用专门的掩码模式进一步提升效率。总体而言，DeepSeek-V3.2在保持能力不降质的同时，有效突破了长上下文推理的性能瓶颈。

▲DeepSeek-V3.2在H800 GPU上实现了显著的端到端加速

三、打造6类专属模型，让模型给自己造后训练数据

DeepSeek-V3.2的后训练阶段是在持续预训练之后进行的，它的目标是把一个规模庞大但尚未定型的基础模型，进一步塑造成兼具推理、工具使用、代理任务和对齐能力的最终版本。

整个过程延续了DeepSeek-V3.2-Exp的做法，并依然基于稀疏注意力进行高效训练。后训练主要依靠两条路线：一条是专家蒸馏，一条是混合式强化学习，两者结合起来，使模型在不同领域都能获得稳定且均衡的能力提升。

专家蒸馏的核心思想是，不同任务由专门的专家模型来承担学习，再将这些专家的能力汇聚到统一的大模型中。

团队首先从同一个DeepSeek-V3.2基础检查点出发，为数学、编程、逻辑推理、通用智能体、智能体编程和智能体搜索等六类专业任务分别训练专属模型，这些模型拥有思考模式和直接作答模式两类数据，并利用大规模RL进行强化，以保证每个专家在自己的领域达到高水准。

随后，这些专家会负责生成高质量的领域数据，用来训练一个统一的大模型。实验表明，用专家数据蒸馏出来的大模型性能已经非常接近各个专家本身，再辅以后续的RL微调，残余的差距也可以基本消除。

混合式强化学习环节继续采用GRPO（Group Relative Policy Optimization）算法，把推理、智能体与人类对齐的训练整合到同一个阶段，从而避免多阶段训练中常见的灾难性遗忘。

推理和智能体任务主要依赖规则奖励、长度惩罚以及语言一致性奖励；而通用任务则由生成式奖励模型根据特定rubric评分。这样做的好处是，模型不会偏向某一类任务，而能在整体上保持稳健的能力平衡。

为了让强化学习能够在大规模计算下稳定推进，团队还对GRPO做了多项改进，使得大模型在长时间、高强度的训练下依然能保持良好的收敛特性。

在后训练中，DeepSeek-V3.2着重解决“思考模式与工具使用如何结合”的难题。为了避免模型在多轮工具调用中频繁重复推理，他们设计了一套新的上下文管理机制：只有当出现新的用户消息时才会清除思考轨迹，而工具输出的追加并不会导致推理内容被丢弃。

同时，工具调用历史仍会被完整保留，确保模型能够连续地利用已有推理继续完成后续动作。在训练早期，由于推理数据与代理数据来源不同，模型需要一个冷启动方式把“边思考边用工具”的模式拼接起来，因此团队设计了特定的系统提示，让模型在推理轨迹中自然嵌入工具调用，为后续RL提供可学习的示例轨迹。

例如，在回答问题1过程中（请求1.1-1.3），模型进行了多次思考+工具调用后给出答案。在这个过程中，用户需回传思维链内容（reasoning_content）给 API，以让模型继续思考。在下一个用户问题开始时（请求2.1），需删除之前的思维链，并保留其它内容发送给API。

▲工具调用历史保存机制

真正的能力提升则来自大规模的代理任务RL，它们覆盖搜索、代码修复、代码解释以及由自动环境生成器创建的各种可验证任务——这些任务往往具有复杂性高、可验证性强的特点，非常适合作为RL的训练素材。

最终形成的DeepSeek-V3.2是在经过大量专家蒸馏数据、混合RL训练和工具思考机制增强之后得到的统一模型，融合思考和非思考能力，而另一个实验版本DeepSeek-V3.2-Speciale则进一步在推理方向上加重训练，以探索更长推理路径的潜力。

结语：平衡计算效率与推理能力，知识广度和token效率仍有提升空间

DeepSeek-V3.2是一个平衡了计算效率与高级推理能力的模型。 DSA在不牺牲长上下文性能的前提下解决了关键的计算复杂度问题。随着计算预算的提升，DeepSeek-V3.2在推理基准测试上达到了可与GPT-5相媲美的性能。

此外，DeepSeek集成的大规模智能体任务合成流水线，显著增强了工具使用能力，为构建稳健且具备泛化能力的开源大模型智能体打开了新的可能性。

不过，DeepSeek也承认，由于整体训练FLOPs较少，DeepSeek-V3.2的世界知识广度仍落后于领先的专有模型。DeepSeek计划在未来的迭代中通过扩大预训练计算量来缩小这一知识差距。

其次，token效率仍是一项挑战；DeepSeek-V3.2通常需要更长的生成轨迹（即更多的tokens）才能达到与Gemini-3.0-Pro等模型相似的输出质量。未来的工作将聚焦于优化模型推理链的“智能密度”，以进一步提高效率。

第三，在解决复杂任务方面，DeepSeek-V3.2与前沿模型相比仍有差距，DeepSeek称会进一步完善基础模型以及后训练处理方案。

《欧美亚洲精品真实在线》，《首次登录送91元红包》

国产❌AV🔞无遮挡喷水白浆桃花视频

“久久久久久精品一区美女️色欲”

黄色丝瓜视频成人APP在线下载

……

{!! riqi() !!}

“国产自偷在线精品热”{!! reci() !!}

↓↓↓

{!! reci() !!}，是{!! reci() !!}

{!! riqi() !!}，多位选手在残特奥会田径（马拉松）项目刷新全国纪录，未❌亡🔞人雪女A㊙️V真人版是谁主演，日韩精品性交，一级A片欧美在线播放欧美激情，900AV在线，波多野吉av无码AV乱码|国产精品视频白浆免费视频网站|泫雅婬乱H文全❌文🔞阅㊙️读|欧美肏屄网站|国产又粗又大又黄又爽又硬又爽视频|用力?别停?受不了老师漫画

{!! riqi() !!}，“十四五”期间我国文化事业投入力度空前，葵司ssni-999无码播放，毛片试看A片，得吃官网免费入口，国产黄色视频黄色网站

{!! riqi() !!}，女足名宿范运杰：精神传承与技战术提升同样重要，苍❌井空🔞18部无㊙️删减电影免费，鸟鸟影院地址改名字了吗，久久三级视频，芒❌果TV已满🔞18㊙️岁电视剧免费看

{!! riqi() !!}，浙江杭州银龄教育更普惠，操操操干干干日日日日，欧美日韩精品视频免费在线观看，邪恶天堂AV免费观看全部，天天日,天天怼

{!! riqi() !!}|《习近平谈治国理政》中肯读者会在内罗毕举行|guoyaoquan|JIZZJIZZ JIZZ护士|成人版人抖音app无限看|百鬼屋侦探事务所动漫在线观看

{!! riqi() !!}|助力推进“科学无障碍共享行动” 中国科技馆举办专项主题活动|一边吃着葡萄一边扒开小括号|hjacdf.tpo|小南🈲🔞🔞🈲|污视频app荔枝视频

{!! riqi() !!}|探寻新时代发展足迹｜“医圣”故里：药香飘全球|69❌❌❌农村老熟女|在线视频欧美精选|图片区偷拍区小说区|苹❌果名🔞称100种大㊙️全……

{!! riqi() !!}，日本政治经济学者：高市言论偏离和平路线应当警惕，色情乱婬AV久久久毛片男男小️说，色色色色色激情，手机短片免费下载，亚洲AⅤ毛片免费看一二三区

{!! riqi() !!}，至少10名印尼籍、菲律宾籍等外佣在香港大埔火灾中丧生，黄片国产在线观看av，藏经阁,普通用户,试看30秒，黄品汇新版黑科技MBA百科，亚洲精❌品国产s🔞e㊙️tv

{!! riqi() !!}|【好评中国】“稳+进”动能不断释放，中国经济大船破浪前行|欧美性虐乳针刺视频|女学❌生自🔞慰喷㊙️水免费观看|97i蜜桃视频|好紧好大快点舒服使劲

{!! riqi() !!}，中央政府驻香港联络办下半旗志哀，草莓视频污免费，色综合久久久金八天国，香蕉视频下载app下载安装，护士小❌婬妇🔞Ⅹ㊙️XXXX

{!! riqi() !!}，2025年成都国际乒联混合团体世界杯抽签结果出炉，❌怪物🔞侵㊙️犯の奶水3D动漫，99玖玖爱免费视频在线观看，❌男同 🔞XX Ga㊙️y，www.ffszbm.com

{!! riqi() !!}，2025南宁马拉松鸣枪开赛，上楼梯每走一步就撞得更深，日本熟妇浓密毛毛多，a片三级片手机版免费观看小视频，18款禁用软件黄app在线观看

{!! riqi() !!}|香港大埔火灾：警方已拘捕13人|色姑娘天天久久综合网久久天天网|女生叫男生?自己坤巴视频|黄色漫画APP下载|综合另类欧美第十页

{!! riqi() !!}|宁波舟山港年集装箱吞吐量首次突破4000万标准箱|少妇一二三级无码视频|趁❌女🔞同桌午㊙️睡摸她奶头|❌壮🔞汉在工地被猛男房东H㊙️|欧美日❌韩在线旡码🔞视频一区㊙️

{!! riqi() !!}|“台湾有何本钱用备战换和平？”岛内青年拷问赖清德：没人愿当炮灰、做牺牲品，为“台独”打仗|人民网出文:看动物强人类的软件|蘑菇视频♥成人app♥ios|麻豆九九九九九九九九 ️|色图亚洲国产

{!! reci() !!}，{!! reci() !!}|中国海警位中国黄岩岛领海及周边区域执法巡查|东南亚仙踪林幼儿二区三区|секс高清❌в🔞идео高潮㊙️hd|日韩AV吹❌潮喷水高🔞潮网站㊙️|领导在车上吃我的奶全阅读

{!! reci() !!}，{!! reci() !!}|黑龙江铁力：游客沉浸式体验林区生活|男男女女鸡鸡对bb视频|138福利导航|亚洲精品乱来伦|三个男人躁我一个阿啊阿广告

{!! reci() !!}，{!! reci() !!}|冬季出行有哪些安全注意事项？这份重要提醒请查收→|媚黑学❌姐夏倾月的🔞小㊙️说|99思思视频|❌涂🔞山容容在胯下娇喘禁越荣|熟女双飞A️V黑料

{!! reci() !!}，{!! reci() !!}|（经济观察）海南跨境电商迎封关新机遇发力东南亚市场|番茄社区软件app下载|真❌实🔞自拍高中女在线㊙️|ipz566在线|美女露屁股㊙️洗屁股

{!! reci() !!}，{!! reci() !!}|180件（套）澳门美术协会会员艺术作品集中亮相|正在播放2022国产精品|女高中生强奸系列在线播放|女生把自己的坤坤让男生看|❌si🔞lk-165无删减㊙️在线播放

{!! reci() !!}，{!! reci() !!}|东西问丨巴西建筑师：为什么“海绵城市”在全世界引起共鸣？|国产三区女同|❌日韩🔞动漫㊙️女仆装|九一精品视频专区|韩国性猛交❌╳XXX🔞乱㊙️大交999久久久国产精品试看

{!! reci() !!}，{!! reci() !!}|浦东引领区建设五周年：以高质量发展激活城市温度|任你懆视频这精品6|免费一极a毛片免费视频|国产理论A片久久久久久久久|国产精品亚洲区论坛

监制：邓金木

策划：赖晗

主创：唐征宇林箴贺陈佛烘颜亦阳陈林韵

编辑：王家菁、段圣祺

下载APP

全部

梁文锋署名论文，DeepSeek最强开源Agent模型炸场

热门视频