智东西作者 陈骏达编辑 云鹏
智东西12月2日报道,昨晚,DeepSeek发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。这是DeepSeek当前性能最强大的模型,在推理、智能体等多领域基准测试中斩获全球开源模型第一的表现。
DeepSeek称,标准版的DeepSeek-V3.2在公开的推理类基准测试中,达到了GPT-5的水平,仅略低于Gemini-3.0-Pro;相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。
长思考增强版DeepSeek-V3.2-Speciale结合了DeepSeek-Math-V2的定理证明能力,具备较强的指令跟随、数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro。
在开源世界里,DeepSeek-V3.2也是领先的存在。据权威大模型测评平台Artificial Analysis数据显示,在未计入DeepSeek-V3.2时,当前业内智能水平最高的开源模型是Kimi-K2-Thinking。
在DeepSeek-V3.2和Kimi-K2-Thinking两款模型均公布结果,且测试设置相同的基准测试上,DeepSeek-V3.2均领先于Kimi-K2-Thinking。
▲DeepSeek-V3.2和Kimi-K2-Thinking基准测试对比,数据来源为官方渠道
DeepSeek-V3.2还是DeepSeek推出的首个将思考融入工具使用的模型,并且同时支持思考模式与非思考模式的工具调用。
DeepSeek-V3.2模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距。值得说明的是,V3.2并没有针对这些测试集的工具进行特殊训练,这意味着V3.2在真实应用场景中能够展现出较强的泛化性。
此外,DeepSeek-V3.2-Speciale模型还成功斩获IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。其中,ICPC与IOI成绩分别达到了人类选手第二名与第十名的水平。
在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。
目前,DeepSeek官方网页端、App和API均已更新为正式版DeepSeek-V3.2。Speciale版本目前仅以临时API服务形式开放,以供社区评测与研究。DeepSeek-V3.2系列模型已经开源,技术报告同期发布。
值得一提的是,在技术报告的作者名单里,我们能看到不少熟悉的名字,比如DeepSeek创始人兼CEO梁文锋、前段时间代表DeepSeek在乌镇世界互联网大会上发声的研究员陈德里等。
技术报告:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf
开源链接:
DeepSeek-V3.2
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2
DeepSeek-V3.2-Speciale
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale
一、开源模型、闭源模型差距越来越大?DeepSeek找到三个原因
过去几个月,开源模型和专有模型的差距为什么在不断扩大?这是DeepSeek团队一直在思考的问题。
DeepSeek团队认为,限制开源模型在复杂任务中能力的因素,主要有三点。
首先,在架构上,开源模型主要依赖于原始注意力机制,这严重限制了长序列处理的效率。这种低效性对规模化部署和有效的训练后阶段都构成了重大障碍。
其次,在资源分配方面,开源模型在训练后阶段的算力投入不足,限制了其在困难任务上的表现。
最后,在智能体应用场景中,与专有模型相比,开源模型在泛化能力和指令遵循能力上表现出明显滞后,这阻碍了其在真实部署中的有效性。
为了解决这些关键限制,DeepSeek首先引入了DSA(DeepSeek Sparse Attention),这是一种高效的稀疏注意力机制,旨在显著降低计算复杂度。该架构有效解决了效率瓶颈,即使在长上下文场景下也能保持模型性能。
其次,DeepSeek开发了一个稳定且可扩展的强化学习协议,允许在训练后阶段进行大规模算力扩展。值得注意的是,该框架分配的训练后算力预算超过了预训练成本的10%,这在业内是较为少见的,从而解锁了模型的高级能力。
第三,DeepSeek提出了一种新颖的流程来促进工具使用场景中的泛化推理。研发团队利用DeepSeek-V3方法实施冷启动阶段,将推理和工具使用统一在单一轨迹中。
随后,推进到大规模的智能体任务合成,生成了超过1800个不同的环境和85000个复杂提示。这些广泛合成的数据驱动了强化学习过程,显著增强了模型在智能体上下文中的泛化能力和指令遵循能力。
二、基于DeepSeek-V3.1最终版打造,DSA让模型计算更聪明
DeepSeek-V3.2使用的架构与此前发布的实验版DeepSeek-V3.2-Exp完全相同。与DeepSeek-V3.1系列的最后一版DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2唯一的架构改动是通过持续训练引入了DSA。
传统的注意力机制在处理一个token时,需要和它前面所有的toekn进行计算,这在长文本中非常耗时。DSA的思路就是先快速筛选出最重要的几个token,然后只对这些token进行详细分析。
这一选择是通过闪电索引器(lightning indexer)实现的。闪电索引器计算查询token与前序token的索引分数,以决定应该选择哪些token进行计算。鉴于闪电索引器头数少且可在FP8下实现,其计算效率非常出色。
给定每个查询token的索引分数后,细粒度令牌选择机制仅检索与top-k索引分数对应的键值条目,并计输出。
DeepSeek-V3.2的训练从上下文长度已扩展到128K的DeepSeek-V3.1-Terminus基础检查点开始。
在继续预训练过程中,模型先经历“密集预热”,即保持完整注意力不变,只训练索引器,使其学会模仿原注意力的分布。
随后进入稀疏训练阶段,引入真正的令牌选择机制,并同时优化整个模型。通过这种逐步过渡的方式,模型能够平稳从密集注意力迁移到稀疏结构,而不会导致性能崩塌。
在能力评估方面,DeepSeek-V3.2-Exp在标准基准测试、人类偏好评估以及多项长上下文任务中均表现出与前代相当甚至更优的结果。
无论是ChatbotArena的Elo得分,还是AA-LCR与Fiction.liveBench等长序列测试,皆显示其在引入稀疏注意力后并未牺牲模型质量,反而在长序列推理中获得明显优势。
在实际推理成本上,DSA将模型的核心注意力复杂度从平方级降低为近似线性增长,使得序列越长,节省越明显。虽然索引器本身仍需处理全局信息,但其开销远小于原MLA。
结合工程优化,DeepSeek-V3.2在H800 GPU上实现了显著的端到端加速,并在短上下文下利用专门的掩码模式进一步提升效率。总体而言,DeepSeek-V3.2在保持能力不降质的同时,有效突破了长上下文推理的性能瓶颈。
▲DeepSeek-V3.2在H800 GPU上实现了显著的端到端加速
三、打造6类专属模型,让模型给自己造后训练数据
DeepSeek-V3.2的后训练阶段是在持续预训练之后进行的,它的目标是把一个规模庞大但尚未定型的基础模型,进一步塑造成兼具推理、工具使用、代理任务和对齐能力的最终版本。
整个过程延续了DeepSeek-V3.2-Exp的做法,并依然基于稀疏注意力进行高效训练。后训练主要依靠两条路线:一条是专家蒸馏,一条是混合式强化学习,两者结合起来,使模型在不同领域都能获得稳定且均衡的能力提升。
专家蒸馏的核心思想是,不同任务由专门的专家模型来承担学习,再将这些专家的能力汇聚到统一的大模型中。
团队首先从同一个DeepSeek-V3.2基础检查点出发,为数学、编程、逻辑推理、通用智能体、智能体编程和智能体搜索等六类专业任务分别训练专属模型,这些模型拥有思考模式和直接作答模式两类数据,并利用大规模RL进行强化,以保证每个专家在自己的领域达到高水准。
随后,这些专家会负责生成高质量的领域数据,用来训练一个统一的大模型。实验表明,用专家数据蒸馏出来的大模型性能已经非常接近各个专家本身,再辅以后续的RL微调,残余的差距也可以基本消除。
混合式强化学习环节继续采用GRPO(Group Relative Policy Optimization)算法,把推理、智能体与人类对齐的训练整合到同一个阶段,从而避免多阶段训练中常见的灾难性遗忘。
推理和智能体任务主要依赖规则奖励、长度惩罚以及语言一致性奖励;而通用任务则由生成式奖励模型根据特定rubric评分。这样做的好处是,模型不会偏向某一类任务,而能在整体上保持稳健的能力平衡。
为了让强化学习能够在大规模计算下稳定推进,团队还对GRPO做了多项改进,使得大模型在长时间、高强度的训练下依然能保持良好的收敛特性。
在后训练中,DeepSeek-V3.2着重解决“思考模式与工具使用如何结合”的难题。为了避免模型在多轮工具调用中频繁重复推理,他们设计了一套新的上下文管理机制:只有当出现新的用户消息时才会清除思考轨迹,而工具输出的追加并不会导致推理内容被丢弃。
同时,工具调用历史仍会被完整保留,确保模型能够连续地利用已有推理继续完成后续动作。在训练早期,由于推理数据与代理数据来源不同,模型需要一个冷启动方式把“边思考边用工具”的模式拼接起来,因此团队设计了特定的系统提示,让模型在推理轨迹中自然嵌入工具调用,为后续RL提供可学习的示例轨迹。
例如,在回答问题1过程中(请求1.1-1.3),模型进行了多次思考+工具调用后给出答案。在这个过程中,用户需回传思维链内容(reasoning_content)给 API,以让模型继续思考。在下一个用户问题开始时(请求2.1),需删除之前的思维链,并保留其它内容发送给API。
▲工具调用历史保存机制
真正的能力提升则来自大规模的代理任务RL,它们覆盖搜索、代码修复、代码解释以及由自动环境生成器创建的各种可验证任务——这些任务往往具有复杂性高、可验证性强的特点,非常适合作为RL的训练素材。
最终形成的DeepSeek-V3.2是在经过大量专家蒸馏数据、混合RL训练和工具思考机制增强之后得到的统一模型,融合思考和非思考能力,而另一个实验版本DeepSeek-V3.2-Speciale则进一步在推理方向上加重训练,以探索更长推理路径的潜力。
结语:平衡计算效率与推理能力,知识广度和token效率仍有提升空间
DeepSeek-V3.2是一个平衡了计算效率与高级推理能力的模型。 DSA在不牺牲长上下文性能的前提下解决了关键的计算复杂度问题。随着计算预算的提升,DeepSeek-V3.2在推理基准测试上达到了可与GPT-5相媲美的性能。
此外,DeepSeek集成的大规模智能体任务合成流水线,显著增强了工具使用能力,为构建稳健且具备泛化能力的开源大模型智能体打开了新的可能性。
不过,DeepSeek也承认,由于整体训练FLOPs较少,DeepSeek-V3.2的世界知识广度仍落后于领先的专有模型。DeepSeek计划在未来的迭代中通过扩大预训练计算量来缩小这一知识差距。
其次,token效率仍是一项挑战;DeepSeek-V3.2通常需要更长的生成轨迹(即更多的tokens)才能达到与Gemini-3.0-Pro等模型相似的输出质量。未来的工作将聚焦于优化模型推理链的“智能密度”,以进一步提高效率。
第三,在解决复杂任务方面,DeepSeek-V3.2与前沿模型相比仍有差距,DeepSeek称会进一步完善基础模型以及后训练处理方案。
《黄色网站欧美视频》,《首次登录送91元红包》我要美脚社区呵呵爱慕思
“ta99app番茄安卓下载”
涩少妇破包视频
……
{!! riqi() !!}
“a爰片️A片毛片A片进入”{!! reci() !!}
↓↓↓
{!! riqi() !!},青海“铸牢中华民族共同体意识”文学实践活动开幕,国产日韩精品,薰衣草研究所短视频在线,男人的🍌伸到🍑里αpp,禁❌漫🔞天堂jmcomic如何区分
{!! riqi() !!},成都混团世界杯前瞻:项目首入奥,国乒剑指三连冠,在线观看A片视频网站,又粗又大又长黄色网站,色老99九九精品偷偷鲁,纳西妲裸体被❌18H漫
{!! riqi() !!},中新人物丨任嘉伦:我无数次梦到自己还在打乒乓球,色狼网站网址,热久久视久久精品2019,Gay Yaoi Hard ❌Hent🔞a㊙️i,海角社区真实偷伦视频
{!! riqi() !!}|联合国难民署75周年慈善之夜在上海举办|人人操人人睡|BARAZZA厨房乱战|a片黄色一级|国产午夜无码精品久久
{!! riqi() !!}|中医专家宋兆普辽沈“圈粉” 教学交流助推中医药文化传播|变足foot脚vedo|久久黄色视屏免费|婷婷色国产精品视频一区二区|所有的搞基软件
{!! riqi() !!}|湖南人均预期寿命提升至79岁 个人卫生支出占比降至27.38%|narutoPiX️XX丨VK|人人干人人搞人人操|亚洲丁香五月激情综合暖暖|农村妇女野外BBwBBW……
{!! riqi() !!},关键词读懂“十五五”|“人工智能+” 为千行百业安装“智慧大脑”,11的三㚫片圣母,丝袜美腿欧美性爱,特级一级AAAA片,小婷第一次挺进身体里面
{!! riqi() !!},四中全会精神解读·市场最前沿丨驶向丘陵山区!国产农机焕新启程,久久成人秘18免费网站明星,钢手❌轮×🔞c静音㊙️,我是班主任在线观看免费,台湾淡江大学国产精品
{!! riqi() !!}|(同心抗战)台湾抗日志士罗福星孙女:当祖国领土被异族侵犯,作为中华民族应奋起反抗|喷🔞🈲🍌流水高c动漫|一级黄色斤A级斤|91无码精品国产A️Ⅴ在|理❌ 伦🔞 ㊙️影
{!! riqi() !!},海军989编队抵达印度尼西亚进行友好访问,99精品放荡在线视频,粗大高H嗯啊东北体育生男同,性色A∨人人爽网站,第一福利成人
{!! riqi() !!},每秒超6200件!火热数据折射经济向好强劲脉动 快递业务呈现新亮点,美女被强扒衣服吃奶漫画️,日本特级黄在线观看视频,国产精品三级国产电影网,掀开❌乳罩玩🔞弄㊙️大白兔
{!! riqi() !!},诺里斯首获F1车手总冠军 维斯塔潘无缘五连冠,国产精品视频色拍拍,免费直接进的黄色网站,黄色国二色涩在线观看,ja❌p🔞an㊙️av影院
{!! riqi() !!}|云南澜沧通报竹塘乡露天垃圾堆放问题事件处置进展|国产精品偷伦视频免费观看了密臂|在线播放黄片精品|lubuntu轻量版app|第三导航怎么安装视频播放软件app
{!! riqi() !!}|郁达夫纪念馆在印尼棉兰开馆|丝袜美女欧美性爱视频|欧美日韩女优在线播放|越女剑在线阅读|麻婆豆腐视频传媒人口
{!! riqi() !!}|巡回诊疗车开进浙江山区县 资源下沉破题“看病难”|6070三级午夜|被一个大黑狗征服-羞羞答答|黄网站色视频免费观看无下载一区|欧美日韩精品AⅤ一区二区
{!! reci() !!},{!! reci() !!}|侨乡以法治织网守护侨胞权益|日韩视频在|一级特黄真人毛片无码第二次|国产无码操|国产精品福利第一道航
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺