立博注册彩金

电脑版下载

20400
9

立博注册彩金截图首次登录送91元红包

内容详情

立博注册彩金

智东西作者陈骏达编辑云鹏

智东西12月2日报道，昨晚，DeepSeek发布了两款新模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale。这是DeepSeek当前性能最强大的模型，在推理、智能体等多领域基准测试中斩获全球开源模型第一的表现。

DeepSeek称，标准版的DeepSeek-V3.2在公开的推理类基准测试中，达到了GPT-5的水平，仅略低于Gemini-3.0-Pro；相比Kimi-K2-Thinking，V3.2的输出长度大幅降低，显著减少了计算开销与用户等待时间。

长思考增强版DeepSeek-V3.2-Speciale结合了DeepSeek-Math-V2的定理证明能力，具备较强的指令跟随、数学证明与逻辑验证能力，在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro。

在开源世界里，DeepSeek-V3.2也是领先的存在。据权威大模型测评平台Artificial Analysis数据显示，在未计入DeepSeek-V3.2时，当前业内智能水平最高的开源模型是Kimi-K2-Thinking。

在DeepSeek-V3.2和Kimi-K2-Thinking两款模型均公布结果，且测试设置相同的基准测试上，DeepSeek-V3.2均领先于Kimi-K2-Thinking。

▲DeepSeek-V3.2和Kimi-K2-Thinking基准测试对比，数据来源为官方渠道

DeepSeek-V3.2还是DeepSeek推出的首个将思考融入工具使用的模型，并且同时支持思考模式与非思考模式的工具调用。

DeepSeek-V3.2模型在智能体评测中达到了当前开源模型的最高水平，大幅缩小了开源模型与闭源模型的差距。值得说明的是，V3.2并没有针对这些测试集的工具进行特殊训练，这意味着V3.2在真实应用场景中能够展现出较强的泛化性。

此外，DeepSeek-V3.2-Speciale模型还成功斩获IMO 2025（国际数学奥林匹克）、CMO 2025（中国数学奥林匹克）、ICPC World Finals 2025（国际大学生程序设计竞赛全球总决赛）及 IOI 2025（国际信息学奥林匹克）金牌。其中，ICPC与IOI成绩分别达到了人类选手第二名与第十名的水平。

在高度复杂任务上，Speciale模型大幅优于标准版本，但消耗的Tokens也显著更多，成本更高。目前，DeepSeek-V3.2-Speciale仅供研究使用，不支持工具调用，暂未针对日常对话与写作任务进行专项优化。

目前，DeepSeek官方网页端、App和API均已更新为正式版DeepSeek-V3.2。Speciale版本目前仅以临时API服务形式开放，以供社区评测与研究。DeepSeek-V3.2系列模型已经开源，技术报告同期发布。

值得一提的是，在技术报告的作者名单里，我们能看到不少熟悉的名字，比如DeepSeek创始人兼CEO梁文锋、前段时间代表DeepSeek在乌镇世界互联网大会上发声的研究员陈德里等。

技术报告：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

开源链接：

DeepSeek-V3.2

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

一、开源模型、闭源模型差距越来越大？DeepSeek找到三个原因

过去几个月，开源模型和专有模型的差距为什么在不断扩大？这是DeepSeek团队一直在思考的问题。

DeepSeek团队认为，限制开源模型在复杂任务中能力的因素，主要有三点。

首先，在架构上，开源模型主要依赖于原始注意力机制，这严重限制了长序列处理的效率。这种低效性对规模化部署和有效的训练后阶段都构成了重大障碍。

其次，在资源分配方面，开源模型在训练后阶段的算力投入不足，限制了其在困难任务上的表现。

最后，在智能体应用场景中，与专有模型相比，开源模型在泛化能力和指令遵循能力上表现出明显滞后，这阻碍了其在真实部署中的有效性。

为了解决这些关键限制，DeepSeek首先引入了DSA（DeepSeek Sparse Attention），这是一种高效的稀疏注意力机制，旨在显著降低计算复杂度。该架构有效解决了效率瓶颈，即使在长上下文场景下也能保持模型性能。

其次，DeepSeek开发了一个稳定且可扩展的强化学习协议，允许在训练后阶段进行大规模算力扩展。值得注意的是，该框架分配的训练后算力预算超过了预训练成本的10%，这在业内是较为少见的，从而解锁了模型的高级能力。

第三，DeepSeek提出了一种新颖的流程来促进工具使用场景中的泛化推理。研发团队利用DeepSeek-V3方法实施冷启动阶段，将推理和工具使用统一在单一轨迹中。

随后，推进到大规模的智能体任务合成，生成了超过1800个不同的环境和85000个复杂提示。这些广泛合成的数据驱动了强化学习过程，显著增强了模型在智能体上下文中的泛化能力和指令遵循能力。

二、基于DeepSeek-V3.1最终版打造，DSA让模型计算更聪明

DeepSeek-V3.2使用的架构与此前发布的实验版DeepSeek-V3.2-Exp完全相同。与DeepSeek-V3.1系列的最后一版DeepSeek-V3.1-Terminus相比，DeepSeek-V3.2唯一的架构改动是通过持续训练引入了DSA。

传统的注意力机制在处理一个token时，需要和它前面所有的toekn进行计算，这在长文本中非常耗时。DSA的思路就是先快速筛选出最重要的几个token，然后只对这些token进行详细分析。

这一选择是通过闪电索引器（lightning indexer）实现的。闪电索引器计算查询token与前序token的索引分数，以决定应该选择哪些token进行计算。鉴于闪电索引器头数少且可在FP8下实现，其计算效率非常出色。

给定每个查询token的索引分数后，细粒度令牌选择机制仅检索与top-k索引分数对应的键值条目，并计输出。

DeepSeek-V3.2的训练从上下文长度已扩展到128K的DeepSeek-V3.1-Terminus基础检查点开始。

在继续预训练过程中，模型先经历“密集预热”，即保持完整注意力不变，只训练索引器，使其学会模仿原注意力的分布。

随后进入稀疏训练阶段，引入真正的令牌选择机制，并同时优化整个模型。通过这种逐步过渡的方式，模型能够平稳从密集注意力迁移到稀疏结构，而不会导致性能崩塌。

在能力评估方面，DeepSeek-V3.2-Exp在标准基准测试、人类偏好评估以及多项长上下文任务中均表现出与前代相当甚至更优的结果。

无论是ChatbotArena的Elo得分，还是AA-LCR与Fiction.liveBench等长序列测试，皆显示其在引入稀疏注意力后并未牺牲模型质量，反而在长序列推理中获得明显优势。

在实际推理成本上，DSA将模型的核心注意力复杂度从平方级降低为近似线性增长，使得序列越长，节省越明显。虽然索引器本身仍需处理全局信息，但其开销远小于原MLA。

结合工程优化，DeepSeek-V3.2在H800 GPU上实现了显著的端到端加速，并在短上下文下利用专门的掩码模式进一步提升效率。总体而言，DeepSeek-V3.2在保持能力不降质的同时，有效突破了长上下文推理的性能瓶颈。

▲DeepSeek-V3.2在H800 GPU上实现了显著的端到端加速

三、打造6类专属模型，让模型给自己造后训练数据

DeepSeek-V3.2的后训练阶段是在持续预训练之后进行的，它的目标是把一个规模庞大但尚未定型的基础模型，进一步塑造成兼具推理、工具使用、代理任务和对齐能力的最终版本。

整个过程延续了DeepSeek-V3.2-Exp的做法，并依然基于稀疏注意力进行高效训练。后训练主要依靠两条路线：一条是专家蒸馏，一条是混合式强化学习，两者结合起来，使模型在不同领域都能获得稳定且均衡的能力提升。

专家蒸馏的核心思想是，不同任务由专门的专家模型来承担学习，再将这些专家的能力汇聚到统一的大模型中。

团队首先从同一个DeepSeek-V3.2基础检查点出发，为数学、编程、逻辑推理、通用智能体、智能体编程和智能体搜索等六类专业任务分别训练专属模型，这些模型拥有思考模式和直接作答模式两类数据，并利用大规模RL进行强化，以保证每个专家在自己的领域达到高水准。

随后，这些专家会负责生成高质量的领域数据，用来训练一个统一的大模型。实验表明，用专家数据蒸馏出来的大模型性能已经非常接近各个专家本身，再辅以后续的RL微调，残余的差距也可以基本消除。

混合式强化学习环节继续采用GRPO（Group Relative Policy Optimization）算法，把推理、智能体与人类对齐的训练整合到同一个阶段，从而避免多阶段训练中常见的灾难性遗忘。

推理和智能体任务主要依赖规则奖励、长度惩罚以及语言一致性奖励；而通用任务则由生成式奖励模型根据特定rubric评分。这样做的好处是，模型不会偏向某一类任务，而能在整体上保持稳健的能力平衡。

为了让强化学习能够在大规模计算下稳定推进，团队还对GRPO做了多项改进，使得大模型在长时间、高强度的训练下依然能保持良好的收敛特性。

在后训练中，DeepSeek-V3.2着重解决“思考模式与工具使用如何结合”的难题。为了避免模型在多轮工具调用中频繁重复推理，他们设计了一套新的上下文管理机制：只有当出现新的用户消息时才会清除思考轨迹，而工具输出的追加并不会导致推理内容被丢弃。

同时，工具调用历史仍会被完整保留，确保模型能够连续地利用已有推理继续完成后续动作。在训练早期，由于推理数据与代理数据来源不同，模型需要一个冷启动方式把“边思考边用工具”的模式拼接起来，因此团队设计了特定的系统提示，让模型在推理轨迹中自然嵌入工具调用，为后续RL提供可学习的示例轨迹。

例如，在回答问题1过程中（请求1.1-1.3），模型进行了多次思考+工具调用后给出答案。在这个过程中，用户需回传思维链内容（reasoning_content）给 API，以让模型继续思考。在下一个用户问题开始时（请求2.1），需删除之前的思维链，并保留其它内容发送给API。

▲工具调用历史保存机制

真正的能力提升则来自大规模的代理任务RL，它们覆盖搜索、代码修复、代码解释以及由自动环境生成器创建的各种可验证任务——这些任务往往具有复杂性高、可验证性强的特点，非常适合作为RL的训练素材。

最终形成的DeepSeek-V3.2是在经过大量专家蒸馏数据、混合RL训练和工具思考机制增强之后得到的统一模型，融合思考和非思考能力，而另一个实验版本DeepSeek-V3.2-Speciale则进一步在推理方向上加重训练，以探索更长推理路径的潜力。

结语：平衡计算效率与推理能力，知识广度和token效率仍有提升空间

DeepSeek-V3.2是一个平衡了计算效率与高级推理能力的模型。 DSA在不牺牲长上下文性能的前提下解决了关键的计算复杂度问题。随着计算预算的提升，DeepSeek-V3.2在推理基准测试上达到了可与GPT-5相媲美的性能。

此外，DeepSeek集成的大规模智能体任务合成流水线，显著增强了工具使用能力，为构建稳健且具备泛化能力的开源大模型智能体打开了新的可能性。

不过，DeepSeek也承认，由于整体训练FLOPs较少，DeepSeek-V3.2的世界知识广度仍落后于领先的专有模型。DeepSeek计划在未来的迭代中通过扩大预训练计算量来缩小这一知识差距。

其次，token效率仍是一项挑战；DeepSeek-V3.2通常需要更长的生成轨迹（即更多的tokens）才能达到与Gemini-3.0-Pro等模型相似的输出质量。未来的工作将聚焦于优化模型推理链的“智能密度”，以进一步提高效率。

第三，在解决复杂任务方面，DeepSeek-V3.2与前沿模型相比仍有差距，DeepSeek称会进一步完善基础模型以及后训练处理方案。

立博注册彩金

外围世界杯买球

打鱼注册送10元

爱游戏电竞注册

现金在线赌钱

大满贯APP

欧博会员登录

斗牛牛规则玩法

爱体育app下载官网

云顶娱乐APP

九五至尊投注登录

k8真人

ope体育g官网

澳门贵宾会官网下载

平博pinnacle体育官网

二八杠抢庄软件

ope体育网址y

lol怎么买外围

世博体育官网

AG捕鱼王打鱼游戏技巧

bet360体育

足球报电子版

新加坡娱乐网址多少

皇冠买球网站

kok最新版APP

赌钱app手机

万博狼队官网主页

大玩家抢庄牛牛秘诀

杏彩登录官方网站

沙巴体育

365bet开户网

188网球比分直播吧

澳门永利正网电子

捕鱼达人2旧版本

beplay登录不了联系客服

爱博免费试玩

asiAGame官网

千亿网站是多少

kaiyun官方下载官网

抢庄斗牛注册送金币

宝马会在哪里玩

银河总站网一站

有牛牛的游戏

斗地主能赢钱的有哪些

八方体育官网

188宝金博app最新版

龙8网页登录官网

今年世界杯怎么投注

银河网址

太阳集团tcy8722

天博国际游戏

日博体育网官方注册

优博足球

必赢

免费牛牛游戏下载

世界杯赌球去哪个网站

老新濠天地开户官网

英亚体育官网首页

168手机版注册

新宝平台注册登录

九州体育吧

世界杯 投注 平台

天天游戏

威尼斯人老虎机

PG电子游戏外围官网

世界杯买球哪个平台好

bwin体育现金官网ca88亚汌城网址

bsport正规吗

万博在线登录

ky开元棋

永利正网注册

赛马会密传

365bet体育外围介绍

彩神彩票登录入口

ld乐动体育官网

梭哈游戏大厅app下载

电子老虎机网址

天博棋牌官网怎么样

足球时时分雷速

m6米乐入口

世界杯投注平台