(9分钟详细教程)牛游戏网安卓版v6.12.5031

首页 >新闻 >社会新闻

中科大实现AI机器人思考与行动协同

2025-12-03 02:23:40

来源：

猫眼电影

作者：

凌斌

手机查看

　　猫眼电影记者杨善好报道首次登录送91元红包

这项由中国科学技术大学脑启发智能感知认知重点实验室的方震、刘卓阳等研究团队联合北京大学多媒体信息处理重点实验室张尚航团队共同完成的研究，发表于2025年11月的arXiv预印本平台（论文编号：arXiv:2511.22134v1），为解决机器人"聪明反被聪明误"的问题提供了创新解决方案。

考虑这样一个场景：你教一个孩子做菜，起初这孩子只会按照食谱一步步操作，虽然理解能力有限，但做出来的菜还不错。后来你想让这孩子变得更聪明，教会了他各种烹饪原理和食材搭配知识。结果发现，这孩子确实变聪明了，能够解释为什么要这样调味、那样火候，但奇怪的是，他做出来的菜反而变难吃了。手法变得生疏，火候掌握不准，仿佛聪明的大脑反而妨碍了灵巧的双手。

这就是当前机器人领域面临的一个令人困惑的现象。研究团队将这种现象称为"行动退化"——当机器人学会思考推理后，原本娴熟的操作技能反而下降了。这个问题就像是让一个优秀的钢琴演奏家在弹琴时不断思考每个音符的理论依据，结果反而弹不好琴了。

传统的机器人分为两类：一类是"专业工匠型"，这类机器人动手能力很强，能够精确完整地完成各种操作任务，但缺乏灵活的理解和推理能力，就像一个技艺精湛但不会变通的老师傅。另一类是"智慧学者型"，这类机器人具备强大的理解和推理能力，能够分析复杂情况并制定策略，但一旦需要精细操作就显得笨手笨脚，就像一个满腹经纶但从不下厨的理论家。

现有的解决思路通常是先训练一个专业工匠型机器人，让它掌握扎实的操作技能，然后再给它灌输大量的推理知识，希望培养出既能动脑又能动手的全能型机器人。然而，研究团队发现了一个令人意外的现象：当机器人学会思考后，它的动手能力竟然退步了。这种现象在多个先进的机器人系统中都有出现，包括广受关注的Emma-X、ECoT等模型。

为了解决这个问题，研究团队开发了一个名为DualVLA的创新系统。这个名字中的"Dual"意思是"双重"，VLA则是"视觉-语言-行动"模型的缩写，简单理解就是一个能看、能想、能动的机器人大脑。DualVLA的核心思想是将思考和行动进行巧妙的分离和协调，就像一个优秀的指挥家既要有深刻的音乐理解，又要有精准的指挥动作，两者相得益彰而不相互干扰。

一、双层数据剪枝：清除冗余思考的智慧

研究团队首先发现了行动退化的一个重要原因：机器人在学习过程中接收了太多重复、低价值的推理内容。就像一个学生在学习时，如果老师总是重复同样简单的道理，学生虽然能够倒背如流这些道理，但对真正需要技巧的操作反而生疏了。

在机器人的训练数据中，研究团队发现了大量这样的冗余推理。比如机器人在抓取一个物体时，整个过程可能包含几十个连续动作，但对应的推理内容却高度相似，都是"靠近物体"、"准备抓取"这类重复性描述。这些重复内容就像噪音一样干扰了机器人对真正关键时刻的学习。

DualVLA采用了一种叫做"双层数据剪枝"的巧妙方法来解决这个问题。这个方法就像一个严格的编辑，专门负责从大量的训练材料中筛选出真正有价值的内容。

第一层筛选关注的是"场景变化"。系统会分析视频中的每一帧，识别出场景发生重要变化的时刻。就像看一部电影，系统能够识别出剧情转折点、重要对话和关键动作场面，而忽略那些过渡性的镜头。研究团队训练了一个专门的事件边界检测网络来完成这项工作，这个网络能够判断哪些时刻需要机器人进行深入思考，哪些时刻只是例行操作。

第二层筛选关注的是"动作关键性"。系统会分析机器人的运动轨迹，找出那些动作变化显著的时刻。具体来说，当机器人的末端执行器（可以理解为机器人的"手"）出现急剧加速、减速或方向改变时，或者当抓手开合状态发生变化时，系统就会标记这些时刻为关键动作点。这就像在学习舞蹈时，教练会特别强调那些转身、跳跃或手势变化的瞬间，而对简单的行走步伐不会过度关注。

只有同时满足场景变化和动作关键性两个条件的时刻，对应的推理内容才会被保留下来。这种双重筛选机制确保了机器人学习的内容既有思维深度又有操作价值，避免了被大量重复性推理内容所干扰。

通过这种方法，原本密集的训练数据变得更加精炼和有针对性。就像从一本冗长的教科书中提炼出核心要点，机器人能够专注于学习那些真正重要的思考-行动对应关系，而不会被无关紧要的重复内容所误导。

二、双教师自适应蒸馏：智慧与技巧的平衡传授

解决了数据冗余问题后，研究团队面临的第二个挑战是如何让机器人同时掌握思考能力和操作技巧。这就像培养一个既要当好教授又要当好工匠的人才，需要非常精巧的教学策略。

DualVLA采用了一种名为"双教师自适应蒸馏"的创新方法。在这个体系中，有两位专业的"老师"分别负责不同的教学任务。

第一位是"行动老师"，这是一个在操作技能方面炉火纯青的专家。它的任务是教授机器人如何精准、流畅地完成各种物理操作。就像一位经验丰富的老工匠，它知道抓取时应该用多大力度、移动时应该保持怎样的轨迹、何时应该调整姿态等等。这位老师专门针对那些需要实际操作的训练数据提供指导，确保机器人的动手能力不会退化。

第二位是"推理老师"，这是一个在理解和分析方面极其出色的学者。它的任务是教授机器人如何进行逻辑推理、场景分析和策略制定。就像一位博学的教授，它能够帮助机器人理解复杂的指令、分析环境中的各种因素、制定合理的行动计划等等。这位老师主要负责那些包含复杂推理内容的训练数据，确保机器人的思维能力得到充分发展。

关键的创新在于"自适应"机制。系统能够智能地判断当前的训练内容应该由哪位老师来指导。当遇到机器人操作数据时，行动老师会发挥主导作用，提供关于动作精度和操作技巧的细致指导。当遇到多模态推理数据时，推理老师会承担主要责任，传授理解和分析的方法。

这种分工合作的教学模式避免了传统方法中的一个重要问题：用同一套标准来教授完全不同类型的技能。就像不能用教数学的方法来教体育一样，思考技能和操作技能需要不同的培养方式。通过让专业的老师教授对应的专业技能，DualVLA确保了机器人能够在两个方面都得到高质量的培养。

更重要的是，这两位老师之间存在着巧妙的协调机制。它们不会互相干扰，而是在各自的专业领域内发挥作用，共同培养出一个既能深度思考又能精确行动的机器人。这种方法的效果就像一个人既能写出深刻的学术论文，又能精巧地制作手工艺品，两种能力相互促进而不相互妨碍。

三、VLA Score评估体系：全面衡量机器人能力的新标准

传统的机器人评估方法就像只看考试是否及格一样简单粗暴——任务完成了就算成功，没完成就算失败。但这种方法存在明显的局限性。就好比评价一个厨师，不能仅仅看菜做出来了没有，还要考虑菜品的色香味、制作过程是否优雅、食材搭配是否合理等多个方面。

研究团队开发了一个名为VLA Score的全新评估体系，这是专门为现代智能机器人设计的综合评价标准。这个评估体系就像一位经验丰富的考官，能够从多个角度全面地衡量机器人的综合能力。

VLA Score包含四个核心评价维度。第一个是"推理得分"，这个维度评估机器人的思考质量。系统会分析机器人在执行任务时的推理过程是否逻辑清晰、分析是否合理、判断是否正确。就像评价一个学生的解题过程，不仅要看答案对不对，还要看推理步骤是否严谨、思路是否清晰。

第二个是"行动得分"，专门评估机器人的操作质量。这包括动作是否流畅、轨迹是否优化、力度控制是否精准等等。就像评价一个舞者的表演，要看动作是否连贯、姿态是否优美、节拍是否准确。

第三个是"意图得分"，用来判断机器人的行为是否真正有助于完成目标任务。有时候机器人可能做了很多动作，看起来很忙碌，但实际上对解决问题没有帮助，甚至可能南辕北辙。这个维度就像评价一个员工的工作效果，要看他的努力是否真正朝着正确的方向。

第四个是"推理-行动一致性得分"，这个维度检查机器人的想法和做法是否匹配。有时候机器人可能想得很对，但做得不对；或者做得不错，但想法有偏差。就像评价一个人是否言行一致，要看他说的和做的是否相符。

为了确保评估的准确性和客观性，VLA Score采用了先进的大型视觉语言模型作为"智能评委"。这个评委具备强大的理解能力，能够同时分析视觉信息和语言描述，就像一位既懂技术又有丰富经验的专业评判员。

更重要的是，VLA Score建立了一个知识库系统，包含了大量的标准案例和评分参考。当评估一个新的机器人表现时，系统会自动检索相似的历史案例作为参考，确保评分的一致性和公平性。这就像法官在判案时会参考类似的判例一样，保证了评估标准的稳定性。

这种全方位的评估方法不仅能够更准确地衡量机器人的真实能力，还能够帮助研究人员发现机器人存在的具体问题，从而有针对性地进行改进。比如，如果一个机器人的推理得分很高但行动得分较低，就说明它的思考能力不错，但需要加强动作训练。

四、实验验证：从仿真到现实的全面测试

为了验证DualVLA的有效性，研究团队进行了大规模的实验测试，涵盖了从计算机仿真到真实世界的各种场景。这就像一个新药在投入市场前需要经过从实验室到临床的层层验证一样，确保技术的可靠性和实用性。

在仿真环境测试中，研究团队使用了SimplerEnv这个被机器人研究界广泛认可的标准测试平台。这个平台就像机器人的"驾校考场"，包含了各种标准化的任务场景，比如抽屉开关、物品抓取、精确放置等等。测试涵盖了两种不同的机器人配置：谷歌机器人和WidowX机器人，就像汽车测试会使用不同品牌和型号的车辆一样。

测试结果令人鼓舞。DualVLA在SimplerEnv平台上取得了平均61.0%的成功率，这个成绩在同类系统中表现优异。更重要的是，DualVLA不仅保持了专业操作型机器人的动手能力，还具备了智能推理型机器人的思考能力。这就像培养出了一个既有工匠技艺又有学者智慧的全才。

在与其他先进系统的对比中，DualVLA展现出明显的优势。相比于传统的专业操作型机器人，DualVLA的成功率提升了5.0个百分点。相比于现有的智能推理型机器人，优势更加明显，提升了约8个百分点。这种提升看似不大，但在机器人领域，每个百分点的提升都代表着巨大的技术进步。

更让研究团队惊喜的是出现了"学生超越老师"的现象。在某些任务中，DualVLA的表现甚至超过了它的行动老师，也就是原本用作教学样本的专业操作型机器人。这就像一个学生通过综合学习，最终在某些方面超越了单一专业的老师。这种现象表明，适当的思考能力确实能够提升操作表现，关键在于如何正确地整合这两种能力。

除了仿真测试，研究团队还进行了真实世界的机器人实验。他们使用了Galaxea R1-lite双臂机器人，这是一个具有14个自由度的复杂机器人系统。测试任务包括物品移动和双臂协作等复杂操作，这些任务在真实世界中面临着仿真环境无法模拟的各种不确定因素。

在真实世界测试中，DualVLA展现出了良好的适应性。在物品移动任务中，成功率从原来的45%提升到了60%，这种提升在真实机器人应用中具有重要的实践价值。双臂协作任务的表现同样令人满意，机器人能够协调两个手臂完成复杂的物品交接和精确放置操作。

研究团队还使用VLA Score评估体系对测试结果进行了详细分析。结果显示，DualVLA在四个评价维度上都取得了均衡的发展，没有出现顾此失彼的情况。这证明了双教师教学策略的有效性——机器人确实学会了在不牺牲操作技能的前提下提升思考能力。

五、技术细节与创新突破

DualVLA的成功并非偶然，而是建立在多项技术创新基础上的系统性突破。这些创新就像一部精密机器中的各个零件，每一个都发挥着不可替代的作用。

在双层数据剪枝技术方面，研究团队开发了一套精巧的算法机制。对于场景变化检测，他们改进了DDM-Net事件边界检测网络，这个网络能够像一个敏锐的观察者一样，准确识别出视频中的重要转折点。网络的训练使用了精心标注的数据集，确保它能够理解什么样的场景变化才真正需要深入思考。

对于动作关键性检测，研究团队设计了一个基于运动学分析的判别算法。这个算法会实时计算机器人末端执行器的加速度变化，当加速度的二阶导数超过平均值时，就会被标记为关键动作点。同时，系统还会监测抓手的开合状态变化，这些变化往往对应着任务执行中的重要节点。

在双教师蒸馏技术方面，研究团队采用了温度缩放的知识蒸馏方法。这种方法就像调节火候一样，通过控制"教学强度"来确保知识传授的效果。行动老师使用较低的温度参数，提供更加尖锐和精确的指导信号；推理老师使用适中的温度参数，保持知识传授的灵活性。

系统的损失函数设计也颇具匠心。研究团队将传统的交叉熵损失与知识蒸馏损失进行了巧妙的组合，通过动态权重调节确保两种学习目标的平衡。这就像烹饪时需要掌握各种调料的比例一样，过多或过少都会影响最终效果。

在VLA Score评估体系的实现中，研究团队构建了一个基于GPT-4o的智能评价系统。这个系统不是简单地套用现有模型，而是经过了专门的提示工程优化。研究团队设计了详细的评价标准和评分指南，确保评估结果的一致性和可靠性。

为了提高评估的准确性，系统还采用了检索增强的评价方法。每次评估时，系统会自动从知识库中检索相似的历史案例，使用文本嵌入和图像嵌入技术找到最相关的参考样本。这种方法确保了评估标准的稳定性，避免了评分的随意性。

研究团队还进行了大量的消融实验，系统性地验证了每个技术组件的贡献。结果显示，双层剪枝策略贡献了约3个百分点的性能提升，双教师蒸馏贡献了约5个百分点的提升，两者的协同效应额外带来了约2个百分点的提升。这证明了技术设计的合理性和各个组件之间的良好协调。

六、应用前景与实际意义

DualVLA的成功不仅仅是一项学术成果，更重要的是它为机器人技术的实际应用开辟了新的可能性。这项技术就像一把万能钥匙，能够解锁许多之前难以实现的机器人应用场景。

在工业制造领域，DualVLA型机器人能够胜任更加复杂和多样化的生产任务。传统的工业机器人往往只能执行预设的固定动作序列，一旦生产要求发生变化就需要重新编程。而具备思考能力的机器人能够理解更灵活的指令，适应生产线的动态调整，甚至能够在遇到异常情况时自主决策。

在服务机器人领域，这项技术的价值更加明显。家庭服务机器人需要面对千变万化的环境和需求，既要理解主人的复杂指令，又要精确地完成各种家务操作。DualVLA让机器人能够像一个智慧的管家一样，不仅知道该做什么，还知道怎么做得更好。

在医疗健康领域，这种技术为手术机器人和康复机器人的发展提供了新的思路。手术机器人需要在理解医生意图的同时保持极高的操作精度，而康复机器人需要根据患者的具体情况调整训练策略。DualVLA的思考-行动协调机制正好满足了这些需求。

在教育和科研领域，这项技术也展现出了巨大的潜力。实验室机器人能够更好地理解复杂的实验流程，自主完成各种精密操作。教学机器人能够根据学生的反馈调整教学策略，提供更加个性化的指导。

更重要的是，DualVLA为通用人工智能的发展提供了重要启示。真正的智能不是单一能力的极致发展，而是多种能力的有机整合。通过解决思考和行动之间的协调问题，这项技术为构建更加全面的人工智能系统奠定了基础。

从技术发展的角度来看，DualVLA代表了机器人技术从专业化向通用化发展的重要步骤。过去几十年，机器人技术主要专注于在特定领域内达到超越人类的性能。而现在，技术发展的重点正在转向构建像人类一样具备多种能力的通用机器人。

研究团队提供的开源代码和详细文档也为后续研究奠定了基础。其他研究者可以在DualVLA的基础上进一步改进和扩展，推动整个领域的快速发展。这种开放的研究态度对于科技进步具有重要意义。

当然，这项技术目前还存在一些局限性。比如，系统仍然需要两个独立的教师模型，增加了计算复杂度。在实际部署时需要考虑计算资源的限制。另外，VLA Score评估体系虽然比传统方法更全面，但仍然依赖于人工智能评判，可能存在评估偏差。

展望未来，研究团队计划进一步简化系统架构，减少对多个教师模型的依赖。他们也在探索更加高效的训练方法，希望在保持性能的同时降低计算成本。同时，他们正在将这项技术扩展到更多的机器人平台和应用场景，验证其通用性和鲁棒性。

说到底，DualVLA的意义在于它证明了一个重要观点：真正的智能需要思考和行动的完美协调。就像人类一样，最优秀的能力往往来自于大脑和身体的默契配合。通过巧妙的技术设计，研究团队成功地让机器人学会了这种协调，为创造更加智能和实用的机器人系统铺平了道路。这项研究不仅推进了机器人技术的发展，也为我们理解智能本身提供了新的视角。对于关注机器人和人工智能发展的读者来说，这项研究值得深入关注，它可能预示着机器人技术即将进入一个全新的发展阶段。

Q1：什么是DualVLA的"行动退化"问题？

A：行动退化是指机器人在学会思考推理后，原本娴熟的操作技能反而下降的现象。就像让一个优秀的钢琴演奏家在弹琴时不断思考理论，结果反而弹不好琴。当机器人接受推理训练后，它的动手能力会变差，这是目前智能机器人面临的普遍问题。

Q2：DualVLA的双教师蒸馏技术是怎么工作的？

A：双教师蒸馏就像安排两位专业老师分别教授不同技能。行动老师专门教授精准操作技巧，推理老师负责传授理解分析能力。系统会智能判断当前训练内容需要哪位老师指导，确保思考和动手两种能力都能得到专业培养，避免相互干扰。

Q3：VLA Score评估体系比传统方法有什么优势？

A：传统评估只看任务成败，就像只管考试及格不及格。VLA Score从四个维度全面评价：推理质量、动作流畅度、行为目的性和思行一致性。这就像评价厨师不仅看菜做没做出来，还要看制作过程、食材搭配等。能帮助发现机器人的具体问题，进行针对性改进。

时事1：千赢娱乐手游

12月03日,中东部将进入下半年来最冷时段防冻小贴士助你健康过冬,进一步改进工作作风，严格要求自己，求真务实，真抓实干，坚持以人民为中心的创作导向，强化“国家队”意识，努力以优秀作品向着艺术“高峰”不断攀登。,9州娱乐官网。

12月03日,（文化中国行）《唐朝诡事录之长安》热播影视作品与文物IP联动助推文化传播,反观乌鲁木齐，偏居西北一隅的位置，为向西开放提供了便利。李瀚明指出，与乌鲁木齐类似的其实是哈萨克斯坦阿拉木图，两座城市都位于亚欧航路的中间点。利用空客A321XLR这样的远程窄体机，阿拉木图成功开航伦敦。在国内，乌鲁木齐是唯一一个用窄体机能直飞欧洲的航空枢纽。,pg电子模拟器,365Bet体育注册开户,明博体育客户端。

时事2：篮球比分直播188

12月03日,损人不利己！高市早苗涉台谬论如何让日本内伤？,纪宁说，目前中国青少年网球尤其是女子青少年网球，已经成为体育职业化和商业化领域一个风口。郑钦文夺冠能促进更多中国青少年加入网球运动。与此同时，中国网球训练场地和比赛场地硬件条件以及软件设施也在发生巨大变化，网球经济蕴含的巨大空间也随之逐步释放出来。,排球即时赛果,澳门钻石娱乐,金沙澳门下注。

12月03日,黑龙江哈尔滨变“天然大冰箱”冻货摆上街头售卖,“实际上就是‘打样’。”李瀚明认为，国泰开航证明了乌鲁木齐机场具备保障顶级航司的能力，会产生示范效应。国泰飞得好，其他国际顶级航司，以及东亚、东南亚的航司都会考虑跟进。除了证明机场的保障能力，也是新疆以此为契机，对外释放开放活力的强烈信号。,买球手机app,sunbet,真人游戏真人游戏。

时事3：电子游艺平台哪里有

12月03日,洪水和山体滑坡已致印尼超600人遇难,[环球时报综合报道]“一段时间以来，比亚迪、吉利等中国自主品牌的崛起给不少外国汽车品牌带来压力。”美国CNBC网站18日报道称，美银证券汽车产业分析师约翰·墨菲当天在美国汽车媒体协会有关活动中表示，美国底特律三巨头（即通用汽车、福特汽车和斯特兰蒂斯）应“尽快”退出中国市场。他同时警告说，美国三大车企需要采取更严厉的措施削减开支，尤其是在内燃机业务方面，因为这是目前利润的主要来源。,日博体育注册app,188宝金博beat,威斯尼斯人官方网站登录。

12月03日,中国机动车零部件及配件碳足迹量化迎来专门标准,兰州机场T1+T2面积8.9万平方米，去年吞吐量超过1700万人次，可以说不堪重负。乌鲁木齐机场T1+T2+T3面积18.48万平方米，需要承载超过2700万人次的吞吐量。,凯时k66访问凯时网站,皇冠体育网站手机版,足球买球网登录。

时事4：正规的滚球平台

12月03日,2025年“国际海洋争端解决与国际法”研讨会在北京举行,2013年，早在“一带一路”倡议提出时，对新疆的定位是：丝绸之路经济带上重要的交通枢纽、商贸物流和文化科教中心，打造丝绸之路经济带核心区。对陕西、甘肃、宁夏、青海的定位则为：面向中亚、南亚、西亚国家的通道、商贸物流枢纽、重要产业和人文交流基地。,正规188体育官方开户,即时比分体球,皇冠体育在线开户。

12月03日,【籽籽同心】中国“西极”的暖心故事：守护国门也守护人心,新疆机场集团总经理吕辉斌表示，国泰航空开通乌鲁木齐至香港航线，标志着乌鲁木齐天山国际机场的航线网络又一次升级，满足了新疆及周边地区旅客日益增长的出行需求，不仅提升了乌鲁木齐机场的国际化水平，也将进一步增强新疆的区位优势和影响力，共同助力打造乌鲁木齐成为连接亚欧区域门户复合型国际航空枢纽目标。,英语国际音标三日速成(真人发音版) 绿色版,途游斗地主,澳门真金娱乐场。

【中央港澳办协调中央有关部门和广东省继续为香港救灾工作提供协助和支援】

【（侨乡新貌）广东揭阳将建潮侨地标建筑凝聚全球潮人乡情】

责编：毛明

审核：凯特·温斯莱特

责编：陈永裕