搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

对话Skild AI创始研究员:26岁的他想用全具身大脑重新定义机器人

2025-12-03 02:53:40
来源:

猫眼电影

作者:

刘顺

手机查看

  猫眼电影记者 戴立却 报道首次登录送91元红包

屏幕里,一把电锯正切向机器人的腿。

这段乍看之下像是科幻惊悚片的画面,实则是 Skild AI 今年发布的一段核心技术测试。但令人惊讶的不只是暴力的破坏场景,而是接下来的反转:那只失去了腿的四足机器人,仅仅在原地踉跄了几下,便重新找回平衡,稳步前行。它从未在训练数据中见过“半截腿”的形态,却展现出了近乎生物本能的适应力。

(来源:X)

这段视频在社交媒体上激起了不小的水花,也将这家成立不到两年的公司推向了聚光灯下。

2024 年 7 月,Skild AI 以 15 亿美元估值完成 3 亿美元 A 轮融资,投资方名单堪称硅谷“顶配”:杰夫·贝索斯、软银、Lightspeed 和红杉资本悉数在列。不到一年后的 2025 年 6 月,公司又完成由软银领投的 B 轮融资,估值飙升至约 45 亿美元,英伟达和三星等科技巨头也参与了这轮投资。

Skild AI 的创始团队主张:真正的 AGI 必须扎根于物理世界。

在匹兹堡东区的一栋办公楼里,机器人正在爬楼梯、跳跃间隙、精确抓取 AirPods 装进充电盒。控制这些形态各异机器人的,是同一个“大脑”——Skild Brain。这是一个号称能跨越任何硬件形态、执行任何物理任务的基础模型。Skild AI 声称其训练数据规模是竞争对手的 1,000 倍以上,而支撑这一切的核心技术路径,正是大规模仿真训练。

而在这支由卡内基梅隆大学(CMU)资深教授领衔的团队中,有一位年仅 26 岁的创始研究员格外突出。当 Skild AI 于 2024 年 7 月走出隐身模式时,Ananye Agarwal 在社交媒体上写道:“我们换了三次办公室,人员和机器人数量增长了 10 倍,在不到一年的时间里成为了独角兽。”

从高中物理奥赛金牌得主,到让机器狗在极限地形上“跑酷”的博士生,Ananye 的研究直接催生了 Skild AI 的核心技术。2025 年,他因在机器人和 AI 领域的突出贡献入选《麻省理工科技评论》“35 岁以下科技创新 35 人”亚太区(TR35 Asia Pacific)榜单。

美东时间凌晨 12 点半,在这位年轻研究者即将结束一天工作时,他在线上接受了我们的采访,向我们讲述了一个关于物理世界、机器人大脑和 AGI 的故事。

从物理金牌到机器人学

DeepTech:Ananye,非常高兴你能来参加我们的 "Deeptalk" 播客。你今年 26 岁就入选了亚太区 TR35,这真的很了不起。能简单介绍一下自己吗?

Ananye:非常感谢邀请。我很荣幸能入选,能和这些优秀人才在一起非常棒。我现在是 Skild AI 的创始研究员,从公司成立之初就在这里工作,差不多两年了。在这之前,我在卡耐基梅隆大学攻读博士,主要研究如何利用模拟数据来训练机器人。

机器人领域的一个大问题是,不像大型语言模型有海量现成数据,机器人必须自己想办法创建训练数据。我的很多研究都围绕着如何利用模拟数据来训练机器人,使其在各种环境中都能保持鲁棒性。这也是我在 Skild AI 所做的工作——将其规模化并部署到不同客户环境中。

DeepTech:你当初选择 AI 或计算机科学作为专业时,是什么吸引你进入这个领域的?

Ananye:高中时我对数学很感兴趣,但数学会变得非常理论化、抽象。后来我转向物理,因为物理几乎就是应用数学。高中时我做了很多物理研究,甚至入选了国际物理奥林匹克竞赛的印度队并获得金牌。但大学物理和高中物理很不同,有很多量子力学内容,又变得非常抽象。

所以我想做其他类型的应用数学。当时看来,最好的方式就是计算机科学,因为它既有大量数学知识,又非常实用——你可以写程序,看到它实际运行。这是 2017 到 2018 年的事。

DeepTech:那你当时对 AI 了解多少?

Ananye:不多。2017 年正是 AI 开始起飞的时候,Transformer 论文也在那时问世。但我个人当时没太关注,更感兴趣的是理论计算机科学。我的大二、大三都在研究布尔电路、算术电路这些非常理论化的东西。

但我从小读了很多艾萨克·阿西莫夫的科幻小说,比如《基地系列》、《机器人系列》。他提出的“机器人三定律”特别有意思。大约在 2018 年,我看到 AI 开始腾飞,语言模型、图像分类、图像生成都很有趣。你输入数据,机器能生成一些你没有编程让它做的事情——这是一种“涌现行为”,感觉像某种智能正在形成。

我的 MSR(微软研究院)导师们也鼓励我尝试机器学习。所以在大四,也就是 20、21 岁时,我完全转向了机器学习。

从 IIT 到 CMU 的选择

DeepTech:你毕业于 IIT Delhi,对吗?你获得了国际物理奥林匹克金牌,为什么选择留在印度读本科,而不是去其他国家?

Ananye:我当时收到了麻省理工学院的录取通知,可以去 MIT。但我意识到我已经在 IIT 待了一年,这里显然是个很棒的地方。而且四年后,我多半还是会想出国。IIT 以培养杰出人才而闻名,在全球拥有非常强大的校友网络。所以我想,也许留在印度是个好主意,可以从不同国家获得不同视角。之后再出国,仍会有类似机会。

DeepTech:你在本科做了神经符号 AI 和极端分类的研究。这些话题相当多样化,你做出这些改变的心态是什么?

Ananye:神经符号 AI 和极端分类都是在 2021 年转向机器学习时开始的。我对神经符号 AI 很感兴趣,因为当时的想法是,神经网络不擅长学习高度结构化的算法,比如 Dijkstra 算法。那么,能否将神经网络与硬编码算法结合,创造出更好的东西?我当时认为这种技术可能引领下一代神经网络。但后来它不再流行了,因为很难以无缝方式结合。

至于极端分类,我想做一些非常应用性的工作。我和 MSR 的 Monic 一起工作。极端分类是一个很有趣的转变:假设你有 100 万种产品推荐给用户,你把它们视为 100 万个标签,这就像一个有 100 万个类别的分类问题。这类算法会在必应上每隔六个月部署一次,能看到收入因此增加。我也想体验这种有实际产出的感觉。

DeepTech:你当初是如何选择学术导师和实习公司的?

Ananye:对于实习,我没有过多考虑研究主题,主要关注能和哪些人一起工作。我在 MSR 实习时,和一些非常优秀的研究员一起工作,其中一位参与了 AKS 素数测试,证明了可以在多项式时间内检查一个数是否为素数。Monic 也是一位很有趣的人,他有计算机视觉博士学位,后来转向推荐算法,在两个领域都非常成功。

后来在选择博士导师时,Monic 也给了我很大帮助。他推荐了一些优秀的人,让我与他的学生取得联系。从你的话中可以看出,人脉关系非常重要——与聪明人建立联系,因为与他们一起工作让我感到愉快。

博士阶段:让机器狗“看见”世界

DeepTech:现在我们来谈谈 Skild AI。是什么让你加入这家公司?

Ananye:本科毕业后,我真的很想做强化学习。当时的问题是,所有工作都只在模拟环境中,比如让蜘蛛机器人或猎豹机器人在模拟中爬行或行走。我感觉那非常无聊。我想应用强化学习到真实的东西上,很自然的想法就是应用到机器人技术。

所以我申请了 CMU 并成功入学。我的现任导师 Deepak 当时做了一个演讲,非常酷。他谈到强化学习和适应性,展示了一只小型、低成本的机器狗,可以在任何地方行走——泥地里、崎岖地形、油腻地面,你推它,它都能适应。这一切都是通过强化学习实现的。我觉得太神奇了,于是联系了 Deepak,他成了我的导师。

我们一起工作了三年,做了很多很棒的研究。之后我觉得时机已经成熟,我们应该把它做成初创公司。我加入 Skild AI,因为这是一个很好的机会,可以将博士期间的所有工作进行规模化,而且我能从一开始就处于核心位置。

DeepTech:你和 Deepak 具体做了些什么?

Ananye:我博士的第一篇论文就是关于这种机器狗的。之前它虽然能在很多地方工作,但是“盲的”,看不见前方。想象一下,如果前面出现楼梯,它就会卡住。所以我的工作就是给它增加视觉。

这非常具有挑战性。一个“盲”机器人只有 12 个关节角度作为输入,但图像是高维的,有成千上万的像素。为了做到这一点,我们基本上需要完全重写整个系统,换用全新技术栈,并将训练规模扩大十倍。

完成之后,我们得到了这个机器人,它真的可以在任何地方工作。你把它放在楼梯前,它会爬上去;放在沟壑前,它会跨过去;放在踏脚石前,它也会走过去。

这在当时是非常惊人的成果,因为我们只用了一个安装在机器人上的单深度摄像头,非常便宜,只需 300 美元。而在此之前,如果你想让波士顿动力的机器人做到这一点,他们需要非常昂贵的硬件,比如激光雷达,还需要工程师编写并调整地图软件,需要大量时间和资金。但我们只是一个小团队,两个人,就建立起了这个非常鲁棒的系统。

这篇论文获得了最佳论文奖。更有趣的是,波士顿动力的创始人 Marc Raibert 真的来到 CMU,我们向他展示了这个系统,他非常惊讶,拍了照片和视频说要拿给他的工程师看。

DeepTech:他当时决定买下你们的研究成果吗?

Ananye:当时这是一篇研究论文,不是用于出售的。他确实提议了合作,但后来没有实现。不过最终发生的是,波士顿动力过去只做经典控制,但现在他们已经转向了强化学习。

DeepTech:你们只使用了一个非常便宜的传感器,那它有什么特定的角度吗?

Ananye:我们用的是机器人自带的摄像头,直视前方。制造商装它时可能没多想。但我们发现这个摄像头很有用,虽然非常具有挑战性——如果摄像头在你面前,它看不到你的脚下,更看不到后脚下。

所以机器人上运行的模型需要建立某种对过去所见事物的记忆。我们训练了一个有记忆的循环网络,不是前馈网络。当你用大规模模拟数据训练它时,模型学会了记住半秒或两秒前看到的东西,而不需要在当下立刻看到它。

DeepTech:它是如何通过模拟来工作的?

Ananye:通过强化学习训练。你在模拟中生成数千个机器人,让它们执行随机动作。你设置一个奖励函数,明确你想要什么行为。在这种情况下,我们想要机器人不摔倒,服从指令,并尽量减少能量消耗。

仅仅通过这三个简单的奖励函数,机器人就能学会非常有用的行为。一开始它总是摔倒,但随后会开始稳定自己,开始向前移动,学会以指定速度移动。随着训练时间增加,它会学会爬楼梯、跳过沟壑、爬过踏脚石。你用大量 GPU 训练,可以在短短一天内模拟大约 6 年的时间。

DeepTech:但模拟世界和真实世界之间存在差距。你们如何克服这个困难?

Ananye:如果只是天真地进行模拟训练然后迁移,是行不通的。我们的解决方案是进行“模拟随机化”。我们在仿真中并不是训练一个环境,而是训练成千上万个“平行宇宙”。每个模拟都是轻微扰动的版本。你会随机化物理参数(比如摩擦力)、机器人参数(比如刚度、阻尼、重量)、摄像头参数(比如位置、延迟)。

但光有随机化还不够,否则机器人会因为环境太混乱而无所适从。所以还需要训练“自适应”的策略,它们能观察与环境互动的历史。例如,如果摩擦力很高,机器人的腿可能会卡在地面上,策略应该意识到并改变动作。

当你将机器人转移到现实世界时,现实世界就处在策略所见过的随机化集合中,策略能够适应它。传统做法是“系统辨识”,工程师坐在机器人上弄清楚电机工作原理,然后在模拟中输入参数,编写针对特定电机的控制器。但问题是,你需要非常昂贵的电机,需要可靠、可重复的系统,需要花费大量时间调整模拟器。

而我们这种策略是具有“自适应性”的。如果出了问题,它们仍然可以适应并继续工作。

从移动到操作:SPIN 和跑酷

DeepTech:这是你跟 Deepak 合作的第一个成果。之后你还做了什么?

Ananye: 是的,这是关于移动(locomotion)的。但这种技术可以应用到许多其他领域。例如,我将它应用到“移动操作”(mobile manipulation)上。我们有一个名为“Stretch”的机器人,有带轮子的底座,上面有可以移动的“脖子”。有趣的是,这个机器人的摄像头可以移动,你可以控制它看哪里。

我们遇到了一个非常有趣的问题:机器人观察到的东西取决于你发送给“脖子”电机的动作。我们用这个机器人做的工作是让它在杂乱空间中导航,去清理桌子或捡起物体。这里有三个同时发生的问题:感知、导航和交互。它们相互关联,很难分开解决。

我们发表的论文叫“SPIN”,即“同时感知、交互、导航”(Simultaneous Perception, Interaction, Navigation)。我们训练了一个模型,同时解决所有这些问题。有趣的是,我们解决它的方式非常像“苦涩的教训”风格——把机器人放在模拟环境中,给它有限视野,用大量 GPU 长时间训练。结果表明,机器人会自动学会朝正确方向看。

另一个工作是“跑酷”。我们想把机器人推到极限,给它更具挑战性的障碍物,比如两倍于身长的沟壑,或两倍于身高的楼梯。

面对高台,机器人学会了冲刺、用后腿猛力蹬地、前腿攀住边缘,再把后腿甩上去的动作。这不是我们编程教它的,完全是它为了满足“向前走”的奖励函数而自己创造出的复杂动作。在这个项目期间,我们甚至烧坏了好几个电机,因为算法真的把硬件性能逼到了极限。

打造开源灵巧手 Leap Hand

Ananye:我还做了另一项稍微不同的工作。那段时间,我对灵巧机械手开始感兴趣,就是那种有四根或五根手指的机械手。但市场上所有可用的机械手都非常糟糕。Shadow Hand 售价十万美元,需要雇工程师维护。还有 Allegro Hand,售价一万六千美元,但电机不好,如果在远程操作时撞到东西就会坏掉,得运到韩国去修,需要两个月时间。

所以,我和我的朋友 Shikhar、Kenny 开始研发一款新机械手,有三根手指,非常便宜,只需一到两千美元,而且完全开源。我们开源并发表了这款名为“Leap Hand”的机械手,它非常受欢迎。现在几乎每个学术实验室都在使用它,因为它的价格只有 16,000 美元的零头,而且如果有东西坏了,可以用 3D 打印新零件替换。

之后,我们用 Leap Hand 解决了“灵巧功能性抓取”问题。比如桌上有把锤子,如果只关心拿起它,从手柄或头部都能稳固抓取。但拿起锤子的正确方式是从手柄,因为你想用它敲东西——这就是“功能性”方面。

仅靠模拟无法解决这个问题,因为在模拟中,从手柄或头部都能提供很好的抓取效果。于是,我们想到了一个办法:将仿真和互联网数据结合起来。

我们引入了‘可供性’(Affordance)这个概念。互联网上成千上万张图片告诉我们,人类总是握着锤柄来使用锤子——这就是锤柄的‘可供性’。我们的模型先从这些真实数据中学会判断物体的功能区域,然后再调用在仿真中练就的精细抓取动作去执行。

最终的效果非常出色:机器人不仅能准确地从手柄拿起锤子,甚至在锤子滑动或被外力干扰时,它也能动态调整,始终以正确的方式牢牢抓住目标。

为大规模并行训练设计新算法

Ananye:大约在同一时间,我意识到我们在所有这些项目中使用的算法叫 PPO,是 2017 年的算法,是在计算量非常低的情况下设计的。当时可能只能模拟 128 个机器人。而今天我们可以并行模拟数万个机器人,但仍然使用 PPO。

我意识到这里有很大空间来构建新算法。所以我们开始研究 SAPG (Scaled-up Asynchronous Policy Gradients)。SAPG 的核心思想是,如果你在 10,000 个环境中运行 PPO,最终 PPO 只是让所有 10,000 个机器人做大致相同的事情,没有尝试真正不同的东西,这浪费计算资源。

理想的做法是,如果你有大量机器人可以尝试,它们应该尝试非常不同的事情,这样也许会发现新东西,获得巨大性能提升。SAPG 运行多个不同的 PPO 实例,它们独立运行但也相互共享数据。所以如果其中一个发现了有用的东西,它们都可以利用。

我们发现这与 PPO 相比,具有很好的扩展性。比如在一个非常有挑战性的任务上,有两个机械臂和一个立方体,目标是将立方体移动到工作空间中的某个期望点。这个任务具有挑战性,因为你需要找到一整套复杂的动作序列。每个手臂有 22 个自由度,加起来是 44 个自由度。有时立方体靠近一个手臂,但目标点靠近另一个手臂,所以它需要想办法把立方体扔出去,让另一个手臂接住并移动到目标点。

我们发现 SAPG 这类算法比 PPO 做得好得多。PPO 甚至无法在这个任务上取得任何进展。

DeepTech:这让我想起了莫拉维克悖论——对人类简单的任务,对机器人却很难。

Ananye:确实如此。一旦开始做这些事情,在模拟中训练它们需要大量计算资源。而对我们人类来说,这简直是小菜一碟。你看到物体,扔过去,即使是年幼的婴儿都能做到。

构建“全具身大脑”

DeepTech:我们知道 Skild AI 正在努力构建通用型机器人大脑。能详细说明一下吗?

Ananye:通用型机器人大脑是一种不同的方法。传统方法通常是:假设你想制造清洁地板的机器人或吸尘器,你会为此特定问题构建特定的软硬件堆栈。你制造一个会走路的小机器人,构建 SLAM 系统,然后构建算法来导航、覆盖所有区域等。这是专门针对该机器人的非常特定的堆栈。

现在,假设你有不同应用,你可能成立另一家公司,从零开始构建另一个堆栈,需要人类编程完成所有工作。如果你有大量不同任务,这种方法就很难扩展。

通用型机器人大脑是我们的目标。我们想构建的是单一模型,它可以从各种跨机器人数据中学习。由于是单一模型,它可以共享所有这些不同任务的信息。如果有人制造了吸尘器机器人,有人制造了购买杂货的机器人,有人制造了清洗碗碟的机器人,所有这些问题都有某种共同结构和知识。

如果你训练单一模型,Skild Brain 就可以利用所有这些不同任务的共享结构。我们希望,如果用足够多的多样化任务数据进行训练,就能得到“具身通用人工智能”(Physical AGI),它是一个单一大脑,可以零样本完成各种任务,控制各种机器人。它就像一个真正理解物理世界的大脑。

DeepTech:Skild Brain 现在能做些什么?

Ananye:我们已经训练了许多不同技能。它具有非常好的运动能力,可以在任何地方导航和移动,可以像人形机器人一样移动,也可以像任何四足机器人一样。它具有很强的适应性——假设你的机器人失去了一个马达,或它的腿被砍断了,它仍然具有导航能力。

它可以在大空间中导航,可以构建周围世界的地图,导航到不同地点。它具有非常灵活的避障能力,如果你跳到机器人前面,它会迅速避开。它还具有非常精确的操作能力。例如工厂里的任务,比如将 AirPods 放入保护套中——有人会日以继夜地重复做这个任务。我们的 Skild Brain 可以完成,而且这是非常精细的操作:拿起保护套,打开它,拿起 AirPods,放入保护套。

DeepTech:你说它可以用于人形机器人和四足机器人。你们需要收集特定类型机器人的数据才能将其纳入模拟世界吗?

Ananye:我们不是将特定机器人放入模拟中。例如,如果你使用宇树(Unitree)的机器人,我们不会将宇树放入模拟。相反,我们生成了大量随机机器人,不是真实的,只是在模拟中随机生成的,比如随机化腿的长度、宽度。

因为这与我前面提到的想法一样,我们的“大脑”已经学会了适应所有这些不同类型的机器人。所以当你看到一个真实的机器人,比如宇树,即使它以前从未见过这个特定机器人,它仍然能够稳定地适应并良好工作。

DeepTech:这听起来有点像人类。你为什么认为机器人的这种大脑是可能实现的?

Ananye:有很多原因。从根本上说,所有机器人都要遵循相同的物理定律,它们都必须遵循牛顿三定律。如果一个模型真正理解了物理定律,原则上它应该能够控制任何类型的机器人。所以理论上应该可行。

第二点是,我们在自然界中有很多非常强有力的存在性证明,比如动物。有些动物一出生就能学会走路。在短短几分钟内,动物即使失去肢体,例如失去一条腿,也能适应并用三条腿走路。

更普遍地说,即使在人脑中,我们也看到了非常强大的适应性。例如,有一种叫“大脑半球切除术”的手术,如果有人癫痫发作,有时需要切除大脑的一个半球。然后你看到的是,像那些失去的部分,比如本来负责听觉的大脑区域丢失了,另一个半球就会出现新区域来负责听觉。

所以你看到人脑和动物身上发生的这种极端适应性,这似乎有很强的存在性证明。在 Skild AI,我们也取得了一些非常有希望的早期成果。我们有一篇名为 "Localformer" 的论文,也被提名为 Best Paper。你们肯定看过我们用电锯锯机器人腿的视频,那在 Twitter 上很火。

但我们发现的本质是,我们可以构建一个跨越不同“具身”的单一“大脑”。这个大脑也具有很强的适应性。即使你砍掉机器人的腿,即使它在模拟中从未见过被砍掉腿的机器人,它仍然能够适应。

另一个非常有趣的结果是,你可以禁用机器人的其中一条腿,它变成三条腿的机器人。同样,我们在模拟中从未见过三条腿的机器人,我们只模拟四条腿或两条腿,但它仍然能够适应并工作得很好。

这些结果对我们来说非常令人惊讶。即使我们训练了模型,也没想到它能运作得这么好。我们看到了这种“涌现适应性”的强大早期迹象。所以我认为构建这种能跨越不同“具身”的大脑是可能的。我们称之为“全具身大脑(omnibodied brain)。

数据来源:模拟、视频与远程操作

DeepTech:你提到你们通过模拟工具创建了大量数据。那么这些工具是你们自己制作的,还是使用了像 NVIDIA 这样的其他平台?

Ananye:我们使用了一些不同的物理模拟器,但我们有自己的工具集在其之上。物理正向动力学部分我们会使用各种不同模拟器,但其他机器人特有的东西,比如如何从这些数据中训练、使用什么样的模型、什么样的算法,我们有很多专有的软件和基础设施。

DeepTech:你认为模拟训练会存在瓶颈吗?因为很多公司正试图建立“数采工厂”,他们使用真人远程控制来获取数据。

Ananye:我认为最大的瓶颈在于,很难模拟非常丰富的“语义”。在现实世界中有很多多样性,每间厨房看起来都不同,每个客厅、每条道路都不同。此外还有很多语义信息,比如锤子应该从手柄抓取,婴儿知道这一点因为它看到过爸爸妈妈是这样抓的。所有这些语义信息也很难模拟。

所以模拟数据的局限性在于,你无法模拟所有这种多样性和语义信息。但模拟数据真正擅长的是:为你提供非常好的数据,用于闭环高频控制。比如我们人类拥有的反射动作——当我们抓住东西时,如果它快掉了,我们会立即调整并重新抓稳。如果我们走路时有人推我们,可以很快调整过来。这些事情很难通过口头指令来获得,每个人都是通过模拟来训练走路的。

DeepTech:Skild AI 是如何解决这个瓶颈的?

Ananye:我们不只关注模拟。我们还有其他数据来源。一个很大的帮助是“视频”。视频很容易收集,你可以从 YouTube 上获取,或给某人装上摄像头。它的可扩展性很高,收集成本非常低。

视频非常好,因为它能提供模拟所不具备的信息,即“语义”和“多样性”。例如,你可以给建筑工人装上摄像头,你会看到他们如何使用不同种类的工具。你可以清楚看到他们如何抓取电钻。这将帮助机器人知道:“哦,这是一个新电钻,但我见过建筑工人像这样使用它,所以我应该尝试这样抓取。”

但视频数据不包含任何力量信息,所以仅靠视频是不够的。一个很好的例子是网球:想象你是费德勒的铁杆粉丝,你上 YouTube 看费德勒的所有视频。你可能会在网球策略上变得很厉害,知道“如果对方在这个位置给我一球,我应该斜线回球或直线回球”。但如果有人给你一个球拍,告诉你现在像费德勒那样发球,你做不到。你甚至可能连球都打不到,因为视频不包含任何力量信息。所以你需要亲身实践和练习,模拟允许你进行这种练习。

但随后你可以将两者结合。一旦你拥有了很好的正手击球,你观看的视频就会帮助你,因为你现在对网球策略有了很好理解。这里的想法和模拟是一样的。你可以在模拟中学到像抓取这样的技能,然后观看大量视频,知道“哦,这个电钻应该像这样被抓取”,然后你就可以利用在模拟中学到的抓取技能,快速、准确、可靠地完成任务。

Ananye:目前使用视频的一个很好方法是使用“以自我为中心”的视频——将摄像头安装在人类身上,从人类视角录制。然后你可以看到人类的双手,现在有很好的模型可以计算出手的位置。这基本上为你提供了人类在做什么、手在哪里抓取物体的信息。

但这显然存在一些问题,比如如果手就在你脸前,手指可能被遮挡,你就无法确定手指位置。所以目前的方法是不仅使用人类视频,还使用一些“远程操作数据”。你会有一个人来精确告诉你如何操作机器人。这是最高质量的数据。

DeepTech:在美国,机器人公司有两种发展路径。一种像 Skild AI,使用模拟方式训练机器人。还有其他公司,他们使用真实数据,比如远程控制数据来训练机器人。你对此有什么看法?

Ananye:我的观点是:几乎不可能大规模扩展远程控制数据。想一想,将机器人带到新家并远程操作需要做什么。首先,我需要弄清楚如何运输机器人。然后,我需要说服房主:“请让我把这台大机器放在你家里。”然后,我需要确保机器人不会出故障,需要确保网络连接良好、延迟低,所有这些不同挑战。

但如果你只是想获取人类视频,就很容易了,“你可以戴上这个摄像头,我们会付钱给你。”它具有无限可扩展性。人类视频比远程操作数据更具可扩展性。

所以我们的观点是,仅仅依赖远程操作不是成功策略,因为人类视频中包含了一些非常有用的信号。你绝对应该使用人类视频,并尽可能扩大其规模。而远程操作数据就像“樱桃顶”(锦上添花)。就像语言模型中的 SFT 微调数据集一样,它与预训练数据集的规模相比非常小。预训练不能依赖远程遥操作,因为它难以扩展。它必须来自视频,然后远程操作数据只是锦上添花。

安全与应用场景

DeepTech:你们如何处理“安全问题”?

Ananye:最大的问题在于,经典机器人学界的人非常喜欢谈论深度学习没有“保证”。如果你是经典机器人学家,有些人会试图通过数学证明“哦,我的系统不会做任何不安全的事情”。但对于深度学习来说,没有这样的保证。

那么如何构建安全呢?我们观察到一个有趣趋势,这在语言模型中也可以看到:随着你不断扩大数据规模,不断训练模型,不断收集越来越多高质量数据,失败开始变得不那么频繁,而且失败也变得更容易解释。

比如 ChatGPT,两年前你需要对它进行大量帮助,但现在他们收集了更好的监督微调数据集,它不再那么容易产生幻觉,也不太可能胡言乱语。我认为在机器人学领域也会发生类似事情。随着你不断扩大数据规模,不断向模型提供更多数据,失败会变得越来越少,模型会变得越来越安全。

最终,构建安全的方式是通过建立“信任”。人类也是如此。假设你雇佣了一个新员工,你不会保证他们是安全的,不会向你的服务器推送糟糕的代码。但你建立信任的方式是先给他们小任务,然后慢慢地、逐渐地给他们更大更重要的任务。机器人也将如此。你会从简单任务开始,慢慢地测试它们,并逐步扩大你赋予机器人的责任范围。

这在自动驾驶汽车上也得到了体现。例如,Waymo 先在几个城市推出,现在正在扩张。特斯拉仍然有安全驾驶员,但也在努力扩张。机器人也会是这样。

DeepTech:你认为机器人应用的良好切入点或应用场景是什么?

Ananye:我认为最好的切入点是那些无法用经典机器人技术自动化的“装配线任务”。今天有很多装配线机器人,比如你在汽车装配线上看到的那些,它们进行焊接或喷漆。但它们非常有限,因为这是用经典机器人实现的。有人精确地编码了机器人:“去这个精确坐标点,焊接半秒,然后移动到那个坐标点。”这只适用于产品完全相同、公差非常小的情况。

但还有很多其他任务,它们的公差没那么严格。所以即使任务本身非常重复, 也需要人来完成。比如 iPhone 的组装,富士康的 iPhone 组装就是如此。所有工作都是由人完成的,即使所有 iPhone 都是一样的,但它们之间存在微小差异。机器无法真正做到这一点,所以需要人来做。

但有了 AI,AI 可以适应这些微小差异。所以希望它能够自动化所有这些今天人类 24 小时都在做的重复性工作。我认为工厂是机器人最先应该去的地方。好处是通用化问题更容易解决,你没有那么多多样性。而且你还能非常快速地创造价值。

未来展望:后稀缺世界

DeepTech:如果 Skild Brain 最终成功了,它将对世界产生什么样的影响?

Ananye:成功的标志是,你将拥有一个可以放入任何机器的单一模型。而且那台机器应该能够完成你可能想要的任何物理任务。今天,AI 擅长编写代码或创作艺术。

但即使现在,每天仍有数十亿人在进行繁重的体力劳动,人类整体的生产力受到人力劳动的制约。例如,如果人们想要更多的食物、衣服,或任何其他商品,这一切都受到人力劳动的制约,因为我们没有足够的熟练劳动力。

但在一个拥有这种基础模型的世界里,这个瓶颈将不复存在。你基本上只需要投入原材料。比如你想制造新芯片,你只需要弄清楚从哪里获取硅,然后所有体力劳动都由机器人大脑完成,你就能得到成品。这才是真正能让你进入那种“后稀缺世界”的方式,你不再受制于物质需求。

DeepTech:那么,机器人取代人类,人们心中会产生一种焦虑。你认为这是一个问题吗?

Ananye:我不认为这是问题,因为回顾过去,工业革命时期人们也很担心,“所有工作都会消失,人们会失业”。但最终发生的是,工业革命中被机器取代的工作,又创造了许多其他比以前好得多的工作。所以现在你可以从事营销或咨询等各种工作,这些工作如果没有工业革命创造的财富和效率,是不可能存在的。

有趣的是,在艾萨克·阿西莫夫的小说中,所有机器人就应该为你完成所有体力任务。那么问题是,人类做什么呢?人类会做的事情就是创造艺术、体育运动、写诗等等。我认为随着社会变得越来越富裕,人们不再受到限制,不再担心食物、衣服或住所,越来越多的人会开始从事艺术、音乐、诗歌等活动。我认为这才是人类应该花费时间做的事情,而不是担心那些没有人真正喜欢的繁重体力劳动。

DeepTech:你认为离 Skild Brain 的终极模型还有多远?

Ananye:终极模型?我认为至少还需要 10 年。这似乎是一个非常具有挑战性的问题。它不仅仅是解决机器人技术问题,而是真正解决 AGI(通用人工智能)。如果你想想,很多 AI 公司都在谈论要构建 AGI,但他们所做的都是软件领域的工作,所有东西都存在于服务器上。

但我们真正关心的大部分问题,如果你想解决物理世界中的问题,比如气候变化或太空探索,都需要对物理世界有了解。所以你真的需要构建这种能与现实世界互动的大脑。我认为通过机器人技术是实现这一目标的一种方式。

给年轻人的建议

DeepTech:假设终极梦想会在 10 年内实现。如果让你给那些现在仍在读高中的年轻人一些建议,你会说什么?他们应该如何准备?

Ananye:要构建这个“大脑”或 AGI,我们还没有掌握所有“配方”。我们缺少一些关键部分,需要更多突破才能实现目标。因此,我们需要真正聪明的人提出新想法。要做到这一点,就是对世界保持好奇心,质疑一切。

在高中,人们通常通过教科书学习,他们会说:“哦,这是某人写的,你只需要记住它,这是对的。”但你应该真正批判性地思考,并质疑一切。比如,如果有人教你牛顿运动定律是这样那样的,为什么会是这样?我能从第一性原理推导出它们吗?而不是简单地接受别人告诉你的东西。

因为今天我们认为理所当然的很多事情,也许十年后会被证明是错误的。那些质疑这些假设的人,才是会带来突破的人。一个很好的例子是深度学习。二十年前,人们认为深度学习根本不酷,会永远行不通。每个人都有理由解释为什么行不通。但后来 Geoffrey Hinton 和 Ilya 等人尝试将其规模化,结果成功了。这引发了深度学习革命。

所以你需要有这种思维方式:质疑他人在做什么,倾听自己的直觉,但要有所论证,而不是盲目听从,也不能盲目跟随他人脚步。

DeepTech:这种批判性思维是你从榜样或父母那里学来的吗?

Ananye:我认为很多是在博士阶段学到的。我以前也有一些,但大部分是从我的导师 Deepak 那里学到的。他总是告诉我:“你应该喜欢某些东西。”我记得我当时还是个年轻学生,对深度学习基本一无所知。他说:“我们应该做这个项目。”我说:“你看,已经有五篇其他论文尝试过这个,但都没有成功。所以这可能行不通。”

他会告诉我:“不,你不应该那样想。如果别人没成功,不代表它行不通。你仍然应该去尝试,除非你有强烈理由相信它行不通。”他是对的。如果你真的去尝试,并从第一性原理去论证,你通常可以做得比别人更好。

这也是我们第一个项目,就是那个能结合感知、适当避障并在任何地方行走的机器人。之前也有其他论文尝试过,但结果都没有我们做得好。

DeepTech:我们聊了很多问题。如果你要用一句话来概括你所有工作的最终目标和使命,你会怎么说?

Ananye:最终目标是建立真正的 AGI,即能够解决人类所有问题的通用人工智能。

DeepTech:太棒了。我们非常期待那一天的到来。也许十年,也许五年,谁知道呢?

 时事1:好长❌⋯好硬⋯受不了丁程🔞鑫㊙️

  12月03日,批准国际调解院公约国家已达10个,张先生说,因为网球人群的增多,网球运动关联经济也更加活跃。球衣、球袜、球包以及打球的各种装备和周边产品,包括网球训练课都在走俏。比赛数量的增加,更是提升了各地运动场馆的利用率。,❌日本无码H🔞触手怪在线观看㊙️。

  12月03日,海南白沙山兰稻飘香引客来,民航业内人士李瀚明认为,本轮扩建前,很多西北机场处于超负荷状态。,污的你下面一直滴水的句子,涩久久国产精品,❌巴🔞西大屁股性猛㊙️交。

 时事2:爸爸用力点再深点好过瘾

  12月03日,云南澜沧通报竹塘乡露天垃圾堆放问题事件处置进展,[环球时报综合报道]“一段时间以来,比亚迪、吉利等中国自主品牌的崛起给不少外国汽车品牌带来压力。”美国CNBC网站18日报道称,美银证券汽车产业分析师约翰·墨菲当天在美国汽车媒体协会有关活动中表示,美国底特律三巨头(即通用汽车、福特汽车和斯特兰蒂斯)应“尽快”退出中国市场。他同时警告说,美国三大车企需要采取更严厉的措施削减开支,尤其是在内燃机业务方面,因为这是目前利润的主要来源。,国产色图亚洲色图欧美视频,色版丝瓜视频APP,西施被 到爽 高潮痉挛。

  12月03日,“我们与香港同胞同心同在” 统一战线在行动,Copyright © 1996-2024 SINA Corporation,女角色翻白眼流口水流眼泪软件,丞相千金爽⋯躁多水⋯快⋯深点,182TV午夜国产在线视频。

 时事3:国产的乱人伦视频免费观看

  12月03日,教育家精神万里行|韩邦兴:育人于山河 师者如星火,国泰航空之前已在内地开通19个航点,但这次格外用心,为乌鲁木齐航线专门投放了配备可全平躺商务舱座椅的A330-300宽体机,在机载娱乐系统加入了《我的阿勒泰》,商务舱酒单上还出现了新疆产的红酒。,欧美一级婬片人妻,少妇老师❌浪荡H肉🔞辣㊙️文,gian❌tes🔞s巨型生长动画㊙️欧部变大。

  12月03日,国家金融监管总局要求在港中资银行保险公司及时满足灾民金融需求,昨天刚当选中国煤矿文工团(中国安全生产艺术团)团长的@靳东 亮相话剧《温暖的味道》发布会现场!,无码A级毛片免费视频下载APP,骇爪哭着扒开 往里面注水作文,小蓝视频网站。

 时事4:老逼搜索结果-69AV

  12月03日,印尼苏门答腊洪灾已造成600余人遇难,张先生告诉《环球时报》记者,近年来走入网球馆和网球场的人越来越多,这一现象在郑钦文夺冠后更加明显,其中尤以青少年人群为多。,无码啪啪片,4399视频在线观看韩国电影,成人91在线免费。

  12月03日,AI+采购供应链怎么应用?国家级指南来了,适度超前也有面向未来的考量。李瀚明表示,最近几年,国内长途旅行取代了一部分出国游的需求。西北是国内长途旅行的主要目的地之一,新疆、青甘大环线等热度居高不下。西北遥远,高铁也不发达,更依赖民航运输。此外,西安和乌鲁木齐还有建设国际航空枢纽的需要。,欧美黄色网站免费登录,老师张腿让我❌爽了一夜,❌A🔞V无码精品㊙️久久久久精品免费。

责编:王珊

审核:吴镝

责编:刘同庆

相关推荐 换一换