86: We, Robot-2,清华叉院许华哲看“Optimus”的门道


Episode Artwork
1.0x
0% played 00:00 00:00
Oct 27 2024 65 mins   10

“人类最大的科学幻想之一,怎么一点点变得现实。”



今天的节目还是和特斯拉近期的 We,Robot 发布会有关,主角从与侯晓迪那期(见《晚点聊》ep84)聊的自动驾驶来到另一个全场焦点:特斯拉人形机器人 Optimus。



我们邀请了清华大学交叉信息研究院助理教授、同时是清华叉院具身智能实验室负责人许华哲来与我们分享他的观察和实践。去年开始,许华哲也参与创立了一家具身通用机器人公司——星海图。



许华哲本科毕业于清华大学电子工程系,在伯克利 AI Research Lab(BAIR)获得博士学位,后在斯坦福做博士后,2022 年回国加入清华大学交叉信息学院。博一做过自动驾驶后,他在博二开始关注机器人领域,伯克利也是较早尝试把强化学习和机器人结合的重镇之一。



这期节目里,我们从 We,Robot 发布会出发,解释了有争议的“遥操”到底是什么,现在有什么用;许华哲也详细介绍了这次具身智能变革的一些关键技术推动因素,如强化学习、模仿学习、多模态大模型、世界模型等等;他还分享了 BAIR 的教授与博士生的工作方式。



通用智能机器人是一个交叉学科,也是人类最大的科学幻想之一。AI 知名学者 Marvin Minskey(马文·明斯基)曾预测, 3-8 年后,我们就会看到通用智能体,不过他说这话时是 1970 年。新一轮 AI 热潮为何会不同?最前线的人提供了他们看到的可能。



时间线传送:

·许华哲的求学经历

01:04 从清华电子系到伯克利 AI Research 博士,再到斯坦福博后

02:10 三在多伦多大学交换,机缘巧合下开始接触 AI 研究。



·WeRobot 上的 Optimus,到底怎么理解遥操?

04:50 很马斯克风格的发布会

05:40 丝滑遥操作也有实用价值:远程劳动力转移;同时能帮助获得更多数据,使系统进化。

06:46 判断机器人好不好的两个小 trick:机器人走路时,周围人越少越好;机器人操作使,周围人离机器人越近越好

07:51 遥操目前有三种常见方式:从视频映射、人带着 VR 设备遥操、用与机器人同构的专用遥操设备遥操,斯坦福 Aloha 就使用了第三种

10:01 从遥操到机器人自己动需要:更多的数据,更好的模型

12:47 马斯克拉高大众对机器人的期待,整体是好事,但专业人士也许有时生气——2017 年的一个活动中,马斯克大谈明年实现自动驾驶,Andrej Karpathy(特斯拉自动驾驶前负责人,后回到 OpenAI,今年自己创业了)“脸都绿了”



·通用具身机器人照进现实,变化并不始于 Optimus

-强化学习、模仿学习和多模态大模型

14:56 伯克利 AI Research:较早关注强化学习;这里鼓励一起合作,不同老师和博士间自由组合,很适合机器人交叉领域

20:28 斯坦福、伯克利、MIT 机器人谁最强?美国高校的人才的轮动机制

21:41 一个标志性工作:ETH(苏黎世联邦理工)让机器狗在仿真环境里学会爬山,这是是强化学习在机器人中的应用

23:37 许华哲自己的项目:机器狗学会在软垫上走,通过改进一个强化学习算法,让机器人不是在仿真里学,是在真实环境里学

25:20 算法和模型架构是两个概念,同一个算法可用不同架构的神经网络实现;强化学习两个最典型的算法范式:基于值的学习(Q学习)和基于策略的学习。

28:51 接下来谁能做出非常有效果的“具身大模型”,会是一个进展

29:23 除了强化学习,其它重要进展:模仿学习、多模态大模型 & 三者的不同作用

32:54 目前具身智能公司,自己做强化学习、模仿学习多,多模态大模型一般使用外部的,如 GPT 等。

-世界模型

34:11 目前是个笼统概念——根据目前状态能推断未来状态,都可以是世界模型

35:24 为什么 Sora 不是世界模型,而 YX (也是一个视频模型)是一个世界模型?

36:52 机器人包饺子的例子:当时用到的“世界模型”就是一个神经网络,不过是一个很局限的版本。

38:04 实现通用机器人,世界模型一定是组成部分,但其实现在大家并不完全知道怎么做世界模型;目前 AI 界提出的几种主要思路

-触觉(感知里被忽略的一个部分)

39:14 触觉是个被忽略的模态,而人最大的器官是皮肤;触觉缺失的患者很难抓东西

41:00 触觉和力控传感的区别

-本体

42:29 机器人本体形态目前五花八门,为什么星海图觉得当前操作(双臂)更重要

45:28 关于灵巧手:在清华有各种尝试,但并不适合现在就放在公司里做,要做好灵巧手,难度不亚于做好一个完整人形机器人

47:53 目前星海图“力出一孔”要做好的事:移动操作的本体、遥操作和智能。



·从机器人的现在到未来

48:19 明斯基 1970 年的乐观,3-8 年后就会有通用智能体

49:26 清华姚班本科生关于 AGI 的预期小调查:今年比去年悲观

52:03 从现在到未来的瓶颈:数据;目前行业里还没有清晰的数据采集成本,因为采集方法也没有定型;星海图自己获得数据的 3 种方式

55:30 未来机器人上的模型,是一个端到端大模型,还是在不同层次用不同模型来组合?——许华哲相信类似 VLA 的端到端模型是未来趋势,但不一定最适合现在来落地。

58:14 目前大模型范式有缺陷,但可以一边先用,一边改进

59:07 UBI(无条件免费发钱)计划不一定能解决未来的社会危机

59:51 要警惕人类不经意间丧失权利,你有可能失去“在健康日吃炸鸡的权利”

01:02:17 一致性与对齐:机器以会实现我们设定的目标,但可能以我们想不到的方式,使我们付出想不到的代价



相关链接:

特斯拉 Optimus 机器人进展:已经生产数百台、还拧不好螺丝



到底什么时候AI才能帮我把麻烦事都做了啊啊啊啊?|许华哲 一席第1037位讲者



晚点聊 LateTalk-84:与侯晓迪聊特斯拉 We,Robot:烟雾与现实



附录:播客中提及的一些 AI 领域人物(按提及顺序)

Andrej Karpathy,AI 研究者,曾任特斯拉自动驾驶负责人,今年创立了人工智能教育公司 Eureka Labs。

Trevor Darrell,Berkely AI Research Lab(以下简称 BAIR)教授,Caffee 的搭建者之一,许华哲的博导。

Sergey Levine,BAIR 副教授兼谷歌 DeepMind 研究员,今年参与创立研发机器人大脑的 PI。

Pieter Abbeel,BAIR 教授,智能协作机器人 Covariant 的创始人之一,2021 年 ACM 计算奖获得者,Amazon 后收购了 Covariant 的部分团队。

Anca Dragan,BAIR 副教授,运营 Interact 实验室。

Jitendra Malik,BAIR 教授,其团队在机器人视觉触觉结合等方面有突破。

Alexei Efros,BAIR 教授,计算机视觉专家,在图像合成、风格迁移等方面成果突出。

Chelsea Finn,斯坦福助理教授,研究智能体学习交互能力,曾在谷歌大脑工作。

Yann LeCun,图灵奖获得者,Meta FAIR(the Foudamental AI Research)负责人。

David Ha,AI 研究者,2018 年 3 月曾发布论文“World Models”

Marvin Minskey,麻省理工教授,“人工智能之父”,推动 AI 早期发展的重要学者。

Dieter Fox,华盛顿大学教授,研究机器人感知规划学习等,对复杂环境应用有贡献。



登场人物:

许华哲,星海图联创、清华交叉信息学院助理教授

程曼祺,晚点科技报道负责人。即刻:程曼祺_火柴Q



剪辑:甜食



封面:Screenshot from Robert Scoble on X