EP 66. 深度解读Coding Agent与OpenAI o3:中美Agent 创业者、研究员与投资人眼里的未来


Episode Artwork
1.0x
0% played 00:00 00:00
Dec 29 2024 167 mins  

终于来到了OnBoard! 2024 年压轴之作!那必须是绝对深度绝对精彩的一期!年底关于 AI 的新闻太多,但是最值得我们压轴深入探讨的,必须是 coding agent ——即使已经有很多讨论,或许也都还是被低估。


不到两个月的时间,coding agent 产品完成了二连跳式的升级,从IDE 助手 Cursor 到 Replit Agent, Windsurf 为代表的 coding agent,到Devin 的惊艳发布,让我们意识到真正 end-to-end coding agent 的能力已经超过 coding 本身,打开了大模型未来全新的想象空间。


Hello World, who is OnBoard!?


更巧的是,就在我们录制这一期节目的凌晨,就是 OpenAI 12天发布会最后一天,OpenAI o3 横空出世,在编程和数学领域最有挑战的 Benchmark 上超越了绝大部分的人类,也让我们对大语言模型能力天花板的预期再次被刷新。要展望2025年AI领域还会发生什么,coding agent 以及强化学习为新范式的 o3系列,无疑是最核心的问题。


这一期的嘉宾,汇集了国内和硅谷 coding agent 一线创业者、coding 大模型研究员和 AI 投资人,这次长达三个多小时的讨论,在全网恐怕都很少见了,有一线 coding agent 设计解读,还有最新鲜热乎的对 o3 实现难点和未来挑战的拆解,你是不是还不知道,在好几个开源项目里,OpenHands 已经超越人类成为最活跃贡献者了?我们还探讨了:



  • 为什么说 Devin 展示了“完成工作”的 scaling law?

  • 最早引领 coding agent 潮流的 Replit Agent,以及开源 Devin 项目 - Openhands, 是设计中有哪些关键决策?

  • Coding agent 未来是 Devin 形态赢家通吃吗?

  • 底层模型能力之外,coding agent 应用公司的核心能力和壁垒是什么?

  • Coding Agent 对于工程师和未来的组织和社会,会有哪些深远影响?

  • 如何看待 o3 超越大部分人类的能力?未来的发展空间在哪里?




理解这次内容需要一些背景知识,非常强烈推荐大家去复习Onboard! EP 62. 与Google deepmind 研究员对o1的讨论,以及EP 53 对coding agent 的第一次探讨,其中一位嘉宾姚顺雨,作为 SWE bench 的提出人,已经加入OpenAI 负责 agent方向的研究。


未来已来,不论你是否已经感知到,这3个小时,绝对值得你的时间。


感谢大家这一年以来的支持,如果喜欢我们的内容,今年最后有机会在小宇宙里面打赏,在Apple podcast, spotify 里面给五星好评啦!我们明年见!Enjoy!

嘉宾介绍



  • Yusen Dai,真格基金管理合伙人,聚美优品联合创始人。

  • Zhen Li, Replit Agent 核心成员,Replit 资深工程师,ex-字节,Google.

  • Xingyao Wang, Allhands AI (开源项目 OpenHands) co-founder & Chief AI Officer, UIUC PhD.

  • Binyuan Hui, 阿里巴巴通义实验室科学家

  • Cohost: Peak, 真格基金EIR,前猛犸浏览器创始人

  • OnBoard! 主持:Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学




我们都聊了什么



  • 04:06 嘉宾自我介绍,最近用 coding agent 实现的有意思的任务

  • 15:17 投资人视角下,Coding agent 发展历程中的核心节点,为什么说 scale of work 是最令人兴奋的机会

  • 22:03 Replit Agent 诞生的历程,发展过程中的关键节点,从1-10 有什么计划

  • 36:04 如何看待与Devin 的竞争?未来不同 coding agent 产品形态会融合吗?

  • 39:01 OpenHands/All hands AI 不同寻常的诞生故事,打造开源 coding agent 的重要技术和商业决策?

  • 41:48 Openhands 的架构设计,与Devin 的异同意味着什么?

  • 49:24 Coding agent 与 Anthropic Computer Use 之间的关系?

  • 54:35 OpenHands 产品发布以来,社区的主要反馈和重要变化?开源有什么作用?

  • 1:04:40 Coding agent 产品的长期竞争力是什么?

  • 1:09:20 o3 最让人印象深刻的是什么?对 coding 和AGI 未来有什么影响?

  • 1:20:08 解决真实世界的复杂问题,o3 之后还需要什么?

  • 1:24:33 SWE bench 被“刷爆”之后,下一个有意义的 benchmark 是什么?

  • 1:36:27 Coding agent 领域今年还出现了哪些重要变化?

  • 101:33 未来需要怎样的工程师和怎样的组织?

  • 1:58:07 如何进一步提高模型 planning 的能力?完成多步骤任务能力如何实现?

  • 2:07:45 Agent 的普及会带来哪些底层技术栈和工具的新机会?

  • 2:17:25 投资人如何看待 AI agent 的价值和投资机会?未来中国 coding agent 的机会是怎样的?

  • 2:25:55 快问快答:未来1年和3年对AI的期望,coding agent 翻车的例子,AI被高估和低估的能力



我们提到的公司和重点词汇




参考文章





欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!


M小姐研习录 (ID: MissMStudy)


喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。




最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来!