终于来到了OnBoard! 2024 年压轴之作!那必须是绝对深度绝对精彩的一期!年底关于 AI 的新闻太多,但是最值得我们压轴深入探讨的,必须是 coding agent ——即使已经有很多讨论,或许也都还是被低估。
不到两个月的时间,coding agent 产品完成了二连跳式的升级,从IDE 助手 Cursor 到 Replit Agent, Windsurf 为代表的 coding agent,到Devin 的惊艳发布,让我们意识到真正 end-to-end coding agent 的能力已经超过 coding 本身,打开了大模型未来全新的想象空间。
Hello World, who is OnBoard!?
更巧的是,就在我们录制这一期节目的凌晨,就是 OpenAI 12天发布会最后一天,OpenAI o3 横空出世,在编程和数学领域最有挑战的 Benchmark 上超越了绝大部分的人类,也让我们对大语言模型能力天花板的预期再次被刷新。要展望2025年AI领域还会发生什么,coding agent 以及强化学习为新范式的 o3系列,无疑是最核心的问题。
这一期的嘉宾,汇集了国内和硅谷 coding agent 一线创业者、coding 大模型研究员和 AI 投资人,这次长达三个多小时的讨论,在全网恐怕都很少见了,有一线 coding agent 设计解读,还有最新鲜热乎的对 o3 实现难点和未来挑战的拆解,你是不是还不知道,在好几个开源项目里,OpenHands 已经超越人类成为最活跃贡献者了?我们还探讨了:
- 为什么说 Devin 展示了“完成工作”的 scaling law?
- 最早引领 coding agent 潮流的 Replit Agent,以及开源 Devin 项目 - Openhands, 是设计中有哪些关键决策?
- Coding agent 未来是 Devin 形态赢家通吃吗?
- 底层模型能力之外,coding agent 应用公司的核心能力和壁垒是什么?
- Coding Agent 对于工程师和未来的组织和社会,会有哪些深远影响?
- 如何看待 o3 超越大部分人类的能力?未来的发展空间在哪里?
理解这次内容需要一些背景知识,非常强烈推荐大家去复习Onboard! EP 62. 与Google deepmind 研究员对o1的讨论,以及EP 53 对coding agent 的第一次探讨,其中一位嘉宾姚顺雨,作为 SWE bench 的提出人,已经加入OpenAI 负责 agent方向的研究。
未来已来,不论你是否已经感知到,这3个小时,绝对值得你的时间。
感谢大家这一年以来的支持,如果喜欢我们的内容,今年最后有机会在小宇宙里面打赏,在Apple podcast, spotify 里面给五星好评啦!我们明年见!Enjoy!
嘉宾介绍
- Yusen Dai,真格基金管理合伙人,聚美优品联合创始人。
- Zhen Li, Replit Agent 核心成员,Replit 资深工程师,ex-字节,Google.
- Xingyao Wang, Allhands AI (开源项目 OpenHands) co-founder & Chief AI Officer, UIUC PhD.
- Binyuan Hui, 阿里巴巴通义实验室科学家
- Cohost: Peak, 真格基金EIR,前猛犸浏览器创始人
- OnBoard! 主持:Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学
我们都聊了什么
- 04:06 嘉宾自我介绍,最近用 coding agent 实现的有意思的任务
- 15:17 投资人视角下,Coding agent 发展历程中的核心节点,为什么说 scale of work 是最令人兴奋的机会
- 22:03 Replit Agent 诞生的历程,发展过程中的关键节点,从1-10 有什么计划
- 36:04 如何看待与Devin 的竞争?未来不同 coding agent 产品形态会融合吗?
- 39:01 OpenHands/All hands AI 不同寻常的诞生故事,打造开源 coding agent 的重要技术和商业决策?
- 41:48 Openhands 的架构设计,与Devin 的异同意味着什么?
- 49:24 Coding agent 与 Anthropic Computer Use 之间的关系?
- 54:35 OpenHands 产品发布以来,社区的主要反馈和重要变化?开源有什么作用?
- 1:04:40 Coding agent 产品的长期竞争力是什么?
- 1:09:20 o3 最让人印象深刻的是什么?对 coding 和AGI 未来有什么影响?
- 1:20:08 解决真实世界的复杂问题,o3 之后还需要什么?
- 1:24:33 SWE bench 被“刷爆”之后,下一个有意义的 benchmark 是什么?
- 1:36:27 Coding agent 领域今年还出现了哪些重要变化?
- 101:33 未来需要怎样的工程师和怎样的组织?
- 1:58:07 如何进一步提高模型 planning 的能力?完成多步骤任务能力如何实现?
- 2:07:45 Agent 的普及会带来哪些底层技术栈和工具的新机会?
- 2:17:25 投资人如何看待 AI agent 的价值和投资机会?未来中国 coding agent 的机会是怎样的?
- 2:25:55 快问快答:未来1年和3年对AI的期望,coding agent 翻车的例子,AI被高估和低估的能力
我们提到的公司和重点词汇
- Cursor
- Cognition labs/Devin
- Replit
- Replit Agent
- OpenHands, github.com; OpenHands 论文: arxiv.org
- VisualWebArena: arxiv.org
- TheAgentCompany: 官网 the-agent-company.com,paper arxiv.org
- OpenAI o3
- OpenAI o1
- Anthropic
- Computer use by Anthropic
- SWE bench
- Windsurf
- Bolt.new
参考文章
- 刚体验了一小时 Devin,这是我第一次见到真正意义上的 A - 即刻App
- Devin和Agent Cursor使用体验对比
- www.latent.space
- Our Problems | Cursor - The AI Code Editor
- More Problems | Cursor - The AI Code Editor
- www.cognition.ai
欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!
M小姐研习录 (ID: MissMStudy)
喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。
最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来!