第一个发生分化的就是 Anthropic。因为它比 OpenAI 晚,综合能力没那么强,所以它就专注在 Coding 上。我感觉它摸到了通往 AGI 大方向的第一张大牌,就是 Coding Agent。他们可能认为,通过 Coding 可以实现 AGI,可以带来指令遵循能力和 Agent 能力,这是一个逻辑自洽的闭环。
但 OpenAI 手上的大牌就更多了。第一张是 ChatGPT,Sam Altman 可能想把它做成 10 亿日活的产品。第二张是它的「o」系列模型(GPT-4o 等),预期很高,能带来更多泛化能力。第三张是多模态,它的多模态推理能力上来了,未来在生成上也能体现。所以,Anthropic 摸到了一张大牌,OpenAI 摸到了三张。
另一个大厂是 Google。我觉得到今年年底,Google 可能会在全方位赶上。因为它既有 TPU,又有 Google Cloud,有顶尖的 Gemini 模型,还有 Android 和 Chrome。你在全球找不到第二家拥有所有这些要素,还几乎不依赖外部的公司。Google 端到端能力是非常强的,很多人担心它的广告业务会被颠覆,但我感觉它未来可能会找到新的产品结合方式,从一个信息引擎变成一个任务引擎。
你看苹果,因为没有自己的 AI 能力,现在迭代就很被动。而微软是以开发者见长的,但 Cursor 和 Claude 其实抢了不少开发者的注意力。当然微软的盘子非常稳,有 GitHub 和 VS Code,但它也必须拥有非常强的 AGI 和模型能力。所以你看它也宣布 GitHub 的首选模型之一变成了 Claude,并迭代自己的开发者产品。微软在开发者这块必须守住,否则根基就没了。
所以大家开始分化了。可能 OpenAI 想成为下一个 Google,Anthropic 想成为下一个 Windows(靠 API 活着)。
张鹏:那与 Agent 相关的基础设施(Infra)有哪些变化和机会?
钟凯祺 (Cage):Agent 有几个关键组件。除了模型,第一个就是环境(Environment)。Agent 开发最早期,80% 的问题都出在环境上。像早期的 AutoGPT,要么用 Docker 启动,非常慢,要么直接在本地电脑部署,非常不安全。如果一个 Agent 要和我一起「上班」,我就得给它配一台「电脑」,所以环境的机会就出来了。
配「电脑」有两大需求:
1、虚拟机 / 沙盒:提供一个安全的执行环境。任务做错了能回退,执行过程不能伤害实际环境,并且要能快速启动、稳定运行。像 E2B、Modal Labs 这样的公司都在提供这类产品。
2、浏览器:信息检索是最大需求,Agent 需要到各种网站上爬取信息。传统的爬虫容易被封,所以需要给 Agent 搭一个专用的、能理解信息的浏览器。这就应运而生了像 Browserbase、Browser Use 这样的公司。
第二个组件是上下文(Context)。这包括:
-
信息检索(Retrieval):传统的 RAG 公司还在,但也有新的公司,比如 MemGPT,它为 AI Agent 开发轻量化的记忆和上下文管理工具。
