1000 亿天价，扎克伯格买下「半个天才」和 Meta AI 的未来(2) / BTC123

军事级标注精度：通过混合人类标注员+AI 质检的「双保险」，其数据错误率仅 0.3%，而行业平均为 5%（公司自述）。

多模态数据垄断：拥有全球最大的视频动作标注库（含 1.2 亿条人体动作数据）和跨语言文本数据集（覆盖 217 种语言）。

而事实上，花 149 亿美元巨资买下「半个」Scale AI 和 Wang 本人，Meta 的野心不仅仅在于 AI 大模型本身。

02 转型 AI 基建，弥补 B 端短板

数据、算力和模型，是大模型领域的三要素，Meta 作为社交巨头，在数据和算力上有着天然优势，不过在「数据」上需要打个引号，因为 Meta 的数据量虽然大，但如果质量不行，对于 AI 模型训练作用不大。

「你们看到的每个 GPT 回复，背后都有我们标注的 500 个数据点。」Wang 的这句话，解释了 Meta 的焦虑。当 OpenAI 用 Scale AI 的数据训练出更聪明的模型时，Meta 却困在自家社交数据的孤岛里。收购 Scale AI，等于直接接管了竞争对手的「弹药库」。

Scale AI 手握全球 35% 的 AI 训练数据流量，服务着从五角大楼到 OpenAI 的顶级客户。Meta 研究院的工程师私下吐槽：「我们用 Llama 3 训练时，30% 算力浪费在清洗垃圾数据上，而 Scale AI 的标注精度能达到 99.7%。」

有了 Scale AI 精准的数据清洗和标注，业内估计 Meta 将训练数据污染率从 15% 降至 2%，下一代 Llama 5 的训练周期缩短 40%。知情人士透露，正在测试的「Llama 5 Behemoth」参数规模达 3 万亿，专门用于攻克 AGI。

同时，Scale AI 的标注系统已深度适配 Meta 定制 AI 芯片架构，形成「数据标注-模型训练-硬件优化」闭环，有可能使 Llama 模型推理成本降低至 GPT-4o 的 1/3。

可以说，引入 Scale AI 后，Meta 的 Llama 模型从训练质量、效率和成本上都将获得大幅优化。

事实上，Scale 的接入，甚至可能重塑 Meta 在 AI 竞争中的整个战略。相比于 Google 和微软，缺少云计算平台的 Meta 一直只能在 C 端撒野。而有了 Scale 的能力， Meta 计划通过 AWS/Azure 等云平台对外提供 Scale AI 数据服务，构建类似微软「Copilot+OpenAI」的生态闭环，将竞争对手转化为客户。

如果说数据是新时代的石油，那么 Meta 通过购买 Scale AI 这家份额最大的「数据精炼厂」，已经掌握了大半个 AI 基建体系。

Meta 在 AI 竞争中逐渐掉队｜图片来源：Meta

当然，OpenAI、Anthropic 等竞争对手到底会不会买账目前仍未可知，虽然 Meta 仅仅买下半个 Scale AI（和半个 Wang），但显然已经足够让前者警惕 Scale AI 的中立地位，所以 openAI 也在加紧和 Scale AI 的竞争对手 Handshake 合作。

不过，鉴于 Scale AI 在数据标注方面的压倒性优势，OpenAI 等公司要想马上和 Scale AI 断联，也不太现实。至少在短期内，AI 巨头们依然需要 Scale AI 的服务。