军事级标注精度:通过混合人类标注员+AI 质检的「双保险」,其数据错误率仅 0.3%,而行业平均为 5%(公司自述)。
多模态数据垄断:拥有全球最大的视频动作标注库(含 1.2 亿条人体动作数据)和跨语言文本数据集(覆盖 217 种语言)。
而事实上,花 149 亿美元巨资买下「半个」Scale AI 和 Wang 本人,Meta 的野心不仅仅在于 AI 大模型本身。
02 转型 AI 基建,弥补 B 端短板数据、算力和模型,是大模型领域的三要素,Meta 作为社交巨头,在数据和算力上有着天然优势,不过在「数据」上需要打个引号,因为 Meta 的数据量虽然大,但如果质量不行,对于 AI 模型训练作用不大。
「 你们看到的每个 GPT 回复,背后都有我们标注的 500 个数据点 。」Wang 的这句话,解释了 Meta 的焦虑。当 OpenAI 用 Scale AI 的数据训练出更聪明的模型时,Meta 却困在自家社交数据的孤岛里。收购 Scale AI,等于直接接管了竞争对手的「弹药库」。
Scale AI 手握全球 35% 的 AI 训练数据流量,服务着从五角大楼到 OpenAI 的顶级客户。Meta 研究院的工程师私下吐槽:「我们用 Llama 3 训练时,30% 算力浪费在清洗垃圾数据上,而 Scale AI 的标注精度能达到 99.7%。」
有了 Scale AI 精准的数据清洗和标注,业内估计 Meta 将训练数据污染率从 15% 降至 2%,下一代 Llama 5 的训练周期缩短 40%。知情人士透露,正在测试的「Llama 5 Behemoth」参数规模达 3 万亿,专门用于攻克 AGI。
同时,Scale AI 的标注系统已深度适配 Meta 定制 AI 芯片架构,形成「数据标注-模型训练-硬件优化」闭环,有可能使 Llama 模型推理成本降低至 GPT-4o 的 1/3。
可以说,引入 Scale AI 后,Meta 的 Llama 模型从训练质量、效率和成本上都将获得大幅优化。
事实上,Scale 的接入,甚至可能重塑 Meta 在 AI 竞争中的整个战略。相比于 Google 和微软,缺少云计算平台的 Meta 一直只能在 C 端撒野。而有了 Scale 的能力, Meta 计划通过 AWS/Azure 等云平台对外提供 Scale AI 数据服务,构建类似微软「Copilot+OpenAI」的生态闭环,将竞争对手转化为客户 。
如果说数据是新时代的石油,那么 Meta 通过购买 Scale AI 这家份额最大的「数据精炼厂」,已经掌握了大半个 AI 基建体系。

Meta 在 AI 竞争中逐渐掉队|图片来源:Meta
当然,OpenAI、Anthropic 等竞争对手到底会不会买账目前仍未可知,虽然 Meta 仅仅买下半个 Scale AI(和半个 Wang),但显然已经足够让前者警惕 Scale AI 的中立地位,所以 openAI 也在加紧和 Scale AI 的竞争对手 Handshake 合作。
不过,鉴于 Scale AI 在数据标注方面的压倒性优势,OpenAI 等公司要想马上和 Scale AI 断联,也不太现实。至少在短期内,AI 巨头们依然需要 Scale AI 的服务。
