对话 AI 招聘平台 Mercor 创始人：AI 将很快主导人才评估环节(5) / BTC123

Patrick：现在越来越多创始人和各种人都会带AI参加会议，所以很多会议和交流都会被录音，供AI学习。非常有趣。

Jacob：我们可以把自己的会议转录拿来给AI给我们打分排名。

Patrick：哈哈！

Jacob：前提是我能排在前面。

Patrick：你怎么看现在的数据标注市场？不同玩家如何区分？ScaleAI似乎遥遥领先，但现在又有很多新玩家，你怎么看这个格局？

Brendan：我认为大多数人不了解数据标注和评估市场的关键变化。市场和两年前完全不同。以前模型不够好，很容易被难倒，经常出错。高中生或大学生就能做很多标注或评测，通过众包方式做大规模数据收集，比如SFT（监督微调）、RHF（人类反馈强化学习），选择不同的偏好选项。

但随着模型变得很强，众包模式失效了，因为你需要高质量人才直接和研究员配合，帮助他们理解模型表现好或不好的原因，设计复杂数据来难倒模型，反映现实世界要自动化的难题。我们的平台正好能快速招到这些高质量人才。

这让我们迅速发展，与大实验室合作。我认为这个趋势会继续。那些还停留在大规模众包的公司会遇到很多麻烦，新的玩家会聚焦高质量人才，继续抢占市场份额。

Patrick：你觉得数据标注流程里对人类的需求会一直存在吗？模型越来越强，甚至能训练小模型，你怎么看未来的演变？

Brendan：我的看法是，只要经济中还有人类能做、模型还不会做的事情，我们就需要创造或模拟环境让模型去学习。所以有些领域会很快被攻克，比如数学或代码，数据量小且易验证，模型很快能解决。但有些领域很开放，比如评估好创始人，或者很多知识型工作，本质上是开放性难题，难以验证什么是好，需要把人类的理解输入模型。这就是为什么我预计人类数据（注：human data，通常指直接从人类或关于人类收集的数据）和评估市场会有数量级增长。

Jacob：如果我理解没错，你们最初的“套利点”和公司灵感就是全球各地有优秀的程序员，但他们无法获得某些工作的机会，这对编程数据来说非常重要。你们显然已经扩展到其他领域，比如编程本身是个完美的强化学习和评估用例，你们在进入这些更模糊的领域、招聘相关人才时，有哪些需要改变或改进的地方？

Brendan：我认为，借鉴人类手动做事的启发式方法是很好的做法。例如，如果你想自动化顾问的工作，怎么评估顾问？那就给他们案例研究，也许是和他们背景相关的案例。

Jacob：你们团队的人可能都很擅长评估程序员，但如果要让医生加入平台，你们怎么知道该用什么启发式来评估医生？

Brendan：你提到的这个点很有意思，就是当进入超出机器学习团队能力范围的领域时，就需要专家。我们需要医生来帮助我们设计医生的评估和评测标准，其他领域也一样。同样，这也是研究员需要做的事情。比如做看高中物理题还容易判断哪个答案对，但如果是博士级化学题，研究员没有相关学历就很难理解和改进评测。所以这也是你之前问的评估大变化之一——无论是评估人才还是研究员评估模型，都将变成更协作的过程，需要和专家一起合作，帮助模型进步。