Patrick:现在越来越多创始人和各种人都会带AI参加会议,所以很多会议和交流都会被录音,供AI学习。非常有趣。
Jacob:我们可以把自己的会议转录拿来给AI给我们打分排名。
Patrick:哈哈!
Jacob:前提是我能排在前面。
Patrick:你怎么看现在的数据标注市场?不同玩家如何区分?ScaleAI似乎遥遥领先,但现在又有很多新玩家,你怎么看这个格局?
Brendan:我认为大多数人不了解数据标注和评估市场的关键变化。市场和两年前完全不同。以前模型不够好,很容易被难倒,经常出错。高中生或大学生就能做很多标注或评测,通过众包方式做大规模数据收集,比如SFT(监督微调)、RHF(人类反馈强化学习),选择不同的偏好选项。
但随着模型变得很强,众包模式失效了,因为你需要高质量人才直接和研究员配合,帮助他们理解模型表现好或不好的原因,设计复杂数据来难倒模型,反映现实世界要自动化的难题。我们的平台正好能快速招到这些高质量人才。
这让我们迅速发展,与大实验室合作。我认为这个趋势会继续。那些还停留在大规模众包的公司会遇到很多麻烦,新的玩家会聚焦高质量人才,继续抢占市场份额。
Patrick:你觉得数据标注流程里对人类的需求会一直存在吗?模型越来越强,甚至能训练小模型,你怎么看未来的演变?
Brendan:我的看法是,只要经济中还有人类能做、模型还不会做的事情,我们就需要创造或模拟环境让模型去学习。所以有些领域会很快被攻克,比如数学或代码,数据量小且易验证,模型很快能解决。但有些领域很开放,比如评估好创始人,或者很多知识型工作,本质上是开放性难题,难以验证什么是好,需要把人类的理解输入模型。这就是为什么我预计人类数据(注:human data,通常指直接从人类或关于人类收集的数据)和评估市场会有数量级增长。
Jacob:如果我理解没错,你们最初的“套利点”和公司灵感就是全球各地有优秀的程序员,但他们无法获得某些工作的机会,这对编程数据来说非常重要。你们显然已经扩展到其他领域,比如编程本身是个完美的强化学习和评估用例,你们在进入这些更模糊的领域、招聘相关人才时,有哪些需要改变或改进的地方?
Brendan:我认为,借鉴人类手动做事的启发式方法是很好的做法。例如,如果你想自动化顾问的工作,怎么评估顾问?那就给他们案例研究,也许是和他们背景相关的案例。
Jacob:你们团队的人可能都很擅长评估程序员,但如果要让医生加入平台,你们怎么知道该用什么启发式来评估医生?
Brendan:你提到的这个点很有意思,就是当进入超出机器学习团队能力范围的领域时,就需要专家。我们需要医生来帮助我们设计医生的评估和评测标准,其他领域也一样。同样,这也是研究员需要做的事情。比如做看高中物理题还容易判断哪个答案对,但如果是博士级化学题,研究员没有相关学历就很难理解和改进评测。所以这也是你之前问的评估大变化之一——无论是评估人才还是研究员评估模型,都将变成更协作的过程,需要和专家一起合作,帮助模型进步。
