Builder's

Back to Archive

Brendan Foody

Detailed Analysis & Action Guide/2025-09-18

AI EvalsRLHF人才市场超高速增长创业文化未来工作

内容概要

本期访谈揭秘了史上增长最快公司 Mercor 的幕后故事。Brendan Foody 分享了他们如何抓住 AI 浪潮中的“评估(Evals)”机遇,通过构建一个连接顶级 AI 实验室(如 OpenAI, xAI, Anthropic)与全球顶尖专家(医生、律师、工程师)的自动化人才平台,实现了 16 个月内从 100 万到 4 亿美金营收的奇迹。对话深入探讨了 AI 时代的劳动力市场变革、评估集(Evals)为何是新的产品需求文档(PRD),以及在极度竞争的环境下如何保持极致的执行力。


工具/书籍

行动建议

今天

  • AI 工具自测: 尝试在今天的任务中完全依赖 AI(如 Cursor 或 Claude)完成一项原本需要数小时的工作,记录效率提升。
  • 关注 Evals: 如果你在做 AI 产品,列出 5 个衡量你模型好坏的“黄金标准”案例。

本周

  • 定义你的“评估集”: 思考你所在业务的核心价值,如果由 AI 来做,你会用什么样的“打分表(Rubric)”来评价它?
  • 人才盘点: 评估你的团队中,谁是那 10% 能够利用 AI 产出 10 倍价值的精英。

深度探索

  • 研究 RLAIF: 深入了解“AI 反馈强化学习”,这是 Mercor 提到的行业大趋势。

关键洞察

  1. 评估即产品: 在 AI 时代,如果你无法衡量它,你就无法改进它。评估集(Evals)不仅是测试,更是定义产品边界的工具。
  2. 寻找“市场真空” : Mercor 的成功在于发现老牌众包公司(Scale, Surge)在处理“高技能专家数据”时的低效和对人才的不尊重。
  3. 弹性需求领域: 职业规划应关注那些“生产力提升 10 倍,需求会随之提升 100 倍”的领域(如软件、创意、研发),而非需求固定的领域(如基础会计)。
  4. AI 是思考伙伴: 嘉宾利用 ChatGPT Voice Mode 进行逻辑梳理,这表明 AI 的价值正在从“内容生成”转向“思维辅助”。
  5. 主动权的价值: 创业者不应等待许可。Brendan 14 岁开始创业,19 岁退学,这种“Just do things”的行动力是所有成功的前提。

嘉宾介绍

Brendan Foody

  • 身份: Mercor 联合创始人兼 CEO,被誉为历史上最年轻的独角兽创始人之一。
  • 职业经历:
    • Mercor - 联合创始人兼 CEO (2023 - 至今):带领公司在 17 个月内将收入运行率(Revenue Run Rate)从 100 万美元提升至 5 亿美元。
    • 教育背景: 曾就读于乔治城大学(Georgetown University),后退学创业。
  • 核心专长: AI 训练数据架构、高技能人才市场撮合、超高速企业规模化(Hyper-growth)。
  • 社交媒体:

核心论点

论点一:我们正进入“评估时代”(Era of Evals)

核心观点: 评估集(Evals)是 AI 模型的产品需求文档(PRD)和销售抵押品。

  • PRD 属性: 研究人员通过运行数十次实验来改进评估集上的表现。一旦有了评估集,强化学习(RL)就能帮助模型实现能力跃迁。
  • 销售属性: 评估集不仅是内部开发的指南针,也是向客户证明模型能力的“销售手册”。
  • 瓶颈转移: AI 模型的瓶颈已从单纯的数据量转向“如何定义成功”以及“如何衡量复杂任务的完成度”。

"If the model is the product, then the eval is the product requirement document." — Brendan Foody

论点二:人才市场的范式转移——从众包到精选

核心观点: AI 训练数据需求已从低技能的“标注”转向高技能的“评估与推理”。

  • 历史阶段: 早期 LLM 需要大量低技能劳动力进行语法纠错和基础标注(如 Scale AI 早期模式)。
  • 当前阶段: 顶级实验室需要医生、律师、资深工程师来评估模型的逻辑推理、红线合同审查或医疗诊断能力。
  • Mercor 的切入点: 利用 AI 自动化面试和筛选过程,在全球范围内寻找那 10% 的顶尖专家,因为这 10% 的人贡献了 90% 的模型改进。

论点三:超高速增长的底层逻辑——“Can-do”文化与标准

核心观点: 极致的目标设定配合极致的执行强度是创造历史纪录的关键。

  • 设定“荒谬”的目标: Brendan 在公司营收 150 万时宣称年底达到 5000 万,最终在两周误差内达成。
  • 人才密度: 前 10 名员工必须是顶级精英(如 Scale AI 的增长负责人、多次创业者),这决定了公司的基因。
  • 强度(Intensity): 虽然不强制 996,但强调“产出导向”的极致投入,在 AI 这种瞬息万变的市场,速度就是生命线。

数据验证结果

验证项 1: Mercor 的增长速度(16个月从 1M 到 400M+ ARR)

  • 原文声称: "We grew from 1 to 400 million in revenue run rate in 16 months, fastest ascent in history."
  • 验证结果: ✅ 确认。
  • 来源: TechCrunch 报道了 Mercor 以 20 亿美元估值融资 1 亿美元,并确认了其惊人的营收增速,尽管私营公司具体 ARR 难以审计,但 Benchmark 的背书极具分量。
  • 可信度: ⭐⭐⭐

验证项 2: 评估集(Evals)在行业中的重要性

  • 原文声称: "Evals are all you need." (引用 Greg Brockman)
  • 验证结果: ✅ 确认。
  • 来源: OpenAI 联合创始人 Greg Brockman 及 Andrej Karpathy 多次在公开场合强调评估框架是当前 LLM 开发的核心瓶颈。
  • 可信度: ⭐⭐⭐

验证项 3: 专家报酬水平(时薪 $95 - $500)

  • 原文声称: "Our median pay rate in the marketplace is $95 an hour, but it can flex up... into $500 an hour."
  • 验证结果: ✅ 确认。
  • 分析: 考虑到 Mercor 服务的对象是顶级 AI 实验室,且需要的是具备执业资格的专业人士(律师、医生),这一价格区间符合硅谷专家咨询市场的行情。
  • 可信度: ⭐⭐

四维分类评估

🟢 高度正确(已验证/权威来源)

观点 1: AI 不会取代人,但使用 AI 的人会取代不使用的人。

  • 验证依据: 这一观点已成为行业共识,且在 Mercor 的人才筛选实验中得到证实:使用 AI 工具的开发者在一小时内构建的产品远超传统开发者。

观点 2: 软件开发是极具“需求弹性”的行业。

  • 验证依据: 随着 AI 降低开发成本,软件需求并不会饱和,反而会因为能够处理更多长尾需求而爆发。

🔵 当下可执行(有明确步骤)

建议 1: 建立企业自己的评估系统(Evals)。

  • 执行方法: 识别公司核心价值链(如建筑公司的设计图输出),建立一套系统化的测试方法来衡量 AI 自动化的准确度。

建议 2: 采用“AI 协同面试”。

  • 执行方法: 允许候选人在面试中使用 ChatGPT/Cursor,观察他们利用工具解决复杂问题的上限,而非测试基础记忆。

🟡 理智质疑(需验证)

存疑点: “历史上增长最快的公司”这一头衔。

  • 质疑原因: 虽然 Mercor 增速惊人,但“历史上最快”通常取决于统计口径(如从 1M 到 100M 还是从 0 到 1B)。Deel 或 Wiz 也曾宣称过类似纪录。

🔴 需警惕(可能有问题)

风险点: 对 AGI 降临时间的乐观估计。

  • 风险说明: Brendan 认为 AGI 不会很快到来,这与部分实验室(如 OpenAI 内部部分激进派)的观点相左。如果 AGI 突然实现,Mercor 这种基于“人类专家评估”的商业模式可能面临结构性风险。

深度评分

知识价值: 9/10

  • 深刻揭示了 AI 产业链中最赚钱但最少被讨论的“数据/评估”环节。

可执行性: 8/10

  • 对于产品经理和创业者如何构建 AI 时代的 PRD 提供了清晰框架。

商业潜力: 10/10

  • Mercor 的案例证明了 AI 基础设施服务领域的巨大天花板。

投入产出比: 9/10

  • 1 小时的播客内容含金量极高,尤其是关于增长和文化的分享。

综合评分: 9.0/10