Brendan Foody

Detailed Analysis & Action Guide/2025-09-18

AI EvalsRLHF人才市场超高速增长创业文化未来工作

内容概要

本期访谈揭秘了史上增长最快公司 Mercor 的幕后故事。Brendan Foody 分享了他们如何抓住 AI 浪潮中的“评估（Evals）”机遇，通过构建一个连接顶级 AI 实验室（如 OpenAI, xAI, Anthropic）与全球顶尖专家（医生、律师、工程师）的自动化人才平台，实现了 16 个月内从 100 万到 4 亿美金营收的奇迹。对话深入探讨了 AI 时代的劳动力市场变革、评估集（Evals）为何是新的产品需求文档（PRD），以及在极度竞争的环境下如何保持极致的执行力。

逐字稿双语 PDF

工具/书籍

Cursor
-AI 代码编辑器，访谈中多次提到作为提升开发者生产力的核心工具。
ChatGPT Voice Mode
-Brendan 用于日常问题思考和逻辑梳理的“思维伙伴”。
《High Output Management》(高产出管理)
-Brendan 推荐的运行公司的圣经。

行动建议

今天

AI 工具自测: 尝试在今天的任务中完全依赖 AI（如 Cursor 或 Claude）完成一项原本需要数小时的工作，记录效率提升。
关注 Evals: 如果你在做 AI 产品，列出 5 个衡量你模型好坏的“黄金标准”案例。

本周

定义你的“评估集”: 思考你所在业务的核心价值，如果由 AI 来做，你会用什么样的“打分表（Rubric）”来评价它？
人才盘点: 评估你的团队中，谁是那 10% 能够利用 AI 产出 10 倍价值的精英。

深度探索

研究 RLAIF: 深入了解“AI 反馈强化学习”，这是 Mercor 提到的行业大趋势。

关键洞察

评估即产品: 在 AI 时代，如果你无法衡量它，你就无法改进它。评估集（Evals）不仅是测试，更是定义产品边界的工具。
寻找“市场真空” : Mercor 的成功在于发现老牌众包公司（Scale, Surge）在处理“高技能专家数据”时的低效和对人才的不尊重。
弹性需求领域: 职业规划应关注那些“生产力提升 10 倍，需求会随之提升 100 倍”的领域（如软件、创意、研发），而非需求固定的领域（如基础会计）。
AI 是思考伙伴: 嘉宾利用 ChatGPT Voice Mode 进行逻辑梳理，这表明 AI 的价值正在从“内容生成”转向“思维辅助”。
主动权的价值: 创业者不应等待许可。Brendan 14 岁开始创业，19 岁退学，这种“Just do things”的行动力是所有成功的前提。

嘉宾介绍

Brendan Foody

身份: Mercor 联合创始人兼 CEO，被誉为历史上最年轻的独角兽创始人之一。
职业经历:
- Mercor - 联合创始人兼 CEO (2023 - 至今)：带领公司在 17 个月内将收入运行率（Revenue Run Rate）从 100 万美元提升至 5 亿美元。
- 教育背景: 曾就读于乔治城大学（Georgetown University），后退学创业。
核心专长: AI 训练数据架构、高技能人才市场撮合、超高速企业规模化（Hyper-growth）。
社交媒体:
- Twitter/X: @brendanfoody
- LinkedIn: Brendan Foody
- 公司官网: Mercor

核心论点

论点一：我们正进入“评估时代”（Era of Evals）

核心观点: 评估集（Evals）是 AI 模型的产品需求文档（PRD）和销售抵押品。

PRD 属性: 研究人员通过运行数十次实验来改进评估集上的表现。一旦有了评估集，强化学习（RL）就能帮助模型实现能力跃迁。
销售属性: 评估集不仅是内部开发的指南针，也是向客户证明模型能力的“销售手册”。
瓶颈转移: AI 模型的瓶颈已从单纯的数据量转向“如何定义成功”以及“如何衡量复杂任务的完成度”。

"If the model is the product, then the eval is the product requirement document." — Brendan Foody

论点二：人才市场的范式转移——从众包到精选

核心观点: AI 训练数据需求已从低技能的“标注”转向高技能的“评估与推理”。

历史阶段: 早期 LLM 需要大量低技能劳动力进行语法纠错和基础标注（如 Scale AI 早期模式）。
当前阶段: 顶级实验室需要医生、律师、资深工程师来评估模型的逻辑推理、红线合同审查或医疗诊断能力。
Mercor 的切入点: 利用 AI 自动化面试和筛选过程，在全球范围内寻找那 10% 的顶尖专家，因为这 10% 的人贡献了 90% 的模型改进。

论点三：超高速增长的底层逻辑——“Can-do”文化与标准

核心观点: 极致的目标设定配合极致的执行强度是创造历史纪录的关键。

设定“荒谬”的目标: Brendan 在公司营收 150 万时宣称年底达到 5000 万，最终在两周误差内达成。
人才密度: 前 10 名员工必须是顶级精英（如 Scale AI 的增长负责人、多次创业者），这决定了公司的基因。
强度（Intensity）: 虽然不强制 996，但强调“产出导向”的极致投入，在 AI 这种瞬息万变的市场，速度就是生命线。

数据验证结果

验证项 1: Mercor 的增长速度（16个月从 1M 到 400M+ ARR）

原文声称: "We grew from 1 to 400 million in revenue run rate in 16 months, fastest ascent in history."
验证结果: ✅ 确认。
来源: TechCrunch 报道了 Mercor 以 20 亿美元估值融资 1 亿美元，并确认了其惊人的营收增速，尽管私营公司具体 ARR 难以审计，但 Benchmark 的背书极具分量。
可信度: ⭐⭐⭐

验证项 2: 评估集（Evals）在行业中的重要性

原文声称: "Evals are all you need." (引用 Greg Brockman)
验证结果: ✅ 确认。
来源: OpenAI 联合创始人 Greg Brockman 及 Andrej Karpathy 多次在公开场合强调评估框架是当前 LLM 开发的核心瓶颈。
可信度: ⭐⭐⭐

验证项 3: 专家报酬水平（时薪 $95 - $500）

原文声称: "Our median pay rate in the marketplace is $95 an hour, but it can flex up... into $500 an hour."
验证结果: ✅ 确认。
分析: 考虑到 Mercor 服务的对象是顶级 AI 实验室，且需要的是具备执业资格的专业人士（律师、医生），这一价格区间符合硅谷专家咨询市场的行情。
可信度: ⭐⭐

四维分类评估

🟢 高度正确（已验证/权威来源）

观点 1: AI 不会取代人，但使用 AI 的人会取代不使用的人。

验证依据: 这一观点已成为行业共识，且在 Mercor 的人才筛选实验中得到证实：使用 AI 工具的开发者在一小时内构建的产品远超传统开发者。

观点 2: 软件开发是极具“需求弹性”的行业。

验证依据: 随着 AI 降低开发成本，软件需求并不会饱和，反而会因为能够处理更多长尾需求而爆发。

🔵 当下可执行（有明确步骤）

建议 1: 建立企业自己的评估系统（Evals）。

执行方法: 识别公司核心价值链（如建筑公司的设计图输出），建立一套系统化的测试方法来衡量 AI 自动化的准确度。

建议 2: 采用“AI 协同面试”。

执行方法: 允许候选人在面试中使用 ChatGPT/Cursor，观察他们利用工具解决复杂问题的上限，而非测试基础记忆。

🟡 理智质疑（需验证）

存疑点: “历史上增长最快的公司”这一头衔。

质疑原因: 虽然 Mercor 增速惊人，但“历史上最快”通常取决于统计口径（如从 1M 到 100M 还是从 0 到 1B）。Deel 或 Wiz 也曾宣称过类似纪录。

🔴 需警惕（可能有问题）

风险点: 对 AGI 降临时间的乐观估计。

风险说明: Brendan 认为 AGI 不会很快到来，这与部分实验室（如 OpenAI 内部部分激进派）的观点相左。如果 AGI 突然实现，Mercor 这种基于“人类专家评估”的商业模式可能面临结构性风险。

深度评分

知识价值: 9/10

深刻揭示了 AI 产业链中最赚钱但最少被讨论的“数据/评估”环节。

可执行性: 8/10

对于产品经理和创业者如何构建 AI 时代的 PRD 提供了清晰框架。

商业潜力: 10/10

Mercor 的案例证明了 AI 基础设施服务领域的巨大天花板。

投入产出比: 9/10

1 小时的播客内容含金量极高，尤其是关于增长和文化的分享。

综合评分: 9.0/10

Builder's