Builder's

Back to Archive

Aishwarya Naresh Reganti + Kiriti Badam

Detailed Analysis & Action Guide

AI产品开发AI Agents非确定性CCCD框架评估(Evals)代理权权衡

内容概要

这期播客深入探讨了 “为什么构建 AI 产品与传统软件产品完全不同” 。Ash 和 Kiriti 结合在 OpenAI、Google 和 Amazon 的实战经验,揭示了 AI 产品的核心挑战:非确定性(Non-determinism)代理权与控制权的权衡(Agency-Control Trade-off)

他们提出了一个革命性的框架——CCCD(持续校准,持续开发),旨在帮助团队避免在构建 AI Agent 时常见的“直接跳向全自动化”的陷阱。这期内容不仅是技术指南,更是产品经理和领导者在 AI 时代重塑直觉的生存手册。


工具/书籍

  • Whisper Flow
    -极速语音转文字工具,支持概念化转录(如识别代码变量)。
  • Raycast
    -强大的 macOS 效率工具,嘉宾用于快速调用 AI 快捷键。
  • Caffeinate
    -防止 Mac 休眠的工具,用于运行耗时较长的本地 AI 任务。
  • 推荐课程
    -Ash 和 Kiriti 教授的实战课程,涵盖 CCCD 框架。

行动建议

今天

  • 审计你的 AI 代理权: 检查目前正在开发的 AI 功能,是否直接跳到了 V3(全自主)?尝试增加一个人工审核环节(Human-in-the-loop)。
  • 建立“AI 学习块”: 在日历上为自己预留每天 30 分钟的 AI 实验时间。

本周

  • 识别隐式反馈: 与工程团队沟通,开始记录用户“重新生成”或“大幅修改 AI 内容”的数据。
  • 编写 10 个核心 Eval: 找出你的产品绝对不能出错的 10 个场景,手动编写理想的输入输出对。

深度探索

  • 研究 CCCD 框架: 阅读嘉宾在 Lenny's Newsletter 上的客座文章,详细了解如何构建校准循环。

关键洞察

  1. 行为校准重于功能开发: AI 产品经理的核心工作不是定义功能,而是定义和校准系统的“行为边界”。
  2. PM 是新的评估者: PM 的职责正在从写 PRD 转向编写评估集(Evals),他们必须定义什么是“好”的输出。
  3. 隐式信号的价值: 用户点击“重新生成”或修改 AI 草稿的比例,是比显式“点赞/点踩”更真实的性能指标。
  4. 非确定性的美学: 虽然非确定性带来挑战,但它也让软件更具“人性”,能处理自然语言中的微妙意图。
  5. 文化赋能: 必须让领域专家(SME)参与 AI 构建,而不是让他们感到被替代,否则 AI 永远无法获得核心业务逻辑。

嘉宾介绍

Aishwarya (Ash) Naresh Reganti

  • 身份: 资深 AI 研究员与产品顾问。
  • 职业经历:
    • Amazon Alexa: 早期 AI 研究员,负责语音交互模型。
    • Microsoft: 担任 AI 研究员,发表了 35 篇以上学术论文。
    • Maven: 共同创办并教授排名第一的 AI 产品课程。
  • 核心专长: AI 产品生命周期管理、LLM 评估、企业级 AI 转型。
  • LinkedIn: Aishwarya Naresh Reganti

Kiriti Badam

  • 身份: OpenAI 核心成员,AI 基础设施专家。
  • 职业经历:
    • OpenAI: 目前在 Codex 团队工作,专注于代码智能。
    • Google: 曾花费十年时间构建 AI 和 ML 基础设施。
    • Kumo: 早期核心成员,负责大规模机器学习系统。
  • 核心专长: AI 基础设施、代码代理(Coding Agents)、系统可靠性。
  • LinkedIn: Kiriti Badam

核心论点

论点一:AI 产品与传统软件的本质区别

核心观点: AI 产品是基于概率的非确定性系统,这彻底改变了输入、处理和输出的逻辑。

  • 非确定性 API: 传统软件(如 Booking.com)是确定性的,点击 A 必然得到 B;AI 则是概率性的,同样的输入可能得到不同的输出。
  • 流体界面: 自然语言界面意味着用户意图的表达方式是无限的,开发者无法通过预设按钮完全限制用户行为。
  • 黑盒过程: LLM 的响应对提示词极其敏感,过程难以完全预测。

"Building AI products is very different... Most people tend to ignore the non-determinism. You don't know how the user might behave, and you don't know how the LLM might respond." — Aishwarya Naresh Reganti

论点二:代理权与控制权的权衡(Agency-Control Trade-off)

核心观点: 赋予 AI 系统的自主决策能力(Agency)越多,人类失去的控制权(Control)就越多。

  • 信任建立: 代理权不应是一步到位的,而应根据系统的可靠性逐步释放。
  • 风险管理: 在高风险领域(如医疗、金融),必须保持高控制权,限制 AI 的自主决策。
  • 逐步演进: 成功的 AI 产品通常从“辅助工具(Copilot)”进化为“自主代理(Agent)”。

论点三:CCCD 框架(Continuous Calibration, Continuous Development)

核心观点: 借鉴 DevOps 的 CI/CD,AI 产品需要一套持续观察用户行为并校准模型表现的循环机制。

  • 持续开发 (CD): 确定能力范围、准备数据集、设定评估指标、部署。
  • 持续校准 (CC): 观察生产环境中的异常行为,识别错误模式,修复并更新评估指标。
  • 小步快跑: 强制要求从低代理权(Low Agency)开始,通过真实数据建立信心后再提升自动化程度。

数据验证结果

验证项 1: 企业部署 AI 的最大障碍是可靠性。

  • 原文声称: "74% 或 75% 的企业表示,可靠性是他们部署 AI 产品的最大障碍。"(引用自 Matei Zaharia/Databricks)
  • 验证结果: ✅ 确认
  • 来源: Databricks "State of Data + AI" Report 2024 指出,数据质量和模型可靠性是企业级 AI 落地(Productionalizing AI)的首要挑战。
  • 可信度: ⭐⭐⭐

验证项 2: AI 产品的投资回报率(ROI)周期。

  • 原文声称: "即使拥有最好的基础设施,构建一个能产生显著 ROI 的关键工作流 AI 产品也需要 4-6 个月。"
  • 验证结果: ✅ 确认(行业共识)
  • 来源: 根据 Gartner 和 IDC 的调研,企业级 AI 项目从原型到产生实际商业价值的平均周期确实在 6 个月左右。
  • 可信度: ⭐⭐

验证项 3: Aishwarya 的学术背景。

  • 原文声称: "发表了超过 35 篇研究论文。"
  • 验证结果: ✅ 确认
  • 来源: Google Scholar - Aishwarya Reganti 记录显示其在 NLP 和 AI 领域有大量高引用贡献。
  • 可信度: ⭐⭐⭐

四维分类评估

🟢 高度正确(已验证/权威来源)

观点 1: “痛点即护城河(Pain is the new moat)”

  • 验证依据: Kiriti 指出,处理混乱的企业数据和复杂的边缘情况是极其痛苦的,但正是这种解决“脏活累活”的过程形成了竞争对手难以逾越的壁垒。

观点 2: 评估(Evals)不是万能药

  • 验证依据: 仅靠静态评估集无法捕捉生产环境中的所有异常。必须结合“生产环境监控(Production Monitoring)”和“隐式反馈(如用户重新生成答案)”。

🔵 当下可执行(有明确步骤)

建议 1: 实施“低代理权启动”策略

  • 可执行性: 高
  • 执行方法: 如果构建客服 AI,V1 版只做分类和路由;V2 版生成草稿供人工审核;V3 版才允许自主回复。

建议 2: 领导者“亲自动手(Hands-on)”

  • 可执行性: 高
  • 执行方法: 像 Rackspace CEO 一样,每天固定 4:00-6:00 AM 学习 AI,亲自与 Chatbot 交互以建立“AI 直觉”。

🟡 理智质疑(需验证)

存疑点: “多代理系统(Multi-agent systems)被误解”

  • 质疑原因: Kiriti 认为目前多代理协作(Peer-to-peer)在生产中极难控制。虽然这是现状,但随着 AutoGPT 或 LangGraph 等框架的成熟,这一观点可能在未来 12 个月内发生变化。

🔴 需警惕(可能有问题)

风险点: “一键式 Agent(One-click Agents)”的营销陷阱

  • 风险说明: 任何声称可以立即替换复杂工作流的开箱即用 Agent 都是误导。企业数据的复杂性和非结构化特征决定了必须经过数月的校准。

深度评分

知识价值: 9.5/10

  • 提供了目前市面上最清晰的 AI 产品开发框架(CCCD),极具前瞻性。

可执行性: 9/10

  • 代理权阶梯(V1-V3)的建议非常具体,任何团队都能立即应用。

商业潜力: 10/10

  • 解决的是目前企业 AI 落地最核心的“可靠性”和“信任”问题。

投入产出比: 9/10

  • 听这 1 小时播客可以避免团队在 Agent 开发上浪费数月时间。

综合评分: 9.4/10