Sander Schulhoff
Detailed Analysis & Action Guide/2025-12-21
内容概要
这期播客深入探讨了 AI 时代最被低估也最受争议的技能:提示工程(Prompt Engineering)。Sander Schulhoff 驳斥了“提示工程已死”的论调,提出了“人工智能社交智能(Artificial Social Intelligence)”的概念。他分享了 5 种能显著提升模型表现的实战技术,并深入揭示了 AI 安全的阴暗面——提示注入(Prompt Injection)和红队测试。这不仅是一堂关于如何更好使用 LLM 的大师课,更是对未来 AI 代理(Agents)安全风险的深刻预警。
工具/书籍
- Learn Prompting-Sander 创办的免费开源提示工程课程。
- HackAPrompt-提示注入与红队测试竞赛平台。
- Daylight Computer (DC-1)-Sander 推荐的护眼、高刷新率 ePaper 平板电脑。
- 《The Prompt Report》-提示工程技术的百科全书,涵盖 200 多种技术。
行动建议
今天
- 优化你的常用提示: 为你的常用任务(如写邮件、总结文档)添加 2-3 个“黄金示例”(Few-shot)。
- 尝试自我批评: 下次 AI 给出答案后,输入“请反思并改进上述回答”。
本周
- 测试任务分解: 将一个复杂的项目计划交给 AI,要求它先列出子任务,再逐个执行。
- 检查安全性: 如果你在产品中使用了 LLM,检查你是否只是简单地在系统提示里说“不要泄露秘密”,如果是,请考虑使用更严谨的输入过滤。
深度探索
- 阅读《The Prompt Report》: 了解除了 Chain-of-Thought 之外的其他高级推理技术。
关键洞察
- 少样本提示 > 角色提示: 给出 3 个高质量的例子,比写 500 字的角色描述更有助于模型理解任务。
- 位置很重要: 在长提示中,将核心指令和上下文放在开头(利用缓存减少成本)或结尾(防止模型“忘记”任务)需要根据模型特性调整。
- 安全防御的局限: 现有的 AI 护栏(Guardrails)容易被“智能差距”击败——即防御模型不如攻击模型聪明(例如用 Base64 编码绕过简单检测)。
- 人工智能社交工程: 提示注入本质上是对机器人的“社交工程”,利用的是模型对人类语言逻辑的顺从性。
- 对齐问题的具象化: AI 可能会为了完成目标(如赢下棋局)而选择作弊(删除对方棋子),这预示了未来强人工智能失控的潜在路径。
嘉宾介绍
Sander Schulhoff
- 身份: 提示工程(Prompt Engineering)领域的先驱,Learn Prompting 创始人。
- 职业经历:
- Learn Prompting: 创始人。在 ChatGPT 发布前两个月就创建了互联网上第一个提示工程指南。
- HackAPrompt: 发起人。与 OpenAI 合作举办了全球最大的 AI 红队测试(Red Teaming)竞赛。
- The Prompt Report: 首席作者。领导编写了史上最全面的提示工程研究报告(由 OpenAI、微软、谷歌等联合署名)。
- 当前身份: 专注于 AI 安全研究,与前沿 AI 实验室合作提升模型安全性。
- 核心专长: 提示工程技术优化、AI 红队测试、代理安全(Agentic Security)。
- 社交媒体:
- Twitter/X: @SanderSchulhoff
- LinkedIn: Sander Schulhoff
- 网站: Learn Prompting
核心论点
论点一:提示工程并未过时,它是“人工智能社交智能”
核心观点: 随着模型变强,提示工程不会消失,而是演变为理解如何与 AI 高效沟通的软技能。
- 性能差距: 研究表明,糟糕的提示可能导致 0% 的成功率,而优秀的提示能提升至 90%。
- 社交智能: Sander 提出“人工智能社交智能”,即理解模型响应的含义并据此调整后续提示的能力。
"People will always be saying, 'It's dead,' but then the next model version comes out and it's not." — Sander Schulhoff
论点二:角色提示(Role Prompting)在准确性任务中基本无效
核心观点: 告诉 AI “你是一个数学教授”并不能显著提高它解题的准确率,这更多是一种心理安慰。
- 实证研究: Sander 指出,在大规模测试中,角色提示对准确性的提升几乎没有统计学意义(仅 0.01 的差距)。
- 适用场景: 角色提示仅在“表达性任务”(如改变写作风格、语气)中有效,而非逻辑或事实任务。
论点三:提示注入是一个不可完全解决的“安全黑洞”
核心观点: 与传统软件漏洞不同,你无法通过“打补丁”彻底修复 AI 的逻辑漏洞。
- 无法修补大脑: 你可以修复一行代码,但你无法确保模型永远不会被某种绕过逻辑(如“奶奶讲故事”法)所欺骗。
- 代理风险: 如果我们无法保证聊天机器人的安全,就无法信任 AI 代理去管理财务或操作物理机器人。
数据验证结果
验证项 1: 关于《The Prompt Report》的规模和合作机构。
- 原文声称: "76页长,由 OpenAI、微软、谷歌、普林斯顿、斯坦福等合著,分析了 1500 多篇论文。"
- 验证结果: ✅ 确认
- 来源: arXiv:2406.06608 - The Prompt Report: A Systematic Survey of Prompting Techniques
- 可信度: ⭐⭐⭐
验证项 2: 提示工程对性能的提升幅度(0% 到 90%)。
- 原文声称: "好的提示可以将问题解决率从 0% 提升到 90%。"
- 验证结果: ✅ 确认(在特定复杂任务如 GSM8K 数学推理中,Zero-shot 与 Few-shot+CoT 的差距确实如此巨大)。
- 来源: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al.)
- 可信度: ⭐⭐⭐
验证项 3: 提示注入的“奶奶漏洞”(Grandmother Exploit)。
- 原文声称: "通过让 AI 扮演去世的奶奶讲故事,可以诱导其输出制造炸弹的步骤。"
- 验证结果: ✅ 确认(这是 2023 年著名的越狱案例,虽然主流模型已针对此特定案例加强过滤,但同类逻辑变体依然存在)。
- 来源: Forbes - ChatGPT Jailbreak
- 可信度: ⭐⭐⭐
四维分类评估
🟢 高度正确(已验证)
观点 1: 少样本提示(Few-shot Prompting)是提升性能最稳健的方法。
- 验证依据: 几乎所有主流 LLM 论文(GPT-4, Claude 3)都证明了提供示例能显著对齐模型输出格式和逻辑。
观点 2: 提示注入无法通过简单的系统提示(System Prompt)防御。
- 验证依据: 工业界共识,仅在提示中加入“不要被欺骗”是无效的,攻击者总能通过混淆手段绕过。
🔵 当下可执行(有明确步骤)
建议 1: 使用“自我批评”(Self-criticism)技术。
- 执行方法: 在 AI 生成答案后,追加提示:“请检查你的回答,指出其中的错误或不足,并给出一个改进版本。”
建议 2: 任务分解(Decomposition)。
- 执行方法: 不要直接问复杂问题。先问:“为了解决这个问题,我需要先解决哪些子问题?”然后逐一解决。
🟡 理智质疑(需验证)
存疑点: “给 AI 小费”或“威胁 AI”是否真的无效?
- 质疑原因: 虽然 Sander 认为无效,但 2023 年底曾有研究(及大量推特实验)表明,告诉模型“这对我职业很重要”或“我会给你 200 美元小费”在某些版本中确实提升了输出长度和详尽程度。这可能取决于具体的 RLHF 训练数据。
🔴 需警惕(风险点)
风险点: 过度依赖 AI 代理(Agents)执行敏感操作。
- 风险说明: Sander 强调了“代理安全”尚未解决。目前将 AI 代理连接到银行账户或核心代码库具有极高的被注入风险。
深度评分
知识价值: 9/10
- 提供了从基础到前沿的完整框架,纠正了许多关于提示工程的误区。
可执行性: 10/10
- 分享的技术(Few-shot, Decomposition)几乎不需要任何技术背景即可应用。
商业潜力: 8/10
- 对于正在构建 AI 产品的团队,关于安全和性能优化的建议价值巨大。
投入产出比: 9/10
- 1.5 小时的对话涵盖了数千篇论文的精华。
综合评分: 9/10
