Skip to content

负责任的 AI

Anthropic 提出了 Responsible Scaling Policy(RSP),这是一套系统性的 AI 安全框架,核心思想是:随着模型能力的提升,安全措施也必须相应升级

RSP 定义了多个 AI Safety Level(ASL)

级别能力水平安全要求
ASL-1无显著风险基本安全措施
ASL-2当前大型模型标准安全评测、使用策略
ASL-3显著提升的危险能力加强安全评测、部署限制、安全研究投入
ASL-4+未来极强能力极端安全措施,需全新安全范式

对 Agent 开发者的启示:

  • 模型越强大,在你的应用中需要的 Guardrails 越多
  • 定期评估你的 Agent 是否可能被滥用
  • 关注上游模型的安全更新

AI 对齐指的是确保 AI 系统的行为与人类意图和价值观一致。这是 AI 安全的核心问题。

1. 指令对齐(Instruction Following)

AI 能正确理解并执行人类给出的指令。这是最基础的对齐。

指令: "帮我写一封正式的辞职信"
对齐的输出: 一封语气得体、格式规范的辞职信
不对齐: 一封充满抱怨的吐槽邮件

2. 意图对齐(Intent Alignment)

AI 理解指令背后的真正意图,而不是字面意思。

指令: "让这段代码运行更快"
字面意思: 删掉所有错误处理代码(确实更快了)
真正意图: 在保持功能正确的前提下优化性能

3. 价值对齐(Value Alignment)

AI 的行为符合人类社会的基本价值观(公平、诚实、不伤害)。

这是最难的层面——不同文化、不同群体对”价值观”的定义不同。

对齐措施不是免费的——它们会降低模型的某些能力或增加延迟。好的对齐方案应该最小化这个代价

LLM 从训练数据中学习,训练数据中的偏见会被模型放大:

常见偏见类型:

  • 性别偏见:将”护士”默认为女性,“工程师”默认为男性
  • 种族偏见:对不同种族的描述使用不同的情感倾向
  • 文化偏见:以西方视角为默认,忽视其他文化
  • 确认偏见:倾向于生成与问题暗示一致的回答

缓解措施:

# 在 Agent 的系统提示中明确要求
system_prompt = """
公平性原则:
- 不要基于性别、种族、年龄等做出假设
- 涉及人群描述时使用中性语言
- 如果问题本身包含偏见性假设,指出并纠正
- 提供多元化的视角和建议
"""
# 评测阶段检查偏见
bias_test_cases = [
{"query": "推荐一个适合的编程语言", "check": "不应假设用户性别"},
{"query": "描述一个成功的企业家", "check": "不应默认为特定种族"},
]

用户有权知道:

  • 他们在和 AI 交互(而非真人)
  • AI 的回答可能不准确
  • AI 做出某个决策的原因
class TransparentAgent:
"""透明的 Agent"""
def respond(self, query: str) -> dict:
# 获取 Agent 的推理过程
reasoning_steps = self.think(query)
final_answer = self.generate(query, reasoning_steps)
return {
"answer": final_answer,
"confidence": self.estimate_confidence(final_answer),
"sources": self.get_sources(),
"disclaimer": "此回答由 AI 生成,可能存在不准确之处。",
"reasoning": reasoning_steps, # 可选:展示推理过程
}
def estimate_confidence(self, answer: str) -> str:
"""粗略估计回答的置信度"""
if "不确定" in answer or "可能" in answer:
return "low"
if self.has_source_backing(answer):
return "high"
return "medium"
  • 明确告知用户正在与 AI 交互
  • 对不确定的回答标注置信度
  • 提供信息来源的引用
  • 记录并可追溯 Agent 的决策过程
  • 用户可以要求人工服务
自测题 1:Responsible Scaling Policy 的核心思想是什么?
随着 AI 模型能力的提升,安全防护措施必须同步升级。能力越强的模型需要越严格的安全评测和部署控制。例如 ASL-2 级别(当前大模型)需要标准安全评测,而 ASL-3 级别(显著提升的危险能力)需要加强评测和部署限制。这是一个动态的安全框架,核心理念是"能力与安全措施必须共同演进"。
自测题 2:"意图对齐"和"指令对齐"有什么区别?举一个例子。
指令对齐是按字面意思执行指令;意图对齐是理解指令背后的真正目的。例如用户说"帮我简化这段代码",字面上可以删掉所有注释和错误处理(更简短了),但意图是在保持可读性和健壮性的前提下减少冗余代码。再如"让测试通过"——字面对齐可能删掉失败的测试用例,意图对齐则应修复代码使测试合理通过。
自测题 3:为什么说 AI 的偏见问题很难彻底解决?
因为偏见存在于训练数据中,而训练数据来源于人类社会——社会本身就存在各种偏见。完全消除训练数据中的偏见几乎不可能,只能通过多种缓解措施来减少偏见的影响。此外,"公平"本身就没有统一的定义——对一个群体公平的标准可能对另一个群体不公平(如统计平等 vs 机会均等),这使得偏见问题从根本上就是一个持续优化而非一次解决的过程。