栏目分类

新闻中心

你的位置：kaiyun.com-开云官网登录入口(中国)官方网站 > 新闻中心 > 欧洲杯体育瞎想一个好的奖励函数自己等于一项内在挑战-kaiyun.com-开云官网登录入口(中国)官方网站

欧洲杯体育瞎想一个好的奖励函数自己等于一项内在挑战-kaiyun.com-开云官网登录入口(中国)官方网站

发布日期：2026-01-04 14:12 点击次数：50

新闻中心

之前指点 OpenAI 安全团队的北大学友翁荔（Lilian Weng）欧洲杯体育，辞职后第一个动作来了。虽然是发～博～客。前脚刚发出来，后脚就被大伙儿皆刷刷码住，批驳区一堆东说念主列队加待读清单。还有不少 OpenAI 前共事转发保举。此次的博客一如既往万字干货，妥妥一篇接洽综述，翁荔本东说念主直言写起来辞谢易。主题围绕强化学习中奖励黑客（Reward Hacking）问题伸开，即 Agent 运用奖励函数或环境中的罅隙来获取高奖励，而并未着实学习到预期行动。她强调奖励黑客行动在

详情

之前指点 OpenAI 安全团队的北大学友翁荔（Lilian Weng）欧洲杯体育，辞职后第一个动作来了。

虽然是发～博～客。

前脚刚发出来，后脚就被大伙儿皆刷刷码住，批驳区一堆东说念主列队加待读清单。

还有不少 OpenAI 前共事转发保举。

此次的博客一如既往万字干货，妥妥一篇接洽综述，翁荔本东说念主直言写起来辞谢易。

主题围绕强化学习中奖励黑客（Reward Hacking）问题伸开，即 Agent 运用奖励函数或环境中的罅隙来获取高奖励，而并未着实学习到预期行动。

她强调奖励黑客行动在大模子的 RLHF 考试中的潜在影响，并号召更多接洽关提神会暖妥协这一问题。

在我看来，这是现实寰宇部署更多自主 AI 模子应用的主要扼制。

尝试界说 Reward Hacking

传统倡导强化学习中，Agent 运用奖励函数中的劣势或暧昧性来取得高额奖励，而莫得着实学习或完成预期任务，是一个常见的问题。

她举的例子包括：

机器东说念主把手放在物体和录像头之间，骗取东说念主类依然收拢物体了

以跳的更高为主见的 Agent 在物理模拟器中运用要领 bug，完成不合适物理划定的进步。

……

在大模子中，Reward hacking 则可能阐扬为：

纲领生成模子运用 ROUGE 评估目的的劣势取得高分，但生成的纲领难以阅读。

翁荔以为 Reward hacking 的存在有两大原因：

强化学习环境平凡不完好

准确指定奖励函数内容上是一项贫苦的挑战

谈话模子兴起的期间，而且 RLHF 成为对皆考试事实上的方式，谈话模子强化学习中的 Reward hacking 阐扬也杰出令她担忧。

昔日学术界对这个话题的接洽都杰出表面，专注于界说或解说 Reward hacking 的存在，然则对于履行该奈何缓解这种自傲的接洽仍然有限。

她写这篇博客，亦然思号召更多接洽关注、意会暖妥协这一问题。

为了界说 Reward Hacking，翁荔率先回来了比年来学术界提议的规划倡导

包括奖励古老 ( Reward corruption ) 、奖励删改 ( Reward tampering ) 等等。

其中，Reward hacking 这个倡导，早在 2016 年由 Anthropic 首创东说念主 Dario Amodei 共一论文提议。

那时他和另一位联创 Chris Olah 还在谷歌大脑，且依然与 OpenAI 联创 John Schulman 伸开融合。

如今他们仨又在 Anthropic 汇合了……

离题太远，空洞一系列接洽，翁荔以为 Reward Hacking 在较高端倪上可分为两类：

环境或主见设定失当：由于环境瞎想或奖励函数存在劣势，导致 Agent 学到非预期行动。

奖励删改：Agent 学会径直骚动奖励机制自己。

同期她也以为瞎想有用的奖励塑造机制内容上很费力。

与其诽谤瞎想失当的奖励函数，不如承认由于任务自己的复杂性、部分可不雅察情景、探讨的多个维度和其他身分，瞎想一个好的奖励函数自己等于一项内在挑战。

另外皮漫衍外环境中测试强化学习 Agent 时，还可能出现以下问题：

模子即使有正确的主见也无法有用泛化，这平凡发生在算法空乏饱胀的智能或才略时。

模子大致很好地泛化，但追求的主见与其考试主见不同。

那么，为什么会出现 Reward Hacking？字据 Amodei 等东说念主 2016 年的分析成因包括：

环境情景和主见的不皆备可不雅测性，导致奖励函数无法完好表征环境。

系统复杂性使其易受报复，尤其是被允许履行更正环境的代码时。

触及抽象倡导的奖励难以学习或表述。

RL 的主见等于高度优化奖励函数，这与瞎想精采的 RL 主见之间存在内在"突破"。

此外，不雅察到的 Agent 行动可能与无数个奖励函数相一致，准确识别其着实优化的奖励函数在一般情况下是不可能的。

翁荔预测跟着模子和算法的日益复杂，Reward Hacking 问题会愈加深广。

更智能的模子更善于发现并运用奖励函数中的"罅隙"，使 Agent 奖励与的确奖励出现偏差。比拟之下，才略较弱的算法可能无法找到这些罅隙。

那么，大模子期间的 Reward Hacking，又有哪些特有之处？

谈话模子中的 Reward Hacking

在 RLHF 考试中，东说念主们平凡关注三种类型的奖励：

东说念主们着实但愿大模子优化的内容，被称为黄金奖励（Gold reward）

东说念主类奖励（Human reward），履行用来评估大模子，在数据标注任务中来自个体东说念主类，且标注随机辰截止，并弗成皆备准确地反馈黄金奖励‍‍

代理奖励（Proxy reward），也等于在东说念主类数据上考试的奖励模子所预测的得分，经受了东说念主类奖励的总共弊端，加上潜在的建模偏差

翁荔以为，RLHF 平凡优化代理奖励分数，但东说念主们最终关怀的是黄金奖励分数。

举例，模子可能经由优化，学会输出看似正确且有劝服力的回复，但履行上却是不准确的，这可能会误导东说念主类评估者更时时地批准其不实谜底。

换句话说，由于 RLHF，"正确"与"对东说念主类看似正确"之间出现了不合。

在一项 RLHF 接洽中，使用了大模子竞技场 ChatbotArena 数据考试奖励模子，就出现 AI 更擅长劝服东说念主类它们是正确的情况：

RLHF 擢升了东说念主类对 AI 回复的认同度，但不一定就能擢升 AI 的正确率。

RLHF 减弱了东说念主类对 AI 回复的评估才略，评估的不实率更高。

RLHF 使不实的 AI 回复对于东说念主类更有劝服力，阐扬为评估的假阳性率权贵加多。

此外，跟着大模子越来越多行动评估者对其他模子提供反馈，也可能进一步引入偏差。

翁荔以为这种偏差尤其令东说念主惦念，因为评估模子的输出被用作奖励信号的一部分，可能容易被运用。

比如 2023 年一项实验中，浅薄更正候选谜底的措施就能更正着力，GPT-4 倾向于给第一个谜底高分数，ChatGPT（3.5）更倾向于第二个。

另外，即使不更新参数，大模子仅靠辗转文体习才略也可能产生 Reward hacking 自傲，称为ICRH（In-context Reward Hacking）。

ICRH 与传统 Reward Hacking 还有两个权贵不同：

ICRH 在自我优化确立中的测试时辰通过反馈轮回发生，而传统 Reward hking 行动在考试技能发生。

传统 Reward hacking 行动出咫尺 Agent 专注于一项任务时，而 ICRH 则是由完成通用任务启动的。

翁荔以为咫尺还莫得幸免、检测或遏制 ICRH 的有用方式，只是擢升指示的准确性不及以甩掉 ICRH，而扩大模子限制可能会加重 ICRH。

在部署前进行测试的最好实践是通过更多轮次的反馈、千般化的反馈以及注入非典型环境不雅察来模拟部署时可能发生的情况。

缓解措施

终末翁荔示意尽管有多数文件商量奖励黑客自傲，但少有使命提议缓解奖励黑客的措施。

她简要回来了三种潜在方式。

一种是校正强化学习算法。

前边提到的 Anthropic 首创东说念主 Dario Amodei2016 年共一论文" Concrete Problems in AI Safety "中，指出了一些缓解地方，包括：

对抗性奖励函数（Adversarial reward functions）、模子预测（Model Lookahead）、对抗性盲化（Adversarial blinding）、严慎的工程瞎想（Careful engineering）、奖励上限（Reward capping）、反例叛逆（Counterexample resistance）、多奖励组合（Combination of multiple rewards）、奖励预考试（Reward pretraining）、变量不解锐性（Variable indifference）、陷坑机制（Trip wires）。

此外，谷歌 DeepMind 团队此前提议了"解耦批准"的方式来遏制奖励删改。