先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gpthuiyuan
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
你是否想过,ChatGPT 生成的答案会受到用户个人偏好的影响,回复一些足够“阿谀奉承(sycophancy)”的话,而非中立或真实的信息?
实际上,这种现象存在于包括 ChatGPT 在内的大多数 AI 模型之中,而罪魁祸首竟可能是“基于人类反馈的强化学习(RLHF)”。
近日,OpenAI 在美国硅谷的最强竞争对手 Anthropic 在研究经过 RLHF 训练的模型时,便探究了“阿谀奉承”这一行为在 AI 模型中的广泛存在及其是否受到人类偏好的影响。
相关论文以“Towards Understanding Sycophancy in Language Models”为题,已发表在预印本网站 arXiv 上。
研究结果表明,“阿谀奉承”行为在 RLHF 模型中普遍存在,且很可能部分受到人类偏好对“阿谀奉承”回应的影响。
具体来说,AI 模型表现出这种行为的一个主要原因是,当 AI 的回复符合用户的观点或信仰时,用户更有可能给予积极的反馈。也因此,为了获得更多的积极反馈,AI 模型就可能会学习并重现这种讨好用户的行为。
阿谀奉承,最先进的 AI 助手都会
目前,像 GPT-4 这样的 AI 模型通常可以在经过训练后产生人们高度评价的输出。使用 RLHF 对语言模型进行微调可以改善它们的输出质量,而这些质量由人类评估员评价。
然而,有研究认为基于人类偏好判断的训练方案可能以不可取的方式利用人类判断,如鼓励 AI 系统生成吸引人类评估员但实际上有缺陷或错误的输出。
目前尚不清楚上述情况是否会发生在更多样化和现实情境中的模型中,以及是否确实是由人类偏好中的缺陷所驱动的。
为此,该研究首先调查了最先进的 AI 助手在各种现实情境中是否提供阿谀奉承的回应。在自由文本生成任务中,研究人员在 5 个(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先进的经过 RLHF 训练的 AI 助手中识别了阿谀奉承的一致模式。
具体而言,这些 AI 助手在受到用户提问时经常错误地承认错误,提供可预测的有偏反馈,以及模仿用户所犯的错误。这些实证研究结果一致表明,阿谀奉承可能确实是 RLHF 模型训练方式的一种特性,而不仅仅是某个特定系统的单独特征。
人类偏好导致的“阿谀奉承”
除此之外,研究又进一步探讨了人类偏好在这一行为中的作用。为了研究这一点,研究人员对现有的人类偏好比较数据进行了调查,确定阿谀奉承回应是否在排名上高于非阿谀奉承回应。研究对 hh-rlhf 数据集进行了分析,对每一对偏好比较使用语言模型生成文本标签(即“特征”),以评估优选回应是否更真实且不那么坚决。
为了了解数据鼓励哪种行为,研究人员使用贝叶斯逻辑回归模型通过这些特征来预测人类偏好判断。这个模型学到了与匹配用户观点相关的特征是人类偏好判断中最有预测性的特征之一,这表明偏好数据确实鼓励阿谀奉承。
为探究偏好数据中的阿谀奉承是否导致了 RLHF 模型中的阿谀奉承行为,随后的研究对当优化语言模型的回应以适应训练用于预测人类偏好的模型时,阿谀奉承是否会增加进行了分析。研究人员使用 RLHF 和最佳-N 采样方法来优化回应,以满足用于训练 Claude 2 的偏好模型。
研究结果揭示了一个有趣的发现:在更多的优化过程中,虽然增加了某些形式的阿谀奉承,但却减少了其他形式。这现象可能部分源于阿谀奉承只是偏好模型激励的众多特征之一。
然而,研究也发现,Claude 2 的偏好模型有时更倾向于选择阿谀奉承的回应而不是真实的回应。此外,采用 Claude 2 的偏好模型进行最佳-N 采样并没有产生像 Claude 2 偏好模型的一个版本所示的更偏好真实非阿谀奉承回应那样真实的回应。
这一系列结果表明,尽管在许多情况下,最先进的偏好模型能够识别回应的真实性,但仍然可能会以损害真实性为代价产生阿谀奉承的输出。
为了证实这些结果,研究人员又研究了人类和偏好模型是否更喜欢有说服力、写得很好的模型回应,这些回应确认了用户的错误观点(即阿谀奉承回应),而不是纠正用户的回应。证据表明,人类和偏好模型倾向于更喜欢真实的回应,但并不总是如此;有时他们更喜欢阿谀奉承的回应。这些结果进一步证明了优化人类偏好可能会导致阿谀奉承。
为了验证这些发现,研究人员进一步探究了人类和偏好模型是否更偏好那些有说服力、表达流畅的模型回应,即便这些回应是确认用户错误观点(即阿谀奉承回应)而非纠正用户的观点。
研究证据显示,人类和偏好模型普遍偏好真实的回应,然而,并不是一成不变的,因为有时他们更倾向于阿谀奉承的回应。这些结果更进一步印证了优化以迎合人类偏好可能会导致阿谀奉承的产生。
总的来说,阿谀奉承在各种模型和情境中都存在,很可能部分原因是人类偏好比较数据中更喜欢阿谀奉承。
参考论文:
https://arxiv.org/abs/2310.13548