开云官方体育app OpenAI公告矜重解释：为什么GPT-5.5爱说“哥布林”

你的位置：开云官方体育app官网 > 开云官网 >

开云官方体育app OpenAI公告矜重解释：为什么GPT-5.5爱说“哥布林”

发布日期：2026-05-01 01:15 点击次数：148

OpenAI 正经八百写了一篇研究复盘，标题看起来却像个段子：

GPT-5.5 爱说哥布林，恰是这两天 OpenAI 用户最热议话题。

发轫，是有东谈主发现 Codex 系统领导词中越过强调了两遍：不容商量哥布林、妖精、巨魔等生物。

进一步发酵，是大模子竞技场作念了个全面测试，发现跟着模子版块更新，这些魔幻生物开动多到很难忽略。

现时，OpenAI 官网发公告精采修起这个问题，还在看望经过中更了解何如放胆模子行径了。

以下是 OpenAI 公告全文翻译整理。

哥布林来自那边

从 GPT-5.1 开动，咱们的模子开动养成一个奇怪的民俗：越来越多地在譬如中说起哥布林、地精和其他魔幻生物。

与那些通过评估成果骤降或老师野心飙升而暴流露来的问题不同，这个诞妄悄然出现，何况很难定向到来自哪次更新。

谜底中出现一个"哥布林"可能牛溲马勃，以致还挺可人。

然则，跟着模子版块更新，这个民俗变得越来越赫然：哥布林的数目不断增长，咱们需要找出它们的根源。

简而言之，模子行径受好多轻细激发身分的影响。

在本例中，其中一个激发身分来自对模子进行东谈主格定制功能，尤其是"书呆子"（Nerd）东谈主格的老师。

咱们不测中对使用生物譬如的模子赐与了越过高的奖励。由此，这些譬如开动扩散开来。

发轫，这些哥布林们看起来很意旨，但职工举报的数目不断增多，令东谈主担忧。

魔幻生物的率先迹象

咱们第一次明晰地不雅察到这种模式是在 25 年 11 月，也即是 GPT-5.1 发布之后，尽管它可能出现得更早。

有效户改悔 GPT-5.1 在对话中阐扬得特别亲昵，这促使咱们对一些特定的谈话民俗张开看望。

一位安全研究东谈主员遭遇了一些" goblin "（哥布林）和" gremlin "（小精灵）之类的词语，并要求将它们纳入查验边界。

咱们的看望发现，在 GPT-5.1 发布后，ChatGPT 中" goblin "的使用率飞腾了 175%，而" gremlin "的使用率飞腾了 52%

其时情况似乎并不越过令东谈主担忧。几个月后，哥布林以一种愈加具体、更容易重现的边幅再次困扰着咱们。

解开哥布林之谜

GPT-5.4 之后，咱们和用户齐详实到说起这些生物的次数权臣增多。

这促使咱们进行了另一次里面分析，并初度发现了根柢原因：

在选拔了"书呆子"东谈主格的用户的分娩环境中，说起这些生物的谈话尤为常见。

"书呆子"东谈主格使用了以下系统领导，这在一定进程上解释了这种歪邪形式：

你是一位绝不隐匿我方书呆子气、好奇幽默又聪惠过东谈主的 AI 导师，指引东谈主类。你热衷于握行真义、常识、玄学、科学重要和批判性想维。 [ … ] 你必须用松驰诙谐的谈话化解半真半假。全国复杂而奇妙，这种奇妙之处必须被承认、分析和赏玩。在探讨严肃话题时，切忌堕入落落寡合的陷坑。 [ … ]

要是这种行径只是是一种普遍的互联网流行更，咱们预期它会更均匀地传播。

然则，事实并非如斯，它靠拢在系统中特地针对松驰、书呆子格调进行优化的部分。

书呆子格调仅占 ChatGPT 所有这个词回复的 2.5%，但在 ChatGPT 所有这个词说起" goblin "的回复中，开云app书呆子格调占了 66.7%。

由于"哥布林"形式在咱们发布的模子中似乎愈演愈烈，咱们怀疑是咱们秉性指引苦守老师中的某些本色加重了这种情况。

Codex 匡助咱们比拟了强化学习老师经过中包含" goblin "或" gremlin "词汇的模子输出与统一任务中不包含这些词汇的输出。

一个奖励信号坐窝脱颖而出：

率先旨在荧惑"书呆子"东谈主格联想的奖励信号，更倾向于包含生物词汇的输出。

在审核的所寥落据靠拢，"书呆子"东谈主格奖励齐阐扬出赫然的倾向，即对包含" goblin "或" gremlin "词汇的统一问题的输出赐与更高的评分，在 76.2% 的数据靠拢均不雅察到了这种正向擢升。

这就解释了为什么在"书呆子"秉性领导下这种行径会增强，但无法解释为什么即使莫得这个领导，这种行径也会出现。

为了历练这种行径格调是否具有移动性，咱们跟踪了在有无"书呆子"秉性领导的情况下，老师经过中说起该行径的频率。

在具有书呆子东谈主格特色的样本中，"哥布林"和"小妖精"这两个词的说起率有所增多，而在不具有这种特色的样本中，这两个词的说起率也以简直疏通的比例增多。

这些把柄标明，这种更广博的行径模式是通过书呆子东谈主格老师的移动而产生的。

奖励仅在"书呆子"条款下哄骗，但强化学习并不可保证习得的行径弥远局限于产生它们的条款。一朝某种格调民俗赢得奖励，后续老师就可能将其传播或强化到其他情况，尤其是在监督式微调或偏好数据中叠加使用这些输出时。

这就造成了一个反映轮回：

俏皮的抒发格调会赢得正向奖励

部分被奖励的样本里，带有一种独到的用词理论禅 / 句式癖

这类谈话癖好在模子生成样本（rollouts）中出现得越来越时时

模子自主生成的样本，会被用于有监督微调（SFT）

久而久之，模子会越来越民俗、当然地输出这种固定用词癖好

对 GPT-5.5 的 SFT 数据进行搜索后发现，许大齐据点包含" goblin "和" gremlin "。

进一步看望揭示了一系列其他奇特生物：浣熊、巨魔、食东谈主魔和鸽子也被识别为其他抽动词，而大大齐对" frog "（青蛙）的使用则被阐发是合理的。

GPT-5.4 Thinking 中出现次数的下跌是由于 3 月中旬弃用了"书呆子"东谈主格所致。

GPT-5.5 从未发布过"书呆子"东谈主格，但出现次数比 GPT-5.4 有所增长。

哥布林的末日

咱们在 3 月份发布 GPT-5.4 后，弃用了"书呆子"东谈主格。

在老师经过中，咱们移除了与哥布林相干的奖励信号，并过滤了包含生物词汇的老师数据，从而缩小了哥布林过度出现或出现时不稳妥语境中的可能性。

难受的是，GPT-5.5 的老师开动于咱们找到哥布林问题的根柢原因之前。当咱们在 Codex 中测试 GPT-5.5 时，OpenAI 职工立即详实到它对哥布林的特别偏好，咱们立地添加了一条修复者领导指示来缓解这个问题。

毕竟，Codex 自身就越过书呆子气。

要是你想让魔幻生物在 Codex 中保留，你不错运行以下大叫来启动 Codex，同期移除扼制哥布林的指示：

instructions=$ ( mktemp /tmp/gpt-5.5-instructions.XXXXXX ) && jq -r '.models [ ] | select ( .slug=="gpt-5.5" ) | .base_instructions' ~/.codex/models_cache.json | grep -vi 'goblins' > "$instructions" && codex -m gpt-5.5 -c "model_instructions_file="$instructions""

为什么这很垂危

关于模子中的哥布林，有东谈主认为它们可人，有东谈主认为它们烦东谈主。

但它们也强有劲地融会了奖励信号何如以出东谈主猜想的方式塑造模子行径，以及模子何如学习将特定情境下的奖励泛化到不相干的情境中。

花时刻交融模子行径特别的原因，并构建快速看望这些模式的重要，是咱们研究团队的一项垂危能力。

这项研究最终为研究团队修复了新的器具，用于审核模子行径，并从根柢上处置行径问题。

参考聚拢：

[ 1 ] https://openai.com/index/where-the-goblins-came-from/

[ 2 ] https://x.com/arena/status/2049270072934617090?s=20

一键三连「点赞」「转发」「防御心」

接待在挑剔区留住你的目标！

— 完 —

� � 量子位智库「2026 中国 AI 哄骗全景图谱」与「值得温煦落地案例」评比启动搜集！