
重磅!OpenAI打开大模型思考黑盒,用AI解释AI的时代来了
智东西(公众号:zhidxcom)
作者? | ??程茜
编辑? | ? 云鹏
智东西 5 月 10 日报道,今天,OpenAI 官方博客发布新的研究进展,研究人员正在使用 GPT-4 来自动解释 GPT-2 的行为。
当下大型语言模型正在扎堆发布,但对于它背后的思考过程我们知之甚少。而今天,OpenAI 正在打开大型语言模型的思考 " 黑盒 ",让 AI 被自己解释!
这一技术的具体实现方式是,研究人员先给定 GPT-2 一个主题,并让其生成文本序列,再用 GPT-4 解释 GPT-2 生成的内容,再通过 GPT-4 模拟 GPT-2 的下一步操作,最后将 GPT-4 模拟生成的和 GPT-2 实际生成的内容进行对比评分。
目前,OpenAI 已经通过 GPT-4 对 GPT-2 中307200 个神经元进行了书面解释,从结果来看,绝大多数的解释评分并不高,超过 1000 个神经元的解释得分高于 0.8,不过研发人员称,这一结果意味着基于 GPT-4,他们已经解释了神经元的大部分激活行为。
虽然目前从结果来看,OpenAI 通过 GPT-4 解释 GPT-2 的效果并不完美,但这一阶段性的成果给 AI 可解释性研究提供了思路,这一方法会随着 AI 的发展而不断精进。
此外,OpenAI 正在开源其 307200 个神经元的书面解释的数据集和可视化工具,以及使用 OpenAI API 上公开可用的模型进行解释和评分的代码。
论文地址:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
神经元查看器:
https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html
GitHub 开源地址:
https://github.com/openai/automated-interpretability
一、解释、模拟、评分,三步看透 GPT-2 的思考过程
OpenAI 解释神经元的过程使用了三种算法,分别是能显示神经元对文本摘录响应的解释器模型 Explain、使用模拟器模型 Simulate 根据生成文本解释模拟神经元激活、Score 算法对模拟激活内容与真实激活内容的匹配程度进行评分。
在测试过程中,研究人员使用 GPT-2 预训练模型作为被解释的模型,使用 GPT-4 作为解释器和模拟器模型。
研究人员选择不同的文档来生成解释和模拟,这一方法包括在每个神经元上运行下面 3 个步骤:
首先,先给定 GPT-2 一个主题去生成文本,然后使用 GPT-4 来生成对 GPT-2 生成文本序列的行为解释。
如,当 GPT-2 生成 " 漫威漫画(Marvel comics vibes)" 相关内容时,GPT-4 生成的解释是其文本中有 " 对电影、角色和娱乐的引用 "。给定主题是 " 明喻(similes)" 时,GPT-4 生成的解释是 " 比较和类比,常用‘ like(类似)’这个词 "。
▲测试案例:上图主题是 " 漫威漫画(Marvel comics vibes)"、下图主题是 " 明喻(similes)
第二步,使用 GPT-4 模拟神经元的行为。这一步骤想要回答的问题是,假设 GPT-4 的解释准确而全面地解释了神经元的行为,那么该神经元将如何针对特定序列中的每个标记激活。
刚开始,研究人员使用了 " 一次一个(one at a time)" 方法,提供给 GPT-4 的提示由一些小样本和预测单个神经元激活的单样本示例组成,但这种方法速度较慢。随后,研究人员使用少量示例并行化了所有标记的概率预测,使得激活值变为文本序列中随机位置的实际值,他们将这种方法称为 " 一次全部(all at once)"。
经验证,这种研究方法在预测人类偏好方面,与速度较慢的 " 一次一个 " 方法效果类似。
第三步,将 GPT-4 模拟的内容与 GPT-2 真实生成的内容进行对比,根据其匹配程度进行评分。
研究人员采用的主要评分方法是相关性评分,如果模拟神经元的行为与真实神经元相同,则得分为 1。如果模拟神经元的行为是随机的,当解释与神经元行为无关得分将趋向于 0。
不过,基于模拟的评分实际上并不能反映人类对解释的准确评估。因此他们收集了人类对 GPT-4 生成解释质量的评估,并与模拟生成的评分结果相比较。
结果表明,人类往往更喜欢得分较高的解释而不是得分较低的解释,随着得分差距的扩大,这种现象的发展趋势也会更加明显。
二、开源数据集,业界加速 AI 可解释性研究
从整体评分结果来看,OpenAI 测验生成的绝大部分解释得分都较低。不过同时,研究人员也发现了一些 GPT-4 不理解的有趣神经元。
如 "dollars" 的意思,第一层理解为 " 与货币和金钱有关的词 ";第二层为 " ‘ buck(美元)’一词或包含‘ buck(美元)’的实例 ";第 29 层为 " 提及‘美国’及相关术语 "。
因此,研究人员希望随着解释的改进,能够快速理解这些大型语言模型生成的有趣内容。研发人员认为,他们可以使用机器学习技术来进一步提高 GPT-4 解释的能力。
以下几种方法可以帮助提高评分结果:
1、迭代解释(Iterating on explanations)。研发人员通过要求 GPT-4 提出可能的相反案例,然后根据它们的激活结果修改解释来提高分数。
2、使用更大的语言模型来给出解释(Using larger models to give explanations)。随着解释器模型能力的提高,平均分数也会上升。然而,即使是 GPT-4 这样参数规模的大型语言模型也给出了比人类更差的解释,这表明还有改进的余地。
3、更改已解释模型的架构(Changing the architecture of the explained model)。具有不同激活函数的训练模型提高了解释分数。
因此基于上述考虑,OpenAI 开源了数据集,他们希望研究界能够开发新技术来生成更高分的解释,并开发更好的工具来解释 GPT-2。
三、用 GPT-4 解释 GPT-2 仍有四大局限
目前,OpenAI 用于解释的 GPT-2 的方法还有很多局限性:
研究人员希望 GPT-4 生成的解释是简短的自然语言,但神经元可能具有非常复杂的行为,无法被简洁清晰的叙述出来。例如,神经元可以代表许多不同的概念,或者可以代表人类不理解或无法用语言表达的单一概念。
他们希望最终自动找到并解释实现复杂行为的整个神经回路,使得神经元和注意力中枢协同工作。OpenAI 当前的方法仅将神经元行为解释为原始文本输入的函数,而没有说明其接下来产生的影响。例如,当神经元激活的位置是一个句号,这可以指向后面的英文单词应该大写开头等。
这一评分系统解释了神经元的行为,但没有试图解释产生这种行为的机制。由于这一方法更多描述的是测试文本上的相关性,因此模拟过程中获得高分的解释,对于测试外的文本解释效果可能也很差。
最后,用 GPT-4 来解释 GPT-2 的整个过程是计算密集型。
不过,OpenAI 的研究人员仍对这一方法的推广感到兴奋。最终,他们希望使用大型语言模型来生成、测试和迭代完全通用的预测。
结语:让大模型的黑盒变透明
大型语言模型在内容生成、理解上的强大能力我们已经有目共睹,但其内部的工作原理我们知之甚少,也很难从大型语言模型的最后输出结果中检测到它们的 " 思考过程 " 是有偏见的或者是错误的。
尽管从结果看,OpenAI 的研究方法还有很大的进步空间,但这一技术路线也为 AI 的可解释性研究提供了思路。
上一篇:《龙门镇》上映,菜鸟镖师恶战金枪悍匪,条子哥爆锤武僧一龙
下一篇:看这些剧不止是上瘾!女主carry满满的电视剧!
最近更新热点资讯
- 谷歌AI聊天记录让网友San值狂掉:研究员走火入魔认为它已具备人格,被罚带薪休假
- 豆瓣9.4,姐弟恋、三人行,这部大尺度太厉害
- Genes, Intelligence, Racial Hygiene, Gen
- 【土耳其电影】《冬眠》电影评价: 宛如一部回归伯格曼风格的道德剧
- 陌生人社会伦理问题研究
- 理论研究|前海实践的价值理性和工具理性
- 澳门刑事证据禁止规则
- 综艺普及剧本杀和密室逃脱助力线下实体店爆发式增长
- 日本小伙和五个小姐姐同居?看完我酸了!
- 第一学期高一语文考试期中试卷
- 高中必考的物理公式有哪些
- 这部大尺度的申奥片,却讲述了不lun恋...
- 心理语言学论文精品(七篇)
- 《贵妃还乡》 超清
- 专论 | 郭丹彤、陈嘉琪:古代埃及书信中的玛阿特观念
- 微专业招生 | 数字文化传播微专业列车即将发车,沿途课程抢先看!
- 生态安全的重要性汇总十篇
- 原创因“18禁”电影登舆论顶峰,万千少女一场春梦:这一生,足够了
- 章鱼头
- 读书心得体会
- 考研考北京大学医学部或者协和是一种怎样的难度?
- 央媒评女主播编造“夜宿故宫”:让肇事者付出代价,理所应当
- 库欣病患者求医记(流水账)
- 《太平公主》④ | 地位越高,越要装傻
- 爱体检 安卓版 v2.5