OpenAI找到了一种"扫描"GPT -4的方法 告诉你AI的想法 然后它打开了
大型语言模型(LLMS)是当前人工智能领域最受欢迎的探索,吸引了大量关注和研究投入,其强大的语言理解和产生力在各种应用中显示出巨大的潜力。 尽管我们看到大型模型的性能有了显著改善,但我们仍然只部分了解这些模型中的神经活性。
星期四,OpenAI分享了一种寻找许多“特征学”的全新方式 — — 也许这是一个可以解释的方向。 OpenAI说,新的方法比以前的一些想法更加广泛,研究小组在GPT-4中发现1600万个特征使用这些特征。
有趣的是,从提交人名单中,我们发现Ilya Sutskever、Jan Leike和离开开放投资协会的其他人也是提交人。
这是一项重要的研究
论文标题: 缩放和评估分析自动编码器
论文地址:https://cdn.openai.com/papers/sparse-autoencoders.pdf
代码:https://github.com/openai/sparse_autoencoder
特写可视化:https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html
解释一下神经网络
作为一种机器学习模式,神经网络通过使用模仿双胞胎协作的过程来识别现象和得出结论,但长期以来我们并不真正理解神经网络的内部运作。 神经网络不是直接设计的,研究人员设计了用于培训这些网络的算法。 由此形成的神经网络并没有得到很好的理解,也不容易分解成可识别的组件。
为了理解和解释神经网络,首先必须找到可用于神经计算的基础。 但是,语言模型中的神经激活以不可预知的方式启动,仿佛它代表了许多概念,而且它们也被强烈激活,这意味着每次激活总是在每次输入上触发。
但现实世界的概念非常薄 -- -- 在任何特定情况下,所有概念中只有一小部分是相关的。这刺激了使用稀有自动编码器。
罕见的自动编码器是一种识别神经网络中对于产生任何特定输出都很重要的几个“特征”的方法,类似于一个人在推断出某种情况时可能想到的少数概念。 其特征显示了一种薄的激活模式,它自然与人类可以轻易理解的概念相一致,即使没有直接的解释性激励。
然而,对稀有自动编码器的培训仍是一个严峻的挑战,大规模语言模型代表着大量的概念,自动编码器可能需要具有类似规模,以便更接近于充分涵盖前沿模型中的概念。
大规模自动自动编码器大规模培训
OpenAI的最新研究进展表明一种新的方法可以将稀有的自动编码器扩展至第一线人工智能模型上数千万个特征。 这种方法显示了平稳和可预测的扩张,其规模回报率高于现有规模回报率。
OpenAI使用这种方法培训各种关于GPT-2小型和GPT-4引爆的自动编码器,包括GPT-4上的1 600万个特征。
具体地说,研究小组在GPT-2小型模型和一系列渐进式共享的GPT-4建筑和培训环境(包括GPT-4本身)中培训自动编码器。 他们选择靠近网络末端的一层,其中应包含许多特征,而不是用于下一次象征性预测。
所有实验都使用64个象征性上下文长度。研究小组从模型尺寸中减去平均值,并将所有输入转换成单位调制解调器,然后将其传送到自动编码器(或计算错误)。
培训完成后,研究小组根据罕见L_0和重新确定平均方程错误(MSE)对自动编码器进行评估。
为了简化分析,OpenAI不考虑过热率或学习率的下降,不考虑小的学习率,也不考虑大规模地推断最佳学习率的趋势。
为检查特征的可解释性, OpenAI 进行可视化工作。 以下是 OpenAI 发现的一些可解释性特征:
人类缺陷;价格上涨;X和Y;培训日志;反词;代数环;代数环;谁/什么;多巴胺。
例如,GPS-4特征:与事物(特别是人)缺陷有关的短语:
物价上涨:
反对:
发展的限制和发展方向
新的方法提高了模型的可信度和可操作性,但这只是早期工作,有许多限制:
与前几次研究一样,发现的许多特征仍然难以解释,其中许多特征没有清晰的规律,或显示与通常所编码的概念无关的虚假激活。 此外,我们没有很好的方法来检查解释的有效性。
罕见的自动编码器无法捕捉原始模型的所有行为。 目前,通过罕见的自动编码器激活 GPT-4 大致相当于用大约10个计算法来培训模型。 要完全映射前沿LLM中的概念,我们可能需要将功能扩展至数十亿或数万亿个,即使推广技术得到了改进,这也具有挑战性。
罕见的自动编码器可以在模型的某个点找到特性,但这只是解释模型的一个步骤。 还需要做更多的工作才能理解模型如何计算这些特性以及如何在模型的其余部分在下游使用这些特性。
短期而言,工程师希望新发现的特征能够被实际用于监测和控制语言模式行为,并计划用第一线模式测试这些特征。 希望有一天,可解释性将为我们提供安全和稳健的新的推理模式提供新的方法,并将通过对AI行为提供有力的保证,大大增强我们对新一代AI行为模式的信任。
注册有任何问题请添加 微信:MVIP619 拉你进入群
打开微信扫一扫
添加客服
进入交流群
发表评论