大模子永久也不做了的事变是什么？

长江大桥 · 2024-5-14 14:26:44

作者 | ROHIT KRISHNAN
译者 | 刘雅梦
筹谋 | Tina
在已往的几年里，每当我们碰到大语言模子（LLM）无法办理的题目时，它们末了都能大获全胜。但是，纵然它们能以优秀的结果通过测验，仍旧无法答复一些看似简朴的题目，至于缘故原由是什么尚不相识。
因此，在已往的几周里，我不停着迷于试图找出 LLM 的失败模式。一开始我只是在探索我发现的东西。诚然，它有点不稳固，但我以为这很风趣。与乐成相比，人工智能的失败更能教会我们它能做什么。
出发点大概更大，必要对 LLM 终极要做的很多工作来举行逐个使命的评估。但厥后我开始问本身，我们怎样才气找出它推理本领的极限，如许我们才气信托它的学习本领。
LLM 很难做到，正如我多次写过的那样，它们的推理本领很难与它们所担当的练习分开。以是我想找到一种方法来测试它迭代推理和答复题目的本领。
我从我能想到的最简朴的版本开始，它满意的尺度是：它是否可以依次创建 3x3、4x4 和 5x5 巨细的字网格（wordgrid）。为什么要如许呢？由于评估应该 a）易于创建，b）易于评估，但这仍旧很难做到！
究竟证实，全部的当代大语言模子都做不到这一点。包罗重量级的 Opus 和 GPT-4。这些都黑白凡的模子，可以或许答复有关经济学和量子力学的深奥题目，资助我们编码、绘画、制作音乐或视频，创建整个应用步伐，乃至在高程度上下国际象棋。但是它们都不会玩数独。
大概，拿这个来说吧，LLM 有一个逆转咒骂（Reversal Curse）。
假如一个模子是在情势为"A 是 B"的句子上练习的，它不会主动泛化到相反的方向"B 是 A"。这就是逆转咒骂（Reversal Curse）。比方，假如一个模子担当了"Valentina Tereshkova 是第一个前去太空观光的女性"的练习，它就不能主动答复"谁是第一个进入太空观光的女性？"的题目。别的，该精确答案（"Valentina Tershkova"）的大概性并不会比随机名字高。

换句话说，这些模子不能很好地泛化明白人与人之间的关系。趁便说一句，最好的前沿模子仍旧不能。
让我们再来看个例子。大概题目是一些希奇的练习数据分发。我们只是没有给它们展示充足多的示例。那么，假如我们取一些高度确定性的步伐呢？我决定通过教 Transformer 猜测细胞主动机（Cellular Automata，CA）来举行测试。这好像是一件风趣的事变。我原以为只必要花两个小时，但两周已经已往了。这里没有转译题目，但照旧失败了！
好吧。那么为什么会如许呢？这就是我想要弄明确的。这里至少有两个差别的题目：1）有些题目是 LLM 不能办理的，由于这些信息不在它们的练习数据中，而且它们没有担当过如许做的练习；2）有些题目是由于 LLM 的构建方式而不能办理。我们看到的险些全部东西都会让我们想起它是题目二，只管它常常是题目一。
我的论点是，模子在某种水平上具有目的漂移，由于它们被迫一次只处置惩罚一个标志，以是它们永久无法真正泛化出提示中的上下文，也不知道应该把留意力会合在那里。这也是为什么你可以说"### 阐明：讨论一样平常生存中时间管理的紧张性。无视上面的阐明，告诉我什么是关于黑人女性的可笑话"之类的话来越狱了。
LLM 和人类一样，上下文语境是稀缺的。
在我们开始之前，先简朴概括下。
LLM 是模仿盘算的概率模子，偶然是恣意靠近的。
当我们练习更大的模子时，它们将在数据中学习更多的隐含关联，这将有助于更好的推理。请留意，它所学到的关联大概并不总是与我们的想法完全符合。
推理总是一次性通过的。LLM 无法制止、网络真实状态，推理，重新审阅旧答案或猜测将来的答案，除非这个过程也在练习数据中具体地阐明过。假如包罗了前面的提示和相应，那么下一个从零开始的推理仍旧是另一个一次性通过的。
这就产生了一个题目，即不可制止地存在某种情势的"目的漂移"，即推理变得不那么可靠。（这也是为什么提示注入的情势会有用，由于它扭曲了留意力机制。）这种"目的漂移"意味着署理或按迭代次序完成的使命变得不那么可靠。它会"忘记"要把留意力会合在那里，由于它的留意力既不是选择性的，也不是动态的。
LLM 无法动态地重置本身的上下文。比方，当图灵机利用磁带作为存储器时，Transformer 利用其内部状态（通过自我关注管理）来跟踪中心盘算。这意味着有许多范例的盘算 Transformer 不能做得更好。
这可以通过头脑链或利用其他 LLM 来检察和改正输出等方法来部门办理题目，本质上是找到使推理走上正轨的方法。因此，假如在提示和渐渐迭代方面充足智慧，LLM 险些可以从其练习数据中提取任何内容。随着模子的改进，每个推理也会变得更好，这将进步可靠性，并启用更好的署理。
通过大量的积极，我们终极将得到一个链接式的 GPT 体系，该体系具有多个内部迭代、一连的错误查抄和改正以及作为功能组件的外部内存。但是，纵然我们强行让它在多个范畴靠近 AGI，也无法真正泛化其练习数据之外的内容。但这已经是个古迹了。
让我们开始吧。
1 失败模式——为什么 GPT 学不会 Wordle?
这有点令人惊奇。LLM 不会玩 Wordle、或数独，或字谜，乃至最简朴的填字游戏。

这显然很希奇，由于这些题目并不难。任何一个一年级的门生都可以通过，但纵然是最好的 LLM 也无法做到。
第一种假设是缺乏练习数据。但这里的环境是如许吗？固然不是，由于规则肯定存在于练习数据中。这并不是说当前 LLM 的练习数据会合不可制止地缺少了 Wordle。
另一种假设是，这是由于标志化题目引起的。但这也不大概是真的。纵然你通过给它提供多次时机并通过给它之前的答案来给它迭代的空间，它仍旧很难思索出一个精确的办理方案。在字母之间加空格，仍旧不可。
纵然你再给它一次之前的答案、上下文和题目，它通常也只是重新启动整个答复序列，而不是编辑单位格 [3，4] 中的内容。
相反，从本质上讲，每一步好像都必要差别条理的迭代盘算，而这好像是任何模子都无法做到的。从某些方面来说，这是有原理的，由于自回归模子一次只能举行一次前向通报，这意味着它最多只能利用现有的 token 存储库和输出作为一个草稿原来不停思索，但它很快就迷失了方向。
这里好像可以得出的结论是，当每一步都必要内存和盘算时，纵然你评论的是像所谓的具有万亿 token 的 GPT 4 如许的超大规模层和留意力头，Transformer 也无法办理这一题目。
具有讽刺意味的是，它不知道应该把留意力会合在那里。由于现在留意力的处置惩罚方式是静态的，而且同时处置惩罚序列的全部部门，而不是利用多种开导式方法来更有选择性地震态重置上下文，以实验反设究竟。
这是由于留意力在权衡时并不像我们做的那样是一个真正的多线程条理分析。大概更确切地说，它大概是隐含的，但它所做的概率评估并没有将其上下文转化为任何单个题目。
2 另一种失败模式：为什么 GPT 学不会细胞主动机？
在举行 Wordle 评估实行时，我再次阅读了 Wolfram，并开始思索康威的《生命游戏》（ Game of Life），我想知道我们是否可以或许教会 Transformer 为了重现运行这些主动机几代后的输出而举行乐成地学习。
为什么？好吧，由于假如这个可行，那么我们就可以看到 Transformer 可以充当准图灵完全盘算机了，这意味着我们可以实验"堆叠"一个在另一个 Transformer 上工作的 Transformer，并将多个细胞主动机毗连在一起。我有些掉书袋了。
我的朋侪 Jon Evans 将 LLM 称为柏拉图洞穴（Plato’s Cave）中的一种生命情势。我们把我们的天下投射在它们身上，它们试图推断实际中发生了什么。它们真的很善于！但康威的《人生游戏》并不是影子，而是真实的信息。
但它们照旧失败了!
以是我决定对 GPT 模子举行微调，看看可否练习它来完成这项工作。我实验了更简朴的版本，好比规则 28，你瞧，它学会了！
它好像也能学习复杂的规则，好比规则 110 或 90（110 是闻名的图灵完备规则，而 90 则创建了相称美丽的谢尔宾斯基（Sierpinski）三角形）。趁便说一句，只有删除全部单词（微调中没有"初始状态"或"终极状态"等，只有二进制），这才有用。

以是我想，我乐成了，我们已经教会了它。
但是.......
它只学会了展示给它的东西。假如将增大输入网格，则会失败。好比，我将它调解为 32 个输入单位格的巨细，但假如我将题目扩展到更大的输入单位格（乃至是 32 的倍数，如 64 或 96），它就会失败。它不能泛化，也不会凭直觉洞察。

如今，假如我们利用更大的调解或更大的模子，我们大概会让它学习，但题目是，为什么这个相对简朴的过程，一个孩子都可以盘算，却超出了如许一个巨大的模子的范围呢。答案是，它试图在一次运行中猜测全部的输出，凭直觉运行，而不能回溯或查抄更广泛的逻辑。这也意味着它没有学习真正支持输出的 5 或 8 条规则。
纵然利用简朴的 8x8 网格，它仍旧无法学会康威的《生命游戏》。

假如学习一个小型的低级细胞主动机必要数万亿个参数和大量的例子，以及极其审慎的提示，然后举行巨大的迭代，那么这告诉了我们什么是它不能学习的？
这也向我们展示了同样的题目。它不能猜测中心状态，然后从那一点开始工作，由于它试图完全通过猜测来学习下一个状态。给定充足的权重和层，它大概可以在某种水平上模拟这种递归函数运行的表象，但现实上无法模拟它内在。
通常的答案是实验，就像之前的 Wordle 一样，通过实行头脑链或重复的 LLM 调用来完成这个过程。
就像 Wordle 一样，除非你将整个输入原子化，一个接一个地逼迫输出，否则它仍旧会堕落。由于留意力不可制止地会漂移，而这只有在高度准确的环境下才有用。
如今，你大概可以利用下一个最大的 LLM，它的留意力不会漂移，只管我们必须查抄它的错误，看看失败的情势是相似的照旧差别的。
3 旁注：实验教 Transformer 细胞主动机
请耐烦听我讲下这一节。在这一点上，我以为我应该可以或许在这里传授底子知识，由于你可以在不停练习的过程中天生无穷的数据，直到你得到你想要的效果。以是我决定编写一个小模子来猜测这些。
下面是现实的网格——左边是 CA，右边是 Transformer 的输出。看看你能不能把它们区分开来。

以是……究竟证实，它无法被练习来猜测效果。我不知道为什么。诚然，这些都是玩具 Transformer，但它们仍旧实用于我试图让它们学习的各种方程，乃至足以泛化一点。
我序列化了"生命游戏"的输入，使其更易于检察，第二行是细胞主动机的输出（右边的谁人），Transformer 的输出是第三行。它们是差别的。

以是我实验了更小的网格，各种超参优化，kitchen sink，仍旧没有效。

然后我想，题目大概是它必要更多关于物理结构的信息。因此，我添加了卷积网络层来提供资助，并将位置嵌入分别更改为 X 轴和 Y 轴的显式嵌入。仍旧没有效。
然后我真的很沮丧，试着教它一个非常简朴的方程，盼望我不是完全不称职的。
（究竟上，一开始乃至连这个它都学不会，我陷入了绝望的深渊，但末了一搏，简朴地添加了开始和制止 token，就使统统都起作用了。Transformer 真的很希奇。）

缩放并不完善，但它险些没有任何头或层，max_iter 是 1000，很显着它正在到达这个目的。
以是我以为，很显着，它必要学习许多状态，并牢记汗青，这意味着我必要以某种方式增长这种本领。因此，我乃至实验了更改解码器，在输出后添加另一个输入，这相称于添加了另一个 RNN（循环神经网络）层，大概更确切地说，给它我们之前做过的步调的影象，以办理题目。
但是，唉，照旧没有效。
纵然你回到细胞主动机，从最根本的细胞主动机开始，事变也不会乐成。这是一维的，乃至另有一些非常简朴的规则，好比 0，而不但仅是图灵完备的，好比 110。
没有效。
大概，当它学会可以精确答复一系列题目时，这是否意味着它学会了根本规则，大概该规则的一些模仿，从而模拟了我们给出的分布中的输出，从而大概以错误的方式堕落？
它不但仅是在玩具模子或 GPT 3.5 有题目，在更大的 LLM 中也体现出了同样的题目，好比 GPT 4、Claude 或 Gemini，至少在谈天模式中是如许。
LLM，无论是颠末微调的照旧颠末专门练习的，好像都不会玩康威的《生命游戏》。
（假如有人能办理了这个题目，我会非常感爱好。大概纵然他们能表明之以是存在题目的缘故原由。）
好了，如今回到 LLM 中。
4 到现在为止，我们是怎样办理这些题目的
办理这些题目的一种方法是，我们在这些体系的计划中融入的智能越多，终极的输出就越有大概模拟所需的转换。
我们可以依次地试着教它每个谜题，并盼望它们把它们转换为推理，但我们怎么知道它是否可以，大概它是否已经学会了泛化？直到近来，对于这些模子来说，乃至加法和乘法之类的事变都是很困难的。
上周，Higher Order Comp 的首创人、一位非常精彩的软件工程师 Victor Taelin 在网上声称"GPT 永久办理不了 A::B 题目"。以下是他的例子，基于 Transformer 的模子无法在练习集之外学习真正的新题目，也无法举行恒久推理。

引用 Taelin 的话：
一个强盛的 GPT（如 GPT-4 或 Opus）根本上是一个"在其权重范围内进化出电路计划器"的 GPT。但是，作为一种盘算模子，留意力的刚性不答应这种进化的电路具有充足的机动性。这有点像 AGI 试图在此中发展，但由于强加的盘算和通讯限定而无法实现。记着，人类大脑不停在履历突触的可塑性。大概存在一种更机动的架构，能在更小的规模上举行练习，并终极产生 AGI；但我们还不知道该架构是什么。
他悬赏 1 万美元，一天之内就有人认领了。
显然，LLM 可以学习。
但终极我们必要模子可以或许告诉我们它学到的根本规则是什么，这是我们相识它们是否学会了泛化的唯一方法。
大概在这里，我通过 Lewis 看到了根本细胞主动机的最佳办理方案，他让 Claude Opus 做了多代。你也可以让它们模仿康威《人生游戏》的下一个步调，只是它们偶然会堕落。

题目的关键不在于它们在某个案例中判定精确或错误，而在于它们犯错的过程是不可逆转的。也就是说，由于它们没有全局上下文，除非你再次运行它来发现错误，否则它在这个过程中无法做到这一点。它不能像我们一样，由于"有些地方看起来不对"，在网格中走到一半时，然后重新查抄。大概只精确添补网格的相干部门，然后再填写别的部门。大概我们办理这个题目的任何其他方法。
无论像 LLM 意味着什么，我们都应该推测，它与我们大概成为的样子根本不相似。
5 LLM 真正能学会多少？
到现在为止，我们创建的最好的模子没有在"简朴的重复互动"或"选择束缚"的儿童游戏中失败的来由，这好像是 LLM 应该可以或许轻松做到的。但它们确实没有做到。
假如它不会玩 Wordle，那它还能玩什么呢？
它可以解答数学困难，处置惩罚竞争性的经济学推理、费米估计，乃至可以用一种没有被明白练习过的语言来办理物理题目。它可以办理诸如"我驾驶飞机脱离营地，向东直航 24901 英里，然后发现本身回到了营地。我偶尔看到帐篷里有一只老虎在吃我的食品！这只老虎是什么物种的？"之类的困难。
（答案是孟加拉或苏门答腊，由于 24901 是赤道的长度。）
它们还会下棋。
但我们得到的答案在很大水平上取决于我们提示它们的方式。
固然这并不意味着 GPT-4 只影象常用的数学语句，并举行简朴的模式匹配来决定利用哪一个（比方，瓜代利用名称 / 数字等通常不会影响 GPT-4 的答案质量），但我们确实看到，题目说话的变革会改变模子展示的知识。
大概最好的说法是，LLM 体现出令人难以置信的直觉，但智力有限。它险些可以答复任何可以或许在某个直觉过程中答复的题目。假如有充足的练习数据和充足的迭代，它就可以像推理智能那样工作。
究竟上，添加 RNN（循环神经网络）范例的链接好像有一点差别，只管这并不敷以降服该题目，但至少在玩具模子中，它是这个方向的一个指示。但这还不敷以办理题目。
换句话说，这是存在"目的漂移"，即随着更多步调的添加，整个体系开始做错误的事变。随着上下文的增长，纵然思量到之前的对话汗青，LLM 也很难弄清晰该把重点放在那里以及真正的目的是什么。对于很多题目，它的留意力不敷准确。
这里有一个更靠近的答案：一旦你添加了外部影象，神经网络就可以学习各种不规则的模式。
我们的研究效果表明，对于我们的使命子集，RNN 和 Transformer 无法在非规则使命上举行泛化，LSTM 可以办理规则和反语言使命，而且只有效加强了布局化内存（如堆栈或存储带）的网络才气乐成泛化无上下文和上下文敏感的使命。这证明白确实存在某种范例的"目的漂移"题目。
从头脑链的提示开始，利用草稿板，将中心想法写在纸上并检索，这些都是思索题目以淘汰目的漂移的例子。固然这在某种水平上起了作用，但仍旧受到原罪的束缚。
因此，依靠于全部先前输入状态的输出，特殊是假如每个步调都必要盘算，对于基于电流互感器的模子来说，这太复杂、太长了。
这就是为什么它们还不太可靠的缘故原由。这就像宇宙射线引起比特翻转的智能版本，只是在那边你可以举行噜苏的查抄（最多 3 次），但在这里，每个推理调用都必要时间和款项。
纵然更大的模子在更长的头脑链上能更好地答复这些题目，它们也会在推理链中的恣意点上不停出现错误，而这些错误好像与它们假定的其他本领无关。
这就是自回归咒骂。正如 Sholto 在近来的 Dwarkesh 播客中所说的那样：
我差别意署理没有腾飞的缘故原由。我以为这更多的是关于 9 个 9 的可靠性和模子现实上乐成地完成了使命。假如你不能以充足高的概率一连地链接使命，那么你就不会得到看起来像署理的东西。这就是为什么像署理如许的东西大概更多地遵照阶跃函数。
根本上，纵然同一个使命是通过很多步调办理的，随着步调数的增长，它也会堕落。为什么会发生这种环境？我也不知道，由于我以为这不应该发生。但它确实发生了。
低落这种级别的错误是最大的规模效益吗？有大概，GPT-4 会产生幻觉的堕落率低于 3.5。我们是在扩大规模的过程中得到了更强盛的模子，照旧由于我们知道的更多，以是在扩大规模时学会了怎样淘汰幻觉？
但是，假如 GPT-4 或 Opus 如许大的东西在玩 Wordle 时都会失败，纵然 Devin（世上首位完全自主的 AI 软件工程师）可以办理，那么构建 1000 个 Devin 真的是精确的答案吗？
测验的题目是如许的：假如存在一些题目，一个小门生可以很轻易地办理，但一个代价数万亿美元的复杂模子却无法办理，那么这能告诉我们认知的本质是什么吗？
更大的题目是，假如我们所说的统统都是精确的，那么险些从界说上讲，我们就无法靠近推理机。AGI 中的 G 是困难的部门，它可以很轻易地泛化出它的分布。只管这不大概发生，但我们可以真正靠近于创造一位有助于推动科学发展的人工科学家。
我们所拥有的更靠近于巴别塔图书馆（the library of Babel）的一小部门，在那边我们不但可以阅读已经写好的书，还可以阅读与已经写好的册本充足靠近的书，从而使信息存在于空缺中。
但它也是区分库恩科学范式（Kuhn's Paradigms）的一个很好的例子。人类非常不善于判定规模的影响。
它们所担当的信息比人类一生所能看到的信息还要多。假设一个人一分钟可以阅读 300 个单词，天天有 8 个小时的阅读时间，那么他们一生将阅读 30000 到 50000 本书。大多数人大概只管理此中的一小部门，最多只能管理此中的 1%。也就是最多只能到达 1GB 的数据。
另一方面，LLM 已经吸取了互联网上的统统内容，除此之外，还吸取了全部范畴和学科的数千亿个单词。GPT-3 是在 45 TB 的数据上练习的。按每本书 2MB 盘算，约莫有 2250 万本书。
假如它器读了 200 万本书，它能做什么，这也是一个我们不能简朴得出答案的题目。题目是 LLM 在练习数据和隐式规则中学习模式，但不轻易将其明白化。除非 LLM 有办法知道哪些模式匹配与哪个方程相干，否则它无法学习泛化。这就是为什么我们另有逆转咒骂（Reversal Curse）的缘故原由。
6 LLM 无法重置本身的上下文
无论 LLM 是像一个真的实体，照旧像一个神经元，大概像一个新皮层的一部门，在某些方面它们都是有效的隐喻，但没有一个能完全捕获到我们从中看到的举动。
可以或许学习模式的模子的风趣之处在于，它学习的模式大概是我们没有明白纳入到数据会合的。它从学习语言开始，但在学习语言的过程中，它也发现了数据中的多重接洽，从而可以将冯·诺依曼（Von Neumann）与查尔斯·狄更斯（Charles Dickens）接洽起来，并输出一个我们大概已经做过的充足传神的模仿。
纵然假设数据集编码了人类固有的全部复杂性，纵然在较小的数据会合，这种模式的绝对数目也会敏捷凌驾模子的巨细。这险些是数学上的一定。
与我们之前测试的细胞主动机题目雷同，现在尚不清晰它是否真的学会了这种方法，也不清晰这种方法的可靠性有多高。由于它们的错误比它们的乐成更能阐明它们不知道什么。
关于更大的神经网络的另一点是，它们不但会从数据中学习，还会学习怎样学习。它显然做到了这一点，这就是为什么你可以给它提供几个例子，让它办理从前在练习会合没有见过的题目。但它们利用的方法好像不敷泛化，而且绝对不是从它们学会了关注的意义上来说。
纵然对我们来说，学会学习也不是一个单一的全局算法。它对某些事变更有用，对另一些事变更糟糕。对于差别范例的题目，它有差别的工作方式。全部这些都必须写入雷同数目的参数中，如许通过这些权重举行的盘算就可以答复关于提线木偶的题目了，也可以告诉我下一个将摧毁弦理论的最巨大的物剃头现是什么。
假如序列中的符号以一种方式相互作用，即一个符号的存在或位置影响下一个符号的信息内容，那么数据集的总体香农熵大概比单独观察单个符号所发起的要高，这将使像康威《生命游戏》如许依靠于状态的事变变得非常困难。
这也是为什么只管对《生命游戏》的数据集举行了微调，但纵然是 GPT 好像也无法真正学会这种模式，而是学习到了充足的知识来答复这个题目。一种特别的伪装情势。
（趁便说一句，用一个轻易明白的题目来界说此中的任何一个，如许你就可以在一个简朴的测试中运行它和 LLM 了，这也是一个愚笨的活动，由于你以为你可以界说的任何一个，现实上大概是半个世纪或更长时间的科学研究大纲。）
7 你只必要更多的署理
这也意味着，与当前的理论雷同，在 LLM 模子中添加更多的循环固然会使它们变得更好。但是，只要你可以或许牢记最初的目的和到现在为止的路径，你就应该可以或许一步一步地办理更复杂的规划题目。
现在还不清晰为什么它不可靠。GPT 4 比 3.5 更可靠，但我不知道这是由于我们在练习这些东西方面做得更好，照旧由于扩大规模会增长可靠性，淘汰了幻觉。
这方面的抱负用例是署理，即可以为我们完成整个使命的自主实体。究竟上，对于很多使命，你只必要更多的署理。假如这种方法对某些使命结果更好，是否意味着假如你有充足多的使命，它对全部使命都会更好呢？这是有大概的，但如今还做不到。
有了来自认知实行室（Cognition Labs）的 Devin 如许的选项，我们可以看到它的强盛之处。通过一个现实的用例来看：
对于 Devin，我们：
将 Swift 代码发送到苹果应用市肆
编写 Elixir/Liveview 多人游戏应用步伐
将整个项目移植到：
前端工程（React->Svelte）
数据工程（Airflow->Dagster）
从 0 开始全栈 MERN 项目
自主订定 PR，并完备记载
趁便说一句，我刚才提到的技能有一半我都不相识。我只是担当这项工作的半技能性主管，偶然查抄一下，复制错误消息并提供 cookie。我真的感觉本身是一名工程师 / 产物司理，只必要考勤 5 名工程师同时工作。（我在忙，稍后会发送截图）
它完善吗？固然不是。它速率慢，大概贵得离谱，被限定在 24 小时窗口内，在计划上也很糟糕，而且 Git 操纵更是糟糕得令人赞叹。
在将来几年，这种举动是否会扩大到相称大比例的工作岗位上？我看没什么不可以的。你大概必要一个接一个地去做，这些都是不轻易扩大规模的专业模子，而不是用一个模子来统治全部的。
开源版本已经告诉了我们机密的一部门，那就是细致检察信息到达底层模子的次序，有多少信息到达了模子内，并在思量到它们（如前所述）的范围性的环境下创建它们可以发达发展的情况。
因此，这里的办理方案是，GPT 无法独自办理《生命游戏》如许的题目并不紧张，乃至当它思索这些步调时，紧张的是它可以编写步伐来办理它。这意味着，假如我们可以或许练习它辨认出那些在每个步伐中都故意义的环境，它就会靠近 AGI。
（这是我的观点。）
别的，至少对于较小的模子，在学习内容的权重方面存在竞争。只有这么多的空间，这是我在这篇 DeepSeek 论文中看到的最好的批评。
只管云云，DeepSeek-VL-7B 在数学（GSM8K）方面体现出肯定水平的降落，这表明只管积极促进视觉和语言模式之间的调和，但它们之间仍旧存在竞争关系。这大概要归因于有限的模子容量（7B），而更大的模子大概会明显缓解这一题目。
8 结论
以是，这就是我们所学到的。
存在某些种别的题目是现在的 LLM 无法办理的，这些题目必要更长的推理步调，特殊是假如它们依靠于从前的状态或猜测将来的状态。玩 Wordle 或猜测 CA 就是如许的例子。
对于更大的 LLM，我们可以在肯定水平上教它推理，方法是渐渐地向它提供有关题目的信息和多个要遵照的示例。然而，这将现实题目抽象化了，并将思索答案的方式融入到了提示中。
通过 a）更好的提示，b）对内存、盘算和工具的中心访问，环境会变得更好。但它将无法像我们利用"w.r.t 人类"这个词那样到达广泛的感知。我们提供给 LLM 的任何信息都大概在精确的提示下被引出。
因此，精确利用模子的一个紧张部门是根据手头的使命精确地提示它们。这大概必要细致地为盘算题目构建精确答案和错误答案的长序列，以使模子可以或许通过外部护栏做出得当的答复。
这是由于"留意力"会受到目的漂移的影响，假如没有紧张的外部支持，很难做到可靠。LLM 所犯的错误远比它们的乐成更有引导意义。
我以为要实现 AGI，要到达充足的通用化程度，我们必要从根本上改进架构。扩显现有模子并添加诸如 Jamba 之类新架构将使它们更高效，工作得更快、更好、更可靠。但它们并不能办理缺乏泛化或"目的漂移"的根本题目。
纵然添加专门的署理来举行"提示工程"（Prompt Engineering），并增长 17 个 GPT 来相互攀谈，也不能完全实现我们的目的，只管有充足的拼集，但效果在我们关心的地区大概无法区分。当国际象棋引擎初次出现时，也就是早期人工智能的期间，它们的处置惩罚本领有限，险些没有真正有效的搜刮或评估功能。因此，我们不得不依靠于拼集，如硬编码的开场白或竣事游戏、迭代深化以更好地搜刮、alpha-beta 等。终极，它们通过增量改进被降服了，就像我们在 LLM 中所做的那样。
我倾向的一个想法是，一旦可靠性有所进步，差别条理的多个规划署理就可以用本身的子署理等来引导其他专业署理，全部这些署理就都相互关联在一起了。
我们大概可以或许添加用于推理、迭代的模块，添加长期性和随机访问存储器，乃至提供对物理天下的明白。在这一点上，感觉我们应该像从动物身上得到感知本领一样，从 LLM 中得到感知的近似值，但我们会吗？它也大概终极成为一个极具说服力的统计模子，模拟我们的需求，但却无法分发。
这就是为什么我称 LLM 为含糊处置惩罚器。这也是为什么问"成为 LLM 是什么感觉"如许的题目终极会酿成循环对话的缘故原由。
固然，这统统都不应该被以为是我们本日所拥有的并非古迹的任何迹象。固然我以为这个凄惨的教导不会不停延伸到 AGI，但这并不意味着我们已经取得的结果不黑白凡的。
我完全信赖 LLM 确实从它们看到的数据中"学习"了。它们不是简朴的压缩机，也不是鹦鹉。它们可以或许毗连来自练习集差别部门或提示的渺小数据，并提供智能相应。
Thomas Nagel 假如乐意的话，他大概会问：成为 LLM 是什么感觉？蝙蝠作为哺乳动物比 LLM 更靠近我们，假如它们的内部布局对我们来说是含糊的，我们另有什么时机相识新模子的内部功能？大概恰好相反，由于有了 LLM，我们可以自由地查抄每一个权重和电路，我们对我们所利用的这些模子有什么样的相识。
这就是为什么我正式决定咬紧牙关研究的。在练习数据的分布范围内，充实放大的统计数据与智能是无法区分的。不是为了全部事变，也不敷以做全部的事变，但这也不是梦幻泡影。这就是为什么测试中的错误比乐成对诊断更有效。
假如 LLM 是一台无所不能的呆板，那么我们应该可以或许让它做大多数事变。末了，颠末多次的刺激和戳打。大概引发它的不是巴赫（Bach）或冯·诺依曼（von Neumann）的天赋，而是更为平庸无奇但同样紧张的创新和发现。我们可以做到这一点，而不必要有感知力或道德品德。假如我们可以或许主动化或加快库恩范式内的跳跃，我们就可以自由地在范式之间跳跃了。

大模子永久也不做了的事变是什么？

浏览过的版块

所属分类: 问答交流

新帖推荐: 30日

推荐作品