AI真能“理解”人类语言吗？

源芳 · 2023-12-27 15:23:00

导读：算法创新，如何解锁语义理解新高度？

2023年，大模型从年初卷到年末。无论是国内的百模大战格局，还是国外一超多强的新竞争态势，基础模型的能力依然是生成式AI的核心。

对于提升基础模型能力，OpenAI曾提出一个著名的Scaling Law，即模型的参数规模越大、投入的高质量数据越多、投入的算力越多，模型就越强大越智能。这一法则也被称之为伸缩法则或扩展定律。

然而，从算力、数据到算法，各个方面资源均受约束的情况，则是训练基础大模型时面临的常态。比如算力紧缺一卡难求，高质量数据严重不足等。那么，算法的创新能否扛起提升大模型精度的重任？

11月底，浪潮信息的千亿开源模型源2.0在算法创新方面为产业界探索了新的方向。

源2.0采用了一种新型的注意力算法结构LFA（局部注意力过滤增强机制，Localized Filtering-based Attention），对比传统Transformer架构下的注意力机制，LFA对自然语言的关联语义理解更精准，能够显著提升模型精度。

Train Loss是衡量模型精度的指标之一，数值越低意味着模型精度越好。基于 LFA 模型结构，102B的源 2.0模型训练 288B 的 Tokens，最终 Train Loss 为 1.18，相比245B的源 1.0模型，Train Loss 降低了 28%。

这意味着，源2.0打开了一扇新的大门，在无需大幅提升模型参数规模、计算量和内存开销的情况下，通过算法创新也可以实现模型精度的显著提升。

为什么LFA能显著提升大语言模型精度？

2017年谷歌推出的Transformer架构是当前大语言模型的基础架构，也是这一轮生成式AI浪潮的核心技术底座。虽然Transformer架构具有强大的泛化能力，但并非在所有场景下都有完美表现。对自然语言长序列的处理，以及对序列中的顺序信息的理解就是其短板之一。

Transformer架构中的注意力机制对输入的所有文字一视同仁，不会假设自然语言相邻词之间存在先验的语义关联。而在自然语言中，相邻词之间的语义关联是一个明显特征。

比如，“我想吃重庆火锅”这句话，重庆是修饰火锅的，这两个词之间有更强的依赖关系。

当把这句话丢给一个Transformer架构的大语言模型时，其注意力机制会首先进行分词，我/想/吃/重庆/火锅，即对所有token平均对待，而不会注意到相邻词之间是否存在更强的局部关系。

如果能将相邻词之间的语义关联引入大模型的注意力机制，将获得更精准的自然语言理解能力，从而提升大语言模型的精度。

源2.0研发团队首先尝试了常用的EMA算法。EMA（指数移动平均）是在处理时序数据时一种比较经典的考虑局部关系的算法。虽然EMA也能降低Train Loss值，改进模型精度，但会导致内存开销和计算耗时大幅增加，尤其是对千亿规模的模型来说，训练成本太大。

最终，源2.0研发团队采用了两组卷积+RMSNorm的方法，构建了LFA结构。也就是说，依然基于Transformer架构，但在自注意力层中引入了CNN捕捉相邻词的关系。

两组卷积中，卷积核为2，步长为1，然后再经过RMSNorm归一化。第二次卷积后，相邻词之间的关系又被传递到下一个词，相当于能够捕捉到三个相邻词之间的关系。

以“有只猫在吃东西”这句话为例，第二次卷积后，注意力机制能够覆盖三个相邻词之间的局部关系，如：（空格，有），（（空格，有），只），（（有，只），猫），（（只，猫），在），（（猫，在），吃），（（在，吃），东西）。

从源2.0技术论文中的消融实验可以看出，basic是LLaMA结构即传统Transformer注意力机制，对比之下，LFA结构的模型可以将Train Loss值从1.251降低到1.2069，而模型参数和训练耗时的增加并不明显。

算法创新推动源2.0能力全面升级

基于LFA结构的算法创新，源2.0探索出一个在有限算力资源、有限数据质量、有限参数规模的情况下，提升模型精度的新方向。

这种算法创新加上数据、算力层面的创新，也让源2.0在数理逻辑、代码生成、知识问答、中英文翻译、语义理解等方面的能力大幅提升，实现了对源1.0的全面超越。

在源2.0的技术论文中，浪潮信息公布了源2.0在多个权威评测中的表现，包括：面向代码生成任务的基准测试HumanEval、用于数学问题求解的测试GSM-8K、用来评估标准化考试的基准测试AGIEval、事实性问答测试 TruthfulQA等。

从测试结果看，源2.0在精准度方面全面超过了ChatGPT，并在某些测试上接近GPT4的水平。

在HumanEval评测集上，使用了SC（自洽性，Self-Consistency）方法的源2.0准确率达到77.4%。

在AGIEval测试中，源2.0已经可以对相当复杂的高考数学题进行完美解答。源2.0的回答，无论是推理思路、求解过程，还是符号计算和数值计算都非常准确。

“LFA事实上也代表着一个新的研究方向，我们可以沿着这个方向走下去，发现更多更好的局部性结构，来建模自然语言处理或者序列关系。”浪潮信息人工智能软件研发总监吴韶华表示。

以开源方式，聚焦基础模型能力迭代

根据北京市经济和信息化局的数据，截止到2023年10月，单是中国国内公开的大模型数量，就已经达到了238个。当最初的粗放式发展过后，国内百模大战的格局必将走向逐渐收敛的阶段。

其中，有战略定力和技术实力能够持续迭代基础模型能力的企业并不多，浪潮信息就是其中之一。目前，浪潮信息在生成式AI领域的布局聚焦在基础模型能力的提升上，而且始终坚持开源路线。

在开源方面，源大模型坚持全面开源，包括开源API、基础模型参数和代码、训练数据集等。

2021年9月推出的2457亿参数的源1.0模型是当时业界最大规模的大语言模型，模型发布后浪潮信息便推出了开源开放计划，目前已经赋能海量开发者基于源1.0进行应用创新。

2023年11月，源2.0基础大模型一经发布即开源，包括1026亿、518亿、21亿三种参数规模。通过算法、数据、算力三大维度的全面创新，源2.0实现了基础模型能力的大幅提升。

同时，源2.0还推出了开源共训计划，所有开发者都可以提出自己的场景需求，源大模型团队会开展相关的数据清洗/收集与模型训练，训练完成后的基础模型会持续开源到社区反馈给开发者，为开发者提供更好的模型基础能力支持。

“大模型开源，能够加速整个产业协同发展，这是它最本质的价值。产业要健康发展，不能说只有一家公司拥有一个非常领先的能力，其他人都没有办法提供类似的能力。生成式AI一定是一个多元化的生态。我们希望这个产业能够百花齐放，能够更加的丰富。” 浪潮信息高级副总裁刘军曾向媒体表示。

目前，能够超越Transformer的下一代模型结构会是什么样子，业界仍处于拆黑盒的探索阶段。

但换一个思路，前沿技术的发展从来不是突进式变化，而是连续演进的。在探索大模型算法结构的发展方向上，当下任何一个微小的技术改进都是尤为踏实的一步。从这点来看，源2.0的算法创新也为业界推开一扇新的大门。

END

本文为「28xin.com」原创作品。

所属分类: 问答交流