微软、谷歌和Meta押注合成数据构建AI模子

pxqghost · 2024-5-14 13:09:08

　　谈天呆板人(11.040, 0.15, 1.38%)每一个奇妙的应答背后都有海量数据(12.680, -0.28, -2.16%)（维权）作为支持——在某些环境下，必要从文章、册本和网上批评中摘取数万亿个词汇，以教会人工智能体系明白用户的扣问。业界的传统观点是，创建下一代人工智能产物将会必要越来越多的信息。
　　然而，这个筹划存在一个大题目：网络上可以或许提供的高质量数据是有限的。为了得到这些数据，人工智能公司通常的做法是，要么向出书商付出数百万美元以得到内容允许，要么从网站上下载数据，使本身面对版权纠纷的风险。越来越多的顶流人工智能公司正在探索另一种在业内引发分歧的办法：利用合成数据，从本质上来说就是假数据。
　　这种办法的工作原理是如许的：科技公司可以使用本身的人工智能体系来产生笔墨和其他媒体。然后，可以用这些数据练习同一个体系的将来版本，Anthropic的行政总裁达里奥·阿莫代伊（Dario Amodei）称之为潜伏的”无穷数据产生引擎”。如许一来，人工智能公司就可以制止引发很多法律、道德和隐私方面的题目。
　　在盘算中合成数据的想法并不奇怪——这项技能已经被利用了几十年，涉及到从个人信息的去匿名化到主动驾驶技能路况模仿的各个范畴。但是，产生式人工智能的鼓起使人们可以更轻易大规模创建质量更高的合成数据，而且也使这种做法有了新的紧急性。
　　Anthropic表现，它利用合成数据来构建为其谈天机器人Claude提供支持的最新模子。Meta和Google已经利用这种数据来开辟他们近来的开源模子。GoogleDeepMind近来表现，它依赖这种方法来资助练习一个可以办理奥林匹克比赛级别多少题目的模子。许多人推测，OpenAI是否正在利用此类数据来练习其笔墨到影片影像产生器Sora。（OpenAI透露它正在探索利用合成数据，但不肯证明进一步的细节。）
　　在微软，产生式人工智能研究团队在近来的一个项目中利用了合成数据。他们盼望构建一个规模较小、资源麋集水平较低的人工智能模子，但仍具有有用的语言和推理本领。为了做到这一点，他们试图模拟孩子透过阅读故事来学习语言的方式。
　　该团队并没有向这个人工智能模子提供大量儿童读物，而是列出了四岁孩子可以或许明白的3000个词汇。然后，他们要求这个人工智能模子利用词汇表中的一个名词、一个动词和一个形容词来创造一个儿童故事。研究职员在几天的时间内重复了数百万次这个提示，产生了数百万个短篇故事，终极资助开辟出了另一个更强盛的语言模子。微软已经将这个新的”小型”语言模子系列Phi-3开源并向公众开放。
　　微软产生式人工智能副总裁布贝克（Sébastien Bubeck）说：”忽然之间，你拥有了远多于已往的控制权。你可以在更精致的层面上决定你盼望本身的模子学习哪些东西。”
　　布贝克说，使用合成数据，你还可以透过为数据新增更多表明来更好地引导人工智能体系完成学习过程，否则的话，呆板在处置惩罚过程中大概会感到狐疑。
　　但是，一些人工智能专家对这种技能存在的风险感到担心。牛津、剑桥和其他几所着名大学的一组研究职员客岁发表了一篇论文，表明了利用ChatGPT产生的合成数据来构建新的人工智能模子为何会导致他们诉说的”模子瓦解”。
　　在他们的实行中，基于ChatGPT的输出内容创建的人工智能模子开始出现”不可逆转的缺陷”，而且好像失去了对最初练习内容的影象。举例来说，研究职员用有关英国汗青修建的笔墨提示一种大型语言人工智能模子。当他们利用合成数据多次重新练习这个模子后，这个模子开始产生有关长耳大野兔的毫偶然义的颠三倒四。
　　研究职员还担心，合成数据大概会放大数据集当中的私见和毒性。合成数据的一些支持者则表现，透过接纳得当的步伐，用这种方式开辟的模子可以和基于真实数据构建的模子一样正确乃至更好。
　　剑桥大学（University of Cambridge）博士舒梅洛夫（Zakhar Shumaylov）在一封电子邮件中说道：”假如处置惩罚恰当，合成数据会很有效。然而，对于怎样才气处置惩罚恰当，现在还没有明白的答案；有些私见对于人类来说大概很难察觉。”舒梅洛夫是上述关于模子瓦解论文的合著者之一。
　　另有一个更具哲学性的争论：假如大型语言模子陷入根据自身内容举行练习的无休止循环中，那么人工智能终极是否会变得不再是模拟人类聪明的呆板，而更多的是模拟其他呆板语言的呆板？
　　斯坦福大学（Stanford University）盘算机科学传授Percy Liang表现，为了产生有效的合成数据，公司仍旧必要真正的人类聪明结晶，好比册本、文章和步伐代码。梁在一封电子邮件中说道：”合成数据不是真实的数据，就像你做梦登上了珠穆朗玛峰并不是真正登顶了一样。”
　　合成数据和人工智能范畴的先驱们同等以为，你不能将人类清除在这个过程之外。我们仍旧必要真人来创建和美满人工数据集。
　　布贝克说：”合成数据并不是简朴地按下一个按钮然后对它说，“嘿，帮我产生一些数据。”这是一个非常复杂的过程。在大规模创建合成数据的过程中必要投入大量的人力。”
股市回暖，抄底炒股先开户！智能定投、条件单、个股雷达……送给你>>

            海量资讯、精准解读，尽在新浪财经APP

                        责任编辑：杨淳端

微软、谷歌和Meta押注合成数据构建AI模子

所属分类: 问答交流

新帖推荐: 30日

推荐作品