AI“数据荒”怎么办？微软、谷歌等公司正利用“合成数据”练习AI ...

匶鱫 · 2024-5-14 13:09:08

　　人工智能谈天呆板人的背后必要海量高质量数据作为支持。传统上，人工智能体系依靠于从各种网络泉源（如文章、册本和在线批评）中提取的大量数据来明白用户的查询并天生相应。
　　恒久以来，怎样获取更多的高质量数据成为人工智能公司的一大挑衅。由于数据在互联网上的可用性是有限的，这促使人工智能公司正寻求一种替换办理方案——合成数据（Synthetic data）。
　　合成数据，即人工智能体系天生的人工数据。科技公司通过使用本身的人工智能模子，天生合成数据（这也被以为是虚伪数据），然后将这些数据用以练习其体系的将来迭代。
　　谈及合成数据是怎样天生的，其过程包罗为人工智能模子设置特定参数和提示以创建内容，这种方法可以更准确地控制用于练习人工智能体系的数据。
　　比方，微软的研究职员向人工智能模子列出了四岁孩子可以或许明白的3000个词汇，然后，他们要求该模子利用词汇表中的一个名词、一个动词和一个形容词来创造一个儿童故事。通过几天时间内数百万次的重复提示，模子终极产生了数百万个短篇故事。
　　固然盘算中的合成数据并不是一个新概念，但天生式人工智能的鼓起促进了大规模创建更高质量的合成数据。
　　人工智能初创公司Anthropic首席实行官Dario Amodei将这种方法称为“无穷数据天生引擎”，旨在制止与传统数据收罗方法相干的一些版权、隐私等题目。
　　现有效例与分歧观点
　　现在，Meta、谷歌和微软等重要人工智能公司已经开始利用合成数据开辟高级模子，包罗谈天呆板人和语言处置惩罚器。
　　比方，Anthropic利用合成数据为其谈天呆板人Claude提供动力；谷歌DeepMind则利用这种方法来练习可以或许办理复杂多少题目的模子；与此同时，微软已经公开了利用合成数据开辟的小型语言模子。
　　有支持者以为，假如得当实行，合成数据可以产生正确可靠的模子。
　　然而，一些人工智能专家对与合成数据相干的风险表现担心。闻名大学的研究职员观察到了“模子瓦解”的例子，即在合成数据上练习的人工智能模子出现了不可逆转的缺陷，并产生了谬妄的输出。别的，有人担心合成数据大概会加剧数据集的毛病和错误。
　　剑桥大学博士Zakhar Shumaylov在一封电子邮件中写道，“假如处置惩罚恰当，合成数据会很有效。然而，对于怎样才气处置惩罚恰当，现在还没有明白的答案；有些私见对于人类来说大概很难察觉。”
　　别的，围绕对合成数据的依靠存在一场哲学辩说，人们对人工智能的本质提出了质疑——如若利用呆板合成的数据，那么人工智能是否照旧模拟人类智能的呆板？
　　斯坦福大学传授Percy Liang夸大了将真正的人类智能融入数据天生过程的紧张性，并夸大了大规模创建合成数据的复杂性。他以为，“合成数据不是真实的数据，就像你做梦登上了珠穆朗玛峰并不是真正登顶了一样。”
　　现在对于天生合成数据的最佳做法尚未告竣共识，这突出表明必要在这一范畴进一步研究和发展。随着该范畴的不停发展，人工智能研究职员和范畴专家之间的互助对于充实使用人工智能开辟合成数据的潜力至关紧张。
　　
（文章泉源：财联社）

AI“数据荒”怎么办？微软、谷歌等公司正利用“合成数据”练习AI ...

所属分类: 问答交流

新帖推荐: 30日

推荐作品