OpenAI放了一个大招,这才是真正的语音助手

交流
匶鱫 2024-5-14 14:26:44 966 0 来自 中国
专题:OpenAI 发布最新旗舰模子GPT-4o 完全免费 语音功能震撼登场
                                                                                                                                                                                                                                                                                                                                                                                                                  泉源:数智火线
STJ9PtBaU12Ub19b.jpg
  在已往的几年里,我们不停非常专注于进步这些模子的智能......但这是我们第一次在易用性方面真正迈出一大步。
  文|周路平
  编|游勇
  继文生视频模子Sora之后,Open AI再一次给外界带来惊喜。这一次,Open AI向众人显现了强盛且丝滑的语音对话等多模态本领。
  北京时间5月14日破晓1点,在谷歌开辟者大会前一天,预热已久的Open AI正式向公众发布了语音大模子GPT-4o(omnimodle,万能模子),可以综合使用语音、文本和视觉信息举行推理,饰演一个个人语音交相助手。而且,Open AI将会对这一模子免费向公众开放。
  除了全新的大模子,Open AI也正式公布推出ChatGPT桌面版,“从本日开始,我们将起首向Plus用户推出macOS应用,并在将来几周内向更广泛的用户开放。我们还筹划在本年晚些时间推出Windows版本。”
  01
  情绪化、对话丝滑,结果令人震撼
  发布会全程只连续了26分钟,Open AI CEO奥特曼没有现身,由公司CTO和两位工程师来发布。它的界面是一个巨大的斑点,但现场演示的几个GPT4o对话场景却令人感到惊艳。
  整个对话的过程非常丝滑,不但能说能听能看,还会有感情的变革,就像是和一个真实的人在打视频电话。
  而通过Open AI现场演示的几个场景,我们也仿佛看到了《Her》的局面,科幻正在成为实际。
  场景一:缓解感情
  演示高朋说本身如今有点告急要怎样缓解,大模子立马安抚他别告急,慢下来,可以深呼吸。然后演示高朋故意做出非常浮夸且仓促的呼吸声。大模子很快改正了这种不精确的呼吸方式,在它的引导下怎样迟钝地呼气和吸气。
  场景二:讲睡前故事
  要求大模子讲一个关于呆板人(10.830, 0.24, 2.27%)与爱的睡前故事。合法大模子讲得正努力时,主持人赶紧打断,提作声音要更有感情,大模子很快切换到了非常有戏剧性的声音。效果话还没说完,一位高朋接过话题,提作声音必要更有打击力,大模子便以一种非常浮夸的口气继承报告着刚才的睡前故事。但是,对大模子的磨练还没有竣事,另一位高朋又提出要切换到呆板人的声音。很快,大模子就开始模拟呆板人的腔调继承报告。终极,大模子被要求以演唱一首歌竣事了对话。
  场景三:解代数方程
  演示高朋在纸上写了一个简朴的方程式,要求语音助手通过摄像头得到视觉本领后,及时视频引导数学解题。
  大模子刚开始还出现了“幻觉”,在没打开摄像头时就自大满满地说明白了。当演示高朋提示后,她才说“oops,我太高兴了。”然后大模子一步一步提示和解说他的解题思绪。整个过程,大模子就像一个很有履历且富有耐烦的数学老师。
  妈妈再也不消担心我的学习了。
ePuifAz2JCklMn9u.jpg
  场景四:根据外表判定感情
  演示高朋拿动手机摄像头对着本身的脸和大模子对话,大模子很快通过辨认视频中的人物心情给出了本身的判定。大模子说,你看起来很开心,带着辉煌光耀的笑脸,乃至有一丝高兴,你能分享你快乐的泉源吗?当演示高朋说,开心是由于要展示你多么有效和强盛时,大模子乃至体现出了一丝丝的娇羞。
  在这个场景的演示中还出现了一个插曲,演示高朋一开始打开的是后置摄像头,拍到的是一张桌子,大模子说“这看起来像是一个木板的外貌”。演示高朋很快说本身拍错了画面,然后转换成前置摄像头开始自拍,大模子也快速反应过来。
V4oZOccpoG5COonG.jpg
  总结一下Open AI语音大模子在演示中的几个特点:
  一是快,快速反应,险些没偶然延,而且语速跟正凡人没有差异,仿佛在跟一个真实的人类在打电话。而此前,用户利用语音功能与ChatGPT对话时,GPT-3.5的均匀耽误为2.8秒,GPT-4为5.4秒。
  二是可以随时打断,不消等它答复完,直接打断,也能快速接着最新的话题往下聊,非常丝滑;
  三是可以捕获感情变革,好比能判定对方仓促的呼吸方式不对。而且也可以饰演差别的脚色,好比戏剧性的语气,大概酷寒的呆板人的声音,切换自若。
  四是多模态的本领很强,好比你可以用意大利语提问,然后要求对方用英语答复,好比可以写一个方程式,语音助手可以通过手机摄像头辨认后,一步步教你解题步调。乃至还可以用摄像头对着本身,语音助手可以辨认图像来判定你如今的感情。从“软件代码中发生了什么?”到“这个人穿什么牌子的衬衫?”,大模子都能通过多模态的本领,很好地答复。
  Open AI 首席技能官穆里·穆拉蒂 (Muri Murati) 表现,GPT-4o将提供与GPT-4划一程度的智能,但在文本、图像以及语音处置惩罚方面均取得了进一步提拔,“GPT-4o可以综合使用语音、文本和视觉信息举行推理。”
  对于这一模子,Open AI并没有像Sora一样,迟迟未对公众开放利用。Open AI公布GPT-4o将在将来几周内分阶段集成至Open AI的各个产物之中。更关键的是,GPT-4o将免费提供给全部用户利用,付费用户则可以享受五倍的调用额度。
  同时,Open AI同步开放了最新大模子的API接口的调用,代价方也自制不少。GPT-4o的代价是GPT-4-turbo的一半,速率是GPT-4-turbo的两倍。
  不外,GPT-4o的API接口并非向全部客户开放。Open AI以滥用风险为由,表现筹划在将来几周内起首向“一小群值得信任的互助同伴”推出对GPT-4o新音频功能的支持。
  02
  AI搜刮没来,但桌面版ChatGPT来了
  这次的发布根本坐实了一个究竟,那就是苹果的语音助手Siri将引入ChatGPT,GPT-4o强盛的语音对话本领对Siri是个巨大的提拔。而且,Open AI的发布会演示过程中也出现了大量苹果的装备。
  不外,令人遗憾的是,此前外界盛传已久的ChatGPT搜刮产物没有出现。
  在此之前,外界一度盛传Open AI将发布AI搜刮的功能,包罗有媒体拿到了ChatGPT Search的提前体验版本——界面仍旧是对话交互,但ChatGPT在答复时会利用网络信息举行答复。
  以是,一度有消息称,ChatGPT的搜刮功能会在5月10日上线,但终极照旧被放了鸽子,ChatGPT CEO奥特曼回应称,不会有GPT5,也不会有搜刮产物。
  但不少用户发现,ChatGPT已经可以答复最新的信息,好比当天的股票大概气候,而且都是正确的信息。ChatGPT可以答复网址,可以跳转链接,时不时也可以提供最新的数据。但这与真正的AI搜刮相差甚远。
  昆仑万维(37.540, -0.52, -1.37%)CEO方汉以为,用户涨不上去是Open AI如今最头疼的事变。“现在看到的产物形态上来讲,Open AI的搜刮产物,并没有对国内外全部的搜刮引擎产物,形成碾压,形成 SOTA(state-of-the-art,最佳体现),发布这个产物,大概会让用户有一点增长,但不会让用户翻倍增长。以是我以为,这是在 Google I/O 前对谷歌的一次战略偷袭,它的根本战术上,照旧在等候和筹办 GPT-4.5。”
  “Open AI无论发布什么新产物,都是在给ChatGPT的强盛本领重新界说场景,在找新的产物出路。”360董事长周鸿祎也以为,Open AI在做场景的紧缩和聚焦,假如大模子有一万种本领,而不要去答应有一万种场景,而是在大模子中精选几十种大概几百种本领,聚焦到一两个比力明白的场景上。
  在此之前,Open AI发布了GPT的应用市肆,通过GPTs让用户来界说场景,现在GPTs的数目凌驾了百万,但却遭到了不少用户的吐槽,一方面Open AI不上心,另一方面也缺少客户。正如周鸿祎说,GPTs界说的场景太多太碎,也不算乐成。Open AI也必要探索,做出几个典范的大模子驱动的产物,这个产物要明白界说用户利用的场景。
  不外相比于探求场景,Open AI这次发布了桌面版的ChatGPT和新的用户界面,美满ChatGPT的协作本领。“我们熟悉到这些模子正变得越来越复杂,” 穆拉蒂说道,“但我们盼望用户与人工智能模子的交互体验可以或许更加天然、轻松,让用户可以将留意力完全会合在与模子的协作上,而无需在意界面自己。”
  好比,用户可以通过Option + 空格键向ChatGPT提问,而且可以在应用内截取和讨论屏幕截图。
  “我们知道,随着这些模子变得越来越复杂,我们盼望交互体验变得更加天然,”穆拉蒂说。“这是我们第一次在易用性方面真正迈出一大步。”
  上一次,Open AI用Sora偷袭了谷歌的Gemini,这一次Open AI再一次选择谷歌开辟者大会的前一天开释大招,面临有气力又善于PR的奥特曼,谷歌又将怎样应对,嫡的谷歌开辟者大访问分晓。
                                                                                                                                                                                                                                                                                                     OrV7DvsVoORHVZyh.jpg
                海量资讯、精准解读,尽在新浪财经APP
            
                                                                        责任编辑:尉旖涵
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-9-17 03:51, Processed in 0.159257 second(s), 39 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表