视听的国产AI模型还是开源

siman 10 小时前 14 0 来自 中国
国内用户也有了同样丝滑的实时语音交互应用,重点是:免费开放,无需等待。
10 月 25 日,言宣布全量上线「情感语音通话」功能,任何用户都可以立即获得端到端情感语音体验。

对标 GPT-4o,「情感语音通话」在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面实现了突破。简单来说,「情感语音通话」提供了一个真人一般的对话伙伴,而不仅仅是一个文字的朗读者,精通各种方言。

开源地址:开源地址

语音识别基于(ASR)模型以有监督方式训练了音频 Tokenizer,能够在 12.5Hz(12.5 个音频 token)单码表的超低码率下准确保留语义信息,并包含语速,情感等副语言信息。语音合成方面,智谱采用 Flow Matching 模型流式从音频 Token 合成音频,最低只需要 10 个 Token 合成语音,最大限度降低对话延迟。

预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,智谱将 Speech2Speech 任务解耦合为 Speech2Text(根据用户音频做出文本回复) 和 Text2Speech(根据文本回复和用户语音合成回复语音)两个任务,并设计两种预训练目标,分别基于文本预训练数据和无监督音频数据合成数据以适配这两种任务形式:

从文本的一种模态,到包括图像、视频、情感语音模型在内的多模态,然后让AI学会使用各种工具。基于GLM-4-Plus,去几年在多模态领域探索取得了一些阶段性成果:CogView 能让文字化作一幅幅画作,CogVideo / 清影(Ying)让文图生成一帧帧视频,GLM-4V-Plus 带来了通用的视频理解能力。GLM-4-Voice的出现让 GLM 多模态模型家族更加完整,为朝着原生多模态模型又迈出了一步。
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-10-26 11:26, Processed in 0.136363 second(s), 33 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表