谁是中国版Sora

交流
zqueen 2024-5-14 14:26:44 776 0 来自 中国
  泉源:北京商报
  “面临Sora带来的挑衅,不妨让子弹再飞一会儿。”两个多月前,OpenAI又一记深水炸弹,以文生视频大模子Sora引爆环球,其时谈及国表里文生视频大模子的差距,伽利略资源合资人郑譞作出了如许一句评价。两个多月后,“预言”应验。先是生数科技团结清华大学发布了视频大模子Vidu,一度被外界形容为中国首个Sora级视频大模子,克日,亦有媒体报道称,智谱AI也正研发对标Sora的国产文生视频模子,最快年内发布。随着企业竞相入局,国内文生视频大模子显着进入加快阶段。但就像郑譞说的,Sora的出现并非技能上的突破,而在工程方面,国产大模子的差距实在并没有多远,“从本质上讲,场景大概是比工程突破更值得思索的一件事”。
  Sora之后
  克日,有媒体报道称,智谱AI正在研发对标Sora的高质量文生视频模子,预计最快年内发布。对此,北京商报记者接洽了智谱AI,对方表现该消息非官方信源消息,没有其他信息可以提供。
  公开资料表现,智谱AI由清华大学盘算机系技能结果转化而来,也是国内最早研发大模子的企业之一。本年1月,智谱AI发布新一代基座大模子GLM-4,智谱AI CEO张鹏曾先容称,GLM-4的团体性能相比上一代大幅提拔,迫近GPT-4。
  在此之前,国产文生视频大模子已经掀起过一波海潮。4月27日的2024中关村(4.430, -0.01, -0.23%)论坛年会上,清华大学团结生数科技正式发布中国首个长时长、高同等性、高动态性视频大模子Vidu,引发热议。
  据先容,Vidu是自Sora发布之后环球率先取得庞大突破的视频大模子,性能全面临标国际顶尖程度。
  “Vidu是全栈自主创新的最新结果,在多个维度上实现了技能突破,包罗可以模仿真实物理天下、具有想象力、可以明白多镜头语言而不再是简朴的镜头推拉、可以一键生发展达16秒的视频、人物场景时间保持高度同等性、可以明白中国元素。”其时,清华大学传授、生数科技首席科学家朱军先容称。
  对于外界最关心的,Vidu和Sora的对比,朱军也在现场做了展示,好比Sora在视频天生过程中丢掉了“旋转”这一关键词,但Vidu则能较好地捉住这一内容,实现视频视角的丝滑“旋转”。
  不外也有分析以为,Vidu的16秒与Sora的一分钟仍存在算力和工程方面的巨大差距,对此,有业内人士对北京商报记者提到,Vidu的架构自己充足支持更长时间的视频天生,生数科技也先容称,Vidu正在加快迭代提拔中。
  值得一提的是,智谱AI与生数科技均出自“清华一脉”。别的光年之外、月之暗面、百川智能、面壁智能等均有清华学子的影子。有媒体引用业内人士的分析称,清华系大模子公司的格局是以智谱AI为中央,结构人工智能上卑鄙。本年3月,生数科技公布完成新一轮数亿元融资,智谱AI就是跟投者之一。
  产物化才是关键
  究竟上,自Sora发布之后,国内文生视频范畴便已开始升温。比方Sora发布的2月,清华大学便公布了一项文生视频专利。同月,中国首部文生视频AI动画片《千秋诗颂》播出。而在Vidu发布的第二天,国内首个音视频多媒体大模子万兴“天幕”正式公测。
  据Gartner研究猜测,到2030年,90%的数字内容都将是AI天生。预计2032年,环球AIGC市场规模将由2022年的108亿美元增长至1181亿美元。
  经济学家、新金融专家余丰慧对北京商报记者分析称,文生视频的乐成构建意味着AI模子可以或许处置惩罚更高维度、更复杂的数据,并举行创造性表达,这表明模子正朝着明白和创造天下的差别层面演进,这与AGI所寻求的认知和决议本领更加靠近。
  “Sora如许的文生视频技能一旦成熟,理论上有大概颠覆传媒业、影视制作、游戏开辟、假造实际、广告创意、教诲等多个行业。它可以或许在短时间内根据用户需求主动天生高质量视频内容,大大低落创作本钱,进步生产服从。”余丰慧增补称。
  在担当北京商报记者采访时,郑譞提到,文生视频可以简朴类比身分镜脚本,使用文本信息天生关键帧,以帧与帧的画面团结形成一连视频。在这个过程中,更多属于工程上的创新,而非技能层面的颠覆性突破,这也意味着国表里大模子的差距不会太长,团体时间差距可以保持在半年之内。
  也是因此,比起工程上的突破,郑譞更关注的实在是应用场景。据他观察,AI短片在行业内的“票据”还非常小,更像是实行性子的实验,比之成熟的贸易制作“大片”另有很大差距,“根本可以忽略不计”。
  更缺的是推理算力
  企业竞相入局文生视频大模子,也引发出了另一个关键题目——算力。早在Sora发布后不久,360团体首创人周鸿祎就曾公开提到,Sora的技能门路假如被开源,国内将能很快赶上,但在追赶Sora时,算力有大概成为门槛。
  中信证券(19.110, -0.10, -0.52%)曾简朴估算,一个60帧的视频(约6—8秒)必要约6万个Patches,假如去噪步数是20的话,相称于要天生120万个Tokens。同时思量到扩散模子在现实利用时每每必要多次天生的特点,现实盘算量会远超120万个Tokens。
  天使投资人、资深人工智能专家郭涛对北京商报记者分析称,大模子的练习必要处置惩罚大量的数据和复杂的盘算。假如没有充足的算力,练习如许的模子将非常困难。其次,现在环球的算力资源是有限的,而且大部门会合在一些大型科技公司手中,这就使得其他公司大概研究机构在获取充足的算力资源方面面对挑衅。
  不久前,月之暗面的Kimi智能助手走红成为“小爆款”,因利用人数激增,Kimi App和小步伐一度出现无法正常利用的环境。其时中信建投(22.880, 0.15, 0.66%)层发布研报称,随着Kimi用户数连续提拔,已经出现短暂算力支持不敷的环境,思量后续模子练习和推理需求,预期算力需求会进一步提拔,动员算力需求落地。
  “推理算力很大概会是创投圈的下一个时机。”郑譞总结说。
  北京商报记者 杨月涵
                                股市回暖,抄底炒股先开户!智能定投、条件单、个股雷达……送给你>> IoUcgOoEuxKZUHlg.jpg
                                                                                                                                                                                                                                                                                                     Is9aA85ok8KVVpip.jpg
                海量资讯、精准解读,尽在新浪财经APP
            
                                                                        责任编辑:何松琳
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-9-17 03:54, Processed in 0.115199 second(s), 36 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表