清华团队提出“智能体医院”：大夫智能体可实现自我进化｜大模子周报 ...

沉默不是金 · 2024-5-14 14:26:44

本周值得关注的大模子 / AIGC 前沿研究：

清华团队提出“智能体医院”：大夫智能体可实现自我进化
清华、智谱AI 团队推出无穷超分辨率模子 Inf-DiT
具有 3D 明白本领的语言-图像模子
清华、智谱AI 团队推出代码评测基准 NaturalCodeBench
美团提出视频天生模子 Matten，接纳 Mamba-Attention 架构
留意力驱动的免练习扩散模子服从提拔
IBM 推出开源代码大模子 Granite
AWS 团队提出基于目的的幻觉基准 THRONE
“文生视频”新研究：多场景文生视频的时间对齐字幕
StyleMamba：高效文本驱动图像风格迁徙的状态空间模子

想要第一时间获取逐日最新大模子热门论文？扫描下方二维码，参加「大模子技能分享群」。或点击“阅读原文”，获取「2024 必读大模子论文」合集（包罗日报、周报、月报，连续更新中～）。

1.清华团队提出“智能体医院”：大夫智能体可实现自我进化
在这项工作中，来自清华大学的研究团队提出了一种名为“智能体医院”（Agent Hospital）的模仿医院，它可以模仿治疗疾病的整个过程。此中，全部病人、护士和大夫都是由大型语言模子（LLM）驱动的自主智能体。
该研究的焦点目的是让大夫智能体学会如安在模仿情况中治疗疾病。为此，研究团队提出了一种名为 MedAgent-Zero 的方法。由于仿真体系可以根据知识库和 LLM 模仿疾病的发生和发展，大夫智能体可以不停从乐成和失败的病例中积聚履历。
模仿实行表明，大夫智能体在各种使命中的治疗结果都在不停进步。更风趣的是，大夫智能体在“智能体医院”中得到的知识实用于实际天下的医疗保健基准。在治疗了约一万名患者后（实际天下中的大夫大概必要耗费两年多的时间），进化后的大夫智能体在涵盖重要呼吸体系疾病的 MedQA 数据集子集上到达了 93.06% 的正确率。
论文链接：
https://arxiv.org/abs/2405.02957

2.清华、智谱AI 团队推出无穷超分辨率模子 Inf-DiT
比年来，扩散模子在图像天生方面体现出了杰出的性能。然而，由于在天生超高分辨率图像（如 4096*4096）的过程中内存会二次增长，天生图像的分辨率每每被限定在 1024*1024。
在这项工作中，来自清华和智谱AI 的研究团队提出了一种单向块（unidirectional block）留意力机制，其可以在推理过程中自顺应地调解内存开销，并处置惩罚全局依靠关系。在此模块的底子上，他们接纳 DiT 布局举行上采样，并开辟了一种无穷超分辨率模子，可以或许对各种外形和分辨率的图像举行上采样。
综合实行表明，这一模子在天生超高分辨率图像方面到达了呆板和人工评估的 SOTA 性能。与常用的 UNet 布局相比，这一模子在天生 4096*4096 图像时可以节流 5 倍以上的内存。
论文链接：
https://arxiv.org/abs/2405.04312

3.具有 3D 明白本领的语言-图像模子
多模态大型语言模子（MLLMs）在各种 2D 视觉和语言使命中体现出了惊人的本领。来自德州大学奥斯汀分校、英伟达的研究团队将 MLLM 的感知本领扩展进了 3D 空间的图像基准（ground）和推理。
他们起首开辟了一个大规模的 2D 和 3D 预练习数据集——LV3D，该数据集将现有的多个 2D 和 3D 辨认数据集联合在一个共同的使命表述下：作为多轮题目解答；然后，他们提出了一种名为 Cube-LLM 的新型 MLLM，并在 LV3D 上对其举行了预练习。研究表明，纯粹的数据缩放可以产生强盛的 3D 感知本领，而无需特定的 3D 架构计划或练习目的。
别的，Cube-LLM 具有与 LLM 相似的特性：1）Cube-LLM 可以应用头脑链提示，从 2D 上下文信息中进步 3D 明白本领；2）Cube-LLM 可以遵照复杂多样的指令，并顺应多种输入和输特别式；3）Cube-LLM 可担当视觉提示，如专家提供的 2D box 或一组候选 3D box。
室外基准测试表明，Cube-LLM 在 3D 底子推理 Talk2Car 数据集和复杂驾驶场景推理 DriveLM 数据集上的体现，显着优于现有基准，分别比 AP-BEV 高出 21.3 分和 17.7 分。别的，Cube-LLM 还在 MLLM 基准（如用于 2D 底子推理的 refCOCO）以及视觉题目解答基准（如用于复杂推理的 VQAv2、GQA、SQA、POPE 等）中表现出具有竞争力的效果。
论文链接：
https://arxiv.org/abs/2405.03685
项目地点：
https://janghyuncho.github.io/Cube-LLM/

4.清华、智谱AI 团队推出代码评测基准 NaturalCodeBench
大型语言模子（LLM）在为生产运动天生代码方面体现出强盛的本领。然而，现在的代码合成基准，如 HumanEval、MBPP 和 DS-1000，重要面向算法和数据科学的入门使命，不能充实满意实际天下中广泛存在的编码挑衅要求。
为了弥补这一空缺，来自清华大学和智谱AI 的研究团队提出了天然代码基准（NaturalCodeBench，简称 NCB），这是一个具有挑衅性的代码基准，旨在反映真实编码使命的复杂性和场景的多样性。
据先容，NCB 由 402 个 Python 和 Java 中的高质量题目构成，这些题目都是从在线编码服务的天然用户查询中经心挑选出来的，涵盖 6 个差别的范畴。思量到为真实天下的查询创建测试用例非常困难，他们还提出了一个半主动化管道，从而进步测试用例构建的服从。与人工办理方案相比，其服从进步了 4 倍多。
他们在 39 个 LLM 上举行的体系实行发现，HumanEval 分数靠近的模子之间在 NCB 上的性能差距仍旧很大，这表明我们对现实代码合成场景缺乏关注，大概对 HumanEval 举行了过分优化。另一方面，纵然是性能最好的 GPT-4 在 NCB 上的体现也远远不能令人满足。
论文链接：
https://arxiv.org/abs/2405.04520
GitHub 地点：
https://github.com/THUDM/NaturalCodeBench

5.美团提出视频天生模子 Matten，接纳 Mamba-Attention 架构
在这项工作中，来自美团的研究团队提出了一种接纳 Mamba-Attention 架构、用于视频天生的潜伏扩散模子——Matten。Matten 接纳空间-时间留意力举行局部视频内容建模，接纳双向 Mamba 举行全局视频内容建模，盘算本钱低。
综合实行评估表明，在基准性能方面，Matten 与当前基于 Transformer 和 GAN 的模子相比具有很强的竞争力，可得到更高的 FVD 分数和服从。别的，他们还观察到所计划模子的复杂度与视频质量的改善之间存在直接的正相干关系，这表明 Matten 具有精彩的可扩展性。
论文链接：
https://arxiv.org/abs/2405.03025
6.留意力驱动的免练习扩散模子服从提拔
扩散模子（DMs）在天生高质量和多样化的图像方面体现出良好的性能。
然而，这种杰出的性能以昂贵的架构计划为代价，特殊是在领先模子中大量利用了 attention 模块。现有工作重要接纳再练习流程来进步数据发掘服从。这在盘算上是昂贵的，且不太可扩展。
为此，来自普林斯顿大学和 Adobe 的研究团队提出了留意力驱动的免练习高校扩散模子（AT-EDM）框架，其使用留意力图来实行冗余 Token 的运行时修剪，而不必要任何再练习。详细来说，对于单步去噪修剪，他们开辟了一种新的排序算法—— 通用加权页面排序（G-WPR），从而辨认冗余的 Token，以及一种基于相似性的方法去规复卷积操纵的 Token。别的，他们还提出了一种去噪步调感知的剪枝（DSAP）方法，来调解差别去噪时间步的剪枝预算，从而得到更好的天生质量。
广泛的评估表明，AT-EDM 在服从方面优于现有技能（比方，与 Stable Diffusion XL 相比，节流了 38.8% 的 FLOPs 和高达 1.53 倍的加快），同时保持与完备模子险些雷同的 FID 和 CLIP 分数。
论文链接：
https://arxiv.org/abs/2405.05252
GitHub 地点：
https://atedm.github.io/
7.IBM 推出开源代码大模子 Granite
颠末代码练习的大型语言模子（LLM）正在彻底改变软件开辟过程。为了进步人类步伐员的工作服从，越来越多的代码 LLM 被集成到软件开辟情况中，而基于 LLM 的智能体也开始表现出自主处置惩罚复杂使命的远景。要充实发挥代码 LLM 的潜力，必要具备广泛的本领，包罗代码天生、修复错误、表明和维护资源库等。
在这项工作中，IBM 团队提出了用于代码天生使命的纯解码器 Granite 系列代码模子，这些模子是用 116 种编程语言编写的代码练习而成的，由巨细从 30 亿到 340 亿个参数不等的模子构成，实用于从复杂的应用当代化使命到装备内存受限用例等各种应用。
对一整套使命的评估表明，在现有的开源代码 LLM 中，Granite 代码模子的性能始终处于领先程度。别的，Granite 代码模子系列针对企业软件开辟工作流程举行了优化，在一系列编码使命（如代码天生、修正息争释）中体现精彩。别的，团队已在 Apache 2.0 允许下发布了全部 Granite 代码模子，供研究和贸易利用。
论文链接：
https://arxiv.org/abs/2405.04324
8.AWS 团队提出基于目的的幻觉基准 THRONE
在大型视觉语言模子（LVLM）中淘汰幻觉仍旧是一个未办理的题目。现在的基准并没有办理开放式自由答复中的幻觉题目，即“第一类幻觉”，相反，其关注的是对非常详细的题目格式做出反应的幻觉——通常是关于特定对象或属性的多项选择反应——即“第二类幻觉”。别的，此类基准通常必要外部 API 调用模子，而这些模子大概会发生变革。
在实践中，来自 AWS 和牛津大学的研究团队发现，淘汰第二类幻觉并不会导致第一类幻觉的淘汰，相反，这两种情势的幻觉每每互不相干。为了办理这个题目，他们提出了 THRONE，这是一个基于对象的新型主动框架，用于定量评估 LVLM 自由情势输出中的第一类幻觉。
他们利用公共语言模子来辨认 LVLM 反应中的幻觉，并盘算相干指标。通过利用公共数据集对大量最新的 LVLM 举行评估，他们发现，现有指标的改进并不会导致第一类幻觉的淘汰，而且现有的第一类幻觉丈量基准并不完备。末了，他们提供了一种简朴有用的数据加强方法，从而淘汰第一类和第二类幻觉，并以此作为强有力的基准。
论文链接：
https://arxiv.org/abs/2405.05256

9.“文生视频”新研究：多场景文生视频的时间对齐字幕
文生视频（T2V）模子可以在文本提示的条件下天生高质量的视频。这些 T2V 模子通常产生单场景视频片断，形貌实行特定动作的实体（好比，一只小熊猫爬树）。然而，天生多场景视频黑白常紧张的，由于它们在实际天下中无处不在（好比，一只小熊猫爬上树，然后睡在树顶上）。
为了从预练习的 T2V 模子天生多场景视频，来自加州大学洛杉矶分校和谷歌的研究团队提出了时间对齐字幕（TALC）框架，加强了 T2V 模子中的文本条件作用机制，从而辨认视频场景和场景形貌之间的时间对齐。比方，他们用第一个场景形貌（一只小熊猫在爬树）和第二个场景形貌（小熊猫睡在树顶上）的表现对天生视频的早期和后期场景的视觉特性举行条件束缚。T2V 模子可以天生符合多场景文本形貌的多场景视频，并在视觉上保持同等（如实体和配景）。
别的，他们利用 TALC 框架用多场景视频-文本数据对预练习的 T2V 模子举行微调。研究表明，用 TALC 微调的模子在总分数上比基线方法高出 15.5 分。
论文链接：
https://arxiv.org/abs/2405.04682
GitHub 地点：
https://talc-mst2v.github.io/

10.StyleMamba：高效文本驱动图像风格迁徙的状态空间模子
来自帝国理工学院、芬兰奥卢理工大学和戴尔的研究团队提出了一种有用的图像风格迁徙框架——StyleMamba，其可以或许将文本提示翻译为相应的视觉风格，同时保存原始图像的内容完备性。
现有的文本引导样式化必要数百次练习迭代，而且必要大量的盘算资源。为加速这一过程，他们提出了一种条件状态空间模子 StyleMamba，用于有用的文本驱动图像风格迁徙，按次序将图像特性与目的文本提示对齐。为了加强文本和图像之间的局部和全局风格同等性，他们提出了掩码和二阶方向丧失来优化风格化方向，将练习迭代次数明显淘汰5次，推理时间明显淘汰3次。
广泛的实行和定性评估证明，与现有的基线相比，所提出方法到达了 SOTA。
论文链接：
https://arxiv.org/abs/2405.05027

｜点击关注我记得标星｜

清华团队提出“智能体医院”：大夫智能体可实现自我进化｜大模子周报 ...

所属分类: 问答交流

新帖推荐: 30日

推荐作品