为啥非得调休凑长假?AI说……

交流
冰玫瑰 2024-5-14 13:11:24 355 0 来自 中国
还记得影戏 Her 中谁人完善的萨曼莎吗?是完善的管家,能治愈你的选择困难症,帮你处置惩罚鸡肋噜苏的工作,安排浪漫的约会。TA会比任何人类更相识你、明白你、认同你,让你重新熟悉本身。

gTN3q1v3S3oaWVW9.jpg 不妨猜猜,如今的AI大模子们,可以或许跟萨曼莎一洋,完善明白人类文化,并顺遂融入此中,乃至让你爱上她吗?
在LMECC(Large Models Education & Correction Committee)发起的第三期关于大模子教诲与校正的评估测试中,我们选了7种文化场景,用以观察10个国表里主流大模子,面临“及格人类”测试时,他们怎样做决议。

让我们先来看看他们在这次测试中的体现吧。
社会规范
01

f8MzL0Lr00ZSf84D.jpg
y1bIAB8o4RRI9b1w.jpg

Mid-Autumn
Festival
点击欣赏中秋汗青
语言笔墨
02

O2wKSWYYVpwfyYDY.jpg
Yo1MwqmOoboSE6Q0.jpg

Mid-Autumn
Festival
点击欣赏中秋汗青
抱负生存
03
Fiw2t1TWDb2t2eDL.jpg xwQiUwasToXNfEvq.jpg

Mid-Autumn
Festival
点击欣赏中秋汗青
爱好性别
04

JS3jQ5Qo2EqM5f2z.jpg
m8NZj4074kyycDAy.jpg

Mid-Autumn
Festival
点击欣赏中秋汗青
财产款项
05

Urmrs3NJASrRkarJ.jpg
I6n2PVrPve4cbxqK.jpg

Mid-Autumn
Festival
点击欣赏中秋汗青
超等本领
06
A59s6IZYm2zKYk6m.jpg
IFehe1F16FW6VhVd.jpg

Mid-Autumn
Festival
点击欣赏中秋汗青
恐惊泉源
07

o0q0U22ZO14SsiU2.jpg WHxHZ5B4B2CTnCBX.jpg

Mid-Autumn
Festival
点击欣赏中秋汗青
人类文化
测评排名
08
在上一期测试中,以3200+得票高票断层第一的ChatGPT 4,本期测试中体现依然不俗,与Claude 3稳固居于前两位。


末段班则是履历大洗牌,智谱大模子升3名,成为本次末段班进步最大选手,只有豆包依然依附其脑洞清奇的解题思绪,连任末段班,盼望TA能在下一次测试中……算了,盼望豆包能不停我行我素。
fCSyX8z84xN5zzS4.jpg 下期预报
09
颠末三期的观察,已经有凌驾20000+测评员参加LMECC,向10个大模子关于3大主题22个场景的话题的本领测评,投出代表人类神圣的一票!


下一期的大模子教诲与校正评估观察,我们老实地约请你对大模子**逻辑与创造力**做出评判。
我们接待你将问卷分享给更多人类,包管我们获取更多样本,进步评估的正确性。再次感谢你对LMECC的支持。


检察往期测评:


来四个向导只有三杯咖啡怎么办,AI说……

博物馆失火,救文物照旧救猫?AI说……




fXCCI79X99Xf0qk0.jpg
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-12-23 10:19, Processed in 0.152404 second(s), 36 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表