UC伯克利：LLM准中文排行榜出炉 GPT-4稳居第一 Claude超越GPT-3.5位列第二环球速看

首页 > 资讯 > > 内容

UC伯克利：LLM准中文排行榜出炉 GPT-4稳居第一 Claude超越GPT-3.5位列第二环球速看

发表时间：2023-05-19 21:14:53 来源：199IT

现在大语言模型们也要像王者荣耀 / LoL / Dota 这些游戏里的玩家一样打排位赛了！

前段时间，来自 LMSYS Org（UC 伯克利主导）的研究人员搞了个大新闻 —— 大语言模型版排位赛！

(资料图)

这次，团队不仅带来了 4 位新玩家，而且还有一个（准）中文排行榜。

OpenAI GPT-4OpenAI GPT-3.5-turboAnthropic Claude-v1RWKV-4-Raven-14B（开源）

毫无疑问，只要 GPT-4 参战，必定是稳居第一。

不过，出乎意料的是，Claude 不仅超过了把 OpenAI 带上神坛的 GPT-3.5 位列第二，而且只比 GPT-4 差了 50 分。

相比之下，排名第三的 GPT-3.5 只比 130 亿参数的最强开源模型 Vicuna 高了 72 分。

而 140 亿参数的「纯 RNN 模型」RWKV-4-Raven-14B 凭借着卓越的表现，超越一众 Transformer 模型排到了第 6—— 除 Vicuna 模型外，RWKV 在与所有其他开源模型的非平局比赛中赢得了超过 50% 的比赛。

此外，团队还分别制作了「仅英语」和「非英语」（其中大部分是中文）这两个单独的排行榜。

可以看到，不少模型的排位都出现了明显的变化。

比如，用更多中文数据训练的 ChatGLM-6B 确实表现更好，而 GPT-3.5 也成功超越 Claude 排到了第二的位置。

本次更新的主要贡献者是盛颖、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez 和 Ion Stoica。

盛颖是 LMSYS Org 的 3 个创始人之一（另外两位是 Lianmin Zheng 和 Hao Zhang），斯坦福大学计算机科学系的博士生。

她也是之前爆火的、可以在单 GPU 上可以跑 175B 模型推理的系统 FlexGen 的一作，目前已获 8k 星。

论文地址：https://arxiv.org/ abs / 2303.06865

项目地址：https://github.com/ FMInference / FlexGen

个人主页：https://sites.google.com/ view / yingsheng / home

「开源」VS「闭源」

在社区的帮助下，团队共收集了 13k 条匿名投票，并且有了一些有趣的发现。

专有与开源的差距

在三个专有模型中，Anthropic 的 Claude 模型比 GPT-3.5-turbo 更受用户欢迎。

而且，Claude 在与最强大的 GPT-4 竞争时，也表现得非常有竞争力。

从下面这个胜率图来看，GPT-4 和 Claude 之间的 66 场非平局比赛中，Claude 赢得了 32 场（48%）比赛。

所有非平局 A vs B 对战中，模型 A 胜利的比例

然而，其他开源模型与这三个专有模型之间，依然存在着很大的差距。

特别是，GPT-4 以 1274 的 Elo 分数领跑排行榜。这比榜单上最好的开源替代 ——Vicuna-13B—— 要高出近 200 分。

在去掉平局后，GPT-4 在与 Vicuna-13B 对战时赢得了 82% 的比赛，甚至在与前一代 GPT-3.5-turbo 对战时赢得了 79% 的比赛。

然而，值得注意的是，排行榜上的这些开源模型通常具有比专有模型更少的参数，范围在 30 亿 – 140 亿之间。

实际上，最近在 LLM 和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。

谷歌的最新 PaLM 2 就是一个很好的例子：我们知道 PaLM 2 在使用较小模型大小时，比其前一代实现了更好的性能。

因此，团队对开源语言模型迎头赶上充满乐观。

GPT-4 在何时会「翻车」？

在下图中，用户提出了一个需要仔细推理和规划的棘手问题。虽然 Claude 和 GPT-4 提供了类似的答案，但 Claude 的回应稍微好一些。

然而，由于采样的随机性，团队发现这种情况并不能总能复刻。有时 GPT-4 也能像 Claude 一样给出相同的顺序，但在这次生成试验中失败了。

另外，团队注意到，当使用 OpenAI API 和 ChatGPT 接口时，GPT-4 的行为略有不同，这可能是由于不同的提示、采样参数或其他未知因素导致的。

用户更喜欢 Claude 而不是 GPT-4 的一个例子

在下图中，尽管 Claude 和 GPT-4 都具有惊人的能力，但它们仍在处理这类复杂的推理问题上挣扎。

一个用户认为 Claude 和 GPT-4 都错了的例子

除了这些棘手的情况，还有许多并不需要复杂推理或知识的简单问题。

在这种情况下，像 Vicuna 这样的开源模型可以与 GPT-4 表现相当，因此我们可能可以使用稍微弱一些（但更小或更便宜）的大型语言模型（LLM）来替代像 GPT-4 这样更强大的模型。

Elo 分数的变化

自从三个强大的专有模型参与以来，聊天机器人竞技场的竞争从未如此激烈。

由于在与专有模型对战时，开源模型输掉了不少比赛，因此它们的 Elo 分数都有所下降。

最后，团队还计划开放一些 API，让用户可以注册自己的聊天机器人来参加排位赛。

自新智元

标签：

UC伯克利：LLM准中文排行榜出炉 GPT-4稳居第一 Claude超越GPT-3.5位列第二 环球速看

「开源」VS「闭源」

专有与开源的差距

GPT-4 在何时会「翻车」？

Elo 分数的变化

UC伯克利：LLM准中文排行榜出炉 GPT-4稳居第一 Claude超越GPT-3.5位列第二 环球速看

手机操控电脑连接方法_手机操控电脑

当前热门：苹果AR/VR专利：利用彩色指示灯提示VST相机开启状态

川渝红十字应急救援联合演练在绵阳举行 环球速讯

收关！海南消防2023年指挥员及站级作战力量对抗比武圆满闭幕！|微速讯

卧室墙纸怎么贴_墙纸怎么贴

每日精选：ST中利: 关于被债权人申请重整及预重整的进展公告

你朋友日常生活中有不健康行为吗？对身体会有什么危害？|世界热资讯

世界微头条丨机票、酒店、景区都很热！“五一”国内游预订全线超越2019年

天天报道:“黔系列”民族文化产业品牌精品馆在省民族博物馆开馆

金融直播平台的优势有哪些？来和有因直播一起了解吧！_世界讯息

抖音复制别人的视频怎么去掉抖音号 抖音复制别人的视频怎么去掉抖音号码 今日热文

库伯联盟学院_库伯_全球观天下

网传戏骨罗嘉良患肝癌晚期，在医院到生命末期，本人首度出面回应 全球热文

【世界速看料】彻底凉凉？媒体人曝孙准浩获刑板上钉钉，中超豪门9月或罚分降级

帕萨特1.8t发动机示意图 新帕萨特发动机舱示意图

放鞭炮的寓意和由来（放鞭炮的寓意）

盗窃工地钢筋，有人帮助还有人顶罪？三人均被判刑

纽卡4-1布莱顿 威洛克乔林顿受伤下轮出战存疑 今日关注

美国防部对乌军援谎报价格？五角大楼回应

焦点信息:三国志战略版如何安排内政武将 三国志战略版如何安排内政武将任务

今亮点！告别高价位 集采价格落地，“种牙”费用下降明显

中国黄金国际：已及时采取措施减少存放于中金财务的存款至存款上限内水平

飞机逆风起降

管道内外径符号（管道外径符号怎么输入）

世界热点！搅屎棍？布莱顿近4场：1-0曼联、1-5埃弗顿、3-0阿森纳、1-4纽卡

肉类消费进入淡季，全国猪肉价格低位运行

朶怎么读_朶

湖人真找到翻盘密码了？给紫金军泼盆凉水 约基奇有足够多手段破局 世界速讯

金都城：弱势下探，晚间反抽依旧是空！ 资讯推荐

成品油价格持续飙升 近20家新能源车企上调售价

广西百色宣布解除“不进不出”管控措施

2月15日零时起 苏州市关闭15个高速公路入口

“95后”羌族货运员的春运：为中欧班列尽一份力

养牛场里的“春节时光”

广西靖西市两地调整为中风险地区

苏州市多地调整为中风险地区

云南2月14日新增无症状感染者6例

实体书店为什么接二连三遭遇危机？生存之道在哪

卜卦、占星、看手相…… 为什么有的年轻人总想算一卦

一言不合放火烧家 任性女子被判刑

新疆阿克苏地区库车市发生3.4级地震 震源深度7千米

应急管理部：1月全国接报生产安全事故死亡超1100人

江苏省省长：苏州市要把疫情防控作为头等大事、第一要务

广西新增确诊病例降至1例 百色市有序解除管控

UC伯克利：LLM准中文排行榜出炉 GPT-4稳居第一 Claude超越GPT-3.5位列第二环球速看

UC伯克利：LLM准中文排行榜出炉 GPT-4稳居第一 Claude超越GPT-3.5位列第二环球速看

川渝红十字应急救援联合演练在绵阳举行环球速讯

抖音复制别人的视频怎么去掉抖音号抖音复制别人的视频怎么去掉抖音号码今日热文

网传戏骨罗嘉良患肝癌晚期，在医院到生命末期，本人首度出面回应全球热文

帕萨特1.8t发动机示意图新帕萨特发动机舱示意图

纽卡4-1布莱顿威洛克乔林顿受伤下轮出战存疑今日关注

焦点信息:三国志战略版如何安排内政武将三国志战略版如何安排内政武将任务

今亮点！告别高价位集采价格落地，“种牙”费用下降明显

湖人真找到翻盘密码了？给紫金军泼盆凉水约基奇有足够多手段破局世界速讯

金都城：弱势下探，晚间反抽依旧是空！资讯推荐

成品油价格持续飙升近20家新能源车企上调售价

2月15日零时起苏州市关闭15个高速公路入口

一言不合放火烧家任性女子被判刑

新疆阿克苏地区库车市发生3.4级地震震源深度7千米

广西新增确诊病例降至1例百色市有序解除管控