Author: ninehills
Labels: blog
Created: 2023-06-27T06:30:11Z
Link and comments: #96
最近 C-Eval 有较多中文开源模型打榜,分数一度超越 GPT-4,今天做一下简单的复盘。
首先排名靠前的几位全部是封闭模型,连API也不对外提供,无法进行评测。
![image](https://private-user-images.githubusercontent.com/270298/249049939-dc2c0987-7079-42bd-a168-d888b6134dc8.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkxOTAxODMsIm5iZiI6MTczOTE4OTg4MywicGF0aCI6Ii8yNzAyOTgvMjQ5MDQ5OTM5LWRjMmMwOTg3LTcwNzktNDJiZC1hMTY4LWQ4ODhiNjEzNGRjOC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMjEwJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDIxMFQxMjE4MDNaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT1hZWY3YzQ5NzMyNzU0NDE2OWE4NmE1MmU5MWEyM2I3MjRlNmI0NjYyZThjZjkwN2M5ODNjMzEzYTkzNDNjNzA2JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.Z8IOxCvLu5yzQXq1VT1UWkaXEC0Dh3WM9o3Xbn0DR24)
顺序找下去,发现 ChatGLM2-6B 可以用,来做一次简单的分析。
评测大模型的能力,最难的莫过于逻辑能力和数学能力,我们用 ChatGPT 3.5对比,根据 C-Eval 官方榜单的详细评测项目:
模型 | Probability and Statistics | High School Mathematics | Logic |
---|---|---|---|
ChatGPT | 33.7 | 34.3 | 37.7 |
ChatGLM2-6B | 25.9 | 32.5 | 36.3 |
注:此处注意题目都是单项选择题,也就是最低得分是 25分。
可以发现 ChatGLM2-6B 总的来说和 ChatGPT 区别不大,可喜可贺。我们选择分数最为接近的 Logic ,用 c-eval 官方提供的验证数据集(有答案)共 21 道题中随机选5道题,进行 Zero-shot 对比。同时用我觉得中文模型数学和逻辑能力还不错的讯飞星火做对比。
题目编号 | ChatGPT | ChatGLM2-6B | 讯飞星火 | 正确答案 |
---|---|---|---|---|
0 | C | A | D | C |
2 | D | C | D | D |
4 | B | A | A | B |
8 | D | A | A | B |
20 | A | C | A | D |
3:0:1,我相信这个并不仅仅是误差。当然因为实际榜单里使用的是 Few-shot,可能会让能力有所提升。但是我想本身Zero-shot 能力也是模型能力的一部分,多数大模型使用场景还是 Zero-shot。
有时间一定要做一次评测复现。