中文模型 C-Eval 评测结果简单小评测

Author: ninehills
Labels: blog
Created: 2023-06-27T06:30:11Z
Link and comments: #96

最近 C-Eval 有较多中文开源模型打榜，分数一度超越 GPT-4，今天做一下简单的复盘。

首先排名靠前的几位全部是封闭模型，连API也不对外提供，无法进行评测。

顺序找下去，发现 ChatGLM2-6B 可以用，来做一次简单的分析。

评测大模型的能力，最难的莫过于逻辑能力和数学能力，我们用 ChatGPT 3.5对比，根据 C-Eval 官方榜单的详细评测项目：

模型	Probability and Statistics	High School Mathematics	Logic
ChatGPT	33.7	34.3	37.7
ChatGLM2-6B	25.9	32.5	36.3

注：此处注意题目都是单项选择题，也就是最低得分是 25分。

可以发现 ChatGLM2-6B 总的来说和 ChatGPT 区别不大，可喜可贺。我们选择分数最为接近的 Logic ，用 c-eval 官方提供的验证数据集（有答案）共 21 道题中随机选5道题，进行 Zero-shot 对比。同时用我觉得中文模型数学和逻辑能力还不错的讯飞星火做对比。

题目编号	ChatGPT	ChatGLM2-6B	讯飞星火	正确答案
0	C	A	D	C
2	D	C	D	D
4	B	A	A	B
8	D	A	A	B
20	A	C	A	D

3:0:1，我相信这个并不仅仅是误差。当然因为实际榜单里使用的是 Few-shot，可能会让能力有所提升。但是我想本身Zero-shot 能力也是模型能力的一部分，多数大模型使用场景还是 Zero-shot。

有时间一定要做一次评测复现。

Provide feedback