Qwen2.5-7B和Qwen2.5-1.5B vocab_size对齐问题 #1164

pipilia · 2025-01-15T15:37:51Z

pipilia
Jan 15, 2025

您好，我希望使用Qwen2.5-7B蒸馏Qwen2.5-1.5B ，但是两者的vocab size不同（152064和151936），这导致两者在计算logits的交叉熵时形状不匹配，请问如何设置才能在读取模型的时候，使两者的vocab以及embedding层对齐呢？

jklj077 · 2025-01-20T11:09:02Z

config.json中的vocab_size是embedding层的大小，实际词表大小用len(tokenizer)，其它都可以直接截断。

0 replies