Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

预训练语言模型复现问题 #53

Open
Sisi0518 opened this issue Dec 29, 2021 · 5 comments
Open

预训练语言模型复现问题 #53

Sisi0518 opened this issue Dec 29, 2021 · 5 comments

Comments

@Sisi0518
Copy link

Sisi0518 commented Dec 29, 2021

您好,我有几个关于预训练语言模型复现的问题想要请教一下~

  1. 在预训练语言模型的配置文件中,您设置了epoch数量为80,对我来说时间有点长。 请问您论文中的结果是预训练了80个epoch的结果吗?如果不是,您大概预训练了多长时间呢?
  2. 我查看预训练过程中tensorboard的评估曲线,发现在50k iter的时候基本上train loss就已经收敛了?还需要继续训练吗?训练过程中eval loss一直在上升,ccr、cwr等指标一直都在下降,在第一次validate的时候(6k iter时),指标是最好的。 这是正常的吗?是什么原因造成的呢?
    image
    image
@FangShancheng
Copy link
Owner

  1. epoch的数量可以不用那么多,看具体情况决定,可以多试几个checkpoint看看区别。
  2. 如果是训练数据跟测试数据分别差距比较大的话是正常的,只能反应模型在这特定评估数据集上的拟合情况

1 similar comment
@FangShancheng
Copy link
Owner

  1. epoch的数量可以不用那么多,看具体情况决定,可以多试几个checkpoint看看区别。
  2. 如果是训练数据跟测试数据分别差距比较大的话是正常的,只能反应模型在这特定评估数据集上的拟合情况

@Sisi0518
Copy link
Author

Sisi0518 commented Jan 4, 2022

  1. epoch的数量可以不用那么多,看具体情况决定,可以多试几个checkpoint看看区别。
  2. 如果是训练数据跟测试数据分别差距比较大的话是正常的,只能反应模型在这特定评估数据集上的拟合情况

我使用的训练数据集和测试数据集是在您这个工程首页下载的WikiText103,训练集和测试集是差距不大的,出现了这种过拟合的现象。
image
请问使用WikiText103,预训练语言模型大概在什么时候停止呢?1个epoch就可以了么?

@kai1980
Copy link

kai1980 commented Mar 16, 2023

image
大佬,这个可视化模块是在怎么实现的,源码自带的么

@wu-yz
Copy link

wu-yz commented Apr 7, 2024

你好,我再训练语言模型的时候,发现loss很快就接近0,但是eval的时候精确度又不高,而且ted分数为零,这是怎么回事呢?是过拟合了嘛?我是不是可以停止训练了,但我才训练了两个epoch

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants