Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

很有意思的工作,和我们的一个 idea 有点像 #1

Open
nbcc opened this issue Jul 27, 2020 · 3 comments
Open

很有意思的工作,和我们的一个 idea 有点像 #1

nbcc opened this issue Jul 27, 2020 · 3 comments

Comments

@nbcc
Copy link

nbcc commented Jul 27, 2020

请教一个实验细节
图片

新增参数在 Finetuning 训练中是完全随机初始化的吗?

@lsvih
Copy link
Owner

lsvih commented Jul 28, 2020

@nbcc 用 pytorch 的 nn.Linear 定义的参数,看源码使用 kaiming_uniform_ 做的参数初始化

另外感谢您的认可,期待你们的工作。。现在这个工作缺陷有点多,尤其是速度方面太慢了,整理代码后的实验现在都没跑完

@nbcc
Copy link
Author

nbcc commented Aug 7, 2020

@nbcc 用 pytorch 的 nn.Linear 定义的参数,看源码使用 kaiming_uniform_ 做的参数初始化

另外感谢您的认可,期待你们的工作。。现在这个工作缺陷有点多,尤其是速度方面太慢了,整理代码后的实验现在都没跑完

用 paddle 复现了一下 MWA 策略(基于开源的 ERNIE,在 lcqmc 数据集验证)。和 ERNIE 1.0 论文评估方式一致,采用 max(dev acc) 选取 checkpoint,得到 test acc;多次取平均后,test acc 指标 0.874,结果和 ERNIE 1.0 论文基线接近。。。

@renmada
Copy link

renmada commented Jan 5, 2021

@nbcc 用 pytorch 的 nn.Linear 定义的参数,看源码使用 kaiming_uniform_ 做的参数初始化

另外感谢您的认可,期待你们的工作。。现在这个工作缺陷有点多,尤其是速度方面太慢了,整理代码后的实验现在都没跑完

请问速度有多慢, 对比bert base

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants