关于训练的Loss #22

yenanjing · 2023-05-06T02:20:26Z

您好，
（1）请问训练loss中，除了两个对比损失，生成任务的L(task)是仅指交叉熵损失吗？（即torch.nn.CrossEntropyLoss）
（2）T5原文中提到了类似spanBert的bert-style的mask损失，请问论文中是否应用了这种目标函数呢？还是仅使用seq2seq的目标函数呢？
非常感谢！

LeMei · 2023-05-06T02:28:26Z

您好，（1）请问训练loss中，除了两个对比损失，生成任务的L(task)是仅指交叉熵损失吗？（即torch.nn.CrossEntropyLoss）（2）T5原文中提到了类似spanBert的bert-style的mask损失，请问论文中是否应用了这种目标函数呢？还是仅使用seq2seq的目标函数呢？非常感谢！

(1)是的，生成序列的每一步还是一个分类任务，因此用的是交叉熵损失。
(2)T5原文中提到了类似spanBert的bert-style的mask损失应该是训练T5所需要的损失。我们是在T5上进行微调。用到的是有监督损失(seq2seq的目标函数)+无监督的对比损失。

huigeStudent · 2023-11-18T13:22:21Z

您好，（1）请问训练loss中，除了两个对比损失，生成任务的L(task)是仅指交叉熵损失吗？（即torch.nn.CrossEntropyLoss）（2）T5原文中提到了类似spanBert的bert-style的mask损失，请问论文中是否应用了这种目标函数呢？还是仅使用seq2seq的目标函数呢？非常感谢！

你好请问一下你跑通了吗，能提供相关代码嘛？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于训练的Loss #22

关于训练的Loss #22

yenanjing commented May 6, 2023

LeMei commented May 6, 2023

huigeStudent commented Nov 18, 2023

关于训练的Loss #22

关于训练的Loss #22

Comments

yenanjing commented May 6, 2023

LeMei commented May 6, 2023

huigeStudent commented Nov 18, 2023