Question about training data mixture. （训练数据混合问题） #30

JLM-Z · 2024-12-10T08:41:21Z

Does each mini-batch include both multimodal understanding and image generation data? In this code, will the LLM loss turn NaN due to the absence of multimodal understanding data in a mini-batch?
What to do when a mini-batch only contains single modality data?

当单卡上的数据全为一种模态时（比如只有image generation 模态的数据），llm loss会变成nan，请问这个情况怎么处理?
这种不平衡的mini-batch data是否会影响模型的效果？

JLM-Z changed the title ~~Question about training data mixture. （关于训练时数据混合的问题）~~ Question about training data mixture. （训练数据混合问题） Dec 10, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Question about training data mixture. （训练数据混合问题） #30

Question about training data mixture. （训练数据混合问题） #30

JLM-Z commented Dec 10, 2024

Question about training data mixture. （训练数据混合问题） #30

Question about training data mixture. （训练数据混合问题） #30

Comments

JLM-Z commented Dec 10, 2024