v0.9.1
--添加LLama3.1最佳实践支持最新的Flash-Attention 3, Offloading, Comm-Overlapping等加速技术。
--升级Qwen2最佳实践支持最新的Flash-Attention 3, Offloading, Comm-Overlapping等加速技术。
--优化PAI算法团队自研的Optimizer Offloading的降显存效果以及吞吐性能。
--修复已知的Bugs。
--添加LLama3.1最佳实践支持最新的Flash-Attention 3, Offloading, Comm-Overlapping等加速技术。
--升级Qwen2最佳实践支持最新的Flash-Attention 3, Offloading, Comm-Overlapping等加速技术。
--优化PAI算法团队自研的Optimizer Offloading的降显存效果以及吞吐性能。
--修复已知的Bugs。