-
Notifications
You must be signed in to change notification settings - Fork 712
Open
Description
Hi,感谢开源~ 有个问题求解~
我在 4 机 8 卡 H20 开 zero-3 训 InternVl3.5-30B-A3B 的时候,一直 hang 住了,log 截图如下

GPU 一直是利用率 100%、显存 10G 的样子,显然是没开始训
同样环境,训 4B 的 dense 模型能正常。按照 dense 的训练经验,上述 log 打印之后应该是进入 training step 记录的,结果是一直 hang 着。
不管是 packing 还是 unpacking,都进到上面的 log 然后开始 hang 住,请问怎么解决呢?
InternVL3_5-GPT-OSS-20B-A4B-Preview 模型训练是没问题的,按照提供脚本中的 --use_custom_flash_attn True;上面 hang 的 InternVL3.5-30B-A3B 模型也是按相应脚本里的 --use_custom_flash_attn False。请问 internvl3_5_qwen3 目录下 InternVL3.5-30B-A3B 这个 MOE 模型训练脚本执行是不是还额外有什么特殊配置?超参或者环境?
Metadata
Metadata
Assignees
Labels
No labels