Yiming Tang's picture

1

Yiming Tang

tangyiming

AI & ML interests

None yet

Organizations

None yet

New activity in Qwen/Qwen3-Next-80B-A3B-Instruct 2 months ago

Megatron Swift dpo training on Qwen/Qwen3-Next-80B-A3B-Instruct always always return nan loss. Why?

#45 opened 2 months ago by