{
  "checkpoint": "ckpt_112.pt",
  "model": "GPT2-L",
  "training_step": 20000,
  "instability_type": "Divergent loss spikes",
  "learning_rate": "1e-2",
  "decay": "0.0",
  "warm": "2000",
  "data_type": "BF16"
}