{ "best_global_step": 600, "best_metric": 0.9806451612903225, "best_model_checkpoint": "/Users/mydoc/Climate LLM/2025_Climate_LLM/try_with_agenda_code/checkpoint-600", "epoch": 8.0, "eval_steps": 500, "global_step": 600, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.09333333333333334, "grad_norm": 10.42822265625, "learning_rate": 1.9840000000000003e-05, "loss": 0.3773, "step": 7 }, { "epoch": 0.18666666666666668, "grad_norm": 27.95832061767578, "learning_rate": 1.9653333333333334e-05, "loss": 0.2689, "step": 14 }, { "epoch": 0.28, "grad_norm": 2.470308780670166, "learning_rate": 1.9466666666666668e-05, "loss": 0.187, "step": 21 }, { "epoch": 0.37333333333333335, "grad_norm": 7.191498279571533, "learning_rate": 1.9280000000000002e-05, "loss": 0.2274, "step": 28 }, { "epoch": 0.4666666666666667, "grad_norm": 14.545049667358398, "learning_rate": 1.9093333333333336e-05, "loss": 0.2611, "step": 35 }, { "epoch": 0.56, "grad_norm": 3.202026128768921, "learning_rate": 1.890666666666667e-05, "loss": 0.3348, "step": 42 }, { "epoch": 0.6533333333333333, "grad_norm": 8.142129898071289, "learning_rate": 1.8720000000000004e-05, "loss": 0.2495, "step": 49 }, { "epoch": 0.7466666666666667, "grad_norm": 1.5314451456069946, "learning_rate": 1.8533333333333334e-05, "loss": 0.1171, "step": 56 }, { "epoch": 0.84, "grad_norm": 1.5551612377166748, "learning_rate": 1.834666666666667e-05, "loss": 0.1123, "step": 63 }, { "epoch": 0.9333333333333333, "grad_norm": 30.10967445373535, "learning_rate": 1.8160000000000002e-05, "loss": 0.306, "step": 70 }, { "epoch": 1.0, "eval_accuracy": 0.9666666666666667, "eval_f1": 0.9675324675324676, "eval_loss": 0.09679003059864044, "eval_runtime": 2.5159, "eval_samples_per_second": 119.242, "eval_steps_per_second": 7.552, "step": 75 }, { "epoch": 1.0266666666666666, "grad_norm": 16.01626205444336, "learning_rate": 1.7973333333333333e-05, "loss": 0.1508, "step": 77 }, { "epoch": 1.12, "grad_norm": 27.686017990112305, "learning_rate": 1.7786666666666667e-05, "loss": 0.1089, "step": 84 }, { "epoch": 1.2133333333333334, "grad_norm": 0.9957962036132812, "learning_rate": 1.76e-05, "loss": 0.1198, "step": 91 }, { "epoch": 1.3066666666666666, "grad_norm": 8.406964302062988, "learning_rate": 1.7413333333333335e-05, "loss": 0.1616, "step": 98 }, { "epoch": 1.4, "grad_norm": 1.0521156787872314, "learning_rate": 1.7226666666666665e-05, "loss": 0.0158, "step": 105 }, { "epoch": 1.4933333333333334, "grad_norm": 0.40407484769821167, "learning_rate": 1.704e-05, "loss": 0.0535, "step": 112 }, { "epoch": 1.5866666666666667, "grad_norm": 0.06184021383523941, "learning_rate": 1.6853333333333333e-05, "loss": 0.0981, "step": 119 }, { "epoch": 1.6800000000000002, "grad_norm": 11.684207916259766, "learning_rate": 1.6666666666666667e-05, "loss": 0.2692, "step": 126 }, { "epoch": 1.7733333333333334, "grad_norm": 0.14946074783802032, "learning_rate": 1.648e-05, "loss": 0.1912, "step": 133 }, { "epoch": 1.8666666666666667, "grad_norm": 0.19038739800453186, "learning_rate": 1.6293333333333335e-05, "loss": 0.1773, "step": 140 }, { "epoch": 1.96, "grad_norm": 13.605051040649414, "learning_rate": 1.610666666666667e-05, "loss": 0.0954, "step": 147 }, { "epoch": 2.0, "eval_accuracy": 0.9733333333333334, "eval_f1": 0.974025974025974, "eval_loss": 0.08984354883432388, "eval_runtime": 1.8242, "eval_samples_per_second": 164.455, "eval_steps_per_second": 10.416, "step": 150 }, { "epoch": 2.0533333333333332, "grad_norm": 0.7999533414840698, "learning_rate": 1.5920000000000003e-05, "loss": 0.0445, "step": 154 }, { "epoch": 2.1466666666666665, "grad_norm": 0.4805225133895874, "learning_rate": 1.5733333333333334e-05, "loss": 0.0096, "step": 161 }, { "epoch": 2.24, "grad_norm": 0.8736094832420349, "learning_rate": 1.5546666666666668e-05, "loss": 0.095, "step": 168 }, { "epoch": 2.3333333333333335, "grad_norm": 0.02811317890882492, "learning_rate": 1.5360000000000002e-05, "loss": 0.0886, "step": 175 }, { "epoch": 2.4266666666666667, "grad_norm": 0.10145525634288788, "learning_rate": 1.5173333333333336e-05, "loss": 0.0434, "step": 182 }, { "epoch": 2.52, "grad_norm": 0.747158408164978, "learning_rate": 1.4986666666666667e-05, "loss": 0.0694, "step": 189 }, { "epoch": 2.6133333333333333, "grad_norm": 0.042274266481399536, "learning_rate": 1.48e-05, "loss": 0.0695, "step": 196 }, { "epoch": 2.7066666666666666, "grad_norm": 19.82631492614746, "learning_rate": 1.4613333333333335e-05, "loss": 0.0165, "step": 203 }, { "epoch": 2.8, "grad_norm": 1.7409069538116455, "learning_rate": 1.4426666666666669e-05, "loss": 0.1791, "step": 210 }, { "epoch": 2.8933333333333335, "grad_norm": 0.031883351504802704, "learning_rate": 1.4240000000000001e-05, "loss": 0.1559, "step": 217 }, { "epoch": 2.986666666666667, "grad_norm": 0.029656479135155678, "learning_rate": 1.4053333333333335e-05, "loss": 0.0956, "step": 224 }, { "epoch": 3.0, "eval_accuracy": 0.96, "eval_f1": 0.9622641509433962, "eval_loss": 0.18078146874904633, "eval_runtime": 1.824, "eval_samples_per_second": 164.477, "eval_steps_per_second": 10.417, "step": 225 }, { "epoch": 3.08, "grad_norm": 15.17425537109375, "learning_rate": 1.3866666666666669e-05, "loss": 0.158, "step": 231 }, { "epoch": 3.1733333333333333, "grad_norm": 0.06228048726916313, "learning_rate": 1.3680000000000003e-05, "loss": 0.0218, "step": 238 }, { "epoch": 3.2666666666666666, "grad_norm": 0.8034480810165405, "learning_rate": 1.3493333333333333e-05, "loss": 0.0865, "step": 245 }, { "epoch": 3.36, "grad_norm": 0.06001337617635727, "learning_rate": 1.3306666666666667e-05, "loss": 0.046, "step": 252 }, { "epoch": 3.453333333333333, "grad_norm": 0.15396669507026672, "learning_rate": 1.3120000000000001e-05, "loss": 0.0028, "step": 259 }, { "epoch": 3.546666666666667, "grad_norm": 2.926787853240967, "learning_rate": 1.2933333333333334e-05, "loss": 0.0296, "step": 266 }, { "epoch": 3.64, "grad_norm": 0.0658014714717865, "learning_rate": 1.2746666666666668e-05, "loss": 0.0424, "step": 273 }, { "epoch": 3.7333333333333334, "grad_norm": 0.4807497262954712, "learning_rate": 1.2560000000000002e-05, "loss": 0.0445, "step": 280 }, { "epoch": 3.8266666666666667, "grad_norm": 0.030960503965616226, "learning_rate": 1.2373333333333336e-05, "loss": 0.0083, "step": 287 }, { "epoch": 3.92, "grad_norm": 0.15096153318881989, "learning_rate": 1.2186666666666666e-05, "loss": 0.0029, "step": 294 }, { "epoch": 4.0, "eval_accuracy": 0.98, "eval_f1": 0.9805194805194806, "eval_loss": 0.07832716405391693, "eval_runtime": 1.8295, "eval_samples_per_second": 163.982, "eval_steps_per_second": 10.386, "step": 300 }, { "epoch": 4.013333333333334, "grad_norm": 0.06817571073770523, "learning_rate": 1.2e-05, "loss": 0.029, "step": 301 }, { "epoch": 4.1066666666666665, "grad_norm": 4.708883762359619, "learning_rate": 1.1813333333333334e-05, "loss": 0.0557, "step": 308 }, { "epoch": 4.2, "grad_norm": 8.52562427520752, "learning_rate": 1.1626666666666668e-05, "loss": 0.0061, "step": 315 }, { "epoch": 4.293333333333333, "grad_norm": 1.1084818840026855, "learning_rate": 1.144e-05, "loss": 0.0124, "step": 322 }, { "epoch": 4.386666666666667, "grad_norm": 0.8334437012672424, "learning_rate": 1.1253333333333335e-05, "loss": 0.0008, "step": 329 }, { "epoch": 4.48, "grad_norm": 0.03568168729543686, "learning_rate": 1.1066666666666669e-05, "loss": 0.0116, "step": 336 }, { "epoch": 4.573333333333333, "grad_norm": 0.014342905953526497, "learning_rate": 1.0880000000000001e-05, "loss": 0.0113, "step": 343 }, { "epoch": 4.666666666666667, "grad_norm": 0.036500025540590286, "learning_rate": 1.0693333333333333e-05, "loss": 0.0184, "step": 350 }, { "epoch": 4.76, "grad_norm": 22.589096069335938, "learning_rate": 1.0506666666666667e-05, "loss": 0.0546, "step": 357 }, { "epoch": 4.8533333333333335, "grad_norm": 0.009183472022414207, "learning_rate": 1.0320000000000001e-05, "loss": 0.074, "step": 364 }, { "epoch": 4.946666666666666, "grad_norm": 0.04771652817726135, "learning_rate": 1.0133333333333335e-05, "loss": 0.0395, "step": 371 }, { "epoch": 5.0, "eval_accuracy": 0.98, "eval_f1": 0.9802631578947368, "eval_loss": 0.1025681421160698, "eval_runtime": 1.8467, "eval_samples_per_second": 162.45, "eval_steps_per_second": 10.288, "step": 375 }, { "epoch": 5.04, "grad_norm": 0.015700846910476685, "learning_rate": 9.946666666666667e-06, "loss": 0.0008, "step": 378 }, { "epoch": 5.133333333333334, "grad_norm": 0.051680661737918854, "learning_rate": 9.760000000000001e-06, "loss": 0.0004, "step": 385 }, { "epoch": 5.226666666666667, "grad_norm": 0.0657574012875557, "learning_rate": 9.573333333333334e-06, "loss": 0.0026, "step": 392 }, { "epoch": 5.32, "grad_norm": 0.01937054470181465, "learning_rate": 9.386666666666668e-06, "loss": 0.0641, "step": 399 }, { "epoch": 5.413333333333333, "grad_norm": 0.008215604349970818, "learning_rate": 9.200000000000002e-06, "loss": 0.0792, "step": 406 }, { "epoch": 5.506666666666667, "grad_norm": 0.09713590890169144, "learning_rate": 9.013333333333334e-06, "loss": 0.0223, "step": 413 }, { "epoch": 5.6, "grad_norm": 0.0219940897077322, "learning_rate": 8.826666666666668e-06, "loss": 0.0323, "step": 420 }, { "epoch": 5.693333333333333, "grad_norm": 0.009316391311585903, "learning_rate": 8.64e-06, "loss": 0.0003, "step": 427 }, { "epoch": 5.786666666666667, "grad_norm": 0.009829052723944187, "learning_rate": 8.453333333333334e-06, "loss": 0.0004, "step": 434 }, { "epoch": 5.88, "grad_norm": 0.3708294928073883, "learning_rate": 8.266666666666667e-06, "loss": 0.0027, "step": 441 }, { "epoch": 5.973333333333334, "grad_norm": 0.031645845621824265, "learning_rate": 8.08e-06, "loss": 0.035, "step": 448 }, { "epoch": 6.0, "eval_accuracy": 0.9733333333333334, "eval_f1": 0.9743589743589743, "eval_loss": 0.13076448440551758, "eval_runtime": 1.8317, "eval_samples_per_second": 163.778, "eval_steps_per_second": 10.373, "step": 450 }, { "epoch": 6.066666666666666, "grad_norm": 0.06638117879629135, "learning_rate": 7.893333333333335e-06, "loss": 0.0714, "step": 455 }, { "epoch": 6.16, "grad_norm": 0.015339205041527748, "learning_rate": 7.706666666666669e-06, "loss": 0.0651, "step": 462 }, { "epoch": 6.253333333333333, "grad_norm": 0.029017118737101555, "learning_rate": 7.520000000000001e-06, "loss": 0.0037, "step": 469 }, { "epoch": 6.346666666666667, "grad_norm": 0.013317309319972992, "learning_rate": 7.333333333333333e-06, "loss": 0.0003, "step": 476 }, { "epoch": 6.44, "grad_norm": 0.00799871701747179, "learning_rate": 7.146666666666667e-06, "loss": 0.0003, "step": 483 }, { "epoch": 6.533333333333333, "grad_norm": 0.02156682126224041, "learning_rate": 6.96e-06, "loss": 0.0248, "step": 490 }, { "epoch": 6.626666666666667, "grad_norm": 0.019904999062418938, "learning_rate": 6.773333333333334e-06, "loss": 0.0006, "step": 497 }, { "epoch": 6.72, "grad_norm": 0.0056484779343008995, "learning_rate": 6.5866666666666666e-06, "loss": 0.0986, "step": 504 }, { "epoch": 6.8133333333333335, "grad_norm": 0.13198618590831757, "learning_rate": 6.4000000000000006e-06, "loss": 0.067, "step": 511 }, { "epoch": 6.906666666666666, "grad_norm": 9.249489784240723, "learning_rate": 6.213333333333334e-06, "loss": 0.0105, "step": 518 }, { "epoch": 7.0, "grad_norm": 0.010262906551361084, "learning_rate": 6.026666666666668e-06, "loss": 0.0094, "step": 525 }, { "epoch": 7.0, "eval_accuracy": 0.9766666666666667, "eval_f1": 0.9771986970684039, "eval_loss": 0.11084301024675369, "eval_runtime": 1.7731, "eval_samples_per_second": 169.198, "eval_steps_per_second": 10.716, "step": 525 }, { "epoch": 7.093333333333334, "grad_norm": 0.009576918557286263, "learning_rate": 5.84e-06, "loss": 0.0002, "step": 532 }, { "epoch": 7.1866666666666665, "grad_norm": 0.01179348211735487, "learning_rate": 5.653333333333334e-06, "loss": 0.0003, "step": 539 }, { "epoch": 7.28, "grad_norm": 0.010826204903423786, "learning_rate": 5.466666666666667e-06, "loss": 0.0196, "step": 546 }, { "epoch": 7.373333333333333, "grad_norm": 0.010882966220378876, "learning_rate": 5.28e-06, "loss": 0.0003, "step": 553 }, { "epoch": 7.466666666666667, "grad_norm": 0.00825849361717701, "learning_rate": 5.093333333333333e-06, "loss": 0.0003, "step": 560 }, { "epoch": 7.5600000000000005, "grad_norm": 0.005225705914199352, "learning_rate": 4.9066666666666666e-06, "loss": 0.0003, "step": 567 }, { "epoch": 7.653333333333333, "grad_norm": 0.006640120409429073, "learning_rate": 4.7200000000000005e-06, "loss": 0.06, "step": 574 }, { "epoch": 7.746666666666667, "grad_norm": 0.010534493252635002, "learning_rate": 4.533333333333334e-06, "loss": 0.0002, "step": 581 }, { "epoch": 7.84, "grad_norm": 0.013700931333005428, "learning_rate": 4.346666666666667e-06, "loss": 0.0002, "step": 588 }, { "epoch": 7.933333333333334, "grad_norm": 0.005316473543643951, "learning_rate": 4.16e-06, "loss": 0.0003, "step": 595 }, { "epoch": 8.0, "eval_accuracy": 0.98, "eval_f1": 0.9806451612903225, "eval_loss": 0.11817323416471481, "eval_runtime": 1.8364, "eval_samples_per_second": 163.36, "eval_steps_per_second": 10.346, "step": 600 } ], "logging_steps": 7, "max_steps": 750, "num_input_tokens_seen": 0, "num_train_epochs": 10, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 327351779716224.0, "train_batch_size": 16, "trial_name": null, "trial_params": null }