| { |
| "best_global_step": 600, |
| "best_metric": 0.9806451612903225, |
| "best_model_checkpoint": "/Users/mydoc/Climate LLM/2025_Climate_LLM/try_with_agenda_code/checkpoint-600", |
| "epoch": 8.0, |
| "eval_steps": 500, |
| "global_step": 600, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.09333333333333334, |
| "grad_norm": 10.42822265625, |
| "learning_rate": 1.9840000000000003e-05, |
| "loss": 0.3773, |
| "step": 7 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 27.95832061767578, |
| "learning_rate": 1.9653333333333334e-05, |
| "loss": 0.2689, |
| "step": 14 |
| }, |
| { |
| "epoch": 0.28, |
| "grad_norm": 2.470308780670166, |
| "learning_rate": 1.9466666666666668e-05, |
| "loss": 0.187, |
| "step": 21 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 7.191498279571533, |
| "learning_rate": 1.9280000000000002e-05, |
| "loss": 0.2274, |
| "step": 28 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 14.545049667358398, |
| "learning_rate": 1.9093333333333336e-05, |
| "loss": 0.2611, |
| "step": 35 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 3.202026128768921, |
| "learning_rate": 1.890666666666667e-05, |
| "loss": 0.3348, |
| "step": 42 |
| }, |
| { |
| "epoch": 0.6533333333333333, |
| "grad_norm": 8.142129898071289, |
| "learning_rate": 1.8720000000000004e-05, |
| "loss": 0.2495, |
| "step": 49 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 1.5314451456069946, |
| "learning_rate": 1.8533333333333334e-05, |
| "loss": 0.1171, |
| "step": 56 |
| }, |
| { |
| "epoch": 0.84, |
| "grad_norm": 1.5551612377166748, |
| "learning_rate": 1.834666666666667e-05, |
| "loss": 0.1123, |
| "step": 63 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 30.10967445373535, |
| "learning_rate": 1.8160000000000002e-05, |
| "loss": 0.306, |
| "step": 70 |
| }, |
| { |
| "epoch": 1.0, |
| "eval_accuracy": 0.9666666666666667, |
| "eval_f1": 0.9675324675324676, |
| "eval_loss": 0.09679003059864044, |
| "eval_runtime": 2.5159, |
| "eval_samples_per_second": 119.242, |
| "eval_steps_per_second": 7.552, |
| "step": 75 |
| }, |
| { |
| "epoch": 1.0266666666666666, |
| "grad_norm": 16.01626205444336, |
| "learning_rate": 1.7973333333333333e-05, |
| "loss": 0.1508, |
| "step": 77 |
| }, |
| { |
| "epoch": 1.12, |
| "grad_norm": 27.686017990112305, |
| "learning_rate": 1.7786666666666667e-05, |
| "loss": 0.1089, |
| "step": 84 |
| }, |
| { |
| "epoch": 1.2133333333333334, |
| "grad_norm": 0.9957962036132812, |
| "learning_rate": 1.76e-05, |
| "loss": 0.1198, |
| "step": 91 |
| }, |
| { |
| "epoch": 1.3066666666666666, |
| "grad_norm": 8.406964302062988, |
| "learning_rate": 1.7413333333333335e-05, |
| "loss": 0.1616, |
| "step": 98 |
| }, |
| { |
| "epoch": 1.4, |
| "grad_norm": 1.0521156787872314, |
| "learning_rate": 1.7226666666666665e-05, |
| "loss": 0.0158, |
| "step": 105 |
| }, |
| { |
| "epoch": 1.4933333333333334, |
| "grad_norm": 0.40407484769821167, |
| "learning_rate": 1.704e-05, |
| "loss": 0.0535, |
| "step": 112 |
| }, |
| { |
| "epoch": 1.5866666666666667, |
| "grad_norm": 0.06184021383523941, |
| "learning_rate": 1.6853333333333333e-05, |
| "loss": 0.0981, |
| "step": 119 |
| }, |
| { |
| "epoch": 1.6800000000000002, |
| "grad_norm": 11.684207916259766, |
| "learning_rate": 1.6666666666666667e-05, |
| "loss": 0.2692, |
| "step": 126 |
| }, |
| { |
| "epoch": 1.7733333333333334, |
| "grad_norm": 0.14946074783802032, |
| "learning_rate": 1.648e-05, |
| "loss": 0.1912, |
| "step": 133 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 0.19038739800453186, |
| "learning_rate": 1.6293333333333335e-05, |
| "loss": 0.1773, |
| "step": 140 |
| }, |
| { |
| "epoch": 1.96, |
| "grad_norm": 13.605051040649414, |
| "learning_rate": 1.610666666666667e-05, |
| "loss": 0.0954, |
| "step": 147 |
| }, |
| { |
| "epoch": 2.0, |
| "eval_accuracy": 0.9733333333333334, |
| "eval_f1": 0.974025974025974, |
| "eval_loss": 0.08984354883432388, |
| "eval_runtime": 1.8242, |
| "eval_samples_per_second": 164.455, |
| "eval_steps_per_second": 10.416, |
| "step": 150 |
| }, |
| { |
| "epoch": 2.0533333333333332, |
| "grad_norm": 0.7999533414840698, |
| "learning_rate": 1.5920000000000003e-05, |
| "loss": 0.0445, |
| "step": 154 |
| }, |
| { |
| "epoch": 2.1466666666666665, |
| "grad_norm": 0.4805225133895874, |
| "learning_rate": 1.5733333333333334e-05, |
| "loss": 0.0096, |
| "step": 161 |
| }, |
| { |
| "epoch": 2.24, |
| "grad_norm": 0.8736094832420349, |
| "learning_rate": 1.5546666666666668e-05, |
| "loss": 0.095, |
| "step": 168 |
| }, |
| { |
| "epoch": 2.3333333333333335, |
| "grad_norm": 0.02811317890882492, |
| "learning_rate": 1.5360000000000002e-05, |
| "loss": 0.0886, |
| "step": 175 |
| }, |
| { |
| "epoch": 2.4266666666666667, |
| "grad_norm": 0.10145525634288788, |
| "learning_rate": 1.5173333333333336e-05, |
| "loss": 0.0434, |
| "step": 182 |
| }, |
| { |
| "epoch": 2.52, |
| "grad_norm": 0.747158408164978, |
| "learning_rate": 1.4986666666666667e-05, |
| "loss": 0.0694, |
| "step": 189 |
| }, |
| { |
| "epoch": 2.6133333333333333, |
| "grad_norm": 0.042274266481399536, |
| "learning_rate": 1.48e-05, |
| "loss": 0.0695, |
| "step": 196 |
| }, |
| { |
| "epoch": 2.7066666666666666, |
| "grad_norm": 19.82631492614746, |
| "learning_rate": 1.4613333333333335e-05, |
| "loss": 0.0165, |
| "step": 203 |
| }, |
| { |
| "epoch": 2.8, |
| "grad_norm": 1.7409069538116455, |
| "learning_rate": 1.4426666666666669e-05, |
| "loss": 0.1791, |
| "step": 210 |
| }, |
| { |
| "epoch": 2.8933333333333335, |
| "grad_norm": 0.031883351504802704, |
| "learning_rate": 1.4240000000000001e-05, |
| "loss": 0.1559, |
| "step": 217 |
| }, |
| { |
| "epoch": 2.986666666666667, |
| "grad_norm": 0.029656479135155678, |
| "learning_rate": 1.4053333333333335e-05, |
| "loss": 0.0956, |
| "step": 224 |
| }, |
| { |
| "epoch": 3.0, |
| "eval_accuracy": 0.96, |
| "eval_f1": 0.9622641509433962, |
| "eval_loss": 0.18078146874904633, |
| "eval_runtime": 1.824, |
| "eval_samples_per_second": 164.477, |
| "eval_steps_per_second": 10.417, |
| "step": 225 |
| }, |
| { |
| "epoch": 3.08, |
| "grad_norm": 15.17425537109375, |
| "learning_rate": 1.3866666666666669e-05, |
| "loss": 0.158, |
| "step": 231 |
| }, |
| { |
| "epoch": 3.1733333333333333, |
| "grad_norm": 0.06228048726916313, |
| "learning_rate": 1.3680000000000003e-05, |
| "loss": 0.0218, |
| "step": 238 |
| }, |
| { |
| "epoch": 3.2666666666666666, |
| "grad_norm": 0.8034480810165405, |
| "learning_rate": 1.3493333333333333e-05, |
| "loss": 0.0865, |
| "step": 245 |
| }, |
| { |
| "epoch": 3.36, |
| "grad_norm": 0.06001337617635727, |
| "learning_rate": 1.3306666666666667e-05, |
| "loss": 0.046, |
| "step": 252 |
| }, |
| { |
| "epoch": 3.453333333333333, |
| "grad_norm": 0.15396669507026672, |
| "learning_rate": 1.3120000000000001e-05, |
| "loss": 0.0028, |
| "step": 259 |
| }, |
| { |
| "epoch": 3.546666666666667, |
| "grad_norm": 2.926787853240967, |
| "learning_rate": 1.2933333333333334e-05, |
| "loss": 0.0296, |
| "step": 266 |
| }, |
| { |
| "epoch": 3.64, |
| "grad_norm": 0.0658014714717865, |
| "learning_rate": 1.2746666666666668e-05, |
| "loss": 0.0424, |
| "step": 273 |
| }, |
| { |
| "epoch": 3.7333333333333334, |
| "grad_norm": 0.4807497262954712, |
| "learning_rate": 1.2560000000000002e-05, |
| "loss": 0.0445, |
| "step": 280 |
| }, |
| { |
| "epoch": 3.8266666666666667, |
| "grad_norm": 0.030960503965616226, |
| "learning_rate": 1.2373333333333336e-05, |
| "loss": 0.0083, |
| "step": 287 |
| }, |
| { |
| "epoch": 3.92, |
| "grad_norm": 0.15096153318881989, |
| "learning_rate": 1.2186666666666666e-05, |
| "loss": 0.0029, |
| "step": 294 |
| }, |
| { |
| "epoch": 4.0, |
| "eval_accuracy": 0.98, |
| "eval_f1": 0.9805194805194806, |
| "eval_loss": 0.07832716405391693, |
| "eval_runtime": 1.8295, |
| "eval_samples_per_second": 163.982, |
| "eval_steps_per_second": 10.386, |
| "step": 300 |
| }, |
| { |
| "epoch": 4.013333333333334, |
| "grad_norm": 0.06817571073770523, |
| "learning_rate": 1.2e-05, |
| "loss": 0.029, |
| "step": 301 |
| }, |
| { |
| "epoch": 4.1066666666666665, |
| "grad_norm": 4.708883762359619, |
| "learning_rate": 1.1813333333333334e-05, |
| "loss": 0.0557, |
| "step": 308 |
| }, |
| { |
| "epoch": 4.2, |
| "grad_norm": 8.52562427520752, |
| "learning_rate": 1.1626666666666668e-05, |
| "loss": 0.0061, |
| "step": 315 |
| }, |
| { |
| "epoch": 4.293333333333333, |
| "grad_norm": 1.1084818840026855, |
| "learning_rate": 1.144e-05, |
| "loss": 0.0124, |
| "step": 322 |
| }, |
| { |
| "epoch": 4.386666666666667, |
| "grad_norm": 0.8334437012672424, |
| "learning_rate": 1.1253333333333335e-05, |
| "loss": 0.0008, |
| "step": 329 |
| }, |
| { |
| "epoch": 4.48, |
| "grad_norm": 0.03568168729543686, |
| "learning_rate": 1.1066666666666669e-05, |
| "loss": 0.0116, |
| "step": 336 |
| }, |
| { |
| "epoch": 4.573333333333333, |
| "grad_norm": 0.014342905953526497, |
| "learning_rate": 1.0880000000000001e-05, |
| "loss": 0.0113, |
| "step": 343 |
| }, |
| { |
| "epoch": 4.666666666666667, |
| "grad_norm": 0.036500025540590286, |
| "learning_rate": 1.0693333333333333e-05, |
| "loss": 0.0184, |
| "step": 350 |
| }, |
| { |
| "epoch": 4.76, |
| "grad_norm": 22.589096069335938, |
| "learning_rate": 1.0506666666666667e-05, |
| "loss": 0.0546, |
| "step": 357 |
| }, |
| { |
| "epoch": 4.8533333333333335, |
| "grad_norm": 0.009183472022414207, |
| "learning_rate": 1.0320000000000001e-05, |
| "loss": 0.074, |
| "step": 364 |
| }, |
| { |
| "epoch": 4.946666666666666, |
| "grad_norm": 0.04771652817726135, |
| "learning_rate": 1.0133333333333335e-05, |
| "loss": 0.0395, |
| "step": 371 |
| }, |
| { |
| "epoch": 5.0, |
| "eval_accuracy": 0.98, |
| "eval_f1": 0.9802631578947368, |
| "eval_loss": 0.1025681421160698, |
| "eval_runtime": 1.8467, |
| "eval_samples_per_second": 162.45, |
| "eval_steps_per_second": 10.288, |
| "step": 375 |
| }, |
| { |
| "epoch": 5.04, |
| "grad_norm": 0.015700846910476685, |
| "learning_rate": 9.946666666666667e-06, |
| "loss": 0.0008, |
| "step": 378 |
| }, |
| { |
| "epoch": 5.133333333333334, |
| "grad_norm": 0.051680661737918854, |
| "learning_rate": 9.760000000000001e-06, |
| "loss": 0.0004, |
| "step": 385 |
| }, |
| { |
| "epoch": 5.226666666666667, |
| "grad_norm": 0.0657574012875557, |
| "learning_rate": 9.573333333333334e-06, |
| "loss": 0.0026, |
| "step": 392 |
| }, |
| { |
| "epoch": 5.32, |
| "grad_norm": 0.01937054470181465, |
| "learning_rate": 9.386666666666668e-06, |
| "loss": 0.0641, |
| "step": 399 |
| }, |
| { |
| "epoch": 5.413333333333333, |
| "grad_norm": 0.008215604349970818, |
| "learning_rate": 9.200000000000002e-06, |
| "loss": 0.0792, |
| "step": 406 |
| }, |
| { |
| "epoch": 5.506666666666667, |
| "grad_norm": 0.09713590890169144, |
| "learning_rate": 9.013333333333334e-06, |
| "loss": 0.0223, |
| "step": 413 |
| }, |
| { |
| "epoch": 5.6, |
| "grad_norm": 0.0219940897077322, |
| "learning_rate": 8.826666666666668e-06, |
| "loss": 0.0323, |
| "step": 420 |
| }, |
| { |
| "epoch": 5.693333333333333, |
| "grad_norm": 0.009316391311585903, |
| "learning_rate": 8.64e-06, |
| "loss": 0.0003, |
| "step": 427 |
| }, |
| { |
| "epoch": 5.786666666666667, |
| "grad_norm": 0.009829052723944187, |
| "learning_rate": 8.453333333333334e-06, |
| "loss": 0.0004, |
| "step": 434 |
| }, |
| { |
| "epoch": 5.88, |
| "grad_norm": 0.3708294928073883, |
| "learning_rate": 8.266666666666667e-06, |
| "loss": 0.0027, |
| "step": 441 |
| }, |
| { |
| "epoch": 5.973333333333334, |
| "grad_norm": 0.031645845621824265, |
| "learning_rate": 8.08e-06, |
| "loss": 0.035, |
| "step": 448 |
| }, |
| { |
| "epoch": 6.0, |
| "eval_accuracy": 0.9733333333333334, |
| "eval_f1": 0.9743589743589743, |
| "eval_loss": 0.13076448440551758, |
| "eval_runtime": 1.8317, |
| "eval_samples_per_second": 163.778, |
| "eval_steps_per_second": 10.373, |
| "step": 450 |
| }, |
| { |
| "epoch": 6.066666666666666, |
| "grad_norm": 0.06638117879629135, |
| "learning_rate": 7.893333333333335e-06, |
| "loss": 0.0714, |
| "step": 455 |
| }, |
| { |
| "epoch": 6.16, |
| "grad_norm": 0.015339205041527748, |
| "learning_rate": 7.706666666666669e-06, |
| "loss": 0.0651, |
| "step": 462 |
| }, |
| { |
| "epoch": 6.253333333333333, |
| "grad_norm": 0.029017118737101555, |
| "learning_rate": 7.520000000000001e-06, |
| "loss": 0.0037, |
| "step": 469 |
| }, |
| { |
| "epoch": 6.346666666666667, |
| "grad_norm": 0.013317309319972992, |
| "learning_rate": 7.333333333333333e-06, |
| "loss": 0.0003, |
| "step": 476 |
| }, |
| { |
| "epoch": 6.44, |
| "grad_norm": 0.00799871701747179, |
| "learning_rate": 7.146666666666667e-06, |
| "loss": 0.0003, |
| "step": 483 |
| }, |
| { |
| "epoch": 6.533333333333333, |
| "grad_norm": 0.02156682126224041, |
| "learning_rate": 6.96e-06, |
| "loss": 0.0248, |
| "step": 490 |
| }, |
| { |
| "epoch": 6.626666666666667, |
| "grad_norm": 0.019904999062418938, |
| "learning_rate": 6.773333333333334e-06, |
| "loss": 0.0006, |
| "step": 497 |
| }, |
| { |
| "epoch": 6.72, |
| "grad_norm": 0.0056484779343008995, |
| "learning_rate": 6.5866666666666666e-06, |
| "loss": 0.0986, |
| "step": 504 |
| }, |
| { |
| "epoch": 6.8133333333333335, |
| "grad_norm": 0.13198618590831757, |
| "learning_rate": 6.4000000000000006e-06, |
| "loss": 0.067, |
| "step": 511 |
| }, |
| { |
| "epoch": 6.906666666666666, |
| "grad_norm": 9.249489784240723, |
| "learning_rate": 6.213333333333334e-06, |
| "loss": 0.0105, |
| "step": 518 |
| }, |
| { |
| "epoch": 7.0, |
| "grad_norm": 0.010262906551361084, |
| "learning_rate": 6.026666666666668e-06, |
| "loss": 0.0094, |
| "step": 525 |
| }, |
| { |
| "epoch": 7.0, |
| "eval_accuracy": 0.9766666666666667, |
| "eval_f1": 0.9771986970684039, |
| "eval_loss": 0.11084301024675369, |
| "eval_runtime": 1.7731, |
| "eval_samples_per_second": 169.198, |
| "eval_steps_per_second": 10.716, |
| "step": 525 |
| }, |
| { |
| "epoch": 7.093333333333334, |
| "grad_norm": 0.009576918557286263, |
| "learning_rate": 5.84e-06, |
| "loss": 0.0002, |
| "step": 532 |
| }, |
| { |
| "epoch": 7.1866666666666665, |
| "grad_norm": 0.01179348211735487, |
| "learning_rate": 5.653333333333334e-06, |
| "loss": 0.0003, |
| "step": 539 |
| }, |
| { |
| "epoch": 7.28, |
| "grad_norm": 0.010826204903423786, |
| "learning_rate": 5.466666666666667e-06, |
| "loss": 0.0196, |
| "step": 546 |
| }, |
| { |
| "epoch": 7.373333333333333, |
| "grad_norm": 0.010882966220378876, |
| "learning_rate": 5.28e-06, |
| "loss": 0.0003, |
| "step": 553 |
| }, |
| { |
| "epoch": 7.466666666666667, |
| "grad_norm": 0.00825849361717701, |
| "learning_rate": 5.093333333333333e-06, |
| "loss": 0.0003, |
| "step": 560 |
| }, |
| { |
| "epoch": 7.5600000000000005, |
| "grad_norm": 0.005225705914199352, |
| "learning_rate": 4.9066666666666666e-06, |
| "loss": 0.0003, |
| "step": 567 |
| }, |
| { |
| "epoch": 7.653333333333333, |
| "grad_norm": 0.006640120409429073, |
| "learning_rate": 4.7200000000000005e-06, |
| "loss": 0.06, |
| "step": 574 |
| }, |
| { |
| "epoch": 7.746666666666667, |
| "grad_norm": 0.010534493252635002, |
| "learning_rate": 4.533333333333334e-06, |
| "loss": 0.0002, |
| "step": 581 |
| }, |
| { |
| "epoch": 7.84, |
| "grad_norm": 0.013700931333005428, |
| "learning_rate": 4.346666666666667e-06, |
| "loss": 0.0002, |
| "step": 588 |
| }, |
| { |
| "epoch": 7.933333333333334, |
| "grad_norm": 0.005316473543643951, |
| "learning_rate": 4.16e-06, |
| "loss": 0.0003, |
| "step": 595 |
| }, |
| { |
| "epoch": 8.0, |
| "eval_accuracy": 0.98, |
| "eval_f1": 0.9806451612903225, |
| "eval_loss": 0.11817323416471481, |
| "eval_runtime": 1.8364, |
| "eval_samples_per_second": 163.36, |
| "eval_steps_per_second": 10.346, |
| "step": 600 |
| } |
| ], |
| "logging_steps": 7, |
| "max_steps": 750, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 10, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 327351779716224.0, |
| "train_batch_size": 16, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|