diff --git "a/stage2/checkpoint-9000/trainer_state.json" "b/stage2/checkpoint-9000/trainer_state.json" new file mode 100644--- /dev/null +++ "b/stage2/checkpoint-9000/trainer_state.json" @@ -0,0 +1,63033 @@ +{ + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 3.0, + "eval_steps": 500, + "global_step": 9000, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.0003333333333333333, + "grad_norm": 15.483834266662598, + "learning_rate": 2.2222222222222224e-08, + "loss": 2.4695, + "step": 1 + }, + { + "epoch": 0.0006666666666666666, + "grad_norm": 12.210597038269043, + "learning_rate": 4.444444444444445e-08, + "loss": 2.5634, + "step": 2 + }, + { + "epoch": 0.001, + "grad_norm": 12.039048194885254, + "learning_rate": 6.666666666666668e-08, + "loss": 2.4918, + "step": 3 + }, + { + "epoch": 0.0013333333333333333, + "grad_norm": 10.530542373657227, + "learning_rate": 8.88888888888889e-08, + "loss": 2.486, + "step": 4 + }, + { + "epoch": 0.0016666666666666668, + "grad_norm": 13.285630226135254, + "learning_rate": 1.1111111111111112e-07, + "loss": 2.7367, + "step": 5 + }, + { + "epoch": 0.002, + "grad_norm": 17.898574829101562, + "learning_rate": 1.3333333333333336e-07, + "loss": 2.5451, + "step": 6 + }, + { + "epoch": 0.0023333333333333335, + "grad_norm": 15.266742706298828, + "learning_rate": 1.5555555555555556e-07, + "loss": 2.7216, + "step": 7 + }, + { + "epoch": 0.0026666666666666666, + "grad_norm": 11.564827919006348, + "learning_rate": 1.777777777777778e-07, + "loss": 2.5176, + "step": 8 + }, + { + "epoch": 0.003, + "grad_norm": 16.329145431518555, + "learning_rate": 2.0000000000000002e-07, + "loss": 2.5706, + "step": 9 + }, + { + "epoch": 0.0033333333333333335, + "grad_norm": 19.051498413085938, + "learning_rate": 2.2222222222222224e-07, + "loss": 2.5244, + "step": 10 + }, + { + "epoch": 0.0036666666666666666, + "grad_norm": 12.913249969482422, + "learning_rate": 2.444444444444445e-07, + "loss": 2.5767, + "step": 11 + }, + { + "epoch": 0.004, + "grad_norm": 12.247255325317383, + "learning_rate": 2.666666666666667e-07, + "loss": 2.4912, + "step": 12 + }, + { + "epoch": 0.004333333333333333, + "grad_norm": 10.821545600891113, + "learning_rate": 2.888888888888889e-07, + "loss": 2.4361, + "step": 13 + }, + { + "epoch": 0.004666666666666667, + "grad_norm": 14.99991512298584, + "learning_rate": 3.111111111111111e-07, + "loss": 2.6404, + "step": 14 + }, + { + "epoch": 0.005, + "grad_norm": 11.54598331451416, + "learning_rate": 3.3333333333333335e-07, + "loss": 2.5249, + "step": 15 + }, + { + "epoch": 0.005333333333333333, + "grad_norm": 17.67732048034668, + "learning_rate": 3.555555555555556e-07, + "loss": 2.5165, + "step": 16 + }, + { + "epoch": 0.005666666666666667, + "grad_norm": 12.4342041015625, + "learning_rate": 3.777777777777778e-07, + "loss": 2.4871, + "step": 17 + }, + { + "epoch": 0.006, + "grad_norm": 17.28836441040039, + "learning_rate": 4.0000000000000003e-07, + "loss": 2.5456, + "step": 18 + }, + { + "epoch": 0.006333333333333333, + "grad_norm": 20.38640022277832, + "learning_rate": 4.2222222222222226e-07, + "loss": 2.457, + "step": 19 + }, + { + "epoch": 0.006666666666666667, + "grad_norm": 24.533634185791016, + "learning_rate": 4.444444444444445e-07, + "loss": 2.6732, + "step": 20 + }, + { + "epoch": 0.007, + "grad_norm": 15.844533920288086, + "learning_rate": 4.666666666666667e-07, + "loss": 2.5034, + "step": 21 + }, + { + "epoch": 0.007333333333333333, + "grad_norm": 15.455002784729004, + "learning_rate": 4.88888888888889e-07, + "loss": 2.5174, + "step": 22 + }, + { + "epoch": 0.007666666666666666, + "grad_norm": 11.586151123046875, + "learning_rate": 5.111111111111112e-07, + "loss": 2.4046, + "step": 23 + }, + { + "epoch": 0.008, + "grad_norm": 11.079305648803711, + "learning_rate": 5.333333333333335e-07, + "loss": 2.4388, + "step": 24 + }, + { + "epoch": 0.008333333333333333, + "grad_norm": 13.07664966583252, + "learning_rate": 5.555555555555555e-07, + "loss": 2.4107, + "step": 25 + }, + { + "epoch": 0.008666666666666666, + "grad_norm": 12.323824882507324, + "learning_rate": 5.777777777777778e-07, + "loss": 2.3931, + "step": 26 + }, + { + "epoch": 0.009, + "grad_norm": 22.025707244873047, + "learning_rate": 6.000000000000001e-07, + "loss": 2.5483, + "step": 27 + }, + { + "epoch": 0.009333333333333334, + "grad_norm": 10.162385940551758, + "learning_rate": 6.222222222222223e-07, + "loss": 2.3843, + "step": 28 + }, + { + "epoch": 0.009666666666666667, + "grad_norm": 26.29161834716797, + "learning_rate": 6.444444444444445e-07, + "loss": 2.4551, + "step": 29 + }, + { + "epoch": 0.01, + "grad_norm": 17.98237419128418, + "learning_rate": 6.666666666666667e-07, + "loss": 2.3195, + "step": 30 + }, + { + "epoch": 0.010333333333333333, + "grad_norm": 11.285619735717773, + "learning_rate": 6.88888888888889e-07, + "loss": 2.3862, + "step": 31 + }, + { + "epoch": 0.010666666666666666, + "grad_norm": 11.58557415008545, + "learning_rate": 7.111111111111112e-07, + "loss": 2.372, + "step": 32 + }, + { + "epoch": 0.011, + "grad_norm": 11.78183650970459, + "learning_rate": 7.333333333333334e-07, + "loss": 2.3471, + "step": 33 + }, + { + "epoch": 0.011333333333333334, + "grad_norm": 11.701957702636719, + "learning_rate": 7.555555555555556e-07, + "loss": 2.3318, + "step": 34 + }, + { + "epoch": 0.011666666666666667, + "grad_norm": 11.414590835571289, + "learning_rate": 7.777777777777779e-07, + "loss": 2.2884, + "step": 35 + }, + { + "epoch": 0.012, + "grad_norm": 14.758543014526367, + "learning_rate": 8.000000000000001e-07, + "loss": 2.3573, + "step": 36 + }, + { + "epoch": 0.012333333333333333, + "grad_norm": 12.022770881652832, + "learning_rate": 8.222222222222223e-07, + "loss": 2.2037, + "step": 37 + }, + { + "epoch": 0.012666666666666666, + "grad_norm": 14.477051734924316, + "learning_rate": 8.444444444444445e-07, + "loss": 2.3243, + "step": 38 + }, + { + "epoch": 0.013, + "grad_norm": 10.191349029541016, + "learning_rate": 8.666666666666668e-07, + "loss": 2.2392, + "step": 39 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 14.050091743469238, + "learning_rate": 8.88888888888889e-07, + "loss": 2.2085, + "step": 40 + }, + { + "epoch": 0.013666666666666667, + "grad_norm": 11.783500671386719, + "learning_rate": 9.111111111111113e-07, + "loss": 2.1095, + "step": 41 + }, + { + "epoch": 0.014, + "grad_norm": 11.498329162597656, + "learning_rate": 9.333333333333334e-07, + "loss": 2.1769, + "step": 42 + }, + { + "epoch": 0.014333333333333333, + "grad_norm": 12.038064002990723, + "learning_rate": 9.555555555555556e-07, + "loss": 2.0133, + "step": 43 + }, + { + "epoch": 0.014666666666666666, + "grad_norm": 20.076196670532227, + "learning_rate": 9.77777777777778e-07, + "loss": 2.0727, + "step": 44 + }, + { + "epoch": 0.015, + "grad_norm": 11.58134651184082, + "learning_rate": 1.0000000000000002e-06, + "loss": 2.0479, + "step": 45 + }, + { + "epoch": 0.015333333333333332, + "grad_norm": 12.299894332885742, + "learning_rate": 1.0222222222222223e-06, + "loss": 2.0069, + "step": 46 + }, + { + "epoch": 0.015666666666666666, + "grad_norm": 19.212779998779297, + "learning_rate": 1.0444444444444445e-06, + "loss": 2.1717, + "step": 47 + }, + { + "epoch": 0.016, + "grad_norm": 8.969616889953613, + "learning_rate": 1.066666666666667e-06, + "loss": 2.03, + "step": 48 + }, + { + "epoch": 0.01633333333333333, + "grad_norm": 7.151369571685791, + "learning_rate": 1.0888888888888889e-06, + "loss": 1.8041, + "step": 49 + }, + { + "epoch": 0.016666666666666666, + "grad_norm": 9.04044246673584, + "learning_rate": 1.111111111111111e-06, + "loss": 1.9774, + "step": 50 + }, + { + "epoch": 0.017, + "grad_norm": 8.885573387145996, + "learning_rate": 1.1333333333333334e-06, + "loss": 1.8785, + "step": 51 + }, + { + "epoch": 0.017333333333333333, + "grad_norm": 6.911837100982666, + "learning_rate": 1.1555555555555556e-06, + "loss": 1.768, + "step": 52 + }, + { + "epoch": 0.017666666666666667, + "grad_norm": 10.794865608215332, + "learning_rate": 1.1777777777777778e-06, + "loss": 1.7694, + "step": 53 + }, + { + "epoch": 0.018, + "grad_norm": 6.722680568695068, + "learning_rate": 1.2000000000000002e-06, + "loss": 1.7242, + "step": 54 + }, + { + "epoch": 0.018333333333333333, + "grad_norm": 7.395876407623291, + "learning_rate": 1.2222222222222223e-06, + "loss": 1.7397, + "step": 55 + }, + { + "epoch": 0.018666666666666668, + "grad_norm": 8.92789077758789, + "learning_rate": 1.2444444444444445e-06, + "loss": 1.709, + "step": 56 + }, + { + "epoch": 0.019, + "grad_norm": 5.237385272979736, + "learning_rate": 1.2666666666666669e-06, + "loss": 1.7997, + "step": 57 + }, + { + "epoch": 0.019333333333333334, + "grad_norm": 4.562684535980225, + "learning_rate": 1.288888888888889e-06, + "loss": 1.6966, + "step": 58 + }, + { + "epoch": 0.019666666666666666, + "grad_norm": 5.247601509094238, + "learning_rate": 1.3111111111111112e-06, + "loss": 1.7542, + "step": 59 + }, + { + "epoch": 0.02, + "grad_norm": 5.398292064666748, + "learning_rate": 1.3333333333333334e-06, + "loss": 1.4922, + "step": 60 + }, + { + "epoch": 0.02033333333333333, + "grad_norm": 5.790295600891113, + "learning_rate": 1.3555555555555558e-06, + "loss": 1.6083, + "step": 61 + }, + { + "epoch": 0.020666666666666667, + "grad_norm": 6.4872822761535645, + "learning_rate": 1.377777777777778e-06, + "loss": 1.6952, + "step": 62 + }, + { + "epoch": 0.021, + "grad_norm": 4.954003810882568, + "learning_rate": 1.4000000000000001e-06, + "loss": 1.6576, + "step": 63 + }, + { + "epoch": 0.021333333333333333, + "grad_norm": 4.286629676818848, + "learning_rate": 1.4222222222222223e-06, + "loss": 1.6337, + "step": 64 + }, + { + "epoch": 0.021666666666666667, + "grad_norm": 4.747916221618652, + "learning_rate": 1.4444444444444445e-06, + "loss": 1.6551, + "step": 65 + }, + { + "epoch": 0.022, + "grad_norm": 3.8429605960845947, + "learning_rate": 1.4666666666666669e-06, + "loss": 1.6396, + "step": 66 + }, + { + "epoch": 0.022333333333333334, + "grad_norm": 4.056787490844727, + "learning_rate": 1.4888888888888888e-06, + "loss": 1.618, + "step": 67 + }, + { + "epoch": 0.02266666666666667, + "grad_norm": 3.8002164363861084, + "learning_rate": 1.5111111111111112e-06, + "loss": 1.5363, + "step": 68 + }, + { + "epoch": 0.023, + "grad_norm": 3.8432459831237793, + "learning_rate": 1.5333333333333334e-06, + "loss": 1.6271, + "step": 69 + }, + { + "epoch": 0.023333333333333334, + "grad_norm": 4.530714511871338, + "learning_rate": 1.5555555555555558e-06, + "loss": 1.5907, + "step": 70 + }, + { + "epoch": 0.023666666666666666, + "grad_norm": 2.942293167114258, + "learning_rate": 1.5777777777777778e-06, + "loss": 1.5109, + "step": 71 + }, + { + "epoch": 0.024, + "grad_norm": 3.0982654094696045, + "learning_rate": 1.6000000000000001e-06, + "loss": 1.5326, + "step": 72 + }, + { + "epoch": 0.024333333333333332, + "grad_norm": 3.2497313022613525, + "learning_rate": 1.6222222222222223e-06, + "loss": 1.5008, + "step": 73 + }, + { + "epoch": 0.024666666666666667, + "grad_norm": 3.474163293838501, + "learning_rate": 1.6444444444444447e-06, + "loss": 1.6914, + "step": 74 + }, + { + "epoch": 0.025, + "grad_norm": 8.692206382751465, + "learning_rate": 1.6666666666666667e-06, + "loss": 1.6337, + "step": 75 + }, + { + "epoch": 0.025333333333333333, + "grad_norm": 3.722869873046875, + "learning_rate": 1.688888888888889e-06, + "loss": 1.5106, + "step": 76 + }, + { + "epoch": 0.025666666666666667, + "grad_norm": 2.901139974594116, + "learning_rate": 1.7111111111111112e-06, + "loss": 1.6043, + "step": 77 + }, + { + "epoch": 0.026, + "grad_norm": 2.656733274459839, + "learning_rate": 1.7333333333333336e-06, + "loss": 1.4698, + "step": 78 + }, + { + "epoch": 0.026333333333333334, + "grad_norm": 3.3284049034118652, + "learning_rate": 1.7555555555555556e-06, + "loss": 1.4834, + "step": 79 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 2.2450153827667236, + "learning_rate": 1.777777777777778e-06, + "loss": 1.4378, + "step": 80 + }, + { + "epoch": 0.027, + "grad_norm": 3.224684238433838, + "learning_rate": 1.8000000000000001e-06, + "loss": 1.5458, + "step": 81 + }, + { + "epoch": 0.027333333333333334, + "grad_norm": 3.133759021759033, + "learning_rate": 1.8222222222222225e-06, + "loss": 1.5901, + "step": 82 + }, + { + "epoch": 0.027666666666666666, + "grad_norm": 2.7170097827911377, + "learning_rate": 1.8444444444444445e-06, + "loss": 1.5318, + "step": 83 + }, + { + "epoch": 0.028, + "grad_norm": 2.3953614234924316, + "learning_rate": 1.8666666666666669e-06, + "loss": 1.3938, + "step": 84 + }, + { + "epoch": 0.028333333333333332, + "grad_norm": 2.6315011978149414, + "learning_rate": 1.888888888888889e-06, + "loss": 1.486, + "step": 85 + }, + { + "epoch": 0.028666666666666667, + "grad_norm": 2.273895263671875, + "learning_rate": 1.9111111111111112e-06, + "loss": 1.4391, + "step": 86 + }, + { + "epoch": 0.029, + "grad_norm": 2.1958627700805664, + "learning_rate": 1.9333333333333336e-06, + "loss": 1.5781, + "step": 87 + }, + { + "epoch": 0.029333333333333333, + "grad_norm": 4.581125736236572, + "learning_rate": 1.955555555555556e-06, + "loss": 1.5318, + "step": 88 + }, + { + "epoch": 0.029666666666666668, + "grad_norm": 2.566713333129883, + "learning_rate": 1.977777777777778e-06, + "loss": 1.5328, + "step": 89 + }, + { + "epoch": 0.03, + "grad_norm": 2.0541727542877197, + "learning_rate": 2.0000000000000003e-06, + "loss": 1.4081, + "step": 90 + }, + { + "epoch": 0.030333333333333334, + "grad_norm": 2.372750759124756, + "learning_rate": 2.0222222222222223e-06, + "loss": 1.4346, + "step": 91 + }, + { + "epoch": 0.030666666666666665, + "grad_norm": 2.4790232181549072, + "learning_rate": 2.0444444444444447e-06, + "loss": 1.5006, + "step": 92 + }, + { + "epoch": 0.031, + "grad_norm": 1.842381238937378, + "learning_rate": 2.0666666666666666e-06, + "loss": 1.4765, + "step": 93 + }, + { + "epoch": 0.03133333333333333, + "grad_norm": 2.035754680633545, + "learning_rate": 2.088888888888889e-06, + "loss": 1.4111, + "step": 94 + }, + { + "epoch": 0.03166666666666667, + "grad_norm": 1.8570780754089355, + "learning_rate": 2.1111111111111114e-06, + "loss": 1.4385, + "step": 95 + }, + { + "epoch": 0.032, + "grad_norm": 2.595578670501709, + "learning_rate": 2.133333333333334e-06, + "loss": 1.3999, + "step": 96 + }, + { + "epoch": 0.03233333333333333, + "grad_norm": 1.9990808963775635, + "learning_rate": 2.1555555555555558e-06, + "loss": 1.418, + "step": 97 + }, + { + "epoch": 0.03266666666666666, + "grad_norm": 2.280733346939087, + "learning_rate": 2.1777777777777777e-06, + "loss": 1.4817, + "step": 98 + }, + { + "epoch": 0.033, + "grad_norm": 2.075305461883545, + "learning_rate": 2.2e-06, + "loss": 1.4865, + "step": 99 + }, + { + "epoch": 0.03333333333333333, + "grad_norm": 1.8431602716445923, + "learning_rate": 2.222222222222222e-06, + "loss": 1.4484, + "step": 100 + }, + { + "epoch": 0.033666666666666664, + "grad_norm": 2.0524024963378906, + "learning_rate": 2.2444444444444445e-06, + "loss": 1.465, + "step": 101 + }, + { + "epoch": 0.034, + "grad_norm": 2.0179994106292725, + "learning_rate": 2.266666666666667e-06, + "loss": 1.381, + "step": 102 + }, + { + "epoch": 0.034333333333333334, + "grad_norm": 1.6242879629135132, + "learning_rate": 2.2888888888888892e-06, + "loss": 1.3618, + "step": 103 + }, + { + "epoch": 0.034666666666666665, + "grad_norm": 1.5702133178710938, + "learning_rate": 2.311111111111111e-06, + "loss": 1.4513, + "step": 104 + }, + { + "epoch": 0.035, + "grad_norm": 2.11061692237854, + "learning_rate": 2.3333333333333336e-06, + "loss": 1.489, + "step": 105 + }, + { + "epoch": 0.035333333333333335, + "grad_norm": 1.4422800540924072, + "learning_rate": 2.3555555555555555e-06, + "loss": 1.3474, + "step": 106 + }, + { + "epoch": 0.035666666666666666, + "grad_norm": 1.835077166557312, + "learning_rate": 2.377777777777778e-06, + "loss": 1.169, + "step": 107 + }, + { + "epoch": 0.036, + "grad_norm": 1.5967047214508057, + "learning_rate": 2.4000000000000003e-06, + "loss": 1.4791, + "step": 108 + }, + { + "epoch": 0.036333333333333336, + "grad_norm": 1.4876264333724976, + "learning_rate": 2.4222222222222223e-06, + "loss": 1.3253, + "step": 109 + }, + { + "epoch": 0.03666666666666667, + "grad_norm": 6.190934181213379, + "learning_rate": 2.4444444444444447e-06, + "loss": 1.431, + "step": 110 + }, + { + "epoch": 0.037, + "grad_norm": 1.7945926189422607, + "learning_rate": 2.466666666666667e-06, + "loss": 1.4117, + "step": 111 + }, + { + "epoch": 0.037333333333333336, + "grad_norm": 1.8085747957229614, + "learning_rate": 2.488888888888889e-06, + "loss": 1.3967, + "step": 112 + }, + { + "epoch": 0.03766666666666667, + "grad_norm": 1.820383071899414, + "learning_rate": 2.5111111111111114e-06, + "loss": 1.4246, + "step": 113 + }, + { + "epoch": 0.038, + "grad_norm": 1.938625693321228, + "learning_rate": 2.5333333333333338e-06, + "loss": 1.3566, + "step": 114 + }, + { + "epoch": 0.03833333333333333, + "grad_norm": 1.7998836040496826, + "learning_rate": 2.5555555555555557e-06, + "loss": 1.2963, + "step": 115 + }, + { + "epoch": 0.03866666666666667, + "grad_norm": 1.5755552053451538, + "learning_rate": 2.577777777777778e-06, + "loss": 1.4064, + "step": 116 + }, + { + "epoch": 0.039, + "grad_norm": 1.5559128522872925, + "learning_rate": 2.6e-06, + "loss": 1.3726, + "step": 117 + }, + { + "epoch": 0.03933333333333333, + "grad_norm": 1.511427640914917, + "learning_rate": 2.6222222222222225e-06, + "loss": 1.4041, + "step": 118 + }, + { + "epoch": 0.03966666666666667, + "grad_norm": 1.593808889389038, + "learning_rate": 2.6444444444444444e-06, + "loss": 1.3972, + "step": 119 + }, + { + "epoch": 0.04, + "grad_norm": 1.6744073629379272, + "learning_rate": 2.666666666666667e-06, + "loss": 1.3895, + "step": 120 + }, + { + "epoch": 0.04033333333333333, + "grad_norm": 1.4619052410125732, + "learning_rate": 2.6888888888888892e-06, + "loss": 1.2623, + "step": 121 + }, + { + "epoch": 0.04066666666666666, + "grad_norm": 1.6849281787872314, + "learning_rate": 2.7111111111111116e-06, + "loss": 1.3463, + "step": 122 + }, + { + "epoch": 0.041, + "grad_norm": 1.5644203424453735, + "learning_rate": 2.7333333333333336e-06, + "loss": 1.3406, + "step": 123 + }, + { + "epoch": 0.04133333333333333, + "grad_norm": 1.4968042373657227, + "learning_rate": 2.755555555555556e-06, + "loss": 1.3818, + "step": 124 + }, + { + "epoch": 0.041666666666666664, + "grad_norm": 1.7906386852264404, + "learning_rate": 2.7777777777777783e-06, + "loss": 1.2245, + "step": 125 + }, + { + "epoch": 0.042, + "grad_norm": 1.3810752630233765, + "learning_rate": 2.8000000000000003e-06, + "loss": 1.3872, + "step": 126 + }, + { + "epoch": 0.042333333333333334, + "grad_norm": 1.4208086729049683, + "learning_rate": 2.8222222222222223e-06, + "loss": 1.2718, + "step": 127 + }, + { + "epoch": 0.042666666666666665, + "grad_norm": 1.6148021221160889, + "learning_rate": 2.8444444444444446e-06, + "loss": 1.3075, + "step": 128 + }, + { + "epoch": 0.043, + "grad_norm": 1.4911831617355347, + "learning_rate": 2.866666666666667e-06, + "loss": 1.3303, + "step": 129 + }, + { + "epoch": 0.043333333333333335, + "grad_norm": 1.3471121788024902, + "learning_rate": 2.888888888888889e-06, + "loss": 1.2575, + "step": 130 + }, + { + "epoch": 0.043666666666666666, + "grad_norm": 1.5235962867736816, + "learning_rate": 2.9111111111111114e-06, + "loss": 1.3054, + "step": 131 + }, + { + "epoch": 0.044, + "grad_norm": 1.3587009906768799, + "learning_rate": 2.9333333333333338e-06, + "loss": 1.3027, + "step": 132 + }, + { + "epoch": 0.044333333333333336, + "grad_norm": 1.5427789688110352, + "learning_rate": 2.955555555555556e-06, + "loss": 1.3632, + "step": 133 + }, + { + "epoch": 0.04466666666666667, + "grad_norm": 1.3619639873504639, + "learning_rate": 2.9777777777777777e-06, + "loss": 1.3555, + "step": 134 + }, + { + "epoch": 0.045, + "grad_norm": 1.2612428665161133, + "learning_rate": 3e-06, + "loss": 1.3255, + "step": 135 + }, + { + "epoch": 0.04533333333333334, + "grad_norm": 1.6188839673995972, + "learning_rate": 3.0222222222222225e-06, + "loss": 1.3535, + "step": 136 + }, + { + "epoch": 0.04566666666666667, + "grad_norm": 1.347509741783142, + "learning_rate": 3.044444444444445e-06, + "loss": 1.2769, + "step": 137 + }, + { + "epoch": 0.046, + "grad_norm": 1.4961661100387573, + "learning_rate": 3.066666666666667e-06, + "loss": 1.433, + "step": 138 + }, + { + "epoch": 0.04633333333333333, + "grad_norm": 1.3602139949798584, + "learning_rate": 3.088888888888889e-06, + "loss": 1.2828, + "step": 139 + }, + { + "epoch": 0.04666666666666667, + "grad_norm": 1.286740779876709, + "learning_rate": 3.1111111111111116e-06, + "loss": 1.3635, + "step": 140 + }, + { + "epoch": 0.047, + "grad_norm": 1.2654173374176025, + "learning_rate": 3.133333333333334e-06, + "loss": 1.3668, + "step": 141 + }, + { + "epoch": 0.04733333333333333, + "grad_norm": 1.4072736501693726, + "learning_rate": 3.1555555555555555e-06, + "loss": 1.3464, + "step": 142 + }, + { + "epoch": 0.04766666666666667, + "grad_norm": 1.2724931240081787, + "learning_rate": 3.177777777777778e-06, + "loss": 1.3135, + "step": 143 + }, + { + "epoch": 0.048, + "grad_norm": 1.2339658737182617, + "learning_rate": 3.2000000000000003e-06, + "loss": 1.2525, + "step": 144 + }, + { + "epoch": 0.04833333333333333, + "grad_norm": 1.3238131999969482, + "learning_rate": 3.2222222222222227e-06, + "loss": 1.2757, + "step": 145 + }, + { + "epoch": 0.048666666666666664, + "grad_norm": 1.491300344467163, + "learning_rate": 3.2444444444444446e-06, + "loss": 1.3233, + "step": 146 + }, + { + "epoch": 0.049, + "grad_norm": 1.3430378437042236, + "learning_rate": 3.266666666666667e-06, + "loss": 1.3132, + "step": 147 + }, + { + "epoch": 0.04933333333333333, + "grad_norm": 1.4021379947662354, + "learning_rate": 3.2888888888888894e-06, + "loss": 1.3387, + "step": 148 + }, + { + "epoch": 0.049666666666666665, + "grad_norm": 1.1979670524597168, + "learning_rate": 3.3111111111111118e-06, + "loss": 1.2472, + "step": 149 + }, + { + "epoch": 0.05, + "grad_norm": 1.2636607885360718, + "learning_rate": 3.3333333333333333e-06, + "loss": 1.3043, + "step": 150 + }, + { + "epoch": 0.050333333333333334, + "grad_norm": 1.3946751356124878, + "learning_rate": 3.3555555555555557e-06, + "loss": 1.2108, + "step": 151 + }, + { + "epoch": 0.050666666666666665, + "grad_norm": 1.2885507345199585, + "learning_rate": 3.377777777777778e-06, + "loss": 1.3348, + "step": 152 + }, + { + "epoch": 0.051, + "grad_norm": 1.3779282569885254, + "learning_rate": 3.4000000000000005e-06, + "loss": 1.1304, + "step": 153 + }, + { + "epoch": 0.051333333333333335, + "grad_norm": 1.236070990562439, + "learning_rate": 3.4222222222222224e-06, + "loss": 1.3648, + "step": 154 + }, + { + "epoch": 0.051666666666666666, + "grad_norm": 1.3062734603881836, + "learning_rate": 3.444444444444445e-06, + "loss": 1.3378, + "step": 155 + }, + { + "epoch": 0.052, + "grad_norm": 1.436011791229248, + "learning_rate": 3.4666666666666672e-06, + "loss": 1.2278, + "step": 156 + }, + { + "epoch": 0.052333333333333336, + "grad_norm": 2.093560218811035, + "learning_rate": 3.4888888888888896e-06, + "loss": 1.3101, + "step": 157 + }, + { + "epoch": 0.05266666666666667, + "grad_norm": 1.723180890083313, + "learning_rate": 3.511111111111111e-06, + "loss": 1.3184, + "step": 158 + }, + { + "epoch": 0.053, + "grad_norm": 1.2060645818710327, + "learning_rate": 3.5333333333333335e-06, + "loss": 1.2853, + "step": 159 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 1.3183825016021729, + "learning_rate": 3.555555555555556e-06, + "loss": 1.2031, + "step": 160 + }, + { + "epoch": 0.05366666666666667, + "grad_norm": 1.5008703470230103, + "learning_rate": 3.577777777777778e-06, + "loss": 1.3214, + "step": 161 + }, + { + "epoch": 0.054, + "grad_norm": 1.4213061332702637, + "learning_rate": 3.6000000000000003e-06, + "loss": 1.3879, + "step": 162 + }, + { + "epoch": 0.05433333333333333, + "grad_norm": 1.4359703063964844, + "learning_rate": 3.6222222222222226e-06, + "loss": 1.2686, + "step": 163 + }, + { + "epoch": 0.05466666666666667, + "grad_norm": 1.4547736644744873, + "learning_rate": 3.644444444444445e-06, + "loss": 1.225, + "step": 164 + }, + { + "epoch": 0.055, + "grad_norm": 1.4665586948394775, + "learning_rate": 3.6666666666666666e-06, + "loss": 1.3169, + "step": 165 + }, + { + "epoch": 0.05533333333333333, + "grad_norm": 1.390183687210083, + "learning_rate": 3.688888888888889e-06, + "loss": 1.3167, + "step": 166 + }, + { + "epoch": 0.05566666666666667, + "grad_norm": 1.26180100440979, + "learning_rate": 3.7111111111111113e-06, + "loss": 1.303, + "step": 167 + }, + { + "epoch": 0.056, + "grad_norm": 1.3252928256988525, + "learning_rate": 3.7333333333333337e-06, + "loss": 1.3461, + "step": 168 + }, + { + "epoch": 0.05633333333333333, + "grad_norm": 1.2670942544937134, + "learning_rate": 3.7555555555555557e-06, + "loss": 1.2996, + "step": 169 + }, + { + "epoch": 0.056666666666666664, + "grad_norm": 1.3658570051193237, + "learning_rate": 3.777777777777778e-06, + "loss": 1.0664, + "step": 170 + }, + { + "epoch": 0.057, + "grad_norm": 1.4456546306610107, + "learning_rate": 3.8000000000000005e-06, + "loss": 1.2475, + "step": 171 + }, + { + "epoch": 0.05733333333333333, + "grad_norm": 1.4840880632400513, + "learning_rate": 3.8222222222222224e-06, + "loss": 1.2065, + "step": 172 + }, + { + "epoch": 0.057666666666666665, + "grad_norm": 1.1838343143463135, + "learning_rate": 3.844444444444445e-06, + "loss": 1.2843, + "step": 173 + }, + { + "epoch": 0.058, + "grad_norm": 1.4141844511032104, + "learning_rate": 3.866666666666667e-06, + "loss": 1.3068, + "step": 174 + }, + { + "epoch": 0.058333333333333334, + "grad_norm": 1.2677348852157593, + "learning_rate": 3.88888888888889e-06, + "loss": 1.2392, + "step": 175 + }, + { + "epoch": 0.058666666666666666, + "grad_norm": 1.2379839420318604, + "learning_rate": 3.911111111111112e-06, + "loss": 1.2172, + "step": 176 + }, + { + "epoch": 0.059, + "grad_norm": 1.258251667022705, + "learning_rate": 3.9333333333333335e-06, + "loss": 1.1805, + "step": 177 + }, + { + "epoch": 0.059333333333333335, + "grad_norm": 1.4036495685577393, + "learning_rate": 3.955555555555556e-06, + "loss": 1.2764, + "step": 178 + }, + { + "epoch": 0.059666666666666666, + "grad_norm": 1.3037679195404053, + "learning_rate": 3.977777777777778e-06, + "loss": 1.2541, + "step": 179 + }, + { + "epoch": 0.06, + "grad_norm": 1.4055136442184448, + "learning_rate": 4.000000000000001e-06, + "loss": 1.3753, + "step": 180 + }, + { + "epoch": 0.060333333333333336, + "grad_norm": 1.2639235258102417, + "learning_rate": 4.022222222222222e-06, + "loss": 1.3262, + "step": 181 + }, + { + "epoch": 0.06066666666666667, + "grad_norm": 1.3695694208145142, + "learning_rate": 4.044444444444445e-06, + "loss": 1.3715, + "step": 182 + }, + { + "epoch": 0.061, + "grad_norm": 1.35953950881958, + "learning_rate": 4.066666666666667e-06, + "loss": 1.2758, + "step": 183 + }, + { + "epoch": 0.06133333333333333, + "grad_norm": 1.4494478702545166, + "learning_rate": 4.088888888888889e-06, + "loss": 1.2838, + "step": 184 + }, + { + "epoch": 0.06166666666666667, + "grad_norm": 1.339180588722229, + "learning_rate": 4.111111111111111e-06, + "loss": 1.3029, + "step": 185 + }, + { + "epoch": 0.062, + "grad_norm": 1.4733061790466309, + "learning_rate": 4.133333333333333e-06, + "loss": 1.0578, + "step": 186 + }, + { + "epoch": 0.06233333333333333, + "grad_norm": 1.2901577949523926, + "learning_rate": 4.155555555555556e-06, + "loss": 1.2729, + "step": 187 + }, + { + "epoch": 0.06266666666666666, + "grad_norm": 1.3564659357070923, + "learning_rate": 4.177777777777778e-06, + "loss": 1.1373, + "step": 188 + }, + { + "epoch": 0.063, + "grad_norm": 1.2915252447128296, + "learning_rate": 4.2000000000000004e-06, + "loss": 1.2466, + "step": 189 + }, + { + "epoch": 0.06333333333333334, + "grad_norm": 1.2145426273345947, + "learning_rate": 4.222222222222223e-06, + "loss": 1.2289, + "step": 190 + }, + { + "epoch": 0.06366666666666666, + "grad_norm": 1.2791332006454468, + "learning_rate": 4.244444444444445e-06, + "loss": 1.2844, + "step": 191 + }, + { + "epoch": 0.064, + "grad_norm": 1.450408935546875, + "learning_rate": 4.266666666666668e-06, + "loss": 1.2884, + "step": 192 + }, + { + "epoch": 0.06433333333333334, + "grad_norm": 1.270392656326294, + "learning_rate": 4.288888888888889e-06, + "loss": 1.2359, + "step": 193 + }, + { + "epoch": 0.06466666666666666, + "grad_norm": 1.404968023300171, + "learning_rate": 4.3111111111111115e-06, + "loss": 1.2646, + "step": 194 + }, + { + "epoch": 0.065, + "grad_norm": 1.2794346809387207, + "learning_rate": 4.333333333333334e-06, + "loss": 1.1693, + "step": 195 + }, + { + "epoch": 0.06533333333333333, + "grad_norm": 1.4090980291366577, + "learning_rate": 4.3555555555555555e-06, + "loss": 1.1415, + "step": 196 + }, + { + "epoch": 0.06566666666666666, + "grad_norm": 1.3390249013900757, + "learning_rate": 4.377777777777778e-06, + "loss": 1.2124, + "step": 197 + }, + { + "epoch": 0.066, + "grad_norm": 1.3669312000274658, + "learning_rate": 4.4e-06, + "loss": 1.2203, + "step": 198 + }, + { + "epoch": 0.06633333333333333, + "grad_norm": 1.3142367601394653, + "learning_rate": 4.422222222222223e-06, + "loss": 1.2172, + "step": 199 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 1.412399411201477, + "learning_rate": 4.444444444444444e-06, + "loss": 1.1519, + "step": 200 + }, + { + "epoch": 0.067, + "grad_norm": 1.7827990055084229, + "learning_rate": 4.4666666666666665e-06, + "loss": 1.2257, + "step": 201 + }, + { + "epoch": 0.06733333333333333, + "grad_norm": 1.2888553142547607, + "learning_rate": 4.488888888888889e-06, + "loss": 1.1455, + "step": 202 + }, + { + "epoch": 0.06766666666666667, + "grad_norm": 1.3954130411148071, + "learning_rate": 4.511111111111111e-06, + "loss": 1.1715, + "step": 203 + }, + { + "epoch": 0.068, + "grad_norm": 1.6892426013946533, + "learning_rate": 4.533333333333334e-06, + "loss": 1.1784, + "step": 204 + }, + { + "epoch": 0.06833333333333333, + "grad_norm": 1.3415107727050781, + "learning_rate": 4.555555555555556e-06, + "loss": 1.2648, + "step": 205 + }, + { + "epoch": 0.06866666666666667, + "grad_norm": 1.3903350830078125, + "learning_rate": 4.5777777777777785e-06, + "loss": 1.2145, + "step": 206 + }, + { + "epoch": 0.069, + "grad_norm": 2.2485077381134033, + "learning_rate": 4.600000000000001e-06, + "loss": 1.1385, + "step": 207 + }, + { + "epoch": 0.06933333333333333, + "grad_norm": 1.4355932474136353, + "learning_rate": 4.622222222222222e-06, + "loss": 1.2284, + "step": 208 + }, + { + "epoch": 0.06966666666666667, + "grad_norm": 1.426110863685608, + "learning_rate": 4.644444444444445e-06, + "loss": 1.1575, + "step": 209 + }, + { + "epoch": 0.07, + "grad_norm": 1.3815157413482666, + "learning_rate": 4.666666666666667e-06, + "loss": 1.1941, + "step": 210 + }, + { + "epoch": 0.07033333333333333, + "grad_norm": 1.238779902458191, + "learning_rate": 4.6888888888888895e-06, + "loss": 1.3053, + "step": 211 + }, + { + "epoch": 0.07066666666666667, + "grad_norm": 1.3803750276565552, + "learning_rate": 4.711111111111111e-06, + "loss": 1.2114, + "step": 212 + }, + { + "epoch": 0.071, + "grad_norm": 1.4280091524124146, + "learning_rate": 4.7333333333333335e-06, + "loss": 1.1753, + "step": 213 + }, + { + "epoch": 0.07133333333333333, + "grad_norm": 1.3657097816467285, + "learning_rate": 4.755555555555556e-06, + "loss": 1.2771, + "step": 214 + }, + { + "epoch": 0.07166666666666667, + "grad_norm": 1.4120781421661377, + "learning_rate": 4.777777777777778e-06, + "loss": 1.29, + "step": 215 + }, + { + "epoch": 0.072, + "grad_norm": 1.2994266748428345, + "learning_rate": 4.800000000000001e-06, + "loss": 1.3332, + "step": 216 + }, + { + "epoch": 0.07233333333333333, + "grad_norm": 1.4608207941055298, + "learning_rate": 4.822222222222222e-06, + "loss": 1.0821, + "step": 217 + }, + { + "epoch": 0.07266666666666667, + "grad_norm": 1.5336815118789673, + "learning_rate": 4.8444444444444446e-06, + "loss": 1.2205, + "step": 218 + }, + { + "epoch": 0.073, + "grad_norm": 1.3190078735351562, + "learning_rate": 4.866666666666667e-06, + "loss": 1.1588, + "step": 219 + }, + { + "epoch": 0.07333333333333333, + "grad_norm": 1.4905078411102295, + "learning_rate": 4.888888888888889e-06, + "loss": 1.2355, + "step": 220 + }, + { + "epoch": 0.07366666666666667, + "grad_norm": 1.5503385066986084, + "learning_rate": 4.911111111111112e-06, + "loss": 1.3125, + "step": 221 + }, + { + "epoch": 0.074, + "grad_norm": 1.4679452180862427, + "learning_rate": 4.933333333333334e-06, + "loss": 1.1889, + "step": 222 + }, + { + "epoch": 0.07433333333333333, + "grad_norm": 1.3042186498641968, + "learning_rate": 4.9555555555555565e-06, + "loss": 1.1924, + "step": 223 + }, + { + "epoch": 0.07466666666666667, + "grad_norm": 1.3114066123962402, + "learning_rate": 4.977777777777778e-06, + "loss": 1.1131, + "step": 224 + }, + { + "epoch": 0.075, + "grad_norm": 1.346964716911316, + "learning_rate": 5e-06, + "loss": 1.2308, + "step": 225 + }, + { + "epoch": 0.07533333333333334, + "grad_norm": 1.5224623680114746, + "learning_rate": 5.022222222222223e-06, + "loss": 1.2206, + "step": 226 + }, + { + "epoch": 0.07566666666666666, + "grad_norm": 1.3664438724517822, + "learning_rate": 5.044444444444445e-06, + "loss": 1.1371, + "step": 227 + }, + { + "epoch": 0.076, + "grad_norm": 1.4635165929794312, + "learning_rate": 5.0666666666666676e-06, + "loss": 1.272, + "step": 228 + }, + { + "epoch": 0.07633333333333334, + "grad_norm": 1.644370675086975, + "learning_rate": 5.088888888888889e-06, + "loss": 1.2781, + "step": 229 + }, + { + "epoch": 0.07666666666666666, + "grad_norm": 1.3507007360458374, + "learning_rate": 5.1111111111111115e-06, + "loss": 1.2523, + "step": 230 + }, + { + "epoch": 0.077, + "grad_norm": 1.6970666646957397, + "learning_rate": 5.133333333333334e-06, + "loss": 1.1411, + "step": 231 + }, + { + "epoch": 0.07733333333333334, + "grad_norm": 1.5529383420944214, + "learning_rate": 5.155555555555556e-06, + "loss": 1.2116, + "step": 232 + }, + { + "epoch": 0.07766666666666666, + "grad_norm": 1.446147084236145, + "learning_rate": 5.177777777777779e-06, + "loss": 1.2673, + "step": 233 + }, + { + "epoch": 0.078, + "grad_norm": 1.359573245048523, + "learning_rate": 5.2e-06, + "loss": 1.134, + "step": 234 + }, + { + "epoch": 0.07833333333333334, + "grad_norm": 1.4841527938842773, + "learning_rate": 5.2222222222222226e-06, + "loss": 1.1724, + "step": 235 + }, + { + "epoch": 0.07866666666666666, + "grad_norm": 1.4861623048782349, + "learning_rate": 5.244444444444445e-06, + "loss": 1.1802, + "step": 236 + }, + { + "epoch": 0.079, + "grad_norm": 1.561577320098877, + "learning_rate": 5.2666666666666665e-06, + "loss": 1.2499, + "step": 237 + }, + { + "epoch": 0.07933333333333334, + "grad_norm": 1.5490301847457886, + "learning_rate": 5.288888888888889e-06, + "loss": 1.2508, + "step": 238 + }, + { + "epoch": 0.07966666666666666, + "grad_norm": 1.577430248260498, + "learning_rate": 5.311111111111111e-06, + "loss": 1.2194, + "step": 239 + }, + { + "epoch": 0.08, + "grad_norm": 1.6178735494613647, + "learning_rate": 5.333333333333334e-06, + "loss": 1.2284, + "step": 240 + }, + { + "epoch": 0.08033333333333334, + "grad_norm": 1.8305985927581787, + "learning_rate": 5.355555555555556e-06, + "loss": 1.1955, + "step": 241 + }, + { + "epoch": 0.08066666666666666, + "grad_norm": 1.449809193611145, + "learning_rate": 5.3777777777777784e-06, + "loss": 1.198, + "step": 242 + }, + { + "epoch": 0.081, + "grad_norm": 1.3779915571212769, + "learning_rate": 5.400000000000001e-06, + "loss": 1.1645, + "step": 243 + }, + { + "epoch": 0.08133333333333333, + "grad_norm": 1.460625171661377, + "learning_rate": 5.422222222222223e-06, + "loss": 1.2127, + "step": 244 + }, + { + "epoch": 0.08166666666666667, + "grad_norm": 1.4313592910766602, + "learning_rate": 5.444444444444445e-06, + "loss": 1.1936, + "step": 245 + }, + { + "epoch": 0.082, + "grad_norm": 1.853387713432312, + "learning_rate": 5.466666666666667e-06, + "loss": 1.203, + "step": 246 + }, + { + "epoch": 0.08233333333333333, + "grad_norm": 1.3658169507980347, + "learning_rate": 5.4888888888888895e-06, + "loss": 1.1723, + "step": 247 + }, + { + "epoch": 0.08266666666666667, + "grad_norm": 1.606663465499878, + "learning_rate": 5.511111111111112e-06, + "loss": 1.1511, + "step": 248 + }, + { + "epoch": 0.083, + "grad_norm": 1.358900547027588, + "learning_rate": 5.533333333333334e-06, + "loss": 1.1744, + "step": 249 + }, + { + "epoch": 0.08333333333333333, + "grad_norm": 1.4844703674316406, + "learning_rate": 5.555555555555557e-06, + "loss": 1.1956, + "step": 250 + }, + { + "epoch": 0.08366666666666667, + "grad_norm": 1.578043818473816, + "learning_rate": 5.577777777777778e-06, + "loss": 1.2517, + "step": 251 + }, + { + "epoch": 0.084, + "grad_norm": 1.5674386024475098, + "learning_rate": 5.600000000000001e-06, + "loss": 1.2308, + "step": 252 + }, + { + "epoch": 0.08433333333333333, + "grad_norm": 1.2692322731018066, + "learning_rate": 5.622222222222222e-06, + "loss": 1.2043, + "step": 253 + }, + { + "epoch": 0.08466666666666667, + "grad_norm": 1.4952797889709473, + "learning_rate": 5.6444444444444445e-06, + "loss": 1.1216, + "step": 254 + }, + { + "epoch": 0.085, + "grad_norm": 1.4115986824035645, + "learning_rate": 5.666666666666667e-06, + "loss": 1.1415, + "step": 255 + }, + { + "epoch": 0.08533333333333333, + "grad_norm": 1.419814109802246, + "learning_rate": 5.688888888888889e-06, + "loss": 1.2161, + "step": 256 + }, + { + "epoch": 0.08566666666666667, + "grad_norm": 1.324926733970642, + "learning_rate": 5.711111111111112e-06, + "loss": 1.0955, + "step": 257 + }, + { + "epoch": 0.086, + "grad_norm": 1.57754647731781, + "learning_rate": 5.733333333333334e-06, + "loss": 1.0771, + "step": 258 + }, + { + "epoch": 0.08633333333333333, + "grad_norm": 1.531800627708435, + "learning_rate": 5.7555555555555564e-06, + "loss": 1.1318, + "step": 259 + }, + { + "epoch": 0.08666666666666667, + "grad_norm": 1.521822452545166, + "learning_rate": 5.777777777777778e-06, + "loss": 1.2023, + "step": 260 + }, + { + "epoch": 0.087, + "grad_norm": 1.2750598192214966, + "learning_rate": 5.8e-06, + "loss": 1.2564, + "step": 261 + }, + { + "epoch": 0.08733333333333333, + "grad_norm": 1.4583685398101807, + "learning_rate": 5.822222222222223e-06, + "loss": 1.1507, + "step": 262 + }, + { + "epoch": 0.08766666666666667, + "grad_norm": 1.3622310161590576, + "learning_rate": 5.844444444444445e-06, + "loss": 1.2304, + "step": 263 + }, + { + "epoch": 0.088, + "grad_norm": 1.375045657157898, + "learning_rate": 5.8666666666666675e-06, + "loss": 1.1561, + "step": 264 + }, + { + "epoch": 0.08833333333333333, + "grad_norm": 1.3216606378555298, + "learning_rate": 5.88888888888889e-06, + "loss": 1.2951, + "step": 265 + }, + { + "epoch": 0.08866666666666667, + "grad_norm": 1.3951408863067627, + "learning_rate": 5.911111111111112e-06, + "loss": 1.3015, + "step": 266 + }, + { + "epoch": 0.089, + "grad_norm": 1.6425985097885132, + "learning_rate": 5.933333333333335e-06, + "loss": 1.241, + "step": 267 + }, + { + "epoch": 0.08933333333333333, + "grad_norm": 1.3816287517547607, + "learning_rate": 5.955555555555555e-06, + "loss": 1.0992, + "step": 268 + }, + { + "epoch": 0.08966666666666667, + "grad_norm": 1.2739745378494263, + "learning_rate": 5.977777777777778e-06, + "loss": 1.2529, + "step": 269 + }, + { + "epoch": 0.09, + "grad_norm": 1.5077300071716309, + "learning_rate": 6e-06, + "loss": 1.1622, + "step": 270 + }, + { + "epoch": 0.09033333333333333, + "grad_norm": 2.11258602142334, + "learning_rate": 6.0222222222222225e-06, + "loss": 1.1616, + "step": 271 + }, + { + "epoch": 0.09066666666666667, + "grad_norm": 1.5671513080596924, + "learning_rate": 6.044444444444445e-06, + "loss": 1.0737, + "step": 272 + }, + { + "epoch": 0.091, + "grad_norm": 1.655301809310913, + "learning_rate": 6.066666666666667e-06, + "loss": 1.2412, + "step": 273 + }, + { + "epoch": 0.09133333333333334, + "grad_norm": 1.4785163402557373, + "learning_rate": 6.08888888888889e-06, + "loss": 1.0888, + "step": 274 + }, + { + "epoch": 0.09166666666666666, + "grad_norm": 1.4750561714172363, + "learning_rate": 6.111111111111112e-06, + "loss": 1.1645, + "step": 275 + }, + { + "epoch": 0.092, + "grad_norm": 1.5973974466323853, + "learning_rate": 6.133333333333334e-06, + "loss": 1.2213, + "step": 276 + }, + { + "epoch": 0.09233333333333334, + "grad_norm": 1.513564944267273, + "learning_rate": 6.155555555555556e-06, + "loss": 1.1474, + "step": 277 + }, + { + "epoch": 0.09266666666666666, + "grad_norm": 1.5961297750473022, + "learning_rate": 6.177777777777778e-06, + "loss": 1.2074, + "step": 278 + }, + { + "epoch": 0.093, + "grad_norm": 1.6554787158966064, + "learning_rate": 6.200000000000001e-06, + "loss": 1.1329, + "step": 279 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 1.5205824375152588, + "learning_rate": 6.222222222222223e-06, + "loss": 1.1911, + "step": 280 + }, + { + "epoch": 0.09366666666666666, + "grad_norm": 1.4820094108581543, + "learning_rate": 6.2444444444444456e-06, + "loss": 1.0727, + "step": 281 + }, + { + "epoch": 0.094, + "grad_norm": 1.482761025428772, + "learning_rate": 6.266666666666668e-06, + "loss": 1.1585, + "step": 282 + }, + { + "epoch": 0.09433333333333334, + "grad_norm": 1.4356346130371094, + "learning_rate": 6.28888888888889e-06, + "loss": 1.2023, + "step": 283 + }, + { + "epoch": 0.09466666666666666, + "grad_norm": 1.4977275133132935, + "learning_rate": 6.311111111111111e-06, + "loss": 1.1748, + "step": 284 + }, + { + "epoch": 0.095, + "grad_norm": 1.5975319147109985, + "learning_rate": 6.333333333333333e-06, + "loss": 1.2242, + "step": 285 + }, + { + "epoch": 0.09533333333333334, + "grad_norm": 1.50568687915802, + "learning_rate": 6.355555555555556e-06, + "loss": 1.2661, + "step": 286 + }, + { + "epoch": 0.09566666666666666, + "grad_norm": 1.4776535034179688, + "learning_rate": 6.377777777777778e-06, + "loss": 1.0734, + "step": 287 + }, + { + "epoch": 0.096, + "grad_norm": 1.4689065217971802, + "learning_rate": 6.4000000000000006e-06, + "loss": 1.2312, + "step": 288 + }, + { + "epoch": 0.09633333333333334, + "grad_norm": 1.5893913507461548, + "learning_rate": 6.422222222222223e-06, + "loss": 1.2181, + "step": 289 + }, + { + "epoch": 0.09666666666666666, + "grad_norm": 1.7700011730194092, + "learning_rate": 6.444444444444445e-06, + "loss": 1.1037, + "step": 290 + }, + { + "epoch": 0.097, + "grad_norm": 1.5873522758483887, + "learning_rate": 6.466666666666667e-06, + "loss": 1.1076, + "step": 291 + }, + { + "epoch": 0.09733333333333333, + "grad_norm": 1.291461706161499, + "learning_rate": 6.488888888888889e-06, + "loss": 1.1917, + "step": 292 + }, + { + "epoch": 0.09766666666666667, + "grad_norm": 1.38518226146698, + "learning_rate": 6.511111111111112e-06, + "loss": 1.1446, + "step": 293 + }, + { + "epoch": 0.098, + "grad_norm": 1.4989161491394043, + "learning_rate": 6.533333333333334e-06, + "loss": 1.1737, + "step": 294 + }, + { + "epoch": 0.09833333333333333, + "grad_norm": 1.9605923891067505, + "learning_rate": 6.555555555555556e-06, + "loss": 1.2445, + "step": 295 + }, + { + "epoch": 0.09866666666666667, + "grad_norm": 1.5787780284881592, + "learning_rate": 6.577777777777779e-06, + "loss": 1.2594, + "step": 296 + }, + { + "epoch": 0.099, + "grad_norm": 1.5429476499557495, + "learning_rate": 6.600000000000001e-06, + "loss": 1.1398, + "step": 297 + }, + { + "epoch": 0.09933333333333333, + "grad_norm": 1.7796704769134521, + "learning_rate": 6.6222222222222236e-06, + "loss": 1.1856, + "step": 298 + }, + { + "epoch": 0.09966666666666667, + "grad_norm": 1.390278697013855, + "learning_rate": 6.644444444444444e-06, + "loss": 1.2044, + "step": 299 + }, + { + "epoch": 0.1, + "grad_norm": 1.6023986339569092, + "learning_rate": 6.666666666666667e-06, + "loss": 1.1164, + "step": 300 + }, + { + "epoch": 0.10033333333333333, + "grad_norm": 1.5142806768417358, + "learning_rate": 6.688888888888889e-06, + "loss": 1.2032, + "step": 301 + }, + { + "epoch": 0.10066666666666667, + "grad_norm": 1.3071873188018799, + "learning_rate": 6.711111111111111e-06, + "loss": 1.1927, + "step": 302 + }, + { + "epoch": 0.101, + "grad_norm": 1.4982858896255493, + "learning_rate": 6.733333333333334e-06, + "loss": 1.1218, + "step": 303 + }, + { + "epoch": 0.10133333333333333, + "grad_norm": 1.7742758989334106, + "learning_rate": 6.755555555555556e-06, + "loss": 1.2853, + "step": 304 + }, + { + "epoch": 0.10166666666666667, + "grad_norm": 1.8692550659179688, + "learning_rate": 6.777777777777779e-06, + "loss": 1.1121, + "step": 305 + }, + { + "epoch": 0.102, + "grad_norm": 1.6868199110031128, + "learning_rate": 6.800000000000001e-06, + "loss": 1.1236, + "step": 306 + }, + { + "epoch": 0.10233333333333333, + "grad_norm": 1.483672857284546, + "learning_rate": 6.8222222222222225e-06, + "loss": 1.1111, + "step": 307 + }, + { + "epoch": 0.10266666666666667, + "grad_norm": 1.962953805923462, + "learning_rate": 6.844444444444445e-06, + "loss": 1.2258, + "step": 308 + }, + { + "epoch": 0.103, + "grad_norm": 1.7608108520507812, + "learning_rate": 6.866666666666667e-06, + "loss": 1.1937, + "step": 309 + }, + { + "epoch": 0.10333333333333333, + "grad_norm": 1.5710150003433228, + "learning_rate": 6.88888888888889e-06, + "loss": 1.0852, + "step": 310 + }, + { + "epoch": 0.10366666666666667, + "grad_norm": 1.489043951034546, + "learning_rate": 6.911111111111112e-06, + "loss": 1.189, + "step": 311 + }, + { + "epoch": 0.104, + "grad_norm": 1.6540623903274536, + "learning_rate": 6.9333333333333344e-06, + "loss": 1.2046, + "step": 312 + }, + { + "epoch": 0.10433333333333333, + "grad_norm": 1.4469069242477417, + "learning_rate": 6.955555555555557e-06, + "loss": 1.205, + "step": 313 + }, + { + "epoch": 0.10466666666666667, + "grad_norm": 1.5407646894454956, + "learning_rate": 6.977777777777779e-06, + "loss": 1.1436, + "step": 314 + }, + { + "epoch": 0.105, + "grad_norm": 1.4340288639068604, + "learning_rate": 7e-06, + "loss": 1.0787, + "step": 315 + }, + { + "epoch": 0.10533333333333333, + "grad_norm": 1.6154134273529053, + "learning_rate": 7.022222222222222e-06, + "loss": 1.1439, + "step": 316 + }, + { + "epoch": 0.10566666666666667, + "grad_norm": 1.5567415952682495, + "learning_rate": 7.044444444444445e-06, + "loss": 1.1172, + "step": 317 + }, + { + "epoch": 0.106, + "grad_norm": 1.4247684478759766, + "learning_rate": 7.066666666666667e-06, + "loss": 1.2386, + "step": 318 + }, + { + "epoch": 0.10633333333333334, + "grad_norm": 1.4413695335388184, + "learning_rate": 7.0888888888888894e-06, + "loss": 1.1009, + "step": 319 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 1.595289945602417, + "learning_rate": 7.111111111111112e-06, + "loss": 1.0404, + "step": 320 + }, + { + "epoch": 0.107, + "grad_norm": 1.482068657875061, + "learning_rate": 7.133333333333334e-06, + "loss": 1.1667, + "step": 321 + }, + { + "epoch": 0.10733333333333334, + "grad_norm": 1.5941014289855957, + "learning_rate": 7.155555555555556e-06, + "loss": 1.162, + "step": 322 + }, + { + "epoch": 0.10766666666666666, + "grad_norm": 1.5260932445526123, + "learning_rate": 7.177777777777778e-06, + "loss": 1.1571, + "step": 323 + }, + { + "epoch": 0.108, + "grad_norm": 1.4199073314666748, + "learning_rate": 7.2000000000000005e-06, + "loss": 1.2063, + "step": 324 + }, + { + "epoch": 0.10833333333333334, + "grad_norm": 1.685937762260437, + "learning_rate": 7.222222222222223e-06, + "loss": 1.1562, + "step": 325 + }, + { + "epoch": 0.10866666666666666, + "grad_norm": 1.692311406135559, + "learning_rate": 7.244444444444445e-06, + "loss": 1.1662, + "step": 326 + }, + { + "epoch": 0.109, + "grad_norm": 1.781176209449768, + "learning_rate": 7.266666666666668e-06, + "loss": 1.1787, + "step": 327 + }, + { + "epoch": 0.10933333333333334, + "grad_norm": 1.667367696762085, + "learning_rate": 7.28888888888889e-06, + "loss": 1.0435, + "step": 328 + }, + { + "epoch": 0.10966666666666666, + "grad_norm": 1.6302257776260376, + "learning_rate": 7.3111111111111125e-06, + "loss": 1.1699, + "step": 329 + }, + { + "epoch": 0.11, + "grad_norm": 1.682916522026062, + "learning_rate": 7.333333333333333e-06, + "loss": 1.1986, + "step": 330 + }, + { + "epoch": 0.11033333333333334, + "grad_norm": 1.5431718826293945, + "learning_rate": 7.3555555555555555e-06, + "loss": 1.1105, + "step": 331 + }, + { + "epoch": 0.11066666666666666, + "grad_norm": 1.735956072807312, + "learning_rate": 7.377777777777778e-06, + "loss": 1.2034, + "step": 332 + }, + { + "epoch": 0.111, + "grad_norm": 1.827531099319458, + "learning_rate": 7.4e-06, + "loss": 1.1746, + "step": 333 + }, + { + "epoch": 0.11133333333333334, + "grad_norm": 1.6700693368911743, + "learning_rate": 7.422222222222223e-06, + "loss": 1.2603, + "step": 334 + }, + { + "epoch": 0.11166666666666666, + "grad_norm": 1.6991853713989258, + "learning_rate": 7.444444444444445e-06, + "loss": 1.1788, + "step": 335 + }, + { + "epoch": 0.112, + "grad_norm": 1.4742239713668823, + "learning_rate": 7.4666666666666675e-06, + "loss": 1.151, + "step": 336 + }, + { + "epoch": 0.11233333333333333, + "grad_norm": 1.4475758075714111, + "learning_rate": 7.48888888888889e-06, + "loss": 1.1858, + "step": 337 + }, + { + "epoch": 0.11266666666666666, + "grad_norm": 1.285339593887329, + "learning_rate": 7.511111111111111e-06, + "loss": 1.1358, + "step": 338 + }, + { + "epoch": 0.113, + "grad_norm": 1.5454645156860352, + "learning_rate": 7.533333333333334e-06, + "loss": 1.1656, + "step": 339 + }, + { + "epoch": 0.11333333333333333, + "grad_norm": 1.5032529830932617, + "learning_rate": 7.555555555555556e-06, + "loss": 1.137, + "step": 340 + }, + { + "epoch": 0.11366666666666667, + "grad_norm": 1.7839106321334839, + "learning_rate": 7.5777777777777785e-06, + "loss": 1.1233, + "step": 341 + }, + { + "epoch": 0.114, + "grad_norm": 1.5113935470581055, + "learning_rate": 7.600000000000001e-06, + "loss": 1.1868, + "step": 342 + }, + { + "epoch": 0.11433333333333333, + "grad_norm": 1.5882327556610107, + "learning_rate": 7.622222222222223e-06, + "loss": 1.0435, + "step": 343 + }, + { + "epoch": 0.11466666666666667, + "grad_norm": 2.050560235977173, + "learning_rate": 7.644444444444445e-06, + "loss": 1.1427, + "step": 344 + }, + { + "epoch": 0.115, + "grad_norm": 2.074932813644409, + "learning_rate": 7.666666666666667e-06, + "loss": 1.238, + "step": 345 + }, + { + "epoch": 0.11533333333333333, + "grad_norm": 1.5033376216888428, + "learning_rate": 7.68888888888889e-06, + "loss": 1.0027, + "step": 346 + }, + { + "epoch": 0.11566666666666667, + "grad_norm": 1.350109577178955, + "learning_rate": 7.711111111111112e-06, + "loss": 1.0181, + "step": 347 + }, + { + "epoch": 0.116, + "grad_norm": 1.8769129514694214, + "learning_rate": 7.733333333333334e-06, + "loss": 1.14, + "step": 348 + }, + { + "epoch": 0.11633333333333333, + "grad_norm": 1.6070586442947388, + "learning_rate": 7.755555555555557e-06, + "loss": 1.0977, + "step": 349 + }, + { + "epoch": 0.11666666666666667, + "grad_norm": 1.6940979957580566, + "learning_rate": 7.77777777777778e-06, + "loss": 1.2392, + "step": 350 + }, + { + "epoch": 0.117, + "grad_norm": 1.6905256509780884, + "learning_rate": 7.800000000000002e-06, + "loss": 1.1614, + "step": 351 + }, + { + "epoch": 0.11733333333333333, + "grad_norm": 1.5635329484939575, + "learning_rate": 7.822222222222224e-06, + "loss": 1.1134, + "step": 352 + }, + { + "epoch": 0.11766666666666667, + "grad_norm": 1.5194157361984253, + "learning_rate": 7.844444444444446e-06, + "loss": 1.157, + "step": 353 + }, + { + "epoch": 0.118, + "grad_norm": 1.6269128322601318, + "learning_rate": 7.866666666666667e-06, + "loss": 1.2131, + "step": 354 + }, + { + "epoch": 0.11833333333333333, + "grad_norm": 1.5441020727157593, + "learning_rate": 7.88888888888889e-06, + "loss": 1.1688, + "step": 355 + }, + { + "epoch": 0.11866666666666667, + "grad_norm": 1.559867262840271, + "learning_rate": 7.911111111111112e-06, + "loss": 1.0915, + "step": 356 + }, + { + "epoch": 0.119, + "grad_norm": 1.5246485471725464, + "learning_rate": 7.933333333333334e-06, + "loss": 1.1482, + "step": 357 + }, + { + "epoch": 0.11933333333333333, + "grad_norm": 1.5248019695281982, + "learning_rate": 7.955555555555557e-06, + "loss": 1.1589, + "step": 358 + }, + { + "epoch": 0.11966666666666667, + "grad_norm": 1.6641921997070312, + "learning_rate": 7.977777777777779e-06, + "loss": 1.0817, + "step": 359 + }, + { + "epoch": 0.12, + "grad_norm": 1.4578205347061157, + "learning_rate": 8.000000000000001e-06, + "loss": 1.1637, + "step": 360 + }, + { + "epoch": 0.12033333333333333, + "grad_norm": 1.8135591745376587, + "learning_rate": 8.022222222222222e-06, + "loss": 1.132, + "step": 361 + }, + { + "epoch": 0.12066666666666667, + "grad_norm": 1.6558690071105957, + "learning_rate": 8.044444444444444e-06, + "loss": 1.1351, + "step": 362 + }, + { + "epoch": 0.121, + "grad_norm": 1.5257915258407593, + "learning_rate": 8.066666666666667e-06, + "loss": 1.1792, + "step": 363 + }, + { + "epoch": 0.12133333333333333, + "grad_norm": 1.815172553062439, + "learning_rate": 8.08888888888889e-06, + "loss": 1.1951, + "step": 364 + }, + { + "epoch": 0.12166666666666667, + "grad_norm": 1.5992822647094727, + "learning_rate": 8.111111111111112e-06, + "loss": 1.2558, + "step": 365 + }, + { + "epoch": 0.122, + "grad_norm": 1.4068996906280518, + "learning_rate": 8.133333333333334e-06, + "loss": 1.1722, + "step": 366 + }, + { + "epoch": 0.12233333333333334, + "grad_norm": 1.5407975912094116, + "learning_rate": 8.155555555555556e-06, + "loss": 1.1079, + "step": 367 + }, + { + "epoch": 0.12266666666666666, + "grad_norm": 1.768150806427002, + "learning_rate": 8.177777777777779e-06, + "loss": 1.1536, + "step": 368 + }, + { + "epoch": 0.123, + "grad_norm": 1.6066533327102661, + "learning_rate": 8.2e-06, + "loss": 1.1544, + "step": 369 + }, + { + "epoch": 0.12333333333333334, + "grad_norm": 1.6030548810958862, + "learning_rate": 8.222222222222222e-06, + "loss": 1.0829, + "step": 370 + }, + { + "epoch": 0.12366666666666666, + "grad_norm": 1.911374568939209, + "learning_rate": 8.244444444444444e-06, + "loss": 1.0851, + "step": 371 + }, + { + "epoch": 0.124, + "grad_norm": 1.6772592067718506, + "learning_rate": 8.266666666666667e-06, + "loss": 1.1749, + "step": 372 + }, + { + "epoch": 0.12433333333333334, + "grad_norm": 2.1634037494659424, + "learning_rate": 8.288888888888889e-06, + "loss": 1.1514, + "step": 373 + }, + { + "epoch": 0.12466666666666666, + "grad_norm": 1.7173736095428467, + "learning_rate": 8.311111111111111e-06, + "loss": 0.971, + "step": 374 + }, + { + "epoch": 0.125, + "grad_norm": 1.7139873504638672, + "learning_rate": 8.333333333333334e-06, + "loss": 1.1419, + "step": 375 + }, + { + "epoch": 0.12533333333333332, + "grad_norm": 1.5453203916549683, + "learning_rate": 8.355555555555556e-06, + "loss": 1.1571, + "step": 376 + }, + { + "epoch": 0.12566666666666668, + "grad_norm": 1.6910905838012695, + "learning_rate": 8.377777777777779e-06, + "loss": 1.2612, + "step": 377 + }, + { + "epoch": 0.126, + "grad_norm": 1.8547446727752686, + "learning_rate": 8.400000000000001e-06, + "loss": 1.0806, + "step": 378 + }, + { + "epoch": 0.12633333333333333, + "grad_norm": 1.8702360391616821, + "learning_rate": 8.422222222222223e-06, + "loss": 1.2434, + "step": 379 + }, + { + "epoch": 0.12666666666666668, + "grad_norm": 1.5896825790405273, + "learning_rate": 8.444444444444446e-06, + "loss": 1.1599, + "step": 380 + }, + { + "epoch": 0.127, + "grad_norm": 1.5410326719284058, + "learning_rate": 8.466666666666668e-06, + "loss": 1.11, + "step": 381 + }, + { + "epoch": 0.12733333333333333, + "grad_norm": 1.739018440246582, + "learning_rate": 8.48888888888889e-06, + "loss": 1.1388, + "step": 382 + }, + { + "epoch": 0.12766666666666668, + "grad_norm": 1.7005584239959717, + "learning_rate": 8.511111111111113e-06, + "loss": 1.174, + "step": 383 + }, + { + "epoch": 0.128, + "grad_norm": 1.5637319087982178, + "learning_rate": 8.533333333333335e-06, + "loss": 1.1878, + "step": 384 + }, + { + "epoch": 0.12833333333333333, + "grad_norm": 1.596922755241394, + "learning_rate": 8.555555555555556e-06, + "loss": 1.133, + "step": 385 + }, + { + "epoch": 0.12866666666666668, + "grad_norm": 1.4571577310562134, + "learning_rate": 8.577777777777778e-06, + "loss": 1.1335, + "step": 386 + }, + { + "epoch": 0.129, + "grad_norm": 1.9833792448043823, + "learning_rate": 8.6e-06, + "loss": 1.0061, + "step": 387 + }, + { + "epoch": 0.12933333333333333, + "grad_norm": 1.9010989665985107, + "learning_rate": 8.622222222222223e-06, + "loss": 1.0511, + "step": 388 + }, + { + "epoch": 0.12966666666666668, + "grad_norm": 1.547566533088684, + "learning_rate": 8.644444444444445e-06, + "loss": 1.0818, + "step": 389 + }, + { + "epoch": 0.13, + "grad_norm": 1.589276671409607, + "learning_rate": 8.666666666666668e-06, + "loss": 1.0882, + "step": 390 + }, + { + "epoch": 0.13033333333333333, + "grad_norm": 1.7007571458816528, + "learning_rate": 8.68888888888889e-06, + "loss": 1.1447, + "step": 391 + }, + { + "epoch": 0.13066666666666665, + "grad_norm": 2.1791880130767822, + "learning_rate": 8.711111111111111e-06, + "loss": 1.101, + "step": 392 + }, + { + "epoch": 0.131, + "grad_norm": 1.7343331575393677, + "learning_rate": 8.733333333333333e-06, + "loss": 1.1551, + "step": 393 + }, + { + "epoch": 0.13133333333333333, + "grad_norm": 1.6871845722198486, + "learning_rate": 8.755555555555556e-06, + "loss": 1.0867, + "step": 394 + }, + { + "epoch": 0.13166666666666665, + "grad_norm": 1.6723601818084717, + "learning_rate": 8.777777777777778e-06, + "loss": 1.1054, + "step": 395 + }, + { + "epoch": 0.132, + "grad_norm": 2.088505744934082, + "learning_rate": 8.8e-06, + "loss": 1.0793, + "step": 396 + }, + { + "epoch": 0.13233333333333333, + "grad_norm": 1.833299160003662, + "learning_rate": 8.822222222222223e-06, + "loss": 1.1617, + "step": 397 + }, + { + "epoch": 0.13266666666666665, + "grad_norm": 1.7320446968078613, + "learning_rate": 8.844444444444445e-06, + "loss": 0.9964, + "step": 398 + }, + { + "epoch": 0.133, + "grad_norm": 1.658755898475647, + "learning_rate": 8.866666666666668e-06, + "loss": 1.166, + "step": 399 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 1.5324523448944092, + "learning_rate": 8.888888888888888e-06, + "loss": 1.1281, + "step": 400 + }, + { + "epoch": 0.13366666666666666, + "grad_norm": 1.6180557012557983, + "learning_rate": 8.91111111111111e-06, + "loss": 1.1381, + "step": 401 + }, + { + "epoch": 0.134, + "grad_norm": 1.737163782119751, + "learning_rate": 8.933333333333333e-06, + "loss": 1.1248, + "step": 402 + }, + { + "epoch": 0.13433333333333333, + "grad_norm": 1.6601003408432007, + "learning_rate": 8.955555555555555e-06, + "loss": 1.1917, + "step": 403 + }, + { + "epoch": 0.13466666666666666, + "grad_norm": 1.5121172666549683, + "learning_rate": 8.977777777777778e-06, + "loss": 1.1284, + "step": 404 + }, + { + "epoch": 0.135, + "grad_norm": 1.764634132385254, + "learning_rate": 9e-06, + "loss": 1.2303, + "step": 405 + }, + { + "epoch": 0.13533333333333333, + "grad_norm": 1.4958068132400513, + "learning_rate": 9.022222222222223e-06, + "loss": 1.1501, + "step": 406 + }, + { + "epoch": 0.13566666666666666, + "grad_norm": 1.8110212087631226, + "learning_rate": 9.044444444444445e-06, + "loss": 1.1432, + "step": 407 + }, + { + "epoch": 0.136, + "grad_norm": 1.4228887557983398, + "learning_rate": 9.066666666666667e-06, + "loss": 1.1111, + "step": 408 + }, + { + "epoch": 0.13633333333333333, + "grad_norm": 1.52152681350708, + "learning_rate": 9.08888888888889e-06, + "loss": 1.2095, + "step": 409 + }, + { + "epoch": 0.13666666666666666, + "grad_norm": 1.6828523874282837, + "learning_rate": 9.111111111111112e-06, + "loss": 1.1656, + "step": 410 + }, + { + "epoch": 0.137, + "grad_norm": 1.696372389793396, + "learning_rate": 9.133333333333335e-06, + "loss": 1.1808, + "step": 411 + }, + { + "epoch": 0.13733333333333334, + "grad_norm": 1.6371486186981201, + "learning_rate": 9.155555555555557e-06, + "loss": 1.1403, + "step": 412 + }, + { + "epoch": 0.13766666666666666, + "grad_norm": 1.7335549592971802, + "learning_rate": 9.17777777777778e-06, + "loss": 1.0669, + "step": 413 + }, + { + "epoch": 0.138, + "grad_norm": 1.5683811902999878, + "learning_rate": 9.200000000000002e-06, + "loss": 1.1271, + "step": 414 + }, + { + "epoch": 0.13833333333333334, + "grad_norm": 1.6414053440093994, + "learning_rate": 9.222222222222224e-06, + "loss": 1.2039, + "step": 415 + }, + { + "epoch": 0.13866666666666666, + "grad_norm": 1.9280729293823242, + "learning_rate": 9.244444444444445e-06, + "loss": 1.0656, + "step": 416 + }, + { + "epoch": 0.139, + "grad_norm": 1.8913592100143433, + "learning_rate": 9.266666666666667e-06, + "loss": 0.9857, + "step": 417 + }, + { + "epoch": 0.13933333333333334, + "grad_norm": 1.7467008829116821, + "learning_rate": 9.28888888888889e-06, + "loss": 1.1746, + "step": 418 + }, + { + "epoch": 0.13966666666666666, + "grad_norm": 2.009330987930298, + "learning_rate": 9.311111111111112e-06, + "loss": 1.1596, + "step": 419 + }, + { + "epoch": 0.14, + "grad_norm": 1.5591484308242798, + "learning_rate": 9.333333333333334e-06, + "loss": 1.1271, + "step": 420 + }, + { + "epoch": 0.14033333333333334, + "grad_norm": 1.5893148183822632, + "learning_rate": 9.355555555555557e-06, + "loss": 1.0694, + "step": 421 + }, + { + "epoch": 0.14066666666666666, + "grad_norm": 1.5609533786773682, + "learning_rate": 9.377777777777779e-06, + "loss": 1.1466, + "step": 422 + }, + { + "epoch": 0.141, + "grad_norm": 1.6362978219985962, + "learning_rate": 9.4e-06, + "loss": 1.1649, + "step": 423 + }, + { + "epoch": 0.14133333333333334, + "grad_norm": 1.7604780197143555, + "learning_rate": 9.422222222222222e-06, + "loss": 1.12, + "step": 424 + }, + { + "epoch": 0.14166666666666666, + "grad_norm": 2.1606240272521973, + "learning_rate": 9.444444444444445e-06, + "loss": 1.195, + "step": 425 + }, + { + "epoch": 0.142, + "grad_norm": 1.568289041519165, + "learning_rate": 9.466666666666667e-06, + "loss": 1.0963, + "step": 426 + }, + { + "epoch": 0.14233333333333334, + "grad_norm": 1.5797215700149536, + "learning_rate": 9.48888888888889e-06, + "loss": 1.0699, + "step": 427 + }, + { + "epoch": 0.14266666666666666, + "grad_norm": 1.8140079975128174, + "learning_rate": 9.511111111111112e-06, + "loss": 1.0992, + "step": 428 + }, + { + "epoch": 0.143, + "grad_norm": 1.765262246131897, + "learning_rate": 9.533333333333334e-06, + "loss": 1.1441, + "step": 429 + }, + { + "epoch": 0.14333333333333334, + "grad_norm": 1.8398171663284302, + "learning_rate": 9.555555555555556e-06, + "loss": 1.1191, + "step": 430 + }, + { + "epoch": 0.14366666666666666, + "grad_norm": 1.6656169891357422, + "learning_rate": 9.577777777777779e-06, + "loss": 1.0712, + "step": 431 + }, + { + "epoch": 0.144, + "grad_norm": 1.7316750288009644, + "learning_rate": 9.600000000000001e-06, + "loss": 1.1527, + "step": 432 + }, + { + "epoch": 0.14433333333333334, + "grad_norm": 1.7418121099472046, + "learning_rate": 9.622222222222222e-06, + "loss": 1.0815, + "step": 433 + }, + { + "epoch": 0.14466666666666667, + "grad_norm": 1.6358797550201416, + "learning_rate": 9.644444444444444e-06, + "loss": 1.1202, + "step": 434 + }, + { + "epoch": 0.145, + "grad_norm": 1.6336448192596436, + "learning_rate": 9.666666666666667e-06, + "loss": 1.1266, + "step": 435 + }, + { + "epoch": 0.14533333333333334, + "grad_norm": 1.4874346256256104, + "learning_rate": 9.688888888888889e-06, + "loss": 1.0916, + "step": 436 + }, + { + "epoch": 0.14566666666666667, + "grad_norm": 1.6131802797317505, + "learning_rate": 9.711111111111111e-06, + "loss": 1.1705, + "step": 437 + }, + { + "epoch": 0.146, + "grad_norm": 1.6457535028457642, + "learning_rate": 9.733333333333334e-06, + "loss": 1.031, + "step": 438 + }, + { + "epoch": 0.14633333333333334, + "grad_norm": 1.564022421836853, + "learning_rate": 9.755555555555556e-06, + "loss": 1.1451, + "step": 439 + }, + { + "epoch": 0.14666666666666667, + "grad_norm": 1.781559944152832, + "learning_rate": 9.777777777777779e-06, + "loss": 1.1309, + "step": 440 + }, + { + "epoch": 0.147, + "grad_norm": 1.7978386878967285, + "learning_rate": 9.800000000000001e-06, + "loss": 1.0591, + "step": 441 + }, + { + "epoch": 0.14733333333333334, + "grad_norm": 1.4821981191635132, + "learning_rate": 9.822222222222223e-06, + "loss": 1.1663, + "step": 442 + }, + { + "epoch": 0.14766666666666667, + "grad_norm": 1.5056161880493164, + "learning_rate": 9.844444444444446e-06, + "loss": 1.0982, + "step": 443 + }, + { + "epoch": 0.148, + "grad_norm": 1.703609585762024, + "learning_rate": 9.866666666666668e-06, + "loss": 1.0452, + "step": 444 + }, + { + "epoch": 0.14833333333333334, + "grad_norm": 1.6774314641952515, + "learning_rate": 9.88888888888889e-06, + "loss": 1.0727, + "step": 445 + }, + { + "epoch": 0.14866666666666667, + "grad_norm": 1.980034589767456, + "learning_rate": 9.911111111111113e-06, + "loss": 1.0385, + "step": 446 + }, + { + "epoch": 0.149, + "grad_norm": 1.7969330549240112, + "learning_rate": 9.933333333333334e-06, + "loss": 1.0617, + "step": 447 + }, + { + "epoch": 0.14933333333333335, + "grad_norm": 1.7403318881988525, + "learning_rate": 9.955555555555556e-06, + "loss": 1.0591, + "step": 448 + }, + { + "epoch": 0.14966666666666667, + "grad_norm": 1.5473605394363403, + "learning_rate": 9.977777777777778e-06, + "loss": 1.1091, + "step": 449 + }, + { + "epoch": 0.15, + "grad_norm": 1.9292234182357788, + "learning_rate": 1e-05, + "loss": 1.0835, + "step": 450 + }, + { + "epoch": 0.15033333333333335, + "grad_norm": 1.7397847175598145, + "learning_rate": 1.0022222222222222e-05, + "loss": 1.1231, + "step": 451 + }, + { + "epoch": 0.15066666666666667, + "grad_norm": 1.6234381198883057, + "learning_rate": 1.0044444444444446e-05, + "loss": 1.1428, + "step": 452 + }, + { + "epoch": 0.151, + "grad_norm": 1.5364257097244263, + "learning_rate": 1.0066666666666666e-05, + "loss": 1.1392, + "step": 453 + }, + { + "epoch": 0.15133333333333332, + "grad_norm": 1.90274178981781, + "learning_rate": 1.008888888888889e-05, + "loss": 1.0987, + "step": 454 + }, + { + "epoch": 0.15166666666666667, + "grad_norm": 1.7045230865478516, + "learning_rate": 1.0111111111111111e-05, + "loss": 1.1105, + "step": 455 + }, + { + "epoch": 0.152, + "grad_norm": 1.636232614517212, + "learning_rate": 1.0133333333333335e-05, + "loss": 1.0495, + "step": 456 + }, + { + "epoch": 0.15233333333333332, + "grad_norm": 1.7262197732925415, + "learning_rate": 1.0155555555555556e-05, + "loss": 1.0926, + "step": 457 + }, + { + "epoch": 0.15266666666666667, + "grad_norm": 1.9142975807189941, + "learning_rate": 1.0177777777777778e-05, + "loss": 1.1005, + "step": 458 + }, + { + "epoch": 0.153, + "grad_norm": 1.6508861780166626, + "learning_rate": 1.02e-05, + "loss": 1.1091, + "step": 459 + }, + { + "epoch": 0.15333333333333332, + "grad_norm": 1.7159812450408936, + "learning_rate": 1.0222222222222223e-05, + "loss": 1.1027, + "step": 460 + }, + { + "epoch": 0.15366666666666667, + "grad_norm": 1.6377849578857422, + "learning_rate": 1.0244444444444445e-05, + "loss": 1.1331, + "step": 461 + }, + { + "epoch": 0.154, + "grad_norm": 1.6203923225402832, + "learning_rate": 1.0266666666666668e-05, + "loss": 1.1423, + "step": 462 + }, + { + "epoch": 0.15433333333333332, + "grad_norm": 1.8346457481384277, + "learning_rate": 1.028888888888889e-05, + "loss": 1.1549, + "step": 463 + }, + { + "epoch": 0.15466666666666667, + "grad_norm": 1.7381219863891602, + "learning_rate": 1.0311111111111113e-05, + "loss": 0.9659, + "step": 464 + }, + { + "epoch": 0.155, + "grad_norm": 1.6528301239013672, + "learning_rate": 1.0333333333333335e-05, + "loss": 1.1035, + "step": 465 + }, + { + "epoch": 0.15533333333333332, + "grad_norm": 1.6355177164077759, + "learning_rate": 1.0355555555555557e-05, + "loss": 1.1102, + "step": 466 + }, + { + "epoch": 0.15566666666666668, + "grad_norm": 1.9482636451721191, + "learning_rate": 1.0377777777777778e-05, + "loss": 1.0308, + "step": 467 + }, + { + "epoch": 0.156, + "grad_norm": 1.7846673727035522, + "learning_rate": 1.04e-05, + "loss": 1.0836, + "step": 468 + }, + { + "epoch": 0.15633333333333332, + "grad_norm": 1.6953729391098022, + "learning_rate": 1.0422222222222223e-05, + "loss": 1.1131, + "step": 469 + }, + { + "epoch": 0.15666666666666668, + "grad_norm": 1.6953966617584229, + "learning_rate": 1.0444444444444445e-05, + "loss": 1.0721, + "step": 470 + }, + { + "epoch": 0.157, + "grad_norm": 1.8690605163574219, + "learning_rate": 1.0466666666666668e-05, + "loss": 1.0723, + "step": 471 + }, + { + "epoch": 0.15733333333333333, + "grad_norm": 1.678210735321045, + "learning_rate": 1.048888888888889e-05, + "loss": 1.1137, + "step": 472 + }, + { + "epoch": 0.15766666666666668, + "grad_norm": 1.8406871557235718, + "learning_rate": 1.0511111111111112e-05, + "loss": 1.1003, + "step": 473 + }, + { + "epoch": 0.158, + "grad_norm": 1.6184312105178833, + "learning_rate": 1.0533333333333333e-05, + "loss": 1.0345, + "step": 474 + }, + { + "epoch": 0.15833333333333333, + "grad_norm": 1.583672285079956, + "learning_rate": 1.0555555555555557e-05, + "loss": 1.1456, + "step": 475 + }, + { + "epoch": 0.15866666666666668, + "grad_norm": 1.7261593341827393, + "learning_rate": 1.0577777777777778e-05, + "loss": 1.0755, + "step": 476 + }, + { + "epoch": 0.159, + "grad_norm": 1.752791404724121, + "learning_rate": 1.0600000000000002e-05, + "loss": 1.0625, + "step": 477 + }, + { + "epoch": 0.15933333333333333, + "grad_norm": 1.5139282941818237, + "learning_rate": 1.0622222222222223e-05, + "loss": 1.0368, + "step": 478 + }, + { + "epoch": 0.15966666666666668, + "grad_norm": 1.5136128664016724, + "learning_rate": 1.0644444444444447e-05, + "loss": 1.1666, + "step": 479 + }, + { + "epoch": 0.16, + "grad_norm": 1.7589632272720337, + "learning_rate": 1.0666666666666667e-05, + "loss": 1.0861, + "step": 480 + }, + { + "epoch": 0.16033333333333333, + "grad_norm": 1.6331846714019775, + "learning_rate": 1.0688888888888891e-05, + "loss": 1.0676, + "step": 481 + }, + { + "epoch": 0.16066666666666668, + "grad_norm": 1.7067865133285522, + "learning_rate": 1.0711111111111112e-05, + "loss": 1.0561, + "step": 482 + }, + { + "epoch": 0.161, + "grad_norm": 1.5834790468215942, + "learning_rate": 1.0733333333333333e-05, + "loss": 1.1006, + "step": 483 + }, + { + "epoch": 0.16133333333333333, + "grad_norm": 1.8412889242172241, + "learning_rate": 1.0755555555555557e-05, + "loss": 0.9469, + "step": 484 + }, + { + "epoch": 0.16166666666666665, + "grad_norm": 1.7141199111938477, + "learning_rate": 1.0777777777777778e-05, + "loss": 1.0031, + "step": 485 + }, + { + "epoch": 0.162, + "grad_norm": 1.893264651298523, + "learning_rate": 1.0800000000000002e-05, + "loss": 1.1586, + "step": 486 + }, + { + "epoch": 0.16233333333333333, + "grad_norm": 2.068830966949463, + "learning_rate": 1.0822222222222222e-05, + "loss": 1.0885, + "step": 487 + }, + { + "epoch": 0.16266666666666665, + "grad_norm": 1.9069668054580688, + "learning_rate": 1.0844444444444446e-05, + "loss": 1.1474, + "step": 488 + }, + { + "epoch": 0.163, + "grad_norm": 1.6366583108901978, + "learning_rate": 1.0866666666666667e-05, + "loss": 1.07, + "step": 489 + }, + { + "epoch": 0.16333333333333333, + "grad_norm": 1.7874704599380493, + "learning_rate": 1.088888888888889e-05, + "loss": 1.097, + "step": 490 + }, + { + "epoch": 0.16366666666666665, + "grad_norm": 2.0118303298950195, + "learning_rate": 1.0911111111111112e-05, + "loss": 1.0299, + "step": 491 + }, + { + "epoch": 0.164, + "grad_norm": 1.918944001197815, + "learning_rate": 1.0933333333333334e-05, + "loss": 1.0951, + "step": 492 + }, + { + "epoch": 0.16433333333333333, + "grad_norm": 1.6921690702438354, + "learning_rate": 1.0955555555555557e-05, + "loss": 1.0929, + "step": 493 + }, + { + "epoch": 0.16466666666666666, + "grad_norm": 1.7559075355529785, + "learning_rate": 1.0977777777777779e-05, + "loss": 1.0183, + "step": 494 + }, + { + "epoch": 0.165, + "grad_norm": 1.856054663658142, + "learning_rate": 1.1000000000000001e-05, + "loss": 1.1597, + "step": 495 + }, + { + "epoch": 0.16533333333333333, + "grad_norm": 1.5572078227996826, + "learning_rate": 1.1022222222222224e-05, + "loss": 1.1482, + "step": 496 + }, + { + "epoch": 0.16566666666666666, + "grad_norm": 1.6209688186645508, + "learning_rate": 1.1044444444444444e-05, + "loss": 1.1628, + "step": 497 + }, + { + "epoch": 0.166, + "grad_norm": 1.686906337738037, + "learning_rate": 1.1066666666666669e-05, + "loss": 1.062, + "step": 498 + }, + { + "epoch": 0.16633333333333333, + "grad_norm": 1.7066789865493774, + "learning_rate": 1.108888888888889e-05, + "loss": 1.0644, + "step": 499 + }, + { + "epoch": 0.16666666666666666, + "grad_norm": 1.702553629875183, + "learning_rate": 1.1111111111111113e-05, + "loss": 1.0446, + "step": 500 + }, + { + "epoch": 0.167, + "grad_norm": 1.7418967485427856, + "learning_rate": 1.1133333333333334e-05, + "loss": 1.1086, + "step": 501 + }, + { + "epoch": 0.16733333333333333, + "grad_norm": 1.8697181940078735, + "learning_rate": 1.1155555555555556e-05, + "loss": 1.0013, + "step": 502 + }, + { + "epoch": 0.16766666666666666, + "grad_norm": 1.814271092414856, + "learning_rate": 1.1177777777777779e-05, + "loss": 1.0939, + "step": 503 + }, + { + "epoch": 0.168, + "grad_norm": 1.9454995393753052, + "learning_rate": 1.1200000000000001e-05, + "loss": 1.1063, + "step": 504 + }, + { + "epoch": 0.16833333333333333, + "grad_norm": 1.811567783355713, + "learning_rate": 1.1222222222222224e-05, + "loss": 1.1484, + "step": 505 + }, + { + "epoch": 0.16866666666666666, + "grad_norm": 1.8062009811401367, + "learning_rate": 1.1244444444444444e-05, + "loss": 1.1049, + "step": 506 + }, + { + "epoch": 0.169, + "grad_norm": 1.9528882503509521, + "learning_rate": 1.1266666666666668e-05, + "loss": 1.0427, + "step": 507 + }, + { + "epoch": 0.16933333333333334, + "grad_norm": 2.022484064102173, + "learning_rate": 1.1288888888888889e-05, + "loss": 1.1245, + "step": 508 + }, + { + "epoch": 0.16966666666666666, + "grad_norm": 1.9100559949874878, + "learning_rate": 1.1311111111111113e-05, + "loss": 1.0281, + "step": 509 + }, + { + "epoch": 0.17, + "grad_norm": 1.5803272724151611, + "learning_rate": 1.1333333333333334e-05, + "loss": 1.0646, + "step": 510 + }, + { + "epoch": 0.17033333333333334, + "grad_norm": 1.8275490999221802, + "learning_rate": 1.1355555555555558e-05, + "loss": 1.0328, + "step": 511 + }, + { + "epoch": 0.17066666666666666, + "grad_norm": 1.7441529035568237, + "learning_rate": 1.1377777777777779e-05, + "loss": 1.0194, + "step": 512 + }, + { + "epoch": 0.171, + "grad_norm": 1.8799328804016113, + "learning_rate": 1.14e-05, + "loss": 0.9822, + "step": 513 + }, + { + "epoch": 0.17133333333333334, + "grad_norm": 1.970264196395874, + "learning_rate": 1.1422222222222223e-05, + "loss": 1.0289, + "step": 514 + }, + { + "epoch": 0.17166666666666666, + "grad_norm": 1.912644863128662, + "learning_rate": 1.1444444444444444e-05, + "loss": 1.0627, + "step": 515 + }, + { + "epoch": 0.172, + "grad_norm": 1.6623820066452026, + "learning_rate": 1.1466666666666668e-05, + "loss": 1.045, + "step": 516 + }, + { + "epoch": 0.17233333333333334, + "grad_norm": 1.8136365413665771, + "learning_rate": 1.1488888888888889e-05, + "loss": 1.0204, + "step": 517 + }, + { + "epoch": 0.17266666666666666, + "grad_norm": 1.921934962272644, + "learning_rate": 1.1511111111111113e-05, + "loss": 1.0478, + "step": 518 + }, + { + "epoch": 0.173, + "grad_norm": 1.9126386642456055, + "learning_rate": 1.1533333333333334e-05, + "loss": 0.9806, + "step": 519 + }, + { + "epoch": 0.17333333333333334, + "grad_norm": 1.8404539823532104, + "learning_rate": 1.1555555555555556e-05, + "loss": 1.0278, + "step": 520 + }, + { + "epoch": 0.17366666666666666, + "grad_norm": 1.7314127683639526, + "learning_rate": 1.1577777777777778e-05, + "loss": 1.0871, + "step": 521 + }, + { + "epoch": 0.174, + "grad_norm": 1.8584668636322021, + "learning_rate": 1.16e-05, + "loss": 1.0923, + "step": 522 + }, + { + "epoch": 0.17433333333333334, + "grad_norm": 1.8660153150558472, + "learning_rate": 1.1622222222222223e-05, + "loss": 1.0928, + "step": 523 + }, + { + "epoch": 0.17466666666666666, + "grad_norm": 1.7447179555892944, + "learning_rate": 1.1644444444444446e-05, + "loss": 1.0154, + "step": 524 + }, + { + "epoch": 0.175, + "grad_norm": 1.7330108880996704, + "learning_rate": 1.1666666666666668e-05, + "loss": 0.9943, + "step": 525 + }, + { + "epoch": 0.17533333333333334, + "grad_norm": 1.6308618783950806, + "learning_rate": 1.168888888888889e-05, + "loss": 1.0745, + "step": 526 + }, + { + "epoch": 0.17566666666666667, + "grad_norm": 1.6489473581314087, + "learning_rate": 1.1711111111111113e-05, + "loss": 0.9978, + "step": 527 + }, + { + "epoch": 0.176, + "grad_norm": 1.64958655834198, + "learning_rate": 1.1733333333333335e-05, + "loss": 1.0665, + "step": 528 + }, + { + "epoch": 0.17633333333333334, + "grad_norm": 1.5711374282836914, + "learning_rate": 1.1755555555555556e-05, + "loss": 1.0458, + "step": 529 + }, + { + "epoch": 0.17666666666666667, + "grad_norm": 1.5267395973205566, + "learning_rate": 1.177777777777778e-05, + "loss": 1.1208, + "step": 530 + }, + { + "epoch": 0.177, + "grad_norm": 1.8761646747589111, + "learning_rate": 1.18e-05, + "loss": 0.9994, + "step": 531 + }, + { + "epoch": 0.17733333333333334, + "grad_norm": 1.5514051914215088, + "learning_rate": 1.1822222222222225e-05, + "loss": 1.0679, + "step": 532 + }, + { + "epoch": 0.17766666666666667, + "grad_norm": 1.7220550775527954, + "learning_rate": 1.1844444444444445e-05, + "loss": 1.0178, + "step": 533 + }, + { + "epoch": 0.178, + "grad_norm": 1.6906753778457642, + "learning_rate": 1.186666666666667e-05, + "loss": 1.0044, + "step": 534 + }, + { + "epoch": 0.17833333333333334, + "grad_norm": 1.925663709640503, + "learning_rate": 1.188888888888889e-05, + "loss": 1.092, + "step": 535 + }, + { + "epoch": 0.17866666666666667, + "grad_norm": 1.8617786169052124, + "learning_rate": 1.191111111111111e-05, + "loss": 1.0885, + "step": 536 + }, + { + "epoch": 0.179, + "grad_norm": 1.5811760425567627, + "learning_rate": 1.1933333333333335e-05, + "loss": 1.0263, + "step": 537 + }, + { + "epoch": 0.17933333333333334, + "grad_norm": 1.7940433025360107, + "learning_rate": 1.1955555555555556e-05, + "loss": 1.0267, + "step": 538 + }, + { + "epoch": 0.17966666666666667, + "grad_norm": 1.6902893781661987, + "learning_rate": 1.197777777777778e-05, + "loss": 1.1402, + "step": 539 + }, + { + "epoch": 0.18, + "grad_norm": 1.5379472970962524, + "learning_rate": 1.2e-05, + "loss": 1.0778, + "step": 540 + }, + { + "epoch": 0.18033333333333335, + "grad_norm": 1.6316343545913696, + "learning_rate": 1.2022222222222224e-05, + "loss": 1.1262, + "step": 541 + }, + { + "epoch": 0.18066666666666667, + "grad_norm": 1.6102927923202515, + "learning_rate": 1.2044444444444445e-05, + "loss": 1.0359, + "step": 542 + }, + { + "epoch": 0.181, + "grad_norm": 1.897112488746643, + "learning_rate": 1.206666666666667e-05, + "loss": 1.0094, + "step": 543 + }, + { + "epoch": 0.18133333333333335, + "grad_norm": 1.8928526639938354, + "learning_rate": 1.208888888888889e-05, + "loss": 1.0176, + "step": 544 + }, + { + "epoch": 0.18166666666666667, + "grad_norm": 1.5769389867782593, + "learning_rate": 1.211111111111111e-05, + "loss": 1.1062, + "step": 545 + }, + { + "epoch": 0.182, + "grad_norm": 1.7001267671585083, + "learning_rate": 1.2133333333333335e-05, + "loss": 1.1348, + "step": 546 + }, + { + "epoch": 0.18233333333333332, + "grad_norm": 1.8856518268585205, + "learning_rate": 1.2155555555555555e-05, + "loss": 1.065, + "step": 547 + }, + { + "epoch": 0.18266666666666667, + "grad_norm": 1.9574525356292725, + "learning_rate": 1.217777777777778e-05, + "loss": 0.9953, + "step": 548 + }, + { + "epoch": 0.183, + "grad_norm": 1.8669383525848389, + "learning_rate": 1.22e-05, + "loss": 0.979, + "step": 549 + }, + { + "epoch": 0.18333333333333332, + "grad_norm": 1.8798657655715942, + "learning_rate": 1.2222222222222224e-05, + "loss": 1.1327, + "step": 550 + }, + { + "epoch": 0.18366666666666667, + "grad_norm": 2.009044885635376, + "learning_rate": 1.2244444444444445e-05, + "loss": 1.1208, + "step": 551 + }, + { + "epoch": 0.184, + "grad_norm": 1.9445277452468872, + "learning_rate": 1.2266666666666667e-05, + "loss": 1.0585, + "step": 552 + }, + { + "epoch": 0.18433333333333332, + "grad_norm": 2.000067710876465, + "learning_rate": 1.228888888888889e-05, + "loss": 1.0491, + "step": 553 + }, + { + "epoch": 0.18466666666666667, + "grad_norm": 1.7991902828216553, + "learning_rate": 1.2311111111111112e-05, + "loss": 0.9768, + "step": 554 + }, + { + "epoch": 0.185, + "grad_norm": 1.9944171905517578, + "learning_rate": 1.2333333333333334e-05, + "loss": 1.009, + "step": 555 + }, + { + "epoch": 0.18533333333333332, + "grad_norm": 1.792763590812683, + "learning_rate": 1.2355555555555557e-05, + "loss": 1.053, + "step": 556 + }, + { + "epoch": 0.18566666666666667, + "grad_norm": 1.753755807876587, + "learning_rate": 1.237777777777778e-05, + "loss": 1.0751, + "step": 557 + }, + { + "epoch": 0.186, + "grad_norm": 1.7179780006408691, + "learning_rate": 1.2400000000000002e-05, + "loss": 1.099, + "step": 558 + }, + { + "epoch": 0.18633333333333332, + "grad_norm": 2.0452985763549805, + "learning_rate": 1.2422222222222222e-05, + "loss": 0.9935, + "step": 559 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 1.6799918413162231, + "learning_rate": 1.2444444444444446e-05, + "loss": 1.0841, + "step": 560 + }, + { + "epoch": 0.187, + "grad_norm": 2.139090061187744, + "learning_rate": 1.2466666666666667e-05, + "loss": 1.0862, + "step": 561 + }, + { + "epoch": 0.18733333333333332, + "grad_norm": 2.1088294982910156, + "learning_rate": 1.2488888888888891e-05, + "loss": 0.9545, + "step": 562 + }, + { + "epoch": 0.18766666666666668, + "grad_norm": 1.9414620399475098, + "learning_rate": 1.2511111111111112e-05, + "loss": 1.0266, + "step": 563 + }, + { + "epoch": 0.188, + "grad_norm": 2.2404003143310547, + "learning_rate": 1.2533333333333336e-05, + "loss": 1.1768, + "step": 564 + }, + { + "epoch": 0.18833333333333332, + "grad_norm": 1.762436866760254, + "learning_rate": 1.2555555555555557e-05, + "loss": 1.0773, + "step": 565 + }, + { + "epoch": 0.18866666666666668, + "grad_norm": 1.7438178062438965, + "learning_rate": 1.257777777777778e-05, + "loss": 1.0556, + "step": 566 + }, + { + "epoch": 0.189, + "grad_norm": 1.8524101972579956, + "learning_rate": 1.2600000000000001e-05, + "loss": 1.0523, + "step": 567 + }, + { + "epoch": 0.18933333333333333, + "grad_norm": 1.6051878929138184, + "learning_rate": 1.2622222222222222e-05, + "loss": 1.0224, + "step": 568 + }, + { + "epoch": 0.18966666666666668, + "grad_norm": 1.9028462171554565, + "learning_rate": 1.2644444444444446e-05, + "loss": 0.9599, + "step": 569 + }, + { + "epoch": 0.19, + "grad_norm": 1.814272165298462, + "learning_rate": 1.2666666666666667e-05, + "loss": 1.0293, + "step": 570 + }, + { + "epoch": 0.19033333333333333, + "grad_norm": 1.8441358804702759, + "learning_rate": 1.2688888888888891e-05, + "loss": 1.0903, + "step": 571 + }, + { + "epoch": 0.19066666666666668, + "grad_norm": 1.6648900508880615, + "learning_rate": 1.2711111111111112e-05, + "loss": 1.0922, + "step": 572 + }, + { + "epoch": 0.191, + "grad_norm": 1.7445429563522339, + "learning_rate": 1.2733333333333336e-05, + "loss": 1.1322, + "step": 573 + }, + { + "epoch": 0.19133333333333333, + "grad_norm": 2.0905604362487793, + "learning_rate": 1.2755555555555556e-05, + "loss": 0.9303, + "step": 574 + }, + { + "epoch": 0.19166666666666668, + "grad_norm": 1.9623490571975708, + "learning_rate": 1.2777777777777777e-05, + "loss": 1.0204, + "step": 575 + }, + { + "epoch": 0.192, + "grad_norm": 1.6762508153915405, + "learning_rate": 1.2800000000000001e-05, + "loss": 1.1138, + "step": 576 + }, + { + "epoch": 0.19233333333333333, + "grad_norm": 1.786900520324707, + "learning_rate": 1.2822222222222222e-05, + "loss": 1.0949, + "step": 577 + }, + { + "epoch": 0.19266666666666668, + "grad_norm": 1.8005988597869873, + "learning_rate": 1.2844444444444446e-05, + "loss": 1.0357, + "step": 578 + }, + { + "epoch": 0.193, + "grad_norm": 1.9089072942733765, + "learning_rate": 1.2866666666666667e-05, + "loss": 1.0984, + "step": 579 + }, + { + "epoch": 0.19333333333333333, + "grad_norm": 1.9002981185913086, + "learning_rate": 1.288888888888889e-05, + "loss": 1.0485, + "step": 580 + }, + { + "epoch": 0.19366666666666665, + "grad_norm": 1.9062466621398926, + "learning_rate": 1.2911111111111111e-05, + "loss": 1.0366, + "step": 581 + }, + { + "epoch": 0.194, + "grad_norm": 1.8722420930862427, + "learning_rate": 1.2933333333333334e-05, + "loss": 1.0832, + "step": 582 + }, + { + "epoch": 0.19433333333333333, + "grad_norm": 1.8554141521453857, + "learning_rate": 1.2955555555555556e-05, + "loss": 1.1072, + "step": 583 + }, + { + "epoch": 0.19466666666666665, + "grad_norm": 1.6793633699417114, + "learning_rate": 1.2977777777777779e-05, + "loss": 1.0017, + "step": 584 + }, + { + "epoch": 0.195, + "grad_norm": 1.7925872802734375, + "learning_rate": 1.3000000000000001e-05, + "loss": 1.0157, + "step": 585 + }, + { + "epoch": 0.19533333333333333, + "grad_norm": 1.9033020734786987, + "learning_rate": 1.3022222222222223e-05, + "loss": 1.0355, + "step": 586 + }, + { + "epoch": 0.19566666666666666, + "grad_norm": 1.8373574018478394, + "learning_rate": 1.3044444444444446e-05, + "loss": 1.0822, + "step": 587 + }, + { + "epoch": 0.196, + "grad_norm": 1.8211172819137573, + "learning_rate": 1.3066666666666668e-05, + "loss": 0.9421, + "step": 588 + }, + { + "epoch": 0.19633333333333333, + "grad_norm": 2.023993968963623, + "learning_rate": 1.308888888888889e-05, + "loss": 0.9999, + "step": 589 + }, + { + "epoch": 0.19666666666666666, + "grad_norm": 1.7299787998199463, + "learning_rate": 1.3111111111111113e-05, + "loss": 1.0438, + "step": 590 + }, + { + "epoch": 0.197, + "grad_norm": 1.6870613098144531, + "learning_rate": 1.3133333333333334e-05, + "loss": 0.9946, + "step": 591 + }, + { + "epoch": 0.19733333333333333, + "grad_norm": 1.8648364543914795, + "learning_rate": 1.3155555555555558e-05, + "loss": 0.908, + "step": 592 + }, + { + "epoch": 0.19766666666666666, + "grad_norm": 1.883615493774414, + "learning_rate": 1.3177777777777778e-05, + "loss": 1.0364, + "step": 593 + }, + { + "epoch": 0.198, + "grad_norm": 1.9777247905731201, + "learning_rate": 1.3200000000000002e-05, + "loss": 1.0792, + "step": 594 + }, + { + "epoch": 0.19833333333333333, + "grad_norm": 1.7418471574783325, + "learning_rate": 1.3222222222222223e-05, + "loss": 1.0684, + "step": 595 + }, + { + "epoch": 0.19866666666666666, + "grad_norm": 2.000107526779175, + "learning_rate": 1.3244444444444447e-05, + "loss": 1.0447, + "step": 596 + }, + { + "epoch": 0.199, + "grad_norm": 1.8475511074066162, + "learning_rate": 1.3266666666666668e-05, + "loss": 1.1028, + "step": 597 + }, + { + "epoch": 0.19933333333333333, + "grad_norm": 1.8212943077087402, + "learning_rate": 1.3288888888888889e-05, + "loss": 0.9426, + "step": 598 + }, + { + "epoch": 0.19966666666666666, + "grad_norm": 1.8428258895874023, + "learning_rate": 1.3311111111111113e-05, + "loss": 1.0131, + "step": 599 + }, + { + "epoch": 0.2, + "grad_norm": 2.0170860290527344, + "learning_rate": 1.3333333333333333e-05, + "loss": 0.9908, + "step": 600 + }, + { + "epoch": 0.20033333333333334, + "grad_norm": 2.2352406978607178, + "learning_rate": 1.3355555555555557e-05, + "loss": 1.0494, + "step": 601 + }, + { + "epoch": 0.20066666666666666, + "grad_norm": 1.907303810119629, + "learning_rate": 1.3377777777777778e-05, + "loss": 1.0054, + "step": 602 + }, + { + "epoch": 0.201, + "grad_norm": 1.8661456108093262, + "learning_rate": 1.3400000000000002e-05, + "loss": 1.0317, + "step": 603 + }, + { + "epoch": 0.20133333333333334, + "grad_norm": 2.023705005645752, + "learning_rate": 1.3422222222222223e-05, + "loss": 1.0107, + "step": 604 + }, + { + "epoch": 0.20166666666666666, + "grad_norm": 1.8328070640563965, + "learning_rate": 1.3444444444444447e-05, + "loss": 1.0696, + "step": 605 + }, + { + "epoch": 0.202, + "grad_norm": 1.838645100593567, + "learning_rate": 1.3466666666666668e-05, + "loss": 0.9704, + "step": 606 + }, + { + "epoch": 0.20233333333333334, + "grad_norm": 1.876550316810608, + "learning_rate": 1.3488888888888888e-05, + "loss": 1.0026, + "step": 607 + }, + { + "epoch": 0.20266666666666666, + "grad_norm": 1.8483893871307373, + "learning_rate": 1.3511111111111112e-05, + "loss": 0.9897, + "step": 608 + }, + { + "epoch": 0.203, + "grad_norm": 1.7434430122375488, + "learning_rate": 1.3533333333333333e-05, + "loss": 0.9448, + "step": 609 + }, + { + "epoch": 0.20333333333333334, + "grad_norm": 1.803244948387146, + "learning_rate": 1.3555555555555557e-05, + "loss": 1.0623, + "step": 610 + }, + { + "epoch": 0.20366666666666666, + "grad_norm": 1.698850154876709, + "learning_rate": 1.3577777777777778e-05, + "loss": 1.0551, + "step": 611 + }, + { + "epoch": 0.204, + "grad_norm": 1.9324541091918945, + "learning_rate": 1.3600000000000002e-05, + "loss": 0.967, + "step": 612 + }, + { + "epoch": 0.20433333333333334, + "grad_norm": 1.837526559829712, + "learning_rate": 1.3622222222222223e-05, + "loss": 1.0088, + "step": 613 + }, + { + "epoch": 0.20466666666666666, + "grad_norm": 1.9536508321762085, + "learning_rate": 1.3644444444444445e-05, + "loss": 0.9968, + "step": 614 + }, + { + "epoch": 0.205, + "grad_norm": 1.9767215251922607, + "learning_rate": 1.3666666666666667e-05, + "loss": 0.9477, + "step": 615 + }, + { + "epoch": 0.20533333333333334, + "grad_norm": 2.3544328212738037, + "learning_rate": 1.368888888888889e-05, + "loss": 1.0359, + "step": 616 + }, + { + "epoch": 0.20566666666666666, + "grad_norm": 2.0752015113830566, + "learning_rate": 1.3711111111111112e-05, + "loss": 0.9675, + "step": 617 + }, + { + "epoch": 0.206, + "grad_norm": 2.1638569831848145, + "learning_rate": 1.3733333333333335e-05, + "loss": 1.0212, + "step": 618 + }, + { + "epoch": 0.20633333333333334, + "grad_norm": 2.1373767852783203, + "learning_rate": 1.3755555555555557e-05, + "loss": 1.0805, + "step": 619 + }, + { + "epoch": 0.20666666666666667, + "grad_norm": 2.117760181427002, + "learning_rate": 1.377777777777778e-05, + "loss": 1.0449, + "step": 620 + }, + { + "epoch": 0.207, + "grad_norm": 1.8753548860549927, + "learning_rate": 1.38e-05, + "loss": 1.0726, + "step": 621 + }, + { + "epoch": 0.20733333333333334, + "grad_norm": 2.037781238555908, + "learning_rate": 1.3822222222222224e-05, + "loss": 0.9676, + "step": 622 + }, + { + "epoch": 0.20766666666666667, + "grad_norm": 1.9149776697158813, + "learning_rate": 1.3844444444444445e-05, + "loss": 1.0829, + "step": 623 + }, + { + "epoch": 0.208, + "grad_norm": 1.9045953750610352, + "learning_rate": 1.3866666666666669e-05, + "loss": 1.0406, + "step": 624 + }, + { + "epoch": 0.20833333333333334, + "grad_norm": 2.182391881942749, + "learning_rate": 1.388888888888889e-05, + "loss": 1.0034, + "step": 625 + }, + { + "epoch": 0.20866666666666667, + "grad_norm": 2.096299886703491, + "learning_rate": 1.3911111111111114e-05, + "loss": 0.9731, + "step": 626 + }, + { + "epoch": 0.209, + "grad_norm": 1.8933310508728027, + "learning_rate": 1.3933333333333334e-05, + "loss": 0.8871, + "step": 627 + }, + { + "epoch": 0.20933333333333334, + "grad_norm": 2.0243444442749023, + "learning_rate": 1.3955555555555558e-05, + "loss": 0.9225, + "step": 628 + }, + { + "epoch": 0.20966666666666667, + "grad_norm": 2.2813796997070312, + "learning_rate": 1.3977777777777779e-05, + "loss": 0.9982, + "step": 629 + }, + { + "epoch": 0.21, + "grad_norm": 2.300152063369751, + "learning_rate": 1.4e-05, + "loss": 0.9557, + "step": 630 + }, + { + "epoch": 0.21033333333333334, + "grad_norm": 1.9258462190628052, + "learning_rate": 1.4022222222222224e-05, + "loss": 0.8817, + "step": 631 + }, + { + "epoch": 0.21066666666666667, + "grad_norm": 2.0485823154449463, + "learning_rate": 1.4044444444444445e-05, + "loss": 1.0348, + "step": 632 + }, + { + "epoch": 0.211, + "grad_norm": 1.896964430809021, + "learning_rate": 1.4066666666666669e-05, + "loss": 1.0594, + "step": 633 + }, + { + "epoch": 0.21133333333333335, + "grad_norm": 1.9187796115875244, + "learning_rate": 1.408888888888889e-05, + "loss": 1.0534, + "step": 634 + }, + { + "epoch": 0.21166666666666667, + "grad_norm": 1.883115530014038, + "learning_rate": 1.4111111111111113e-05, + "loss": 1.0501, + "step": 635 + }, + { + "epoch": 0.212, + "grad_norm": 1.923357367515564, + "learning_rate": 1.4133333333333334e-05, + "loss": 0.9634, + "step": 636 + }, + { + "epoch": 0.21233333333333335, + "grad_norm": 2.013113498687744, + "learning_rate": 1.4155555555555556e-05, + "loss": 1.0973, + "step": 637 + }, + { + "epoch": 0.21266666666666667, + "grad_norm": 1.8864637613296509, + "learning_rate": 1.4177777777777779e-05, + "loss": 1.0612, + "step": 638 + }, + { + "epoch": 0.213, + "grad_norm": 1.9251823425292969, + "learning_rate": 1.4200000000000001e-05, + "loss": 0.9953, + "step": 639 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 1.8344268798828125, + "learning_rate": 1.4222222222222224e-05, + "loss": 1.0066, + "step": 640 + }, + { + "epoch": 0.21366666666666667, + "grad_norm": 1.9602892398834229, + "learning_rate": 1.4244444444444444e-05, + "loss": 1.0023, + "step": 641 + }, + { + "epoch": 0.214, + "grad_norm": 1.957903504371643, + "learning_rate": 1.4266666666666668e-05, + "loss": 0.969, + "step": 642 + }, + { + "epoch": 0.21433333333333332, + "grad_norm": 2.063138723373413, + "learning_rate": 1.4288888888888889e-05, + "loss": 1.049, + "step": 643 + }, + { + "epoch": 0.21466666666666667, + "grad_norm": 1.9838637113571167, + "learning_rate": 1.4311111111111111e-05, + "loss": 0.8725, + "step": 644 + }, + { + "epoch": 0.215, + "grad_norm": 2.2307844161987305, + "learning_rate": 1.4333333333333334e-05, + "loss": 0.9729, + "step": 645 + }, + { + "epoch": 0.21533333333333332, + "grad_norm": 2.2554993629455566, + "learning_rate": 1.4355555555555556e-05, + "loss": 1.0136, + "step": 646 + }, + { + "epoch": 0.21566666666666667, + "grad_norm": 1.9837831258773804, + "learning_rate": 1.4377777777777779e-05, + "loss": 0.941, + "step": 647 + }, + { + "epoch": 0.216, + "grad_norm": 2.151555299758911, + "learning_rate": 1.4400000000000001e-05, + "loss": 0.9937, + "step": 648 + }, + { + "epoch": 0.21633333333333332, + "grad_norm": 1.8693896532058716, + "learning_rate": 1.4422222222222223e-05, + "loss": 1.0059, + "step": 649 + }, + { + "epoch": 0.21666666666666667, + "grad_norm": 2.026677370071411, + "learning_rate": 1.4444444444444446e-05, + "loss": 0.9235, + "step": 650 + }, + { + "epoch": 0.217, + "grad_norm": 1.8262110948562622, + "learning_rate": 1.4466666666666668e-05, + "loss": 0.956, + "step": 651 + }, + { + "epoch": 0.21733333333333332, + "grad_norm": 2.1659469604492188, + "learning_rate": 1.448888888888889e-05, + "loss": 0.9675, + "step": 652 + }, + { + "epoch": 0.21766666666666667, + "grad_norm": 1.79062020778656, + "learning_rate": 1.4511111111111111e-05, + "loss": 1.0243, + "step": 653 + }, + { + "epoch": 0.218, + "grad_norm": 1.9424083232879639, + "learning_rate": 1.4533333333333335e-05, + "loss": 1.0351, + "step": 654 + }, + { + "epoch": 0.21833333333333332, + "grad_norm": 1.9661529064178467, + "learning_rate": 1.4555555555555556e-05, + "loss": 0.9842, + "step": 655 + }, + { + "epoch": 0.21866666666666668, + "grad_norm": 2.0230393409729004, + "learning_rate": 1.457777777777778e-05, + "loss": 0.8851, + "step": 656 + }, + { + "epoch": 0.219, + "grad_norm": 2.0815749168395996, + "learning_rate": 1.46e-05, + "loss": 0.9946, + "step": 657 + }, + { + "epoch": 0.21933333333333332, + "grad_norm": 1.9361217021942139, + "learning_rate": 1.4622222222222225e-05, + "loss": 1.0198, + "step": 658 + }, + { + "epoch": 0.21966666666666668, + "grad_norm": 2.0183467864990234, + "learning_rate": 1.4644444444444446e-05, + "loss": 0.8555, + "step": 659 + }, + { + "epoch": 0.22, + "grad_norm": 1.957879900932312, + "learning_rate": 1.4666666666666666e-05, + "loss": 1.0172, + "step": 660 + }, + { + "epoch": 0.22033333333333333, + "grad_norm": 2.021496295928955, + "learning_rate": 1.468888888888889e-05, + "loss": 0.961, + "step": 661 + }, + { + "epoch": 0.22066666666666668, + "grad_norm": 2.0929293632507324, + "learning_rate": 1.4711111111111111e-05, + "loss": 0.9198, + "step": 662 + }, + { + "epoch": 0.221, + "grad_norm": 2.028017997741699, + "learning_rate": 1.4733333333333335e-05, + "loss": 0.9539, + "step": 663 + }, + { + "epoch": 0.22133333333333333, + "grad_norm": 2.4784786701202393, + "learning_rate": 1.4755555555555556e-05, + "loss": 1.0141, + "step": 664 + }, + { + "epoch": 0.22166666666666668, + "grad_norm": 2.2953829765319824, + "learning_rate": 1.477777777777778e-05, + "loss": 0.9856, + "step": 665 + }, + { + "epoch": 0.222, + "grad_norm": 2.2780611515045166, + "learning_rate": 1.48e-05, + "loss": 0.9431, + "step": 666 + }, + { + "epoch": 0.22233333333333333, + "grad_norm": 2.3119475841522217, + "learning_rate": 1.4822222222222225e-05, + "loss": 1.0061, + "step": 667 + }, + { + "epoch": 0.22266666666666668, + "grad_norm": 2.0179407596588135, + "learning_rate": 1.4844444444444445e-05, + "loss": 0.9416, + "step": 668 + }, + { + "epoch": 0.223, + "grad_norm": 1.9845750331878662, + "learning_rate": 1.4866666666666668e-05, + "loss": 1.0028, + "step": 669 + }, + { + "epoch": 0.22333333333333333, + "grad_norm": 2.0497219562530518, + "learning_rate": 1.488888888888889e-05, + "loss": 1.0415, + "step": 670 + }, + { + "epoch": 0.22366666666666668, + "grad_norm": 2.03671932220459, + "learning_rate": 1.4911111111111113e-05, + "loss": 0.9986, + "step": 671 + }, + { + "epoch": 0.224, + "grad_norm": 2.1817612648010254, + "learning_rate": 1.4933333333333335e-05, + "loss": 0.9757, + "step": 672 + }, + { + "epoch": 0.22433333333333333, + "grad_norm": 2.007974624633789, + "learning_rate": 1.4955555555555557e-05, + "loss": 0.9803, + "step": 673 + }, + { + "epoch": 0.22466666666666665, + "grad_norm": 2.02718186378479, + "learning_rate": 1.497777777777778e-05, + "loss": 0.9643, + "step": 674 + }, + { + "epoch": 0.225, + "grad_norm": 1.9848275184631348, + "learning_rate": 1.5000000000000002e-05, + "loss": 0.9292, + "step": 675 + }, + { + "epoch": 0.22533333333333333, + "grad_norm": 2.069039821624756, + "learning_rate": 1.5022222222222223e-05, + "loss": 1.015, + "step": 676 + }, + { + "epoch": 0.22566666666666665, + "grad_norm": 1.9411133527755737, + "learning_rate": 1.5044444444444445e-05, + "loss": 0.9777, + "step": 677 + }, + { + "epoch": 0.226, + "grad_norm": 2.288095474243164, + "learning_rate": 1.5066666666666668e-05, + "loss": 1.0123, + "step": 678 + }, + { + "epoch": 0.22633333333333333, + "grad_norm": 1.979999303817749, + "learning_rate": 1.508888888888889e-05, + "loss": 0.9844, + "step": 679 + }, + { + "epoch": 0.22666666666666666, + "grad_norm": 2.181199789047241, + "learning_rate": 1.5111111111111112e-05, + "loss": 0.9045, + "step": 680 + }, + { + "epoch": 0.227, + "grad_norm": 1.8234004974365234, + "learning_rate": 1.5133333333333335e-05, + "loss": 0.916, + "step": 681 + }, + { + "epoch": 0.22733333333333333, + "grad_norm": 2.0240960121154785, + "learning_rate": 1.5155555555555557e-05, + "loss": 1.0273, + "step": 682 + }, + { + "epoch": 0.22766666666666666, + "grad_norm": 1.9899144172668457, + "learning_rate": 1.5177777777777778e-05, + "loss": 0.9743, + "step": 683 + }, + { + "epoch": 0.228, + "grad_norm": 2.0331571102142334, + "learning_rate": 1.5200000000000002e-05, + "loss": 1.03, + "step": 684 + }, + { + "epoch": 0.22833333333333333, + "grad_norm": 2.0641372203826904, + "learning_rate": 1.5222222222222223e-05, + "loss": 0.9342, + "step": 685 + }, + { + "epoch": 0.22866666666666666, + "grad_norm": 2.199514150619507, + "learning_rate": 1.5244444444444447e-05, + "loss": 0.9707, + "step": 686 + }, + { + "epoch": 0.229, + "grad_norm": 1.9875428676605225, + "learning_rate": 1.5266666666666667e-05, + "loss": 0.9132, + "step": 687 + }, + { + "epoch": 0.22933333333333333, + "grad_norm": 2.171032667160034, + "learning_rate": 1.528888888888889e-05, + "loss": 0.9727, + "step": 688 + }, + { + "epoch": 0.22966666666666666, + "grad_norm": 2.0045721530914307, + "learning_rate": 1.5311111111111112e-05, + "loss": 0.9788, + "step": 689 + }, + { + "epoch": 0.23, + "grad_norm": 1.8578386306762695, + "learning_rate": 1.5333333333333334e-05, + "loss": 0.9384, + "step": 690 + }, + { + "epoch": 0.23033333333333333, + "grad_norm": 1.9924761056900024, + "learning_rate": 1.5355555555555557e-05, + "loss": 1.004, + "step": 691 + }, + { + "epoch": 0.23066666666666666, + "grad_norm": 1.9637020826339722, + "learning_rate": 1.537777777777778e-05, + "loss": 0.9519, + "step": 692 + }, + { + "epoch": 0.231, + "grad_norm": 1.9160338640213013, + "learning_rate": 1.54e-05, + "loss": 0.9697, + "step": 693 + }, + { + "epoch": 0.23133333333333334, + "grad_norm": 2.007272720336914, + "learning_rate": 1.5422222222222224e-05, + "loss": 0.8097, + "step": 694 + }, + { + "epoch": 0.23166666666666666, + "grad_norm": 2.333876371383667, + "learning_rate": 1.5444444444444446e-05, + "loss": 0.966, + "step": 695 + }, + { + "epoch": 0.232, + "grad_norm": 2.016676664352417, + "learning_rate": 1.546666666666667e-05, + "loss": 0.969, + "step": 696 + }, + { + "epoch": 0.23233333333333334, + "grad_norm": 2.194587230682373, + "learning_rate": 1.548888888888889e-05, + "loss": 0.9656, + "step": 697 + }, + { + "epoch": 0.23266666666666666, + "grad_norm": 1.957675814628601, + "learning_rate": 1.5511111111111114e-05, + "loss": 0.9535, + "step": 698 + }, + { + "epoch": 0.233, + "grad_norm": 2.007817029953003, + "learning_rate": 1.5533333333333333e-05, + "loss": 0.9434, + "step": 699 + }, + { + "epoch": 0.23333333333333334, + "grad_norm": 1.9728305339813232, + "learning_rate": 1.555555555555556e-05, + "loss": 0.9943, + "step": 700 + }, + { + "epoch": 0.23366666666666666, + "grad_norm": 1.8780627250671387, + "learning_rate": 1.5577777777777777e-05, + "loss": 0.882, + "step": 701 + }, + { + "epoch": 0.234, + "grad_norm": 1.870377779006958, + "learning_rate": 1.5600000000000003e-05, + "loss": 0.9632, + "step": 702 + }, + { + "epoch": 0.23433333333333334, + "grad_norm": 2.386828660964966, + "learning_rate": 1.5622222222222222e-05, + "loss": 0.9946, + "step": 703 + }, + { + "epoch": 0.23466666666666666, + "grad_norm": 2.267218828201294, + "learning_rate": 1.5644444444444448e-05, + "loss": 0.9006, + "step": 704 + }, + { + "epoch": 0.235, + "grad_norm": 2.018437385559082, + "learning_rate": 1.5666666666666667e-05, + "loss": 0.9305, + "step": 705 + }, + { + "epoch": 0.23533333333333334, + "grad_norm": 1.8608704805374146, + "learning_rate": 1.5688888888888893e-05, + "loss": 0.9872, + "step": 706 + }, + { + "epoch": 0.23566666666666666, + "grad_norm": 2.1590754985809326, + "learning_rate": 1.571111111111111e-05, + "loss": 1.0441, + "step": 707 + }, + { + "epoch": 0.236, + "grad_norm": 2.2927141189575195, + "learning_rate": 1.5733333333333334e-05, + "loss": 0.9433, + "step": 708 + }, + { + "epoch": 0.23633333333333334, + "grad_norm": 2.424966335296631, + "learning_rate": 1.5755555555555556e-05, + "loss": 0.899, + "step": 709 + }, + { + "epoch": 0.23666666666666666, + "grad_norm": 2.2097885608673096, + "learning_rate": 1.577777777777778e-05, + "loss": 0.8726, + "step": 710 + }, + { + "epoch": 0.237, + "grad_norm": 2.1656298637390137, + "learning_rate": 1.58e-05, + "loss": 0.917, + "step": 711 + }, + { + "epoch": 0.23733333333333334, + "grad_norm": 2.168102979660034, + "learning_rate": 1.5822222222222224e-05, + "loss": 0.999, + "step": 712 + }, + { + "epoch": 0.23766666666666666, + "grad_norm": 2.123516321182251, + "learning_rate": 1.5844444444444446e-05, + "loss": 0.9908, + "step": 713 + }, + { + "epoch": 0.238, + "grad_norm": 2.0416595935821533, + "learning_rate": 1.586666666666667e-05, + "loss": 0.9435, + "step": 714 + }, + { + "epoch": 0.23833333333333334, + "grad_norm": 2.197096109390259, + "learning_rate": 1.588888888888889e-05, + "loss": 0.9292, + "step": 715 + }, + { + "epoch": 0.23866666666666667, + "grad_norm": 2.022771120071411, + "learning_rate": 1.5911111111111113e-05, + "loss": 0.9366, + "step": 716 + }, + { + "epoch": 0.239, + "grad_norm": 2.50850772857666, + "learning_rate": 1.5933333333333336e-05, + "loss": 0.9887, + "step": 717 + }, + { + "epoch": 0.23933333333333334, + "grad_norm": 2.230081558227539, + "learning_rate": 1.5955555555555558e-05, + "loss": 0.8789, + "step": 718 + }, + { + "epoch": 0.23966666666666667, + "grad_norm": 2.047361373901367, + "learning_rate": 1.597777777777778e-05, + "loss": 0.8969, + "step": 719 + }, + { + "epoch": 0.24, + "grad_norm": 2.1291916370391846, + "learning_rate": 1.6000000000000003e-05, + "loss": 0.9084, + "step": 720 + }, + { + "epoch": 0.24033333333333334, + "grad_norm": 2.0858380794525146, + "learning_rate": 1.6022222222222225e-05, + "loss": 0.9744, + "step": 721 + }, + { + "epoch": 0.24066666666666667, + "grad_norm": 1.9984076023101807, + "learning_rate": 1.6044444444444444e-05, + "loss": 0.9716, + "step": 722 + }, + { + "epoch": 0.241, + "grad_norm": 1.9284512996673584, + "learning_rate": 1.606666666666667e-05, + "loss": 0.9225, + "step": 723 + }, + { + "epoch": 0.24133333333333334, + "grad_norm": 2.2967071533203125, + "learning_rate": 1.608888888888889e-05, + "loss": 0.9167, + "step": 724 + }, + { + "epoch": 0.24166666666666667, + "grad_norm": 2.022691011428833, + "learning_rate": 1.6111111111111115e-05, + "loss": 0.9091, + "step": 725 + }, + { + "epoch": 0.242, + "grad_norm": 2.1820151805877686, + "learning_rate": 1.6133333333333334e-05, + "loss": 0.9947, + "step": 726 + }, + { + "epoch": 0.24233333333333335, + "grad_norm": 2.3929436206817627, + "learning_rate": 1.6155555555555556e-05, + "loss": 0.9181, + "step": 727 + }, + { + "epoch": 0.24266666666666667, + "grad_norm": 2.3002102375030518, + "learning_rate": 1.617777777777778e-05, + "loss": 0.9075, + "step": 728 + }, + { + "epoch": 0.243, + "grad_norm": 2.081393241882324, + "learning_rate": 1.62e-05, + "loss": 0.972, + "step": 729 + }, + { + "epoch": 0.24333333333333335, + "grad_norm": 1.9346320629119873, + "learning_rate": 1.6222222222222223e-05, + "loss": 0.9354, + "step": 730 + }, + { + "epoch": 0.24366666666666667, + "grad_norm": 2.1823244094848633, + "learning_rate": 1.6244444444444446e-05, + "loss": 0.96, + "step": 731 + }, + { + "epoch": 0.244, + "grad_norm": 2.0564560890197754, + "learning_rate": 1.6266666666666668e-05, + "loss": 0.8663, + "step": 732 + }, + { + "epoch": 0.24433333333333335, + "grad_norm": 2.0939719676971436, + "learning_rate": 1.628888888888889e-05, + "loss": 0.904, + "step": 733 + }, + { + "epoch": 0.24466666666666667, + "grad_norm": 2.5487723350524902, + "learning_rate": 1.6311111111111113e-05, + "loss": 1.0096, + "step": 734 + }, + { + "epoch": 0.245, + "grad_norm": 2.2547786235809326, + "learning_rate": 1.6333333333333335e-05, + "loss": 0.9223, + "step": 735 + }, + { + "epoch": 0.24533333333333332, + "grad_norm": 2.648001194000244, + "learning_rate": 1.6355555555555557e-05, + "loss": 0.9318, + "step": 736 + }, + { + "epoch": 0.24566666666666667, + "grad_norm": 2.2157437801361084, + "learning_rate": 1.637777777777778e-05, + "loss": 0.9678, + "step": 737 + }, + { + "epoch": 0.246, + "grad_norm": 2.209550619125366, + "learning_rate": 1.64e-05, + "loss": 0.8773, + "step": 738 + }, + { + "epoch": 0.24633333333333332, + "grad_norm": 1.977947473526001, + "learning_rate": 1.6422222222222225e-05, + "loss": 0.9865, + "step": 739 + }, + { + "epoch": 0.24666666666666667, + "grad_norm": 2.1056556701660156, + "learning_rate": 1.6444444444444444e-05, + "loss": 0.8807, + "step": 740 + }, + { + "epoch": 0.247, + "grad_norm": 2.1358039379119873, + "learning_rate": 1.646666666666667e-05, + "loss": 0.987, + "step": 741 + }, + { + "epoch": 0.24733333333333332, + "grad_norm": 2.3467416763305664, + "learning_rate": 1.648888888888889e-05, + "loss": 0.9327, + "step": 742 + }, + { + "epoch": 0.24766666666666667, + "grad_norm": 2.128547191619873, + "learning_rate": 1.6511111111111114e-05, + "loss": 0.9082, + "step": 743 + }, + { + "epoch": 0.248, + "grad_norm": 2.1702280044555664, + "learning_rate": 1.6533333333333333e-05, + "loss": 0.8691, + "step": 744 + }, + { + "epoch": 0.24833333333333332, + "grad_norm": 2.191246271133423, + "learning_rate": 1.6555555555555556e-05, + "loss": 1.0142, + "step": 745 + }, + { + "epoch": 0.24866666666666667, + "grad_norm": 2.071685552597046, + "learning_rate": 1.6577777777777778e-05, + "loss": 0.9057, + "step": 746 + }, + { + "epoch": 0.249, + "grad_norm": 2.2740635871887207, + "learning_rate": 1.66e-05, + "loss": 0.9504, + "step": 747 + }, + { + "epoch": 0.24933333333333332, + "grad_norm": 2.2018792629241943, + "learning_rate": 1.6622222222222223e-05, + "loss": 0.9404, + "step": 748 + }, + { + "epoch": 0.24966666666666668, + "grad_norm": 2.3164141178131104, + "learning_rate": 1.6644444444444445e-05, + "loss": 0.9001, + "step": 749 + }, + { + "epoch": 0.25, + "grad_norm": 2.307731866836548, + "learning_rate": 1.6666666666666667e-05, + "loss": 0.8823, + "step": 750 + }, + { + "epoch": 0.25033333333333335, + "grad_norm": 2.3382184505462646, + "learning_rate": 1.668888888888889e-05, + "loss": 0.9403, + "step": 751 + }, + { + "epoch": 0.25066666666666665, + "grad_norm": 2.0344743728637695, + "learning_rate": 1.6711111111111112e-05, + "loss": 0.902, + "step": 752 + }, + { + "epoch": 0.251, + "grad_norm": 1.9669145345687866, + "learning_rate": 1.6733333333333335e-05, + "loss": 0.9682, + "step": 753 + }, + { + "epoch": 0.25133333333333335, + "grad_norm": 2.0329365730285645, + "learning_rate": 1.6755555555555557e-05, + "loss": 0.8299, + "step": 754 + }, + { + "epoch": 0.25166666666666665, + "grad_norm": 1.9222513437271118, + "learning_rate": 1.677777777777778e-05, + "loss": 1.0133, + "step": 755 + }, + { + "epoch": 0.252, + "grad_norm": 2.161478281021118, + "learning_rate": 1.6800000000000002e-05, + "loss": 0.8655, + "step": 756 + }, + { + "epoch": 0.25233333333333335, + "grad_norm": 2.2355029582977295, + "learning_rate": 1.6822222222222224e-05, + "loss": 0.9554, + "step": 757 + }, + { + "epoch": 0.25266666666666665, + "grad_norm": 2.064680814743042, + "learning_rate": 1.6844444444444447e-05, + "loss": 0.9272, + "step": 758 + }, + { + "epoch": 0.253, + "grad_norm": 2.320974111557007, + "learning_rate": 1.686666666666667e-05, + "loss": 0.8619, + "step": 759 + }, + { + "epoch": 0.25333333333333335, + "grad_norm": 2.4090940952301025, + "learning_rate": 1.688888888888889e-05, + "loss": 0.9468, + "step": 760 + }, + { + "epoch": 0.25366666666666665, + "grad_norm": 2.7054309844970703, + "learning_rate": 1.691111111111111e-05, + "loss": 0.9265, + "step": 761 + }, + { + "epoch": 0.254, + "grad_norm": 2.312974214553833, + "learning_rate": 1.6933333333333336e-05, + "loss": 0.906, + "step": 762 + }, + { + "epoch": 0.25433333333333336, + "grad_norm": 2.1129260063171387, + "learning_rate": 1.6955555555555555e-05, + "loss": 0.967, + "step": 763 + }, + { + "epoch": 0.25466666666666665, + "grad_norm": 1.8895968198776245, + "learning_rate": 1.697777777777778e-05, + "loss": 0.9209, + "step": 764 + }, + { + "epoch": 0.255, + "grad_norm": 2.013596773147583, + "learning_rate": 1.7e-05, + "loss": 0.9214, + "step": 765 + }, + { + "epoch": 0.25533333333333336, + "grad_norm": 2.0043716430664062, + "learning_rate": 1.7022222222222226e-05, + "loss": 0.8946, + "step": 766 + }, + { + "epoch": 0.25566666666666665, + "grad_norm": 2.0996341705322266, + "learning_rate": 1.7044444444444445e-05, + "loss": 0.9369, + "step": 767 + }, + { + "epoch": 0.256, + "grad_norm": 2.129432201385498, + "learning_rate": 1.706666666666667e-05, + "loss": 0.9456, + "step": 768 + }, + { + "epoch": 0.25633333333333336, + "grad_norm": 2.386000156402588, + "learning_rate": 1.708888888888889e-05, + "loss": 0.9365, + "step": 769 + }, + { + "epoch": 0.25666666666666665, + "grad_norm": 2.2194933891296387, + "learning_rate": 1.7111111111111112e-05, + "loss": 0.8375, + "step": 770 + }, + { + "epoch": 0.257, + "grad_norm": 2.3204355239868164, + "learning_rate": 1.7133333333333334e-05, + "loss": 0.9373, + "step": 771 + }, + { + "epoch": 0.25733333333333336, + "grad_norm": 1.966623067855835, + "learning_rate": 1.7155555555555557e-05, + "loss": 0.8997, + "step": 772 + }, + { + "epoch": 0.25766666666666665, + "grad_norm": 2.1548244953155518, + "learning_rate": 1.717777777777778e-05, + "loss": 0.8919, + "step": 773 + }, + { + "epoch": 0.258, + "grad_norm": 2.067744016647339, + "learning_rate": 1.72e-05, + "loss": 0.949, + "step": 774 + }, + { + "epoch": 0.25833333333333336, + "grad_norm": 2.080667495727539, + "learning_rate": 1.7222222222222224e-05, + "loss": 0.9167, + "step": 775 + }, + { + "epoch": 0.25866666666666666, + "grad_norm": 2.4006755352020264, + "learning_rate": 1.7244444444444446e-05, + "loss": 0.9116, + "step": 776 + }, + { + "epoch": 0.259, + "grad_norm": 2.1062140464782715, + "learning_rate": 1.726666666666667e-05, + "loss": 0.882, + "step": 777 + }, + { + "epoch": 0.25933333333333336, + "grad_norm": 2.018022298812866, + "learning_rate": 1.728888888888889e-05, + "loss": 0.8363, + "step": 778 + }, + { + "epoch": 0.25966666666666666, + "grad_norm": 2.333477020263672, + "learning_rate": 1.7311111111111113e-05, + "loss": 0.8548, + "step": 779 + }, + { + "epoch": 0.26, + "grad_norm": 2.0108344554901123, + "learning_rate": 1.7333333333333336e-05, + "loss": 0.8723, + "step": 780 + }, + { + "epoch": 0.26033333333333336, + "grad_norm": 2.0852856636047363, + "learning_rate": 1.7355555555555558e-05, + "loss": 0.8459, + "step": 781 + }, + { + "epoch": 0.26066666666666666, + "grad_norm": 2.1616809368133545, + "learning_rate": 1.737777777777778e-05, + "loss": 0.8604, + "step": 782 + }, + { + "epoch": 0.261, + "grad_norm": 2.5095269680023193, + "learning_rate": 1.7400000000000003e-05, + "loss": 0.8491, + "step": 783 + }, + { + "epoch": 0.2613333333333333, + "grad_norm": 2.2931036949157715, + "learning_rate": 1.7422222222222222e-05, + "loss": 0.8954, + "step": 784 + }, + { + "epoch": 0.26166666666666666, + "grad_norm": 2.6345412731170654, + "learning_rate": 1.7444444444444448e-05, + "loss": 0.8016, + "step": 785 + }, + { + "epoch": 0.262, + "grad_norm": 2.5826361179351807, + "learning_rate": 1.7466666666666667e-05, + "loss": 0.7649, + "step": 786 + }, + { + "epoch": 0.2623333333333333, + "grad_norm": 2.427192211151123, + "learning_rate": 1.7488888888888892e-05, + "loss": 0.8861, + "step": 787 + }, + { + "epoch": 0.26266666666666666, + "grad_norm": 1.9934463500976562, + "learning_rate": 1.751111111111111e-05, + "loss": 0.8744, + "step": 788 + }, + { + "epoch": 0.263, + "grad_norm": 2.1077640056610107, + "learning_rate": 1.7533333333333337e-05, + "loss": 0.8866, + "step": 789 + }, + { + "epoch": 0.2633333333333333, + "grad_norm": 2.267711639404297, + "learning_rate": 1.7555555555555556e-05, + "loss": 0.8585, + "step": 790 + }, + { + "epoch": 0.26366666666666666, + "grad_norm": 2.7613096237182617, + "learning_rate": 1.7577777777777782e-05, + "loss": 0.8913, + "step": 791 + }, + { + "epoch": 0.264, + "grad_norm": 2.03674054145813, + "learning_rate": 1.76e-05, + "loss": 0.9048, + "step": 792 + }, + { + "epoch": 0.2643333333333333, + "grad_norm": 2.5240836143493652, + "learning_rate": 1.7622222222222223e-05, + "loss": 0.8744, + "step": 793 + }, + { + "epoch": 0.26466666666666666, + "grad_norm": 2.086921215057373, + "learning_rate": 1.7644444444444446e-05, + "loss": 0.9103, + "step": 794 + }, + { + "epoch": 0.265, + "grad_norm": 2.572826862335205, + "learning_rate": 1.7666666666666668e-05, + "loss": 0.8473, + "step": 795 + }, + { + "epoch": 0.2653333333333333, + "grad_norm": 2.163623332977295, + "learning_rate": 1.768888888888889e-05, + "loss": 0.9072, + "step": 796 + }, + { + "epoch": 0.26566666666666666, + "grad_norm": 2.0924720764160156, + "learning_rate": 1.7711111111111113e-05, + "loss": 0.8461, + "step": 797 + }, + { + "epoch": 0.266, + "grad_norm": 1.9986131191253662, + "learning_rate": 1.7733333333333335e-05, + "loss": 0.9112, + "step": 798 + }, + { + "epoch": 0.2663333333333333, + "grad_norm": 2.194119453430176, + "learning_rate": 1.7755555555555558e-05, + "loss": 0.8847, + "step": 799 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 1.9765191078186035, + "learning_rate": 1.7777777777777777e-05, + "loss": 0.9007, + "step": 800 + }, + { + "epoch": 0.267, + "grad_norm": 2.592564821243286, + "learning_rate": 1.7800000000000002e-05, + "loss": 0.9243, + "step": 801 + }, + { + "epoch": 0.2673333333333333, + "grad_norm": 2.277754306793213, + "learning_rate": 1.782222222222222e-05, + "loss": 0.9077, + "step": 802 + }, + { + "epoch": 0.26766666666666666, + "grad_norm": 2.1846249103546143, + "learning_rate": 1.7844444444444447e-05, + "loss": 0.9421, + "step": 803 + }, + { + "epoch": 0.268, + "grad_norm": 2.3221323490142822, + "learning_rate": 1.7866666666666666e-05, + "loss": 0.8323, + "step": 804 + }, + { + "epoch": 0.2683333333333333, + "grad_norm": 2.330634355545044, + "learning_rate": 1.7888888888888892e-05, + "loss": 0.8011, + "step": 805 + }, + { + "epoch": 0.26866666666666666, + "grad_norm": 2.3643593788146973, + "learning_rate": 1.791111111111111e-05, + "loss": 0.867, + "step": 806 + }, + { + "epoch": 0.269, + "grad_norm": 2.157201051712036, + "learning_rate": 1.7933333333333333e-05, + "loss": 0.9323, + "step": 807 + }, + { + "epoch": 0.2693333333333333, + "grad_norm": 2.0367822647094727, + "learning_rate": 1.7955555555555556e-05, + "loss": 0.8855, + "step": 808 + }, + { + "epoch": 0.26966666666666667, + "grad_norm": 1.9272222518920898, + "learning_rate": 1.7977777777777778e-05, + "loss": 0.9401, + "step": 809 + }, + { + "epoch": 0.27, + "grad_norm": 2.003221273422241, + "learning_rate": 1.8e-05, + "loss": 0.8026, + "step": 810 + }, + { + "epoch": 0.2703333333333333, + "grad_norm": 1.927902102470398, + "learning_rate": 1.8022222222222223e-05, + "loss": 0.8421, + "step": 811 + }, + { + "epoch": 0.27066666666666667, + "grad_norm": 2.0983963012695312, + "learning_rate": 1.8044444444444445e-05, + "loss": 0.9228, + "step": 812 + }, + { + "epoch": 0.271, + "grad_norm": 2.2984888553619385, + "learning_rate": 1.8066666666666668e-05, + "loss": 0.8578, + "step": 813 + }, + { + "epoch": 0.2713333333333333, + "grad_norm": 2.226126194000244, + "learning_rate": 1.808888888888889e-05, + "loss": 0.8711, + "step": 814 + }, + { + "epoch": 0.27166666666666667, + "grad_norm": 2.233779191970825, + "learning_rate": 1.8111111111111112e-05, + "loss": 0.8903, + "step": 815 + }, + { + "epoch": 0.272, + "grad_norm": 2.301583766937256, + "learning_rate": 1.8133333333333335e-05, + "loss": 0.89, + "step": 816 + }, + { + "epoch": 0.2723333333333333, + "grad_norm": 2.5492796897888184, + "learning_rate": 1.8155555555555557e-05, + "loss": 0.9021, + "step": 817 + }, + { + "epoch": 0.27266666666666667, + "grad_norm": 2.193164587020874, + "learning_rate": 1.817777777777778e-05, + "loss": 0.9046, + "step": 818 + }, + { + "epoch": 0.273, + "grad_norm": 2.2002978324890137, + "learning_rate": 1.8200000000000002e-05, + "loss": 0.8425, + "step": 819 + }, + { + "epoch": 0.2733333333333333, + "grad_norm": 1.9136056900024414, + "learning_rate": 1.8222222222222224e-05, + "loss": 0.9018, + "step": 820 + }, + { + "epoch": 0.27366666666666667, + "grad_norm": 1.9513788223266602, + "learning_rate": 1.8244444444444447e-05, + "loss": 0.9284, + "step": 821 + }, + { + "epoch": 0.274, + "grad_norm": 1.967810034751892, + "learning_rate": 1.826666666666667e-05, + "loss": 0.8624, + "step": 822 + }, + { + "epoch": 0.2743333333333333, + "grad_norm": 2.1073577404022217, + "learning_rate": 1.8288888888888888e-05, + "loss": 0.9154, + "step": 823 + }, + { + "epoch": 0.27466666666666667, + "grad_norm": 2.0249345302581787, + "learning_rate": 1.8311111111111114e-05, + "loss": 0.8218, + "step": 824 + }, + { + "epoch": 0.275, + "grad_norm": 2.094506025314331, + "learning_rate": 1.8333333333333333e-05, + "loss": 0.8928, + "step": 825 + }, + { + "epoch": 0.2753333333333333, + "grad_norm": 2.2308523654937744, + "learning_rate": 1.835555555555556e-05, + "loss": 0.8997, + "step": 826 + }, + { + "epoch": 0.27566666666666667, + "grad_norm": 2.2964560985565186, + "learning_rate": 1.8377777777777778e-05, + "loss": 0.9275, + "step": 827 + }, + { + "epoch": 0.276, + "grad_norm": 2.210688352584839, + "learning_rate": 1.8400000000000003e-05, + "loss": 0.8191, + "step": 828 + }, + { + "epoch": 0.2763333333333333, + "grad_norm": 2.1888043880462646, + "learning_rate": 1.8422222222222222e-05, + "loss": 0.8255, + "step": 829 + }, + { + "epoch": 0.27666666666666667, + "grad_norm": 2.1950478553771973, + "learning_rate": 1.8444444444444448e-05, + "loss": 0.9314, + "step": 830 + }, + { + "epoch": 0.277, + "grad_norm": 2.0702157020568848, + "learning_rate": 1.8466666666666667e-05, + "loss": 0.8693, + "step": 831 + }, + { + "epoch": 0.2773333333333333, + "grad_norm": 2.0533876419067383, + "learning_rate": 1.848888888888889e-05, + "loss": 0.8576, + "step": 832 + }, + { + "epoch": 0.2776666666666667, + "grad_norm": 2.0113816261291504, + "learning_rate": 1.8511111111111112e-05, + "loss": 0.8819, + "step": 833 + }, + { + "epoch": 0.278, + "grad_norm": 2.30261492729187, + "learning_rate": 1.8533333333333334e-05, + "loss": 0.9101, + "step": 834 + }, + { + "epoch": 0.2783333333333333, + "grad_norm": 2.238607406616211, + "learning_rate": 1.8555555555555557e-05, + "loss": 0.8526, + "step": 835 + }, + { + "epoch": 0.2786666666666667, + "grad_norm": 2.015728235244751, + "learning_rate": 1.857777777777778e-05, + "loss": 0.8918, + "step": 836 + }, + { + "epoch": 0.279, + "grad_norm": 2.1769864559173584, + "learning_rate": 1.86e-05, + "loss": 0.8938, + "step": 837 + }, + { + "epoch": 0.2793333333333333, + "grad_norm": 1.9448826313018799, + "learning_rate": 1.8622222222222224e-05, + "loss": 0.8845, + "step": 838 + }, + { + "epoch": 0.2796666666666667, + "grad_norm": 2.130124092102051, + "learning_rate": 1.8644444444444446e-05, + "loss": 0.8326, + "step": 839 + }, + { + "epoch": 0.28, + "grad_norm": 2.0926198959350586, + "learning_rate": 1.866666666666667e-05, + "loss": 0.8196, + "step": 840 + }, + { + "epoch": 0.2803333333333333, + "grad_norm": 2.165248394012451, + "learning_rate": 1.868888888888889e-05, + "loss": 0.901, + "step": 841 + }, + { + "epoch": 0.2806666666666667, + "grad_norm": 2.5403506755828857, + "learning_rate": 1.8711111111111113e-05, + "loss": 0.8756, + "step": 842 + }, + { + "epoch": 0.281, + "grad_norm": 2.2343173027038574, + "learning_rate": 1.8733333333333336e-05, + "loss": 0.9463, + "step": 843 + }, + { + "epoch": 0.2813333333333333, + "grad_norm": 2.128934383392334, + "learning_rate": 1.8755555555555558e-05, + "loss": 0.7886, + "step": 844 + }, + { + "epoch": 0.2816666666666667, + "grad_norm": 2.346515655517578, + "learning_rate": 1.877777777777778e-05, + "loss": 0.8687, + "step": 845 + }, + { + "epoch": 0.282, + "grad_norm": 2.0480053424835205, + "learning_rate": 1.88e-05, + "loss": 0.7945, + "step": 846 + }, + { + "epoch": 0.2823333333333333, + "grad_norm": 2.31706166267395, + "learning_rate": 1.8822222222222225e-05, + "loss": 0.9024, + "step": 847 + }, + { + "epoch": 0.2826666666666667, + "grad_norm": 2.489253520965576, + "learning_rate": 1.8844444444444444e-05, + "loss": 0.9353, + "step": 848 + }, + { + "epoch": 0.283, + "grad_norm": 2.304866075515747, + "learning_rate": 1.886666666666667e-05, + "loss": 0.8597, + "step": 849 + }, + { + "epoch": 0.2833333333333333, + "grad_norm": 2.2582781314849854, + "learning_rate": 1.888888888888889e-05, + "loss": 0.8052, + "step": 850 + }, + { + "epoch": 0.2836666666666667, + "grad_norm": 2.307666778564453, + "learning_rate": 1.8911111111111115e-05, + "loss": 0.928, + "step": 851 + }, + { + "epoch": 0.284, + "grad_norm": 2.2976818084716797, + "learning_rate": 1.8933333333333334e-05, + "loss": 0.9066, + "step": 852 + }, + { + "epoch": 0.2843333333333333, + "grad_norm": 2.0560195446014404, + "learning_rate": 1.895555555555556e-05, + "loss": 0.8583, + "step": 853 + }, + { + "epoch": 0.2846666666666667, + "grad_norm": 2.3197362422943115, + "learning_rate": 1.897777777777778e-05, + "loss": 0.8713, + "step": 854 + }, + { + "epoch": 0.285, + "grad_norm": 3.6058778762817383, + "learning_rate": 1.9e-05, + "loss": 0.7485, + "step": 855 + }, + { + "epoch": 0.2853333333333333, + "grad_norm": 1.9282927513122559, + "learning_rate": 1.9022222222222223e-05, + "loss": 0.8644, + "step": 856 + }, + { + "epoch": 0.2856666666666667, + "grad_norm": 2.2526888847351074, + "learning_rate": 1.9044444444444446e-05, + "loss": 0.8357, + "step": 857 + }, + { + "epoch": 0.286, + "grad_norm": 2.1499907970428467, + "learning_rate": 1.9066666666666668e-05, + "loss": 0.8758, + "step": 858 + }, + { + "epoch": 0.28633333333333333, + "grad_norm": 2.328141689300537, + "learning_rate": 1.908888888888889e-05, + "loss": 0.8692, + "step": 859 + }, + { + "epoch": 0.2866666666666667, + "grad_norm": 2.4803988933563232, + "learning_rate": 1.9111111111111113e-05, + "loss": 0.7852, + "step": 860 + }, + { + "epoch": 0.287, + "grad_norm": 2.113708972930908, + "learning_rate": 1.9133333333333335e-05, + "loss": 0.8718, + "step": 861 + }, + { + "epoch": 0.28733333333333333, + "grad_norm": 2.136192798614502, + "learning_rate": 1.9155555555555558e-05, + "loss": 0.7966, + "step": 862 + }, + { + "epoch": 0.2876666666666667, + "grad_norm": 2.4760093688964844, + "learning_rate": 1.917777777777778e-05, + "loss": 0.8203, + "step": 863 + }, + { + "epoch": 0.288, + "grad_norm": 2.367380380630493, + "learning_rate": 1.9200000000000003e-05, + "loss": 0.8766, + "step": 864 + }, + { + "epoch": 0.28833333333333333, + "grad_norm": 2.401047468185425, + "learning_rate": 1.9222222222222225e-05, + "loss": 0.8599, + "step": 865 + }, + { + "epoch": 0.2886666666666667, + "grad_norm": 2.1798737049102783, + "learning_rate": 1.9244444444444444e-05, + "loss": 0.9143, + "step": 866 + }, + { + "epoch": 0.289, + "grad_norm": 2.395322799682617, + "learning_rate": 1.926666666666667e-05, + "loss": 0.8833, + "step": 867 + }, + { + "epoch": 0.28933333333333333, + "grad_norm": 2.069474697113037, + "learning_rate": 1.928888888888889e-05, + "loss": 0.8698, + "step": 868 + }, + { + "epoch": 0.2896666666666667, + "grad_norm": 2.081885576248169, + "learning_rate": 1.931111111111111e-05, + "loss": 0.8944, + "step": 869 + }, + { + "epoch": 0.29, + "grad_norm": 1.9220634698867798, + "learning_rate": 1.9333333333333333e-05, + "loss": 0.8445, + "step": 870 + }, + { + "epoch": 0.29033333333333333, + "grad_norm": 2.4133830070495605, + "learning_rate": 1.9355555555555556e-05, + "loss": 0.8291, + "step": 871 + }, + { + "epoch": 0.2906666666666667, + "grad_norm": 2.016739845275879, + "learning_rate": 1.9377777777777778e-05, + "loss": 0.8271, + "step": 872 + }, + { + "epoch": 0.291, + "grad_norm": 2.1726737022399902, + "learning_rate": 1.94e-05, + "loss": 0.8225, + "step": 873 + }, + { + "epoch": 0.29133333333333333, + "grad_norm": 2.286702871322632, + "learning_rate": 1.9422222222222223e-05, + "loss": 0.8288, + "step": 874 + }, + { + "epoch": 0.2916666666666667, + "grad_norm": 2.2304904460906982, + "learning_rate": 1.9444444444444445e-05, + "loss": 0.8513, + "step": 875 + }, + { + "epoch": 0.292, + "grad_norm": 2.369331121444702, + "learning_rate": 1.9466666666666668e-05, + "loss": 0.9163, + "step": 876 + }, + { + "epoch": 0.29233333333333333, + "grad_norm": 2.9206459522247314, + "learning_rate": 1.948888888888889e-05, + "loss": 0.7695, + "step": 877 + }, + { + "epoch": 0.2926666666666667, + "grad_norm": 2.3545427322387695, + "learning_rate": 1.9511111111111113e-05, + "loss": 0.7919, + "step": 878 + }, + { + "epoch": 0.293, + "grad_norm": 2.026808023452759, + "learning_rate": 1.9533333333333335e-05, + "loss": 0.8501, + "step": 879 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 1.919969916343689, + "learning_rate": 1.9555555555555557e-05, + "loss": 0.8093, + "step": 880 + }, + { + "epoch": 0.2936666666666667, + "grad_norm": 2.1670100688934326, + "learning_rate": 1.957777777777778e-05, + "loss": 0.9139, + "step": 881 + }, + { + "epoch": 0.294, + "grad_norm": 2.3178417682647705, + "learning_rate": 1.9600000000000002e-05, + "loss": 0.8381, + "step": 882 + }, + { + "epoch": 0.29433333333333334, + "grad_norm": 2.607527256011963, + "learning_rate": 1.9622222222222224e-05, + "loss": 0.7426, + "step": 883 + }, + { + "epoch": 0.2946666666666667, + "grad_norm": 2.304044723510742, + "learning_rate": 1.9644444444444447e-05, + "loss": 0.8408, + "step": 884 + }, + { + "epoch": 0.295, + "grad_norm": 2.519094228744507, + "learning_rate": 1.9666666666666666e-05, + "loss": 0.7845, + "step": 885 + }, + { + "epoch": 0.29533333333333334, + "grad_norm": 2.4646358489990234, + "learning_rate": 1.968888888888889e-05, + "loss": 0.8649, + "step": 886 + }, + { + "epoch": 0.2956666666666667, + "grad_norm": 1.9289557933807373, + "learning_rate": 1.971111111111111e-05, + "loss": 0.8439, + "step": 887 + }, + { + "epoch": 0.296, + "grad_norm": 2.289870500564575, + "learning_rate": 1.9733333333333336e-05, + "loss": 0.8489, + "step": 888 + }, + { + "epoch": 0.29633333333333334, + "grad_norm": 2.0822255611419678, + "learning_rate": 1.9755555555555555e-05, + "loss": 0.8612, + "step": 889 + }, + { + "epoch": 0.2966666666666667, + "grad_norm": 2.079266309738159, + "learning_rate": 1.977777777777778e-05, + "loss": 0.8593, + "step": 890 + }, + { + "epoch": 0.297, + "grad_norm": 2.2207908630371094, + "learning_rate": 1.98e-05, + "loss": 0.8358, + "step": 891 + }, + { + "epoch": 0.29733333333333334, + "grad_norm": 2.062523365020752, + "learning_rate": 1.9822222222222226e-05, + "loss": 0.8022, + "step": 892 + }, + { + "epoch": 0.2976666666666667, + "grad_norm": 2.463602066040039, + "learning_rate": 1.9844444444444445e-05, + "loss": 0.8173, + "step": 893 + }, + { + "epoch": 0.298, + "grad_norm": 2.6471102237701416, + "learning_rate": 1.9866666666666667e-05, + "loss": 0.8525, + "step": 894 + }, + { + "epoch": 0.29833333333333334, + "grad_norm": 2.1708741188049316, + "learning_rate": 1.988888888888889e-05, + "loss": 0.839, + "step": 895 + }, + { + "epoch": 0.2986666666666667, + "grad_norm": 2.412250518798828, + "learning_rate": 1.9911111111111112e-05, + "loss": 0.8393, + "step": 896 + }, + { + "epoch": 0.299, + "grad_norm": 2.452162265777588, + "learning_rate": 1.9933333333333334e-05, + "loss": 0.8274, + "step": 897 + }, + { + "epoch": 0.29933333333333334, + "grad_norm": 2.305922746658325, + "learning_rate": 1.9955555555555557e-05, + "loss": 0.8049, + "step": 898 + }, + { + "epoch": 0.2996666666666667, + "grad_norm": 2.1298604011535645, + "learning_rate": 1.997777777777778e-05, + "loss": 0.8427, + "step": 899 + }, + { + "epoch": 0.3, + "grad_norm": 1.9683762788772583, + "learning_rate": 2e-05, + "loss": 0.8786, + "step": 900 + }, + { + "epoch": 0.30033333333333334, + "grad_norm": 2.481689214706421, + "learning_rate": 1.9999999247858234e-05, + "loss": 0.8907, + "step": 901 + }, + { + "epoch": 0.3006666666666667, + "grad_norm": 2.509500741958618, + "learning_rate": 1.9999996991433044e-05, + "loss": 0.8509, + "step": 902 + }, + { + "epoch": 0.301, + "grad_norm": 2.1209676265716553, + "learning_rate": 1.999999323072477e-05, + "loss": 0.9024, + "step": 903 + }, + { + "epoch": 0.30133333333333334, + "grad_norm": 1.9133163690567017, + "learning_rate": 1.999998796573398e-05, + "loss": 0.9155, + "step": 904 + }, + { + "epoch": 0.3016666666666667, + "grad_norm": 2.3124799728393555, + "learning_rate": 1.9999981196461462e-05, + "loss": 0.8453, + "step": 905 + }, + { + "epoch": 0.302, + "grad_norm": 2.078798294067383, + "learning_rate": 1.999997292290824e-05, + "loss": 0.8243, + "step": 906 + }, + { + "epoch": 0.30233333333333334, + "grad_norm": 2.105725049972534, + "learning_rate": 1.9999963145075555e-05, + "loss": 0.919, + "step": 907 + }, + { + "epoch": 0.30266666666666664, + "grad_norm": 1.928966760635376, + "learning_rate": 1.9999951862964876e-05, + "loss": 0.8103, + "step": 908 + }, + { + "epoch": 0.303, + "grad_norm": 2.249715566635132, + "learning_rate": 1.9999939076577906e-05, + "loss": 0.7425, + "step": 909 + }, + { + "epoch": 0.30333333333333334, + "grad_norm": 2.5612077713012695, + "learning_rate": 1.9999924785916563e-05, + "loss": 0.8774, + "step": 910 + }, + { + "epoch": 0.30366666666666664, + "grad_norm": 2.2138590812683105, + "learning_rate": 1.9999908990982998e-05, + "loss": 0.7837, + "step": 911 + }, + { + "epoch": 0.304, + "grad_norm": 2.186096668243408, + "learning_rate": 1.999989169177959e-05, + "loss": 0.9078, + "step": 912 + }, + { + "epoch": 0.30433333333333334, + "grad_norm": 2.009336471557617, + "learning_rate": 1.9999872888308935e-05, + "loss": 0.8851, + "step": 913 + }, + { + "epoch": 0.30466666666666664, + "grad_norm": 1.8891050815582275, + "learning_rate": 1.9999852580573868e-05, + "loss": 0.8305, + "step": 914 + }, + { + "epoch": 0.305, + "grad_norm": 2.170924186706543, + "learning_rate": 1.9999830768577445e-05, + "loss": 0.8247, + "step": 915 + }, + { + "epoch": 0.30533333333333335, + "grad_norm": 1.9017391204833984, + "learning_rate": 1.999980745232294e-05, + "loss": 0.8836, + "step": 916 + }, + { + "epoch": 0.30566666666666664, + "grad_norm": 2.0349135398864746, + "learning_rate": 1.999978263181386e-05, + "loss": 0.8753, + "step": 917 + }, + { + "epoch": 0.306, + "grad_norm": 1.891861081123352, + "learning_rate": 1.9999756307053947e-05, + "loss": 0.8278, + "step": 918 + }, + { + "epoch": 0.30633333333333335, + "grad_norm": 2.130855083465576, + "learning_rate": 1.999972847804716e-05, + "loss": 0.7984, + "step": 919 + }, + { + "epoch": 0.30666666666666664, + "grad_norm": 2.1273233890533447, + "learning_rate": 1.999969914479768e-05, + "loss": 0.793, + "step": 920 + }, + { + "epoch": 0.307, + "grad_norm": 2.1361231803894043, + "learning_rate": 1.999966830730992e-05, + "loss": 0.8203, + "step": 921 + }, + { + "epoch": 0.30733333333333335, + "grad_norm": 2.5038576126098633, + "learning_rate": 1.9999635965588517e-05, + "loss": 0.785, + "step": 922 + }, + { + "epoch": 0.30766666666666664, + "grad_norm": 2.344775676727295, + "learning_rate": 1.9999602119638345e-05, + "loss": 0.7798, + "step": 923 + }, + { + "epoch": 0.308, + "grad_norm": 2.135897397994995, + "learning_rate": 1.9999566769464483e-05, + "loss": 0.8534, + "step": 924 + }, + { + "epoch": 0.30833333333333335, + "grad_norm": 2.1863787174224854, + "learning_rate": 1.999952991507226e-05, + "loss": 0.8165, + "step": 925 + }, + { + "epoch": 0.30866666666666664, + "grad_norm": 2.1612372398376465, + "learning_rate": 1.9999491556467218e-05, + "loss": 0.8162, + "step": 926 + }, + { + "epoch": 0.309, + "grad_norm": 2.028317928314209, + "learning_rate": 1.9999451693655125e-05, + "loss": 0.8193, + "step": 927 + }, + { + "epoch": 0.30933333333333335, + "grad_norm": 2.1359877586364746, + "learning_rate": 1.9999410326641974e-05, + "loss": 0.8666, + "step": 928 + }, + { + "epoch": 0.30966666666666665, + "grad_norm": 2.298197031021118, + "learning_rate": 1.999936745543399e-05, + "loss": 0.7914, + "step": 929 + }, + { + "epoch": 0.31, + "grad_norm": 1.9426814317703247, + "learning_rate": 1.9999323080037623e-05, + "loss": 0.7451, + "step": 930 + }, + { + "epoch": 0.31033333333333335, + "grad_norm": 2.250953435897827, + "learning_rate": 1.999927720045955e-05, + "loss": 0.836, + "step": 931 + }, + { + "epoch": 0.31066666666666665, + "grad_norm": 2.334116220474243, + "learning_rate": 1.999922981670667e-05, + "loss": 0.8225, + "step": 932 + }, + { + "epoch": 0.311, + "grad_norm": 2.435739755630493, + "learning_rate": 1.9999180928786113e-05, + "loss": 0.8732, + "step": 933 + }, + { + "epoch": 0.31133333333333335, + "grad_norm": 2.006897449493408, + "learning_rate": 1.999913053670523e-05, + "loss": 0.8334, + "step": 934 + }, + { + "epoch": 0.31166666666666665, + "grad_norm": 2.331430435180664, + "learning_rate": 1.9999078640471606e-05, + "loss": 0.8491, + "step": 935 + }, + { + "epoch": 0.312, + "grad_norm": 1.9961193799972534, + "learning_rate": 1.9999025240093045e-05, + "loss": 0.8058, + "step": 936 + }, + { + "epoch": 0.31233333333333335, + "grad_norm": 2.1032357215881348, + "learning_rate": 1.9998970335577578e-05, + "loss": 0.8441, + "step": 937 + }, + { + "epoch": 0.31266666666666665, + "grad_norm": 2.1000778675079346, + "learning_rate": 1.9998913926933465e-05, + "loss": 0.8135, + "step": 938 + }, + { + "epoch": 0.313, + "grad_norm": 1.9800561666488647, + "learning_rate": 1.9998856014169193e-05, + "loss": 0.8495, + "step": 939 + }, + { + "epoch": 0.31333333333333335, + "grad_norm": 2.00565242767334, + "learning_rate": 1.9998796597293477e-05, + "loss": 0.8451, + "step": 940 + }, + { + "epoch": 0.31366666666666665, + "grad_norm": 1.8657926321029663, + "learning_rate": 1.9998735676315247e-05, + "loss": 0.9015, + "step": 941 + }, + { + "epoch": 0.314, + "grad_norm": 2.1200785636901855, + "learning_rate": 1.9998673251243672e-05, + "loss": 0.7929, + "step": 942 + }, + { + "epoch": 0.31433333333333335, + "grad_norm": 2.1039364337921143, + "learning_rate": 1.9998609322088144e-05, + "loss": 0.8754, + "step": 943 + }, + { + "epoch": 0.31466666666666665, + "grad_norm": 2.2845101356506348, + "learning_rate": 1.9998543888858278e-05, + "loss": 0.8853, + "step": 944 + }, + { + "epoch": 0.315, + "grad_norm": 2.4081878662109375, + "learning_rate": 1.9998476951563914e-05, + "loss": 0.8309, + "step": 945 + }, + { + "epoch": 0.31533333333333335, + "grad_norm": 2.261096715927124, + "learning_rate": 1.9998408510215127e-05, + "loss": 0.8167, + "step": 946 + }, + { + "epoch": 0.31566666666666665, + "grad_norm": 2.2221009731292725, + "learning_rate": 1.9998338564822205e-05, + "loss": 0.7739, + "step": 947 + }, + { + "epoch": 0.316, + "grad_norm": 2.080281972885132, + "learning_rate": 1.999826711539568e-05, + "loss": 0.835, + "step": 948 + }, + { + "epoch": 0.31633333333333336, + "grad_norm": 2.189330816268921, + "learning_rate": 1.999819416194629e-05, + "loss": 0.8269, + "step": 949 + }, + { + "epoch": 0.31666666666666665, + "grad_norm": 2.2029945850372314, + "learning_rate": 1.9998119704485016e-05, + "loss": 0.8698, + "step": 950 + }, + { + "epoch": 0.317, + "grad_norm": 2.3207647800445557, + "learning_rate": 1.9998043743023056e-05, + "loss": 0.908, + "step": 951 + }, + { + "epoch": 0.31733333333333336, + "grad_norm": 1.9577239751815796, + "learning_rate": 1.9997966277571837e-05, + "loss": 0.7614, + "step": 952 + }, + { + "epoch": 0.31766666666666665, + "grad_norm": 2.179511308670044, + "learning_rate": 1.999788730814301e-05, + "loss": 0.7821, + "step": 953 + }, + { + "epoch": 0.318, + "grad_norm": 2.228524923324585, + "learning_rate": 1.9997806834748455e-05, + "loss": 0.8594, + "step": 954 + }, + { + "epoch": 0.31833333333333336, + "grad_norm": 2.2076575756073, + "learning_rate": 1.9997724857400284e-05, + "loss": 0.8323, + "step": 955 + }, + { + "epoch": 0.31866666666666665, + "grad_norm": 2.073796272277832, + "learning_rate": 1.9997641376110816e-05, + "loss": 0.8182, + "step": 956 + }, + { + "epoch": 0.319, + "grad_norm": 1.9754027128219604, + "learning_rate": 1.9997556390892623e-05, + "loss": 0.9051, + "step": 957 + }, + { + "epoch": 0.31933333333333336, + "grad_norm": 2.188063383102417, + "learning_rate": 1.999746990175848e-05, + "loss": 0.7229, + "step": 958 + }, + { + "epoch": 0.31966666666666665, + "grad_norm": 2.0097320079803467, + "learning_rate": 1.99973819087214e-05, + "loss": 0.8355, + "step": 959 + }, + { + "epoch": 0.32, + "grad_norm": 1.8830981254577637, + "learning_rate": 1.999729241179462e-05, + "loss": 0.7801, + "step": 960 + }, + { + "epoch": 0.32033333333333336, + "grad_norm": 1.873984932899475, + "learning_rate": 1.99972014109916e-05, + "loss": 0.7714, + "step": 961 + }, + { + "epoch": 0.32066666666666666, + "grad_norm": 2.2098886966705322, + "learning_rate": 1.9997108906326033e-05, + "loss": 0.8107, + "step": 962 + }, + { + "epoch": 0.321, + "grad_norm": 2.0375657081604004, + "learning_rate": 1.9997014897811834e-05, + "loss": 0.8136, + "step": 963 + }, + { + "epoch": 0.32133333333333336, + "grad_norm": 2.161545991897583, + "learning_rate": 1.999691938546314e-05, + "loss": 0.7259, + "step": 964 + }, + { + "epoch": 0.32166666666666666, + "grad_norm": 2.326659679412842, + "learning_rate": 1.9996822369294325e-05, + "loss": 0.8436, + "step": 965 + }, + { + "epoch": 0.322, + "grad_norm": 2.3017098903656006, + "learning_rate": 1.9996723849319978e-05, + "loss": 0.8403, + "step": 966 + }, + { + "epoch": 0.32233333333333336, + "grad_norm": 2.090585708618164, + "learning_rate": 1.9996623825554926e-05, + "loss": 0.778, + "step": 967 + }, + { + "epoch": 0.32266666666666666, + "grad_norm": 2.108825922012329, + "learning_rate": 1.9996522298014208e-05, + "loss": 0.8767, + "step": 968 + }, + { + "epoch": 0.323, + "grad_norm": 2.1965863704681396, + "learning_rate": 1.9996419266713097e-05, + "loss": 0.7862, + "step": 969 + }, + { + "epoch": 0.3233333333333333, + "grad_norm": 1.9985798597335815, + "learning_rate": 1.9996314731667096e-05, + "loss": 0.836, + "step": 970 + }, + { + "epoch": 0.32366666666666666, + "grad_norm": 2.2388288974761963, + "learning_rate": 1.999620869289193e-05, + "loss": 0.7961, + "step": 971 + }, + { + "epoch": 0.324, + "grad_norm": 2.0573344230651855, + "learning_rate": 1.9996101150403543e-05, + "loss": 0.775, + "step": 972 + }, + { + "epoch": 0.3243333333333333, + "grad_norm": 2.074561595916748, + "learning_rate": 1.9995992104218125e-05, + "loss": 0.8163, + "step": 973 + }, + { + "epoch": 0.32466666666666666, + "grad_norm": 2.1328125, + "learning_rate": 1.9995881554352067e-05, + "loss": 0.8249, + "step": 974 + }, + { + "epoch": 0.325, + "grad_norm": 2.131251811981201, + "learning_rate": 1.9995769500822007e-05, + "loss": 0.7936, + "step": 975 + }, + { + "epoch": 0.3253333333333333, + "grad_norm": 2.0918023586273193, + "learning_rate": 1.99956559436448e-05, + "loss": 0.7821, + "step": 976 + }, + { + "epoch": 0.32566666666666666, + "grad_norm": 2.117102861404419, + "learning_rate": 1.9995540882837523e-05, + "loss": 0.8062, + "step": 977 + }, + { + "epoch": 0.326, + "grad_norm": 2.229447364807129, + "learning_rate": 1.999542431841749e-05, + "loss": 0.7446, + "step": 978 + }, + { + "epoch": 0.3263333333333333, + "grad_norm": 2.3197314739227295, + "learning_rate": 1.9995306250402232e-05, + "loss": 0.8528, + "step": 979 + }, + { + "epoch": 0.32666666666666666, + "grad_norm": 2.2496230602264404, + "learning_rate": 1.9995186678809513e-05, + "loss": 0.8066, + "step": 980 + }, + { + "epoch": 0.327, + "grad_norm": 2.2758231163024902, + "learning_rate": 1.9995065603657317e-05, + "loss": 0.8592, + "step": 981 + }, + { + "epoch": 0.3273333333333333, + "grad_norm": 2.0636661052703857, + "learning_rate": 1.9994943024963858e-05, + "loss": 0.762, + "step": 982 + }, + { + "epoch": 0.32766666666666666, + "grad_norm": 1.983399748802185, + "learning_rate": 1.999481894274758e-05, + "loss": 0.8188, + "step": 983 + }, + { + "epoch": 0.328, + "grad_norm": 1.9809774160385132, + "learning_rate": 1.999469335702714e-05, + "loss": 0.8375, + "step": 984 + }, + { + "epoch": 0.3283333333333333, + "grad_norm": 1.790808916091919, + "learning_rate": 1.9994566267821437e-05, + "loss": 0.8146, + "step": 985 + }, + { + "epoch": 0.32866666666666666, + "grad_norm": 1.840437650680542, + "learning_rate": 1.9994437675149583e-05, + "loss": 0.8092, + "step": 986 + }, + { + "epoch": 0.329, + "grad_norm": 1.9502990245819092, + "learning_rate": 1.9994307579030925e-05, + "loss": 0.7623, + "step": 987 + }, + { + "epoch": 0.3293333333333333, + "grad_norm": 2.220668315887451, + "learning_rate": 1.999417597948503e-05, + "loss": 0.7645, + "step": 988 + }, + { + "epoch": 0.32966666666666666, + "grad_norm": 2.150221586227417, + "learning_rate": 1.9994042876531707e-05, + "loss": 0.8504, + "step": 989 + }, + { + "epoch": 0.33, + "grad_norm": 2.234956741333008, + "learning_rate": 1.999390827019096e-05, + "loss": 0.7417, + "step": 990 + }, + { + "epoch": 0.3303333333333333, + "grad_norm": 2.6746230125427246, + "learning_rate": 1.9993772160483048e-05, + "loss": 0.8001, + "step": 991 + }, + { + "epoch": 0.33066666666666666, + "grad_norm": 2.1081759929656982, + "learning_rate": 1.9993634547428443e-05, + "loss": 0.8208, + "step": 992 + }, + { + "epoch": 0.331, + "grad_norm": 2.306769609451294, + "learning_rate": 1.999349543104785e-05, + "loss": 0.797, + "step": 993 + }, + { + "epoch": 0.3313333333333333, + "grad_norm": 2.1099421977996826, + "learning_rate": 1.9993354811362193e-05, + "loss": 0.7854, + "step": 994 + }, + { + "epoch": 0.33166666666666667, + "grad_norm": 2.415703058242798, + "learning_rate": 1.9993212688392624e-05, + "loss": 0.812, + "step": 995 + }, + { + "epoch": 0.332, + "grad_norm": 2.148951768875122, + "learning_rate": 1.999306906216052e-05, + "loss": 0.8155, + "step": 996 + }, + { + "epoch": 0.3323333333333333, + "grad_norm": 1.9756739139556885, + "learning_rate": 1.9992923932687493e-05, + "loss": 0.78, + "step": 997 + }, + { + "epoch": 0.33266666666666667, + "grad_norm": 2.0927693843841553, + "learning_rate": 1.9992777299995373e-05, + "loss": 0.8099, + "step": 998 + }, + { + "epoch": 0.333, + "grad_norm": 2.054877758026123, + "learning_rate": 1.999262916410621e-05, + "loss": 0.7993, + "step": 999 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 2.0058798789978027, + "learning_rate": 1.9992479525042305e-05, + "loss": 0.7652, + "step": 1000 + }, + { + "epoch": 0.33366666666666667, + "grad_norm": 2.2188594341278076, + "learning_rate": 1.9992328382826147e-05, + "loss": 0.8722, + "step": 1001 + }, + { + "epoch": 0.334, + "grad_norm": 2.3724732398986816, + "learning_rate": 1.9992175737480487e-05, + "loss": 0.7762, + "step": 1002 + }, + { + "epoch": 0.3343333333333333, + "grad_norm": 2.6232869625091553, + "learning_rate": 1.9992021589028282e-05, + "loss": 0.7581, + "step": 1003 + }, + { + "epoch": 0.33466666666666667, + "grad_norm": 2.1158607006073, + "learning_rate": 1.999186593749272e-05, + "loss": 0.7782, + "step": 1004 + }, + { + "epoch": 0.335, + "grad_norm": 2.0887694358825684, + "learning_rate": 1.9991708782897214e-05, + "loss": 0.8164, + "step": 1005 + }, + { + "epoch": 0.3353333333333333, + "grad_norm": 2.3734004497528076, + "learning_rate": 1.999155012526541e-05, + "loss": 0.7321, + "step": 1006 + }, + { + "epoch": 0.33566666666666667, + "grad_norm": 2.1463403701782227, + "learning_rate": 1.9991389964621168e-05, + "loss": 0.8136, + "step": 1007 + }, + { + "epoch": 0.336, + "grad_norm": 2.232062339782715, + "learning_rate": 1.9991228300988586e-05, + "loss": 0.8154, + "step": 1008 + }, + { + "epoch": 0.3363333333333333, + "grad_norm": 2.028738260269165, + "learning_rate": 1.999106513439198e-05, + "loss": 0.8035, + "step": 1009 + }, + { + "epoch": 0.33666666666666667, + "grad_norm": 2.1344878673553467, + "learning_rate": 1.9990900464855895e-05, + "loss": 0.7643, + "step": 1010 + }, + { + "epoch": 0.337, + "grad_norm": 2.201620578765869, + "learning_rate": 1.9990734292405102e-05, + "loss": 0.7291, + "step": 1011 + }, + { + "epoch": 0.3373333333333333, + "grad_norm": 2.100900888442993, + "learning_rate": 1.9990566617064598e-05, + "loss": 0.784, + "step": 1012 + }, + { + "epoch": 0.33766666666666667, + "grad_norm": 2.60718035697937, + "learning_rate": 1.9990397438859607e-05, + "loss": 0.7495, + "step": 1013 + }, + { + "epoch": 0.338, + "grad_norm": 2.334930419921875, + "learning_rate": 1.9990226757815582e-05, + "loss": 0.7843, + "step": 1014 + }, + { + "epoch": 0.3383333333333333, + "grad_norm": 2.176051378250122, + "learning_rate": 1.999005457395819e-05, + "loss": 0.7223, + "step": 1015 + }, + { + "epoch": 0.33866666666666667, + "grad_norm": 2.170546293258667, + "learning_rate": 1.9989880887313337e-05, + "loss": 0.8231, + "step": 1016 + }, + { + "epoch": 0.339, + "grad_norm": 2.2634449005126953, + "learning_rate": 1.998970569790715e-05, + "loss": 0.8074, + "step": 1017 + }, + { + "epoch": 0.3393333333333333, + "grad_norm": 1.9887454509735107, + "learning_rate": 1.998952900576598e-05, + "loss": 0.804, + "step": 1018 + }, + { + "epoch": 0.3396666666666667, + "grad_norm": 1.8919144868850708, + "learning_rate": 1.998935081091641e-05, + "loss": 0.7733, + "step": 1019 + }, + { + "epoch": 0.34, + "grad_norm": 1.90397047996521, + "learning_rate": 1.998917111338525e-05, + "loss": 0.8443, + "step": 1020 + }, + { + "epoch": 0.3403333333333333, + "grad_norm": 1.7607390880584717, + "learning_rate": 1.9988989913199517e-05, + "loss": 0.7097, + "step": 1021 + }, + { + "epoch": 0.3406666666666667, + "grad_norm": 2.1817805767059326, + "learning_rate": 1.9988807210386484e-05, + "loss": 0.8351, + "step": 1022 + }, + { + "epoch": 0.341, + "grad_norm": 2.242281675338745, + "learning_rate": 1.9988623004973625e-05, + "loss": 0.8152, + "step": 1023 + }, + { + "epoch": 0.3413333333333333, + "grad_norm": 2.0592434406280518, + "learning_rate": 1.9988437296988655e-05, + "loss": 0.6767, + "step": 1024 + }, + { + "epoch": 0.3416666666666667, + "grad_norm": 2.2092816829681396, + "learning_rate": 1.9988250086459505e-05, + "loss": 0.7413, + "step": 1025 + }, + { + "epoch": 0.342, + "grad_norm": 2.0470402240753174, + "learning_rate": 1.9988061373414342e-05, + "loss": 0.7296, + "step": 1026 + }, + { + "epoch": 0.3423333333333333, + "grad_norm": 2.0579376220703125, + "learning_rate": 1.998787115788155e-05, + "loss": 0.7729, + "step": 1027 + }, + { + "epoch": 0.3426666666666667, + "grad_norm": 2.524709939956665, + "learning_rate": 1.9987679439889747e-05, + "loss": 0.7924, + "step": 1028 + }, + { + "epoch": 0.343, + "grad_norm": 2.1059510707855225, + "learning_rate": 1.9987486219467764e-05, + "loss": 0.7919, + "step": 1029 + }, + { + "epoch": 0.3433333333333333, + "grad_norm": 1.8495877981185913, + "learning_rate": 1.998729149664468e-05, + "loss": 0.7446, + "step": 1030 + }, + { + "epoch": 0.3436666666666667, + "grad_norm": 2.218773365020752, + "learning_rate": 1.9987095271449774e-05, + "loss": 0.7319, + "step": 1031 + }, + { + "epoch": 0.344, + "grad_norm": 1.9719382524490356, + "learning_rate": 1.998689754391257e-05, + "loss": 0.7585, + "step": 1032 + }, + { + "epoch": 0.3443333333333333, + "grad_norm": 1.9704018831253052, + "learning_rate": 1.9986698314062813e-05, + "loss": 0.7857, + "step": 1033 + }, + { + "epoch": 0.3446666666666667, + "grad_norm": 1.9411691427230835, + "learning_rate": 1.998649758193047e-05, + "loss": 0.7758, + "step": 1034 + }, + { + "epoch": 0.345, + "grad_norm": 1.9187613725662231, + "learning_rate": 1.9986295347545738e-05, + "loss": 0.6831, + "step": 1035 + }, + { + "epoch": 0.3453333333333333, + "grad_norm": 2.324803352355957, + "learning_rate": 1.998609161093904e-05, + "loss": 0.7535, + "step": 1036 + }, + { + "epoch": 0.3456666666666667, + "grad_norm": 2.4694790840148926, + "learning_rate": 1.9985886372141025e-05, + "loss": 0.8351, + "step": 1037 + }, + { + "epoch": 0.346, + "grad_norm": 2.1870453357696533, + "learning_rate": 1.998567963118256e-05, + "loss": 0.771, + "step": 1038 + }, + { + "epoch": 0.3463333333333333, + "grad_norm": 1.978257417678833, + "learning_rate": 1.998547138809475e-05, + "loss": 0.7825, + "step": 1039 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 2.2708704471588135, + "learning_rate": 1.9985261642908917e-05, + "loss": 0.7696, + "step": 1040 + }, + { + "epoch": 0.347, + "grad_norm": 2.236644744873047, + "learning_rate": 1.9985050395656617e-05, + "loss": 0.7817, + "step": 1041 + }, + { + "epoch": 0.3473333333333333, + "grad_norm": 1.8231257200241089, + "learning_rate": 1.9984837646369626e-05, + "loss": 0.7611, + "step": 1042 + }, + { + "epoch": 0.3476666666666667, + "grad_norm": 2.0309948921203613, + "learning_rate": 1.9984623395079946e-05, + "loss": 0.7831, + "step": 1043 + }, + { + "epoch": 0.348, + "grad_norm": 1.9954187870025635, + "learning_rate": 1.9984407641819812e-05, + "loss": 0.7411, + "step": 1044 + }, + { + "epoch": 0.34833333333333333, + "grad_norm": 1.771074891090393, + "learning_rate": 1.998419038662167e-05, + "loss": 0.7061, + "step": 1045 + }, + { + "epoch": 0.3486666666666667, + "grad_norm": 2.2099833488464355, + "learning_rate": 1.998397162951821e-05, + "loss": 0.8226, + "step": 1046 + }, + { + "epoch": 0.349, + "grad_norm": 2.0259883403778076, + "learning_rate": 1.9983751370542334e-05, + "loss": 0.7772, + "step": 1047 + }, + { + "epoch": 0.34933333333333333, + "grad_norm": 2.001450300216675, + "learning_rate": 1.9983529609727176e-05, + "loss": 0.7962, + "step": 1048 + }, + { + "epoch": 0.3496666666666667, + "grad_norm": 2.0527937412261963, + "learning_rate": 1.99833063471061e-05, + "loss": 0.7718, + "step": 1049 + }, + { + "epoch": 0.35, + "grad_norm": 2.0910353660583496, + "learning_rate": 1.9983081582712684e-05, + "loss": 0.7641, + "step": 1050 + }, + { + "epoch": 0.35033333333333333, + "grad_norm": 2.2143545150756836, + "learning_rate": 1.9982855316580744e-05, + "loss": 0.8068, + "step": 1051 + }, + { + "epoch": 0.3506666666666667, + "grad_norm": 2.3388025760650635, + "learning_rate": 1.9982627548744313e-05, + "loss": 0.7702, + "step": 1052 + }, + { + "epoch": 0.351, + "grad_norm": 1.9161192178726196, + "learning_rate": 1.9982398279237657e-05, + "loss": 0.8189, + "step": 1053 + }, + { + "epoch": 0.35133333333333333, + "grad_norm": 2.187574863433838, + "learning_rate": 1.998216750809526e-05, + "loss": 0.7582, + "step": 1054 + }, + { + "epoch": 0.3516666666666667, + "grad_norm": 2.1558139324188232, + "learning_rate": 1.998193523535184e-05, + "loss": 0.7456, + "step": 1055 + }, + { + "epoch": 0.352, + "grad_norm": 1.9562166929244995, + "learning_rate": 1.998170146104234e-05, + "loss": 0.8154, + "step": 1056 + }, + { + "epoch": 0.35233333333333333, + "grad_norm": 2.050490379333496, + "learning_rate": 1.9981466185201923e-05, + "loss": 0.7199, + "step": 1057 + }, + { + "epoch": 0.3526666666666667, + "grad_norm": 2.096595048904419, + "learning_rate": 1.9981229407865982e-05, + "loss": 0.7386, + "step": 1058 + }, + { + "epoch": 0.353, + "grad_norm": 2.09926176071167, + "learning_rate": 1.998099112907013e-05, + "loss": 0.8147, + "step": 1059 + }, + { + "epoch": 0.35333333333333333, + "grad_norm": 2.034252405166626, + "learning_rate": 1.998075134885022e-05, + "loss": 0.6942, + "step": 1060 + }, + { + "epoch": 0.3536666666666667, + "grad_norm": 1.7176086902618408, + "learning_rate": 1.9980510067242317e-05, + "loss": 0.72, + "step": 1061 + }, + { + "epoch": 0.354, + "grad_norm": 1.7372490167617798, + "learning_rate": 1.9980267284282718e-05, + "loss": 0.8154, + "step": 1062 + }, + { + "epoch": 0.35433333333333333, + "grad_norm": 1.8102383613586426, + "learning_rate": 1.9980023000007943e-05, + "loss": 0.7559, + "step": 1063 + }, + { + "epoch": 0.3546666666666667, + "grad_norm": 2.0881028175354004, + "learning_rate": 1.9979777214454738e-05, + "loss": 0.7071, + "step": 1064 + }, + { + "epoch": 0.355, + "grad_norm": 2.2700257301330566, + "learning_rate": 1.9979529927660076e-05, + "loss": 0.7542, + "step": 1065 + }, + { + "epoch": 0.35533333333333333, + "grad_norm": 2.053068161010742, + "learning_rate": 1.997928113966116e-05, + "loss": 0.7195, + "step": 1066 + }, + { + "epoch": 0.3556666666666667, + "grad_norm": 2.112031936645508, + "learning_rate": 1.997903085049541e-05, + "loss": 0.7444, + "step": 1067 + }, + { + "epoch": 0.356, + "grad_norm": 2.1540462970733643, + "learning_rate": 1.9978779060200483e-05, + "loss": 0.8328, + "step": 1068 + }, + { + "epoch": 0.35633333333333334, + "grad_norm": 2.4797580242156982, + "learning_rate": 1.997852576881425e-05, + "loss": 0.7796, + "step": 1069 + }, + { + "epoch": 0.3566666666666667, + "grad_norm": 2.203252077102661, + "learning_rate": 1.9978270976374813e-05, + "loss": 0.7793, + "step": 1070 + }, + { + "epoch": 0.357, + "grad_norm": 2.0250799655914307, + "learning_rate": 1.9978014682920503e-05, + "loss": 0.734, + "step": 1071 + }, + { + "epoch": 0.35733333333333334, + "grad_norm": 1.9329944849014282, + "learning_rate": 1.9977756888489874e-05, + "loss": 0.749, + "step": 1072 + }, + { + "epoch": 0.3576666666666667, + "grad_norm": 1.9890209436416626, + "learning_rate": 1.99774975931217e-05, + "loss": 0.8157, + "step": 1073 + }, + { + "epoch": 0.358, + "grad_norm": 1.9936943054199219, + "learning_rate": 1.997723679685499e-05, + "loss": 0.742, + "step": 1074 + }, + { + "epoch": 0.35833333333333334, + "grad_norm": 1.9577529430389404, + "learning_rate": 1.997697449972898e-05, + "loss": 0.7788, + "step": 1075 + }, + { + "epoch": 0.3586666666666667, + "grad_norm": 1.8452790975570679, + "learning_rate": 1.9976710701783116e-05, + "loss": 0.7074, + "step": 1076 + }, + { + "epoch": 0.359, + "grad_norm": 1.951536774635315, + "learning_rate": 1.9976445403057095e-05, + "loss": 0.7575, + "step": 1077 + }, + { + "epoch": 0.35933333333333334, + "grad_norm": 2.1195948123931885, + "learning_rate": 1.9976178603590813e-05, + "loss": 0.743, + "step": 1078 + }, + { + "epoch": 0.3596666666666667, + "grad_norm": 2.0647988319396973, + "learning_rate": 1.997591030342441e-05, + "loss": 0.7762, + "step": 1079 + }, + { + "epoch": 0.36, + "grad_norm": 2.1208059787750244, + "learning_rate": 1.9975640502598243e-05, + "loss": 0.7996, + "step": 1080 + }, + { + "epoch": 0.36033333333333334, + "grad_norm": 2.2952370643615723, + "learning_rate": 1.99753692011529e-05, + "loss": 0.7718, + "step": 1081 + }, + { + "epoch": 0.3606666666666667, + "grad_norm": 2.432772636413574, + "learning_rate": 1.9975096399129196e-05, + "loss": 0.7384, + "step": 1082 + }, + { + "epoch": 0.361, + "grad_norm": 2.3604331016540527, + "learning_rate": 1.9974822096568157e-05, + "loss": 0.7708, + "step": 1083 + }, + { + "epoch": 0.36133333333333334, + "grad_norm": 2.0644643306732178, + "learning_rate": 1.9974546293511057e-05, + "loss": 0.7299, + "step": 1084 + }, + { + "epoch": 0.3616666666666667, + "grad_norm": 2.029348850250244, + "learning_rate": 1.997426898999938e-05, + "loss": 0.7879, + "step": 1085 + }, + { + "epoch": 0.362, + "grad_norm": 2.2085654735565186, + "learning_rate": 1.9973990186074844e-05, + "loss": 0.7646, + "step": 1086 + }, + { + "epoch": 0.36233333333333334, + "grad_norm": 1.9988279342651367, + "learning_rate": 1.9973709881779383e-05, + "loss": 0.7345, + "step": 1087 + }, + { + "epoch": 0.3626666666666667, + "grad_norm": 1.8864048719406128, + "learning_rate": 1.9973428077155165e-05, + "loss": 0.8339, + "step": 1088 + }, + { + "epoch": 0.363, + "grad_norm": 2.1184134483337402, + "learning_rate": 1.997314477224458e-05, + "loss": 0.8122, + "step": 1089 + }, + { + "epoch": 0.36333333333333334, + "grad_norm": 2.1995043754577637, + "learning_rate": 1.9972859967090253e-05, + "loss": 0.7252, + "step": 1090 + }, + { + "epoch": 0.3636666666666667, + "grad_norm": 1.9110766649246216, + "learning_rate": 1.997257366173502e-05, + "loss": 0.7423, + "step": 1091 + }, + { + "epoch": 0.364, + "grad_norm": 1.942099690437317, + "learning_rate": 1.9972285856221944e-05, + "loss": 0.7494, + "step": 1092 + }, + { + "epoch": 0.36433333333333334, + "grad_norm": 2.2395896911621094, + "learning_rate": 1.9971996550594327e-05, + "loss": 0.7891, + "step": 1093 + }, + { + "epoch": 0.36466666666666664, + "grad_norm": 2.041685104370117, + "learning_rate": 1.997170574489569e-05, + "loss": 0.7674, + "step": 1094 + }, + { + "epoch": 0.365, + "grad_norm": 1.9223977327346802, + "learning_rate": 1.9971413439169777e-05, + "loss": 0.7537, + "step": 1095 + }, + { + "epoch": 0.36533333333333334, + "grad_norm": 1.7135380506515503, + "learning_rate": 1.9971119633460553e-05, + "loss": 0.7702, + "step": 1096 + }, + { + "epoch": 0.36566666666666664, + "grad_norm": 2.0507731437683105, + "learning_rate": 1.9970824327812224e-05, + "loss": 0.7739, + "step": 1097 + }, + { + "epoch": 0.366, + "grad_norm": 2.1883552074432373, + "learning_rate": 1.9970527522269204e-05, + "loss": 0.7422, + "step": 1098 + }, + { + "epoch": 0.36633333333333334, + "grad_norm": 2.2083661556243896, + "learning_rate": 1.9970229216876145e-05, + "loss": 0.8117, + "step": 1099 + }, + { + "epoch": 0.36666666666666664, + "grad_norm": 2.010261297225952, + "learning_rate": 1.996992941167792e-05, + "loss": 0.7744, + "step": 1100 + }, + { + "epoch": 0.367, + "grad_norm": 2.1298770904541016, + "learning_rate": 1.9969628106719632e-05, + "loss": 0.7352, + "step": 1101 + }, + { + "epoch": 0.36733333333333335, + "grad_norm": 2.0757699012756348, + "learning_rate": 1.99693253020466e-05, + "loss": 0.7947, + "step": 1102 + }, + { + "epoch": 0.36766666666666664, + "grad_norm": 2.0138981342315674, + "learning_rate": 1.9969020997704377e-05, + "loss": 0.7023, + "step": 1103 + }, + { + "epoch": 0.368, + "grad_norm": 2.163762092590332, + "learning_rate": 1.9968715193738738e-05, + "loss": 0.7045, + "step": 1104 + }, + { + "epoch": 0.36833333333333335, + "grad_norm": 2.559589385986328, + "learning_rate": 1.9968407890195686e-05, + "loss": 0.6994, + "step": 1105 + }, + { + "epoch": 0.36866666666666664, + "grad_norm": 1.9663361310958862, + "learning_rate": 1.9968099087121445e-05, + "loss": 0.7154, + "step": 1106 + }, + { + "epoch": 0.369, + "grad_norm": 2.087641716003418, + "learning_rate": 1.9967788784562474e-05, + "loss": 0.74, + "step": 1107 + }, + { + "epoch": 0.36933333333333335, + "grad_norm": 2.291304588317871, + "learning_rate": 1.9967476982565445e-05, + "loss": 0.7489, + "step": 1108 + }, + { + "epoch": 0.36966666666666664, + "grad_norm": 2.104841470718384, + "learning_rate": 1.9967163681177265e-05, + "loss": 0.6888, + "step": 1109 + }, + { + "epoch": 0.37, + "grad_norm": 1.9891563653945923, + "learning_rate": 1.996684888044506e-05, + "loss": 0.8035, + "step": 1110 + }, + { + "epoch": 0.37033333333333335, + "grad_norm": 1.9549232721328735, + "learning_rate": 1.996653258041619e-05, + "loss": 0.7443, + "step": 1111 + }, + { + "epoch": 0.37066666666666664, + "grad_norm": 1.8186441659927368, + "learning_rate": 1.9966214781138236e-05, + "loss": 0.7309, + "step": 1112 + }, + { + "epoch": 0.371, + "grad_norm": 2.2102487087249756, + "learning_rate": 1.9965895482659e-05, + "loss": 0.6902, + "step": 1113 + }, + { + "epoch": 0.37133333333333335, + "grad_norm": 1.83051598072052, + "learning_rate": 1.996557468502651e-05, + "loss": 0.7771, + "step": 1114 + }, + { + "epoch": 0.37166666666666665, + "grad_norm": 2.125549077987671, + "learning_rate": 1.9965252388289033e-05, + "loss": 0.8083, + "step": 1115 + }, + { + "epoch": 0.372, + "grad_norm": 1.7007070779800415, + "learning_rate": 1.9964928592495046e-05, + "loss": 0.7494, + "step": 1116 + }, + { + "epoch": 0.37233333333333335, + "grad_norm": 2.6298935413360596, + "learning_rate": 1.9964603297693253e-05, + "loss": 0.7973, + "step": 1117 + }, + { + "epoch": 0.37266666666666665, + "grad_norm": 2.1817800998687744, + "learning_rate": 1.9964276503932595e-05, + "loss": 0.6943, + "step": 1118 + }, + { + "epoch": 0.373, + "grad_norm": 1.959341049194336, + "learning_rate": 1.9963948211262233e-05, + "loss": 0.7271, + "step": 1119 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 1.9796826839447021, + "learning_rate": 1.996361841973154e-05, + "loss": 0.7542, + "step": 1120 + }, + { + "epoch": 0.37366666666666665, + "grad_norm": 1.83212411403656, + "learning_rate": 1.9963287129390134e-05, + "loss": 0.7338, + "step": 1121 + }, + { + "epoch": 0.374, + "grad_norm": 2.1045687198638916, + "learning_rate": 1.996295434028785e-05, + "loss": 0.7602, + "step": 1122 + }, + { + "epoch": 0.37433333333333335, + "grad_norm": 1.9285991191864014, + "learning_rate": 1.9962620052474747e-05, + "loss": 0.7316, + "step": 1123 + }, + { + "epoch": 0.37466666666666665, + "grad_norm": 2.102821111679077, + "learning_rate": 1.9962284266001112e-05, + "loss": 0.6962, + "step": 1124 + }, + { + "epoch": 0.375, + "grad_norm": 2.0659685134887695, + "learning_rate": 1.9961946980917457e-05, + "loss": 0.7248, + "step": 1125 + }, + { + "epoch": 0.37533333333333335, + "grad_norm": 2.022643804550171, + "learning_rate": 1.996160819727452e-05, + "loss": 0.7463, + "step": 1126 + }, + { + "epoch": 0.37566666666666665, + "grad_norm": 2.2478013038635254, + "learning_rate": 1.9961267915123264e-05, + "loss": 0.7758, + "step": 1127 + }, + { + "epoch": 0.376, + "grad_norm": 1.987743854522705, + "learning_rate": 1.9960926134514875e-05, + "loss": 0.7495, + "step": 1128 + }, + { + "epoch": 0.37633333333333335, + "grad_norm": 2.517491579055786, + "learning_rate": 1.9960582855500767e-05, + "loss": 0.7763, + "step": 1129 + }, + { + "epoch": 0.37666666666666665, + "grad_norm": 1.7973966598510742, + "learning_rate": 1.996023807813258e-05, + "loss": 0.6578, + "step": 1130 + }, + { + "epoch": 0.377, + "grad_norm": 1.8995182514190674, + "learning_rate": 1.995989180246218e-05, + "loss": 0.7514, + "step": 1131 + }, + { + "epoch": 0.37733333333333335, + "grad_norm": 2.0243937969207764, + "learning_rate": 1.995954402854165e-05, + "loss": 0.7657, + "step": 1132 + }, + { + "epoch": 0.37766666666666665, + "grad_norm": 1.9394001960754395, + "learning_rate": 1.9959194756423313e-05, + "loss": 0.7058, + "step": 1133 + }, + { + "epoch": 0.378, + "grad_norm": 2.1533093452453613, + "learning_rate": 1.9958843986159705e-05, + "loss": 0.7332, + "step": 1134 + }, + { + "epoch": 0.37833333333333335, + "grad_norm": 1.8818633556365967, + "learning_rate": 1.995849171780359e-05, + "loss": 0.7117, + "step": 1135 + }, + { + "epoch": 0.37866666666666665, + "grad_norm": 1.8808815479278564, + "learning_rate": 1.9958137951407968e-05, + "loss": 0.7397, + "step": 1136 + }, + { + "epoch": 0.379, + "grad_norm": 2.050955057144165, + "learning_rate": 1.9957782687026046e-05, + "loss": 0.692, + "step": 1137 + }, + { + "epoch": 0.37933333333333336, + "grad_norm": 2.078787326812744, + "learning_rate": 1.9957425924711267e-05, + "loss": 0.771, + "step": 1138 + }, + { + "epoch": 0.37966666666666665, + "grad_norm": 2.2408478260040283, + "learning_rate": 1.9957067664517305e-05, + "loss": 0.7353, + "step": 1139 + }, + { + "epoch": 0.38, + "grad_norm": 2.172652244567871, + "learning_rate": 1.9956707906498046e-05, + "loss": 0.653, + "step": 1140 + }, + { + "epoch": 0.38033333333333336, + "grad_norm": 2.0745012760162354, + "learning_rate": 1.9956346650707607e-05, + "loss": 0.7612, + "step": 1141 + }, + { + "epoch": 0.38066666666666665, + "grad_norm": 2.2520313262939453, + "learning_rate": 1.995598389720034e-05, + "loss": 0.8052, + "step": 1142 + }, + { + "epoch": 0.381, + "grad_norm": 2.211989402770996, + "learning_rate": 1.99556196460308e-05, + "loss": 0.8007, + "step": 1143 + }, + { + "epoch": 0.38133333333333336, + "grad_norm": 1.9017729759216309, + "learning_rate": 1.9955253897253795e-05, + "loss": 0.7529, + "step": 1144 + }, + { + "epoch": 0.38166666666666665, + "grad_norm": 1.8454606533050537, + "learning_rate": 1.995488665092433e-05, + "loss": 0.6897, + "step": 1145 + }, + { + "epoch": 0.382, + "grad_norm": 1.9648830890655518, + "learning_rate": 1.9954517907097663e-05, + "loss": 0.731, + "step": 1146 + }, + { + "epoch": 0.38233333333333336, + "grad_norm": 1.8706629276275635, + "learning_rate": 1.995414766582925e-05, + "loss": 0.7601, + "step": 1147 + }, + { + "epoch": 0.38266666666666665, + "grad_norm": 1.8314001560211182, + "learning_rate": 1.9953775927174797e-05, + "loss": 0.7758, + "step": 1148 + }, + { + "epoch": 0.383, + "grad_norm": 2.039987564086914, + "learning_rate": 1.9953402691190218e-05, + "loss": 0.7357, + "step": 1149 + }, + { + "epoch": 0.38333333333333336, + "grad_norm": 1.7851135730743408, + "learning_rate": 1.9953027957931658e-05, + "loss": 0.6747, + "step": 1150 + }, + { + "epoch": 0.38366666666666666, + "grad_norm": 2.0674593448638916, + "learning_rate": 1.9952651727455496e-05, + "loss": 0.7315, + "step": 1151 + }, + { + "epoch": 0.384, + "grad_norm": 1.9645249843597412, + "learning_rate": 1.9952273999818312e-05, + "loss": 0.7202, + "step": 1152 + }, + { + "epoch": 0.38433333333333336, + "grad_norm": 2.2878596782684326, + "learning_rate": 1.9951894775076944e-05, + "loss": 0.737, + "step": 1153 + }, + { + "epoch": 0.38466666666666666, + "grad_norm": 1.9502133131027222, + "learning_rate": 1.9951514053288427e-05, + "loss": 0.7504, + "step": 1154 + }, + { + "epoch": 0.385, + "grad_norm": 2.5149459838867188, + "learning_rate": 1.9951131834510034e-05, + "loss": 0.6556, + "step": 1155 + }, + { + "epoch": 0.38533333333333336, + "grad_norm": 1.8941422700881958, + "learning_rate": 1.9950748118799264e-05, + "loss": 0.773, + "step": 1156 + }, + { + "epoch": 0.38566666666666666, + "grad_norm": 2.1689369678497314, + "learning_rate": 1.9950362906213836e-05, + "loss": 0.7983, + "step": 1157 + }, + { + "epoch": 0.386, + "grad_norm": 1.9059181213378906, + "learning_rate": 1.99499761968117e-05, + "loss": 0.7075, + "step": 1158 + }, + { + "epoch": 0.3863333333333333, + "grad_norm": 2.588683605194092, + "learning_rate": 1.9949587990651026e-05, + "loss": 0.6815, + "step": 1159 + }, + { + "epoch": 0.38666666666666666, + "grad_norm": 2.259831190109253, + "learning_rate": 1.9949198287790215e-05, + "loss": 0.7116, + "step": 1160 + }, + { + "epoch": 0.387, + "grad_norm": 2.0930469036102295, + "learning_rate": 1.9948807088287884e-05, + "loss": 0.7608, + "step": 1161 + }, + { + "epoch": 0.3873333333333333, + "grad_norm": 2.3667359352111816, + "learning_rate": 1.9948414392202884e-05, + "loss": 0.8233, + "step": 1162 + }, + { + "epoch": 0.38766666666666666, + "grad_norm": 2.0677759647369385, + "learning_rate": 1.9948020199594285e-05, + "loss": 0.7339, + "step": 1163 + }, + { + "epoch": 0.388, + "grad_norm": 1.8860137462615967, + "learning_rate": 1.9947624510521385e-05, + "loss": 0.7264, + "step": 1164 + }, + { + "epoch": 0.3883333333333333, + "grad_norm": 1.7774126529693604, + "learning_rate": 1.994722732504371e-05, + "loss": 0.7241, + "step": 1165 + }, + { + "epoch": 0.38866666666666666, + "grad_norm": 1.9420359134674072, + "learning_rate": 1.9946828643221004e-05, + "loss": 0.7517, + "step": 1166 + }, + { + "epoch": 0.389, + "grad_norm": 2.48769474029541, + "learning_rate": 1.9946428465113244e-05, + "loss": 0.7261, + "step": 1167 + }, + { + "epoch": 0.3893333333333333, + "grad_norm": 1.966310977935791, + "learning_rate": 1.9946026790780628e-05, + "loss": 0.7332, + "step": 1168 + }, + { + "epoch": 0.38966666666666666, + "grad_norm": 1.7786916494369507, + "learning_rate": 1.9945623620283573e-05, + "loss": 0.6643, + "step": 1169 + }, + { + "epoch": 0.39, + "grad_norm": 1.8784512281417847, + "learning_rate": 1.9945218953682736e-05, + "loss": 0.7113, + "step": 1170 + }, + { + "epoch": 0.3903333333333333, + "grad_norm": 2.149937391281128, + "learning_rate": 1.9944812791038983e-05, + "loss": 0.6893, + "step": 1171 + }, + { + "epoch": 0.39066666666666666, + "grad_norm": 2.449223756790161, + "learning_rate": 1.9944405132413417e-05, + "loss": 0.6448, + "step": 1172 + }, + { + "epoch": 0.391, + "grad_norm": 2.1093342304229736, + "learning_rate": 1.9943995977867358e-05, + "loss": 0.7128, + "step": 1173 + }, + { + "epoch": 0.3913333333333333, + "grad_norm": 2.052586793899536, + "learning_rate": 1.9943585327462357e-05, + "loss": 0.6845, + "step": 1174 + }, + { + "epoch": 0.39166666666666666, + "grad_norm": 2.330230951309204, + "learning_rate": 1.9943173181260187e-05, + "loss": 0.7535, + "step": 1175 + }, + { + "epoch": 0.392, + "grad_norm": 2.0804014205932617, + "learning_rate": 1.9942759539322845e-05, + "loss": 0.7695, + "step": 1176 + }, + { + "epoch": 0.3923333333333333, + "grad_norm": 1.7974039316177368, + "learning_rate": 1.9942344401712556e-05, + "loss": 0.7306, + "step": 1177 + }, + { + "epoch": 0.39266666666666666, + "grad_norm": 2.0389997959136963, + "learning_rate": 1.994192776849177e-05, + "loss": 0.8014, + "step": 1178 + }, + { + "epoch": 0.393, + "grad_norm": 1.9889395236968994, + "learning_rate": 1.9941509639723155e-05, + "loss": 0.6625, + "step": 1179 + }, + { + "epoch": 0.3933333333333333, + "grad_norm": 2.0415425300598145, + "learning_rate": 1.9941090015469614e-05, + "loss": 0.6237, + "step": 1180 + }, + { + "epoch": 0.39366666666666666, + "grad_norm": 1.655003547668457, + "learning_rate": 1.9940668895794272e-05, + "loss": 0.7319, + "step": 1181 + }, + { + "epoch": 0.394, + "grad_norm": 1.8874716758728027, + "learning_rate": 1.9940246280760473e-05, + "loss": 0.7203, + "step": 1182 + }, + { + "epoch": 0.3943333333333333, + "grad_norm": 2.101186752319336, + "learning_rate": 1.993982217043179e-05, + "loss": 0.7649, + "step": 1183 + }, + { + "epoch": 0.39466666666666667, + "grad_norm": 2.103184223175049, + "learning_rate": 1.9939396564872025e-05, + "loss": 0.7443, + "step": 1184 + }, + { + "epoch": 0.395, + "grad_norm": 2.2395594120025635, + "learning_rate": 1.99389694641452e-05, + "loss": 0.7788, + "step": 1185 + }, + { + "epoch": 0.3953333333333333, + "grad_norm": 1.873664379119873, + "learning_rate": 1.9938540868315563e-05, + "loss": 0.717, + "step": 1186 + }, + { + "epoch": 0.39566666666666667, + "grad_norm": 1.9045002460479736, + "learning_rate": 1.9938110777447583e-05, + "loss": 0.6936, + "step": 1187 + }, + { + "epoch": 0.396, + "grad_norm": 1.941917061805725, + "learning_rate": 1.9937679191605964e-05, + "loss": 0.7166, + "step": 1188 + }, + { + "epoch": 0.3963333333333333, + "grad_norm": 1.6899709701538086, + "learning_rate": 1.9937246110855625e-05, + "loss": 0.6464, + "step": 1189 + }, + { + "epoch": 0.39666666666666667, + "grad_norm": 1.82481849193573, + "learning_rate": 1.9936811535261714e-05, + "loss": 0.6997, + "step": 1190 + }, + { + "epoch": 0.397, + "grad_norm": 1.927303671836853, + "learning_rate": 1.9936375464889608e-05, + "loss": 0.7111, + "step": 1191 + }, + { + "epoch": 0.3973333333333333, + "grad_norm": 1.9150807857513428, + "learning_rate": 1.9935937899804897e-05, + "loss": 0.7266, + "step": 1192 + }, + { + "epoch": 0.39766666666666667, + "grad_norm": 1.953295111656189, + "learning_rate": 1.9935498840073406e-05, + "loss": 0.7542, + "step": 1193 + }, + { + "epoch": 0.398, + "grad_norm": 2.085883140563965, + "learning_rate": 1.9935058285761185e-05, + "loss": 0.7123, + "step": 1194 + }, + { + "epoch": 0.3983333333333333, + "grad_norm": 2.0823276042938232, + "learning_rate": 1.9934616236934503e-05, + "loss": 0.7148, + "step": 1195 + }, + { + "epoch": 0.39866666666666667, + "grad_norm": 2.018998861312866, + "learning_rate": 1.9934172693659854e-05, + "loss": 0.7224, + "step": 1196 + }, + { + "epoch": 0.399, + "grad_norm": 1.930698275566101, + "learning_rate": 1.9933727656003964e-05, + "loss": 0.7328, + "step": 1197 + }, + { + "epoch": 0.3993333333333333, + "grad_norm": 2.42343807220459, + "learning_rate": 1.993328112403378e-05, + "loss": 0.7837, + "step": 1198 + }, + { + "epoch": 0.39966666666666667, + "grad_norm": 2.05281662940979, + "learning_rate": 1.993283309781647e-05, + "loss": 0.7056, + "step": 1199 + }, + { + "epoch": 0.4, + "grad_norm": 1.8378878831863403, + "learning_rate": 1.9932383577419432e-05, + "loss": 0.7373, + "step": 1200 + }, + { + "epoch": 0.4003333333333333, + "grad_norm": 1.774647831916809, + "learning_rate": 1.9931932562910282e-05, + "loss": 0.7756, + "step": 1201 + }, + { + "epoch": 0.40066666666666667, + "grad_norm": 2.0668885707855225, + "learning_rate": 1.9931480054356875e-05, + "loss": 0.7228, + "step": 1202 + }, + { + "epoch": 0.401, + "grad_norm": 2.1184213161468506, + "learning_rate": 1.993102605182727e-05, + "loss": 0.7675, + "step": 1203 + }, + { + "epoch": 0.4013333333333333, + "grad_norm": 1.6540908813476562, + "learning_rate": 1.9930570555389766e-05, + "loss": 0.7363, + "step": 1204 + }, + { + "epoch": 0.40166666666666667, + "grad_norm": 1.7443417310714722, + "learning_rate": 1.9930113565112887e-05, + "loss": 0.7171, + "step": 1205 + }, + { + "epoch": 0.402, + "grad_norm": 1.6970797777175903, + "learning_rate": 1.992965508106537e-05, + "loss": 0.6797, + "step": 1206 + }, + { + "epoch": 0.4023333333333333, + "grad_norm": 1.700598120689392, + "learning_rate": 1.9929195103316192e-05, + "loss": 0.6583, + "step": 1207 + }, + { + "epoch": 0.4026666666666667, + "grad_norm": 1.9905967712402344, + "learning_rate": 1.992873363193454e-05, + "loss": 0.6858, + "step": 1208 + }, + { + "epoch": 0.403, + "grad_norm": 2.287100076675415, + "learning_rate": 1.9928270666989835e-05, + "loss": 0.6839, + "step": 1209 + }, + { + "epoch": 0.4033333333333333, + "grad_norm": 2.1450607776641846, + "learning_rate": 1.9927806208551718e-05, + "loss": 0.7745, + "step": 1210 + }, + { + "epoch": 0.4036666666666667, + "grad_norm": 1.8856462240219116, + "learning_rate": 1.9927340256690063e-05, + "loss": 0.6769, + "step": 1211 + }, + { + "epoch": 0.404, + "grad_norm": 2.5233395099639893, + "learning_rate": 1.9926872811474952e-05, + "loss": 0.7024, + "step": 1212 + }, + { + "epoch": 0.4043333333333333, + "grad_norm": 2.5802385807037354, + "learning_rate": 1.992640387297671e-05, + "loss": 0.7509, + "step": 1213 + }, + { + "epoch": 0.4046666666666667, + "grad_norm": 2.1692276000976562, + "learning_rate": 1.992593344126588e-05, + "loss": 0.7174, + "step": 1214 + }, + { + "epoch": 0.405, + "grad_norm": 2.25870943069458, + "learning_rate": 1.9925461516413224e-05, + "loss": 0.7008, + "step": 1215 + }, + { + "epoch": 0.4053333333333333, + "grad_norm": 1.7548924684524536, + "learning_rate": 1.9924988098489732e-05, + "loss": 0.6265, + "step": 1216 + }, + { + "epoch": 0.4056666666666667, + "grad_norm": 2.06205153465271, + "learning_rate": 1.992451318756662e-05, + "loss": 0.6199, + "step": 1217 + }, + { + "epoch": 0.406, + "grad_norm": 1.7854952812194824, + "learning_rate": 1.992403678371533e-05, + "loss": 0.6903, + "step": 1218 + }, + { + "epoch": 0.4063333333333333, + "grad_norm": 1.8193011283874512, + "learning_rate": 1.9923558887007527e-05, + "loss": 0.7491, + "step": 1219 + }, + { + "epoch": 0.4066666666666667, + "grad_norm": 1.93204665184021, + "learning_rate": 1.99230794975151e-05, + "loss": 0.784, + "step": 1220 + }, + { + "epoch": 0.407, + "grad_norm": 1.5916528701782227, + "learning_rate": 1.9922598615310157e-05, + "loss": 0.681, + "step": 1221 + }, + { + "epoch": 0.4073333333333333, + "grad_norm": 2.088628053665161, + "learning_rate": 1.9922116240465045e-05, + "loss": 0.6597, + "step": 1222 + }, + { + "epoch": 0.4076666666666667, + "grad_norm": 1.8749408721923828, + "learning_rate": 1.9921632373052324e-05, + "loss": 0.74, + "step": 1223 + }, + { + "epoch": 0.408, + "grad_norm": 2.0280003547668457, + "learning_rate": 1.9921147013144782e-05, + "loss": 0.6934, + "step": 1224 + }, + { + "epoch": 0.4083333333333333, + "grad_norm": 2.007281541824341, + "learning_rate": 1.9920660160815423e-05, + "loss": 0.716, + "step": 1225 + }, + { + "epoch": 0.4086666666666667, + "grad_norm": 1.8300034999847412, + "learning_rate": 1.9920171816137495e-05, + "loss": 0.7465, + "step": 1226 + }, + { + "epoch": 0.409, + "grad_norm": 2.110079765319824, + "learning_rate": 1.9919681979184452e-05, + "loss": 0.7397, + "step": 1227 + }, + { + "epoch": 0.4093333333333333, + "grad_norm": 1.9315593242645264, + "learning_rate": 1.991919065002998e-05, + "loss": 0.7015, + "step": 1228 + }, + { + "epoch": 0.4096666666666667, + "grad_norm": 2.3437914848327637, + "learning_rate": 1.9918697828747994e-05, + "loss": 0.7099, + "step": 1229 + }, + { + "epoch": 0.41, + "grad_norm": 1.8759031295776367, + "learning_rate": 1.9918203515412616e-05, + "loss": 0.703, + "step": 1230 + }, + { + "epoch": 0.4103333333333333, + "grad_norm": 1.6759707927703857, + "learning_rate": 1.9917707710098223e-05, + "loss": 0.7271, + "step": 1231 + }, + { + "epoch": 0.4106666666666667, + "grad_norm": 1.7325053215026855, + "learning_rate": 1.9917210412879383e-05, + "loss": 0.6831, + "step": 1232 + }, + { + "epoch": 0.411, + "grad_norm": 1.7454150915145874, + "learning_rate": 1.9916711623830904e-05, + "loss": 0.7166, + "step": 1233 + }, + { + "epoch": 0.41133333333333333, + "grad_norm": 2.2876219749450684, + "learning_rate": 1.991621134302783e-05, + "loss": 0.6811, + "step": 1234 + }, + { + "epoch": 0.4116666666666667, + "grad_norm": 1.7761526107788086, + "learning_rate": 1.9915709570545406e-05, + "loss": 0.7149, + "step": 1235 + }, + { + "epoch": 0.412, + "grad_norm": 1.9442329406738281, + "learning_rate": 1.9915206306459117e-05, + "loss": 0.6916, + "step": 1236 + }, + { + "epoch": 0.41233333333333333, + "grad_norm": 1.9865808486938477, + "learning_rate": 1.9914701550844672e-05, + "loss": 0.6581, + "step": 1237 + }, + { + "epoch": 0.4126666666666667, + "grad_norm": 2.169468402862549, + "learning_rate": 1.991419530377799e-05, + "loss": 0.7476, + "step": 1238 + }, + { + "epoch": 0.413, + "grad_norm": 2.1339352130889893, + "learning_rate": 1.9913687565335237e-05, + "loss": 0.6941, + "step": 1239 + }, + { + "epoch": 0.41333333333333333, + "grad_norm": 2.033369302749634, + "learning_rate": 1.9913178335592784e-05, + "loss": 0.78, + "step": 1240 + }, + { + "epoch": 0.4136666666666667, + "grad_norm": 1.8962883949279785, + "learning_rate": 1.991266761462724e-05, + "loss": 0.6622, + "step": 1241 + }, + { + "epoch": 0.414, + "grad_norm": 2.0084176063537598, + "learning_rate": 1.991215540251542e-05, + "loss": 0.6987, + "step": 1242 + }, + { + "epoch": 0.41433333333333333, + "grad_norm": 2.0199663639068604, + "learning_rate": 1.9911641699334386e-05, + "loss": 0.7474, + "step": 1243 + }, + { + "epoch": 0.4146666666666667, + "grad_norm": 2.361563205718994, + "learning_rate": 1.9911126505161408e-05, + "loss": 0.7078, + "step": 1244 + }, + { + "epoch": 0.415, + "grad_norm": 2.136251926422119, + "learning_rate": 1.9910609820073986e-05, + "loss": 0.7051, + "step": 1245 + }, + { + "epoch": 0.41533333333333333, + "grad_norm": 2.2398927211761475, + "learning_rate": 1.991009164414985e-05, + "loss": 0.7262, + "step": 1246 + }, + { + "epoch": 0.4156666666666667, + "grad_norm": 2.0252857208251953, + "learning_rate": 1.9909571977466945e-05, + "loss": 0.7195, + "step": 1247 + }, + { + "epoch": 0.416, + "grad_norm": 1.9417016506195068, + "learning_rate": 1.990905082010344e-05, + "loss": 0.7063, + "step": 1248 + }, + { + "epoch": 0.41633333333333333, + "grad_norm": 2.792980432510376, + "learning_rate": 1.9908528172137736e-05, + "loss": 0.7203, + "step": 1249 + }, + { + "epoch": 0.4166666666666667, + "grad_norm": 1.945683240890503, + "learning_rate": 1.9908004033648452e-05, + "loss": 0.6754, + "step": 1250 + }, + { + "epoch": 0.417, + "grad_norm": 2.0928432941436768, + "learning_rate": 1.9907478404714438e-05, + "loss": 0.6753, + "step": 1251 + }, + { + "epoch": 0.41733333333333333, + "grad_norm": 2.2229537963867188, + "learning_rate": 1.9906951285414755e-05, + "loss": 0.6766, + "step": 1252 + }, + { + "epoch": 0.4176666666666667, + "grad_norm": 1.9517675638198853, + "learning_rate": 1.9906422675828706e-05, + "loss": 0.6453, + "step": 1253 + }, + { + "epoch": 0.418, + "grad_norm": 1.9047372341156006, + "learning_rate": 1.9905892576035798e-05, + "loss": 0.7111, + "step": 1254 + }, + { + "epoch": 0.41833333333333333, + "grad_norm": 1.9305862188339233, + "learning_rate": 1.9905360986115782e-05, + "loss": 0.6607, + "step": 1255 + }, + { + "epoch": 0.4186666666666667, + "grad_norm": 2.185830593109131, + "learning_rate": 1.9904827906148624e-05, + "loss": 0.7331, + "step": 1256 + }, + { + "epoch": 0.419, + "grad_norm": 2.0383315086364746, + "learning_rate": 1.9904293336214508e-05, + "loss": 0.7318, + "step": 1257 + }, + { + "epoch": 0.41933333333333334, + "grad_norm": 2.0283050537109375, + "learning_rate": 1.9903757276393857e-05, + "loss": 0.6794, + "step": 1258 + }, + { + "epoch": 0.4196666666666667, + "grad_norm": 1.9188566207885742, + "learning_rate": 1.9903219726767298e-05, + "loss": 0.7006, + "step": 1259 + }, + { + "epoch": 0.42, + "grad_norm": 1.836574673652649, + "learning_rate": 1.9902680687415704e-05, + "loss": 0.7104, + "step": 1260 + }, + { + "epoch": 0.42033333333333334, + "grad_norm": 1.9219493865966797, + "learning_rate": 1.990214015842016e-05, + "loss": 0.689, + "step": 1261 + }, + { + "epoch": 0.4206666666666667, + "grad_norm": 2.057803153991699, + "learning_rate": 1.9901598139861972e-05, + "loss": 0.6631, + "step": 1262 + }, + { + "epoch": 0.421, + "grad_norm": 1.9240660667419434, + "learning_rate": 1.990105463182268e-05, + "loss": 0.7041, + "step": 1263 + }, + { + "epoch": 0.42133333333333334, + "grad_norm": 2.0471842288970947, + "learning_rate": 1.990050963438404e-05, + "loss": 0.7345, + "step": 1264 + }, + { + "epoch": 0.4216666666666667, + "grad_norm": 2.079371929168701, + "learning_rate": 1.989996314762804e-05, + "loss": 0.6853, + "step": 1265 + }, + { + "epoch": 0.422, + "grad_norm": 2.544668436050415, + "learning_rate": 1.989941517163688e-05, + "loss": 0.7814, + "step": 1266 + }, + { + "epoch": 0.42233333333333334, + "grad_norm": 2.2860443592071533, + "learning_rate": 1.9898865706492994e-05, + "loss": 0.7609, + "step": 1267 + }, + { + "epoch": 0.4226666666666667, + "grad_norm": 1.8472710847854614, + "learning_rate": 1.9898314752279038e-05, + "loss": 0.6854, + "step": 1268 + }, + { + "epoch": 0.423, + "grad_norm": 1.8020704984664917, + "learning_rate": 1.989776230907789e-05, + "loss": 0.6793, + "step": 1269 + }, + { + "epoch": 0.42333333333333334, + "grad_norm": 2.0701444149017334, + "learning_rate": 1.9897208376972655e-05, + "loss": 0.6846, + "step": 1270 + }, + { + "epoch": 0.4236666666666667, + "grad_norm": 2.028020143508911, + "learning_rate": 1.989665295604666e-05, + "loss": 0.7073, + "step": 1271 + }, + { + "epoch": 0.424, + "grad_norm": 1.9126240015029907, + "learning_rate": 1.9896096046383456e-05, + "loss": 0.7034, + "step": 1272 + }, + { + "epoch": 0.42433333333333334, + "grad_norm": 1.9537107944488525, + "learning_rate": 1.9895537648066813e-05, + "loss": 0.7385, + "step": 1273 + }, + { + "epoch": 0.4246666666666667, + "grad_norm": 1.9060168266296387, + "learning_rate": 1.9894977761180736e-05, + "loss": 0.732, + "step": 1274 + }, + { + "epoch": 0.425, + "grad_norm": 2.057732582092285, + "learning_rate": 1.9894416385809444e-05, + "loss": 0.7146, + "step": 1275 + }, + { + "epoch": 0.42533333333333334, + "grad_norm": 1.8836514949798584, + "learning_rate": 1.989385352203739e-05, + "loss": 0.673, + "step": 1276 + }, + { + "epoch": 0.4256666666666667, + "grad_norm": 2.012988805770874, + "learning_rate": 1.9893289169949237e-05, + "loss": 0.6781, + "step": 1277 + }, + { + "epoch": 0.426, + "grad_norm": 2.0127482414245605, + "learning_rate": 1.9892723329629885e-05, + "loss": 0.7188, + "step": 1278 + }, + { + "epoch": 0.42633333333333334, + "grad_norm": 1.9665907621383667, + "learning_rate": 1.989215600116445e-05, + "loss": 0.6528, + "step": 1279 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 1.8513379096984863, + "learning_rate": 1.9891587184638274e-05, + "loss": 0.6111, + "step": 1280 + }, + { + "epoch": 0.427, + "grad_norm": 1.9928703308105469, + "learning_rate": 1.9891016880136923e-05, + "loss": 0.6802, + "step": 1281 + }, + { + "epoch": 0.42733333333333334, + "grad_norm": 2.0813562870025635, + "learning_rate": 1.9890445087746188e-05, + "loss": 0.7293, + "step": 1282 + }, + { + "epoch": 0.42766666666666664, + "grad_norm": 1.800457239151001, + "learning_rate": 1.9889871807552082e-05, + "loss": 0.6813, + "step": 1283 + }, + { + "epoch": 0.428, + "grad_norm": 1.8987205028533936, + "learning_rate": 1.988929703964084e-05, + "loss": 0.744, + "step": 1284 + }, + { + "epoch": 0.42833333333333334, + "grad_norm": 1.951493263244629, + "learning_rate": 1.988872078409893e-05, + "loss": 0.6323, + "step": 1285 + }, + { + "epoch": 0.42866666666666664, + "grad_norm": 1.921602725982666, + "learning_rate": 1.9888143041013035e-05, + "loss": 0.691, + "step": 1286 + }, + { + "epoch": 0.429, + "grad_norm": 1.727927327156067, + "learning_rate": 1.988756381047006e-05, + "loss": 0.6351, + "step": 1287 + }, + { + "epoch": 0.42933333333333334, + "grad_norm": 1.7842906713485718, + "learning_rate": 1.988698309255714e-05, + "loss": 0.7099, + "step": 1288 + }, + { + "epoch": 0.42966666666666664, + "grad_norm": 2.035982370376587, + "learning_rate": 1.9886400887361636e-05, + "loss": 0.7049, + "step": 1289 + }, + { + "epoch": 0.43, + "grad_norm": 1.8402166366577148, + "learning_rate": 1.9885817194971116e-05, + "loss": 0.7086, + "step": 1290 + }, + { + "epoch": 0.43033333333333335, + "grad_norm": 2.1052823066711426, + "learning_rate": 1.9885232015473396e-05, + "loss": 0.7287, + "step": 1291 + }, + { + "epoch": 0.43066666666666664, + "grad_norm": 1.8731765747070312, + "learning_rate": 1.9884645348956503e-05, + "loss": 0.7141, + "step": 1292 + }, + { + "epoch": 0.431, + "grad_norm": 2.16485333442688, + "learning_rate": 1.9884057195508683e-05, + "loss": 0.7211, + "step": 1293 + }, + { + "epoch": 0.43133333333333335, + "grad_norm": 1.9347325563430786, + "learning_rate": 1.9883467555218408e-05, + "loss": 0.696, + "step": 1294 + }, + { + "epoch": 0.43166666666666664, + "grad_norm": 1.7346014976501465, + "learning_rate": 1.9882876428174382e-05, + "loss": 0.7214, + "step": 1295 + }, + { + "epoch": 0.432, + "grad_norm": 2.1060562133789062, + "learning_rate": 1.988228381446553e-05, + "loss": 0.72, + "step": 1296 + }, + { + "epoch": 0.43233333333333335, + "grad_norm": 1.8218963146209717, + "learning_rate": 1.9881689714180993e-05, + "loss": 0.6642, + "step": 1297 + }, + { + "epoch": 0.43266666666666664, + "grad_norm": 2.0010130405426025, + "learning_rate": 1.9881094127410142e-05, + "loss": 0.7253, + "step": 1298 + }, + { + "epoch": 0.433, + "grad_norm": 1.6809444427490234, + "learning_rate": 1.9880497054242566e-05, + "loss": 0.6661, + "step": 1299 + }, + { + "epoch": 0.43333333333333335, + "grad_norm": 2.0670619010925293, + "learning_rate": 1.9879898494768093e-05, + "loss": 0.6568, + "step": 1300 + }, + { + "epoch": 0.43366666666666664, + "grad_norm": 2.077821969985962, + "learning_rate": 1.987929844907675e-05, + "loss": 0.7047, + "step": 1301 + }, + { + "epoch": 0.434, + "grad_norm": 2.045119285583496, + "learning_rate": 1.987869691725881e-05, + "loss": 0.6684, + "step": 1302 + }, + { + "epoch": 0.43433333333333335, + "grad_norm": 1.6849219799041748, + "learning_rate": 1.9878093899404757e-05, + "loss": 0.702, + "step": 1303 + }, + { + "epoch": 0.43466666666666665, + "grad_norm": 1.77828049659729, + "learning_rate": 1.9877489395605302e-05, + "loss": 0.7379, + "step": 1304 + }, + { + "epoch": 0.435, + "grad_norm": 1.860720157623291, + "learning_rate": 1.9876883405951378e-05, + "loss": 0.6722, + "step": 1305 + }, + { + "epoch": 0.43533333333333335, + "grad_norm": 1.8191590309143066, + "learning_rate": 1.987627593053415e-05, + "loss": 0.6814, + "step": 1306 + }, + { + "epoch": 0.43566666666666665, + "grad_norm": 2.08137583732605, + "learning_rate": 1.987566696944499e-05, + "loss": 0.675, + "step": 1307 + }, + { + "epoch": 0.436, + "grad_norm": 2.6699843406677246, + "learning_rate": 1.9875056522775506e-05, + "loss": 0.7518, + "step": 1308 + }, + { + "epoch": 0.43633333333333335, + "grad_norm": 2.0957603454589844, + "learning_rate": 1.9874444590617532e-05, + "loss": 0.6574, + "step": 1309 + }, + { + "epoch": 0.43666666666666665, + "grad_norm": 1.8697842359542847, + "learning_rate": 1.9873831173063113e-05, + "loss": 0.7318, + "step": 1310 + }, + { + "epoch": 0.437, + "grad_norm": 1.9547779560089111, + "learning_rate": 1.987321627020453e-05, + "loss": 0.7104, + "step": 1311 + }, + { + "epoch": 0.43733333333333335, + "grad_norm": 2.0397307872772217, + "learning_rate": 1.9872599882134275e-05, + "loss": 0.7688, + "step": 1312 + }, + { + "epoch": 0.43766666666666665, + "grad_norm": 2.0035712718963623, + "learning_rate": 1.9871982008945077e-05, + "loss": 0.6405, + "step": 1313 + }, + { + "epoch": 0.438, + "grad_norm": 1.7544715404510498, + "learning_rate": 1.987136265072988e-05, + "loss": 0.6277, + "step": 1314 + }, + { + "epoch": 0.43833333333333335, + "grad_norm": 1.873053789138794, + "learning_rate": 1.9870741807581854e-05, + "loss": 0.6464, + "step": 1315 + }, + { + "epoch": 0.43866666666666665, + "grad_norm": 1.927634358406067, + "learning_rate": 1.9870119479594385e-05, + "loss": 0.6615, + "step": 1316 + }, + { + "epoch": 0.439, + "grad_norm": 1.9625498056411743, + "learning_rate": 1.9869495666861094e-05, + "loss": 0.6505, + "step": 1317 + }, + { + "epoch": 0.43933333333333335, + "grad_norm": 2.30771803855896, + "learning_rate": 1.986887036947582e-05, + "loss": 0.6929, + "step": 1318 + }, + { + "epoch": 0.43966666666666665, + "grad_norm": 1.8885747194290161, + "learning_rate": 1.986824358753262e-05, + "loss": 0.6913, + "step": 1319 + }, + { + "epoch": 0.44, + "grad_norm": 2.0866029262542725, + "learning_rate": 1.9867615321125796e-05, + "loss": 0.7241, + "step": 1320 + }, + { + "epoch": 0.44033333333333335, + "grad_norm": 1.7907589673995972, + "learning_rate": 1.986698557034984e-05, + "loss": 0.7359, + "step": 1321 + }, + { + "epoch": 0.44066666666666665, + "grad_norm": 1.8179073333740234, + "learning_rate": 1.9866354335299484e-05, + "loss": 0.7019, + "step": 1322 + }, + { + "epoch": 0.441, + "grad_norm": 1.9824146032333374, + "learning_rate": 1.9865721616069695e-05, + "loss": 0.6948, + "step": 1323 + }, + { + "epoch": 0.44133333333333336, + "grad_norm": 1.8519065380096436, + "learning_rate": 1.9865087412755647e-05, + "loss": 0.7196, + "step": 1324 + }, + { + "epoch": 0.44166666666666665, + "grad_norm": 1.8704299926757812, + "learning_rate": 1.986445172545274e-05, + "loss": 0.7212, + "step": 1325 + }, + { + "epoch": 0.442, + "grad_norm": 1.8280761241912842, + "learning_rate": 1.98638145542566e-05, + "loss": 0.7288, + "step": 1326 + }, + { + "epoch": 0.44233333333333336, + "grad_norm": 2.020328998565674, + "learning_rate": 1.986317589926308e-05, + "loss": 0.7166, + "step": 1327 + }, + { + "epoch": 0.44266666666666665, + "grad_norm": 1.7782689332962036, + "learning_rate": 1.9862535760568248e-05, + "loss": 0.5532, + "step": 1328 + }, + { + "epoch": 0.443, + "grad_norm": 1.6900458335876465, + "learning_rate": 1.9861894138268402e-05, + "loss": 0.6498, + "step": 1329 + }, + { + "epoch": 0.44333333333333336, + "grad_norm": 2.2514488697052, + "learning_rate": 1.9861251032460053e-05, + "loss": 0.7473, + "step": 1330 + }, + { + "epoch": 0.44366666666666665, + "grad_norm": 1.9283860921859741, + "learning_rate": 1.9860606443239948e-05, + "loss": 0.6648, + "step": 1331 + }, + { + "epoch": 0.444, + "grad_norm": 1.940816044807434, + "learning_rate": 1.985996037070505e-05, + "loss": 0.6672, + "step": 1332 + }, + { + "epoch": 0.44433333333333336, + "grad_norm": 2.0648176670074463, + "learning_rate": 1.9859312814952548e-05, + "loss": 0.6958, + "step": 1333 + }, + { + "epoch": 0.44466666666666665, + "grad_norm": 1.8956643342971802, + "learning_rate": 1.9858663776079852e-05, + "loss": 0.7188, + "step": 1334 + }, + { + "epoch": 0.445, + "grad_norm": 2.061436653137207, + "learning_rate": 1.9858013254184597e-05, + "loss": 0.7358, + "step": 1335 + }, + { + "epoch": 0.44533333333333336, + "grad_norm": 1.8742183446884155, + "learning_rate": 1.985736124936464e-05, + "loss": 0.7007, + "step": 1336 + }, + { + "epoch": 0.44566666666666666, + "grad_norm": 2.259061574935913, + "learning_rate": 1.9856707761718056e-05, + "loss": 0.6884, + "step": 1337 + }, + { + "epoch": 0.446, + "grad_norm": 1.8501935005187988, + "learning_rate": 1.9856052791343153e-05, + "loss": 0.6966, + "step": 1338 + }, + { + "epoch": 0.44633333333333336, + "grad_norm": 1.9011667966842651, + "learning_rate": 1.9855396338338456e-05, + "loss": 0.7179, + "step": 1339 + }, + { + "epoch": 0.44666666666666666, + "grad_norm": 2.12760853767395, + "learning_rate": 1.9854738402802715e-05, + "loss": 0.7283, + "step": 1340 + }, + { + "epoch": 0.447, + "grad_norm": 1.901779055595398, + "learning_rate": 1.9854078984834904e-05, + "loss": 0.6705, + "step": 1341 + }, + { + "epoch": 0.44733333333333336, + "grad_norm": 1.7720332145690918, + "learning_rate": 1.985341808453421e-05, + "loss": 0.6402, + "step": 1342 + }, + { + "epoch": 0.44766666666666666, + "grad_norm": 1.7954223155975342, + "learning_rate": 1.985275570200006e-05, + "loss": 0.5853, + "step": 1343 + }, + { + "epoch": 0.448, + "grad_norm": 1.6979925632476807, + "learning_rate": 1.985209183733209e-05, + "loss": 0.6772, + "step": 1344 + }, + { + "epoch": 0.4483333333333333, + "grad_norm": 1.921673059463501, + "learning_rate": 1.9851426490630166e-05, + "loss": 0.6342, + "step": 1345 + }, + { + "epoch": 0.44866666666666666, + "grad_norm": 1.811184287071228, + "learning_rate": 1.9850759661994376e-05, + "loss": 0.6222, + "step": 1346 + }, + { + "epoch": 0.449, + "grad_norm": 2.195169448852539, + "learning_rate": 1.985009135152503e-05, + "loss": 0.7198, + "step": 1347 + }, + { + "epoch": 0.4493333333333333, + "grad_norm": 1.9610707759857178, + "learning_rate": 1.9849421559322656e-05, + "loss": 0.7102, + "step": 1348 + }, + { + "epoch": 0.44966666666666666, + "grad_norm": 1.8301148414611816, + "learning_rate": 1.9848750285488015e-05, + "loss": 0.6671, + "step": 1349 + }, + { + "epoch": 0.45, + "grad_norm": 1.9881455898284912, + "learning_rate": 1.9848077530122083e-05, + "loss": 0.6394, + "step": 1350 + }, + { + "epoch": 0.4503333333333333, + "grad_norm": 1.930935025215149, + "learning_rate": 1.9847403293326064e-05, + "loss": 0.6154, + "step": 1351 + }, + { + "epoch": 0.45066666666666666, + "grad_norm": 2.0322458744049072, + "learning_rate": 1.9846727575201377e-05, + "loss": 0.6987, + "step": 1352 + }, + { + "epoch": 0.451, + "grad_norm": 2.011270046234131, + "learning_rate": 1.9846050375849674e-05, + "loss": 0.6832, + "step": 1353 + }, + { + "epoch": 0.4513333333333333, + "grad_norm": 1.9188754558563232, + "learning_rate": 1.9845371695372825e-05, + "loss": 0.6831, + "step": 1354 + }, + { + "epoch": 0.45166666666666666, + "grad_norm": 2.213665246963501, + "learning_rate": 1.9844691533872925e-05, + "loss": 0.621, + "step": 1355 + }, + { + "epoch": 0.452, + "grad_norm": 2.0813636779785156, + "learning_rate": 1.984400989145228e-05, + "loss": 0.6934, + "step": 1356 + }, + { + "epoch": 0.4523333333333333, + "grad_norm": 1.9071600437164307, + "learning_rate": 1.984332676821344e-05, + "loss": 0.6422, + "step": 1357 + }, + { + "epoch": 0.45266666666666666, + "grad_norm": 2.036325454711914, + "learning_rate": 1.9842642164259157e-05, + "loss": 0.6687, + "step": 1358 + }, + { + "epoch": 0.453, + "grad_norm": 2.51990008354187, + "learning_rate": 1.984195607969242e-05, + "loss": 0.6777, + "step": 1359 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 2.158775806427002, + "learning_rate": 1.9841268514616434e-05, + "loss": 0.6396, + "step": 1360 + }, + { + "epoch": 0.45366666666666666, + "grad_norm": 1.68404221534729, + "learning_rate": 1.984057946913463e-05, + "loss": 0.5982, + "step": 1361 + }, + { + "epoch": 0.454, + "grad_norm": 1.6828266382217407, + "learning_rate": 1.9839888943350656e-05, + "loss": 0.7057, + "step": 1362 + }, + { + "epoch": 0.4543333333333333, + "grad_norm": 1.9923990964889526, + "learning_rate": 1.983919693736839e-05, + "loss": 0.6362, + "step": 1363 + }, + { + "epoch": 0.45466666666666666, + "grad_norm": 1.7965962886810303, + "learning_rate": 1.983850345129193e-05, + "loss": 0.6871, + "step": 1364 + }, + { + "epoch": 0.455, + "grad_norm": 1.9899039268493652, + "learning_rate": 1.983780848522559e-05, + "loss": 0.6551, + "step": 1365 + }, + { + "epoch": 0.4553333333333333, + "grad_norm": 1.6898752450942993, + "learning_rate": 1.983711203927392e-05, + "loss": 0.6322, + "step": 1366 + }, + { + "epoch": 0.45566666666666666, + "grad_norm": 1.826444149017334, + "learning_rate": 1.983641411354168e-05, + "loss": 0.7158, + "step": 1367 + }, + { + "epoch": 0.456, + "grad_norm": 1.785752296447754, + "learning_rate": 1.983571470813386e-05, + "loss": 0.6319, + "step": 1368 + }, + { + "epoch": 0.4563333333333333, + "grad_norm": 2.1016714572906494, + "learning_rate": 1.9835013823155672e-05, + "loss": 0.7206, + "step": 1369 + }, + { + "epoch": 0.45666666666666667, + "grad_norm": 1.9653794765472412, + "learning_rate": 1.9834311458712547e-05, + "loss": 0.6707, + "step": 1370 + }, + { + "epoch": 0.457, + "grad_norm": 2.090902090072632, + "learning_rate": 1.983360761491014e-05, + "loss": 0.6817, + "step": 1371 + }, + { + "epoch": 0.4573333333333333, + "grad_norm": 1.7958921194076538, + "learning_rate": 1.983290229185433e-05, + "loss": 0.6614, + "step": 1372 + }, + { + "epoch": 0.45766666666666667, + "grad_norm": 1.8548550605773926, + "learning_rate": 1.983219548965122e-05, + "loss": 0.6687, + "step": 1373 + }, + { + "epoch": 0.458, + "grad_norm": 2.166870355606079, + "learning_rate": 1.9831487208407126e-05, + "loss": 0.7071, + "step": 1374 + }, + { + "epoch": 0.4583333333333333, + "grad_norm": 1.8956162929534912, + "learning_rate": 1.9830777448228603e-05, + "loss": 0.6668, + "step": 1375 + }, + { + "epoch": 0.45866666666666667, + "grad_norm": 1.8870850801467896, + "learning_rate": 1.983006620922241e-05, + "loss": 0.7178, + "step": 1376 + }, + { + "epoch": 0.459, + "grad_norm": 1.8531335592269897, + "learning_rate": 1.9829353491495545e-05, + "loss": 0.7143, + "step": 1377 + }, + { + "epoch": 0.4593333333333333, + "grad_norm": 2.1798031330108643, + "learning_rate": 1.9828639295155216e-05, + "loss": 0.6836, + "step": 1378 + }, + { + "epoch": 0.45966666666666667, + "grad_norm": 1.9403362274169922, + "learning_rate": 1.982792362030886e-05, + "loss": 0.7007, + "step": 1379 + }, + { + "epoch": 0.46, + "grad_norm": 1.8434151411056519, + "learning_rate": 1.9827206467064133e-05, + "loss": 0.7469, + "step": 1380 + }, + { + "epoch": 0.4603333333333333, + "grad_norm": 1.6915580034255981, + "learning_rate": 1.982648783552892e-05, + "loss": 0.7029, + "step": 1381 + }, + { + "epoch": 0.46066666666666667, + "grad_norm": 1.653196930885315, + "learning_rate": 1.982576772581132e-05, + "loss": 0.623, + "step": 1382 + }, + { + "epoch": 0.461, + "grad_norm": 1.7820712327957153, + "learning_rate": 1.9825046138019658e-05, + "loss": 0.6236, + "step": 1383 + }, + { + "epoch": 0.4613333333333333, + "grad_norm": 1.687036395072937, + "learning_rate": 1.9824323072262484e-05, + "loss": 0.6735, + "step": 1384 + }, + { + "epoch": 0.46166666666666667, + "grad_norm": 1.6067900657653809, + "learning_rate": 1.9823598528648562e-05, + "loss": 0.6738, + "step": 1385 + }, + { + "epoch": 0.462, + "grad_norm": 2.160862922668457, + "learning_rate": 1.982287250728689e-05, + "loss": 0.6526, + "step": 1386 + }, + { + "epoch": 0.4623333333333333, + "grad_norm": 2.1040396690368652, + "learning_rate": 1.9822145008286677e-05, + "loss": 0.663, + "step": 1387 + }, + { + "epoch": 0.46266666666666667, + "grad_norm": 1.9555909633636475, + "learning_rate": 1.9821416031757363e-05, + "loss": 0.6385, + "step": 1388 + }, + { + "epoch": 0.463, + "grad_norm": 2.245298147201538, + "learning_rate": 1.9820685577808604e-05, + "loss": 0.7028, + "step": 1389 + }, + { + "epoch": 0.4633333333333333, + "grad_norm": 2.3079652786254883, + "learning_rate": 1.9819953646550286e-05, + "loss": 0.6341, + "step": 1390 + }, + { + "epoch": 0.46366666666666667, + "grad_norm": 2.0223679542541504, + "learning_rate": 1.9819220238092508e-05, + "loss": 0.6913, + "step": 1391 + }, + { + "epoch": 0.464, + "grad_norm": 2.1179873943328857, + "learning_rate": 1.9818485352545595e-05, + "loss": 0.6899, + "step": 1392 + }, + { + "epoch": 0.4643333333333333, + "grad_norm": 1.9284541606903076, + "learning_rate": 1.9817748990020094e-05, + "loss": 0.6484, + "step": 1393 + }, + { + "epoch": 0.4646666666666667, + "grad_norm": 2.2100353240966797, + "learning_rate": 1.9817011150626778e-05, + "loss": 0.7159, + "step": 1394 + }, + { + "epoch": 0.465, + "grad_norm": 2.032525062561035, + "learning_rate": 1.9816271834476642e-05, + "loss": 0.6353, + "step": 1395 + }, + { + "epoch": 0.4653333333333333, + "grad_norm": 2.0000319480895996, + "learning_rate": 1.9815531041680894e-05, + "loss": 0.6552, + "step": 1396 + }, + { + "epoch": 0.4656666666666667, + "grad_norm": 1.7106472253799438, + "learning_rate": 1.9814788772350966e-05, + "loss": 0.691, + "step": 1397 + }, + { + "epoch": 0.466, + "grad_norm": 1.9210445880889893, + "learning_rate": 1.981404502659853e-05, + "loss": 0.6508, + "step": 1398 + }, + { + "epoch": 0.4663333333333333, + "grad_norm": 2.142388105392456, + "learning_rate": 1.9813299804535454e-05, + "loss": 0.6893, + "step": 1399 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 1.980303406715393, + "learning_rate": 1.9812553106273848e-05, + "loss": 0.6866, + "step": 1400 + }, + { + "epoch": 0.467, + "grad_norm": 1.7727348804473877, + "learning_rate": 1.981180493192603e-05, + "loss": 0.6608, + "step": 1401 + }, + { + "epoch": 0.4673333333333333, + "grad_norm": 1.7487273216247559, + "learning_rate": 1.9811055281604558e-05, + "loss": 0.6347, + "step": 1402 + }, + { + "epoch": 0.4676666666666667, + "grad_norm": 2.5802652835845947, + "learning_rate": 1.9810304155422187e-05, + "loss": 0.7291, + "step": 1403 + }, + { + "epoch": 0.468, + "grad_norm": 2.004179000854492, + "learning_rate": 1.9809551553491918e-05, + "loss": 0.6125, + "step": 1404 + }, + { + "epoch": 0.4683333333333333, + "grad_norm": 2.1982333660125732, + "learning_rate": 1.9808797475926957e-05, + "loss": 0.6933, + "step": 1405 + }, + { + "epoch": 0.4686666666666667, + "grad_norm": 2.3151862621307373, + "learning_rate": 1.9808041922840742e-05, + "loss": 0.7816, + "step": 1406 + }, + { + "epoch": 0.469, + "grad_norm": 2.0838046073913574, + "learning_rate": 1.980728489434693e-05, + "loss": 0.6901, + "step": 1407 + }, + { + "epoch": 0.4693333333333333, + "grad_norm": 1.8020168542861938, + "learning_rate": 1.9806526390559396e-05, + "loss": 0.6541, + "step": 1408 + }, + { + "epoch": 0.4696666666666667, + "grad_norm": 1.654340386390686, + "learning_rate": 1.980576641159224e-05, + "loss": 0.6789, + "step": 1409 + }, + { + "epoch": 0.47, + "grad_norm": 1.8114802837371826, + "learning_rate": 1.9805004957559795e-05, + "loss": 0.7194, + "step": 1410 + }, + { + "epoch": 0.4703333333333333, + "grad_norm": 1.9176132678985596, + "learning_rate": 1.9804242028576595e-05, + "loss": 0.6424, + "step": 1411 + }, + { + "epoch": 0.4706666666666667, + "grad_norm": 1.5743498802185059, + "learning_rate": 1.9803477624757405e-05, + "loss": 0.6493, + "step": 1412 + }, + { + "epoch": 0.471, + "grad_norm": 2.0517032146453857, + "learning_rate": 1.9802711746217222e-05, + "loss": 0.663, + "step": 1413 + }, + { + "epoch": 0.4713333333333333, + "grad_norm": 1.9398175477981567, + "learning_rate": 1.9801944393071248e-05, + "loss": 0.6418, + "step": 1414 + }, + { + "epoch": 0.4716666666666667, + "grad_norm": 1.8426593542099, + "learning_rate": 1.9801175565434914e-05, + "loss": 0.658, + "step": 1415 + }, + { + "epoch": 0.472, + "grad_norm": 1.8666881322860718, + "learning_rate": 1.980040526342388e-05, + "loss": 0.649, + "step": 1416 + }, + { + "epoch": 0.4723333333333333, + "grad_norm": 2.3491907119750977, + "learning_rate": 1.9799633487154018e-05, + "loss": 0.6917, + "step": 1417 + }, + { + "epoch": 0.4726666666666667, + "grad_norm": 1.909712791442871, + "learning_rate": 1.9798860236741424e-05, + "loss": 0.7318, + "step": 1418 + }, + { + "epoch": 0.473, + "grad_norm": 2.3456530570983887, + "learning_rate": 1.9798085512302418e-05, + "loss": 0.6892, + "step": 1419 + }, + { + "epoch": 0.47333333333333333, + "grad_norm": 2.186323881149292, + "learning_rate": 1.979730931395354e-05, + "loss": 0.6716, + "step": 1420 + }, + { + "epoch": 0.4736666666666667, + "grad_norm": 1.9680001735687256, + "learning_rate": 1.9796531641811552e-05, + "loss": 0.6474, + "step": 1421 + }, + { + "epoch": 0.474, + "grad_norm": 1.8744800090789795, + "learning_rate": 1.979575249599344e-05, + "loss": 0.5888, + "step": 1422 + }, + { + "epoch": 0.47433333333333333, + "grad_norm": 1.9113781452178955, + "learning_rate": 1.979497187661641e-05, + "loss": 0.6781, + "step": 1423 + }, + { + "epoch": 0.4746666666666667, + "grad_norm": 1.9801160097122192, + "learning_rate": 1.9794189783797883e-05, + "loss": 0.6683, + "step": 1424 + }, + { + "epoch": 0.475, + "grad_norm": 2.2956907749176025, + "learning_rate": 1.9793406217655516e-05, + "loss": 0.7018, + "step": 1425 + }, + { + "epoch": 0.47533333333333333, + "grad_norm": 2.322943687438965, + "learning_rate": 1.9792621178307176e-05, + "loss": 0.6629, + "step": 1426 + }, + { + "epoch": 0.4756666666666667, + "grad_norm": 1.8959424495697021, + "learning_rate": 1.9791834665870952e-05, + "loss": 0.7036, + "step": 1427 + }, + { + "epoch": 0.476, + "grad_norm": 1.8679189682006836, + "learning_rate": 1.979104668046516e-05, + "loss": 0.6789, + "step": 1428 + }, + { + "epoch": 0.47633333333333333, + "grad_norm": 1.9374725818634033, + "learning_rate": 1.979025722220834e-05, + "loss": 0.6905, + "step": 1429 + }, + { + "epoch": 0.4766666666666667, + "grad_norm": 2.015317916870117, + "learning_rate": 1.9789466291219246e-05, + "loss": 0.7372, + "step": 1430 + }, + { + "epoch": 0.477, + "grad_norm": 1.9160670042037964, + "learning_rate": 1.9788673887616852e-05, + "loss": 0.7065, + "step": 1431 + }, + { + "epoch": 0.47733333333333333, + "grad_norm": 1.5801256895065308, + "learning_rate": 1.9787880011520362e-05, + "loss": 0.6811, + "step": 1432 + }, + { + "epoch": 0.4776666666666667, + "grad_norm": 2.149095058441162, + "learning_rate": 1.9787084663049197e-05, + "loss": 0.6714, + "step": 1433 + }, + { + "epoch": 0.478, + "grad_norm": 1.976320505142212, + "learning_rate": 1.9786287842323002e-05, + "loss": 0.6631, + "step": 1434 + }, + { + "epoch": 0.47833333333333333, + "grad_norm": 1.79742431640625, + "learning_rate": 1.9785489549461635e-05, + "loss": 0.6393, + "step": 1435 + }, + { + "epoch": 0.4786666666666667, + "grad_norm": 1.9006325006484985, + "learning_rate": 1.9784689784585193e-05, + "loss": 0.6029, + "step": 1436 + }, + { + "epoch": 0.479, + "grad_norm": 1.6346909999847412, + "learning_rate": 1.978388854781397e-05, + "loss": 0.6016, + "step": 1437 + }, + { + "epoch": 0.47933333333333333, + "grad_norm": 2.100168228149414, + "learning_rate": 1.9783085839268504e-05, + "loss": 0.6195, + "step": 1438 + }, + { + "epoch": 0.4796666666666667, + "grad_norm": 2.111112117767334, + "learning_rate": 1.9782281659069543e-05, + "loss": 0.5731, + "step": 1439 + }, + { + "epoch": 0.48, + "grad_norm": 1.8996119499206543, + "learning_rate": 1.9781476007338058e-05, + "loss": 0.6576, + "step": 1440 + }, + { + "epoch": 0.48033333333333333, + "grad_norm": 1.852230429649353, + "learning_rate": 1.978066888419524e-05, + "loss": 0.6483, + "step": 1441 + }, + { + "epoch": 0.4806666666666667, + "grad_norm": 2.020627021789551, + "learning_rate": 1.9779860289762508e-05, + "loss": 0.6552, + "step": 1442 + }, + { + "epoch": 0.481, + "grad_norm": 2.031412363052368, + "learning_rate": 1.9779050224161494e-05, + "loss": 0.6561, + "step": 1443 + }, + { + "epoch": 0.48133333333333334, + "grad_norm": 2.32307767868042, + "learning_rate": 1.977823868751405e-05, + "loss": 0.6986, + "step": 1444 + }, + { + "epoch": 0.4816666666666667, + "grad_norm": 2.1759982109069824, + "learning_rate": 1.9777425679942264e-05, + "loss": 0.6348, + "step": 1445 + }, + { + "epoch": 0.482, + "grad_norm": 1.5488877296447754, + "learning_rate": 1.9776611201568434e-05, + "loss": 0.6327, + "step": 1446 + }, + { + "epoch": 0.48233333333333334, + "grad_norm": 1.6190524101257324, + "learning_rate": 1.9775795252515075e-05, + "loss": 0.6417, + "step": 1447 + }, + { + "epoch": 0.4826666666666667, + "grad_norm": 1.6427035331726074, + "learning_rate": 1.9774977832904926e-05, + "loss": 0.583, + "step": 1448 + }, + { + "epoch": 0.483, + "grad_norm": 1.9521344900131226, + "learning_rate": 1.9774158942860962e-05, + "loss": 0.6815, + "step": 1449 + }, + { + "epoch": 0.48333333333333334, + "grad_norm": 1.60467529296875, + "learning_rate": 1.9773338582506357e-05, + "loss": 0.5949, + "step": 1450 + }, + { + "epoch": 0.4836666666666667, + "grad_norm": 1.8124815225601196, + "learning_rate": 1.9772516751964522e-05, + "loss": 0.707, + "step": 1451 + }, + { + "epoch": 0.484, + "grad_norm": 1.9955579042434692, + "learning_rate": 1.977169345135908e-05, + "loss": 0.5951, + "step": 1452 + }, + { + "epoch": 0.48433333333333334, + "grad_norm": 1.7673020362854004, + "learning_rate": 1.977086868081388e-05, + "loss": 0.653, + "step": 1453 + }, + { + "epoch": 0.4846666666666667, + "grad_norm": 1.7958984375, + "learning_rate": 1.9770042440452996e-05, + "loss": 0.6573, + "step": 1454 + }, + { + "epoch": 0.485, + "grad_norm": 2.1916775703430176, + "learning_rate": 1.976921473040071e-05, + "loss": 0.7053, + "step": 1455 + }, + { + "epoch": 0.48533333333333334, + "grad_norm": 1.9179869890213013, + "learning_rate": 1.976838555078154e-05, + "loss": 0.6249, + "step": 1456 + }, + { + "epoch": 0.4856666666666667, + "grad_norm": 2.2775440216064453, + "learning_rate": 1.976755490172021e-05, + "loss": 0.6847, + "step": 1457 + }, + { + "epoch": 0.486, + "grad_norm": 1.780543565750122, + "learning_rate": 1.9766722783341682e-05, + "loss": 0.6349, + "step": 1458 + }, + { + "epoch": 0.48633333333333334, + "grad_norm": 1.8797558546066284, + "learning_rate": 1.9765889195771123e-05, + "loss": 0.626, + "step": 1459 + }, + { + "epoch": 0.4866666666666667, + "grad_norm": 2.1305768489837646, + "learning_rate": 1.976505413913393e-05, + "loss": 0.6737, + "step": 1460 + }, + { + "epoch": 0.487, + "grad_norm": 1.7141450643539429, + "learning_rate": 1.976421761355572e-05, + "loss": 0.6279, + "step": 1461 + }, + { + "epoch": 0.48733333333333334, + "grad_norm": 1.8672692775726318, + "learning_rate": 1.9763379619162335e-05, + "loss": 0.6278, + "step": 1462 + }, + { + "epoch": 0.4876666666666667, + "grad_norm": 2.2894818782806396, + "learning_rate": 1.976254015607983e-05, + "loss": 0.6852, + "step": 1463 + }, + { + "epoch": 0.488, + "grad_norm": 1.8951503038406372, + "learning_rate": 1.9761699224434476e-05, + "loss": 0.5891, + "step": 1464 + }, + { + "epoch": 0.48833333333333334, + "grad_norm": 2.0424888134002686, + "learning_rate": 1.9760856824352785e-05, + "loss": 0.6068, + "step": 1465 + }, + { + "epoch": 0.4886666666666667, + "grad_norm": 1.7554185390472412, + "learning_rate": 1.976001295596147e-05, + "loss": 0.5919, + "step": 1466 + }, + { + "epoch": 0.489, + "grad_norm": 2.1888723373413086, + "learning_rate": 1.9759167619387474e-05, + "loss": 0.631, + "step": 1467 + }, + { + "epoch": 0.48933333333333334, + "grad_norm": 1.9526376724243164, + "learning_rate": 1.9758320814757965e-05, + "loss": 0.688, + "step": 1468 + }, + { + "epoch": 0.48966666666666664, + "grad_norm": 1.9912841320037842, + "learning_rate": 1.975747254220032e-05, + "loss": 0.6224, + "step": 1469 + }, + { + "epoch": 0.49, + "grad_norm": 1.8170961141586304, + "learning_rate": 1.9756622801842144e-05, + "loss": 0.6245, + "step": 1470 + }, + { + "epoch": 0.49033333333333334, + "grad_norm": 1.5866855382919312, + "learning_rate": 1.9755771593811267e-05, + "loss": 0.6276, + "step": 1471 + }, + { + "epoch": 0.49066666666666664, + "grad_norm": 1.8722777366638184, + "learning_rate": 1.9754918918235728e-05, + "loss": 0.6348, + "step": 1472 + }, + { + "epoch": 0.491, + "grad_norm": 2.033801794052124, + "learning_rate": 1.9754064775243797e-05, + "loss": 0.6723, + "step": 1473 + }, + { + "epoch": 0.49133333333333334, + "grad_norm": 1.7681994438171387, + "learning_rate": 1.9753209164963963e-05, + "loss": 0.6485, + "step": 1474 + }, + { + "epoch": 0.49166666666666664, + "grad_norm": 1.7863802909851074, + "learning_rate": 1.9752352087524934e-05, + "loss": 0.6314, + "step": 1475 + }, + { + "epoch": 0.492, + "grad_norm": 1.962929129600525, + "learning_rate": 1.9751493543055634e-05, + "loss": 0.6481, + "step": 1476 + }, + { + "epoch": 0.49233333333333335, + "grad_norm": 2.151395320892334, + "learning_rate": 1.9750633531685217e-05, + "loss": 0.6528, + "step": 1477 + }, + { + "epoch": 0.49266666666666664, + "grad_norm": 1.9449567794799805, + "learning_rate": 1.9749772053543052e-05, + "loss": 0.6666, + "step": 1478 + }, + { + "epoch": 0.493, + "grad_norm": 1.8920751810073853, + "learning_rate": 1.9748909108758727e-05, + "loss": 0.6473, + "step": 1479 + }, + { + "epoch": 0.49333333333333335, + "grad_norm": 2.0353286266326904, + "learning_rate": 1.974804469746206e-05, + "loss": 0.6407, + "step": 1480 + }, + { + "epoch": 0.49366666666666664, + "grad_norm": 2.0410566329956055, + "learning_rate": 1.9747178819783073e-05, + "loss": 0.6383, + "step": 1481 + }, + { + "epoch": 0.494, + "grad_norm": 1.8987188339233398, + "learning_rate": 1.9746311475852028e-05, + "loss": 0.6425, + "step": 1482 + }, + { + "epoch": 0.49433333333333335, + "grad_norm": 1.6842052936553955, + "learning_rate": 1.9745442665799393e-05, + "loss": 0.6476, + "step": 1483 + }, + { + "epoch": 0.49466666666666664, + "grad_norm": 2.1094841957092285, + "learning_rate": 1.9744572389755862e-05, + "loss": 0.6735, + "step": 1484 + }, + { + "epoch": 0.495, + "grad_norm": 2.2882142066955566, + "learning_rate": 1.9743700647852356e-05, + "loss": 0.6461, + "step": 1485 + }, + { + "epoch": 0.49533333333333335, + "grad_norm": 1.911829948425293, + "learning_rate": 1.9742827440219998e-05, + "loss": 0.6398, + "step": 1486 + }, + { + "epoch": 0.49566666666666664, + "grad_norm": 1.6513973474502563, + "learning_rate": 1.974195276699015e-05, + "loss": 0.6406, + "step": 1487 + }, + { + "epoch": 0.496, + "grad_norm": 1.8832594156265259, + "learning_rate": 1.9741076628294387e-05, + "loss": 0.6524, + "step": 1488 + }, + { + "epoch": 0.49633333333333335, + "grad_norm": 1.7673801183700562, + "learning_rate": 1.9740199024264507e-05, + "loss": 0.6031, + "step": 1489 + }, + { + "epoch": 0.49666666666666665, + "grad_norm": 1.7620924711227417, + "learning_rate": 1.9739319955032522e-05, + "loss": 0.6973, + "step": 1490 + }, + { + "epoch": 0.497, + "grad_norm": 1.8439418077468872, + "learning_rate": 1.9738439420730674e-05, + "loss": 0.6464, + "step": 1491 + }, + { + "epoch": 0.49733333333333335, + "grad_norm": 1.908811092376709, + "learning_rate": 1.9737557421491416e-05, + "loss": 0.6358, + "step": 1492 + }, + { + "epoch": 0.49766666666666665, + "grad_norm": 1.6806470155715942, + "learning_rate": 1.9736673957447425e-05, + "loss": 0.661, + "step": 1493 + }, + { + "epoch": 0.498, + "grad_norm": 1.8169951438903809, + "learning_rate": 1.9735789028731603e-05, + "loss": 0.6263, + "step": 1494 + }, + { + "epoch": 0.49833333333333335, + "grad_norm": 1.9627268314361572, + "learning_rate": 1.973490263547707e-05, + "loss": 0.6322, + "step": 1495 + }, + { + "epoch": 0.49866666666666665, + "grad_norm": 1.7424577474594116, + "learning_rate": 1.9734014777817158e-05, + "loss": 0.6625, + "step": 1496 + }, + { + "epoch": 0.499, + "grad_norm": 1.6921533346176147, + "learning_rate": 1.973312545588543e-05, + "loss": 0.6767, + "step": 1497 + }, + { + "epoch": 0.49933333333333335, + "grad_norm": 2.0257160663604736, + "learning_rate": 1.9732234669815664e-05, + "loss": 0.6789, + "step": 1498 + }, + { + "epoch": 0.49966666666666665, + "grad_norm": 1.9959834814071655, + "learning_rate": 1.973134241974186e-05, + "loss": 0.6843, + "step": 1499 + }, + { + "epoch": 0.5, + "grad_norm": 1.8182226419448853, + "learning_rate": 1.973044870579824e-05, + "loss": 0.5881, + "step": 1500 + }, + { + "epoch": 0.5003333333333333, + "grad_norm": 1.7679436206817627, + "learning_rate": 1.9729553528119242e-05, + "loss": 0.638, + "step": 1501 + }, + { + "epoch": 0.5006666666666667, + "grad_norm": 1.907412052154541, + "learning_rate": 1.9728656886839524e-05, + "loss": 0.6322, + "step": 1502 + }, + { + "epoch": 0.501, + "grad_norm": 1.6640585660934448, + "learning_rate": 1.972775878209397e-05, + "loss": 0.6236, + "step": 1503 + }, + { + "epoch": 0.5013333333333333, + "grad_norm": 2.046766996383667, + "learning_rate": 1.9726859214017674e-05, + "loss": 0.7037, + "step": 1504 + }, + { + "epoch": 0.5016666666666667, + "grad_norm": 1.9726159572601318, + "learning_rate": 1.9725958182745965e-05, + "loss": 0.6485, + "step": 1505 + }, + { + "epoch": 0.502, + "grad_norm": 1.73647141456604, + "learning_rate": 1.9725055688414378e-05, + "loss": 0.5858, + "step": 1506 + }, + { + "epoch": 0.5023333333333333, + "grad_norm": 1.9070546627044678, + "learning_rate": 1.9724151731158677e-05, + "loss": 0.628, + "step": 1507 + }, + { + "epoch": 0.5026666666666667, + "grad_norm": 1.72099769115448, + "learning_rate": 1.972324631111484e-05, + "loss": 0.6337, + "step": 1508 + }, + { + "epoch": 0.503, + "grad_norm": 1.6319507360458374, + "learning_rate": 1.972233942841907e-05, + "loss": 0.6352, + "step": 1509 + }, + { + "epoch": 0.5033333333333333, + "grad_norm": 2.0640833377838135, + "learning_rate": 1.9721431083207786e-05, + "loss": 0.6022, + "step": 1510 + }, + { + "epoch": 0.5036666666666667, + "grad_norm": 1.812861442565918, + "learning_rate": 1.9720521275617632e-05, + "loss": 0.6183, + "step": 1511 + }, + { + "epoch": 0.504, + "grad_norm": 1.857408046722412, + "learning_rate": 1.9719610005785466e-05, + "loss": 0.6819, + "step": 1512 + }, + { + "epoch": 0.5043333333333333, + "grad_norm": 2.2589900493621826, + "learning_rate": 1.9718697273848367e-05, + "loss": 0.6272, + "step": 1513 + }, + { + "epoch": 0.5046666666666667, + "grad_norm": 1.5754019021987915, + "learning_rate": 1.971778307994364e-05, + "loss": 0.6399, + "step": 1514 + }, + { + "epoch": 0.505, + "grad_norm": 2.451218605041504, + "learning_rate": 1.9716867424208805e-05, + "loss": 0.658, + "step": 1515 + }, + { + "epoch": 0.5053333333333333, + "grad_norm": 2.1443521976470947, + "learning_rate": 1.97159503067816e-05, + "loss": 0.6805, + "step": 1516 + }, + { + "epoch": 0.5056666666666667, + "grad_norm": 2.227971076965332, + "learning_rate": 1.9715031727799987e-05, + "loss": 0.66, + "step": 1517 + }, + { + "epoch": 0.506, + "grad_norm": 1.928181767463684, + "learning_rate": 1.9714111687402146e-05, + "loss": 0.6348, + "step": 1518 + }, + { + "epoch": 0.5063333333333333, + "grad_norm": 1.7079014778137207, + "learning_rate": 1.9713190185726477e-05, + "loss": 0.6168, + "step": 1519 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 1.9198323488235474, + "learning_rate": 1.9712267222911605e-05, + "loss": 0.6275, + "step": 1520 + }, + { + "epoch": 0.507, + "grad_norm": 1.6489073038101196, + "learning_rate": 1.971134279909636e-05, + "loss": 0.6123, + "step": 1521 + }, + { + "epoch": 0.5073333333333333, + "grad_norm": 1.7635973691940308, + "learning_rate": 1.9710416914419813e-05, + "loss": 0.632, + "step": 1522 + }, + { + "epoch": 0.5076666666666667, + "grad_norm": 1.5478943586349487, + "learning_rate": 1.970948956902123e-05, + "loss": 0.6417, + "step": 1523 + }, + { + "epoch": 0.508, + "grad_norm": 2.3248884677886963, + "learning_rate": 1.970856076304012e-05, + "loss": 0.6955, + "step": 1524 + }, + { + "epoch": 0.5083333333333333, + "grad_norm": 1.8524372577667236, + "learning_rate": 1.9707630496616203e-05, + "loss": 0.6481, + "step": 1525 + }, + { + "epoch": 0.5086666666666667, + "grad_norm": 2.000960111618042, + "learning_rate": 1.9706698769889408e-05, + "loss": 0.6753, + "step": 1526 + }, + { + "epoch": 0.509, + "grad_norm": 2.0129053592681885, + "learning_rate": 1.97057655829999e-05, + "loss": 0.5647, + "step": 1527 + }, + { + "epoch": 0.5093333333333333, + "grad_norm": 1.852281928062439, + "learning_rate": 1.9704830936088054e-05, + "loss": 0.6364, + "step": 1528 + }, + { + "epoch": 0.5096666666666667, + "grad_norm": 1.9210920333862305, + "learning_rate": 1.970389482929447e-05, + "loss": 0.6505, + "step": 1529 + }, + { + "epoch": 0.51, + "grad_norm": 2.0947864055633545, + "learning_rate": 1.9702957262759964e-05, + "loss": 0.7073, + "step": 1530 + }, + { + "epoch": 0.5103333333333333, + "grad_norm": 1.7672374248504639, + "learning_rate": 1.9702018236625574e-05, + "loss": 0.6509, + "step": 1531 + }, + { + "epoch": 0.5106666666666667, + "grad_norm": 1.8520594835281372, + "learning_rate": 1.9701077751032554e-05, + "loss": 0.6739, + "step": 1532 + }, + { + "epoch": 0.511, + "grad_norm": 1.7320317029953003, + "learning_rate": 1.9700135806122378e-05, + "loss": 0.6926, + "step": 1533 + }, + { + "epoch": 0.5113333333333333, + "grad_norm": 2.039808750152588, + "learning_rate": 1.9699192402036746e-05, + "loss": 0.6667, + "step": 1534 + }, + { + "epoch": 0.5116666666666667, + "grad_norm": 1.7506831884384155, + "learning_rate": 1.9698247538917566e-05, + "loss": 0.6361, + "step": 1535 + }, + { + "epoch": 0.512, + "grad_norm": 2.2109367847442627, + "learning_rate": 1.969730121690698e-05, + "loss": 0.5535, + "step": 1536 + }, + { + "epoch": 0.5123333333333333, + "grad_norm": 1.9266458749771118, + "learning_rate": 1.9696353436147336e-05, + "loss": 0.6478, + "step": 1537 + }, + { + "epoch": 0.5126666666666667, + "grad_norm": 1.6849522590637207, + "learning_rate": 1.9695404196781206e-05, + "loss": 0.6153, + "step": 1538 + }, + { + "epoch": 0.513, + "grad_norm": 1.9330002069473267, + "learning_rate": 1.9694453498951392e-05, + "loss": 0.6245, + "step": 1539 + }, + { + "epoch": 0.5133333333333333, + "grad_norm": 1.9595377445220947, + "learning_rate": 1.9693501342800895e-05, + "loss": 0.6794, + "step": 1540 + }, + { + "epoch": 0.5136666666666667, + "grad_norm": 1.915877342224121, + "learning_rate": 1.969254772847295e-05, + "loss": 0.5826, + "step": 1541 + }, + { + "epoch": 0.514, + "grad_norm": 1.6439400911331177, + "learning_rate": 1.969159265611101e-05, + "loss": 0.545, + "step": 1542 + }, + { + "epoch": 0.5143333333333333, + "grad_norm": 1.7373108863830566, + "learning_rate": 1.9690636125858745e-05, + "loss": 0.6526, + "step": 1543 + }, + { + "epoch": 0.5146666666666667, + "grad_norm": 1.8618465662002563, + "learning_rate": 1.9689678137860042e-05, + "loss": 0.6571, + "step": 1544 + }, + { + "epoch": 0.515, + "grad_norm": 1.803619384765625, + "learning_rate": 1.9688718692259007e-05, + "loss": 0.649, + "step": 1545 + }, + { + "epoch": 0.5153333333333333, + "grad_norm": 1.9556635618209839, + "learning_rate": 1.9687757789199974e-05, + "loss": 0.6599, + "step": 1546 + }, + { + "epoch": 0.5156666666666667, + "grad_norm": 1.8580946922302246, + "learning_rate": 1.9686795428827488e-05, + "loss": 0.6151, + "step": 1547 + }, + { + "epoch": 0.516, + "grad_norm": 1.6731923818588257, + "learning_rate": 1.9685831611286312e-05, + "loss": 0.5862, + "step": 1548 + }, + { + "epoch": 0.5163333333333333, + "grad_norm": 2.005903720855713, + "learning_rate": 1.9684866336721437e-05, + "loss": 0.6545, + "step": 1549 + }, + { + "epoch": 0.5166666666666667, + "grad_norm": 1.8832011222839355, + "learning_rate": 1.9683899605278062e-05, + "loss": 0.6337, + "step": 1550 + }, + { + "epoch": 0.517, + "grad_norm": 1.7757728099822998, + "learning_rate": 1.968293141710161e-05, + "loss": 0.6528, + "step": 1551 + }, + { + "epoch": 0.5173333333333333, + "grad_norm": 2.1345672607421875, + "learning_rate": 1.9681961772337732e-05, + "loss": 0.6239, + "step": 1552 + }, + { + "epoch": 0.5176666666666667, + "grad_norm": 2.013556718826294, + "learning_rate": 1.9680990671132284e-05, + "loss": 0.6872, + "step": 1553 + }, + { + "epoch": 0.518, + "grad_norm": 1.6996722221374512, + "learning_rate": 1.9680018113631347e-05, + "loss": 0.6324, + "step": 1554 + }, + { + "epoch": 0.5183333333333333, + "grad_norm": 1.9999409914016724, + "learning_rate": 1.9679044099981227e-05, + "loss": 0.7106, + "step": 1555 + }, + { + "epoch": 0.5186666666666667, + "grad_norm": 2.2257473468780518, + "learning_rate": 1.9678068630328434e-05, + "loss": 0.674, + "step": 1556 + }, + { + "epoch": 0.519, + "grad_norm": 2.081480026245117, + "learning_rate": 1.9677091704819714e-05, + "loss": 0.6265, + "step": 1557 + }, + { + "epoch": 0.5193333333333333, + "grad_norm": 1.6854099035263062, + "learning_rate": 1.967611332360202e-05, + "loss": 0.6688, + "step": 1558 + }, + { + "epoch": 0.5196666666666667, + "grad_norm": 2.038602828979492, + "learning_rate": 1.967513348682253e-05, + "loss": 0.6343, + "step": 1559 + }, + { + "epoch": 0.52, + "grad_norm": 1.6272858381271362, + "learning_rate": 1.967415219462864e-05, + "loss": 0.6125, + "step": 1560 + }, + { + "epoch": 0.5203333333333333, + "grad_norm": 1.7890996932983398, + "learning_rate": 1.9673169447167963e-05, + "loss": 0.6599, + "step": 1561 + }, + { + "epoch": 0.5206666666666667, + "grad_norm": 1.8290977478027344, + "learning_rate": 1.9672185244588333e-05, + "loss": 0.5974, + "step": 1562 + }, + { + "epoch": 0.521, + "grad_norm": 2.068333625793457, + "learning_rate": 1.96711995870378e-05, + "loss": 0.6377, + "step": 1563 + }, + { + "epoch": 0.5213333333333333, + "grad_norm": 1.8811323642730713, + "learning_rate": 1.967021247466464e-05, + "loss": 0.6769, + "step": 1564 + }, + { + "epoch": 0.5216666666666666, + "grad_norm": 2.028862237930298, + "learning_rate": 1.9669223907617332e-05, + "loss": 0.624, + "step": 1565 + }, + { + "epoch": 0.522, + "grad_norm": 1.6857810020446777, + "learning_rate": 1.9668233886044597e-05, + "loss": 0.6313, + "step": 1566 + }, + { + "epoch": 0.5223333333333333, + "grad_norm": 1.9072877168655396, + "learning_rate": 1.9667242410095354e-05, + "loss": 0.6642, + "step": 1567 + }, + { + "epoch": 0.5226666666666666, + "grad_norm": 1.7955948114395142, + "learning_rate": 1.966624947991875e-05, + "loss": 0.6711, + "step": 1568 + }, + { + "epoch": 0.523, + "grad_norm": 2.185159206390381, + "learning_rate": 1.9665255095664155e-05, + "loss": 0.6731, + "step": 1569 + }, + { + "epoch": 0.5233333333333333, + "grad_norm": 1.6590155363082886, + "learning_rate": 1.966425925748115e-05, + "loss": 0.6616, + "step": 1570 + }, + { + "epoch": 0.5236666666666666, + "grad_norm": 1.696923851966858, + "learning_rate": 1.966326196551953e-05, + "loss": 0.6243, + "step": 1571 + }, + { + "epoch": 0.524, + "grad_norm": 2.163553237915039, + "learning_rate": 1.966226321992933e-05, + "loss": 0.614, + "step": 1572 + }, + { + "epoch": 0.5243333333333333, + "grad_norm": 2.172642707824707, + "learning_rate": 1.9661263020860778e-05, + "loss": 0.6849, + "step": 1573 + }, + { + "epoch": 0.5246666666666666, + "grad_norm": 1.8500328063964844, + "learning_rate": 1.966026136846434e-05, + "loss": 0.6585, + "step": 1574 + }, + { + "epoch": 0.525, + "grad_norm": 2.040909767150879, + "learning_rate": 1.9659258262890683e-05, + "loss": 0.6497, + "step": 1575 + }, + { + "epoch": 0.5253333333333333, + "grad_norm": 1.7700321674346924, + "learning_rate": 1.9658253704290714e-05, + "loss": 0.6455, + "step": 1576 + }, + { + "epoch": 0.5256666666666666, + "grad_norm": 1.9276682138442993, + "learning_rate": 1.965724769281554e-05, + "loss": 0.6007, + "step": 1577 + }, + { + "epoch": 0.526, + "grad_norm": 1.6055076122283936, + "learning_rate": 1.9656240228616496e-05, + "loss": 0.6327, + "step": 1578 + }, + { + "epoch": 0.5263333333333333, + "grad_norm": 1.7786095142364502, + "learning_rate": 1.9655231311845133e-05, + "loss": 0.5515, + "step": 1579 + }, + { + "epoch": 0.5266666666666666, + "grad_norm": 1.7766258716583252, + "learning_rate": 1.9654220942653223e-05, + "loss": 0.6542, + "step": 1580 + }, + { + "epoch": 0.527, + "grad_norm": 2.3650197982788086, + "learning_rate": 1.9653209121192747e-05, + "loss": 0.6212, + "step": 1581 + }, + { + "epoch": 0.5273333333333333, + "grad_norm": 1.9718446731567383, + "learning_rate": 1.965219584761592e-05, + "loss": 0.6207, + "step": 1582 + }, + { + "epoch": 0.5276666666666666, + "grad_norm": 1.8835598230361938, + "learning_rate": 1.965118112207516e-05, + "loss": 0.6163, + "step": 1583 + }, + { + "epoch": 0.528, + "grad_norm": 1.9946832656860352, + "learning_rate": 1.9650164944723116e-05, + "loss": 0.6261, + "step": 1584 + }, + { + "epoch": 0.5283333333333333, + "grad_norm": 1.8915408849716187, + "learning_rate": 1.964914731571265e-05, + "loss": 0.6402, + "step": 1585 + }, + { + "epoch": 0.5286666666666666, + "grad_norm": 1.9487885236740112, + "learning_rate": 1.9648128235196834e-05, + "loss": 0.6289, + "step": 1586 + }, + { + "epoch": 0.529, + "grad_norm": 2.508463144302368, + "learning_rate": 1.964710770332898e-05, + "loss": 0.7031, + "step": 1587 + }, + { + "epoch": 0.5293333333333333, + "grad_norm": 2.087002992630005, + "learning_rate": 1.9646085720262592e-05, + "loss": 0.5803, + "step": 1588 + }, + { + "epoch": 0.5296666666666666, + "grad_norm": 1.7754368782043457, + "learning_rate": 1.964506228615141e-05, + "loss": 0.6295, + "step": 1589 + }, + { + "epoch": 0.53, + "grad_norm": 1.9283117055892944, + "learning_rate": 1.964403740114939e-05, + "loss": 0.6123, + "step": 1590 + }, + { + "epoch": 0.5303333333333333, + "grad_norm": 1.5470919609069824, + "learning_rate": 1.96430110654107e-05, + "loss": 0.6553, + "step": 1591 + }, + { + "epoch": 0.5306666666666666, + "grad_norm": 1.9947867393493652, + "learning_rate": 1.964198327908974e-05, + "loss": 0.6372, + "step": 1592 + }, + { + "epoch": 0.531, + "grad_norm": 1.7214818000793457, + "learning_rate": 1.96409540423411e-05, + "loss": 0.6263, + "step": 1593 + }, + { + "epoch": 0.5313333333333333, + "grad_norm": 1.577235460281372, + "learning_rate": 1.9639923355319626e-05, + "loss": 0.6253, + "step": 1594 + }, + { + "epoch": 0.5316666666666666, + "grad_norm": 1.8039931058883667, + "learning_rate": 1.9638891218180347e-05, + "loss": 0.5728, + "step": 1595 + }, + { + "epoch": 0.532, + "grad_norm": 2.045414447784424, + "learning_rate": 1.9637857631078532e-05, + "loss": 0.6345, + "step": 1596 + }, + { + "epoch": 0.5323333333333333, + "grad_norm": 2.5339279174804688, + "learning_rate": 1.9636822594169663e-05, + "loss": 0.6742, + "step": 1597 + }, + { + "epoch": 0.5326666666666666, + "grad_norm": 1.6357758045196533, + "learning_rate": 1.9635786107609438e-05, + "loss": 0.6888, + "step": 1598 + }, + { + "epoch": 0.533, + "grad_norm": 2.0595452785491943, + "learning_rate": 1.9634748171553775e-05, + "loss": 0.6139, + "step": 1599 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 2.1297261714935303, + "learning_rate": 1.9633708786158803e-05, + "loss": 0.677, + "step": 1600 + }, + { + "epoch": 0.5336666666666666, + "grad_norm": 2.172912120819092, + "learning_rate": 1.9632667951580885e-05, + "loss": 0.6137, + "step": 1601 + }, + { + "epoch": 0.534, + "grad_norm": 1.7834558486938477, + "learning_rate": 1.9631625667976584e-05, + "loss": 0.6638, + "step": 1602 + }, + { + "epoch": 0.5343333333333333, + "grad_norm": 1.822911262512207, + "learning_rate": 1.9630581935502692e-05, + "loss": 0.6098, + "step": 1603 + }, + { + "epoch": 0.5346666666666666, + "grad_norm": 1.6034448146820068, + "learning_rate": 1.9629536754316213e-05, + "loss": 0.6658, + "step": 1604 + }, + { + "epoch": 0.535, + "grad_norm": 1.6959445476531982, + "learning_rate": 1.962849012457438e-05, + "loss": 0.6331, + "step": 1605 + }, + { + "epoch": 0.5353333333333333, + "grad_norm": 1.6960105895996094, + "learning_rate": 1.9627442046434623e-05, + "loss": 0.6424, + "step": 1606 + }, + { + "epoch": 0.5356666666666666, + "grad_norm": 1.9820947647094727, + "learning_rate": 1.9626392520054615e-05, + "loss": 0.6598, + "step": 1607 + }, + { + "epoch": 0.536, + "grad_norm": 1.9339913129806519, + "learning_rate": 1.9625341545592226e-05, + "loss": 0.6381, + "step": 1608 + }, + { + "epoch": 0.5363333333333333, + "grad_norm": 1.8806525468826294, + "learning_rate": 1.962428912320556e-05, + "loss": 0.6312, + "step": 1609 + }, + { + "epoch": 0.5366666666666666, + "grad_norm": 2.488509178161621, + "learning_rate": 1.9623235253052924e-05, + "loss": 0.6491, + "step": 1610 + }, + { + "epoch": 0.537, + "grad_norm": 1.9925320148468018, + "learning_rate": 1.9622179935292855e-05, + "loss": 0.6428, + "step": 1611 + }, + { + "epoch": 0.5373333333333333, + "grad_norm": 1.9293164014816284, + "learning_rate": 1.96211231700841e-05, + "loss": 0.5938, + "step": 1612 + }, + { + "epoch": 0.5376666666666666, + "grad_norm": 1.8740019798278809, + "learning_rate": 1.9620064957585624e-05, + "loss": 0.6469, + "step": 1613 + }, + { + "epoch": 0.538, + "grad_norm": 2.2037343978881836, + "learning_rate": 1.9619005297956623e-05, + "loss": 0.6617, + "step": 1614 + }, + { + "epoch": 0.5383333333333333, + "grad_norm": 2.116955041885376, + "learning_rate": 1.9617944191356484e-05, + "loss": 0.6625, + "step": 1615 + }, + { + "epoch": 0.5386666666666666, + "grad_norm": 2.1342883110046387, + "learning_rate": 1.961688163794484e-05, + "loss": 0.6639, + "step": 1616 + }, + { + "epoch": 0.539, + "grad_norm": 1.755620002746582, + "learning_rate": 1.961581763788152e-05, + "loss": 0.5735, + "step": 1617 + }, + { + "epoch": 0.5393333333333333, + "grad_norm": 1.6629055738449097, + "learning_rate": 1.961475219132659e-05, + "loss": 0.675, + "step": 1618 + }, + { + "epoch": 0.5396666666666666, + "grad_norm": 1.928382396697998, + "learning_rate": 1.9613685298440316e-05, + "loss": 0.6364, + "step": 1619 + }, + { + "epoch": 0.54, + "grad_norm": 2.0127291679382324, + "learning_rate": 1.961261695938319e-05, + "loss": 0.585, + "step": 1620 + }, + { + "epoch": 0.5403333333333333, + "grad_norm": 2.1117098331451416, + "learning_rate": 1.961154717431592e-05, + "loss": 0.5318, + "step": 1621 + }, + { + "epoch": 0.5406666666666666, + "grad_norm": 1.8726224899291992, + "learning_rate": 1.9610475943399438e-05, + "loss": 0.5847, + "step": 1622 + }, + { + "epoch": 0.541, + "grad_norm": 2.643831968307495, + "learning_rate": 1.960940326679488e-05, + "loss": 0.6759, + "step": 1623 + }, + { + "epoch": 0.5413333333333333, + "grad_norm": 1.972240686416626, + "learning_rate": 1.9608329144663608e-05, + "loss": 0.6374, + "step": 1624 + }, + { + "epoch": 0.5416666666666666, + "grad_norm": 1.682742953300476, + "learning_rate": 1.9607253577167206e-05, + "loss": 0.6237, + "step": 1625 + }, + { + "epoch": 0.542, + "grad_norm": 1.9804433584213257, + "learning_rate": 1.9606176564467465e-05, + "loss": 0.6351, + "step": 1626 + }, + { + "epoch": 0.5423333333333333, + "grad_norm": 2.0696895122528076, + "learning_rate": 1.96050981067264e-05, + "loss": 0.6607, + "step": 1627 + }, + { + "epoch": 0.5426666666666666, + "grad_norm": 1.8089479207992554, + "learning_rate": 1.960401820410624e-05, + "loss": 0.6342, + "step": 1628 + }, + { + "epoch": 0.543, + "grad_norm": 2.082751750946045, + "learning_rate": 1.9602936856769432e-05, + "loss": 0.6036, + "step": 1629 + }, + { + "epoch": 0.5433333333333333, + "grad_norm": 1.9603283405303955, + "learning_rate": 1.9601854064878645e-05, + "loss": 0.6578, + "step": 1630 + }, + { + "epoch": 0.5436666666666666, + "grad_norm": 1.8656306266784668, + "learning_rate": 1.960076982859676e-05, + "loss": 0.6098, + "step": 1631 + }, + { + "epoch": 0.544, + "grad_norm": 1.7603955268859863, + "learning_rate": 1.9599684148086876e-05, + "loss": 0.6798, + "step": 1632 + }, + { + "epoch": 0.5443333333333333, + "grad_norm": 1.7437418699264526, + "learning_rate": 1.9598597023512314e-05, + "loss": 0.6603, + "step": 1633 + }, + { + "epoch": 0.5446666666666666, + "grad_norm": 1.708509087562561, + "learning_rate": 1.95975084550366e-05, + "loss": 0.6573, + "step": 1634 + }, + { + "epoch": 0.545, + "grad_norm": 1.7036538124084473, + "learning_rate": 1.9596418442823495e-05, + "loss": 0.6694, + "step": 1635 + }, + { + "epoch": 0.5453333333333333, + "grad_norm": 1.8595207929611206, + "learning_rate": 1.9595326987036963e-05, + "loss": 0.6749, + "step": 1636 + }, + { + "epoch": 0.5456666666666666, + "grad_norm": 2.0527331829071045, + "learning_rate": 1.959423408784119e-05, + "loss": 0.6088, + "step": 1637 + }, + { + "epoch": 0.546, + "grad_norm": 1.865770936012268, + "learning_rate": 1.9593139745400575e-05, + "loss": 0.5789, + "step": 1638 + }, + { + "epoch": 0.5463333333333333, + "grad_norm": 1.7031164169311523, + "learning_rate": 1.9592043959879748e-05, + "loss": 0.5208, + "step": 1639 + }, + { + "epoch": 0.5466666666666666, + "grad_norm": 2.496699571609497, + "learning_rate": 1.959094673144354e-05, + "loss": 0.6037, + "step": 1640 + }, + { + "epoch": 0.547, + "grad_norm": 1.8879956007003784, + "learning_rate": 1.9589848060257007e-05, + "loss": 0.6305, + "step": 1641 + }, + { + "epoch": 0.5473333333333333, + "grad_norm": 1.668976068496704, + "learning_rate": 1.9588747946485416e-05, + "loss": 0.5977, + "step": 1642 + }, + { + "epoch": 0.5476666666666666, + "grad_norm": 1.7850587368011475, + "learning_rate": 1.958764639029426e-05, + "loss": 0.595, + "step": 1643 + }, + { + "epoch": 0.548, + "grad_norm": 1.8291398286819458, + "learning_rate": 1.9586543391849243e-05, + "loss": 0.6518, + "step": 1644 + }, + { + "epoch": 0.5483333333333333, + "grad_norm": 1.9565821886062622, + "learning_rate": 1.9585438951316287e-05, + "loss": 0.6327, + "step": 1645 + }, + { + "epoch": 0.5486666666666666, + "grad_norm": 1.7072407007217407, + "learning_rate": 1.9584333068861534e-05, + "loss": 0.6081, + "step": 1646 + }, + { + "epoch": 0.549, + "grad_norm": 1.775394320487976, + "learning_rate": 1.9583225744651334e-05, + "loss": 0.6271, + "step": 1647 + }, + { + "epoch": 0.5493333333333333, + "grad_norm": 1.7564334869384766, + "learning_rate": 1.9582116978852267e-05, + "loss": 0.6275, + "step": 1648 + }, + { + "epoch": 0.5496666666666666, + "grad_norm": 2.058332920074463, + "learning_rate": 1.9581006771631115e-05, + "loss": 0.6308, + "step": 1649 + }, + { + "epoch": 0.55, + "grad_norm": 1.9339680671691895, + "learning_rate": 1.957989512315489e-05, + "loss": 0.6183, + "step": 1650 + }, + { + "epoch": 0.5503333333333333, + "grad_norm": 1.6192432641983032, + "learning_rate": 1.9578782033590816e-05, + "loss": 0.5633, + "step": 1651 + }, + { + "epoch": 0.5506666666666666, + "grad_norm": 1.9904814958572388, + "learning_rate": 1.957766750310633e-05, + "loss": 0.6617, + "step": 1652 + }, + { + "epoch": 0.551, + "grad_norm": 1.8263285160064697, + "learning_rate": 1.9576551531869092e-05, + "loss": 0.6192, + "step": 1653 + }, + { + "epoch": 0.5513333333333333, + "grad_norm": 2.196697473526001, + "learning_rate": 1.9575434120046973e-05, + "loss": 0.6526, + "step": 1654 + }, + { + "epoch": 0.5516666666666666, + "grad_norm": 1.706146001815796, + "learning_rate": 1.9574315267808065e-05, + "loss": 0.6335, + "step": 1655 + }, + { + "epoch": 0.552, + "grad_norm": 1.9411975145339966, + "learning_rate": 1.9573194975320672e-05, + "loss": 0.5927, + "step": 1656 + }, + { + "epoch": 0.5523333333333333, + "grad_norm": 1.8517659902572632, + "learning_rate": 1.9572073242753325e-05, + "loss": 0.673, + "step": 1657 + }, + { + "epoch": 0.5526666666666666, + "grad_norm": 1.665051817893982, + "learning_rate": 1.957095007027476e-05, + "loss": 0.5876, + "step": 1658 + }, + { + "epoch": 0.553, + "grad_norm": 2.0442590713500977, + "learning_rate": 1.956982545805393e-05, + "loss": 0.5888, + "step": 1659 + }, + { + "epoch": 0.5533333333333333, + "grad_norm": 1.6903780698776245, + "learning_rate": 1.9568699406260016e-05, + "loss": 0.6303, + "step": 1660 + }, + { + "epoch": 0.5536666666666666, + "grad_norm": 1.6542539596557617, + "learning_rate": 1.95675719150624e-05, + "loss": 0.5999, + "step": 1661 + }, + { + "epoch": 0.554, + "grad_norm": 1.8502190113067627, + "learning_rate": 1.95664429846307e-05, + "loss": 0.7135, + "step": 1662 + }, + { + "epoch": 0.5543333333333333, + "grad_norm": 1.5312790870666504, + "learning_rate": 1.9565312615134727e-05, + "loss": 0.6897, + "step": 1663 + }, + { + "epoch": 0.5546666666666666, + "grad_norm": 2.405555248260498, + "learning_rate": 1.9564180806744527e-05, + "loss": 0.6539, + "step": 1664 + }, + { + "epoch": 0.555, + "grad_norm": 2.1204631328582764, + "learning_rate": 1.9563047559630356e-05, + "loss": 0.6366, + "step": 1665 + }, + { + "epoch": 0.5553333333333333, + "grad_norm": 1.760364055633545, + "learning_rate": 1.956191287396269e-05, + "loss": 0.6378, + "step": 1666 + }, + { + "epoch": 0.5556666666666666, + "grad_norm": 2.192199945449829, + "learning_rate": 1.9560776749912206e-05, + "loss": 0.5857, + "step": 1667 + }, + { + "epoch": 0.556, + "grad_norm": 1.9522086381912231, + "learning_rate": 1.9559639187649817e-05, + "loss": 0.5809, + "step": 1668 + }, + { + "epoch": 0.5563333333333333, + "grad_norm": 2.127303123474121, + "learning_rate": 1.9558500187346648e-05, + "loss": 0.6526, + "step": 1669 + }, + { + "epoch": 0.5566666666666666, + "grad_norm": 1.875011682510376, + "learning_rate": 1.9557359749174033e-05, + "loss": 0.6537, + "step": 1670 + }, + { + "epoch": 0.557, + "grad_norm": 2.0953292846679688, + "learning_rate": 1.9556217873303526e-05, + "loss": 0.6679, + "step": 1671 + }, + { + "epoch": 0.5573333333333333, + "grad_norm": 2.068255662918091, + "learning_rate": 1.9555074559906895e-05, + "loss": 0.6402, + "step": 1672 + }, + { + "epoch": 0.5576666666666666, + "grad_norm": 1.7696409225463867, + "learning_rate": 1.9553929809156133e-05, + "loss": 0.5557, + "step": 1673 + }, + { + "epoch": 0.558, + "grad_norm": 1.7375173568725586, + "learning_rate": 1.9552783621223437e-05, + "loss": 0.6532, + "step": 1674 + }, + { + "epoch": 0.5583333333333333, + "grad_norm": 2.1154677867889404, + "learning_rate": 1.955163599628123e-05, + "loss": 0.6776, + "step": 1675 + }, + { + "epoch": 0.5586666666666666, + "grad_norm": 1.7167587280273438, + "learning_rate": 1.9550486934502147e-05, + "loss": 0.6298, + "step": 1676 + }, + { + "epoch": 0.559, + "grad_norm": 2.209012031555176, + "learning_rate": 1.954933643605904e-05, + "loss": 0.6073, + "step": 1677 + }, + { + "epoch": 0.5593333333333333, + "grad_norm": 1.5930330753326416, + "learning_rate": 1.9548184501124976e-05, + "loss": 0.6163, + "step": 1678 + }, + { + "epoch": 0.5596666666666666, + "grad_norm": 2.1310362815856934, + "learning_rate": 1.9547031129873237e-05, + "loss": 0.6239, + "step": 1679 + }, + { + "epoch": 0.56, + "grad_norm": 1.711143136024475, + "learning_rate": 1.954587632247732e-05, + "loss": 0.6199, + "step": 1680 + }, + { + "epoch": 0.5603333333333333, + "grad_norm": 1.9387654066085815, + "learning_rate": 1.9544720079110947e-05, + "loss": 0.6104, + "step": 1681 + }, + { + "epoch": 0.5606666666666666, + "grad_norm": 2.1449410915374756, + "learning_rate": 1.954356239994805e-05, + "loss": 0.5848, + "step": 1682 + }, + { + "epoch": 0.561, + "grad_norm": 1.81890070438385, + "learning_rate": 1.954240328516277e-05, + "loss": 0.599, + "step": 1683 + }, + { + "epoch": 0.5613333333333334, + "grad_norm": 1.9014817476272583, + "learning_rate": 1.954124273492948e-05, + "loss": 0.6318, + "step": 1684 + }, + { + "epoch": 0.5616666666666666, + "grad_norm": 2.107100486755371, + "learning_rate": 1.954008074942275e-05, + "loss": 0.6376, + "step": 1685 + }, + { + "epoch": 0.562, + "grad_norm": 1.8284448385238647, + "learning_rate": 1.9538917328817377e-05, + "loss": 0.654, + "step": 1686 + }, + { + "epoch": 0.5623333333333334, + "grad_norm": 1.6034879684448242, + "learning_rate": 1.953775247328838e-05, + "loss": 0.6146, + "step": 1687 + }, + { + "epoch": 0.5626666666666666, + "grad_norm": 1.7626359462738037, + "learning_rate": 1.9536586183010982e-05, + "loss": 0.605, + "step": 1688 + }, + { + "epoch": 0.563, + "grad_norm": 1.7561988830566406, + "learning_rate": 1.9535418458160625e-05, + "loss": 0.6126, + "step": 1689 + }, + { + "epoch": 0.5633333333333334, + "grad_norm": 1.76913583278656, + "learning_rate": 1.9534249298912968e-05, + "loss": 0.6193, + "step": 1690 + }, + { + "epoch": 0.5636666666666666, + "grad_norm": 1.7890424728393555, + "learning_rate": 1.9533078705443886e-05, + "loss": 0.6369, + "step": 1691 + }, + { + "epoch": 0.564, + "grad_norm": 1.7978370189666748, + "learning_rate": 1.9531906677929472e-05, + "loss": 0.6421, + "step": 1692 + }, + { + "epoch": 0.5643333333333334, + "grad_norm": 1.816301941871643, + "learning_rate": 1.953073321654603e-05, + "loss": 0.6067, + "step": 1693 + }, + { + "epoch": 0.5646666666666667, + "grad_norm": 1.812625765800476, + "learning_rate": 1.952955832147008e-05, + "loss": 0.6725, + "step": 1694 + }, + { + "epoch": 0.565, + "grad_norm": 1.6897550821304321, + "learning_rate": 1.9528381992878362e-05, + "loss": 0.6492, + "step": 1695 + }, + { + "epoch": 0.5653333333333334, + "grad_norm": 1.692525029182434, + "learning_rate": 1.952720423094783e-05, + "loss": 0.6078, + "step": 1696 + }, + { + "epoch": 0.5656666666666667, + "grad_norm": 1.6065727472305298, + "learning_rate": 1.952602503585565e-05, + "loss": 0.5856, + "step": 1697 + }, + { + "epoch": 0.566, + "grad_norm": 1.7335922718048096, + "learning_rate": 1.9524844407779208e-05, + "loss": 0.6115, + "step": 1698 + }, + { + "epoch": 0.5663333333333334, + "grad_norm": 1.8705300092697144, + "learning_rate": 1.9523662346896106e-05, + "loss": 0.6355, + "step": 1699 + }, + { + "epoch": 0.5666666666666667, + "grad_norm": 1.8413997888565063, + "learning_rate": 1.9522478853384154e-05, + "loss": 0.6659, + "step": 1700 + }, + { + "epoch": 0.567, + "grad_norm": 2.0737459659576416, + "learning_rate": 1.9521293927421388e-05, + "loss": 0.6726, + "step": 1701 + }, + { + "epoch": 0.5673333333333334, + "grad_norm": 1.7663267850875854, + "learning_rate": 1.9520107569186055e-05, + "loss": 0.5838, + "step": 1702 + }, + { + "epoch": 0.5676666666666667, + "grad_norm": 1.7571055889129639, + "learning_rate": 1.951891977885661e-05, + "loss": 0.6116, + "step": 1703 + }, + { + "epoch": 0.568, + "grad_norm": 1.8886364698410034, + "learning_rate": 1.951773055661174e-05, + "loss": 0.6264, + "step": 1704 + }, + { + "epoch": 0.5683333333333334, + "grad_norm": 1.9208767414093018, + "learning_rate": 1.951653990263033e-05, + "loss": 0.6497, + "step": 1705 + }, + { + "epoch": 0.5686666666666667, + "grad_norm": 2.0346057415008545, + "learning_rate": 1.951534781709149e-05, + "loss": 0.5965, + "step": 1706 + }, + { + "epoch": 0.569, + "grad_norm": 1.8076273202896118, + "learning_rate": 1.9514154300174542e-05, + "loss": 0.5753, + "step": 1707 + }, + { + "epoch": 0.5693333333333334, + "grad_norm": 1.7225615978240967, + "learning_rate": 1.951295935205903e-05, + "loss": 0.6763, + "step": 1708 + }, + { + "epoch": 0.5696666666666667, + "grad_norm": 1.7665646076202393, + "learning_rate": 1.9511762972924708e-05, + "loss": 0.6242, + "step": 1709 + }, + { + "epoch": 0.57, + "grad_norm": 1.8659073114395142, + "learning_rate": 1.9510565162951538e-05, + "loss": 0.5855, + "step": 1710 + }, + { + "epoch": 0.5703333333333334, + "grad_norm": 1.553205966949463, + "learning_rate": 1.950936592231971e-05, + "loss": 0.6498, + "step": 1711 + }, + { + "epoch": 0.5706666666666667, + "grad_norm": 1.7895482778549194, + "learning_rate": 1.9508165251209625e-05, + "loss": 0.6226, + "step": 1712 + }, + { + "epoch": 0.571, + "grad_norm": 1.78269362449646, + "learning_rate": 1.9506963149801894e-05, + "loss": 0.5935, + "step": 1713 + }, + { + "epoch": 0.5713333333333334, + "grad_norm": 1.88308584690094, + "learning_rate": 1.9505759618277348e-05, + "loss": 0.5581, + "step": 1714 + }, + { + "epoch": 0.5716666666666667, + "grad_norm": 1.6667143106460571, + "learning_rate": 1.9504554656817036e-05, + "loss": 0.5831, + "step": 1715 + }, + { + "epoch": 0.572, + "grad_norm": 1.7493493556976318, + "learning_rate": 1.9503348265602212e-05, + "loss": 0.6069, + "step": 1716 + }, + { + "epoch": 0.5723333333333334, + "grad_norm": 1.647140622138977, + "learning_rate": 1.950214044481436e-05, + "loss": 0.5752, + "step": 1717 + }, + { + "epoch": 0.5726666666666667, + "grad_norm": 1.5564192533493042, + "learning_rate": 1.950093119463516e-05, + "loss": 0.635, + "step": 1718 + }, + { + "epoch": 0.573, + "grad_norm": 1.666658639907837, + "learning_rate": 1.9499720515246524e-05, + "loss": 0.6063, + "step": 1719 + }, + { + "epoch": 0.5733333333333334, + "grad_norm": 1.5844146013259888, + "learning_rate": 1.9498508406830577e-05, + "loss": 0.6121, + "step": 1720 + }, + { + "epoch": 0.5736666666666667, + "grad_norm": 2.0627198219299316, + "learning_rate": 1.9497294869569645e-05, + "loss": 0.5796, + "step": 1721 + }, + { + "epoch": 0.574, + "grad_norm": 1.77592933177948, + "learning_rate": 1.9496079903646282e-05, + "loss": 0.5892, + "step": 1722 + }, + { + "epoch": 0.5743333333333334, + "grad_norm": 1.7663394212722778, + "learning_rate": 1.9494863509243256e-05, + "loss": 0.5807, + "step": 1723 + }, + { + "epoch": 0.5746666666666667, + "grad_norm": 2.245249032974243, + "learning_rate": 1.9493645686543544e-05, + "loss": 0.6577, + "step": 1724 + }, + { + "epoch": 0.575, + "grad_norm": 2.3905038833618164, + "learning_rate": 1.949242643573034e-05, + "loss": 0.6141, + "step": 1725 + }, + { + "epoch": 0.5753333333333334, + "grad_norm": 2.1567630767822266, + "learning_rate": 1.949120575698706e-05, + "loss": 0.6545, + "step": 1726 + }, + { + "epoch": 0.5756666666666667, + "grad_norm": 1.7633922100067139, + "learning_rate": 1.948998365049732e-05, + "loss": 0.5928, + "step": 1727 + }, + { + "epoch": 0.576, + "grad_norm": 2.126485586166382, + "learning_rate": 1.9488760116444966e-05, + "loss": 0.6462, + "step": 1728 + }, + { + "epoch": 0.5763333333333334, + "grad_norm": 1.8753278255462646, + "learning_rate": 1.948753515501405e-05, + "loss": 0.6057, + "step": 1729 + }, + { + "epoch": 0.5766666666666667, + "grad_norm": 2.3660531044006348, + "learning_rate": 1.9486308766388843e-05, + "loss": 0.5899, + "step": 1730 + }, + { + "epoch": 0.577, + "grad_norm": 2.022672414779663, + "learning_rate": 1.948508095075383e-05, + "loss": 0.6084, + "step": 1731 + }, + { + "epoch": 0.5773333333333334, + "grad_norm": 1.7935826778411865, + "learning_rate": 1.9483851708293698e-05, + "loss": 0.5739, + "step": 1732 + }, + { + "epoch": 0.5776666666666667, + "grad_norm": 2.110163927078247, + "learning_rate": 1.9482621039193373e-05, + "loss": 0.6015, + "step": 1733 + }, + { + "epoch": 0.578, + "grad_norm": 2.293452262878418, + "learning_rate": 1.9481388943637976e-05, + "loss": 0.646, + "step": 1734 + }, + { + "epoch": 0.5783333333333334, + "grad_norm": 2.1924822330474854, + "learning_rate": 1.948015542181285e-05, + "loss": 0.554, + "step": 1735 + }, + { + "epoch": 0.5786666666666667, + "grad_norm": 1.8692923784255981, + "learning_rate": 1.9478920473903555e-05, + "loss": 0.5968, + "step": 1736 + }, + { + "epoch": 0.579, + "grad_norm": 1.6017380952835083, + "learning_rate": 1.947768410009586e-05, + "loss": 0.6658, + "step": 1737 + }, + { + "epoch": 0.5793333333333334, + "grad_norm": 1.772155523300171, + "learning_rate": 1.9476446300575748e-05, + "loss": 0.6041, + "step": 1738 + }, + { + "epoch": 0.5796666666666667, + "grad_norm": 1.7174969911575317, + "learning_rate": 1.947520707552942e-05, + "loss": 0.6602, + "step": 1739 + }, + { + "epoch": 0.58, + "grad_norm": 1.9706426858901978, + "learning_rate": 1.9473966425143292e-05, + "loss": 0.6525, + "step": 1740 + }, + { + "epoch": 0.5803333333333334, + "grad_norm": 1.6975786685943604, + "learning_rate": 1.9472724349604e-05, + "loss": 0.5666, + "step": 1741 + }, + { + "epoch": 0.5806666666666667, + "grad_norm": 1.9286954402923584, + "learning_rate": 1.9471480849098373e-05, + "loss": 0.6824, + "step": 1742 + }, + { + "epoch": 0.581, + "grad_norm": 2.455819606781006, + "learning_rate": 1.947023592381348e-05, + "loss": 0.6126, + "step": 1743 + }, + { + "epoch": 0.5813333333333334, + "grad_norm": 2.2077488899230957, + "learning_rate": 1.9468989573936585e-05, + "loss": 0.6559, + "step": 1744 + }, + { + "epoch": 0.5816666666666667, + "grad_norm": 1.8107964992523193, + "learning_rate": 1.946774179965518e-05, + "loss": 0.6241, + "step": 1745 + }, + { + "epoch": 0.582, + "grad_norm": 2.155165433883667, + "learning_rate": 1.9466492601156964e-05, + "loss": 0.6313, + "step": 1746 + }, + { + "epoch": 0.5823333333333334, + "grad_norm": 1.8649969100952148, + "learning_rate": 1.9465241978629853e-05, + "loss": 0.6126, + "step": 1747 + }, + { + "epoch": 0.5826666666666667, + "grad_norm": 1.6512353420257568, + "learning_rate": 1.9463989932261977e-05, + "loss": 0.6135, + "step": 1748 + }, + { + "epoch": 0.583, + "grad_norm": 1.6059677600860596, + "learning_rate": 1.9462736462241672e-05, + "loss": 0.6571, + "step": 1749 + }, + { + "epoch": 0.5833333333333334, + "grad_norm": 1.7498847246170044, + "learning_rate": 1.946148156875751e-05, + "loss": 0.6266, + "step": 1750 + }, + { + "epoch": 0.5836666666666667, + "grad_norm": 2.540587902069092, + "learning_rate": 1.9460225251998243e-05, + "loss": 0.6375, + "step": 1751 + }, + { + "epoch": 0.584, + "grad_norm": 1.6287459135055542, + "learning_rate": 1.9458967512152872e-05, + "loss": 0.5749, + "step": 1752 + }, + { + "epoch": 0.5843333333333334, + "grad_norm": 1.8234567642211914, + "learning_rate": 1.945770834941059e-05, + "loss": 0.6011, + "step": 1753 + }, + { + "epoch": 0.5846666666666667, + "grad_norm": 2.3377091884613037, + "learning_rate": 1.9456447763960815e-05, + "loss": 0.6318, + "step": 1754 + }, + { + "epoch": 0.585, + "grad_norm": 1.9465157985687256, + "learning_rate": 1.945518575599317e-05, + "loss": 0.6405, + "step": 1755 + }, + { + "epoch": 0.5853333333333334, + "grad_norm": 1.713829517364502, + "learning_rate": 1.9453922325697498e-05, + "loss": 0.576, + "step": 1756 + }, + { + "epoch": 0.5856666666666667, + "grad_norm": 2.12919545173645, + "learning_rate": 1.9452657473263857e-05, + "loss": 0.6086, + "step": 1757 + }, + { + "epoch": 0.586, + "grad_norm": 2.10836124420166, + "learning_rate": 1.945139119888252e-05, + "loss": 0.6304, + "step": 1758 + }, + { + "epoch": 0.5863333333333334, + "grad_norm": 1.5419052839279175, + "learning_rate": 1.945012350274396e-05, + "loss": 0.5702, + "step": 1759 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 2.0960025787353516, + "learning_rate": 1.944885438503888e-05, + "loss": 0.6497, + "step": 1760 + }, + { + "epoch": 0.587, + "grad_norm": 1.8500545024871826, + "learning_rate": 1.9447583845958198e-05, + "loss": 0.6193, + "step": 1761 + }, + { + "epoch": 0.5873333333333334, + "grad_norm": 2.425869941711426, + "learning_rate": 1.944631188569303e-05, + "loss": 0.5932, + "step": 1762 + }, + { + "epoch": 0.5876666666666667, + "grad_norm": 1.833100438117981, + "learning_rate": 1.9445038504434715e-05, + "loss": 0.6326, + "step": 1763 + }, + { + "epoch": 0.588, + "grad_norm": 1.8234100341796875, + "learning_rate": 1.944376370237481e-05, + "loss": 0.5835, + "step": 1764 + }, + { + "epoch": 0.5883333333333334, + "grad_norm": 2.0790021419525146, + "learning_rate": 1.9442487479705082e-05, + "loss": 0.5815, + "step": 1765 + }, + { + "epoch": 0.5886666666666667, + "grad_norm": 1.8800514936447144, + "learning_rate": 1.9441209836617506e-05, + "loss": 0.6758, + "step": 1766 + }, + { + "epoch": 0.589, + "grad_norm": 1.9707454442977905, + "learning_rate": 1.9439930773304284e-05, + "loss": 0.6403, + "step": 1767 + }, + { + "epoch": 0.5893333333333334, + "grad_norm": 1.785820484161377, + "learning_rate": 1.9438650289957813e-05, + "loss": 0.613, + "step": 1768 + }, + { + "epoch": 0.5896666666666667, + "grad_norm": 1.951697826385498, + "learning_rate": 1.9437368386770718e-05, + "loss": 0.6298, + "step": 1769 + }, + { + "epoch": 0.59, + "grad_norm": 1.7540202140808105, + "learning_rate": 1.9436085063935837e-05, + "loss": 0.6633, + "step": 1770 + }, + { + "epoch": 0.5903333333333334, + "grad_norm": 1.8390856981277466, + "learning_rate": 1.9434800321646215e-05, + "loss": 0.6489, + "step": 1771 + }, + { + "epoch": 0.5906666666666667, + "grad_norm": 2.0970373153686523, + "learning_rate": 1.9433514160095113e-05, + "loss": 0.6747, + "step": 1772 + }, + { + "epoch": 0.591, + "grad_norm": 1.9122954607009888, + "learning_rate": 1.943222657947601e-05, + "loss": 0.6648, + "step": 1773 + }, + { + "epoch": 0.5913333333333334, + "grad_norm": 1.6289899349212646, + "learning_rate": 1.943093757998259e-05, + "loss": 0.6051, + "step": 1774 + }, + { + "epoch": 0.5916666666666667, + "grad_norm": 2.065056800842285, + "learning_rate": 1.942964716180876e-05, + "loss": 0.5879, + "step": 1775 + }, + { + "epoch": 0.592, + "grad_norm": 2.024317741394043, + "learning_rate": 1.9428355325148632e-05, + "loss": 0.6689, + "step": 1776 + }, + { + "epoch": 0.5923333333333334, + "grad_norm": 1.8938965797424316, + "learning_rate": 1.9427062070196536e-05, + "loss": 0.6415, + "step": 1777 + }, + { + "epoch": 0.5926666666666667, + "grad_norm": 2.154075860977173, + "learning_rate": 1.9425767397147013e-05, + "loss": 0.6357, + "step": 1778 + }, + { + "epoch": 0.593, + "grad_norm": 1.7780462503433228, + "learning_rate": 1.9424471306194822e-05, + "loss": 0.5845, + "step": 1779 + }, + { + "epoch": 0.5933333333333334, + "grad_norm": 1.8178362846374512, + "learning_rate": 1.9423173797534924e-05, + "loss": 0.6181, + "step": 1780 + }, + { + "epoch": 0.5936666666666667, + "grad_norm": 1.8613277673721313, + "learning_rate": 1.942187487136251e-05, + "loss": 0.6196, + "step": 1781 + }, + { + "epoch": 0.594, + "grad_norm": 1.8395161628723145, + "learning_rate": 1.942057452787297e-05, + "loss": 0.614, + "step": 1782 + }, + { + "epoch": 0.5943333333333334, + "grad_norm": 1.939504861831665, + "learning_rate": 1.941927276726191e-05, + "loss": 0.584, + "step": 1783 + }, + { + "epoch": 0.5946666666666667, + "grad_norm": 2.42627215385437, + "learning_rate": 1.9417969589725163e-05, + "loss": 0.5641, + "step": 1784 + }, + { + "epoch": 0.595, + "grad_norm": 1.9121977090835571, + "learning_rate": 1.9416664995458756e-05, + "loss": 0.6273, + "step": 1785 + }, + { + "epoch": 0.5953333333333334, + "grad_norm": 2.0631823539733887, + "learning_rate": 1.9415358984658934e-05, + "loss": 0.6452, + "step": 1786 + }, + { + "epoch": 0.5956666666666667, + "grad_norm": 2.373368263244629, + "learning_rate": 1.9414051557522165e-05, + "loss": 0.6142, + "step": 1787 + }, + { + "epoch": 0.596, + "grad_norm": 1.67765212059021, + "learning_rate": 1.941274271424512e-05, + "loss": 0.6156, + "step": 1788 + }, + { + "epoch": 0.5963333333333334, + "grad_norm": 1.9538670778274536, + "learning_rate": 1.9411432455024682e-05, + "loss": 0.6143, + "step": 1789 + }, + { + "epoch": 0.5966666666666667, + "grad_norm": 1.714404821395874, + "learning_rate": 1.9410120780057958e-05, + "loss": 0.594, + "step": 1790 + }, + { + "epoch": 0.597, + "grad_norm": 1.8472583293914795, + "learning_rate": 1.9408807689542257e-05, + "loss": 0.5521, + "step": 1791 + }, + { + "epoch": 0.5973333333333334, + "grad_norm": 1.8239890336990356, + "learning_rate": 1.9407493183675104e-05, + "loss": 0.6026, + "step": 1792 + }, + { + "epoch": 0.5976666666666667, + "grad_norm": 1.7459886074066162, + "learning_rate": 1.9406177262654245e-05, + "loss": 0.5972, + "step": 1793 + }, + { + "epoch": 0.598, + "grad_norm": 1.9091566801071167, + "learning_rate": 1.9404859926677625e-05, + "loss": 0.6482, + "step": 1794 + }, + { + "epoch": 0.5983333333333334, + "grad_norm": 1.7072527408599854, + "learning_rate": 1.940354117594341e-05, + "loss": 0.6183, + "step": 1795 + }, + { + "epoch": 0.5986666666666667, + "grad_norm": 1.9225122928619385, + "learning_rate": 1.940222101064998e-05, + "loss": 0.6247, + "step": 1796 + }, + { + "epoch": 0.599, + "grad_norm": 1.9806348085403442, + "learning_rate": 1.9400899430995923e-05, + "loss": 0.6298, + "step": 1797 + }, + { + "epoch": 0.5993333333333334, + "grad_norm": 1.7280195951461792, + "learning_rate": 1.939957643718004e-05, + "loss": 0.6223, + "step": 1798 + }, + { + "epoch": 0.5996666666666667, + "grad_norm": 2.0048880577087402, + "learning_rate": 1.9398252029401353e-05, + "loss": 0.6017, + "step": 1799 + }, + { + "epoch": 0.6, + "grad_norm": 1.9557818174362183, + "learning_rate": 1.9396926207859085e-05, + "loss": 0.6104, + "step": 1800 + }, + { + "epoch": 0.6003333333333334, + "grad_norm": 2.6672873497009277, + "learning_rate": 1.939559897275268e-05, + "loss": 0.5808, + "step": 1801 + }, + { + "epoch": 0.6006666666666667, + "grad_norm": 2.300036907196045, + "learning_rate": 1.939427032428179e-05, + "loss": 0.6383, + "step": 1802 + }, + { + "epoch": 0.601, + "grad_norm": 2.302520990371704, + "learning_rate": 1.9392940262646284e-05, + "loss": 0.6357, + "step": 1803 + }, + { + "epoch": 0.6013333333333334, + "grad_norm": 1.6641030311584473, + "learning_rate": 1.9391608788046238e-05, + "loss": 0.5595, + "step": 1804 + }, + { + "epoch": 0.6016666666666667, + "grad_norm": 1.6789886951446533, + "learning_rate": 1.9390275900681942e-05, + "loss": 0.6427, + "step": 1805 + }, + { + "epoch": 0.602, + "grad_norm": 3.186552047729492, + "learning_rate": 1.9388941600753902e-05, + "loss": 0.6678, + "step": 1806 + }, + { + "epoch": 0.6023333333333334, + "grad_norm": 2.182847023010254, + "learning_rate": 1.938760588846284e-05, + "loss": 0.6418, + "step": 1807 + }, + { + "epoch": 0.6026666666666667, + "grad_norm": 1.421980857849121, + "learning_rate": 1.9386268764009678e-05, + "loss": 0.6063, + "step": 1808 + }, + { + "epoch": 0.603, + "grad_norm": 2.8037288188934326, + "learning_rate": 1.938493022759556e-05, + "loss": 0.6137, + "step": 1809 + }, + { + "epoch": 0.6033333333333334, + "grad_norm": 2.1680097579956055, + "learning_rate": 1.938359027942184e-05, + "loss": 0.5919, + "step": 1810 + }, + { + "epoch": 0.6036666666666667, + "grad_norm": 1.9774158000946045, + "learning_rate": 1.9382248919690085e-05, + "loss": 0.6389, + "step": 1811 + }, + { + "epoch": 0.604, + "grad_norm": 1.6742018461227417, + "learning_rate": 1.938090614860207e-05, + "loss": 0.6021, + "step": 1812 + }, + { + "epoch": 0.6043333333333333, + "grad_norm": 1.932276725769043, + "learning_rate": 1.937956196635979e-05, + "loss": 0.6224, + "step": 1813 + }, + { + "epoch": 0.6046666666666667, + "grad_norm": 1.9877849817276, + "learning_rate": 1.9378216373165444e-05, + "loss": 0.6493, + "step": 1814 + }, + { + "epoch": 0.605, + "grad_norm": 2.5243234634399414, + "learning_rate": 1.937686936922145e-05, + "loss": 0.5565, + "step": 1815 + }, + { + "epoch": 0.6053333333333333, + "grad_norm": 2.2814571857452393, + "learning_rate": 1.9375520954730434e-05, + "loss": 0.6145, + "step": 1816 + }, + { + "epoch": 0.6056666666666667, + "grad_norm": 1.7758924961090088, + "learning_rate": 1.937417112989524e-05, + "loss": 0.6495, + "step": 1817 + }, + { + "epoch": 0.606, + "grad_norm": 1.7489680051803589, + "learning_rate": 1.937281989491892e-05, + "loss": 0.6293, + "step": 1818 + }, + { + "epoch": 0.6063333333333333, + "grad_norm": 2.121697187423706, + "learning_rate": 1.9371467250004728e-05, + "loss": 0.6373, + "step": 1819 + }, + { + "epoch": 0.6066666666666667, + "grad_norm": 1.975538730621338, + "learning_rate": 1.937011319535615e-05, + "loss": 0.6532, + "step": 1820 + }, + { + "epoch": 0.607, + "grad_norm": 1.735205054283142, + "learning_rate": 1.936875773117687e-05, + "loss": 0.5853, + "step": 1821 + }, + { + "epoch": 0.6073333333333333, + "grad_norm": 1.7343240976333618, + "learning_rate": 1.936740085767079e-05, + "loss": 0.5849, + "step": 1822 + }, + { + "epoch": 0.6076666666666667, + "grad_norm": 1.3884570598602295, + "learning_rate": 1.9366042575042024e-05, + "loss": 0.6156, + "step": 1823 + }, + { + "epoch": 0.608, + "grad_norm": 1.7339560985565186, + "learning_rate": 1.9364682883494892e-05, + "loss": 0.6297, + "step": 1824 + }, + { + "epoch": 0.6083333333333333, + "grad_norm": 1.7365398406982422, + "learning_rate": 1.9363321783233933e-05, + "loss": 0.6378, + "step": 1825 + }, + { + "epoch": 0.6086666666666667, + "grad_norm": 2.2365572452545166, + "learning_rate": 1.9361959274463893e-05, + "loss": 0.5663, + "step": 1826 + }, + { + "epoch": 0.609, + "grad_norm": 1.8248591423034668, + "learning_rate": 1.9360595357389735e-05, + "loss": 0.6438, + "step": 1827 + }, + { + "epoch": 0.6093333333333333, + "grad_norm": 1.8321421146392822, + "learning_rate": 1.935923003221663e-05, + "loss": 0.5911, + "step": 1828 + }, + { + "epoch": 0.6096666666666667, + "grad_norm": 1.8882551193237305, + "learning_rate": 1.935786329914996e-05, + "loss": 0.5565, + "step": 1829 + }, + { + "epoch": 0.61, + "grad_norm": 1.966599941253662, + "learning_rate": 1.9356495158395317e-05, + "loss": 0.6189, + "step": 1830 + }, + { + "epoch": 0.6103333333333333, + "grad_norm": 2.0975751876831055, + "learning_rate": 1.9355125610158515e-05, + "loss": 0.5933, + "step": 1831 + }, + { + "epoch": 0.6106666666666667, + "grad_norm": 1.9322171211242676, + "learning_rate": 1.935375465464557e-05, + "loss": 0.6187, + "step": 1832 + }, + { + "epoch": 0.611, + "grad_norm": 2.3158986568450928, + "learning_rate": 1.9352382292062712e-05, + "loss": 0.5961, + "step": 1833 + }, + { + "epoch": 0.6113333333333333, + "grad_norm": 2.392216444015503, + "learning_rate": 1.9351008522616384e-05, + "loss": 0.5887, + "step": 1834 + }, + { + "epoch": 0.6116666666666667, + "grad_norm": 1.9514282941818237, + "learning_rate": 1.934963334651324e-05, + "loss": 0.6238, + "step": 1835 + }, + { + "epoch": 0.612, + "grad_norm": 1.937767744064331, + "learning_rate": 1.9348256763960146e-05, + "loss": 0.6094, + "step": 1836 + }, + { + "epoch": 0.6123333333333333, + "grad_norm": 1.8764073848724365, + "learning_rate": 1.9346878775164176e-05, + "loss": 0.6136, + "step": 1837 + }, + { + "epoch": 0.6126666666666667, + "grad_norm": 3.111572027206421, + "learning_rate": 1.9345499380332623e-05, + "loss": 0.6151, + "step": 1838 + }, + { + "epoch": 0.613, + "grad_norm": 1.759253978729248, + "learning_rate": 1.9344118579672987e-05, + "loss": 0.5556, + "step": 1839 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 2.4533534049987793, + "learning_rate": 1.9342736373392976e-05, + "loss": 0.6464, + "step": 1840 + }, + { + "epoch": 0.6136666666666667, + "grad_norm": 2.053068161010742, + "learning_rate": 1.9341352761700513e-05, + "loss": 0.5971, + "step": 1841 + }, + { + "epoch": 0.614, + "grad_norm": 1.9928125143051147, + "learning_rate": 1.9339967744803735e-05, + "loss": 0.5694, + "step": 1842 + }, + { + "epoch": 0.6143333333333333, + "grad_norm": 1.8017443418502808, + "learning_rate": 1.9338581322910985e-05, + "loss": 0.6056, + "step": 1843 + }, + { + "epoch": 0.6146666666666667, + "grad_norm": 2.1970608234405518, + "learning_rate": 1.9337193496230826e-05, + "loss": 0.6482, + "step": 1844 + }, + { + "epoch": 0.615, + "grad_norm": 1.8875905275344849, + "learning_rate": 1.9335804264972018e-05, + "loss": 0.5973, + "step": 1845 + }, + { + "epoch": 0.6153333333333333, + "grad_norm": 1.7477443218231201, + "learning_rate": 1.933441362934355e-05, + "loss": 0.6498, + "step": 1846 + }, + { + "epoch": 0.6156666666666667, + "grad_norm": 1.8329768180847168, + "learning_rate": 1.9333021589554603e-05, + "loss": 0.6401, + "step": 1847 + }, + { + "epoch": 0.616, + "grad_norm": 2.16264009475708, + "learning_rate": 1.9331628145814587e-05, + "loss": 0.5945, + "step": 1848 + }, + { + "epoch": 0.6163333333333333, + "grad_norm": 1.8790429830551147, + "learning_rate": 1.9330233298333116e-05, + "loss": 0.629, + "step": 1849 + }, + { + "epoch": 0.6166666666666667, + "grad_norm": 1.81397545337677, + "learning_rate": 1.932883704732001e-05, + "loss": 0.6061, + "step": 1850 + }, + { + "epoch": 0.617, + "grad_norm": 2.0108888149261475, + "learning_rate": 1.93274393929853e-05, + "loss": 0.5411, + "step": 1851 + }, + { + "epoch": 0.6173333333333333, + "grad_norm": 2.2371575832366943, + "learning_rate": 1.9326040335539248e-05, + "loss": 0.6136, + "step": 1852 + }, + { + "epoch": 0.6176666666666667, + "grad_norm": 1.7646808624267578, + "learning_rate": 1.9324639875192298e-05, + "loss": 0.6349, + "step": 1853 + }, + { + "epoch": 0.618, + "grad_norm": 1.9146279096603394, + "learning_rate": 1.9323238012155125e-05, + "loss": 0.5687, + "step": 1854 + }, + { + "epoch": 0.6183333333333333, + "grad_norm": 1.6164426803588867, + "learning_rate": 1.9321834746638606e-05, + "loss": 0.5901, + "step": 1855 + }, + { + "epoch": 0.6186666666666667, + "grad_norm": 2.3906891345977783, + "learning_rate": 1.932043007885384e-05, + "loss": 0.62, + "step": 1856 + }, + { + "epoch": 0.619, + "grad_norm": 1.8137831687927246, + "learning_rate": 1.9319024009012114e-05, + "loss": 0.5973, + "step": 1857 + }, + { + "epoch": 0.6193333333333333, + "grad_norm": 1.6355624198913574, + "learning_rate": 1.9317616537324955e-05, + "loss": 0.5253, + "step": 1858 + }, + { + "epoch": 0.6196666666666667, + "grad_norm": 1.7645325660705566, + "learning_rate": 1.931620766400408e-05, + "loss": 0.6452, + "step": 1859 + }, + { + "epoch": 0.62, + "grad_norm": 1.7528090476989746, + "learning_rate": 1.9314797389261426e-05, + "loss": 0.5839, + "step": 1860 + }, + { + "epoch": 0.6203333333333333, + "grad_norm": 2.0697484016418457, + "learning_rate": 1.9313385713309135e-05, + "loss": 0.604, + "step": 1861 + }, + { + "epoch": 0.6206666666666667, + "grad_norm": 2.048318862915039, + "learning_rate": 1.9311972636359567e-05, + "loss": 0.6703, + "step": 1862 + }, + { + "epoch": 0.621, + "grad_norm": 1.8616106510162354, + "learning_rate": 1.9310558158625286e-05, + "loss": 0.6038, + "step": 1863 + }, + { + "epoch": 0.6213333333333333, + "grad_norm": 1.7063571214675903, + "learning_rate": 1.930914228031907e-05, + "loss": 0.6364, + "step": 1864 + }, + { + "epoch": 0.6216666666666667, + "grad_norm": 1.5828651189804077, + "learning_rate": 1.9307725001653906e-05, + "loss": 0.6127, + "step": 1865 + }, + { + "epoch": 0.622, + "grad_norm": 1.7301703691482544, + "learning_rate": 1.9306306322842994e-05, + "loss": 0.627, + "step": 1866 + }, + { + "epoch": 0.6223333333333333, + "grad_norm": 1.5391148328781128, + "learning_rate": 1.930488624409975e-05, + "loss": 0.5155, + "step": 1867 + }, + { + "epoch": 0.6226666666666667, + "grad_norm": 1.6816024780273438, + "learning_rate": 1.9303464765637784e-05, + "loss": 0.5632, + "step": 1868 + }, + { + "epoch": 0.623, + "grad_norm": 1.5435359477996826, + "learning_rate": 1.930204188767093e-05, + "loss": 0.6123, + "step": 1869 + }, + { + "epoch": 0.6233333333333333, + "grad_norm": 1.7626402378082275, + "learning_rate": 1.9300617610413232e-05, + "loss": 0.6472, + "step": 1870 + }, + { + "epoch": 0.6236666666666667, + "grad_norm": 2.5659523010253906, + "learning_rate": 1.929919193407894e-05, + "loss": 0.6123, + "step": 1871 + }, + { + "epoch": 0.624, + "grad_norm": 1.9939569234848022, + "learning_rate": 1.9297764858882516e-05, + "loss": 0.5979, + "step": 1872 + }, + { + "epoch": 0.6243333333333333, + "grad_norm": 1.6749763488769531, + "learning_rate": 1.9296336385038632e-05, + "loss": 0.6287, + "step": 1873 + }, + { + "epoch": 0.6246666666666667, + "grad_norm": 2.342250108718872, + "learning_rate": 1.929490651276217e-05, + "loss": 0.6361, + "step": 1874 + }, + { + "epoch": 0.625, + "grad_norm": 1.8678984642028809, + "learning_rate": 1.9293475242268224e-05, + "loss": 0.5703, + "step": 1875 + }, + { + "epoch": 0.6253333333333333, + "grad_norm": 1.8643264770507812, + "learning_rate": 1.92920425737721e-05, + "loss": 0.6711, + "step": 1876 + }, + { + "epoch": 0.6256666666666667, + "grad_norm": 1.8378268480300903, + "learning_rate": 1.929060850748931e-05, + "loss": 0.5677, + "step": 1877 + }, + { + "epoch": 0.626, + "grad_norm": 1.648834228515625, + "learning_rate": 1.9289173043635584e-05, + "loss": 0.5513, + "step": 1878 + }, + { + "epoch": 0.6263333333333333, + "grad_norm": 1.7917345762252808, + "learning_rate": 1.9287736182426845e-05, + "loss": 0.6202, + "step": 1879 + }, + { + "epoch": 0.6266666666666667, + "grad_norm": 1.911948323249817, + "learning_rate": 1.9286297924079244e-05, + "loss": 0.6104, + "step": 1880 + }, + { + "epoch": 0.627, + "grad_norm": 1.6712164878845215, + "learning_rate": 1.9284858268809135e-05, + "loss": 0.624, + "step": 1881 + }, + { + "epoch": 0.6273333333333333, + "grad_norm": 1.7099888324737549, + "learning_rate": 1.9283417216833088e-05, + "loss": 0.6159, + "step": 1882 + }, + { + "epoch": 0.6276666666666667, + "grad_norm": 1.803826093673706, + "learning_rate": 1.928197476836787e-05, + "loss": 0.632, + "step": 1883 + }, + { + "epoch": 0.628, + "grad_norm": 1.6736547946929932, + "learning_rate": 1.928053092363047e-05, + "loss": 0.5456, + "step": 1884 + }, + { + "epoch": 0.6283333333333333, + "grad_norm": 2.5843966007232666, + "learning_rate": 1.9279085682838082e-05, + "loss": 0.6029, + "step": 1885 + }, + { + "epoch": 0.6286666666666667, + "grad_norm": 2.3626954555511475, + "learning_rate": 1.9277639046208114e-05, + "loss": 0.6155, + "step": 1886 + }, + { + "epoch": 0.629, + "grad_norm": 1.6866673231124878, + "learning_rate": 1.927619101395818e-05, + "loss": 0.6368, + "step": 1887 + }, + { + "epoch": 0.6293333333333333, + "grad_norm": 1.7194513082504272, + "learning_rate": 1.9274741586306102e-05, + "loss": 0.5646, + "step": 1888 + }, + { + "epoch": 0.6296666666666667, + "grad_norm": 1.6870874166488647, + "learning_rate": 1.927329076346992e-05, + "loss": 0.5691, + "step": 1889 + }, + { + "epoch": 0.63, + "grad_norm": 1.862754464149475, + "learning_rate": 1.9271838545667876e-05, + "loss": 0.5952, + "step": 1890 + }, + { + "epoch": 0.6303333333333333, + "grad_norm": 1.7301855087280273, + "learning_rate": 1.927038493311842e-05, + "loss": 0.6187, + "step": 1891 + }, + { + "epoch": 0.6306666666666667, + "grad_norm": 2.0987391471862793, + "learning_rate": 1.926892992604023e-05, + "loss": 0.5668, + "step": 1892 + }, + { + "epoch": 0.631, + "grad_norm": 1.7724093198776245, + "learning_rate": 1.9267473524652168e-05, + "loss": 0.6013, + "step": 1893 + }, + { + "epoch": 0.6313333333333333, + "grad_norm": 1.8494619131088257, + "learning_rate": 1.9266015729173323e-05, + "loss": 0.6161, + "step": 1894 + }, + { + "epoch": 0.6316666666666667, + "grad_norm": 1.756717562675476, + "learning_rate": 1.9264556539822986e-05, + "loss": 0.4949, + "step": 1895 + }, + { + "epoch": 0.632, + "grad_norm": 1.7124066352844238, + "learning_rate": 1.926309595682066e-05, + "loss": 0.5504, + "step": 1896 + }, + { + "epoch": 0.6323333333333333, + "grad_norm": 1.725367784500122, + "learning_rate": 1.9261633980386066e-05, + "loss": 0.5961, + "step": 1897 + }, + { + "epoch": 0.6326666666666667, + "grad_norm": 1.8630249500274658, + "learning_rate": 1.9260170610739117e-05, + "loss": 0.5703, + "step": 1898 + }, + { + "epoch": 0.633, + "grad_norm": 1.6896319389343262, + "learning_rate": 1.925870584809995e-05, + "loss": 0.5666, + "step": 1899 + }, + { + "epoch": 0.6333333333333333, + "grad_norm": 1.7702076435089111, + "learning_rate": 1.9257239692688907e-05, + "loss": 0.6086, + "step": 1900 + }, + { + "epoch": 0.6336666666666667, + "grad_norm": 1.8255672454833984, + "learning_rate": 1.9255772144726536e-05, + "loss": 0.5952, + "step": 1901 + }, + { + "epoch": 0.634, + "grad_norm": 1.8773293495178223, + "learning_rate": 1.9254303204433602e-05, + "loss": 0.6045, + "step": 1902 + }, + { + "epoch": 0.6343333333333333, + "grad_norm": 1.8425863981246948, + "learning_rate": 1.9252832872031075e-05, + "loss": 0.6324, + "step": 1903 + }, + { + "epoch": 0.6346666666666667, + "grad_norm": 1.7249492406845093, + "learning_rate": 1.9251361147740134e-05, + "loss": 0.5444, + "step": 1904 + }, + { + "epoch": 0.635, + "grad_norm": 2.1138768196105957, + "learning_rate": 1.924988803178216e-05, + "loss": 0.5928, + "step": 1905 + }, + { + "epoch": 0.6353333333333333, + "grad_norm": 1.7589929103851318, + "learning_rate": 1.9248413524378767e-05, + "loss": 0.6131, + "step": 1906 + }, + { + "epoch": 0.6356666666666667, + "grad_norm": 1.9029229879379272, + "learning_rate": 1.924693762575175e-05, + "loss": 0.6112, + "step": 1907 + }, + { + "epoch": 0.636, + "grad_norm": 1.8011888265609741, + "learning_rate": 1.9245460336123136e-05, + "loss": 0.5678, + "step": 1908 + }, + { + "epoch": 0.6363333333333333, + "grad_norm": 2.0989668369293213, + "learning_rate": 1.924398165571514e-05, + "loss": 0.5978, + "step": 1909 + }, + { + "epoch": 0.6366666666666667, + "grad_norm": 1.6511486768722534, + "learning_rate": 1.92425015847502e-05, + "loss": 0.5641, + "step": 1910 + }, + { + "epoch": 0.637, + "grad_norm": 1.7026129961013794, + "learning_rate": 1.9241020123450972e-05, + "loss": 0.5767, + "step": 1911 + }, + { + "epoch": 0.6373333333333333, + "grad_norm": 1.5496375560760498, + "learning_rate": 1.92395372720403e-05, + "loss": 0.5842, + "step": 1912 + }, + { + "epoch": 0.6376666666666667, + "grad_norm": 1.4787790775299072, + "learning_rate": 1.9238053030741244e-05, + "loss": 0.6249, + "step": 1913 + }, + { + "epoch": 0.638, + "grad_norm": 1.6198229789733887, + "learning_rate": 1.9236567399777086e-05, + "loss": 0.5597, + "step": 1914 + }, + { + "epoch": 0.6383333333333333, + "grad_norm": 1.5671448707580566, + "learning_rate": 1.9235080379371295e-05, + "loss": 0.6131, + "step": 1915 + }, + { + "epoch": 0.6386666666666667, + "grad_norm": 1.7101445198059082, + "learning_rate": 1.923359196974757e-05, + "loss": 0.585, + "step": 1916 + }, + { + "epoch": 0.639, + "grad_norm": 1.9777647256851196, + "learning_rate": 1.923210217112981e-05, + "loss": 0.6189, + "step": 1917 + }, + { + "epoch": 0.6393333333333333, + "grad_norm": 1.5820404291152954, + "learning_rate": 1.923061098374212e-05, + "loss": 0.5921, + "step": 1918 + }, + { + "epoch": 0.6396666666666667, + "grad_norm": 1.546519160270691, + "learning_rate": 1.9229118407808815e-05, + "loss": 0.6386, + "step": 1919 + }, + { + "epoch": 0.64, + "grad_norm": 1.7167435884475708, + "learning_rate": 1.9227624443554425e-05, + "loss": 0.5228, + "step": 1920 + }, + { + "epoch": 0.6403333333333333, + "grad_norm": 1.685009479522705, + "learning_rate": 1.922612909120368e-05, + "loss": 0.6163, + "step": 1921 + }, + { + "epoch": 0.6406666666666667, + "grad_norm": 2.733128309249878, + "learning_rate": 1.9224632350981532e-05, + "loss": 0.5988, + "step": 1922 + }, + { + "epoch": 0.641, + "grad_norm": 2.724623680114746, + "learning_rate": 1.9223134223113122e-05, + "loss": 0.5892, + "step": 1923 + }, + { + "epoch": 0.6413333333333333, + "grad_norm": 1.5362430810928345, + "learning_rate": 1.9221634707823816e-05, + "loss": 0.5552, + "step": 1924 + }, + { + "epoch": 0.6416666666666667, + "grad_norm": 2.0680153369903564, + "learning_rate": 1.9220133805339186e-05, + "loss": 0.6279, + "step": 1925 + }, + { + "epoch": 0.642, + "grad_norm": 1.830322265625, + "learning_rate": 1.9218631515885007e-05, + "loss": 0.6006, + "step": 1926 + }, + { + "epoch": 0.6423333333333333, + "grad_norm": 2.3784408569335938, + "learning_rate": 1.9217127839687267e-05, + "loss": 0.5913, + "step": 1927 + }, + { + "epoch": 0.6426666666666667, + "grad_norm": 1.8684906959533691, + "learning_rate": 1.921562277697216e-05, + "loss": 0.5797, + "step": 1928 + }, + { + "epoch": 0.643, + "grad_norm": 2.1109533309936523, + "learning_rate": 1.9214116327966095e-05, + "loss": 0.5859, + "step": 1929 + }, + { + "epoch": 0.6433333333333333, + "grad_norm": 1.710239052772522, + "learning_rate": 1.921260849289568e-05, + "loss": 0.5575, + "step": 1930 + }, + { + "epoch": 0.6436666666666667, + "grad_norm": 1.968813180923462, + "learning_rate": 1.9211099271987735e-05, + "loss": 0.6225, + "step": 1931 + }, + { + "epoch": 0.644, + "grad_norm": 1.5242303609848022, + "learning_rate": 1.9209588665469294e-05, + "loss": 0.5708, + "step": 1932 + }, + { + "epoch": 0.6443333333333333, + "grad_norm": 1.5480504035949707, + "learning_rate": 1.9208076673567594e-05, + "loss": 0.5808, + "step": 1933 + }, + { + "epoch": 0.6446666666666667, + "grad_norm": 1.8572478294372559, + "learning_rate": 1.920656329651008e-05, + "loss": 0.5894, + "step": 1934 + }, + { + "epoch": 0.645, + "grad_norm": 1.4696048498153687, + "learning_rate": 1.9205048534524405e-05, + "loss": 0.613, + "step": 1935 + }, + { + "epoch": 0.6453333333333333, + "grad_norm": 1.5569661855697632, + "learning_rate": 1.9203532387838434e-05, + "loss": 0.5936, + "step": 1936 + }, + { + "epoch": 0.6456666666666667, + "grad_norm": 1.6919677257537842, + "learning_rate": 1.920201485668024e-05, + "loss": 0.5868, + "step": 1937 + }, + { + "epoch": 0.646, + "grad_norm": 1.789567470550537, + "learning_rate": 1.9200495941278105e-05, + "loss": 0.5647, + "step": 1938 + }, + { + "epoch": 0.6463333333333333, + "grad_norm": 1.7207272052764893, + "learning_rate": 1.9198975641860512e-05, + "loss": 0.5807, + "step": 1939 + }, + { + "epoch": 0.6466666666666666, + "grad_norm": 1.6439485549926758, + "learning_rate": 1.9197453958656157e-05, + "loss": 0.6048, + "step": 1940 + }, + { + "epoch": 0.647, + "grad_norm": 1.782570719718933, + "learning_rate": 1.9195930891893946e-05, + "loss": 0.6299, + "step": 1941 + }, + { + "epoch": 0.6473333333333333, + "grad_norm": 1.9047001600265503, + "learning_rate": 1.9194406441802994e-05, + "loss": 0.6561, + "step": 1942 + }, + { + "epoch": 0.6476666666666666, + "grad_norm": 2.174100160598755, + "learning_rate": 1.919288060861262e-05, + "loss": 0.5988, + "step": 1943 + }, + { + "epoch": 0.648, + "grad_norm": 2.0546693801879883, + "learning_rate": 1.9191353392552346e-05, + "loss": 0.5501, + "step": 1944 + }, + { + "epoch": 0.6483333333333333, + "grad_norm": 1.8471958637237549, + "learning_rate": 1.9189824793851915e-05, + "loss": 0.5923, + "step": 1945 + }, + { + "epoch": 0.6486666666666666, + "grad_norm": 1.878305196762085, + "learning_rate": 1.9188294812741273e-05, + "loss": 0.5873, + "step": 1946 + }, + { + "epoch": 0.649, + "grad_norm": 2.1036112308502197, + "learning_rate": 1.9186763449450572e-05, + "loss": 0.6133, + "step": 1947 + }, + { + "epoch": 0.6493333333333333, + "grad_norm": 1.712114930152893, + "learning_rate": 1.9185230704210168e-05, + "loss": 0.5737, + "step": 1948 + }, + { + "epoch": 0.6496666666666666, + "grad_norm": 1.6572389602661133, + "learning_rate": 1.9183696577250632e-05, + "loss": 0.5846, + "step": 1949 + }, + { + "epoch": 0.65, + "grad_norm": 1.863162875175476, + "learning_rate": 1.9182161068802742e-05, + "loss": 0.5675, + "step": 1950 + }, + { + "epoch": 0.6503333333333333, + "grad_norm": 1.8311519622802734, + "learning_rate": 1.918062417909748e-05, + "loss": 0.6017, + "step": 1951 + }, + { + "epoch": 0.6506666666666666, + "grad_norm": 1.9550293684005737, + "learning_rate": 1.9179085908366037e-05, + "loss": 0.5307, + "step": 1952 + }, + { + "epoch": 0.651, + "grad_norm": 1.8651469945907593, + "learning_rate": 1.9177546256839814e-05, + "loss": 0.6298, + "step": 1953 + }, + { + "epoch": 0.6513333333333333, + "grad_norm": 1.6301349401474, + "learning_rate": 1.917600522475042e-05, + "loss": 0.5406, + "step": 1954 + }, + { + "epoch": 0.6516666666666666, + "grad_norm": 2.006326675415039, + "learning_rate": 1.9174462812329662e-05, + "loss": 0.5316, + "step": 1955 + }, + { + "epoch": 0.652, + "grad_norm": 1.8847358226776123, + "learning_rate": 1.9172919019809572e-05, + "loss": 0.6398, + "step": 1956 + }, + { + "epoch": 0.6523333333333333, + "grad_norm": 1.7330758571624756, + "learning_rate": 1.9171373847422376e-05, + "loss": 0.6098, + "step": 1957 + }, + { + "epoch": 0.6526666666666666, + "grad_norm": 2.1318652629852295, + "learning_rate": 1.9169827295400512e-05, + "loss": 0.6227, + "step": 1958 + }, + { + "epoch": 0.653, + "grad_norm": 1.9216524362564087, + "learning_rate": 1.9168279363976627e-05, + "loss": 0.5833, + "step": 1959 + }, + { + "epoch": 0.6533333333333333, + "grad_norm": 2.425445079803467, + "learning_rate": 1.916673005338357e-05, + "loss": 0.6316, + "step": 1960 + }, + { + "epoch": 0.6536666666666666, + "grad_norm": 1.6727910041809082, + "learning_rate": 1.9165179363854404e-05, + "loss": 0.5958, + "step": 1961 + }, + { + "epoch": 0.654, + "grad_norm": 1.6883893013000488, + "learning_rate": 1.9163627295622397e-05, + "loss": 0.5874, + "step": 1962 + }, + { + "epoch": 0.6543333333333333, + "grad_norm": 1.7801332473754883, + "learning_rate": 1.9162073848921025e-05, + "loss": 0.5783, + "step": 1963 + }, + { + "epoch": 0.6546666666666666, + "grad_norm": 1.6683480739593506, + "learning_rate": 1.9160519023983964e-05, + "loss": 0.5611, + "step": 1964 + }, + { + "epoch": 0.655, + "grad_norm": 1.9295698404312134, + "learning_rate": 1.9158962821045113e-05, + "loss": 0.6156, + "step": 1965 + }, + { + "epoch": 0.6553333333333333, + "grad_norm": 1.61549711227417, + "learning_rate": 1.9157405240338563e-05, + "loss": 0.5664, + "step": 1966 + }, + { + "epoch": 0.6556666666666666, + "grad_norm": 1.576548457145691, + "learning_rate": 1.9155846282098617e-05, + "loss": 0.6057, + "step": 1967 + }, + { + "epoch": 0.656, + "grad_norm": 1.5510482788085938, + "learning_rate": 1.9154285946559792e-05, + "loss": 0.5902, + "step": 1968 + }, + { + "epoch": 0.6563333333333333, + "grad_norm": 2.382603168487549, + "learning_rate": 1.9152724233956805e-05, + "loss": 0.643, + "step": 1969 + }, + { + "epoch": 0.6566666666666666, + "grad_norm": 1.8080897331237793, + "learning_rate": 1.915116114452458e-05, + "loss": 0.582, + "step": 1970 + }, + { + "epoch": 0.657, + "grad_norm": 1.971975564956665, + "learning_rate": 1.914959667849825e-05, + "loss": 0.5656, + "step": 1971 + }, + { + "epoch": 0.6573333333333333, + "grad_norm": 1.7409899234771729, + "learning_rate": 1.9148030836113157e-05, + "loss": 0.5871, + "step": 1972 + }, + { + "epoch": 0.6576666666666666, + "grad_norm": 1.9255099296569824, + "learning_rate": 1.9146463617604843e-05, + "loss": 0.6594, + "step": 1973 + }, + { + "epoch": 0.658, + "grad_norm": 1.8800573348999023, + "learning_rate": 1.9144895023209072e-05, + "loss": 0.4856, + "step": 1974 + }, + { + "epoch": 0.6583333333333333, + "grad_norm": 1.572288155555725, + "learning_rate": 1.9143325053161795e-05, + "loss": 0.5938, + "step": 1975 + }, + { + "epoch": 0.6586666666666666, + "grad_norm": 2.0132248401641846, + "learning_rate": 1.9141753707699187e-05, + "loss": 0.5851, + "step": 1976 + }, + { + "epoch": 0.659, + "grad_norm": 1.8435676097869873, + "learning_rate": 1.914018098705762e-05, + "loss": 0.5642, + "step": 1977 + }, + { + "epoch": 0.6593333333333333, + "grad_norm": 1.8725494146347046, + "learning_rate": 1.9138606891473672e-05, + "loss": 0.5636, + "step": 1978 + }, + { + "epoch": 0.6596666666666666, + "grad_norm": 1.6994271278381348, + "learning_rate": 1.913703142118414e-05, + "loss": 0.5685, + "step": 1979 + }, + { + "epoch": 0.66, + "grad_norm": 2.259678363800049, + "learning_rate": 1.913545457642601e-05, + "loss": 0.5911, + "step": 1980 + }, + { + "epoch": 0.6603333333333333, + "grad_norm": 1.770865559577942, + "learning_rate": 1.913387635743649e-05, + "loss": 0.6005, + "step": 1981 + }, + { + "epoch": 0.6606666666666666, + "grad_norm": 1.6257458925247192, + "learning_rate": 1.9132296764452994e-05, + "loss": 0.6006, + "step": 1982 + }, + { + "epoch": 0.661, + "grad_norm": 1.9265687465667725, + "learning_rate": 1.9130715797713123e-05, + "loss": 0.6023, + "step": 1983 + }, + { + "epoch": 0.6613333333333333, + "grad_norm": 2.0335402488708496, + "learning_rate": 1.9129133457454715e-05, + "loss": 0.6408, + "step": 1984 + }, + { + "epoch": 0.6616666666666666, + "grad_norm": 1.7442082166671753, + "learning_rate": 1.9127549743915787e-05, + "loss": 0.5938, + "step": 1985 + }, + { + "epoch": 0.662, + "grad_norm": 2.175935745239258, + "learning_rate": 1.912596465733458e-05, + "loss": 0.5521, + "step": 1986 + }, + { + "epoch": 0.6623333333333333, + "grad_norm": 1.740673303604126, + "learning_rate": 1.9124378197949536e-05, + "loss": 0.565, + "step": 1987 + }, + { + "epoch": 0.6626666666666666, + "grad_norm": 2.2067317962646484, + "learning_rate": 1.9122790365999303e-05, + "loss": 0.5955, + "step": 1988 + }, + { + "epoch": 0.663, + "grad_norm": 2.0723183155059814, + "learning_rate": 1.9121201161722732e-05, + "loss": 0.5648, + "step": 1989 + }, + { + "epoch": 0.6633333333333333, + "grad_norm": 2.015491008758545, + "learning_rate": 1.911961058535889e-05, + "loss": 0.5857, + "step": 1990 + }, + { + "epoch": 0.6636666666666666, + "grad_norm": 1.5428345203399658, + "learning_rate": 1.911801863714704e-05, + "loss": 0.6318, + "step": 1991 + }, + { + "epoch": 0.664, + "grad_norm": 1.648766040802002, + "learning_rate": 1.911642531732666e-05, + "loss": 0.6103, + "step": 1992 + }, + { + "epoch": 0.6643333333333333, + "grad_norm": 2.173269748687744, + "learning_rate": 1.911483062613743e-05, + "loss": 0.5949, + "step": 1993 + }, + { + "epoch": 0.6646666666666666, + "grad_norm": 1.951863169670105, + "learning_rate": 1.911323456381924e-05, + "loss": 0.6404, + "step": 1994 + }, + { + "epoch": 0.665, + "grad_norm": 1.8029232025146484, + "learning_rate": 1.9111637130612172e-05, + "loss": 0.6345, + "step": 1995 + }, + { + "epoch": 0.6653333333333333, + "grad_norm": 1.824233055114746, + "learning_rate": 1.9110038326756535e-05, + "loss": 0.5989, + "step": 1996 + }, + { + "epoch": 0.6656666666666666, + "grad_norm": 1.6722655296325684, + "learning_rate": 1.910843815249283e-05, + "loss": 0.6059, + "step": 1997 + }, + { + "epoch": 0.666, + "grad_norm": 1.8969162702560425, + "learning_rate": 1.910683660806177e-05, + "loss": 0.5688, + "step": 1998 + }, + { + "epoch": 0.6663333333333333, + "grad_norm": 1.7447729110717773, + "learning_rate": 1.9105233693704278e-05, + "loss": 0.5579, + "step": 1999 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 1.5790331363677979, + "learning_rate": 1.9103629409661468e-05, + "loss": 0.5822, + "step": 2000 + }, + { + "epoch": 0.667, + "grad_norm": 1.7006199359893799, + "learning_rate": 1.9102023756174675e-05, + "loss": 0.6012, + "step": 2001 + }, + { + "epoch": 0.6673333333333333, + "grad_norm": 1.7733498811721802, + "learning_rate": 1.9100416733485434e-05, + "loss": 0.5779, + "step": 2002 + }, + { + "epoch": 0.6676666666666666, + "grad_norm": 1.8421636819839478, + "learning_rate": 1.909880834183549e-05, + "loss": 0.565, + "step": 2003 + }, + { + "epoch": 0.668, + "grad_norm": 1.5529049634933472, + "learning_rate": 1.9097198581466785e-05, + "loss": 0.5954, + "step": 2004 + }, + { + "epoch": 0.6683333333333333, + "grad_norm": 1.9579272270202637, + "learning_rate": 1.9095587452621476e-05, + "loss": 0.6079, + "step": 2005 + }, + { + "epoch": 0.6686666666666666, + "grad_norm": 2.064699411392212, + "learning_rate": 1.9093974955541923e-05, + "loss": 0.547, + "step": 2006 + }, + { + "epoch": 0.669, + "grad_norm": 1.917235255241394, + "learning_rate": 1.9092361090470688e-05, + "loss": 0.589, + "step": 2007 + }, + { + "epoch": 0.6693333333333333, + "grad_norm": 2.159214496612549, + "learning_rate": 1.9090745857650542e-05, + "loss": 0.5585, + "step": 2008 + }, + { + "epoch": 0.6696666666666666, + "grad_norm": 2.3385579586029053, + "learning_rate": 1.9089129257324468e-05, + "loss": 0.5921, + "step": 2009 + }, + { + "epoch": 0.67, + "grad_norm": 1.5274559259414673, + "learning_rate": 1.9087511289735646e-05, + "loss": 0.5581, + "step": 2010 + }, + { + "epoch": 0.6703333333333333, + "grad_norm": 2.247070550918579, + "learning_rate": 1.908589195512746e-05, + "loss": 0.5852, + "step": 2011 + }, + { + "epoch": 0.6706666666666666, + "grad_norm": 1.9675124883651733, + "learning_rate": 1.9084271253743505e-05, + "loss": 0.5604, + "step": 2012 + }, + { + "epoch": 0.671, + "grad_norm": 1.7365851402282715, + "learning_rate": 1.9082649185827583e-05, + "loss": 0.5904, + "step": 2013 + }, + { + "epoch": 0.6713333333333333, + "grad_norm": 1.761347770690918, + "learning_rate": 1.90810257516237e-05, + "loss": 0.5715, + "step": 2014 + }, + { + "epoch": 0.6716666666666666, + "grad_norm": 1.980031132698059, + "learning_rate": 1.9079400951376062e-05, + "loss": 0.5775, + "step": 2015 + }, + { + "epoch": 0.672, + "grad_norm": 1.7586394548416138, + "learning_rate": 1.907777478532909e-05, + "loss": 0.6255, + "step": 2016 + }, + { + "epoch": 0.6723333333333333, + "grad_norm": 1.7115888595581055, + "learning_rate": 1.90761472537274e-05, + "loss": 0.5624, + "step": 2017 + }, + { + "epoch": 0.6726666666666666, + "grad_norm": 1.979084849357605, + "learning_rate": 1.907451835681582e-05, + "loss": 0.5682, + "step": 2018 + }, + { + "epoch": 0.673, + "grad_norm": 1.9412587881088257, + "learning_rate": 1.907288809483939e-05, + "loss": 0.5505, + "step": 2019 + }, + { + "epoch": 0.6733333333333333, + "grad_norm": 1.8354929685592651, + "learning_rate": 1.907125646804334e-05, + "loss": 0.5863, + "step": 2020 + }, + { + "epoch": 0.6736666666666666, + "grad_norm": 1.8282564878463745, + "learning_rate": 1.9069623476673115e-05, + "loss": 0.598, + "step": 2021 + }, + { + "epoch": 0.674, + "grad_norm": 2.153160333633423, + "learning_rate": 1.906798912097436e-05, + "loss": 0.5941, + "step": 2022 + }, + { + "epoch": 0.6743333333333333, + "grad_norm": 2.003105878829956, + "learning_rate": 1.9066353401192933e-05, + "loss": 0.5742, + "step": 2023 + }, + { + "epoch": 0.6746666666666666, + "grad_norm": 1.8084009885787964, + "learning_rate": 1.9064716317574893e-05, + "loss": 0.5835, + "step": 2024 + }, + { + "epoch": 0.675, + "grad_norm": 1.801048994064331, + "learning_rate": 1.9063077870366504e-05, + "loss": 0.5633, + "step": 2025 + }, + { + "epoch": 0.6753333333333333, + "grad_norm": 1.6764501333236694, + "learning_rate": 1.906143805981423e-05, + "loss": 0.5572, + "step": 2026 + }, + { + "epoch": 0.6756666666666666, + "grad_norm": 2.041627883911133, + "learning_rate": 1.9059796886164744e-05, + "loss": 0.6267, + "step": 2027 + }, + { + "epoch": 0.676, + "grad_norm": 2.039536714553833, + "learning_rate": 1.9058154349664932e-05, + "loss": 0.5543, + "step": 2028 + }, + { + "epoch": 0.6763333333333333, + "grad_norm": 1.8684322834014893, + "learning_rate": 1.9056510450561873e-05, + "loss": 0.6293, + "step": 2029 + }, + { + "epoch": 0.6766666666666666, + "grad_norm": 1.6000580787658691, + "learning_rate": 1.905486518910286e-05, + "loss": 0.5412, + "step": 2030 + }, + { + "epoch": 0.677, + "grad_norm": 1.7989964485168457, + "learning_rate": 1.9053218565535383e-05, + "loss": 0.5924, + "step": 2031 + }, + { + "epoch": 0.6773333333333333, + "grad_norm": 1.6977481842041016, + "learning_rate": 1.9051570580107147e-05, + "loss": 0.5848, + "step": 2032 + }, + { + "epoch": 0.6776666666666666, + "grad_norm": 1.8253545761108398, + "learning_rate": 1.9049921233066048e-05, + "loss": 0.5818, + "step": 2033 + }, + { + "epoch": 0.678, + "grad_norm": 1.8133728504180908, + "learning_rate": 1.9048270524660197e-05, + "loss": 0.5667, + "step": 2034 + }, + { + "epoch": 0.6783333333333333, + "grad_norm": 2.620681047439575, + "learning_rate": 1.9046618455137912e-05, + "loss": 0.5721, + "step": 2035 + }, + { + "epoch": 0.6786666666666666, + "grad_norm": 2.214698553085327, + "learning_rate": 1.9044965024747703e-05, + "loss": 0.5808, + "step": 2036 + }, + { + "epoch": 0.679, + "grad_norm": 2.1781506538391113, + "learning_rate": 1.90433102337383e-05, + "loss": 0.6382, + "step": 2037 + }, + { + "epoch": 0.6793333333333333, + "grad_norm": 1.805187702178955, + "learning_rate": 1.9041654082358628e-05, + "loss": 0.5615, + "step": 2038 + }, + { + "epoch": 0.6796666666666666, + "grad_norm": 1.9462668895721436, + "learning_rate": 1.9039996570857817e-05, + "loss": 0.5448, + "step": 2039 + }, + { + "epoch": 0.68, + "grad_norm": 2.022385597229004, + "learning_rate": 1.9038337699485207e-05, + "loss": 0.539, + "step": 2040 + }, + { + "epoch": 0.6803333333333333, + "grad_norm": 1.7152539491653442, + "learning_rate": 1.903667746849034e-05, + "loss": 0.568, + "step": 2041 + }, + { + "epoch": 0.6806666666666666, + "grad_norm": 1.998419165611267, + "learning_rate": 1.9035015878122957e-05, + "loss": 0.5529, + "step": 2042 + }, + { + "epoch": 0.681, + "grad_norm": 1.653003215789795, + "learning_rate": 1.903335292863301e-05, + "loss": 0.5965, + "step": 2043 + }, + { + "epoch": 0.6813333333333333, + "grad_norm": 1.721289038658142, + "learning_rate": 1.9031688620270657e-05, + "loss": 0.5243, + "step": 2044 + }, + { + "epoch": 0.6816666666666666, + "grad_norm": 1.8847224712371826, + "learning_rate": 1.9030022953286254e-05, + "loss": 0.6403, + "step": 2045 + }, + { + "epoch": 0.682, + "grad_norm": 1.7527186870574951, + "learning_rate": 1.9028355927930363e-05, + "loss": 0.5987, + "step": 2046 + }, + { + "epoch": 0.6823333333333333, + "grad_norm": 1.7473055124282837, + "learning_rate": 1.902668754445376e-05, + "loss": 0.5346, + "step": 2047 + }, + { + "epoch": 0.6826666666666666, + "grad_norm": 2.351830244064331, + "learning_rate": 1.9025017803107406e-05, + "loss": 0.5645, + "step": 2048 + }, + { + "epoch": 0.683, + "grad_norm": 2.436239719390869, + "learning_rate": 1.9023346704142488e-05, + "loss": 0.5842, + "step": 2049 + }, + { + "epoch": 0.6833333333333333, + "grad_norm": 1.618774652481079, + "learning_rate": 1.902167424781038e-05, + "loss": 0.5673, + "step": 2050 + }, + { + "epoch": 0.6836666666666666, + "grad_norm": 1.9775283336639404, + "learning_rate": 1.9020000434362667e-05, + "loss": 0.5593, + "step": 2051 + }, + { + "epoch": 0.684, + "grad_norm": 2.031244993209839, + "learning_rate": 1.901832526405114e-05, + "loss": 0.5813, + "step": 2052 + }, + { + "epoch": 0.6843333333333333, + "grad_norm": 2.259290933609009, + "learning_rate": 1.901664873712779e-05, + "loss": 0.6143, + "step": 2053 + }, + { + "epoch": 0.6846666666666666, + "grad_norm": 1.794364094734192, + "learning_rate": 1.9014970853844818e-05, + "loss": 0.5981, + "step": 2054 + }, + { + "epoch": 0.685, + "grad_norm": 1.9594210386276245, + "learning_rate": 1.9013291614454622e-05, + "loss": 0.5366, + "step": 2055 + }, + { + "epoch": 0.6853333333333333, + "grad_norm": 1.9972115755081177, + "learning_rate": 1.9011611019209812e-05, + "loss": 0.6034, + "step": 2056 + }, + { + "epoch": 0.6856666666666666, + "grad_norm": 1.8668123483657837, + "learning_rate": 1.9009929068363187e-05, + "loss": 0.5867, + "step": 2057 + }, + { + "epoch": 0.686, + "grad_norm": 1.8490005731582642, + "learning_rate": 1.9008245762167773e-05, + "loss": 0.5515, + "step": 2058 + }, + { + "epoch": 0.6863333333333334, + "grad_norm": 1.726818561553955, + "learning_rate": 1.9006561100876774e-05, + "loss": 0.5384, + "step": 2059 + }, + { + "epoch": 0.6866666666666666, + "grad_norm": 1.701831579208374, + "learning_rate": 1.9004875084743624e-05, + "loss": 0.5595, + "step": 2060 + }, + { + "epoch": 0.687, + "grad_norm": 1.8971352577209473, + "learning_rate": 1.9003187714021936e-05, + "loss": 0.5604, + "step": 2061 + }, + { + "epoch": 0.6873333333333334, + "grad_norm": 1.8527909517288208, + "learning_rate": 1.9001498988965544e-05, + "loss": 0.5391, + "step": 2062 + }, + { + "epoch": 0.6876666666666666, + "grad_norm": 1.8558787107467651, + "learning_rate": 1.8999808909828483e-05, + "loss": 0.5901, + "step": 2063 + }, + { + "epoch": 0.688, + "grad_norm": 2.0249087810516357, + "learning_rate": 1.8998117476864984e-05, + "loss": 0.5426, + "step": 2064 + }, + { + "epoch": 0.6883333333333334, + "grad_norm": 1.7440299987792969, + "learning_rate": 1.8996424690329486e-05, + "loss": 0.5492, + "step": 2065 + }, + { + "epoch": 0.6886666666666666, + "grad_norm": 1.8593738079071045, + "learning_rate": 1.8994730550476634e-05, + "loss": 0.5918, + "step": 2066 + }, + { + "epoch": 0.689, + "grad_norm": 2.216716766357422, + "learning_rate": 1.8993035057561274e-05, + "loss": 0.5792, + "step": 2067 + }, + { + "epoch": 0.6893333333333334, + "grad_norm": 1.5799822807312012, + "learning_rate": 1.8991338211838457e-05, + "loss": 0.6093, + "step": 2068 + }, + { + "epoch": 0.6896666666666667, + "grad_norm": 2.32010555267334, + "learning_rate": 1.898964001356344e-05, + "loss": 0.574, + "step": 2069 + }, + { + "epoch": 0.69, + "grad_norm": 2.068986415863037, + "learning_rate": 1.8987940462991673e-05, + "loss": 0.597, + "step": 2070 + }, + { + "epoch": 0.6903333333333334, + "grad_norm": 2.1589324474334717, + "learning_rate": 1.8986239560378822e-05, + "loss": 0.5785, + "step": 2071 + }, + { + "epoch": 0.6906666666666667, + "grad_norm": 1.7123711109161377, + "learning_rate": 1.8984537305980747e-05, + "loss": 0.5698, + "step": 2072 + }, + { + "epoch": 0.691, + "grad_norm": 1.9085718393325806, + "learning_rate": 1.8982833700053518e-05, + "loss": 0.5372, + "step": 2073 + }, + { + "epoch": 0.6913333333333334, + "grad_norm": 1.71159827709198, + "learning_rate": 1.8981128742853404e-05, + "loss": 0.5113, + "step": 2074 + }, + { + "epoch": 0.6916666666666667, + "grad_norm": 1.8708900213241577, + "learning_rate": 1.897942243463688e-05, + "loss": 0.5787, + "step": 2075 + }, + { + "epoch": 0.692, + "grad_norm": 2.1282577514648438, + "learning_rate": 1.897771477566063e-05, + "loss": 0.6118, + "step": 2076 + }, + { + "epoch": 0.6923333333333334, + "grad_norm": 2.365218162536621, + "learning_rate": 1.897600576618152e-05, + "loss": 0.6486, + "step": 2077 + }, + { + "epoch": 0.6926666666666667, + "grad_norm": 1.744430661201477, + "learning_rate": 1.8974295406456646e-05, + "loss": 0.5819, + "step": 2078 + }, + { + "epoch": 0.693, + "grad_norm": 1.962847352027893, + "learning_rate": 1.8972583696743284e-05, + "loss": 0.5871, + "step": 2079 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 1.7624913454055786, + "learning_rate": 1.8970870637298936e-05, + "loss": 0.5473, + "step": 2080 + }, + { + "epoch": 0.6936666666666667, + "grad_norm": 1.687206745147705, + "learning_rate": 1.8969156228381283e-05, + "loss": 0.5646, + "step": 2081 + }, + { + "epoch": 0.694, + "grad_norm": 2.083860397338867, + "learning_rate": 1.8967440470248227e-05, + "loss": 0.6291, + "step": 2082 + }, + { + "epoch": 0.6943333333333334, + "grad_norm": 1.6813275814056396, + "learning_rate": 1.8965723363157868e-05, + "loss": 0.5998, + "step": 2083 + }, + { + "epoch": 0.6946666666666667, + "grad_norm": 1.601630687713623, + "learning_rate": 1.89640049073685e-05, + "loss": 0.6042, + "step": 2084 + }, + { + "epoch": 0.695, + "grad_norm": 1.5633183717727661, + "learning_rate": 1.8962285103138637e-05, + "loss": 0.5756, + "step": 2085 + }, + { + "epoch": 0.6953333333333334, + "grad_norm": 1.8745903968811035, + "learning_rate": 1.8960563950726976e-05, + "loss": 0.5466, + "step": 2086 + }, + { + "epoch": 0.6956666666666667, + "grad_norm": 1.9840054512023926, + "learning_rate": 1.895884145039244e-05, + "loss": 0.5488, + "step": 2087 + }, + { + "epoch": 0.696, + "grad_norm": 1.7774735689163208, + "learning_rate": 1.895711760239413e-05, + "loss": 0.5941, + "step": 2088 + }, + { + "epoch": 0.6963333333333334, + "grad_norm": 1.9068409204483032, + "learning_rate": 1.895539240699137e-05, + "loss": 0.5947, + "step": 2089 + }, + { + "epoch": 0.6966666666666667, + "grad_norm": 1.7330080270767212, + "learning_rate": 1.895366586444367e-05, + "loss": 0.5926, + "step": 2090 + }, + { + "epoch": 0.697, + "grad_norm": 1.6770814657211304, + "learning_rate": 1.895193797501076e-05, + "loss": 0.5427, + "step": 2091 + }, + { + "epoch": 0.6973333333333334, + "grad_norm": 1.6853171586990356, + "learning_rate": 1.8950208738952555e-05, + "loss": 0.6246, + "step": 2092 + }, + { + "epoch": 0.6976666666666667, + "grad_norm": 1.8493105173110962, + "learning_rate": 1.8948478156529188e-05, + "loss": 0.5992, + "step": 2093 + }, + { + "epoch": 0.698, + "grad_norm": 1.900656819343567, + "learning_rate": 1.8946746228000987e-05, + "loss": 0.5525, + "step": 2094 + }, + { + "epoch": 0.6983333333333334, + "grad_norm": 1.8673324584960938, + "learning_rate": 1.8945012953628478e-05, + "loss": 0.6023, + "step": 2095 + }, + { + "epoch": 0.6986666666666667, + "grad_norm": 1.867167353630066, + "learning_rate": 1.89432783336724e-05, + "loss": 0.5833, + "step": 2096 + }, + { + "epoch": 0.699, + "grad_norm": 1.9404116868972778, + "learning_rate": 1.8941542368393683e-05, + "loss": 0.5328, + "step": 2097 + }, + { + "epoch": 0.6993333333333334, + "grad_norm": 1.6877232789993286, + "learning_rate": 1.893980505805347e-05, + "loss": 0.5221, + "step": 2098 + }, + { + "epoch": 0.6996666666666667, + "grad_norm": 2.303561210632324, + "learning_rate": 1.8938066402913103e-05, + "loss": 0.52, + "step": 2099 + }, + { + "epoch": 0.7, + "grad_norm": 1.8887196779251099, + "learning_rate": 1.8936326403234125e-05, + "loss": 0.5804, + "step": 2100 + }, + { + "epoch": 0.7003333333333334, + "grad_norm": 1.8010002374649048, + "learning_rate": 1.8934585059278275e-05, + "loss": 0.5442, + "step": 2101 + }, + { + "epoch": 0.7006666666666667, + "grad_norm": 1.6902661323547363, + "learning_rate": 1.893284237130751e-05, + "loss": 0.5067, + "step": 2102 + }, + { + "epoch": 0.701, + "grad_norm": 1.7310956716537476, + "learning_rate": 1.893109833958397e-05, + "loss": 0.4865, + "step": 2103 + }, + { + "epoch": 0.7013333333333334, + "grad_norm": 2.2216367721557617, + "learning_rate": 1.892935296437001e-05, + "loss": 0.624, + "step": 2104 + }, + { + "epoch": 0.7016666666666667, + "grad_norm": 1.9336506128311157, + "learning_rate": 1.8927606245928188e-05, + "loss": 0.5407, + "step": 2105 + }, + { + "epoch": 0.702, + "grad_norm": 2.1904807090759277, + "learning_rate": 1.892585818452126e-05, + "loss": 0.5496, + "step": 2106 + }, + { + "epoch": 0.7023333333333334, + "grad_norm": 2.1775004863739014, + "learning_rate": 1.8924108780412175e-05, + "loss": 0.5758, + "step": 2107 + }, + { + "epoch": 0.7026666666666667, + "grad_norm": 2.1306331157684326, + "learning_rate": 1.89223580338641e-05, + "loss": 0.548, + "step": 2108 + }, + { + "epoch": 0.703, + "grad_norm": 1.8506251573562622, + "learning_rate": 1.8920605945140396e-05, + "loss": 0.5441, + "step": 2109 + }, + { + "epoch": 0.7033333333333334, + "grad_norm": 2.2135543823242188, + "learning_rate": 1.8918852514504632e-05, + "loss": 0.59, + "step": 2110 + }, + { + "epoch": 0.7036666666666667, + "grad_norm": 1.838260293006897, + "learning_rate": 1.8917097742220566e-05, + "loss": 0.601, + "step": 2111 + }, + { + "epoch": 0.704, + "grad_norm": 1.8703138828277588, + "learning_rate": 1.8915341628552166e-05, + "loss": 0.5794, + "step": 2112 + }, + { + "epoch": 0.7043333333333334, + "grad_norm": 1.8700755834579468, + "learning_rate": 1.8913584173763606e-05, + "loss": 0.5605, + "step": 2113 + }, + { + "epoch": 0.7046666666666667, + "grad_norm": 1.6666637659072876, + "learning_rate": 1.891182537811925e-05, + "loss": 0.5656, + "step": 2114 + }, + { + "epoch": 0.705, + "grad_norm": 1.922322392463684, + "learning_rate": 1.891006524188368e-05, + "loss": 0.5791, + "step": 2115 + }, + { + "epoch": 0.7053333333333334, + "grad_norm": 2.0193710327148438, + "learning_rate": 1.8908303765321662e-05, + "loss": 0.6029, + "step": 2116 + }, + { + "epoch": 0.7056666666666667, + "grad_norm": 2.2458407878875732, + "learning_rate": 1.890654094869818e-05, + "loss": 0.5575, + "step": 2117 + }, + { + "epoch": 0.706, + "grad_norm": 2.1185550689697266, + "learning_rate": 1.8904776792278403e-05, + "loss": 0.6357, + "step": 2118 + }, + { + "epoch": 0.7063333333333334, + "grad_norm": 1.9450486898422241, + "learning_rate": 1.8903011296327716e-05, + "loss": 0.5643, + "step": 2119 + }, + { + "epoch": 0.7066666666666667, + "grad_norm": 2.068369150161743, + "learning_rate": 1.8901244461111697e-05, + "loss": 0.5428, + "step": 2120 + }, + { + "epoch": 0.707, + "grad_norm": 1.693382740020752, + "learning_rate": 1.889947628689613e-05, + "loss": 0.5815, + "step": 2121 + }, + { + "epoch": 0.7073333333333334, + "grad_norm": 1.8284637928009033, + "learning_rate": 1.8897706773946997e-05, + "loss": 0.5783, + "step": 2122 + }, + { + "epoch": 0.7076666666666667, + "grad_norm": 1.7653239965438843, + "learning_rate": 1.8895935922530483e-05, + "loss": 0.5769, + "step": 2123 + }, + { + "epoch": 0.708, + "grad_norm": 2.0442309379577637, + "learning_rate": 1.889416373291298e-05, + "loss": 0.5575, + "step": 2124 + }, + { + "epoch": 0.7083333333333334, + "grad_norm": 1.6616358757019043, + "learning_rate": 1.8892390205361063e-05, + "loss": 0.5565, + "step": 2125 + }, + { + "epoch": 0.7086666666666667, + "grad_norm": 2.1232919692993164, + "learning_rate": 1.889061534014153e-05, + "loss": 0.603, + "step": 2126 + }, + { + "epoch": 0.709, + "grad_norm": 1.8380498886108398, + "learning_rate": 1.888883913752137e-05, + "loss": 0.5094, + "step": 2127 + }, + { + "epoch": 0.7093333333333334, + "grad_norm": 2.0929439067840576, + "learning_rate": 1.8887061597767774e-05, + "loss": 0.5878, + "step": 2128 + }, + { + "epoch": 0.7096666666666667, + "grad_norm": 2.579010248184204, + "learning_rate": 1.8885282721148135e-05, + "loss": 0.5671, + "step": 2129 + }, + { + "epoch": 0.71, + "grad_norm": 2.0320982933044434, + "learning_rate": 1.8883502507930044e-05, + "loss": 0.5872, + "step": 2130 + }, + { + "epoch": 0.7103333333333334, + "grad_norm": 2.2939772605895996, + "learning_rate": 1.8881720958381297e-05, + "loss": 0.6338, + "step": 2131 + }, + { + "epoch": 0.7106666666666667, + "grad_norm": 1.8123842477798462, + "learning_rate": 1.8879938072769887e-05, + "loss": 0.5676, + "step": 2132 + }, + { + "epoch": 0.711, + "grad_norm": 1.975151538848877, + "learning_rate": 1.8878153851364013e-05, + "loss": 0.5492, + "step": 2133 + }, + { + "epoch": 0.7113333333333334, + "grad_norm": 2.02030611038208, + "learning_rate": 1.8876368294432078e-05, + "loss": 0.5363, + "step": 2134 + }, + { + "epoch": 0.7116666666666667, + "grad_norm": 1.698518991470337, + "learning_rate": 1.887458140224267e-05, + "loss": 0.5499, + "step": 2135 + }, + { + "epoch": 0.712, + "grad_norm": 2.0173561573028564, + "learning_rate": 1.8872793175064594e-05, + "loss": 0.6291, + "step": 2136 + }, + { + "epoch": 0.7123333333333334, + "grad_norm": 1.9108530282974243, + "learning_rate": 1.887100361316685e-05, + "loss": 0.6112, + "step": 2137 + }, + { + "epoch": 0.7126666666666667, + "grad_norm": 1.9151854515075684, + "learning_rate": 1.886921271681864e-05, + "loss": 0.5238, + "step": 2138 + }, + { + "epoch": 0.713, + "grad_norm": 2.3962857723236084, + "learning_rate": 1.886742048628936e-05, + "loss": 0.5009, + "step": 2139 + }, + { + "epoch": 0.7133333333333334, + "grad_norm": 1.9997479915618896, + "learning_rate": 1.8865626921848615e-05, + "loss": 0.5753, + "step": 2140 + }, + { + "epoch": 0.7136666666666667, + "grad_norm": 1.885342001914978, + "learning_rate": 1.8863832023766208e-05, + "loss": 0.6044, + "step": 2141 + }, + { + "epoch": 0.714, + "grad_norm": 1.5714627504348755, + "learning_rate": 1.8862035792312148e-05, + "loss": 0.5679, + "step": 2142 + }, + { + "epoch": 0.7143333333333334, + "grad_norm": 1.6094398498535156, + "learning_rate": 1.8860238227756633e-05, + "loss": 0.5216, + "step": 2143 + }, + { + "epoch": 0.7146666666666667, + "grad_norm": 2.0711686611175537, + "learning_rate": 1.885843933037007e-05, + "loss": 0.6148, + "step": 2144 + }, + { + "epoch": 0.715, + "grad_norm": 2.23581862449646, + "learning_rate": 1.8856639100423062e-05, + "loss": 0.5511, + "step": 2145 + }, + { + "epoch": 0.7153333333333334, + "grad_norm": 2.0527005195617676, + "learning_rate": 1.8854837538186417e-05, + "loss": 0.5535, + "step": 2146 + }, + { + "epoch": 0.7156666666666667, + "grad_norm": 1.9086167812347412, + "learning_rate": 1.885303464393114e-05, + "loss": 0.5465, + "step": 2147 + }, + { + "epoch": 0.716, + "grad_norm": 2.3661744594573975, + "learning_rate": 1.8851230417928433e-05, + "loss": 0.583, + "step": 2148 + }, + { + "epoch": 0.7163333333333334, + "grad_norm": 2.1467337608337402, + "learning_rate": 1.884942486044971e-05, + "loss": 0.5579, + "step": 2149 + }, + { + "epoch": 0.7166666666666667, + "grad_norm": 1.8979485034942627, + "learning_rate": 1.8847617971766577e-05, + "loss": 0.5988, + "step": 2150 + }, + { + "epoch": 0.717, + "grad_norm": 2.151345729827881, + "learning_rate": 1.884580975215084e-05, + "loss": 0.5836, + "step": 2151 + }, + { + "epoch": 0.7173333333333334, + "grad_norm": 2.291039228439331, + "learning_rate": 1.8844000201874505e-05, + "loss": 0.5695, + "step": 2152 + }, + { + "epoch": 0.7176666666666667, + "grad_norm": 2.073620319366455, + "learning_rate": 1.884218932120978e-05, + "loss": 0.6118, + "step": 2153 + }, + { + "epoch": 0.718, + "grad_norm": 2.0049045085906982, + "learning_rate": 1.8840377110429075e-05, + "loss": 0.549, + "step": 2154 + }, + { + "epoch": 0.7183333333333334, + "grad_norm": 1.714678168296814, + "learning_rate": 1.8838563569804998e-05, + "loss": 0.5735, + "step": 2155 + }, + { + "epoch": 0.7186666666666667, + "grad_norm": 2.244452953338623, + "learning_rate": 1.883674869961035e-05, + "loss": 0.5459, + "step": 2156 + }, + { + "epoch": 0.719, + "grad_norm": 1.9157934188842773, + "learning_rate": 1.8834932500118148e-05, + "loss": 0.5919, + "step": 2157 + }, + { + "epoch": 0.7193333333333334, + "grad_norm": 1.6120067834854126, + "learning_rate": 1.8833114971601593e-05, + "loss": 0.5195, + "step": 2158 + }, + { + "epoch": 0.7196666666666667, + "grad_norm": 1.7875571250915527, + "learning_rate": 1.8831296114334103e-05, + "loss": 0.5236, + "step": 2159 + }, + { + "epoch": 0.72, + "grad_norm": 1.9105576276779175, + "learning_rate": 1.8829475928589272e-05, + "loss": 0.5538, + "step": 2160 + }, + { + "epoch": 0.7203333333333334, + "grad_norm": 2.060075283050537, + "learning_rate": 1.8827654414640914e-05, + "loss": 0.6083, + "step": 2161 + }, + { + "epoch": 0.7206666666666667, + "grad_norm": 2.228980302810669, + "learning_rate": 1.882583157276304e-05, + "loss": 0.562, + "step": 2162 + }, + { + "epoch": 0.721, + "grad_norm": 1.9697140455245972, + "learning_rate": 1.8824007403229852e-05, + "loss": 0.5577, + "step": 2163 + }, + { + "epoch": 0.7213333333333334, + "grad_norm": 1.8301570415496826, + "learning_rate": 1.882218190631576e-05, + "loss": 0.5718, + "step": 2164 + }, + { + "epoch": 0.7216666666666667, + "grad_norm": 2.0624735355377197, + "learning_rate": 1.8820355082295364e-05, + "loss": 0.5895, + "step": 2165 + }, + { + "epoch": 0.722, + "grad_norm": 1.726669430732727, + "learning_rate": 1.881852693144348e-05, + "loss": 0.5556, + "step": 2166 + }, + { + "epoch": 0.7223333333333334, + "grad_norm": 1.6995861530303955, + "learning_rate": 1.881669745403511e-05, + "loss": 0.5476, + "step": 2167 + }, + { + "epoch": 0.7226666666666667, + "grad_norm": 1.605146050453186, + "learning_rate": 1.8814866650345455e-05, + "loss": 0.5477, + "step": 2168 + }, + { + "epoch": 0.723, + "grad_norm": 1.7791026830673218, + "learning_rate": 1.8813034520649923e-05, + "loss": 0.532, + "step": 2169 + }, + { + "epoch": 0.7233333333333334, + "grad_norm": 1.852174162864685, + "learning_rate": 1.8811201065224122e-05, + "loss": 0.5414, + "step": 2170 + }, + { + "epoch": 0.7236666666666667, + "grad_norm": 1.7012200355529785, + "learning_rate": 1.8809366284343848e-05, + "loss": 0.5438, + "step": 2171 + }, + { + "epoch": 0.724, + "grad_norm": 1.6955254077911377, + "learning_rate": 1.880753017828511e-05, + "loss": 0.6176, + "step": 2172 + }, + { + "epoch": 0.7243333333333334, + "grad_norm": 1.6132593154907227, + "learning_rate": 1.88056927473241e-05, + "loss": 0.5346, + "step": 2173 + }, + { + "epoch": 0.7246666666666667, + "grad_norm": 2.0301737785339355, + "learning_rate": 1.880385399173724e-05, + "loss": 0.5615, + "step": 2174 + }, + { + "epoch": 0.725, + "grad_norm": 1.4682117700576782, + "learning_rate": 1.880201391180111e-05, + "loss": 0.5575, + "step": 2175 + }, + { + "epoch": 0.7253333333333334, + "grad_norm": 2.3218801021575928, + "learning_rate": 1.880017250779253e-05, + "loss": 0.5663, + "step": 2176 + }, + { + "epoch": 0.7256666666666667, + "grad_norm": 1.6622506380081177, + "learning_rate": 1.879832977998848e-05, + "loss": 0.5594, + "step": 2177 + }, + { + "epoch": 0.726, + "grad_norm": 1.9558353424072266, + "learning_rate": 1.879648572866617e-05, + "loss": 0.5797, + "step": 2178 + }, + { + "epoch": 0.7263333333333334, + "grad_norm": 2.0650851726531982, + "learning_rate": 1.8794640354102988e-05, + "loss": 0.6214, + "step": 2179 + }, + { + "epoch": 0.7266666666666667, + "grad_norm": 1.7640857696533203, + "learning_rate": 1.8792793656576544e-05, + "loss": 0.478, + "step": 2180 + }, + { + "epoch": 0.727, + "grad_norm": 2.132930040359497, + "learning_rate": 1.8790945636364628e-05, + "loss": 0.5777, + "step": 2181 + }, + { + "epoch": 0.7273333333333334, + "grad_norm": 1.9229763746261597, + "learning_rate": 1.878909629374523e-05, + "loss": 0.5463, + "step": 2182 + }, + { + "epoch": 0.7276666666666667, + "grad_norm": 1.7831907272338867, + "learning_rate": 1.8787245628996548e-05, + "loss": 0.555, + "step": 2183 + }, + { + "epoch": 0.728, + "grad_norm": 1.9775806665420532, + "learning_rate": 1.8785393642396976e-05, + "loss": 0.5888, + "step": 2184 + }, + { + "epoch": 0.7283333333333334, + "grad_norm": 1.8439579010009766, + "learning_rate": 1.87835403342251e-05, + "loss": 0.6042, + "step": 2185 + }, + { + "epoch": 0.7286666666666667, + "grad_norm": 1.800899863243103, + "learning_rate": 1.8781685704759716e-05, + "loss": 0.5919, + "step": 2186 + }, + { + "epoch": 0.729, + "grad_norm": 1.6839807033538818, + "learning_rate": 1.8779829754279806e-05, + "loss": 0.5986, + "step": 2187 + }, + { + "epoch": 0.7293333333333333, + "grad_norm": 2.0785436630249023, + "learning_rate": 1.8777972483064566e-05, + "loss": 0.5854, + "step": 2188 + }, + { + "epoch": 0.7296666666666667, + "grad_norm": 1.8054238557815552, + "learning_rate": 1.8776113891393374e-05, + "loss": 0.5805, + "step": 2189 + }, + { + "epoch": 0.73, + "grad_norm": 2.034383535385132, + "learning_rate": 1.877425397954582e-05, + "loss": 0.5703, + "step": 2190 + }, + { + "epoch": 0.7303333333333333, + "grad_norm": 1.8439607620239258, + "learning_rate": 1.8772392747801687e-05, + "loss": 0.5643, + "step": 2191 + }, + { + "epoch": 0.7306666666666667, + "grad_norm": 1.901745080947876, + "learning_rate": 1.8770530196440955e-05, + "loss": 0.5281, + "step": 2192 + }, + { + "epoch": 0.731, + "grad_norm": 1.680163025856018, + "learning_rate": 1.876866632574381e-05, + "loss": 0.5414, + "step": 2193 + }, + { + "epoch": 0.7313333333333333, + "grad_norm": 2.0803167819976807, + "learning_rate": 1.876680113599062e-05, + "loss": 0.5798, + "step": 2194 + }, + { + "epoch": 0.7316666666666667, + "grad_norm": 1.7921168804168701, + "learning_rate": 1.876493462746197e-05, + "loss": 0.5518, + "step": 2195 + }, + { + "epoch": 0.732, + "grad_norm": 1.9223124980926514, + "learning_rate": 1.8763066800438638e-05, + "loss": 0.6066, + "step": 2196 + }, + { + "epoch": 0.7323333333333333, + "grad_norm": 2.168189287185669, + "learning_rate": 1.8761197655201592e-05, + "loss": 0.552, + "step": 2197 + }, + { + "epoch": 0.7326666666666667, + "grad_norm": 1.6304471492767334, + "learning_rate": 1.8759327192032007e-05, + "loss": 0.5542, + "step": 2198 + }, + { + "epoch": 0.733, + "grad_norm": 2.267163038253784, + "learning_rate": 1.875745541121126e-05, + "loss": 0.6072, + "step": 2199 + }, + { + "epoch": 0.7333333333333333, + "grad_norm": 1.8281627893447876, + "learning_rate": 1.8755582313020912e-05, + "loss": 0.5521, + "step": 2200 + }, + { + "epoch": 0.7336666666666667, + "grad_norm": 2.2135534286499023, + "learning_rate": 1.8753707897742732e-05, + "loss": 0.5377, + "step": 2201 + }, + { + "epoch": 0.734, + "grad_norm": 1.8439853191375732, + "learning_rate": 1.8751832165658682e-05, + "loss": 0.5498, + "step": 2202 + }, + { + "epoch": 0.7343333333333333, + "grad_norm": 1.9475177526474, + "learning_rate": 1.874995511705093e-05, + "loss": 0.5528, + "step": 2203 + }, + { + "epoch": 0.7346666666666667, + "grad_norm": 1.7557822465896606, + "learning_rate": 1.8748076752201837e-05, + "loss": 0.5375, + "step": 2204 + }, + { + "epoch": 0.735, + "grad_norm": 1.6403133869171143, + "learning_rate": 1.874619707139396e-05, + "loss": 0.512, + "step": 2205 + }, + { + "epoch": 0.7353333333333333, + "grad_norm": 1.9532490968704224, + "learning_rate": 1.874431607491006e-05, + "loss": 0.5259, + "step": 2206 + }, + { + "epoch": 0.7356666666666667, + "grad_norm": 2.6827540397644043, + "learning_rate": 1.8742433763033085e-05, + "loss": 0.5348, + "step": 2207 + }, + { + "epoch": 0.736, + "grad_norm": 1.8797560930252075, + "learning_rate": 1.8740550136046195e-05, + "loss": 0.5899, + "step": 2208 + }, + { + "epoch": 0.7363333333333333, + "grad_norm": 2.3218486309051514, + "learning_rate": 1.8738665194232744e-05, + "loss": 0.5931, + "step": 2209 + }, + { + "epoch": 0.7366666666666667, + "grad_norm": 1.7182762622833252, + "learning_rate": 1.873677893787627e-05, + "loss": 0.5602, + "step": 2210 + }, + { + "epoch": 0.737, + "grad_norm": 2.0669355392456055, + "learning_rate": 1.8734891367260528e-05, + "loss": 0.5454, + "step": 2211 + }, + { + "epoch": 0.7373333333333333, + "grad_norm": 1.96034574508667, + "learning_rate": 1.8733002482669457e-05, + "loss": 0.5615, + "step": 2212 + }, + { + "epoch": 0.7376666666666667, + "grad_norm": 1.9094692468643188, + "learning_rate": 1.87311122843872e-05, + "loss": 0.5917, + "step": 2213 + }, + { + "epoch": 0.738, + "grad_norm": 1.838826060295105, + "learning_rate": 1.8729220772698096e-05, + "loss": 0.5672, + "step": 2214 + }, + { + "epoch": 0.7383333333333333, + "grad_norm": 1.6768696308135986, + "learning_rate": 1.872732794788669e-05, + "loss": 0.491, + "step": 2215 + }, + { + "epoch": 0.7386666666666667, + "grad_norm": 2.0375819206237793, + "learning_rate": 1.8725433810237703e-05, + "loss": 0.5805, + "step": 2216 + }, + { + "epoch": 0.739, + "grad_norm": 1.6716399192810059, + "learning_rate": 1.872353836003608e-05, + "loss": 0.5782, + "step": 2217 + }, + { + "epoch": 0.7393333333333333, + "grad_norm": 1.9901493787765503, + "learning_rate": 1.8721641597566937e-05, + "loss": 0.6337, + "step": 2218 + }, + { + "epoch": 0.7396666666666667, + "grad_norm": 1.8798044919967651, + "learning_rate": 1.8719743523115612e-05, + "loss": 0.5955, + "step": 2219 + }, + { + "epoch": 0.74, + "grad_norm": 1.9350297451019287, + "learning_rate": 1.8717844136967626e-05, + "loss": 0.5481, + "step": 2220 + }, + { + "epoch": 0.7403333333333333, + "grad_norm": 1.6794553995132446, + "learning_rate": 1.8715943439408698e-05, + "loss": 0.6047, + "step": 2221 + }, + { + "epoch": 0.7406666666666667, + "grad_norm": 1.9446078538894653, + "learning_rate": 1.871404143072475e-05, + "loss": 0.5318, + "step": 2222 + }, + { + "epoch": 0.741, + "grad_norm": 2.142583131790161, + "learning_rate": 1.8712138111201898e-05, + "loss": 0.5341, + "step": 2223 + }, + { + "epoch": 0.7413333333333333, + "grad_norm": 2.5452725887298584, + "learning_rate": 1.871023348112645e-05, + "loss": 0.5293, + "step": 2224 + }, + { + "epoch": 0.7416666666666667, + "grad_norm": 1.646480679512024, + "learning_rate": 1.870832754078492e-05, + "loss": 0.5863, + "step": 2225 + }, + { + "epoch": 0.742, + "grad_norm": 2.0577964782714844, + "learning_rate": 1.870642029046402e-05, + "loss": 0.5287, + "step": 2226 + }, + { + "epoch": 0.7423333333333333, + "grad_norm": 2.5461041927337646, + "learning_rate": 1.8704511730450646e-05, + "loss": 0.5765, + "step": 2227 + }, + { + "epoch": 0.7426666666666667, + "grad_norm": 2.3957419395446777, + "learning_rate": 1.8702601861031907e-05, + "loss": 0.5854, + "step": 2228 + }, + { + "epoch": 0.743, + "grad_norm": 2.1979353427886963, + "learning_rate": 1.87006906824951e-05, + "loss": 0.5957, + "step": 2229 + }, + { + "epoch": 0.7433333333333333, + "grad_norm": 1.6933979988098145, + "learning_rate": 1.8698778195127715e-05, + "loss": 0.5181, + "step": 2230 + }, + { + "epoch": 0.7436666666666667, + "grad_norm": 1.8070861101150513, + "learning_rate": 1.8696864399217452e-05, + "loss": 0.5326, + "step": 2231 + }, + { + "epoch": 0.744, + "grad_norm": 2.7960495948791504, + "learning_rate": 1.869494929505219e-05, + "loss": 0.5575, + "step": 2232 + }, + { + "epoch": 0.7443333333333333, + "grad_norm": 2.390216588973999, + "learning_rate": 1.869303288292003e-05, + "loss": 0.6007, + "step": 2233 + }, + { + "epoch": 0.7446666666666667, + "grad_norm": 1.8040499687194824, + "learning_rate": 1.8691115163109237e-05, + "loss": 0.5629, + "step": 2234 + }, + { + "epoch": 0.745, + "grad_norm": 1.6371700763702393, + "learning_rate": 1.8689196135908303e-05, + "loss": 0.574, + "step": 2235 + }, + { + "epoch": 0.7453333333333333, + "grad_norm": 1.871350646018982, + "learning_rate": 1.86872758016059e-05, + "loss": 0.5751, + "step": 2236 + }, + { + "epoch": 0.7456666666666667, + "grad_norm": 1.9867359399795532, + "learning_rate": 1.8685354160490903e-05, + "loss": 0.5862, + "step": 2237 + }, + { + "epoch": 0.746, + "grad_norm": 2.6972033977508545, + "learning_rate": 1.868343121285238e-05, + "loss": 0.6119, + "step": 2238 + }, + { + "epoch": 0.7463333333333333, + "grad_norm": 1.7179450988769531, + "learning_rate": 1.8681506958979593e-05, + "loss": 0.582, + "step": 2239 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 1.5624136924743652, + "learning_rate": 1.8679581399162008e-05, + "loss": 0.513, + "step": 2240 + }, + { + "epoch": 0.747, + "grad_norm": 1.9696167707443237, + "learning_rate": 1.8677654533689287e-05, + "loss": 0.5892, + "step": 2241 + }, + { + "epoch": 0.7473333333333333, + "grad_norm": 3.0517308712005615, + "learning_rate": 1.867572636285128e-05, + "loss": 0.6371, + "step": 2242 + }, + { + "epoch": 0.7476666666666667, + "grad_norm": 1.7287601232528687, + "learning_rate": 1.8673796886938038e-05, + "loss": 0.5062, + "step": 2243 + }, + { + "epoch": 0.748, + "grad_norm": 1.5444921255111694, + "learning_rate": 1.8671866106239812e-05, + "loss": 0.5301, + "step": 2244 + }, + { + "epoch": 0.7483333333333333, + "grad_norm": 1.9012274742126465, + "learning_rate": 1.8669934021047046e-05, + "loss": 0.5611, + "step": 2245 + }, + { + "epoch": 0.7486666666666667, + "grad_norm": 1.6552929878234863, + "learning_rate": 1.8668000631650383e-05, + "loss": 0.5201, + "step": 2246 + }, + { + "epoch": 0.749, + "grad_norm": 2.084096908569336, + "learning_rate": 1.866606593834065e-05, + "loss": 0.5849, + "step": 2247 + }, + { + "epoch": 0.7493333333333333, + "grad_norm": 1.927965760231018, + "learning_rate": 1.866412994140889e-05, + "loss": 0.5666, + "step": 2248 + }, + { + "epoch": 0.7496666666666667, + "grad_norm": 1.9041293859481812, + "learning_rate": 1.866219264114633e-05, + "loss": 0.515, + "step": 2249 + }, + { + "epoch": 0.75, + "grad_norm": 1.6050971746444702, + "learning_rate": 1.866025403784439e-05, + "loss": 0.5658, + "step": 2250 + }, + { + "epoch": 0.7503333333333333, + "grad_norm": 1.9610923528671265, + "learning_rate": 1.865831413179469e-05, + "loss": 0.5527, + "step": 2251 + }, + { + "epoch": 0.7506666666666667, + "grad_norm": 1.7477715015411377, + "learning_rate": 1.8656372923289057e-05, + "loss": 0.5278, + "step": 2252 + }, + { + "epoch": 0.751, + "grad_norm": 2.018503189086914, + "learning_rate": 1.8654430412619494e-05, + "loss": 0.5477, + "step": 2253 + }, + { + "epoch": 0.7513333333333333, + "grad_norm": 1.8837844133377075, + "learning_rate": 1.865248660007821e-05, + "loss": 0.542, + "step": 2254 + }, + { + "epoch": 0.7516666666666667, + "grad_norm": 1.8015161752700806, + "learning_rate": 1.8650541485957617e-05, + "loss": 0.5204, + "step": 2255 + }, + { + "epoch": 0.752, + "grad_norm": 2.2271530628204346, + "learning_rate": 1.8648595070550312e-05, + "loss": 0.5817, + "step": 2256 + }, + { + "epoch": 0.7523333333333333, + "grad_norm": 1.708724021911621, + "learning_rate": 1.8646647354149087e-05, + "loss": 0.5784, + "step": 2257 + }, + { + "epoch": 0.7526666666666667, + "grad_norm": 1.8925034999847412, + "learning_rate": 1.8644698337046935e-05, + "loss": 0.5982, + "step": 2258 + }, + { + "epoch": 0.753, + "grad_norm": 1.8197609186172485, + "learning_rate": 1.864274801953705e-05, + "loss": 0.5265, + "step": 2259 + }, + { + "epoch": 0.7533333333333333, + "grad_norm": 1.674228310585022, + "learning_rate": 1.8640796401912805e-05, + "loss": 0.5562, + "step": 2260 + }, + { + "epoch": 0.7536666666666667, + "grad_norm": 1.6006112098693848, + "learning_rate": 1.8638843484467788e-05, + "loss": 0.5574, + "step": 2261 + }, + { + "epoch": 0.754, + "grad_norm": 2.0349948406219482, + "learning_rate": 1.8636889267495767e-05, + "loss": 0.5785, + "step": 2262 + }, + { + "epoch": 0.7543333333333333, + "grad_norm": 1.7714308500289917, + "learning_rate": 1.8634933751290713e-05, + "loss": 0.5823, + "step": 2263 + }, + { + "epoch": 0.7546666666666667, + "grad_norm": 2.2393484115600586, + "learning_rate": 1.8632976936146794e-05, + "loss": 0.5113, + "step": 2264 + }, + { + "epoch": 0.755, + "grad_norm": 1.900481939315796, + "learning_rate": 1.8631018822358363e-05, + "loss": 0.5942, + "step": 2265 + }, + { + "epoch": 0.7553333333333333, + "grad_norm": 1.6770048141479492, + "learning_rate": 1.8629059410219986e-05, + "loss": 0.4937, + "step": 2266 + }, + { + "epoch": 0.7556666666666667, + "grad_norm": 2.318620204925537, + "learning_rate": 1.862709870002641e-05, + "loss": 0.5356, + "step": 2267 + }, + { + "epoch": 0.756, + "grad_norm": 1.992735743522644, + "learning_rate": 1.8625136692072577e-05, + "loss": 0.5773, + "step": 2268 + }, + { + "epoch": 0.7563333333333333, + "grad_norm": 2.175776243209839, + "learning_rate": 1.862317338665363e-05, + "loss": 0.5916, + "step": 2269 + }, + { + "epoch": 0.7566666666666667, + "grad_norm": 1.8722481727600098, + "learning_rate": 1.8621208784064913e-05, + "loss": 0.5532, + "step": 2270 + }, + { + "epoch": 0.757, + "grad_norm": 1.8901983499526978, + "learning_rate": 1.8619242884601953e-05, + "loss": 0.5477, + "step": 2271 + }, + { + "epoch": 0.7573333333333333, + "grad_norm": 2.265058994293213, + "learning_rate": 1.8617275688560473e-05, + "loss": 0.5267, + "step": 2272 + }, + { + "epoch": 0.7576666666666667, + "grad_norm": 2.1035256385803223, + "learning_rate": 1.8615307196236402e-05, + "loss": 0.5107, + "step": 2273 + }, + { + "epoch": 0.758, + "grad_norm": 2.2077574729919434, + "learning_rate": 1.8613337407925854e-05, + "loss": 0.5318, + "step": 2274 + }, + { + "epoch": 0.7583333333333333, + "grad_norm": 2.489492177963257, + "learning_rate": 1.8611366323925138e-05, + "loss": 0.5819, + "step": 2275 + }, + { + "epoch": 0.7586666666666667, + "grad_norm": 2.199556350708008, + "learning_rate": 1.8609393944530765e-05, + "loss": 0.5955, + "step": 2276 + }, + { + "epoch": 0.759, + "grad_norm": 2.2557411193847656, + "learning_rate": 1.860742027003944e-05, + "loss": 0.5912, + "step": 2277 + }, + { + "epoch": 0.7593333333333333, + "grad_norm": 1.9559897184371948, + "learning_rate": 1.860544530074805e-05, + "loss": 0.5491, + "step": 2278 + }, + { + "epoch": 0.7596666666666667, + "grad_norm": 2.1367266178131104, + "learning_rate": 1.8603469036953694e-05, + "loss": 0.5145, + "step": 2279 + }, + { + "epoch": 0.76, + "grad_norm": 2.057675838470459, + "learning_rate": 1.860149147895366e-05, + "loss": 0.5334, + "step": 2280 + }, + { + "epoch": 0.7603333333333333, + "grad_norm": 2.372938394546509, + "learning_rate": 1.8599512627045416e-05, + "loss": 0.6242, + "step": 2281 + }, + { + "epoch": 0.7606666666666667, + "grad_norm": 1.9466214179992676, + "learning_rate": 1.8597532481526647e-05, + "loss": 0.5248, + "step": 2282 + }, + { + "epoch": 0.761, + "grad_norm": 1.9531055688858032, + "learning_rate": 1.859555104269523e-05, + "loss": 0.5826, + "step": 2283 + }, + { + "epoch": 0.7613333333333333, + "grad_norm": 1.861224889755249, + "learning_rate": 1.8593568310849216e-05, + "loss": 0.5456, + "step": 2284 + }, + { + "epoch": 0.7616666666666667, + "grad_norm": 1.9414621591567993, + "learning_rate": 1.859158428628687e-05, + "loss": 0.5636, + "step": 2285 + }, + { + "epoch": 0.762, + "grad_norm": 2.444556951522827, + "learning_rate": 1.8589598969306646e-05, + "loss": 0.572, + "step": 2286 + }, + { + "epoch": 0.7623333333333333, + "grad_norm": 2.002796173095703, + "learning_rate": 1.858761236020719e-05, + "loss": 0.5605, + "step": 2287 + }, + { + "epoch": 0.7626666666666667, + "grad_norm": 1.8327915668487549, + "learning_rate": 1.858562445928735e-05, + "loss": 0.5536, + "step": 2288 + }, + { + "epoch": 0.763, + "grad_norm": 1.8785024881362915, + "learning_rate": 1.8583635266846155e-05, + "loss": 0.5792, + "step": 2289 + }, + { + "epoch": 0.7633333333333333, + "grad_norm": 1.9350024461746216, + "learning_rate": 1.8581644783182837e-05, + "loss": 0.5644, + "step": 2290 + }, + { + "epoch": 0.7636666666666667, + "grad_norm": 2.2873668670654297, + "learning_rate": 1.8579653008596828e-05, + "loss": 0.5659, + "step": 2291 + }, + { + "epoch": 0.764, + "grad_norm": 1.975070595741272, + "learning_rate": 1.8577659943387737e-05, + "loss": 0.5022, + "step": 2292 + }, + { + "epoch": 0.7643333333333333, + "grad_norm": 1.8764017820358276, + "learning_rate": 1.8575665587855387e-05, + "loss": 0.5787, + "step": 2293 + }, + { + "epoch": 0.7646666666666667, + "grad_norm": 1.769152283668518, + "learning_rate": 1.8573669942299783e-05, + "loss": 0.6065, + "step": 2294 + }, + { + "epoch": 0.765, + "grad_norm": 1.6666793823242188, + "learning_rate": 1.8571673007021124e-05, + "loss": 0.5692, + "step": 2295 + }, + { + "epoch": 0.7653333333333333, + "grad_norm": 1.8872841596603394, + "learning_rate": 1.8569674782319808e-05, + "loss": 0.5004, + "step": 2296 + }, + { + "epoch": 0.7656666666666667, + "grad_norm": 1.5866657495498657, + "learning_rate": 1.8567675268496424e-05, + "loss": 0.5768, + "step": 2297 + }, + { + "epoch": 0.766, + "grad_norm": 2.098783493041992, + "learning_rate": 1.8565674465851753e-05, + "loss": 0.5674, + "step": 2298 + }, + { + "epoch": 0.7663333333333333, + "grad_norm": 1.6318126916885376, + "learning_rate": 1.856367237468678e-05, + "loss": 0.5337, + "step": 2299 + }, + { + "epoch": 0.7666666666666667, + "grad_norm": 1.9342176914215088, + "learning_rate": 1.8561668995302668e-05, + "loss": 0.5621, + "step": 2300 + }, + { + "epoch": 0.767, + "grad_norm": 1.6295939683914185, + "learning_rate": 1.8559664328000782e-05, + "loss": 0.5624, + "step": 2301 + }, + { + "epoch": 0.7673333333333333, + "grad_norm": 1.7216784954071045, + "learning_rate": 1.855765837308269e-05, + "loss": 0.4795, + "step": 2302 + }, + { + "epoch": 0.7676666666666667, + "grad_norm": 2.1899311542510986, + "learning_rate": 1.8555651130850133e-05, + "loss": 0.5466, + "step": 2303 + }, + { + "epoch": 0.768, + "grad_norm": 1.9438992738723755, + "learning_rate": 1.855364260160507e-05, + "loss": 0.6035, + "step": 2304 + }, + { + "epoch": 0.7683333333333333, + "grad_norm": 1.8282763957977295, + "learning_rate": 1.8551632785649626e-05, + "loss": 0.5065, + "step": 2305 + }, + { + "epoch": 0.7686666666666667, + "grad_norm": 1.9945015907287598, + "learning_rate": 1.8549621683286147e-05, + "loss": 0.5685, + "step": 2306 + }, + { + "epoch": 0.769, + "grad_norm": 1.8449575901031494, + "learning_rate": 1.854760929481715e-05, + "loss": 0.6001, + "step": 2307 + }, + { + "epoch": 0.7693333333333333, + "grad_norm": 1.7508878707885742, + "learning_rate": 1.8545595620545364e-05, + "loss": 0.5482, + "step": 2308 + }, + { + "epoch": 0.7696666666666667, + "grad_norm": 1.6997336149215698, + "learning_rate": 1.8543580660773697e-05, + "loss": 0.5343, + "step": 2309 + }, + { + "epoch": 0.77, + "grad_norm": 1.661829948425293, + "learning_rate": 1.854156441580526e-05, + "loss": 0.5484, + "step": 2310 + }, + { + "epoch": 0.7703333333333333, + "grad_norm": 1.8406507968902588, + "learning_rate": 1.8539546885943344e-05, + "loss": 0.5308, + "step": 2311 + }, + { + "epoch": 0.7706666666666667, + "grad_norm": 2.434461832046509, + "learning_rate": 1.8537528071491454e-05, + "loss": 0.5544, + "step": 2312 + }, + { + "epoch": 0.771, + "grad_norm": 2.3931291103363037, + "learning_rate": 1.8535507972753275e-05, + "loss": 0.6086, + "step": 2313 + }, + { + "epoch": 0.7713333333333333, + "grad_norm": 1.8715115785598755, + "learning_rate": 1.8533486590032685e-05, + "loss": 0.5804, + "step": 2314 + }, + { + "epoch": 0.7716666666666666, + "grad_norm": 2.3086602687835693, + "learning_rate": 1.8531463923633754e-05, + "loss": 0.5594, + "step": 2315 + }, + { + "epoch": 0.772, + "grad_norm": 1.9205249547958374, + "learning_rate": 1.852943997386075e-05, + "loss": 0.588, + "step": 2316 + }, + { + "epoch": 0.7723333333333333, + "grad_norm": 1.8763960599899292, + "learning_rate": 1.852741474101814e-05, + "loss": 0.5469, + "step": 2317 + }, + { + "epoch": 0.7726666666666666, + "grad_norm": 1.5537322759628296, + "learning_rate": 1.8525388225410566e-05, + "loss": 0.5091, + "step": 2318 + }, + { + "epoch": 0.773, + "grad_norm": 2.0114495754241943, + "learning_rate": 1.8523360427342877e-05, + "loss": 0.5232, + "step": 2319 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 2.314218521118164, + "learning_rate": 1.8521331347120116e-05, + "loss": 0.5473, + "step": 2320 + }, + { + "epoch": 0.7736666666666666, + "grad_norm": 2.3275744915008545, + "learning_rate": 1.8519300985047507e-05, + "loss": 0.5652, + "step": 2321 + }, + { + "epoch": 0.774, + "grad_norm": 1.5608984231948853, + "learning_rate": 1.851726934143048e-05, + "loss": 0.5458, + "step": 2322 + }, + { + "epoch": 0.7743333333333333, + "grad_norm": 1.8653578758239746, + "learning_rate": 1.8515236416574646e-05, + "loss": 0.5614, + "step": 2323 + }, + { + "epoch": 0.7746666666666666, + "grad_norm": 1.869282841682434, + "learning_rate": 1.8513202210785816e-05, + "loss": 0.5949, + "step": 2324 + }, + { + "epoch": 0.775, + "grad_norm": 1.902492642402649, + "learning_rate": 1.8511166724369997e-05, + "loss": 0.5479, + "step": 2325 + }, + { + "epoch": 0.7753333333333333, + "grad_norm": 1.773000955581665, + "learning_rate": 1.850912995763338e-05, + "loss": 0.6056, + "step": 2326 + }, + { + "epoch": 0.7756666666666666, + "grad_norm": 1.950681447982788, + "learning_rate": 1.8507091910882355e-05, + "loss": 0.4932, + "step": 2327 + }, + { + "epoch": 0.776, + "grad_norm": 1.8024152517318726, + "learning_rate": 1.85050525844235e-05, + "loss": 0.5521, + "step": 2328 + }, + { + "epoch": 0.7763333333333333, + "grad_norm": 1.7620480060577393, + "learning_rate": 1.8503011978563587e-05, + "loss": 0.5223, + "step": 2329 + }, + { + "epoch": 0.7766666666666666, + "grad_norm": 1.8880044221878052, + "learning_rate": 1.850097009360958e-05, + "loss": 0.6162, + "step": 2330 + }, + { + "epoch": 0.777, + "grad_norm": 1.6990065574645996, + "learning_rate": 1.849892692986864e-05, + "loss": 0.5422, + "step": 2331 + }, + { + "epoch": 0.7773333333333333, + "grad_norm": 1.647261381149292, + "learning_rate": 1.8496882487648116e-05, + "loss": 0.5234, + "step": 2332 + }, + { + "epoch": 0.7776666666666666, + "grad_norm": 1.7681612968444824, + "learning_rate": 1.8494836767255545e-05, + "loss": 0.5402, + "step": 2333 + }, + { + "epoch": 0.778, + "grad_norm": 1.6687946319580078, + "learning_rate": 1.8492789768998668e-05, + "loss": 0.4822, + "step": 2334 + }, + { + "epoch": 0.7783333333333333, + "grad_norm": 1.8622255325317383, + "learning_rate": 1.8490741493185412e-05, + "loss": 0.5663, + "step": 2335 + }, + { + "epoch": 0.7786666666666666, + "grad_norm": 1.594354510307312, + "learning_rate": 1.8488691940123888e-05, + "loss": 0.5804, + "step": 2336 + }, + { + "epoch": 0.779, + "grad_norm": 1.7686771154403687, + "learning_rate": 1.848664111012241e-05, + "loss": 0.5248, + "step": 2337 + }, + { + "epoch": 0.7793333333333333, + "grad_norm": 2.1127398014068604, + "learning_rate": 1.8484589003489487e-05, + "loss": 0.5043, + "step": 2338 + }, + { + "epoch": 0.7796666666666666, + "grad_norm": 2.243894338607788, + "learning_rate": 1.8482535620533807e-05, + "loss": 0.5622, + "step": 2339 + }, + { + "epoch": 0.78, + "grad_norm": 1.7473294734954834, + "learning_rate": 1.848048096156426e-05, + "loss": 0.5554, + "step": 2340 + }, + { + "epoch": 0.7803333333333333, + "grad_norm": 1.8459924459457397, + "learning_rate": 1.8478425026889926e-05, + "loss": 0.5765, + "step": 2341 + }, + { + "epoch": 0.7806666666666666, + "grad_norm": 2.0093462467193604, + "learning_rate": 1.8476367816820073e-05, + "loss": 0.541, + "step": 2342 + }, + { + "epoch": 0.781, + "grad_norm": 1.809410810470581, + "learning_rate": 1.8474309331664165e-05, + "loss": 0.5384, + "step": 2343 + }, + { + "epoch": 0.7813333333333333, + "grad_norm": 2.319823741912842, + "learning_rate": 1.847224957173186e-05, + "loss": 0.5814, + "step": 2344 + }, + { + "epoch": 0.7816666666666666, + "grad_norm": 1.7045223712921143, + "learning_rate": 1.8470188537332997e-05, + "loss": 0.5553, + "step": 2345 + }, + { + "epoch": 0.782, + "grad_norm": 2.259972095489502, + "learning_rate": 1.8468126228777617e-05, + "loss": 0.5486, + "step": 2346 + }, + { + "epoch": 0.7823333333333333, + "grad_norm": 1.6059082746505737, + "learning_rate": 1.8466062646375953e-05, + "loss": 0.529, + "step": 2347 + }, + { + "epoch": 0.7826666666666666, + "grad_norm": 2.0995945930480957, + "learning_rate": 1.8463997790438424e-05, + "loss": 0.512, + "step": 2348 + }, + { + "epoch": 0.783, + "grad_norm": 2.3176448345184326, + "learning_rate": 1.8461931661275642e-05, + "loss": 0.5629, + "step": 2349 + }, + { + "epoch": 0.7833333333333333, + "grad_norm": 1.7015154361724854, + "learning_rate": 1.845986425919841e-05, + "loss": 0.4933, + "step": 2350 + }, + { + "epoch": 0.7836666666666666, + "grad_norm": 1.6473286151885986, + "learning_rate": 1.845779558451773e-05, + "loss": 0.5778, + "step": 2351 + }, + { + "epoch": 0.784, + "grad_norm": 1.4769898653030396, + "learning_rate": 1.8455725637544784e-05, + "loss": 0.5522, + "step": 2352 + }, + { + "epoch": 0.7843333333333333, + "grad_norm": 1.9907476902008057, + "learning_rate": 1.8453654418590953e-05, + "loss": 0.5212, + "step": 2353 + }, + { + "epoch": 0.7846666666666666, + "grad_norm": 1.61249577999115, + "learning_rate": 1.8451581927967805e-05, + "loss": 0.5897, + "step": 2354 + }, + { + "epoch": 0.785, + "grad_norm": 1.779658555984497, + "learning_rate": 1.8449508165987106e-05, + "loss": 0.522, + "step": 2355 + }, + { + "epoch": 0.7853333333333333, + "grad_norm": 2.185575246810913, + "learning_rate": 1.84474331329608e-05, + "loss": 0.5719, + "step": 2356 + }, + { + "epoch": 0.7856666666666666, + "grad_norm": 1.815730094909668, + "learning_rate": 1.8445356829201038e-05, + "loss": 0.588, + "step": 2357 + }, + { + "epoch": 0.786, + "grad_norm": 2.0841712951660156, + "learning_rate": 1.8443279255020153e-05, + "loss": 0.549, + "step": 2358 + }, + { + "epoch": 0.7863333333333333, + "grad_norm": 2.032515048980713, + "learning_rate": 1.844120041073067e-05, + "loss": 0.5024, + "step": 2359 + }, + { + "epoch": 0.7866666666666666, + "grad_norm": 2.0411319732666016, + "learning_rate": 1.843912029664531e-05, + "loss": 0.5469, + "step": 2360 + }, + { + "epoch": 0.787, + "grad_norm": 1.986033320426941, + "learning_rate": 1.8437038913076974e-05, + "loss": 0.5245, + "step": 2361 + }, + { + "epoch": 0.7873333333333333, + "grad_norm": 1.736281394958496, + "learning_rate": 1.8434956260338766e-05, + "loss": 0.5824, + "step": 2362 + }, + { + "epoch": 0.7876666666666666, + "grad_norm": 1.8310120105743408, + "learning_rate": 1.8432872338743977e-05, + "loss": 0.5864, + "step": 2363 + }, + { + "epoch": 0.788, + "grad_norm": 2.1789634227752686, + "learning_rate": 1.8430787148606087e-05, + "loss": 0.5413, + "step": 2364 + }, + { + "epoch": 0.7883333333333333, + "grad_norm": 2.2370550632476807, + "learning_rate": 1.842870069023877e-05, + "loss": 0.5583, + "step": 2365 + }, + { + "epoch": 0.7886666666666666, + "grad_norm": 1.9931237697601318, + "learning_rate": 1.8426612963955878e-05, + "loss": 0.5507, + "step": 2366 + }, + { + "epoch": 0.789, + "grad_norm": 1.782211422920227, + "learning_rate": 1.842452397007148e-05, + "loss": 0.5759, + "step": 2367 + }, + { + "epoch": 0.7893333333333333, + "grad_norm": 1.9567087888717651, + "learning_rate": 1.8422433708899806e-05, + "loss": 0.5818, + "step": 2368 + }, + { + "epoch": 0.7896666666666666, + "grad_norm": 2.0430641174316406, + "learning_rate": 1.8420342180755295e-05, + "loss": 0.5791, + "step": 2369 + }, + { + "epoch": 0.79, + "grad_norm": 1.5657299757003784, + "learning_rate": 1.8418249385952575e-05, + "loss": 0.5199, + "step": 2370 + }, + { + "epoch": 0.7903333333333333, + "grad_norm": 1.7486547231674194, + "learning_rate": 1.841615532480646e-05, + "loss": 0.5776, + "step": 2371 + }, + { + "epoch": 0.7906666666666666, + "grad_norm": 1.8467506170272827, + "learning_rate": 1.8414059997631958e-05, + "loss": 0.5506, + "step": 2372 + }, + { + "epoch": 0.791, + "grad_norm": 2.330566883087158, + "learning_rate": 1.8411963404744263e-05, + "loss": 0.5456, + "step": 2373 + }, + { + "epoch": 0.7913333333333333, + "grad_norm": 1.982193946838379, + "learning_rate": 1.840986554645876e-05, + "loss": 0.4956, + "step": 2374 + }, + { + "epoch": 0.7916666666666666, + "grad_norm": 1.7394826412200928, + "learning_rate": 1.8407766423091033e-05, + "loss": 0.5462, + "step": 2375 + }, + { + "epoch": 0.792, + "grad_norm": 1.9288429021835327, + "learning_rate": 1.8405666034956842e-05, + "loss": 0.546, + "step": 2376 + }, + { + "epoch": 0.7923333333333333, + "grad_norm": 1.6435233354568481, + "learning_rate": 1.8403564382372156e-05, + "loss": 0.5229, + "step": 2377 + }, + { + "epoch": 0.7926666666666666, + "grad_norm": 1.5581005811691284, + "learning_rate": 1.840146146565311e-05, + "loss": 0.4945, + "step": 2378 + }, + { + "epoch": 0.793, + "grad_norm": 1.7418032884597778, + "learning_rate": 1.8399357285116045e-05, + "loss": 0.5419, + "step": 2379 + }, + { + "epoch": 0.7933333333333333, + "grad_norm": 1.6758012771606445, + "learning_rate": 1.83972518410775e-05, + "loss": 0.5615, + "step": 2380 + }, + { + "epoch": 0.7936666666666666, + "grad_norm": 2.068281412124634, + "learning_rate": 1.8395145133854183e-05, + "loss": 0.5111, + "step": 2381 + }, + { + "epoch": 0.794, + "grad_norm": 1.9209685325622559, + "learning_rate": 1.8393037163763005e-05, + "loss": 0.5526, + "step": 2382 + }, + { + "epoch": 0.7943333333333333, + "grad_norm": 1.8088747262954712, + "learning_rate": 1.8390927931121063e-05, + "loss": 0.5559, + "step": 2383 + }, + { + "epoch": 0.7946666666666666, + "grad_norm": 1.628767728805542, + "learning_rate": 1.838881743624565e-05, + "loss": 0.5394, + "step": 2384 + }, + { + "epoch": 0.795, + "grad_norm": 2.2441728115081787, + "learning_rate": 1.8386705679454243e-05, + "loss": 0.5731, + "step": 2385 + }, + { + "epoch": 0.7953333333333333, + "grad_norm": 1.8494179248809814, + "learning_rate": 1.8384592661064507e-05, + "loss": 0.4876, + "step": 2386 + }, + { + "epoch": 0.7956666666666666, + "grad_norm": 1.9975814819335938, + "learning_rate": 1.8382478381394303e-05, + "loss": 0.5124, + "step": 2387 + }, + { + "epoch": 0.796, + "grad_norm": 2.6687216758728027, + "learning_rate": 1.8380362840761675e-05, + "loss": 0.5888, + "step": 2388 + }, + { + "epoch": 0.7963333333333333, + "grad_norm": 1.7871829271316528, + "learning_rate": 1.8378246039484863e-05, + "loss": 0.5347, + "step": 2389 + }, + { + "epoch": 0.7966666666666666, + "grad_norm": 2.1465303897857666, + "learning_rate": 1.8376127977882294e-05, + "loss": 0.5531, + "step": 2390 + }, + { + "epoch": 0.797, + "grad_norm": 3.2463088035583496, + "learning_rate": 1.8374008656272585e-05, + "loss": 0.5889, + "step": 2391 + }, + { + "epoch": 0.7973333333333333, + "grad_norm": 1.7677525281906128, + "learning_rate": 1.8371888074974542e-05, + "loss": 0.5488, + "step": 2392 + }, + { + "epoch": 0.7976666666666666, + "grad_norm": 2.0891714096069336, + "learning_rate": 1.8369766234307157e-05, + "loss": 0.4835, + "step": 2393 + }, + { + "epoch": 0.798, + "grad_norm": 2.1288113594055176, + "learning_rate": 1.836764313458962e-05, + "loss": 0.5256, + "step": 2394 + }, + { + "epoch": 0.7983333333333333, + "grad_norm": 2.379441261291504, + "learning_rate": 1.83655187761413e-05, + "loss": 0.5646, + "step": 2395 + }, + { + "epoch": 0.7986666666666666, + "grad_norm": 1.7023520469665527, + "learning_rate": 1.8363393159281766e-05, + "loss": 0.5813, + "step": 2396 + }, + { + "epoch": 0.799, + "grad_norm": 1.8804715871810913, + "learning_rate": 1.836126628433077e-05, + "loss": 0.5671, + "step": 2397 + }, + { + "epoch": 0.7993333333333333, + "grad_norm": 1.6512447595596313, + "learning_rate": 1.8359138151608248e-05, + "loss": 0.563, + "step": 2398 + }, + { + "epoch": 0.7996666666666666, + "grad_norm": 2.0183653831481934, + "learning_rate": 1.835700876143434e-05, + "loss": 0.5567, + "step": 2399 + }, + { + "epoch": 0.8, + "grad_norm": 1.8930798768997192, + "learning_rate": 1.8354878114129368e-05, + "loss": 0.547, + "step": 2400 + }, + { + "epoch": 0.8003333333333333, + "grad_norm": 1.7506349086761475, + "learning_rate": 1.835274621001383e-05, + "loss": 0.5891, + "step": 2401 + }, + { + "epoch": 0.8006666666666666, + "grad_norm": 1.6338080167770386, + "learning_rate": 1.8350613049408434e-05, + "loss": 0.4967, + "step": 2402 + }, + { + "epoch": 0.801, + "grad_norm": 1.878610372543335, + "learning_rate": 1.8348478632634067e-05, + "loss": 0.5223, + "step": 2403 + }, + { + "epoch": 0.8013333333333333, + "grad_norm": 1.9342248439788818, + "learning_rate": 1.8346342960011803e-05, + "loss": 0.5544, + "step": 2404 + }, + { + "epoch": 0.8016666666666666, + "grad_norm": 2.0390114784240723, + "learning_rate": 1.834420603186291e-05, + "loss": 0.5647, + "step": 2405 + }, + { + "epoch": 0.802, + "grad_norm": 2.1157386302948, + "learning_rate": 1.8342067848508843e-05, + "loss": 0.5182, + "step": 2406 + }, + { + "epoch": 0.8023333333333333, + "grad_norm": 1.7539840936660767, + "learning_rate": 1.8339928410271244e-05, + "loss": 0.5297, + "step": 2407 + }, + { + "epoch": 0.8026666666666666, + "grad_norm": 2.000946283340454, + "learning_rate": 1.8337787717471943e-05, + "loss": 0.541, + "step": 2408 + }, + { + "epoch": 0.803, + "grad_norm": 2.45479154586792, + "learning_rate": 1.8335645770432963e-05, + "loss": 0.5486, + "step": 2409 + }, + { + "epoch": 0.8033333333333333, + "grad_norm": 2.3115415573120117, + "learning_rate": 1.8333502569476516e-05, + "loss": 0.5776, + "step": 2410 + }, + { + "epoch": 0.8036666666666666, + "grad_norm": 2.677072286605835, + "learning_rate": 1.8331358114925e-05, + "loss": 0.5466, + "step": 2411 + }, + { + "epoch": 0.804, + "grad_norm": 2.4678807258605957, + "learning_rate": 1.8329212407100996e-05, + "loss": 0.583, + "step": 2412 + }, + { + "epoch": 0.8043333333333333, + "grad_norm": 2.7966387271881104, + "learning_rate": 1.8327065446327285e-05, + "loss": 0.5611, + "step": 2413 + }, + { + "epoch": 0.8046666666666666, + "grad_norm": 2.051300048828125, + "learning_rate": 1.8324917232926828e-05, + "loss": 0.5658, + "step": 2414 + }, + { + "epoch": 0.805, + "grad_norm": 1.8446922302246094, + "learning_rate": 1.832276776722278e-05, + "loss": 0.4899, + "step": 2415 + }, + { + "epoch": 0.8053333333333333, + "grad_norm": 1.837646722793579, + "learning_rate": 1.832061704953848e-05, + "loss": 0.5301, + "step": 2416 + }, + { + "epoch": 0.8056666666666666, + "grad_norm": 1.7871882915496826, + "learning_rate": 1.831846508019745e-05, + "loss": 0.5758, + "step": 2417 + }, + { + "epoch": 0.806, + "grad_norm": 1.5823808908462524, + "learning_rate": 1.831631185952342e-05, + "loss": 0.5803, + "step": 2418 + }, + { + "epoch": 0.8063333333333333, + "grad_norm": 1.8457412719726562, + "learning_rate": 1.8314157387840287e-05, + "loss": 0.5643, + "step": 2419 + }, + { + "epoch": 0.8066666666666666, + "grad_norm": 1.414435625076294, + "learning_rate": 1.8312001665472146e-05, + "loss": 0.5237, + "step": 2420 + }, + { + "epoch": 0.807, + "grad_norm": 1.630928874015808, + "learning_rate": 1.8309844692743283e-05, + "loss": 0.4833, + "step": 2421 + }, + { + "epoch": 0.8073333333333333, + "grad_norm": 2.1187591552734375, + "learning_rate": 1.8307686469978165e-05, + "loss": 0.597, + "step": 2422 + }, + { + "epoch": 0.8076666666666666, + "grad_norm": 1.693577766418457, + "learning_rate": 1.8305526997501446e-05, + "loss": 0.4959, + "step": 2423 + }, + { + "epoch": 0.808, + "grad_norm": 1.7477424144744873, + "learning_rate": 1.8303366275637977e-05, + "loss": 0.5699, + "step": 2424 + }, + { + "epoch": 0.8083333333333333, + "grad_norm": 2.161944627761841, + "learning_rate": 1.830120430471279e-05, + "loss": 0.5716, + "step": 2425 + }, + { + "epoch": 0.8086666666666666, + "grad_norm": 1.6645187139511108, + "learning_rate": 1.8299041085051104e-05, + "loss": 0.4929, + "step": 2426 + }, + { + "epoch": 0.809, + "grad_norm": 1.9207031726837158, + "learning_rate": 1.8296876616978337e-05, + "loss": 0.5397, + "step": 2427 + }, + { + "epoch": 0.8093333333333333, + "grad_norm": 1.8530179262161255, + "learning_rate": 1.8294710900820075e-05, + "loss": 0.5589, + "step": 2428 + }, + { + "epoch": 0.8096666666666666, + "grad_norm": 1.9295934438705444, + "learning_rate": 1.8292543936902115e-05, + "loss": 0.4905, + "step": 2429 + }, + { + "epoch": 0.81, + "grad_norm": 1.8369306325912476, + "learning_rate": 1.8290375725550417e-05, + "loss": 0.5451, + "step": 2430 + }, + { + "epoch": 0.8103333333333333, + "grad_norm": 1.6058080196380615, + "learning_rate": 1.8288206267091154e-05, + "loss": 0.5266, + "step": 2431 + }, + { + "epoch": 0.8106666666666666, + "grad_norm": 1.8290953636169434, + "learning_rate": 1.8286035561850662e-05, + "loss": 0.5208, + "step": 2432 + }, + { + "epoch": 0.811, + "grad_norm": 1.9480245113372803, + "learning_rate": 1.828386361015549e-05, + "loss": 0.5737, + "step": 2433 + }, + { + "epoch": 0.8113333333333334, + "grad_norm": 1.8783857822418213, + "learning_rate": 1.828169041233235e-05, + "loss": 0.515, + "step": 2434 + }, + { + "epoch": 0.8116666666666666, + "grad_norm": 2.065704822540283, + "learning_rate": 1.8279515968708157e-05, + "loss": 0.5801, + "step": 2435 + }, + { + "epoch": 0.812, + "grad_norm": 1.8230012655258179, + "learning_rate": 1.827734027961001e-05, + "loss": 0.5796, + "step": 2436 + }, + { + "epoch": 0.8123333333333334, + "grad_norm": 1.6576764583587646, + "learning_rate": 1.827516334536519e-05, + "loss": 0.5131, + "step": 2437 + }, + { + "epoch": 0.8126666666666666, + "grad_norm": 2.0657291412353516, + "learning_rate": 1.8272985166301175e-05, + "loss": 0.5649, + "step": 2438 + }, + { + "epoch": 0.813, + "grad_norm": 2.114457607269287, + "learning_rate": 1.827080574274562e-05, + "loss": 0.5304, + "step": 2439 + }, + { + "epoch": 0.8133333333333334, + "grad_norm": 1.7170404195785522, + "learning_rate": 1.8268625075026375e-05, + "loss": 0.5569, + "step": 2440 + }, + { + "epoch": 0.8136666666666666, + "grad_norm": 1.8796237707138062, + "learning_rate": 1.8266443163471473e-05, + "loss": 0.5386, + "step": 2441 + }, + { + "epoch": 0.814, + "grad_norm": 1.9828717708587646, + "learning_rate": 1.8264260008409138e-05, + "loss": 0.5417, + "step": 2442 + }, + { + "epoch": 0.8143333333333334, + "grad_norm": 1.561966896057129, + "learning_rate": 1.8262075610167777e-05, + "loss": 0.4885, + "step": 2443 + }, + { + "epoch": 0.8146666666666667, + "grad_norm": 1.7462998628616333, + "learning_rate": 1.8259889969075986e-05, + "loss": 0.5255, + "step": 2444 + }, + { + "epoch": 0.815, + "grad_norm": 1.935646414756775, + "learning_rate": 1.8257703085462542e-05, + "loss": 0.5988, + "step": 2445 + }, + { + "epoch": 0.8153333333333334, + "grad_norm": 1.7111618518829346, + "learning_rate": 1.8255514959656423e-05, + "loss": 0.5251, + "step": 2446 + }, + { + "epoch": 0.8156666666666667, + "grad_norm": 1.8115055561065674, + "learning_rate": 1.825332559198678e-05, + "loss": 0.5358, + "step": 2447 + }, + { + "epoch": 0.816, + "grad_norm": 2.36824893951416, + "learning_rate": 1.8251134982782952e-05, + "loss": 0.5462, + "step": 2448 + }, + { + "epoch": 0.8163333333333334, + "grad_norm": 1.8183144330978394, + "learning_rate": 1.8248943132374477e-05, + "loss": 0.5579, + "step": 2449 + }, + { + "epoch": 0.8166666666666667, + "grad_norm": 2.30993914604187, + "learning_rate": 1.824675004109107e-05, + "loss": 0.5231, + "step": 2450 + }, + { + "epoch": 0.817, + "grad_norm": 1.9620369672775269, + "learning_rate": 1.8244555709262627e-05, + "loss": 0.5517, + "step": 2451 + }, + { + "epoch": 0.8173333333333334, + "grad_norm": 1.6170330047607422, + "learning_rate": 1.8242360137219247e-05, + "loss": 0.5611, + "step": 2452 + }, + { + "epoch": 0.8176666666666667, + "grad_norm": 1.960506796836853, + "learning_rate": 1.8240163325291203e-05, + "loss": 0.5128, + "step": 2453 + }, + { + "epoch": 0.818, + "grad_norm": 2.2660903930664062, + "learning_rate": 1.823796527380895e-05, + "loss": 0.5845, + "step": 2454 + }, + { + "epoch": 0.8183333333333334, + "grad_norm": 2.312617301940918, + "learning_rate": 1.8235765983103152e-05, + "loss": 0.5142, + "step": 2455 + }, + { + "epoch": 0.8186666666666667, + "grad_norm": 1.7058075666427612, + "learning_rate": 1.8233565453504634e-05, + "loss": 0.527, + "step": 2456 + }, + { + "epoch": 0.819, + "grad_norm": 1.6510164737701416, + "learning_rate": 1.8231363685344422e-05, + "loss": 0.5506, + "step": 2457 + }, + { + "epoch": 0.8193333333333334, + "grad_norm": 2.2238399982452393, + "learning_rate": 1.8229160678953718e-05, + "loss": 0.5584, + "step": 2458 + }, + { + "epoch": 0.8196666666666667, + "grad_norm": 2.339526414871216, + "learning_rate": 1.822695643466393e-05, + "loss": 0.5775, + "step": 2459 + }, + { + "epoch": 0.82, + "grad_norm": 1.8038766384124756, + "learning_rate": 1.8224750952806626e-05, + "loss": 0.5427, + "step": 2460 + }, + { + "epoch": 0.8203333333333334, + "grad_norm": 1.887312889099121, + "learning_rate": 1.8222544233713576e-05, + "loss": 0.5804, + "step": 2461 + }, + { + "epoch": 0.8206666666666667, + "grad_norm": 2.5048322677612305, + "learning_rate": 1.8220336277716737e-05, + "loss": 0.5082, + "step": 2462 + }, + { + "epoch": 0.821, + "grad_norm": 1.922984004020691, + "learning_rate": 1.8218127085148246e-05, + "loss": 0.5459, + "step": 2463 + }, + { + "epoch": 0.8213333333333334, + "grad_norm": 1.4447247982025146, + "learning_rate": 1.821591665634043e-05, + "loss": 0.5185, + "step": 2464 + }, + { + "epoch": 0.8216666666666667, + "grad_norm": 1.951953411102295, + "learning_rate": 1.8213704991625794e-05, + "loss": 0.5566, + "step": 2465 + }, + { + "epoch": 0.822, + "grad_norm": 1.744961142539978, + "learning_rate": 1.821149209133704e-05, + "loss": 0.5203, + "step": 2466 + }, + { + "epoch": 0.8223333333333334, + "grad_norm": 2.270984411239624, + "learning_rate": 1.8209277955807054e-05, + "loss": 0.5345, + "step": 2467 + }, + { + "epoch": 0.8226666666666667, + "grad_norm": 1.7916579246520996, + "learning_rate": 1.82070625853689e-05, + "loss": 0.5404, + "step": 2468 + }, + { + "epoch": 0.823, + "grad_norm": 1.6158019304275513, + "learning_rate": 1.8204845980355834e-05, + "loss": 0.5212, + "step": 2469 + }, + { + "epoch": 0.8233333333333334, + "grad_norm": 2.452906608581543, + "learning_rate": 1.8202628141101294e-05, + "loss": 0.5557, + "step": 2470 + }, + { + "epoch": 0.8236666666666667, + "grad_norm": 2.2508983612060547, + "learning_rate": 1.8200409067938907e-05, + "loss": 0.5458, + "step": 2471 + }, + { + "epoch": 0.824, + "grad_norm": 1.7826250791549683, + "learning_rate": 1.8198188761202487e-05, + "loss": 0.4544, + "step": 2472 + }, + { + "epoch": 0.8243333333333334, + "grad_norm": 1.7506648302078247, + "learning_rate": 1.8195967221226032e-05, + "loss": 0.5364, + "step": 2473 + }, + { + "epoch": 0.8246666666666667, + "grad_norm": 1.7523107528686523, + "learning_rate": 1.819374444834372e-05, + "loss": 0.5493, + "step": 2474 + }, + { + "epoch": 0.825, + "grad_norm": 2.0434796810150146, + "learning_rate": 1.819152044288992e-05, + "loss": 0.5367, + "step": 2475 + }, + { + "epoch": 0.8253333333333334, + "grad_norm": 2.2611372470855713, + "learning_rate": 1.8189295205199188e-05, + "loss": 0.5772, + "step": 2476 + }, + { + "epoch": 0.8256666666666667, + "grad_norm": 2.0965638160705566, + "learning_rate": 1.8187068735606258e-05, + "loss": 0.5776, + "step": 2477 + }, + { + "epoch": 0.826, + "grad_norm": 1.9319881200790405, + "learning_rate": 1.818484103444606e-05, + "loss": 0.5641, + "step": 2478 + }, + { + "epoch": 0.8263333333333334, + "grad_norm": 2.091566801071167, + "learning_rate": 1.81826121020537e-05, + "loss": 0.5746, + "step": 2479 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 1.694374442100525, + "learning_rate": 1.818038193876448e-05, + "loss": 0.4967, + "step": 2480 + }, + { + "epoch": 0.827, + "grad_norm": 1.9189006090164185, + "learning_rate": 1.8178150544913867e-05, + "loss": 0.5334, + "step": 2481 + }, + { + "epoch": 0.8273333333333334, + "grad_norm": 2.956162214279175, + "learning_rate": 1.8175917920837533e-05, + "loss": 0.5867, + "step": 2482 + }, + { + "epoch": 0.8276666666666667, + "grad_norm": 1.8964450359344482, + "learning_rate": 1.8173684066871328e-05, + "loss": 0.5549, + "step": 2483 + }, + { + "epoch": 0.828, + "grad_norm": 2.090137004852295, + "learning_rate": 1.8171448983351284e-05, + "loss": 0.5946, + "step": 2484 + }, + { + "epoch": 0.8283333333333334, + "grad_norm": 2.416135549545288, + "learning_rate": 1.8169212670613628e-05, + "loss": 0.5884, + "step": 2485 + }, + { + "epoch": 0.8286666666666667, + "grad_norm": 1.9545024633407593, + "learning_rate": 1.816697512899476e-05, + "loss": 0.5534, + "step": 2486 + }, + { + "epoch": 0.829, + "grad_norm": 2.2523860931396484, + "learning_rate": 1.8164736358831265e-05, + "loss": 0.5045, + "step": 2487 + }, + { + "epoch": 0.8293333333333334, + "grad_norm": 1.8975847959518433, + "learning_rate": 1.8162496360459926e-05, + "loss": 0.5713, + "step": 2488 + }, + { + "epoch": 0.8296666666666667, + "grad_norm": 1.84719979763031, + "learning_rate": 1.8160255134217693e-05, + "loss": 0.536, + "step": 2489 + }, + { + "epoch": 0.83, + "grad_norm": 1.868896484375, + "learning_rate": 1.8158012680441723e-05, + "loss": 0.5017, + "step": 2490 + }, + { + "epoch": 0.8303333333333334, + "grad_norm": 2.2627060413360596, + "learning_rate": 1.8155768999469332e-05, + "loss": 0.573, + "step": 2491 + }, + { + "epoch": 0.8306666666666667, + "grad_norm": 2.0715224742889404, + "learning_rate": 1.8153524091638042e-05, + "loss": 0.5836, + "step": 2492 + }, + { + "epoch": 0.831, + "grad_norm": 1.763808250427246, + "learning_rate": 1.815127795728554e-05, + "loss": 0.5197, + "step": 2493 + }, + { + "epoch": 0.8313333333333334, + "grad_norm": 1.8643547296524048, + "learning_rate": 1.8149030596749725e-05, + "loss": 0.5412, + "step": 2494 + }, + { + "epoch": 0.8316666666666667, + "grad_norm": 1.7609845399856567, + "learning_rate": 1.814678201036865e-05, + "loss": 0.5209, + "step": 2495 + }, + { + "epoch": 0.832, + "grad_norm": 1.882252812385559, + "learning_rate": 1.814453219848057e-05, + "loss": 0.5121, + "step": 2496 + }, + { + "epoch": 0.8323333333333334, + "grad_norm": 1.7351739406585693, + "learning_rate": 1.814228116142392e-05, + "loss": 0.5231, + "step": 2497 + }, + { + "epoch": 0.8326666666666667, + "grad_norm": 1.9378739595413208, + "learning_rate": 1.814002889953732e-05, + "loss": 0.5788, + "step": 2498 + }, + { + "epoch": 0.833, + "grad_norm": 1.7314152717590332, + "learning_rate": 1.813777541315958e-05, + "loss": 0.5165, + "step": 2499 + }, + { + "epoch": 0.8333333333333334, + "grad_norm": 1.9269005060195923, + "learning_rate": 1.8135520702629677e-05, + "loss": 0.5719, + "step": 2500 + }, + { + "epoch": 0.8336666666666667, + "grad_norm": 2.1308789253234863, + "learning_rate": 1.8133264768286794e-05, + "loss": 0.543, + "step": 2501 + }, + { + "epoch": 0.834, + "grad_norm": 2.077603578567505, + "learning_rate": 1.8131007610470278e-05, + "loss": 0.5431, + "step": 2502 + }, + { + "epoch": 0.8343333333333334, + "grad_norm": 2.07547926902771, + "learning_rate": 1.8128749229519676e-05, + "loss": 0.5242, + "step": 2503 + }, + { + "epoch": 0.8346666666666667, + "grad_norm": 1.8179290294647217, + "learning_rate": 1.8126489625774714e-05, + "loss": 0.5261, + "step": 2504 + }, + { + "epoch": 0.835, + "grad_norm": 1.8940424919128418, + "learning_rate": 1.8124228799575295e-05, + "loss": 0.5338, + "step": 2505 + }, + { + "epoch": 0.8353333333333334, + "grad_norm": 2.358314037322998, + "learning_rate": 1.8121966751261514e-05, + "loss": 0.5368, + "step": 2506 + }, + { + "epoch": 0.8356666666666667, + "grad_norm": 2.107483148574829, + "learning_rate": 1.8119703481173644e-05, + "loss": 0.5493, + "step": 2507 + }, + { + "epoch": 0.836, + "grad_norm": 2.0148768424987793, + "learning_rate": 1.811743898965215e-05, + "loss": 0.5848, + "step": 2508 + }, + { + "epoch": 0.8363333333333334, + "grad_norm": 2.249699354171753, + "learning_rate": 1.8115173277037675e-05, + "loss": 0.5429, + "step": 2509 + }, + { + "epoch": 0.8366666666666667, + "grad_norm": 1.8044147491455078, + "learning_rate": 1.8112906343671045e-05, + "loss": 0.4812, + "step": 2510 + }, + { + "epoch": 0.837, + "grad_norm": 1.890429973602295, + "learning_rate": 1.8110638189893267e-05, + "loss": 0.5715, + "step": 2511 + }, + { + "epoch": 0.8373333333333334, + "grad_norm": 1.9170491695404053, + "learning_rate": 1.8108368816045545e-05, + "loss": 0.5816, + "step": 2512 + }, + { + "epoch": 0.8376666666666667, + "grad_norm": 2.0341813564300537, + "learning_rate": 1.8106098222469247e-05, + "loss": 0.5149, + "step": 2513 + }, + { + "epoch": 0.838, + "grad_norm": 2.1762256622314453, + "learning_rate": 1.8103826409505944e-05, + "loss": 0.5106, + "step": 2514 + }, + { + "epoch": 0.8383333333333334, + "grad_norm": 1.7459139823913574, + "learning_rate": 1.8101553377497375e-05, + "loss": 0.5264, + "step": 2515 + }, + { + "epoch": 0.8386666666666667, + "grad_norm": 2.5179052352905273, + "learning_rate": 1.809927912678547e-05, + "loss": 0.4884, + "step": 2516 + }, + { + "epoch": 0.839, + "grad_norm": 1.9164050817489624, + "learning_rate": 1.8097003657712343e-05, + "loss": 0.5733, + "step": 2517 + }, + { + "epoch": 0.8393333333333334, + "grad_norm": 1.76973557472229, + "learning_rate": 1.809472697062028e-05, + "loss": 0.4873, + "step": 2518 + }, + { + "epoch": 0.8396666666666667, + "grad_norm": 1.9024912118911743, + "learning_rate": 1.8092449065851774e-05, + "loss": 0.5368, + "step": 2519 + }, + { + "epoch": 0.84, + "grad_norm": 1.7673364877700806, + "learning_rate": 1.8090169943749477e-05, + "loss": 0.5488, + "step": 2520 + }, + { + "epoch": 0.8403333333333334, + "grad_norm": 2.0481579303741455, + "learning_rate": 1.8087889604656235e-05, + "loss": 0.4989, + "step": 2521 + }, + { + "epoch": 0.8406666666666667, + "grad_norm": 1.74677574634552, + "learning_rate": 1.8085608048915072e-05, + "loss": 0.5501, + "step": 2522 + }, + { + "epoch": 0.841, + "grad_norm": 1.8456015586853027, + "learning_rate": 1.8083325276869207e-05, + "loss": 0.5435, + "step": 2523 + }, + { + "epoch": 0.8413333333333334, + "grad_norm": 1.9446953535079956, + "learning_rate": 1.808104128886203e-05, + "loss": 0.5458, + "step": 2524 + }, + { + "epoch": 0.8416666666666667, + "grad_norm": 1.953200340270996, + "learning_rate": 1.8078756085237112e-05, + "loss": 0.5177, + "step": 2525 + }, + { + "epoch": 0.842, + "grad_norm": 1.8381633758544922, + "learning_rate": 1.807646966633822e-05, + "loss": 0.5355, + "step": 2526 + }, + { + "epoch": 0.8423333333333334, + "grad_norm": 1.8751722574234009, + "learning_rate": 1.8074182032509292e-05, + "loss": 0.5523, + "step": 2527 + }, + { + "epoch": 0.8426666666666667, + "grad_norm": 1.7569615840911865, + "learning_rate": 1.807189318409446e-05, + "loss": 0.557, + "step": 2528 + }, + { + "epoch": 0.843, + "grad_norm": 1.936572551727295, + "learning_rate": 1.806960312143802e-05, + "loss": 0.5507, + "step": 2529 + }, + { + "epoch": 0.8433333333333334, + "grad_norm": 1.7943737506866455, + "learning_rate": 1.806731184488447e-05, + "loss": 0.5281, + "step": 2530 + }, + { + "epoch": 0.8436666666666667, + "grad_norm": 2.4032392501831055, + "learning_rate": 1.8065019354778482e-05, + "loss": 0.5603, + "step": 2531 + }, + { + "epoch": 0.844, + "grad_norm": 1.5953805446624756, + "learning_rate": 1.8062725651464913e-05, + "loss": 0.5006, + "step": 2532 + }, + { + "epoch": 0.8443333333333334, + "grad_norm": 1.769286870956421, + "learning_rate": 1.80604307352888e-05, + "loss": 0.5638, + "step": 2533 + }, + { + "epoch": 0.8446666666666667, + "grad_norm": 1.9486199617385864, + "learning_rate": 1.8058134606595356e-05, + "loss": 0.5415, + "step": 2534 + }, + { + "epoch": 0.845, + "grad_norm": 1.8632055521011353, + "learning_rate": 1.8055837265729996e-05, + "loss": 0.5229, + "step": 2535 + }, + { + "epoch": 0.8453333333333334, + "grad_norm": 2.1575183868408203, + "learning_rate": 1.8053538713038298e-05, + "loss": 0.5353, + "step": 2536 + }, + { + "epoch": 0.8456666666666667, + "grad_norm": 1.8087780475616455, + "learning_rate": 1.805123894886603e-05, + "loss": 0.53, + "step": 2537 + }, + { + "epoch": 0.846, + "grad_norm": 1.7347882986068726, + "learning_rate": 1.804893797355914e-05, + "loss": 0.5319, + "step": 2538 + }, + { + "epoch": 0.8463333333333334, + "grad_norm": 2.0039279460906982, + "learning_rate": 1.804663578746377e-05, + "loss": 0.5375, + "step": 2539 + }, + { + "epoch": 0.8466666666666667, + "grad_norm": 1.9122445583343506, + "learning_rate": 1.8044332390926224e-05, + "loss": 0.492, + "step": 2540 + }, + { + "epoch": 0.847, + "grad_norm": 2.018688440322876, + "learning_rate": 1.8042027784292998e-05, + "loss": 0.509, + "step": 2541 + }, + { + "epoch": 0.8473333333333334, + "grad_norm": 1.863389015197754, + "learning_rate": 1.8039721967910773e-05, + "loss": 0.4904, + "step": 2542 + }, + { + "epoch": 0.8476666666666667, + "grad_norm": 1.9037367105484009, + "learning_rate": 1.8037414942126412e-05, + "loss": 0.5248, + "step": 2543 + }, + { + "epoch": 0.848, + "grad_norm": 1.9382926225662231, + "learning_rate": 1.8035106707286957e-05, + "loss": 0.5752, + "step": 2544 + }, + { + "epoch": 0.8483333333333334, + "grad_norm": 1.930065393447876, + "learning_rate": 1.8032797263739622e-05, + "loss": 0.5456, + "step": 2545 + }, + { + "epoch": 0.8486666666666667, + "grad_norm": 2.225367546081543, + "learning_rate": 1.8030486611831825e-05, + "loss": 0.5645, + "step": 2546 + }, + { + "epoch": 0.849, + "grad_norm": 1.9131784439086914, + "learning_rate": 1.8028174751911147e-05, + "loss": 0.5219, + "step": 2547 + }, + { + "epoch": 0.8493333333333334, + "grad_norm": 1.8632370233535767, + "learning_rate": 1.8025861684325358e-05, + "loss": 0.5218, + "step": 2548 + }, + { + "epoch": 0.8496666666666667, + "grad_norm": 2.321017265319824, + "learning_rate": 1.8023547409422414e-05, + "loss": 0.4614, + "step": 2549 + }, + { + "epoch": 0.85, + "grad_norm": 2.2721545696258545, + "learning_rate": 1.802123192755044e-05, + "loss": 0.5711, + "step": 2550 + }, + { + "epoch": 0.8503333333333334, + "grad_norm": 1.785508632659912, + "learning_rate": 1.8018915239057752e-05, + "loss": 0.4962, + "step": 2551 + }, + { + "epoch": 0.8506666666666667, + "grad_norm": 2.1590092182159424, + "learning_rate": 1.801659734429285e-05, + "loss": 0.5954, + "step": 2552 + }, + { + "epoch": 0.851, + "grad_norm": 2.018662691116333, + "learning_rate": 1.8014278243604407e-05, + "loss": 0.5403, + "step": 2553 + }, + { + "epoch": 0.8513333333333334, + "grad_norm": 1.884421944618225, + "learning_rate": 1.8011957937341288e-05, + "loss": 0.5621, + "step": 2554 + }, + { + "epoch": 0.8516666666666667, + "grad_norm": 2.201396942138672, + "learning_rate": 1.8009636425852522e-05, + "loss": 0.5705, + "step": 2555 + }, + { + "epoch": 0.852, + "grad_norm": 1.769240140914917, + "learning_rate": 1.8007313709487334e-05, + "loss": 0.513, + "step": 2556 + }, + { + "epoch": 0.8523333333333334, + "grad_norm": 1.4559131860733032, + "learning_rate": 1.8004989788595132e-05, + "loss": 0.5055, + "step": 2557 + }, + { + "epoch": 0.8526666666666667, + "grad_norm": 1.9950119256973267, + "learning_rate": 1.8002664663525497e-05, + "loss": 0.5308, + "step": 2558 + }, + { + "epoch": 0.853, + "grad_norm": 1.658761739730835, + "learning_rate": 1.800033833462819e-05, + "loss": 0.5414, + "step": 2559 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 1.8000699281692505, + "learning_rate": 1.799801080225316e-05, + "loss": 0.5523, + "step": 2560 + }, + { + "epoch": 0.8536666666666667, + "grad_norm": 1.8589367866516113, + "learning_rate": 1.7995682066750535e-05, + "loss": 0.5529, + "step": 2561 + }, + { + "epoch": 0.854, + "grad_norm": 1.68911612033844, + "learning_rate": 1.7993352128470617e-05, + "loss": 0.5545, + "step": 2562 + }, + { + "epoch": 0.8543333333333333, + "grad_norm": 2.1425843238830566, + "learning_rate": 1.7991020987763903e-05, + "loss": 0.5555, + "step": 2563 + }, + { + "epoch": 0.8546666666666667, + "grad_norm": 2.261228084564209, + "learning_rate": 1.7988688644981057e-05, + "loss": 0.5726, + "step": 2564 + }, + { + "epoch": 0.855, + "grad_norm": 2.08913516998291, + "learning_rate": 1.798635510047293e-05, + "loss": 0.5462, + "step": 2565 + }, + { + "epoch": 0.8553333333333333, + "grad_norm": 1.7430918216705322, + "learning_rate": 1.7984020354590557e-05, + "loss": 0.5334, + "step": 2566 + }, + { + "epoch": 0.8556666666666667, + "grad_norm": 1.6419761180877686, + "learning_rate": 1.7981684407685144e-05, + "loss": 0.5096, + "step": 2567 + }, + { + "epoch": 0.856, + "grad_norm": 2.427840232849121, + "learning_rate": 1.7979347260108088e-05, + "loss": 0.507, + "step": 2568 + }, + { + "epoch": 0.8563333333333333, + "grad_norm": 1.8047685623168945, + "learning_rate": 1.797700891221096e-05, + "loss": 0.4856, + "step": 2569 + }, + { + "epoch": 0.8566666666666667, + "grad_norm": 1.7883912324905396, + "learning_rate": 1.7974669364345518e-05, + "loss": 0.5616, + "step": 2570 + }, + { + "epoch": 0.857, + "grad_norm": 1.9315829277038574, + "learning_rate": 1.797232861686369e-05, + "loss": 0.4996, + "step": 2571 + }, + { + "epoch": 0.8573333333333333, + "grad_norm": 1.9484245777130127, + "learning_rate": 1.7969986670117598e-05, + "loss": 0.5148, + "step": 2572 + }, + { + "epoch": 0.8576666666666667, + "grad_norm": 1.8105392456054688, + "learning_rate": 1.796764352445953e-05, + "loss": 0.5158, + "step": 2573 + }, + { + "epoch": 0.858, + "grad_norm": 1.7083845138549805, + "learning_rate": 1.7965299180241963e-05, + "loss": 0.528, + "step": 2574 + }, + { + "epoch": 0.8583333333333333, + "grad_norm": 2.0864369869232178, + "learning_rate": 1.7962953637817556e-05, + "loss": 0.5552, + "step": 2575 + }, + { + "epoch": 0.8586666666666667, + "grad_norm": 2.1181886196136475, + "learning_rate": 1.796060689753915e-05, + "loss": 0.5349, + "step": 2576 + }, + { + "epoch": 0.859, + "grad_norm": 2.697695255279541, + "learning_rate": 1.7958258959759747e-05, + "loss": 0.5354, + "step": 2577 + }, + { + "epoch": 0.8593333333333333, + "grad_norm": 1.9724406003952026, + "learning_rate": 1.7955909824832556e-05, + "loss": 0.46, + "step": 2578 + }, + { + "epoch": 0.8596666666666667, + "grad_norm": 1.7109674215316772, + "learning_rate": 1.7953559493110945e-05, + "loss": 0.4934, + "step": 2579 + }, + { + "epoch": 0.86, + "grad_norm": 1.9101719856262207, + "learning_rate": 1.795120796494848e-05, + "loss": 0.5472, + "step": 2580 + }, + { + "epoch": 0.8603333333333333, + "grad_norm": 1.970424771308899, + "learning_rate": 1.7948855240698887e-05, + "loss": 0.505, + "step": 2581 + }, + { + "epoch": 0.8606666666666667, + "grad_norm": 2.292208433151245, + "learning_rate": 1.794650132071609e-05, + "loss": 0.5547, + "step": 2582 + }, + { + "epoch": 0.861, + "grad_norm": 1.889332890510559, + "learning_rate": 1.7944146205354182e-05, + "loss": 0.54, + "step": 2583 + }, + { + "epoch": 0.8613333333333333, + "grad_norm": 1.9565201997756958, + "learning_rate": 1.794178989496744e-05, + "loss": 0.5393, + "step": 2584 + }, + { + "epoch": 0.8616666666666667, + "grad_norm": 1.5886310338974, + "learning_rate": 1.793943238991032e-05, + "loss": 0.5428, + "step": 2585 + }, + { + "epoch": 0.862, + "grad_norm": 2.2815372943878174, + "learning_rate": 1.793707369053746e-05, + "loss": 0.5906, + "step": 2586 + }, + { + "epoch": 0.8623333333333333, + "grad_norm": 2.014404296875, + "learning_rate": 1.7934713797203668e-05, + "loss": 0.4962, + "step": 2587 + }, + { + "epoch": 0.8626666666666667, + "grad_norm": 1.9208639860153198, + "learning_rate": 1.7932352710263943e-05, + "loss": 0.5138, + "step": 2588 + }, + { + "epoch": 0.863, + "grad_norm": 2.383042812347412, + "learning_rate": 1.7929990430073463e-05, + "loss": 0.504, + "step": 2589 + }, + { + "epoch": 0.8633333333333333, + "grad_norm": 1.95362389087677, + "learning_rate": 1.7927626956987577e-05, + "loss": 0.4776, + "step": 2590 + }, + { + "epoch": 0.8636666666666667, + "grad_norm": 2.023167133331299, + "learning_rate": 1.7925262291361823e-05, + "loss": 0.479, + "step": 2591 + }, + { + "epoch": 0.864, + "grad_norm": 1.794791579246521, + "learning_rate": 1.792289643355191e-05, + "loss": 0.5416, + "step": 2592 + }, + { + "epoch": 0.8643333333333333, + "grad_norm": 1.7650848627090454, + "learning_rate": 1.7920529383913728e-05, + "loss": 0.4697, + "step": 2593 + }, + { + "epoch": 0.8646666666666667, + "grad_norm": 2.0278658866882324, + "learning_rate": 1.7918161142803355e-05, + "loss": 0.5399, + "step": 2594 + }, + { + "epoch": 0.865, + "grad_norm": 2.1545586585998535, + "learning_rate": 1.7915791710577035e-05, + "loss": 0.5632, + "step": 2595 + }, + { + "epoch": 0.8653333333333333, + "grad_norm": 1.9990527629852295, + "learning_rate": 1.7913421087591204e-05, + "loss": 0.5695, + "step": 2596 + }, + { + "epoch": 0.8656666666666667, + "grad_norm": 1.9692472219467163, + "learning_rate": 1.7911049274202467e-05, + "loss": 0.5408, + "step": 2597 + }, + { + "epoch": 0.866, + "grad_norm": 2.0101563930511475, + "learning_rate": 1.7908676270767608e-05, + "loss": 0.5095, + "step": 2598 + }, + { + "epoch": 0.8663333333333333, + "grad_norm": 1.5777608156204224, + "learning_rate": 1.7906302077643604e-05, + "loss": 0.5245, + "step": 2599 + }, + { + "epoch": 0.8666666666666667, + "grad_norm": 1.9896571636199951, + "learning_rate": 1.7903926695187595e-05, + "loss": 0.592, + "step": 2600 + }, + { + "epoch": 0.867, + "grad_norm": 1.782129168510437, + "learning_rate": 1.7901550123756906e-05, + "loss": 0.5793, + "step": 2601 + }, + { + "epoch": 0.8673333333333333, + "grad_norm": 1.9639253616333008, + "learning_rate": 1.789917236370904e-05, + "loss": 0.5405, + "step": 2602 + }, + { + "epoch": 0.8676666666666667, + "grad_norm": 1.6482774019241333, + "learning_rate": 1.7896793415401683e-05, + "loss": 0.5307, + "step": 2603 + }, + { + "epoch": 0.868, + "grad_norm": 1.7062448263168335, + "learning_rate": 1.7894413279192693e-05, + "loss": 0.5528, + "step": 2604 + }, + { + "epoch": 0.8683333333333333, + "grad_norm": 1.8264614343643188, + "learning_rate": 1.789203195544011e-05, + "loss": 0.4968, + "step": 2605 + }, + { + "epoch": 0.8686666666666667, + "grad_norm": 1.4673128128051758, + "learning_rate": 1.7889649444502155e-05, + "loss": 0.5065, + "step": 2606 + }, + { + "epoch": 0.869, + "grad_norm": 1.6996774673461914, + "learning_rate": 1.7887265746737224e-05, + "loss": 0.5088, + "step": 2607 + }, + { + "epoch": 0.8693333333333333, + "grad_norm": 2.2783889770507812, + "learning_rate": 1.7884880862503893e-05, + "loss": 0.5568, + "step": 2608 + }, + { + "epoch": 0.8696666666666667, + "grad_norm": 1.912984013557434, + "learning_rate": 1.7882494792160913e-05, + "loss": 0.534, + "step": 2609 + }, + { + "epoch": 0.87, + "grad_norm": 2.0802431106567383, + "learning_rate": 1.788010753606722e-05, + "loss": 0.4967, + "step": 2610 + }, + { + "epoch": 0.8703333333333333, + "grad_norm": 1.9122956991195679, + "learning_rate": 1.7877719094581927e-05, + "loss": 0.5223, + "step": 2611 + }, + { + "epoch": 0.8706666666666667, + "grad_norm": 2.112048864364624, + "learning_rate": 1.787532946806432e-05, + "loss": 0.537, + "step": 2612 + }, + { + "epoch": 0.871, + "grad_norm": 2.162571668624878, + "learning_rate": 1.7872938656873864e-05, + "loss": 0.5213, + "step": 2613 + }, + { + "epoch": 0.8713333333333333, + "grad_norm": 1.8454819917678833, + "learning_rate": 1.7870546661370214e-05, + "loss": 0.4462, + "step": 2614 + }, + { + "epoch": 0.8716666666666667, + "grad_norm": 2.027466058731079, + "learning_rate": 1.7868153481913186e-05, + "loss": 0.5009, + "step": 2615 + }, + { + "epoch": 0.872, + "grad_norm": 3.0177161693573, + "learning_rate": 1.7865759118862784e-05, + "loss": 0.4802, + "step": 2616 + }, + { + "epoch": 0.8723333333333333, + "grad_norm": 2.1335556507110596, + "learning_rate": 1.7863363572579183e-05, + "loss": 0.5316, + "step": 2617 + }, + { + "epoch": 0.8726666666666667, + "grad_norm": 2.193462610244751, + "learning_rate": 1.786096684342275e-05, + "loss": 0.4864, + "step": 2618 + }, + { + "epoch": 0.873, + "grad_norm": 1.8443808555603027, + "learning_rate": 1.785856893175402e-05, + "loss": 0.5529, + "step": 2619 + }, + { + "epoch": 0.8733333333333333, + "grad_norm": 1.9783754348754883, + "learning_rate": 1.78561698379337e-05, + "loss": 0.5344, + "step": 2620 + }, + { + "epoch": 0.8736666666666667, + "grad_norm": 1.658711314201355, + "learning_rate": 1.785376956232269e-05, + "loss": 0.5213, + "step": 2621 + }, + { + "epoch": 0.874, + "grad_norm": 2.1653366088867188, + "learning_rate": 1.7851368105282054e-05, + "loss": 0.5075, + "step": 2622 + }, + { + "epoch": 0.8743333333333333, + "grad_norm": 1.722901701927185, + "learning_rate": 1.7848965467173042e-05, + "loss": 0.5205, + "step": 2623 + }, + { + "epoch": 0.8746666666666667, + "grad_norm": 1.51028311252594, + "learning_rate": 1.7846561648357076e-05, + "loss": 0.5231, + "step": 2624 + }, + { + "epoch": 0.875, + "grad_norm": 1.962365746498108, + "learning_rate": 1.784415664919576e-05, + "loss": 0.4825, + "step": 2625 + }, + { + "epoch": 0.8753333333333333, + "grad_norm": 1.6839370727539062, + "learning_rate": 1.7841750470050874e-05, + "loss": 0.5242, + "step": 2626 + }, + { + "epoch": 0.8756666666666667, + "grad_norm": 2.3817977905273438, + "learning_rate": 1.7839343111284376e-05, + "loss": 0.5263, + "step": 2627 + }, + { + "epoch": 0.876, + "grad_norm": 1.6684722900390625, + "learning_rate": 1.78369345732584e-05, + "loss": 0.5111, + "step": 2628 + }, + { + "epoch": 0.8763333333333333, + "grad_norm": 1.7689481973648071, + "learning_rate": 1.783452485633526e-05, + "loss": 0.5567, + "step": 2629 + }, + { + "epoch": 0.8766666666666667, + "grad_norm": 2.255093812942505, + "learning_rate": 1.7832113960877445e-05, + "loss": 0.5414, + "step": 2630 + }, + { + "epoch": 0.877, + "grad_norm": 1.701599359512329, + "learning_rate": 1.7829701887247618e-05, + "loss": 0.5225, + "step": 2631 + }, + { + "epoch": 0.8773333333333333, + "grad_norm": 2.15592360496521, + "learning_rate": 1.7827288635808634e-05, + "loss": 0.5143, + "step": 2632 + }, + { + "epoch": 0.8776666666666667, + "grad_norm": 1.7929786443710327, + "learning_rate": 1.7824874206923503e-05, + "loss": 0.5362, + "step": 2633 + }, + { + "epoch": 0.878, + "grad_norm": 1.7911765575408936, + "learning_rate": 1.7822458600955432e-05, + "loss": 0.5087, + "step": 2634 + }, + { + "epoch": 0.8783333333333333, + "grad_norm": 1.9323841333389282, + "learning_rate": 1.7820041818267787e-05, + "loss": 0.5513, + "step": 2635 + }, + { + "epoch": 0.8786666666666667, + "grad_norm": 2.2409441471099854, + "learning_rate": 1.7817623859224133e-05, + "loss": 0.5623, + "step": 2636 + }, + { + "epoch": 0.879, + "grad_norm": 1.9654486179351807, + "learning_rate": 1.781520472418819e-05, + "loss": 0.4966, + "step": 2637 + }, + { + "epoch": 0.8793333333333333, + "grad_norm": 1.8461906909942627, + "learning_rate": 1.7812784413523866e-05, + "loss": 0.498, + "step": 2638 + }, + { + "epoch": 0.8796666666666667, + "grad_norm": 1.9411054849624634, + "learning_rate": 1.7810362927595248e-05, + "loss": 0.5518, + "step": 2639 + }, + { + "epoch": 0.88, + "grad_norm": 2.1846213340759277, + "learning_rate": 1.7807940266766595e-05, + "loss": 0.5661, + "step": 2640 + }, + { + "epoch": 0.8803333333333333, + "grad_norm": 2.080413341522217, + "learning_rate": 1.780551643140234e-05, + "loss": 0.5608, + "step": 2641 + }, + { + "epoch": 0.8806666666666667, + "grad_norm": 1.9293571710586548, + "learning_rate": 1.78030914218671e-05, + "loss": 0.5475, + "step": 2642 + }, + { + "epoch": 0.881, + "grad_norm": 1.897422432899475, + "learning_rate": 1.780066523852567e-05, + "loss": 0.4717, + "step": 2643 + }, + { + "epoch": 0.8813333333333333, + "grad_norm": 1.6544286012649536, + "learning_rate": 1.7798237881743005e-05, + "loss": 0.4758, + "step": 2644 + }, + { + "epoch": 0.8816666666666667, + "grad_norm": 1.614274024963379, + "learning_rate": 1.7795809351884257e-05, + "loss": 0.5741, + "step": 2645 + }, + { + "epoch": 0.882, + "grad_norm": 2.2348127365112305, + "learning_rate": 1.7793379649314743e-05, + "loss": 0.5328, + "step": 2646 + }, + { + "epoch": 0.8823333333333333, + "grad_norm": 1.6600894927978516, + "learning_rate": 1.779094877439996e-05, + "loss": 0.5001, + "step": 2647 + }, + { + "epoch": 0.8826666666666667, + "grad_norm": 1.5789622068405151, + "learning_rate": 1.778851672750558e-05, + "loss": 0.5061, + "step": 2648 + }, + { + "epoch": 0.883, + "grad_norm": 1.4470988512039185, + "learning_rate": 1.7786083508997452e-05, + "loss": 0.5177, + "step": 2649 + }, + { + "epoch": 0.8833333333333333, + "grad_norm": 1.729036569595337, + "learning_rate": 1.7783649119241603e-05, + "loss": 0.5383, + "step": 2650 + }, + { + "epoch": 0.8836666666666667, + "grad_norm": 1.5474058389663696, + "learning_rate": 1.778121355860423e-05, + "loss": 0.4792, + "step": 2651 + }, + { + "epoch": 0.884, + "grad_norm": 1.7481999397277832, + "learning_rate": 1.7778776827451715e-05, + "loss": 0.5263, + "step": 2652 + }, + { + "epoch": 0.8843333333333333, + "grad_norm": 2.2084126472473145, + "learning_rate": 1.7776338926150604e-05, + "loss": 0.53, + "step": 2653 + }, + { + "epoch": 0.8846666666666667, + "grad_norm": 2.0687124729156494, + "learning_rate": 1.7773899855067634e-05, + "loss": 0.5016, + "step": 2654 + }, + { + "epoch": 0.885, + "grad_norm": 2.006239652633667, + "learning_rate": 1.777145961456971e-05, + "loss": 0.4983, + "step": 2655 + }, + { + "epoch": 0.8853333333333333, + "grad_norm": 2.094696521759033, + "learning_rate": 1.7769018205023913e-05, + "loss": 0.4832, + "step": 2656 + }, + { + "epoch": 0.8856666666666667, + "grad_norm": 2.2567341327667236, + "learning_rate": 1.7766575626797495e-05, + "loss": 0.5288, + "step": 2657 + }, + { + "epoch": 0.886, + "grad_norm": 2.145249128341675, + "learning_rate": 1.7764131880257892e-05, + "loss": 0.5202, + "step": 2658 + }, + { + "epoch": 0.8863333333333333, + "grad_norm": 1.8303942680358887, + "learning_rate": 1.7761686965772714e-05, + "loss": 0.5044, + "step": 2659 + }, + { + "epoch": 0.8866666666666667, + "grad_norm": 2.1822400093078613, + "learning_rate": 1.7759240883709745e-05, + "loss": 0.5243, + "step": 2660 + }, + { + "epoch": 0.887, + "grad_norm": 2.0925943851470947, + "learning_rate": 1.7756793634436947e-05, + "loss": 0.5298, + "step": 2661 + }, + { + "epoch": 0.8873333333333333, + "grad_norm": 1.9549931287765503, + "learning_rate": 1.7754345218322454e-05, + "loss": 0.5181, + "step": 2662 + }, + { + "epoch": 0.8876666666666667, + "grad_norm": 1.699444055557251, + "learning_rate": 1.7751895635734576e-05, + "loss": 0.5235, + "step": 2663 + }, + { + "epoch": 0.888, + "grad_norm": 2.538925886154175, + "learning_rate": 1.7749444887041797e-05, + "loss": 0.5357, + "step": 2664 + }, + { + "epoch": 0.8883333333333333, + "grad_norm": 1.989060640335083, + "learning_rate": 1.7746992972612788e-05, + "loss": 0.4726, + "step": 2665 + }, + { + "epoch": 0.8886666666666667, + "grad_norm": 2.129547357559204, + "learning_rate": 1.7744539892816375e-05, + "loss": 0.4865, + "step": 2666 + }, + { + "epoch": 0.889, + "grad_norm": 1.8985133171081543, + "learning_rate": 1.774208564802158e-05, + "loss": 0.5529, + "step": 2667 + }, + { + "epoch": 0.8893333333333333, + "grad_norm": 1.7352436780929565, + "learning_rate": 1.7739630238597588e-05, + "loss": 0.5104, + "step": 2668 + }, + { + "epoch": 0.8896666666666667, + "grad_norm": 1.9871855974197388, + "learning_rate": 1.7737173664913762e-05, + "loss": 0.5141, + "step": 2669 + }, + { + "epoch": 0.89, + "grad_norm": 2.7347042560577393, + "learning_rate": 1.7734715927339642e-05, + "loss": 0.5444, + "step": 2670 + }, + { + "epoch": 0.8903333333333333, + "grad_norm": 2.5433003902435303, + "learning_rate": 1.773225702624494e-05, + "loss": 0.5196, + "step": 2671 + }, + { + "epoch": 0.8906666666666667, + "grad_norm": 1.9685091972351074, + "learning_rate": 1.772979696199954e-05, + "loss": 0.5743, + "step": 2672 + }, + { + "epoch": 0.891, + "grad_norm": 1.921629786491394, + "learning_rate": 1.7727335734973512e-05, + "loss": 0.4861, + "step": 2673 + }, + { + "epoch": 0.8913333333333333, + "grad_norm": 2.1615257263183594, + "learning_rate": 1.7724873345537092e-05, + "loss": 0.5171, + "step": 2674 + }, + { + "epoch": 0.8916666666666667, + "grad_norm": 2.105835199356079, + "learning_rate": 1.7722409794060692e-05, + "loss": 0.5436, + "step": 2675 + }, + { + "epoch": 0.892, + "grad_norm": 1.9090490341186523, + "learning_rate": 1.7719945080914902e-05, + "loss": 0.5018, + "step": 2676 + }, + { + "epoch": 0.8923333333333333, + "grad_norm": 1.7854149341583252, + "learning_rate": 1.7717479206470485e-05, + "loss": 0.5479, + "step": 2677 + }, + { + "epoch": 0.8926666666666667, + "grad_norm": 1.6299428939819336, + "learning_rate": 1.7715012171098377e-05, + "loss": 0.5476, + "step": 2678 + }, + { + "epoch": 0.893, + "grad_norm": 2.6516032218933105, + "learning_rate": 1.7712543975169687e-05, + "loss": 0.5884, + "step": 2679 + }, + { + "epoch": 0.8933333333333333, + "grad_norm": 1.8498444557189941, + "learning_rate": 1.7710074619055707e-05, + "loss": 0.505, + "step": 2680 + }, + { + "epoch": 0.8936666666666667, + "grad_norm": 2.044762372970581, + "learning_rate": 1.77076041031279e-05, + "loss": 0.479, + "step": 2681 + }, + { + "epoch": 0.894, + "grad_norm": 2.4019546508789062, + "learning_rate": 1.7705132427757895e-05, + "loss": 0.5233, + "step": 2682 + }, + { + "epoch": 0.8943333333333333, + "grad_norm": 1.8680014610290527, + "learning_rate": 1.7702659593317503e-05, + "loss": 0.5554, + "step": 2683 + }, + { + "epoch": 0.8946666666666667, + "grad_norm": 2.1703855991363525, + "learning_rate": 1.7700185600178713e-05, + "loss": 0.4756, + "step": 2684 + }, + { + "epoch": 0.895, + "grad_norm": 2.4101104736328125, + "learning_rate": 1.769771044871368e-05, + "loss": 0.495, + "step": 2685 + }, + { + "epoch": 0.8953333333333333, + "grad_norm": 2.023688316345215, + "learning_rate": 1.7695234139294737e-05, + "loss": 0.5302, + "step": 2686 + }, + { + "epoch": 0.8956666666666667, + "grad_norm": 2.5998172760009766, + "learning_rate": 1.7692756672294395e-05, + "loss": 0.5581, + "step": 2687 + }, + { + "epoch": 0.896, + "grad_norm": 1.772930383682251, + "learning_rate": 1.7690278048085327e-05, + "loss": 0.532, + "step": 2688 + }, + { + "epoch": 0.8963333333333333, + "grad_norm": 2.2515530586242676, + "learning_rate": 1.76877982670404e-05, + "loss": 0.5723, + "step": 2689 + }, + { + "epoch": 0.8966666666666666, + "grad_norm": 2.4104700088500977, + "learning_rate": 1.7685317329532633e-05, + "loss": 0.5226, + "step": 2690 + }, + { + "epoch": 0.897, + "grad_norm": 2.0605523586273193, + "learning_rate": 1.7682835235935236e-05, + "loss": 0.5163, + "step": 2691 + }, + { + "epoch": 0.8973333333333333, + "grad_norm": 2.1751317977905273, + "learning_rate": 1.7680351986621582e-05, + "loss": 0.5104, + "step": 2692 + }, + { + "epoch": 0.8976666666666666, + "grad_norm": 1.8450360298156738, + "learning_rate": 1.7677867581965223e-05, + "loss": 0.5538, + "step": 2693 + }, + { + "epoch": 0.898, + "grad_norm": 1.7442550659179688, + "learning_rate": 1.767538202233989e-05, + "loss": 0.5456, + "step": 2694 + }, + { + "epoch": 0.8983333333333333, + "grad_norm": 1.8160663843154907, + "learning_rate": 1.7672895308119467e-05, + "loss": 0.5329, + "step": 2695 + }, + { + "epoch": 0.8986666666666666, + "grad_norm": 1.9186846017837524, + "learning_rate": 1.7670407439678047e-05, + "loss": 0.46, + "step": 2696 + }, + { + "epoch": 0.899, + "grad_norm": 1.6802805662155151, + "learning_rate": 1.7667918417389857e-05, + "loss": 0.5425, + "step": 2697 + }, + { + "epoch": 0.8993333333333333, + "grad_norm": 1.7534557580947876, + "learning_rate": 1.7665428241629327e-05, + "loss": 0.5019, + "step": 2698 + }, + { + "epoch": 0.8996666666666666, + "grad_norm": 2.2002642154693604, + "learning_rate": 1.7662936912771047e-05, + "loss": 0.5086, + "step": 2699 + }, + { + "epoch": 0.9, + "grad_norm": 1.683007001876831, + "learning_rate": 1.766044443118978e-05, + "loss": 0.4927, + "step": 2700 + }, + { + "epoch": 0.9003333333333333, + "grad_norm": 1.9803351163864136, + "learning_rate": 1.7657950797260474e-05, + "loss": 0.5438, + "step": 2701 + }, + { + "epoch": 0.9006666666666666, + "grad_norm": 1.7023247480392456, + "learning_rate": 1.7655456011358238e-05, + "loss": 0.5864, + "step": 2702 + }, + { + "epoch": 0.901, + "grad_norm": 2.2867891788482666, + "learning_rate": 1.765296007385836e-05, + "loss": 0.5064, + "step": 2703 + }, + { + "epoch": 0.9013333333333333, + "grad_norm": 1.6087121963500977, + "learning_rate": 1.765046298513629e-05, + "loss": 0.4734, + "step": 2704 + }, + { + "epoch": 0.9016666666666666, + "grad_norm": 2.1680562496185303, + "learning_rate": 1.7647964745567676e-05, + "loss": 0.5128, + "step": 2705 + }, + { + "epoch": 0.902, + "grad_norm": 2.1791417598724365, + "learning_rate": 1.7645465355528317e-05, + "loss": 0.5415, + "step": 2706 + }, + { + "epoch": 0.9023333333333333, + "grad_norm": 1.765775203704834, + "learning_rate": 1.764296481539419e-05, + "loss": 0.5334, + "step": 2707 + }, + { + "epoch": 0.9026666666666666, + "grad_norm": 1.9078577756881714, + "learning_rate": 1.764046312554145e-05, + "loss": 0.5529, + "step": 2708 + }, + { + "epoch": 0.903, + "grad_norm": 1.997977375984192, + "learning_rate": 1.7637960286346423e-05, + "loss": 0.5236, + "step": 2709 + }, + { + "epoch": 0.9033333333333333, + "grad_norm": 1.8389421701431274, + "learning_rate": 1.7635456298185607e-05, + "loss": 0.5353, + "step": 2710 + }, + { + "epoch": 0.9036666666666666, + "grad_norm": 1.8643972873687744, + "learning_rate": 1.763295116143567e-05, + "loss": 0.5089, + "step": 2711 + }, + { + "epoch": 0.904, + "grad_norm": 1.6101388931274414, + "learning_rate": 1.763044487647345e-05, + "loss": 0.4824, + "step": 2712 + }, + { + "epoch": 0.9043333333333333, + "grad_norm": 1.7740392684936523, + "learning_rate": 1.762793744367598e-05, + "loss": 0.5063, + "step": 2713 + }, + { + "epoch": 0.9046666666666666, + "grad_norm": 1.9330699443817139, + "learning_rate": 1.7625428863420435e-05, + "loss": 0.5658, + "step": 2714 + }, + { + "epoch": 0.905, + "grad_norm": 1.8276013135910034, + "learning_rate": 1.7622919136084183e-05, + "loss": 0.5092, + "step": 2715 + }, + { + "epoch": 0.9053333333333333, + "grad_norm": 2.151740550994873, + "learning_rate": 1.7620408262044753e-05, + "loss": 0.5511, + "step": 2716 + }, + { + "epoch": 0.9056666666666666, + "grad_norm": 2.1577670574188232, + "learning_rate": 1.7617896241679854e-05, + "loss": 0.5488, + "step": 2717 + }, + { + "epoch": 0.906, + "grad_norm": 1.69735586643219, + "learning_rate": 1.761538307536737e-05, + "loss": 0.5531, + "step": 2718 + }, + { + "epoch": 0.9063333333333333, + "grad_norm": 1.9532690048217773, + "learning_rate": 1.7612868763485345e-05, + "loss": 0.475, + "step": 2719 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 1.8950403928756714, + "learning_rate": 1.761035330641201e-05, + "loss": 0.5327, + "step": 2720 + }, + { + "epoch": 0.907, + "grad_norm": 2.16987943649292, + "learning_rate": 1.760783670452575e-05, + "loss": 0.5324, + "step": 2721 + }, + { + "epoch": 0.9073333333333333, + "grad_norm": 2.301523447036743, + "learning_rate": 1.7605318958205146e-05, + "loss": 0.5461, + "step": 2722 + }, + { + "epoch": 0.9076666666666666, + "grad_norm": 2.246433973312378, + "learning_rate": 1.7602800067828928e-05, + "loss": 0.5209, + "step": 2723 + }, + { + "epoch": 0.908, + "grad_norm": 1.9905935525894165, + "learning_rate": 1.7600280033776018e-05, + "loss": 0.5179, + "step": 2724 + }, + { + "epoch": 0.9083333333333333, + "grad_norm": 1.7946165800094604, + "learning_rate": 1.7597758856425497e-05, + "loss": 0.5264, + "step": 2725 + }, + { + "epoch": 0.9086666666666666, + "grad_norm": 2.245739698410034, + "learning_rate": 1.7595236536156615e-05, + "loss": 0.526, + "step": 2726 + }, + { + "epoch": 0.909, + "grad_norm": 2.278512716293335, + "learning_rate": 1.759271307334881e-05, + "loss": 0.4884, + "step": 2727 + }, + { + "epoch": 0.9093333333333333, + "grad_norm": 1.9974677562713623, + "learning_rate": 1.7590188468381675e-05, + "loss": 0.5126, + "step": 2728 + }, + { + "epoch": 0.9096666666666666, + "grad_norm": 2.10615873336792, + "learning_rate": 1.7587662721634992e-05, + "loss": 0.5475, + "step": 2729 + }, + { + "epoch": 0.91, + "grad_norm": 2.225337505340576, + "learning_rate": 1.7585135833488692e-05, + "loss": 0.4958, + "step": 2730 + }, + { + "epoch": 0.9103333333333333, + "grad_norm": 2.2858870029449463, + "learning_rate": 1.75826078043229e-05, + "loss": 0.493, + "step": 2731 + }, + { + "epoch": 0.9106666666666666, + "grad_norm": 2.3033483028411865, + "learning_rate": 1.7580078634517898e-05, + "loss": 0.5412, + "step": 2732 + }, + { + "epoch": 0.911, + "grad_norm": 1.9977308511734009, + "learning_rate": 1.7577548324454148e-05, + "loss": 0.5107, + "step": 2733 + }, + { + "epoch": 0.9113333333333333, + "grad_norm": 2.7687299251556396, + "learning_rate": 1.757501687451228e-05, + "loss": 0.5472, + "step": 2734 + }, + { + "epoch": 0.9116666666666666, + "grad_norm": 1.4965757131576538, + "learning_rate": 1.7572484285073093e-05, + "loss": 0.5186, + "step": 2735 + }, + { + "epoch": 0.912, + "grad_norm": 1.969641923904419, + "learning_rate": 1.7569950556517566e-05, + "loss": 0.531, + "step": 2736 + }, + { + "epoch": 0.9123333333333333, + "grad_norm": 2.5040206909179688, + "learning_rate": 1.7567415689226838e-05, + "loss": 0.5078, + "step": 2737 + }, + { + "epoch": 0.9126666666666666, + "grad_norm": 1.7902939319610596, + "learning_rate": 1.756487968358223e-05, + "loss": 0.5057, + "step": 2738 + }, + { + "epoch": 0.913, + "grad_norm": 1.9152554273605347, + "learning_rate": 1.7562342539965223e-05, + "loss": 0.4847, + "step": 2739 + }, + { + "epoch": 0.9133333333333333, + "grad_norm": 1.610628604888916, + "learning_rate": 1.755980425875748e-05, + "loss": 0.4714, + "step": 2740 + }, + { + "epoch": 0.9136666666666666, + "grad_norm": 2.5511863231658936, + "learning_rate": 1.7557264840340828e-05, + "loss": 0.5168, + "step": 2741 + }, + { + "epoch": 0.914, + "grad_norm": 1.8587156534194946, + "learning_rate": 1.7554724285097272e-05, + "loss": 0.5208, + "step": 2742 + }, + { + "epoch": 0.9143333333333333, + "grad_norm": 2.1852376461029053, + "learning_rate": 1.7552182593408974e-05, + "loss": 0.4495, + "step": 2743 + }, + { + "epoch": 0.9146666666666666, + "grad_norm": 2.020415782928467, + "learning_rate": 1.7549639765658288e-05, + "loss": 0.5273, + "step": 2744 + }, + { + "epoch": 0.915, + "grad_norm": 2.22951602935791, + "learning_rate": 1.7547095802227723e-05, + "loss": 0.518, + "step": 2745 + }, + { + "epoch": 0.9153333333333333, + "grad_norm": 2.044238805770874, + "learning_rate": 1.754455070349996e-05, + "loss": 0.5076, + "step": 2746 + }, + { + "epoch": 0.9156666666666666, + "grad_norm": 3.0056068897247314, + "learning_rate": 1.7542004469857853e-05, + "loss": 0.5266, + "step": 2747 + }, + { + "epoch": 0.916, + "grad_norm": 1.9137752056121826, + "learning_rate": 1.7539457101684434e-05, + "loss": 0.5189, + "step": 2748 + }, + { + "epoch": 0.9163333333333333, + "grad_norm": 2.37317156791687, + "learning_rate": 1.7536908599362895e-05, + "loss": 0.5227, + "step": 2749 + }, + { + "epoch": 0.9166666666666666, + "grad_norm": 1.9395450353622437, + "learning_rate": 1.7534358963276606e-05, + "loss": 0.5157, + "step": 2750 + }, + { + "epoch": 0.917, + "grad_norm": 1.7977285385131836, + "learning_rate": 1.7531808193809106e-05, + "loss": 0.4902, + "step": 2751 + }, + { + "epoch": 0.9173333333333333, + "grad_norm": 1.7911009788513184, + "learning_rate": 1.7529256291344095e-05, + "loss": 0.4996, + "step": 2752 + }, + { + "epoch": 0.9176666666666666, + "grad_norm": 1.6522202491760254, + "learning_rate": 1.7526703256265462e-05, + "loss": 0.5557, + "step": 2753 + }, + { + "epoch": 0.918, + "grad_norm": 1.8838801383972168, + "learning_rate": 1.7524149088957244e-05, + "loss": 0.5439, + "step": 2754 + }, + { + "epoch": 0.9183333333333333, + "grad_norm": 2.6294217109680176, + "learning_rate": 1.752159378980367e-05, + "loss": 0.522, + "step": 2755 + }, + { + "epoch": 0.9186666666666666, + "grad_norm": 1.8617126941680908, + "learning_rate": 1.7519037359189126e-05, + "loss": 0.5254, + "step": 2756 + }, + { + "epoch": 0.919, + "grad_norm": 1.984352946281433, + "learning_rate": 1.7516479797498172e-05, + "loss": 0.5343, + "step": 2757 + }, + { + "epoch": 0.9193333333333333, + "grad_norm": 1.7099123001098633, + "learning_rate": 1.7513921105115538e-05, + "loss": 0.4854, + "step": 2758 + }, + { + "epoch": 0.9196666666666666, + "grad_norm": 1.8719093799591064, + "learning_rate": 1.751136128242612e-05, + "loss": 0.491, + "step": 2759 + }, + { + "epoch": 0.92, + "grad_norm": 1.8294391632080078, + "learning_rate": 1.7508800329814993e-05, + "loss": 0.4888, + "step": 2760 + }, + { + "epoch": 0.9203333333333333, + "grad_norm": 2.1210572719573975, + "learning_rate": 1.7506238247667395e-05, + "loss": 0.5013, + "step": 2761 + }, + { + "epoch": 0.9206666666666666, + "grad_norm": 2.124743700027466, + "learning_rate": 1.7503675036368737e-05, + "loss": 0.464, + "step": 2762 + }, + { + "epoch": 0.921, + "grad_norm": 2.115917444229126, + "learning_rate": 1.7501110696304598e-05, + "loss": 0.5666, + "step": 2763 + }, + { + "epoch": 0.9213333333333333, + "grad_norm": 2.014880657196045, + "learning_rate": 1.7498545227860724e-05, + "loss": 0.509, + "step": 2764 + }, + { + "epoch": 0.9216666666666666, + "grad_norm": 2.0216684341430664, + "learning_rate": 1.749597863142304e-05, + "loss": 0.5103, + "step": 2765 + }, + { + "epoch": 0.922, + "grad_norm": 2.381221055984497, + "learning_rate": 1.749341090737763e-05, + "loss": 0.5076, + "step": 2766 + }, + { + "epoch": 0.9223333333333333, + "grad_norm": 1.7304141521453857, + "learning_rate": 1.7490842056110756e-05, + "loss": 0.517, + "step": 2767 + }, + { + "epoch": 0.9226666666666666, + "grad_norm": 1.9141594171524048, + "learning_rate": 1.7488272078008844e-05, + "loss": 0.4787, + "step": 2768 + }, + { + "epoch": 0.923, + "grad_norm": 1.8843417167663574, + "learning_rate": 1.7485700973458494e-05, + "loss": 0.5248, + "step": 2769 + }, + { + "epoch": 0.9233333333333333, + "grad_norm": 2.458425521850586, + "learning_rate": 1.748312874284647e-05, + "loss": 0.5134, + "step": 2770 + }, + { + "epoch": 0.9236666666666666, + "grad_norm": 2.1113381385803223, + "learning_rate": 1.748055538655971e-05, + "loss": 0.5162, + "step": 2771 + }, + { + "epoch": 0.924, + "grad_norm": 2.148594856262207, + "learning_rate": 1.747798090498532e-05, + "loss": 0.539, + "step": 2772 + }, + { + "epoch": 0.9243333333333333, + "grad_norm": 1.9489234685897827, + "learning_rate": 1.7475405298510574e-05, + "loss": 0.5435, + "step": 2773 + }, + { + "epoch": 0.9246666666666666, + "grad_norm": 1.9387249946594238, + "learning_rate": 1.7472828567522916e-05, + "loss": 0.5054, + "step": 2774 + }, + { + "epoch": 0.925, + "grad_norm": 2.388378620147705, + "learning_rate": 1.7470250712409963e-05, + "loss": 0.4983, + "step": 2775 + }, + { + "epoch": 0.9253333333333333, + "grad_norm": 2.4145262241363525, + "learning_rate": 1.746767173355949e-05, + "loss": 0.5035, + "step": 2776 + }, + { + "epoch": 0.9256666666666666, + "grad_norm": 1.7823277711868286, + "learning_rate": 1.7465091631359455e-05, + "loss": 0.4831, + "step": 2777 + }, + { + "epoch": 0.926, + "grad_norm": 1.6626189947128296, + "learning_rate": 1.746251040619798e-05, + "loss": 0.5202, + "step": 2778 + }, + { + "epoch": 0.9263333333333333, + "grad_norm": 2.3684005737304688, + "learning_rate": 1.7459928058463348e-05, + "loss": 0.532, + "step": 2779 + }, + { + "epoch": 0.9266666666666666, + "grad_norm": 1.752739429473877, + "learning_rate": 1.7457344588544018e-05, + "loss": 0.5325, + "step": 2780 + }, + { + "epoch": 0.927, + "grad_norm": 1.706058382987976, + "learning_rate": 1.7454759996828622e-05, + "loss": 0.5253, + "step": 2781 + }, + { + "epoch": 0.9273333333333333, + "grad_norm": 1.5716028213500977, + "learning_rate": 1.7452174283705955e-05, + "loss": 0.5208, + "step": 2782 + }, + { + "epoch": 0.9276666666666666, + "grad_norm": 1.9253973960876465, + "learning_rate": 1.744958744956498e-05, + "loss": 0.5048, + "step": 2783 + }, + { + "epoch": 0.928, + "grad_norm": 2.012531042098999, + "learning_rate": 1.744699949479483e-05, + "loss": 0.5246, + "step": 2784 + }, + { + "epoch": 0.9283333333333333, + "grad_norm": 2.095020055770874, + "learning_rate": 1.7444410419784805e-05, + "loss": 0.513, + "step": 2785 + }, + { + "epoch": 0.9286666666666666, + "grad_norm": 1.9285601377487183, + "learning_rate": 1.7441820224924376e-05, + "loss": 0.4568, + "step": 2786 + }, + { + "epoch": 0.929, + "grad_norm": 1.9119458198547363, + "learning_rate": 1.7439228910603184e-05, + "loss": 0.5234, + "step": 2787 + }, + { + "epoch": 0.9293333333333333, + "grad_norm": 2.838871955871582, + "learning_rate": 1.7436636477211038e-05, + "loss": 0.5354, + "step": 2788 + }, + { + "epoch": 0.9296666666666666, + "grad_norm": 2.063559055328369, + "learning_rate": 1.743404292513791e-05, + "loss": 0.4669, + "step": 2789 + }, + { + "epoch": 0.93, + "grad_norm": 2.256366729736328, + "learning_rate": 1.7431448254773943e-05, + "loss": 0.4958, + "step": 2790 + }, + { + "epoch": 0.9303333333333333, + "grad_norm": 2.3977978229522705, + "learning_rate": 1.742885246650945e-05, + "loss": 0.4951, + "step": 2791 + }, + { + "epoch": 0.9306666666666666, + "grad_norm": 1.4774004220962524, + "learning_rate": 1.7426255560734916e-05, + "loss": 0.4865, + "step": 2792 + }, + { + "epoch": 0.931, + "grad_norm": 3.0969021320343018, + "learning_rate": 1.7423657537840978e-05, + "loss": 0.5434, + "step": 2793 + }, + { + "epoch": 0.9313333333333333, + "grad_norm": 2.354292631149292, + "learning_rate": 1.7421058398218466e-05, + "loss": 0.4976, + "step": 2794 + }, + { + "epoch": 0.9316666666666666, + "grad_norm": 1.8530917167663574, + "learning_rate": 1.7418458142258355e-05, + "loss": 0.5502, + "step": 2795 + }, + { + "epoch": 0.932, + "grad_norm": 1.8615202903747559, + "learning_rate": 1.7415856770351797e-05, + "loss": 0.5094, + "step": 2796 + }, + { + "epoch": 0.9323333333333333, + "grad_norm": 1.8540737628936768, + "learning_rate": 1.7413254282890118e-05, + "loss": 0.5325, + "step": 2797 + }, + { + "epoch": 0.9326666666666666, + "grad_norm": 1.662920355796814, + "learning_rate": 1.74106506802648e-05, + "loss": 0.5166, + "step": 2798 + }, + { + "epoch": 0.933, + "grad_norm": 2.0544016361236572, + "learning_rate": 1.74080459628675e-05, + "loss": 0.5269, + "step": 2799 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 1.9854844808578491, + "learning_rate": 1.740544013109005e-05, + "loss": 0.5419, + "step": 2800 + }, + { + "epoch": 0.9336666666666666, + "grad_norm": 2.1567342281341553, + "learning_rate": 1.7402833185324425e-05, + "loss": 0.4989, + "step": 2801 + }, + { + "epoch": 0.934, + "grad_norm": 1.6070232391357422, + "learning_rate": 1.7400225125962796e-05, + "loss": 0.4894, + "step": 2802 + }, + { + "epoch": 0.9343333333333333, + "grad_norm": 1.8286882638931274, + "learning_rate": 1.739761595339749e-05, + "loss": 0.5052, + "step": 2803 + }, + { + "epoch": 0.9346666666666666, + "grad_norm": 1.9713127613067627, + "learning_rate": 1.7395005668020986e-05, + "loss": 0.5234, + "step": 2804 + }, + { + "epoch": 0.935, + "grad_norm": 1.9423435926437378, + "learning_rate": 1.739239427022596e-05, + "loss": 0.4702, + "step": 2805 + }, + { + "epoch": 0.9353333333333333, + "grad_norm": 1.755602240562439, + "learning_rate": 1.7389781760405236e-05, + "loss": 0.4951, + "step": 2806 + }, + { + "epoch": 0.9356666666666666, + "grad_norm": 1.9295631647109985, + "learning_rate": 1.738716813895181e-05, + "loss": 0.5234, + "step": 2807 + }, + { + "epoch": 0.936, + "grad_norm": 2.0915653705596924, + "learning_rate": 1.7384553406258842e-05, + "loss": 0.4968, + "step": 2808 + }, + { + "epoch": 0.9363333333333334, + "grad_norm": 1.8644956350326538, + "learning_rate": 1.738193756271966e-05, + "loss": 0.4807, + "step": 2809 + }, + { + "epoch": 0.9366666666666666, + "grad_norm": 1.9745841026306152, + "learning_rate": 1.7379320608727766e-05, + "loss": 0.5021, + "step": 2810 + }, + { + "epoch": 0.937, + "grad_norm": 1.8003559112548828, + "learning_rate": 1.7376702544676823e-05, + "loss": 0.5093, + "step": 2811 + }, + { + "epoch": 0.9373333333333334, + "grad_norm": 1.6533221006393433, + "learning_rate": 1.737408337096066e-05, + "loss": 0.4407, + "step": 2812 + }, + { + "epoch": 0.9376666666666666, + "grad_norm": 2.0921285152435303, + "learning_rate": 1.737146308797328e-05, + "loss": 0.5037, + "step": 2813 + }, + { + "epoch": 0.938, + "grad_norm": 2.0030837059020996, + "learning_rate": 1.736884169610884e-05, + "loss": 0.5125, + "step": 2814 + }, + { + "epoch": 0.9383333333333334, + "grad_norm": 2.8755762577056885, + "learning_rate": 1.7366219195761683e-05, + "loss": 0.5066, + "step": 2815 + }, + { + "epoch": 0.9386666666666666, + "grad_norm": 2.102879524230957, + "learning_rate": 1.7363595587326293e-05, + "loss": 0.5631, + "step": 2816 + }, + { + "epoch": 0.939, + "grad_norm": 1.7634645700454712, + "learning_rate": 1.7360970871197347e-05, + "loss": 0.4526, + "step": 2817 + }, + { + "epoch": 0.9393333333333334, + "grad_norm": 2.076348304748535, + "learning_rate": 1.7358345047769666e-05, + "loss": 0.4676, + "step": 2818 + }, + { + "epoch": 0.9396666666666667, + "grad_norm": 2.3278543949127197, + "learning_rate": 1.7355718117438262e-05, + "loss": 0.5325, + "step": 2819 + }, + { + "epoch": 0.94, + "grad_norm": 2.1131398677825928, + "learning_rate": 1.735309008059829e-05, + "loss": 0.4781, + "step": 2820 + }, + { + "epoch": 0.9403333333333334, + "grad_norm": 1.7988415956497192, + "learning_rate": 1.735046093764508e-05, + "loss": 0.5329, + "step": 2821 + }, + { + "epoch": 0.9406666666666667, + "grad_norm": 1.950586199760437, + "learning_rate": 1.7347830688974135e-05, + "loss": 0.5189, + "step": 2822 + }, + { + "epoch": 0.941, + "grad_norm": 1.667169451713562, + "learning_rate": 1.734519933498112e-05, + "loss": 0.5673, + "step": 2823 + }, + { + "epoch": 0.9413333333333334, + "grad_norm": 2.0484883785247803, + "learning_rate": 1.734256687606186e-05, + "loss": 0.5107, + "step": 2824 + }, + { + "epoch": 0.9416666666666667, + "grad_norm": 2.1305172443389893, + "learning_rate": 1.7339933312612353e-05, + "loss": 0.4813, + "step": 2825 + }, + { + "epoch": 0.942, + "grad_norm": 1.9300123453140259, + "learning_rate": 1.7337298645028764e-05, + "loss": 0.5053, + "step": 2826 + }, + { + "epoch": 0.9423333333333334, + "grad_norm": 1.6861968040466309, + "learning_rate": 1.7334662873707422e-05, + "loss": 0.4916, + "step": 2827 + }, + { + "epoch": 0.9426666666666667, + "grad_norm": 1.714925765991211, + "learning_rate": 1.733202599904482e-05, + "loss": 0.5291, + "step": 2828 + }, + { + "epoch": 0.943, + "grad_norm": 2.183638334274292, + "learning_rate": 1.7329388021437615e-05, + "loss": 0.5385, + "step": 2829 + }, + { + "epoch": 0.9433333333333334, + "grad_norm": 1.852460265159607, + "learning_rate": 1.7326748941282638e-05, + "loss": 0.5026, + "step": 2830 + }, + { + "epoch": 0.9436666666666667, + "grad_norm": 2.2943334579467773, + "learning_rate": 1.732410875897688e-05, + "loss": 0.5211, + "step": 2831 + }, + { + "epoch": 0.944, + "grad_norm": 1.94868004322052, + "learning_rate": 1.7321467474917502e-05, + "loss": 0.5388, + "step": 2832 + }, + { + "epoch": 0.9443333333333334, + "grad_norm": 1.6380105018615723, + "learning_rate": 1.7318825089501827e-05, + "loss": 0.5269, + "step": 2833 + }, + { + "epoch": 0.9446666666666667, + "grad_norm": 1.4143552780151367, + "learning_rate": 1.7316181603127344e-05, + "loss": 0.515, + "step": 2834 + }, + { + "epoch": 0.945, + "grad_norm": 1.7275224924087524, + "learning_rate": 1.7313537016191706e-05, + "loss": 0.4961, + "step": 2835 + }, + { + "epoch": 0.9453333333333334, + "grad_norm": 2.1327710151672363, + "learning_rate": 1.731089132909274e-05, + "loss": 0.5245, + "step": 2836 + }, + { + "epoch": 0.9456666666666667, + "grad_norm": 2.29274320602417, + "learning_rate": 1.7308244542228424e-05, + "loss": 0.5074, + "step": 2837 + }, + { + "epoch": 0.946, + "grad_norm": 2.3154757022857666, + "learning_rate": 1.7305596655996916e-05, + "loss": 0.5569, + "step": 2838 + }, + { + "epoch": 0.9463333333333334, + "grad_norm": 2.03775691986084, + "learning_rate": 1.7302947670796526e-05, + "loss": 0.526, + "step": 2839 + }, + { + "epoch": 0.9466666666666667, + "grad_norm": 1.8755428791046143, + "learning_rate": 1.7300297587025748e-05, + "loss": 0.5083, + "step": 2840 + }, + { + "epoch": 0.947, + "grad_norm": 2.2174131870269775, + "learning_rate": 1.729764640508322e-05, + "loss": 0.488, + "step": 2841 + }, + { + "epoch": 0.9473333333333334, + "grad_norm": 2.070535182952881, + "learning_rate": 1.729499412536776e-05, + "loss": 0.5485, + "step": 2842 + }, + { + "epoch": 0.9476666666666667, + "grad_norm": 1.6229937076568604, + "learning_rate": 1.7292340748278345e-05, + "loss": 0.5203, + "step": 2843 + }, + { + "epoch": 0.948, + "grad_norm": 1.717932939529419, + "learning_rate": 1.7289686274214116e-05, + "loss": 0.504, + "step": 2844 + }, + { + "epoch": 0.9483333333333334, + "grad_norm": 2.172827959060669, + "learning_rate": 1.7287030703574387e-05, + "loss": 0.5329, + "step": 2845 + }, + { + "epoch": 0.9486666666666667, + "grad_norm": 2.036482572555542, + "learning_rate": 1.7284374036758623e-05, + "loss": 0.4924, + "step": 2846 + }, + { + "epoch": 0.949, + "grad_norm": 1.8386858701705933, + "learning_rate": 1.7281716274166464e-05, + "loss": 0.4839, + "step": 2847 + }, + { + "epoch": 0.9493333333333334, + "grad_norm": 2.1081178188323975, + "learning_rate": 1.7279057416197717e-05, + "loss": 0.5273, + "step": 2848 + }, + { + "epoch": 0.9496666666666667, + "grad_norm": 2.254025936126709, + "learning_rate": 1.727639746325235e-05, + "loss": 0.495, + "step": 2849 + }, + { + "epoch": 0.95, + "grad_norm": 2.0992519855499268, + "learning_rate": 1.7273736415730488e-05, + "loss": 0.5369, + "step": 2850 + }, + { + "epoch": 0.9503333333333334, + "grad_norm": 1.9518769979476929, + "learning_rate": 1.7271074274032435e-05, + "loss": 0.5076, + "step": 2851 + }, + { + "epoch": 0.9506666666666667, + "grad_norm": 1.9011812210083008, + "learning_rate": 1.7268411038558653e-05, + "loss": 0.527, + "step": 2852 + }, + { + "epoch": 0.951, + "grad_norm": 1.9634250402450562, + "learning_rate": 1.7265746709709762e-05, + "loss": 0.4945, + "step": 2853 + }, + { + "epoch": 0.9513333333333334, + "grad_norm": 2.585527181625366, + "learning_rate": 1.7263081287886555e-05, + "loss": 0.4791, + "step": 2854 + }, + { + "epoch": 0.9516666666666667, + "grad_norm": 1.8723233938217163, + "learning_rate": 1.726041477348999e-05, + "loss": 0.5055, + "step": 2855 + }, + { + "epoch": 0.952, + "grad_norm": 2.2931430339813232, + "learning_rate": 1.7257747166921186e-05, + "loss": 0.5187, + "step": 2856 + }, + { + "epoch": 0.9523333333333334, + "grad_norm": 1.5297926664352417, + "learning_rate": 1.725507846858142e-05, + "loss": 0.4777, + "step": 2857 + }, + { + "epoch": 0.9526666666666667, + "grad_norm": 2.1875336170196533, + "learning_rate": 1.725240867887215e-05, + "loss": 0.4931, + "step": 2858 + }, + { + "epoch": 0.953, + "grad_norm": 2.0782415866851807, + "learning_rate": 1.7249737798194982e-05, + "loss": 0.5166, + "step": 2859 + }, + { + "epoch": 0.9533333333333334, + "grad_norm": 1.9492281675338745, + "learning_rate": 1.7247065826951694e-05, + "loss": 0.4847, + "step": 2860 + }, + { + "epoch": 0.9536666666666667, + "grad_norm": 1.9672863483428955, + "learning_rate": 1.7244392765544222e-05, + "loss": 0.5133, + "step": 2861 + }, + { + "epoch": 0.954, + "grad_norm": 2.0841641426086426, + "learning_rate": 1.7241718614374678e-05, + "loss": 0.5303, + "step": 2862 + }, + { + "epoch": 0.9543333333333334, + "grad_norm": 1.8010457754135132, + "learning_rate": 1.723904337384532e-05, + "loss": 0.4725, + "step": 2863 + }, + { + "epoch": 0.9546666666666667, + "grad_norm": 1.7831709384918213, + "learning_rate": 1.723636704435859e-05, + "loss": 0.5596, + "step": 2864 + }, + { + "epoch": 0.955, + "grad_norm": 1.9151415824890137, + "learning_rate": 1.723368962631708e-05, + "loss": 0.4853, + "step": 2865 + }, + { + "epoch": 0.9553333333333334, + "grad_norm": 2.536095142364502, + "learning_rate": 1.7231011120123548e-05, + "loss": 0.5578, + "step": 2866 + }, + { + "epoch": 0.9556666666666667, + "grad_norm": 1.973555564880371, + "learning_rate": 1.7228331526180923e-05, + "loss": 0.522, + "step": 2867 + }, + { + "epoch": 0.956, + "grad_norm": 1.7467399835586548, + "learning_rate": 1.722565084489228e-05, + "loss": 0.4892, + "step": 2868 + }, + { + "epoch": 0.9563333333333334, + "grad_norm": 1.7545795440673828, + "learning_rate": 1.7222969076660882e-05, + "loss": 0.5116, + "step": 2869 + }, + { + "epoch": 0.9566666666666667, + "grad_norm": 2.0700645446777344, + "learning_rate": 1.7220286221890137e-05, + "loss": 0.5189, + "step": 2870 + }, + { + "epoch": 0.957, + "grad_norm": 1.931038737297058, + "learning_rate": 1.7217602280983622e-05, + "loss": 0.5069, + "step": 2871 + }, + { + "epoch": 0.9573333333333334, + "grad_norm": 1.682341456413269, + "learning_rate": 1.721491725434508e-05, + "loss": 0.5251, + "step": 2872 + }, + { + "epoch": 0.9576666666666667, + "grad_norm": 1.5063272714614868, + "learning_rate": 1.7212231142378418e-05, + "loss": 0.5025, + "step": 2873 + }, + { + "epoch": 0.958, + "grad_norm": 2.110450506210327, + "learning_rate": 1.7209543945487696e-05, + "loss": 0.4839, + "step": 2874 + }, + { + "epoch": 0.9583333333333334, + "grad_norm": 1.626175880432129, + "learning_rate": 1.7206855664077147e-05, + "loss": 0.498, + "step": 2875 + }, + { + "epoch": 0.9586666666666667, + "grad_norm": 1.6907410621643066, + "learning_rate": 1.720416629855117e-05, + "loss": 0.5127, + "step": 2876 + }, + { + "epoch": 0.959, + "grad_norm": 1.4536644220352173, + "learning_rate": 1.720147584931431e-05, + "loss": 0.4709, + "step": 2877 + }, + { + "epoch": 0.9593333333333334, + "grad_norm": 1.626591444015503, + "learning_rate": 1.7198784316771303e-05, + "loss": 0.4859, + "step": 2878 + }, + { + "epoch": 0.9596666666666667, + "grad_norm": 1.7104442119598389, + "learning_rate": 1.7196091701327022e-05, + "loss": 0.5215, + "step": 2879 + }, + { + "epoch": 0.96, + "grad_norm": 1.893433928489685, + "learning_rate": 1.7193398003386514e-05, + "loss": 0.5114, + "step": 2880 + }, + { + "epoch": 0.9603333333333334, + "grad_norm": 1.6895033121109009, + "learning_rate": 1.7190703223354985e-05, + "loss": 0.5226, + "step": 2881 + }, + { + "epoch": 0.9606666666666667, + "grad_norm": 1.7315192222595215, + "learning_rate": 1.718800736163781e-05, + "loss": 0.474, + "step": 2882 + }, + { + "epoch": 0.961, + "grad_norm": 2.2694835662841797, + "learning_rate": 1.7185310418640525e-05, + "loss": 0.5194, + "step": 2883 + }, + { + "epoch": 0.9613333333333334, + "grad_norm": 1.8390156030654907, + "learning_rate": 1.7182612394768822e-05, + "loss": 0.518, + "step": 2884 + }, + { + "epoch": 0.9616666666666667, + "grad_norm": 2.4681217670440674, + "learning_rate": 1.7179913290428563e-05, + "loss": 0.487, + "step": 2885 + }, + { + "epoch": 0.962, + "grad_norm": 1.868140459060669, + "learning_rate": 1.7177213106025768e-05, + "loss": 0.491, + "step": 2886 + }, + { + "epoch": 0.9623333333333334, + "grad_norm": 2.29270601272583, + "learning_rate": 1.7174511841966623e-05, + "loss": 0.5294, + "step": 2887 + }, + { + "epoch": 0.9626666666666667, + "grad_norm": 2.285738468170166, + "learning_rate": 1.7171809498657473e-05, + "loss": 0.5196, + "step": 2888 + }, + { + "epoch": 0.963, + "grad_norm": 2.3833682537078857, + "learning_rate": 1.716910607650483e-05, + "loss": 0.4954, + "step": 2889 + }, + { + "epoch": 0.9633333333333334, + "grad_norm": 1.7843906879425049, + "learning_rate": 1.716640157591536e-05, + "loss": 0.519, + "step": 2890 + }, + { + "epoch": 0.9636666666666667, + "grad_norm": 1.8214682340621948, + "learning_rate": 1.7163695997295904e-05, + "loss": 0.5132, + "step": 2891 + }, + { + "epoch": 0.964, + "grad_norm": 1.744269609451294, + "learning_rate": 1.716098934105345e-05, + "loss": 0.4662, + "step": 2892 + }, + { + "epoch": 0.9643333333333334, + "grad_norm": 1.8520874977111816, + "learning_rate": 1.715828160759516e-05, + "loss": 0.5074, + "step": 2893 + }, + { + "epoch": 0.9646666666666667, + "grad_norm": 2.073383092880249, + "learning_rate": 1.7155572797328358e-05, + "loss": 0.4938, + "step": 2894 + }, + { + "epoch": 0.965, + "grad_norm": 2.631277084350586, + "learning_rate": 1.7152862910660516e-05, + "loss": 0.5137, + "step": 2895 + }, + { + "epoch": 0.9653333333333334, + "grad_norm": 1.8642548322677612, + "learning_rate": 1.7150151947999285e-05, + "loss": 0.5471, + "step": 2896 + }, + { + "epoch": 0.9656666666666667, + "grad_norm": 2.3170273303985596, + "learning_rate": 1.714743990975247e-05, + "loss": 0.487, + "step": 2897 + }, + { + "epoch": 0.966, + "grad_norm": 2.4904589653015137, + "learning_rate": 1.7144726796328034e-05, + "loss": 0.5459, + "step": 2898 + }, + { + "epoch": 0.9663333333333334, + "grad_norm": 2.53475022315979, + "learning_rate": 1.714201260813411e-05, + "loss": 0.4793, + "step": 2899 + }, + { + "epoch": 0.9666666666666667, + "grad_norm": 2.371899127960205, + "learning_rate": 1.7139297345578992e-05, + "loss": 0.5115, + "step": 2900 + }, + { + "epoch": 0.967, + "grad_norm": 2.3323960304260254, + "learning_rate": 1.7136581009071126e-05, + "loss": 0.4852, + "step": 2901 + }, + { + "epoch": 0.9673333333333334, + "grad_norm": 1.9285149574279785, + "learning_rate": 1.713386359901913e-05, + "loss": 0.5012, + "step": 2902 + }, + { + "epoch": 0.9676666666666667, + "grad_norm": 1.6660205125808716, + "learning_rate": 1.713114511583178e-05, + "loss": 0.49, + "step": 2903 + }, + { + "epoch": 0.968, + "grad_norm": 2.1607847213745117, + "learning_rate": 1.7128425559918006e-05, + "loss": 0.5291, + "step": 2904 + }, + { + "epoch": 0.9683333333333334, + "grad_norm": 2.7268927097320557, + "learning_rate": 1.7125704931686913e-05, + "loss": 0.4971, + "step": 2905 + }, + { + "epoch": 0.9686666666666667, + "grad_norm": 1.920475721359253, + "learning_rate": 1.712298323154776e-05, + "loss": 0.524, + "step": 2906 + }, + { + "epoch": 0.969, + "grad_norm": 1.7357840538024902, + "learning_rate": 1.712026045990997e-05, + "loss": 0.5387, + "step": 2907 + }, + { + "epoch": 0.9693333333333334, + "grad_norm": 2.3984012603759766, + "learning_rate": 1.711753661718312e-05, + "loss": 0.4885, + "step": 2908 + }, + { + "epoch": 0.9696666666666667, + "grad_norm": 2.0897819995880127, + "learning_rate": 1.711481170377695e-05, + "loss": 0.5549, + "step": 2909 + }, + { + "epoch": 0.97, + "grad_norm": 1.8214243650436401, + "learning_rate": 1.711208572010137e-05, + "loss": 0.5041, + "step": 2910 + }, + { + "epoch": 0.9703333333333334, + "grad_norm": 1.651496410369873, + "learning_rate": 1.7109358666566453e-05, + "loss": 0.4736, + "step": 2911 + }, + { + "epoch": 0.9706666666666667, + "grad_norm": 1.652413249015808, + "learning_rate": 1.7106630543582413e-05, + "loss": 0.4801, + "step": 2912 + }, + { + "epoch": 0.971, + "grad_norm": 1.862821340560913, + "learning_rate": 1.710390135155964e-05, + "loss": 0.5062, + "step": 2913 + }, + { + "epoch": 0.9713333333333334, + "grad_norm": 1.7816804647445679, + "learning_rate": 1.710117109090868e-05, + "loss": 0.4746, + "step": 2914 + }, + { + "epoch": 0.9716666666666667, + "grad_norm": 1.9144974946975708, + "learning_rate": 1.709843976204025e-05, + "loss": 0.5166, + "step": 2915 + }, + { + "epoch": 0.972, + "grad_norm": 1.6675899028778076, + "learning_rate": 1.709570736536521e-05, + "loss": 0.4801, + "step": 2916 + }, + { + "epoch": 0.9723333333333334, + "grad_norm": 2.1286120414733887, + "learning_rate": 1.7092973901294596e-05, + "loss": 0.4938, + "step": 2917 + }, + { + "epoch": 0.9726666666666667, + "grad_norm": 2.05037522315979, + "learning_rate": 1.7090239370239597e-05, + "loss": 0.5027, + "step": 2918 + }, + { + "epoch": 0.973, + "grad_norm": 1.9301187992095947, + "learning_rate": 1.708750377261156e-05, + "loss": 0.5137, + "step": 2919 + }, + { + "epoch": 0.9733333333333334, + "grad_norm": 2.109262704849243, + "learning_rate": 1.7084767108822e-05, + "loss": 0.488, + "step": 2920 + }, + { + "epoch": 0.9736666666666667, + "grad_norm": 1.7142226696014404, + "learning_rate": 1.7082029379282586e-05, + "loss": 0.477, + "step": 2921 + }, + { + "epoch": 0.974, + "grad_norm": 1.9599456787109375, + "learning_rate": 1.7079290584405158e-05, + "loss": 0.524, + "step": 2922 + }, + { + "epoch": 0.9743333333333334, + "grad_norm": 1.4273947477340698, + "learning_rate": 1.7076550724601702e-05, + "loss": 0.4727, + "step": 2923 + }, + { + "epoch": 0.9746666666666667, + "grad_norm": 1.782457709312439, + "learning_rate": 1.7073809800284373e-05, + "loss": 0.5347, + "step": 2924 + }, + { + "epoch": 0.975, + "grad_norm": 2.2197420597076416, + "learning_rate": 1.7071067811865477e-05, + "loss": 0.5215, + "step": 2925 + }, + { + "epoch": 0.9753333333333334, + "grad_norm": 1.730368733406067, + "learning_rate": 1.7068324759757494e-05, + "loss": 0.4473, + "step": 2926 + }, + { + "epoch": 0.9756666666666667, + "grad_norm": 1.7747712135314941, + "learning_rate": 1.7065580644373057e-05, + "loss": 0.5188, + "step": 2927 + }, + { + "epoch": 0.976, + "grad_norm": 2.1798434257507324, + "learning_rate": 1.7062835466124953e-05, + "loss": 0.4307, + "step": 2928 + }, + { + "epoch": 0.9763333333333334, + "grad_norm": 1.6156154870986938, + "learning_rate": 1.7060089225426143e-05, + "loss": 0.4659, + "step": 2929 + }, + { + "epoch": 0.9766666666666667, + "grad_norm": 1.9213547706604004, + "learning_rate": 1.7057341922689733e-05, + "loss": 0.4996, + "step": 2930 + }, + { + "epoch": 0.977, + "grad_norm": 2.234142541885376, + "learning_rate": 1.7054593558328996e-05, + "loss": 0.4821, + "step": 2931 + }, + { + "epoch": 0.9773333333333334, + "grad_norm": 1.8070229291915894, + "learning_rate": 1.7051844132757366e-05, + "loss": 0.5085, + "step": 2932 + }, + { + "epoch": 0.9776666666666667, + "grad_norm": 2.2573421001434326, + "learning_rate": 1.7049093646388433e-05, + "loss": 0.535, + "step": 2933 + }, + { + "epoch": 0.978, + "grad_norm": 2.11916184425354, + "learning_rate": 1.7046342099635948e-05, + "loss": 0.5089, + "step": 2934 + }, + { + "epoch": 0.9783333333333334, + "grad_norm": 1.8849787712097168, + "learning_rate": 1.7043589492913823e-05, + "loss": 0.5106, + "step": 2935 + }, + { + "epoch": 0.9786666666666667, + "grad_norm": 2.483538866043091, + "learning_rate": 1.704083582663613e-05, + "loss": 0.5144, + "step": 2936 + }, + { + "epoch": 0.979, + "grad_norm": 1.9261701107025146, + "learning_rate": 1.7038081101217093e-05, + "loss": 0.4849, + "step": 2937 + }, + { + "epoch": 0.9793333333333333, + "grad_norm": 2.820054531097412, + "learning_rate": 1.70353253170711e-05, + "loss": 0.531, + "step": 2938 + }, + { + "epoch": 0.9796666666666667, + "grad_norm": 1.9522387981414795, + "learning_rate": 1.703256847461271e-05, + "loss": 0.4988, + "step": 2939 + }, + { + "epoch": 0.98, + "grad_norm": 1.8335148096084595, + "learning_rate": 1.702981057425662e-05, + "loss": 0.4829, + "step": 2940 + }, + { + "epoch": 0.9803333333333333, + "grad_norm": 1.9661641120910645, + "learning_rate": 1.7027051616417698e-05, + "loss": 0.4646, + "step": 2941 + }, + { + "epoch": 0.9806666666666667, + "grad_norm": 2.0059688091278076, + "learning_rate": 1.7024291601510975e-05, + "loss": 0.4667, + "step": 2942 + }, + { + "epoch": 0.981, + "grad_norm": 1.7500596046447754, + "learning_rate": 1.7021530529951627e-05, + "loss": 0.5055, + "step": 2943 + }, + { + "epoch": 0.9813333333333333, + "grad_norm": 1.838411569595337, + "learning_rate": 1.7018768402155004e-05, + "loss": 0.4463, + "step": 2944 + }, + { + "epoch": 0.9816666666666667, + "grad_norm": 1.9303139448165894, + "learning_rate": 1.7016005218536606e-05, + "loss": 0.4951, + "step": 2945 + }, + { + "epoch": 0.982, + "grad_norm": 2.1950361728668213, + "learning_rate": 1.701324097951209e-05, + "loss": 0.5041, + "step": 2946 + }, + { + "epoch": 0.9823333333333333, + "grad_norm": 2.104398250579834, + "learning_rate": 1.7010475685497287e-05, + "loss": 0.4979, + "step": 2947 + }, + { + "epoch": 0.9826666666666667, + "grad_norm": 1.689895510673523, + "learning_rate": 1.7007709336908166e-05, + "loss": 0.5045, + "step": 2948 + }, + { + "epoch": 0.983, + "grad_norm": 2.0678699016571045, + "learning_rate": 1.7004941934160866e-05, + "loss": 0.5418, + "step": 2949 + }, + { + "epoch": 0.9833333333333333, + "grad_norm": 2.0072021484375, + "learning_rate": 1.7002173477671685e-05, + "loss": 0.5015, + "step": 2950 + }, + { + "epoch": 0.9836666666666667, + "grad_norm": 2.6297669410705566, + "learning_rate": 1.6999403967857078e-05, + "loss": 0.5146, + "step": 2951 + }, + { + "epoch": 0.984, + "grad_norm": 1.6963024139404297, + "learning_rate": 1.6996633405133656e-05, + "loss": 0.4712, + "step": 2952 + }, + { + "epoch": 0.9843333333333333, + "grad_norm": 2.2400600910186768, + "learning_rate": 1.699386178991819e-05, + "loss": 0.4665, + "step": 2953 + }, + { + "epoch": 0.9846666666666667, + "grad_norm": 2.4421145915985107, + "learning_rate": 1.699108912262761e-05, + "loss": 0.5261, + "step": 2954 + }, + { + "epoch": 0.985, + "grad_norm": 2.7662720680236816, + "learning_rate": 1.6988315403679e-05, + "loss": 0.4992, + "step": 2955 + }, + { + "epoch": 0.9853333333333333, + "grad_norm": 2.518733024597168, + "learning_rate": 1.6985540633489614e-05, + "loss": 0.4973, + "step": 2956 + }, + { + "epoch": 0.9856666666666667, + "grad_norm": 1.8520945310592651, + "learning_rate": 1.698276481247685e-05, + "loss": 0.5132, + "step": 2957 + }, + { + "epoch": 0.986, + "grad_norm": 2.2199008464813232, + "learning_rate": 1.6979987941058274e-05, + "loss": 0.5304, + "step": 2958 + }, + { + "epoch": 0.9863333333333333, + "grad_norm": 2.220635175704956, + "learning_rate": 1.6977210019651603e-05, + "loss": 0.5339, + "step": 2959 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 2.107926368713379, + "learning_rate": 1.6974431048674714e-05, + "loss": 0.5243, + "step": 2960 + }, + { + "epoch": 0.987, + "grad_norm": 1.8617899417877197, + "learning_rate": 1.697165102854565e-05, + "loss": 0.4697, + "step": 2961 + }, + { + "epoch": 0.9873333333333333, + "grad_norm": 1.730425238609314, + "learning_rate": 1.6968869959682594e-05, + "loss": 0.5299, + "step": 2962 + }, + { + "epoch": 0.9876666666666667, + "grad_norm": 2.084721565246582, + "learning_rate": 1.6966087842503907e-05, + "loss": 0.4881, + "step": 2963 + }, + { + "epoch": 0.988, + "grad_norm": 2.3069067001342773, + "learning_rate": 1.6963304677428096e-05, + "loss": 0.512, + "step": 2964 + }, + { + "epoch": 0.9883333333333333, + "grad_norm": 3.0454607009887695, + "learning_rate": 1.6960520464873826e-05, + "loss": 0.4541, + "step": 2965 + }, + { + "epoch": 0.9886666666666667, + "grad_norm": 2.110428810119629, + "learning_rate": 1.6957735205259923e-05, + "loss": 0.4692, + "step": 2966 + }, + { + "epoch": 0.989, + "grad_norm": 2.0311062335968018, + "learning_rate": 1.6954948899005365e-05, + "loss": 0.5046, + "step": 2967 + }, + { + "epoch": 0.9893333333333333, + "grad_norm": 1.914138674736023, + "learning_rate": 1.69521615465293e-05, + "loss": 0.5174, + "step": 2968 + }, + { + "epoch": 0.9896666666666667, + "grad_norm": 1.9220861196517944, + "learning_rate": 1.6949373148251017e-05, + "loss": 0.484, + "step": 2969 + }, + { + "epoch": 0.99, + "grad_norm": 2.267446517944336, + "learning_rate": 1.6946583704589973e-05, + "loss": 0.5354, + "step": 2970 + }, + { + "epoch": 0.9903333333333333, + "grad_norm": 2.9675934314727783, + "learning_rate": 1.694379321596578e-05, + "loss": 0.5212, + "step": 2971 + }, + { + "epoch": 0.9906666666666667, + "grad_norm": 2.5405101776123047, + "learning_rate": 1.6941001682798207e-05, + "loss": 0.5199, + "step": 2972 + }, + { + "epoch": 0.991, + "grad_norm": 1.8130561113357544, + "learning_rate": 1.6938209105507177e-05, + "loss": 0.4761, + "step": 2973 + }, + { + "epoch": 0.9913333333333333, + "grad_norm": 1.8543353080749512, + "learning_rate": 1.6935415484512778e-05, + "loss": 0.456, + "step": 2974 + }, + { + "epoch": 0.9916666666666667, + "grad_norm": 2.22680401802063, + "learning_rate": 1.6932620820235243e-05, + "loss": 0.5101, + "step": 2975 + }, + { + "epoch": 0.992, + "grad_norm": 3.1567420959472656, + "learning_rate": 1.6929825113094972e-05, + "loss": 0.5406, + "step": 2976 + }, + { + "epoch": 0.9923333333333333, + "grad_norm": 1.5801520347595215, + "learning_rate": 1.6927028363512523e-05, + "loss": 0.5101, + "step": 2977 + }, + { + "epoch": 0.9926666666666667, + "grad_norm": 1.7762486934661865, + "learning_rate": 1.6924230571908598e-05, + "loss": 0.4754, + "step": 2978 + }, + { + "epoch": 0.993, + "grad_norm": 1.7251542806625366, + "learning_rate": 1.692143173870407e-05, + "loss": 0.5096, + "step": 2979 + }, + { + "epoch": 0.9933333333333333, + "grad_norm": 2.266618251800537, + "learning_rate": 1.691863186431996e-05, + "loss": 0.5139, + "step": 2980 + }, + { + "epoch": 0.9936666666666667, + "grad_norm": 2.0991580486297607, + "learning_rate": 1.691583094917745e-05, + "loss": 0.5139, + "step": 2981 + }, + { + "epoch": 0.994, + "grad_norm": 2.5464742183685303, + "learning_rate": 1.6913028993697877e-05, + "loss": 0.5217, + "step": 2982 + }, + { + "epoch": 0.9943333333333333, + "grad_norm": 1.9734686613082886, + "learning_rate": 1.6910225998302733e-05, + "loss": 0.51, + "step": 2983 + }, + { + "epoch": 0.9946666666666667, + "grad_norm": 2.036740779876709, + "learning_rate": 1.6907421963413676e-05, + "loss": 0.4949, + "step": 2984 + }, + { + "epoch": 0.995, + "grad_norm": 1.9659996032714844, + "learning_rate": 1.6904616889452497e-05, + "loss": 0.4764, + "step": 2985 + }, + { + "epoch": 0.9953333333333333, + "grad_norm": 2.468283176422119, + "learning_rate": 1.6901810776841172e-05, + "loss": 0.5288, + "step": 2986 + }, + { + "epoch": 0.9956666666666667, + "grad_norm": 1.9724609851837158, + "learning_rate": 1.6899003626001814e-05, + "loss": 0.5052, + "step": 2987 + }, + { + "epoch": 0.996, + "grad_norm": 1.7870981693267822, + "learning_rate": 1.68961954373567e-05, + "loss": 0.5166, + "step": 2988 + }, + { + "epoch": 0.9963333333333333, + "grad_norm": 2.7094497680664062, + "learning_rate": 1.689338621132826e-05, + "loss": 0.5047, + "step": 2989 + }, + { + "epoch": 0.9966666666666667, + "grad_norm": 1.7678171396255493, + "learning_rate": 1.689057594833908e-05, + "loss": 0.4859, + "step": 2990 + }, + { + "epoch": 0.997, + "grad_norm": 1.7469357252120972, + "learning_rate": 1.688776464881191e-05, + "loss": 0.4918, + "step": 2991 + }, + { + "epoch": 0.9973333333333333, + "grad_norm": 1.9298542737960815, + "learning_rate": 1.6884952313169636e-05, + "loss": 0.4874, + "step": 2992 + }, + { + "epoch": 0.9976666666666667, + "grad_norm": 1.6487497091293335, + "learning_rate": 1.6882138941835327e-05, + "loss": 0.4655, + "step": 2993 + }, + { + "epoch": 0.998, + "grad_norm": 1.7612838745117188, + "learning_rate": 1.6879324535232186e-05, + "loss": 0.4652, + "step": 2994 + }, + { + "epoch": 0.9983333333333333, + "grad_norm": 1.7919495105743408, + "learning_rate": 1.6876509093783584e-05, + "loss": 0.4637, + "step": 2995 + }, + { + "epoch": 0.9986666666666667, + "grad_norm": 1.843759298324585, + "learning_rate": 1.6873692617913038e-05, + "loss": 0.5194, + "step": 2996 + }, + { + "epoch": 0.999, + "grad_norm": 1.931972861289978, + "learning_rate": 1.6870875108044233e-05, + "loss": 0.4647, + "step": 2997 + }, + { + "epoch": 0.9993333333333333, + "grad_norm": 1.70893132686615, + "learning_rate": 1.6868056564600993e-05, + "loss": 0.5042, + "step": 2998 + }, + { + "epoch": 0.9996666666666667, + "grad_norm": 2.250117778778076, + "learning_rate": 1.6865236988007315e-05, + "loss": 0.5236, + "step": 2999 + }, + { + "epoch": 1.0, + "grad_norm": 2.202547311782837, + "learning_rate": 1.686241637868734e-05, + "loss": 0.5178, + "step": 3000 + }, + { + "epoch": 1.0003333333333333, + "grad_norm": 2.1980180740356445, + "learning_rate": 1.6859594737065364e-05, + "loss": 0.4814, + "step": 3001 + }, + { + "epoch": 1.0006666666666666, + "grad_norm": 1.7109228372573853, + "learning_rate": 1.6856772063565846e-05, + "loss": 0.4406, + "step": 3002 + }, + { + "epoch": 1.001, + "grad_norm": 2.4907004833221436, + "learning_rate": 1.68539483586134e-05, + "loss": 0.5343, + "step": 3003 + }, + { + "epoch": 1.0013333333333334, + "grad_norm": 2.013209342956543, + "learning_rate": 1.6851123622632783e-05, + "loss": 0.4669, + "step": 3004 + }, + { + "epoch": 1.0016666666666667, + "grad_norm": 2.0400888919830322, + "learning_rate": 1.684829785604892e-05, + "loss": 0.4687, + "step": 3005 + }, + { + "epoch": 1.002, + "grad_norm": 2.12064266204834, + "learning_rate": 1.684547105928689e-05, + "loss": 0.5344, + "step": 3006 + }, + { + "epoch": 1.0023333333333333, + "grad_norm": 1.9916552305221558, + "learning_rate": 1.6842643232771916e-05, + "loss": 0.442, + "step": 3007 + }, + { + "epoch": 1.0026666666666666, + "grad_norm": 2.3662986755371094, + "learning_rate": 1.6839814376929383e-05, + "loss": 0.503, + "step": 3008 + }, + { + "epoch": 1.003, + "grad_norm": 1.8590506315231323, + "learning_rate": 1.683698449218484e-05, + "loss": 0.4616, + "step": 3009 + }, + { + "epoch": 1.0033333333333334, + "grad_norm": 1.8555656671524048, + "learning_rate": 1.683415357896397e-05, + "loss": 0.456, + "step": 3010 + }, + { + "epoch": 1.0036666666666667, + "grad_norm": 1.7504217624664307, + "learning_rate": 1.6831321637692637e-05, + "loss": 0.4951, + "step": 3011 + }, + { + "epoch": 1.004, + "grad_norm": 1.8299319744110107, + "learning_rate": 1.6828488668796836e-05, + "loss": 0.4758, + "step": 3012 + }, + { + "epoch": 1.0043333333333333, + "grad_norm": 2.048830986022949, + "learning_rate": 1.6825654672702723e-05, + "loss": 0.4964, + "step": 3013 + }, + { + "epoch": 1.0046666666666666, + "grad_norm": 2.0760393142700195, + "learning_rate": 1.6822819649836616e-05, + "loss": 0.46, + "step": 3014 + }, + { + "epoch": 1.005, + "grad_norm": 2.0590097904205322, + "learning_rate": 1.6819983600624986e-05, + "loss": 0.5087, + "step": 3015 + }, + { + "epoch": 1.0053333333333334, + "grad_norm": 1.9812830686569214, + "learning_rate": 1.681714652549445e-05, + "loss": 0.4555, + "step": 3016 + }, + { + "epoch": 1.0056666666666667, + "grad_norm": 1.6371197700500488, + "learning_rate": 1.6814308424871785e-05, + "loss": 0.51, + "step": 3017 + }, + { + "epoch": 1.006, + "grad_norm": 2.468271255493164, + "learning_rate": 1.6811469299183928e-05, + "loss": 0.4974, + "step": 3018 + }, + { + "epoch": 1.0063333333333333, + "grad_norm": 1.8475083112716675, + "learning_rate": 1.6808629148857953e-05, + "loss": 0.4825, + "step": 3019 + }, + { + "epoch": 1.0066666666666666, + "grad_norm": 1.9873250722885132, + "learning_rate": 1.6805787974321107e-05, + "loss": 0.4995, + "step": 3020 + }, + { + "epoch": 1.007, + "grad_norm": 2.043215036392212, + "learning_rate": 1.6802945776000782e-05, + "loss": 0.4905, + "step": 3021 + }, + { + "epoch": 1.0073333333333334, + "grad_norm": 2.050205945968628, + "learning_rate": 1.680010255432452e-05, + "loss": 0.4902, + "step": 3022 + }, + { + "epoch": 1.0076666666666667, + "grad_norm": 1.9751814603805542, + "learning_rate": 1.679725830972003e-05, + "loss": 0.472, + "step": 3023 + }, + { + "epoch": 1.008, + "grad_norm": 1.8363134860992432, + "learning_rate": 1.6794413042615168e-05, + "loss": 0.473, + "step": 3024 + }, + { + "epoch": 1.0083333333333333, + "grad_norm": 1.746618390083313, + "learning_rate": 1.6791566753437935e-05, + "loss": 0.4854, + "step": 3025 + }, + { + "epoch": 1.0086666666666666, + "grad_norm": 1.9460093975067139, + "learning_rate": 1.6788719442616493e-05, + "loss": 0.5132, + "step": 3026 + }, + { + "epoch": 1.009, + "grad_norm": 2.2912261486053467, + "learning_rate": 1.6785871110579167e-05, + "loss": 0.4955, + "step": 3027 + }, + { + "epoch": 1.0093333333333334, + "grad_norm": 1.8412930965423584, + "learning_rate": 1.6783021757754424e-05, + "loss": 0.4765, + "step": 3028 + }, + { + "epoch": 1.0096666666666667, + "grad_norm": 1.7031528949737549, + "learning_rate": 1.678017138457088e-05, + "loss": 0.4771, + "step": 3029 + }, + { + "epoch": 1.01, + "grad_norm": 1.833648443222046, + "learning_rate": 1.6777319991457325e-05, + "loss": 0.4802, + "step": 3030 + }, + { + "epoch": 1.0103333333333333, + "grad_norm": 1.9447599649429321, + "learning_rate": 1.677446757884268e-05, + "loss": 0.505, + "step": 3031 + }, + { + "epoch": 1.0106666666666666, + "grad_norm": 2.17453932762146, + "learning_rate": 1.677161414715603e-05, + "loss": 0.4726, + "step": 3032 + }, + { + "epoch": 1.011, + "grad_norm": 2.417970895767212, + "learning_rate": 1.6768759696826608e-05, + "loss": 0.4665, + "step": 3033 + }, + { + "epoch": 1.0113333333333334, + "grad_norm": 1.6314611434936523, + "learning_rate": 1.6765904228283815e-05, + "loss": 0.5046, + "step": 3034 + }, + { + "epoch": 1.0116666666666667, + "grad_norm": 2.068404197692871, + "learning_rate": 1.6763047741957186e-05, + "loss": 0.4899, + "step": 3035 + }, + { + "epoch": 1.012, + "grad_norm": 2.230820894241333, + "learning_rate": 1.6760190238276418e-05, + "loss": 0.5019, + "step": 3036 + }, + { + "epoch": 1.0123333333333333, + "grad_norm": 1.946341633796692, + "learning_rate": 1.675733171767137e-05, + "loss": 0.4691, + "step": 3037 + }, + { + "epoch": 1.0126666666666666, + "grad_norm": 1.628322720527649, + "learning_rate": 1.6754472180572032e-05, + "loss": 0.4117, + "step": 3038 + }, + { + "epoch": 1.013, + "grad_norm": 2.264216661453247, + "learning_rate": 1.6751611627408567e-05, + "loss": 0.5219, + "step": 3039 + }, + { + "epoch": 1.0133333333333334, + "grad_norm": 2.123194932937622, + "learning_rate": 1.674875005861128e-05, + "loss": 0.4424, + "step": 3040 + }, + { + "epoch": 1.0136666666666667, + "grad_norm": 1.876983404159546, + "learning_rate": 1.674588747461063e-05, + "loss": 0.5015, + "step": 3041 + }, + { + "epoch": 1.014, + "grad_norm": 2.208102226257324, + "learning_rate": 1.6743023875837233e-05, + "loss": 0.4533, + "step": 3042 + }, + { + "epoch": 1.0143333333333333, + "grad_norm": 1.7911404371261597, + "learning_rate": 1.6740159262721862e-05, + "loss": 0.4772, + "step": 3043 + }, + { + "epoch": 1.0146666666666666, + "grad_norm": 1.7562752962112427, + "learning_rate": 1.673729363569543e-05, + "loss": 0.4324, + "step": 3044 + }, + { + "epoch": 1.015, + "grad_norm": 2.154268980026245, + "learning_rate": 1.6734426995189003e-05, + "loss": 0.5225, + "step": 3045 + }, + { + "epoch": 1.0153333333333334, + "grad_norm": 1.7407371997833252, + "learning_rate": 1.6731559341633818e-05, + "loss": 0.5053, + "step": 3046 + }, + { + "epoch": 1.0156666666666667, + "grad_norm": 2.2238097190856934, + "learning_rate": 1.6728690675461237e-05, + "loss": 0.5126, + "step": 3047 + }, + { + "epoch": 1.016, + "grad_norm": 1.9914867877960205, + "learning_rate": 1.6725820997102804e-05, + "loss": 0.5231, + "step": 3048 + }, + { + "epoch": 1.0163333333333333, + "grad_norm": 1.6741689443588257, + "learning_rate": 1.6722950306990187e-05, + "loss": 0.4974, + "step": 3049 + }, + { + "epoch": 1.0166666666666666, + "grad_norm": 1.737831473350525, + "learning_rate": 1.6720078605555227e-05, + "loss": 0.4565, + "step": 3050 + }, + { + "epoch": 1.017, + "grad_norm": 1.863660216331482, + "learning_rate": 1.6717205893229904e-05, + "loss": 0.5389, + "step": 3051 + }, + { + "epoch": 1.0173333333333334, + "grad_norm": 1.479814887046814, + "learning_rate": 1.6714332170446357e-05, + "loss": 0.4578, + "step": 3052 + }, + { + "epoch": 1.0176666666666667, + "grad_norm": 2.1109564304351807, + "learning_rate": 1.671145743763688e-05, + "loss": 0.4991, + "step": 3053 + }, + { + "epoch": 1.018, + "grad_norm": 1.997512698173523, + "learning_rate": 1.670858169523391e-05, + "loss": 0.4969, + "step": 3054 + }, + { + "epoch": 1.0183333333333333, + "grad_norm": 1.7759875059127808, + "learning_rate": 1.6705704943670038e-05, + "loss": 0.5004, + "step": 3055 + }, + { + "epoch": 1.0186666666666666, + "grad_norm": 1.8939120769500732, + "learning_rate": 1.6702827183378014e-05, + "loss": 0.479, + "step": 3056 + }, + { + "epoch": 1.019, + "grad_norm": 2.462367057800293, + "learning_rate": 1.6699948414790734e-05, + "loss": 0.4811, + "step": 3057 + }, + { + "epoch": 1.0193333333333334, + "grad_norm": 1.8297048807144165, + "learning_rate": 1.669706863834124e-05, + "loss": 0.4989, + "step": 3058 + }, + { + "epoch": 1.0196666666666667, + "grad_norm": 1.933908462524414, + "learning_rate": 1.6694187854462742e-05, + "loss": 0.5054, + "step": 3059 + }, + { + "epoch": 1.02, + "grad_norm": 2.1321945190429688, + "learning_rate": 1.6691306063588583e-05, + "loss": 0.5175, + "step": 3060 + }, + { + "epoch": 1.0203333333333333, + "grad_norm": 1.9940738677978516, + "learning_rate": 1.668842326615227e-05, + "loss": 0.462, + "step": 3061 + }, + { + "epoch": 1.0206666666666666, + "grad_norm": 1.8780194520950317, + "learning_rate": 1.6685539462587462e-05, + "loss": 0.4705, + "step": 3062 + }, + { + "epoch": 1.021, + "grad_norm": 2.207775115966797, + "learning_rate": 1.6682654653327953e-05, + "loss": 0.516, + "step": 3063 + }, + { + "epoch": 1.0213333333333334, + "grad_norm": 2.578500509262085, + "learning_rate": 1.6679768838807713e-05, + "loss": 0.5216, + "step": 3064 + }, + { + "epoch": 1.0216666666666667, + "grad_norm": 2.3588039875030518, + "learning_rate": 1.667688201946084e-05, + "loss": 0.5208, + "step": 3065 + }, + { + "epoch": 1.022, + "grad_norm": 1.9689172506332397, + "learning_rate": 1.66739941957216e-05, + "loss": 0.4647, + "step": 3066 + }, + { + "epoch": 1.0223333333333333, + "grad_norm": 2.1084043979644775, + "learning_rate": 1.66711053680244e-05, + "loss": 0.5077, + "step": 3067 + }, + { + "epoch": 1.0226666666666666, + "grad_norm": 1.7643581628799438, + "learning_rate": 1.6668215536803805e-05, + "loss": 0.4498, + "step": 3068 + }, + { + "epoch": 1.023, + "grad_norm": 3.47749662399292, + "learning_rate": 1.6665324702494524e-05, + "loss": 0.4953, + "step": 3069 + }, + { + "epoch": 1.0233333333333334, + "grad_norm": 2.1378774642944336, + "learning_rate": 1.6662432865531428e-05, + "loss": 0.4933, + "step": 3070 + }, + { + "epoch": 1.0236666666666667, + "grad_norm": 2.2830557823181152, + "learning_rate": 1.6659540026349516e-05, + "loss": 0.4946, + "step": 3071 + }, + { + "epoch": 1.024, + "grad_norm": 1.6638725996017456, + "learning_rate": 1.665664618538397e-05, + "loss": 0.515, + "step": 3072 + }, + { + "epoch": 1.0243333333333333, + "grad_norm": 1.8124128580093384, + "learning_rate": 1.665375134307009e-05, + "loss": 0.4953, + "step": 3073 + }, + { + "epoch": 1.0246666666666666, + "grad_norm": 1.9248677492141724, + "learning_rate": 1.6650855499843358e-05, + "loss": 0.4675, + "step": 3074 + }, + { + "epoch": 1.025, + "grad_norm": 2.3982746601104736, + "learning_rate": 1.6647958656139377e-05, + "loss": 0.4838, + "step": 3075 + }, + { + "epoch": 1.0253333333333334, + "grad_norm": 1.9664154052734375, + "learning_rate": 1.6645060812393926e-05, + "loss": 0.4488, + "step": 3076 + }, + { + "epoch": 1.0256666666666667, + "grad_norm": 2.093088388442993, + "learning_rate": 1.664216196904292e-05, + "loss": 0.4492, + "step": 3077 + }, + { + "epoch": 1.026, + "grad_norm": 2.055760145187378, + "learning_rate": 1.6639262126522417e-05, + "loss": 0.4593, + "step": 3078 + }, + { + "epoch": 1.0263333333333333, + "grad_norm": 3.2958791255950928, + "learning_rate": 1.6636361285268647e-05, + "loss": 0.5142, + "step": 3079 + }, + { + "epoch": 1.0266666666666666, + "grad_norm": 2.9428513050079346, + "learning_rate": 1.6633459445717973e-05, + "loss": 0.4916, + "step": 3080 + }, + { + "epoch": 1.027, + "grad_norm": 2.070254325866699, + "learning_rate": 1.663055660830692e-05, + "loss": 0.4859, + "step": 3081 + }, + { + "epoch": 1.0273333333333334, + "grad_norm": 2.6271626949310303, + "learning_rate": 1.6627652773472153e-05, + "loss": 0.4688, + "step": 3082 + }, + { + "epoch": 1.0276666666666667, + "grad_norm": 2.1124155521392822, + "learning_rate": 1.662474794165049e-05, + "loss": 0.4819, + "step": 3083 + }, + { + "epoch": 1.028, + "grad_norm": 2.707834482192993, + "learning_rate": 1.6621842113278902e-05, + "loss": 0.4597, + "step": 3084 + }, + { + "epoch": 1.0283333333333333, + "grad_norm": 1.9395018815994263, + "learning_rate": 1.6618935288794508e-05, + "loss": 0.5081, + "step": 3085 + }, + { + "epoch": 1.0286666666666666, + "grad_norm": 2.0990288257598877, + "learning_rate": 1.6616027468634573e-05, + "loss": 0.4784, + "step": 3086 + }, + { + "epoch": 1.029, + "grad_norm": 2.492589235305786, + "learning_rate": 1.661311865323652e-05, + "loss": 0.5191, + "step": 3087 + }, + { + "epoch": 1.0293333333333334, + "grad_norm": 2.195531129837036, + "learning_rate": 1.6610208843037917e-05, + "loss": 0.4869, + "step": 3088 + }, + { + "epoch": 1.0296666666666667, + "grad_norm": 2.0557219982147217, + "learning_rate": 1.660729803847648e-05, + "loss": 0.5094, + "step": 3089 + }, + { + "epoch": 1.03, + "grad_norm": 2.332214593887329, + "learning_rate": 1.6604386239990077e-05, + "loss": 0.4817, + "step": 3090 + }, + { + "epoch": 1.0303333333333333, + "grad_norm": 2.2459888458251953, + "learning_rate": 1.660147344801673e-05, + "loss": 0.4793, + "step": 3091 + }, + { + "epoch": 1.0306666666666666, + "grad_norm": 1.8781728744506836, + "learning_rate": 1.6598559662994594e-05, + "loss": 0.4314, + "step": 3092 + }, + { + "epoch": 1.031, + "grad_norm": 1.5045130252838135, + "learning_rate": 1.6595644885362e-05, + "loss": 0.4536, + "step": 3093 + }, + { + "epoch": 1.0313333333333334, + "grad_norm": 1.7862602472305298, + "learning_rate": 1.65927291155574e-05, + "loss": 0.528, + "step": 3094 + }, + { + "epoch": 1.0316666666666667, + "grad_norm": 2.020780086517334, + "learning_rate": 1.6589812354019414e-05, + "loss": 0.5031, + "step": 3095 + }, + { + "epoch": 1.032, + "grad_norm": 4.08859920501709, + "learning_rate": 1.6586894601186804e-05, + "loss": 0.5141, + "step": 3096 + }, + { + "epoch": 1.0323333333333333, + "grad_norm": 1.903228521347046, + "learning_rate": 1.6583975857498487e-05, + "loss": 0.4424, + "step": 3097 + }, + { + "epoch": 1.0326666666666666, + "grad_norm": 1.9765145778656006, + "learning_rate": 1.6581056123393523e-05, + "loss": 0.4615, + "step": 3098 + }, + { + "epoch": 1.033, + "grad_norm": 2.4145913124084473, + "learning_rate": 1.657813539931112e-05, + "loss": 0.4983, + "step": 3099 + }, + { + "epoch": 1.0333333333333334, + "grad_norm": 2.3215830326080322, + "learning_rate": 1.657521368569064e-05, + "loss": 0.4859, + "step": 3100 + }, + { + "epoch": 1.0336666666666667, + "grad_norm": 2.3862881660461426, + "learning_rate": 1.6572290982971588e-05, + "loss": 0.5007, + "step": 3101 + }, + { + "epoch": 1.034, + "grad_norm": 1.6964170932769775, + "learning_rate": 1.6569367291593627e-05, + "loss": 0.4982, + "step": 3102 + }, + { + "epoch": 1.0343333333333333, + "grad_norm": 3.914522409439087, + "learning_rate": 1.6566442611996557e-05, + "loss": 0.4712, + "step": 3103 + }, + { + "epoch": 1.0346666666666666, + "grad_norm": 1.8896594047546387, + "learning_rate": 1.656351694462034e-05, + "loss": 0.44, + "step": 3104 + }, + { + "epoch": 1.035, + "grad_norm": 2.0367259979248047, + "learning_rate": 1.6560590289905074e-05, + "loss": 0.4994, + "step": 3105 + }, + { + "epoch": 1.0353333333333334, + "grad_norm": 2.425678253173828, + "learning_rate": 1.6557662648291013e-05, + "loss": 0.5385, + "step": 3106 + }, + { + "epoch": 1.0356666666666667, + "grad_norm": 2.5833356380462646, + "learning_rate": 1.6554734020218557e-05, + "loss": 0.4704, + "step": 3107 + }, + { + "epoch": 1.036, + "grad_norm": 1.7954316139221191, + "learning_rate": 1.655180440612825e-05, + "loss": 0.4812, + "step": 3108 + }, + { + "epoch": 1.0363333333333333, + "grad_norm": 2.127567768096924, + "learning_rate": 1.6548873806460797e-05, + "loss": 0.4971, + "step": 3109 + }, + { + "epoch": 1.0366666666666666, + "grad_norm": 1.8413059711456299, + "learning_rate": 1.6545942221657042e-05, + "loss": 0.4694, + "step": 3110 + }, + { + "epoch": 1.037, + "grad_norm": 2.0201797485351562, + "learning_rate": 1.6543009652157973e-05, + "loss": 0.441, + "step": 3111 + }, + { + "epoch": 1.0373333333333334, + "grad_norm": 2.279364824295044, + "learning_rate": 1.6540076098404732e-05, + "loss": 0.4653, + "step": 3112 + }, + { + "epoch": 1.0376666666666667, + "grad_norm": 2.325411081314087, + "learning_rate": 1.6537141560838614e-05, + "loss": 0.4945, + "step": 3113 + }, + { + "epoch": 1.038, + "grad_norm": 2.137651205062866, + "learning_rate": 1.6534206039901057e-05, + "loss": 0.4958, + "step": 3114 + }, + { + "epoch": 1.0383333333333333, + "grad_norm": 1.965380072593689, + "learning_rate": 1.6531269536033637e-05, + "loss": 0.4724, + "step": 3115 + }, + { + "epoch": 1.0386666666666666, + "grad_norm": 1.832567572593689, + "learning_rate": 1.6528332049678103e-05, + "loss": 0.4801, + "step": 3116 + }, + { + "epoch": 1.039, + "grad_norm": 2.1928815841674805, + "learning_rate": 1.652539358127632e-05, + "loss": 0.4905, + "step": 3117 + }, + { + "epoch": 1.0393333333333334, + "grad_norm": 1.7171064615249634, + "learning_rate": 1.6522454131270324e-05, + "loss": 0.4822, + "step": 3118 + }, + { + "epoch": 1.0396666666666667, + "grad_norm": 1.9076147079467773, + "learning_rate": 1.6519513700102298e-05, + "loss": 0.4813, + "step": 3119 + }, + { + "epoch": 1.04, + "grad_norm": 1.7677780389785767, + "learning_rate": 1.6516572288214555e-05, + "loss": 0.4905, + "step": 3120 + }, + { + "epoch": 1.0403333333333333, + "grad_norm": 1.5838521718978882, + "learning_rate": 1.651362989604957e-05, + "loss": 0.4733, + "step": 3121 + }, + { + "epoch": 1.0406666666666666, + "grad_norm": 1.8678529262542725, + "learning_rate": 1.6510686524049966e-05, + "loss": 0.4962, + "step": 3122 + }, + { + "epoch": 1.041, + "grad_norm": 1.979506254196167, + "learning_rate": 1.650774217265851e-05, + "loss": 0.4688, + "step": 3123 + }, + { + "epoch": 1.0413333333333332, + "grad_norm": 2.173853874206543, + "learning_rate": 1.6504796842318112e-05, + "loss": 0.4882, + "step": 3124 + }, + { + "epoch": 1.0416666666666667, + "grad_norm": 1.8481817245483398, + "learning_rate": 1.650185053347184e-05, + "loss": 0.4592, + "step": 3125 + }, + { + "epoch": 1.042, + "grad_norm": 1.6179890632629395, + "learning_rate": 1.649890324656289e-05, + "loss": 0.435, + "step": 3126 + }, + { + "epoch": 1.0423333333333333, + "grad_norm": 1.683473825454712, + "learning_rate": 1.6495954982034624e-05, + "loss": 0.4584, + "step": 3127 + }, + { + "epoch": 1.0426666666666666, + "grad_norm": 1.8291237354278564, + "learning_rate": 1.6493005740330547e-05, + "loss": 0.4114, + "step": 3128 + }, + { + "epoch": 1.043, + "grad_norm": 1.817430853843689, + "learning_rate": 1.649005552189431e-05, + "loss": 0.5251, + "step": 3129 + }, + { + "epoch": 1.0433333333333334, + "grad_norm": 2.015709161758423, + "learning_rate": 1.6487104327169702e-05, + "loss": 0.492, + "step": 3130 + }, + { + "epoch": 1.0436666666666667, + "grad_norm": 2.249107599258423, + "learning_rate": 1.6484152156600674e-05, + "loss": 0.427, + "step": 3131 + }, + { + "epoch": 1.044, + "grad_norm": 1.9362753629684448, + "learning_rate": 1.6481199010631312e-05, + "loss": 0.4641, + "step": 3132 + }, + { + "epoch": 1.0443333333333333, + "grad_norm": 2.646538257598877, + "learning_rate": 1.6478244889705852e-05, + "loss": 0.4544, + "step": 3133 + }, + { + "epoch": 1.0446666666666666, + "grad_norm": 1.8943476676940918, + "learning_rate": 1.647528979426868e-05, + "loss": 0.4723, + "step": 3134 + }, + { + "epoch": 1.045, + "grad_norm": 1.508339285850525, + "learning_rate": 1.6472333724764326e-05, + "loss": 0.463, + "step": 3135 + }, + { + "epoch": 1.0453333333333332, + "grad_norm": 1.9291613101959229, + "learning_rate": 1.6469376681637465e-05, + "loss": 0.5371, + "step": 3136 + }, + { + "epoch": 1.0456666666666667, + "grad_norm": 2.2733123302459717, + "learning_rate": 1.6466418665332923e-05, + "loss": 0.5042, + "step": 3137 + }, + { + "epoch": 1.046, + "grad_norm": 1.8470145463943481, + "learning_rate": 1.6463459676295666e-05, + "loss": 0.4981, + "step": 3138 + }, + { + "epoch": 1.0463333333333333, + "grad_norm": 2.4648170471191406, + "learning_rate": 1.6460499714970814e-05, + "loss": 0.4972, + "step": 3139 + }, + { + "epoch": 1.0466666666666666, + "grad_norm": 2.0665173530578613, + "learning_rate": 1.6457538781803625e-05, + "loss": 0.4712, + "step": 3140 + }, + { + "epoch": 1.047, + "grad_norm": 1.7782540321350098, + "learning_rate": 1.645457687723951e-05, + "loss": 0.4284, + "step": 3141 + }, + { + "epoch": 1.0473333333333332, + "grad_norm": 2.1089470386505127, + "learning_rate": 1.645161400172402e-05, + "loss": 0.5425, + "step": 3142 + }, + { + "epoch": 1.0476666666666667, + "grad_norm": 1.7855074405670166, + "learning_rate": 1.6448650155702857e-05, + "loss": 0.4546, + "step": 3143 + }, + { + "epoch": 1.048, + "grad_norm": 1.8777012825012207, + "learning_rate": 1.644568533962187e-05, + "loss": 0.4344, + "step": 3144 + }, + { + "epoch": 1.0483333333333333, + "grad_norm": 1.8342435359954834, + "learning_rate": 1.644271955392705e-05, + "loss": 0.5148, + "step": 3145 + }, + { + "epoch": 1.0486666666666666, + "grad_norm": 1.9356497526168823, + "learning_rate": 1.6439752799064536e-05, + "loss": 0.4809, + "step": 3146 + }, + { + "epoch": 1.049, + "grad_norm": 2.182593584060669, + "learning_rate": 1.643678507548061e-05, + "loss": 0.4718, + "step": 3147 + }, + { + "epoch": 1.0493333333333332, + "grad_norm": 1.5436753034591675, + "learning_rate": 1.6433816383621705e-05, + "loss": 0.4904, + "step": 3148 + }, + { + "epoch": 1.0496666666666667, + "grad_norm": 1.7764239311218262, + "learning_rate": 1.6430846723934392e-05, + "loss": 0.4575, + "step": 3149 + }, + { + "epoch": 1.05, + "grad_norm": 2.398813486099243, + "learning_rate": 1.6427876096865394e-05, + "loss": 0.5016, + "step": 3150 + }, + { + "epoch": 1.0503333333333333, + "grad_norm": 1.9500607252120972, + "learning_rate": 1.6424904502861577e-05, + "loss": 0.4843, + "step": 3151 + }, + { + "epoch": 1.0506666666666666, + "grad_norm": 1.9217243194580078, + "learning_rate": 1.642193194236996e-05, + "loss": 0.4098, + "step": 3152 + }, + { + "epoch": 1.051, + "grad_norm": 1.9484481811523438, + "learning_rate": 1.6418958415837688e-05, + "loss": 0.5005, + "step": 3153 + }, + { + "epoch": 1.0513333333333332, + "grad_norm": 2.155916213989258, + "learning_rate": 1.6415983923712072e-05, + "loss": 0.4961, + "step": 3154 + }, + { + "epoch": 1.0516666666666667, + "grad_norm": 2.498138904571533, + "learning_rate": 1.6413008466440555e-05, + "loss": 0.4997, + "step": 3155 + }, + { + "epoch": 1.052, + "grad_norm": 1.828988790512085, + "learning_rate": 1.6410032044470735e-05, + "loss": 0.5029, + "step": 3156 + }, + { + "epoch": 1.0523333333333333, + "grad_norm": 1.8768105506896973, + "learning_rate": 1.6407054658250352e-05, + "loss": 0.4625, + "step": 3157 + }, + { + "epoch": 1.0526666666666666, + "grad_norm": 1.9782334566116333, + "learning_rate": 1.6404076308227282e-05, + "loss": 0.4637, + "step": 3158 + }, + { + "epoch": 1.053, + "grad_norm": 1.9366331100463867, + "learning_rate": 1.6401096994849558e-05, + "loss": 0.4888, + "step": 3159 + }, + { + "epoch": 1.0533333333333332, + "grad_norm": 2.3539841175079346, + "learning_rate": 1.639811671856535e-05, + "loss": 0.4932, + "step": 3160 + }, + { + "epoch": 1.0536666666666668, + "grad_norm": 1.8901169300079346, + "learning_rate": 1.639513547982298e-05, + "loss": 0.5015, + "step": 3161 + }, + { + "epoch": 1.054, + "grad_norm": 1.8876283168792725, + "learning_rate": 1.6392153279070905e-05, + "loss": 0.4513, + "step": 3162 + }, + { + "epoch": 1.0543333333333333, + "grad_norm": 1.7501580715179443, + "learning_rate": 1.6389170116757742e-05, + "loss": 0.4999, + "step": 3163 + }, + { + "epoch": 1.0546666666666666, + "grad_norm": 2.330796957015991, + "learning_rate": 1.6386185993332235e-05, + "loss": 0.4634, + "step": 3164 + }, + { + "epoch": 1.055, + "grad_norm": 1.8863592147827148, + "learning_rate": 1.6383200909243285e-05, + "loss": 0.4465, + "step": 3165 + }, + { + "epoch": 1.0553333333333332, + "grad_norm": 2.3893215656280518, + "learning_rate": 1.638021486493993e-05, + "loss": 0.5297, + "step": 3166 + }, + { + "epoch": 1.0556666666666668, + "grad_norm": 2.11055588722229, + "learning_rate": 1.637722786087136e-05, + "loss": 0.512, + "step": 3167 + }, + { + "epoch": 1.056, + "grad_norm": 2.102146863937378, + "learning_rate": 1.63742398974869e-05, + "loss": 0.4836, + "step": 3168 + }, + { + "epoch": 1.0563333333333333, + "grad_norm": 2.094093084335327, + "learning_rate": 1.637125097523603e-05, + "loss": 0.5071, + "step": 3169 + }, + { + "epoch": 1.0566666666666666, + "grad_norm": 1.5724694728851318, + "learning_rate": 1.636826109456836e-05, + "loss": 0.4804, + "step": 3170 + }, + { + "epoch": 1.057, + "grad_norm": 1.9601621627807617, + "learning_rate": 1.6365270255933663e-05, + "loss": 0.5062, + "step": 3171 + }, + { + "epoch": 1.0573333333333332, + "grad_norm": 1.5793722867965698, + "learning_rate": 1.636227845978184e-05, + "loss": 0.4766, + "step": 3172 + }, + { + "epoch": 1.0576666666666668, + "grad_norm": 2.143860340118408, + "learning_rate": 1.635928570656294e-05, + "loss": 0.5154, + "step": 3173 + }, + { + "epoch": 1.058, + "grad_norm": 1.5853973627090454, + "learning_rate": 1.635629199672717e-05, + "loss": 0.5256, + "step": 3174 + }, + { + "epoch": 1.0583333333333333, + "grad_norm": 1.8661155700683594, + "learning_rate": 1.635329733072485e-05, + "loss": 0.439, + "step": 3175 + }, + { + "epoch": 1.0586666666666666, + "grad_norm": 2.3701303005218506, + "learning_rate": 1.635030170900648e-05, + "loss": 0.4873, + "step": 3176 + }, + { + "epoch": 1.059, + "grad_norm": 1.6863163709640503, + "learning_rate": 1.6347305132022677e-05, + "loss": 0.4642, + "step": 3177 + }, + { + "epoch": 1.0593333333333332, + "grad_norm": 1.569169044494629, + "learning_rate": 1.6344307600224214e-05, + "loss": 0.4668, + "step": 3178 + }, + { + "epoch": 1.0596666666666668, + "grad_norm": 1.788034439086914, + "learning_rate": 1.6341309114062006e-05, + "loss": 0.4636, + "step": 3179 + }, + { + "epoch": 1.06, + "grad_norm": 1.7984009981155396, + "learning_rate": 1.63383096739871e-05, + "loss": 0.4512, + "step": 3180 + }, + { + "epoch": 1.0603333333333333, + "grad_norm": 2.026501417160034, + "learning_rate": 1.6335309280450715e-05, + "loss": 0.4537, + "step": 3181 + }, + { + "epoch": 1.0606666666666666, + "grad_norm": 2.0330238342285156, + "learning_rate": 1.633230793390418e-05, + "loss": 0.4674, + "step": 3182 + }, + { + "epoch": 1.061, + "grad_norm": 2.002180814743042, + "learning_rate": 1.6329305634798993e-05, + "loss": 0.4968, + "step": 3183 + }, + { + "epoch": 1.0613333333333332, + "grad_norm": 1.6835755109786987, + "learning_rate": 1.632630238358678e-05, + "loss": 0.4601, + "step": 3184 + }, + { + "epoch": 1.0616666666666668, + "grad_norm": 2.3578739166259766, + "learning_rate": 1.6323298180719312e-05, + "loss": 0.4244, + "step": 3185 + }, + { + "epoch": 1.062, + "grad_norm": 2.0931167602539062, + "learning_rate": 1.632029302664851e-05, + "loss": 0.4892, + "step": 3186 + }, + { + "epoch": 1.0623333333333334, + "grad_norm": 2.5414860248565674, + "learning_rate": 1.6317286921826433e-05, + "loss": 0.4988, + "step": 3187 + }, + { + "epoch": 1.0626666666666666, + "grad_norm": 2.0745270252227783, + "learning_rate": 1.631427986670529e-05, + "loss": 0.4771, + "step": 3188 + }, + { + "epoch": 1.063, + "grad_norm": 2.636579751968384, + "learning_rate": 1.6311271861737417e-05, + "loss": 0.463, + "step": 3189 + }, + { + "epoch": 1.0633333333333332, + "grad_norm": 2.1602115631103516, + "learning_rate": 1.6308262907375314e-05, + "loss": 0.4854, + "step": 3190 + }, + { + "epoch": 1.0636666666666668, + "grad_norm": 1.6345126628875732, + "learning_rate": 1.6305253004071605e-05, + "loss": 0.4764, + "step": 3191 + }, + { + "epoch": 1.064, + "grad_norm": 1.7574418783187866, + "learning_rate": 1.6302242152279068e-05, + "loss": 0.4857, + "step": 3192 + }, + { + "epoch": 1.0643333333333334, + "grad_norm": 2.4863131046295166, + "learning_rate": 1.629923035245062e-05, + "loss": 0.4937, + "step": 3193 + }, + { + "epoch": 1.0646666666666667, + "grad_norm": 1.7858210802078247, + "learning_rate": 1.6296217605039322e-05, + "loss": 0.4829, + "step": 3194 + }, + { + "epoch": 1.065, + "grad_norm": 1.9313993453979492, + "learning_rate": 1.6293203910498375e-05, + "loss": 0.4928, + "step": 3195 + }, + { + "epoch": 1.0653333333333332, + "grad_norm": 3.156885862350464, + "learning_rate": 1.6290189269281124e-05, + "loss": 0.4439, + "step": 3196 + }, + { + "epoch": 1.0656666666666668, + "grad_norm": 1.8002336025238037, + "learning_rate": 1.6287173681841063e-05, + "loss": 0.5206, + "step": 3197 + }, + { + "epoch": 1.066, + "grad_norm": 2.065136432647705, + "learning_rate": 1.6284157148631814e-05, + "loss": 0.4609, + "step": 3198 + }, + { + "epoch": 1.0663333333333334, + "grad_norm": 1.810200572013855, + "learning_rate": 1.628113967010715e-05, + "loss": 0.488, + "step": 3199 + }, + { + "epoch": 1.0666666666666667, + "grad_norm": 2.120126962661743, + "learning_rate": 1.627812124672099e-05, + "loss": 0.4992, + "step": 3200 + }, + { + "epoch": 1.067, + "grad_norm": 1.640285611152649, + "learning_rate": 1.6275101878927382e-05, + "loss": 0.4367, + "step": 3201 + }, + { + "epoch": 1.0673333333333332, + "grad_norm": 1.7746844291687012, + "learning_rate": 1.6272081567180533e-05, + "loss": 0.4879, + "step": 3202 + }, + { + "epoch": 1.0676666666666668, + "grad_norm": 1.9533861875534058, + "learning_rate": 1.626906031193478e-05, + "loss": 0.4844, + "step": 3203 + }, + { + "epoch": 1.068, + "grad_norm": 1.7297760248184204, + "learning_rate": 1.6266038113644605e-05, + "loss": 0.506, + "step": 3204 + }, + { + "epoch": 1.0683333333333334, + "grad_norm": 1.8510570526123047, + "learning_rate": 1.6263014972764636e-05, + "loss": 0.4783, + "step": 3205 + }, + { + "epoch": 1.0686666666666667, + "grad_norm": 1.8374592065811157, + "learning_rate": 1.625999088974963e-05, + "loss": 0.4702, + "step": 3206 + }, + { + "epoch": 1.069, + "grad_norm": 2.054192066192627, + "learning_rate": 1.625696586505451e-05, + "loss": 0.4682, + "step": 3207 + }, + { + "epoch": 1.0693333333333332, + "grad_norm": 1.8356044292449951, + "learning_rate": 1.6253939899134314e-05, + "loss": 0.49, + "step": 3208 + }, + { + "epoch": 1.0696666666666668, + "grad_norm": 1.7355624437332153, + "learning_rate": 1.6250912992444235e-05, + "loss": 0.4195, + "step": 3209 + }, + { + "epoch": 1.07, + "grad_norm": 2.1800341606140137, + "learning_rate": 1.6247885145439602e-05, + "loss": 0.5012, + "step": 3210 + }, + { + "epoch": 1.0703333333333334, + "grad_norm": 1.9301726818084717, + "learning_rate": 1.6244856358575898e-05, + "loss": 0.5083, + "step": 3211 + }, + { + "epoch": 1.0706666666666667, + "grad_norm": 2.2425882816314697, + "learning_rate": 1.6241826632308732e-05, + "loss": 0.5204, + "step": 3212 + }, + { + "epoch": 1.071, + "grad_norm": 2.3260610103607178, + "learning_rate": 1.6238795967093865e-05, + "loss": 0.4784, + "step": 3213 + }, + { + "epoch": 1.0713333333333332, + "grad_norm": 1.8973039388656616, + "learning_rate": 1.623576436338719e-05, + "loss": 0.4404, + "step": 3214 + }, + { + "epoch": 1.0716666666666668, + "grad_norm": 1.9245564937591553, + "learning_rate": 1.6232731821644747e-05, + "loss": 0.4398, + "step": 3215 + }, + { + "epoch": 1.072, + "grad_norm": 1.7436766624450684, + "learning_rate": 1.622969834232272e-05, + "loss": 0.4982, + "step": 3216 + }, + { + "epoch": 1.0723333333333334, + "grad_norm": 2.5855064392089844, + "learning_rate": 1.6226663925877427e-05, + "loss": 0.5084, + "step": 3217 + }, + { + "epoch": 1.0726666666666667, + "grad_norm": 2.1002790927886963, + "learning_rate": 1.6223628572765334e-05, + "loss": 0.4836, + "step": 3218 + }, + { + "epoch": 1.073, + "grad_norm": 1.7077717781066895, + "learning_rate": 1.622059228344304e-05, + "loss": 0.4549, + "step": 3219 + }, + { + "epoch": 1.0733333333333333, + "grad_norm": 1.7240896224975586, + "learning_rate": 1.6217555058367288e-05, + "loss": 0.4549, + "step": 3220 + }, + { + "epoch": 1.0736666666666668, + "grad_norm": 1.7840018272399902, + "learning_rate": 1.621451689799497e-05, + "loss": 0.4793, + "step": 3221 + }, + { + "epoch": 1.074, + "grad_norm": 1.7680634260177612, + "learning_rate": 1.6211477802783105e-05, + "loss": 0.5017, + "step": 3222 + }, + { + "epoch": 1.0743333333333334, + "grad_norm": 1.9992289543151855, + "learning_rate": 1.6208437773188862e-05, + "loss": 0.4161, + "step": 3223 + }, + { + "epoch": 1.0746666666666667, + "grad_norm": 2.3175127506256104, + "learning_rate": 1.6205396809669546e-05, + "loss": 0.5299, + "step": 3224 + }, + { + "epoch": 1.075, + "grad_norm": 2.5154025554656982, + "learning_rate": 1.6202354912682602e-05, + "loss": 0.4718, + "step": 3225 + }, + { + "epoch": 1.0753333333333333, + "grad_norm": 1.8432323932647705, + "learning_rate": 1.6199312082685624e-05, + "loss": 0.4947, + "step": 3226 + }, + { + "epoch": 1.0756666666666668, + "grad_norm": 1.9234951734542847, + "learning_rate": 1.619626832013633e-05, + "loss": 0.4756, + "step": 3227 + }, + { + "epoch": 1.076, + "grad_norm": 2.1832621097564697, + "learning_rate": 1.6193223625492604e-05, + "loss": 0.5023, + "step": 3228 + }, + { + "epoch": 1.0763333333333334, + "grad_norm": 1.6285009384155273, + "learning_rate": 1.619017799921244e-05, + "loss": 0.5043, + "step": 3229 + }, + { + "epoch": 1.0766666666666667, + "grad_norm": 1.7268849611282349, + "learning_rate": 1.618713144175399e-05, + "loss": 0.4425, + "step": 3230 + }, + { + "epoch": 1.077, + "grad_norm": 2.0412838459014893, + "learning_rate": 1.6184083953575543e-05, + "loss": 0.4657, + "step": 3231 + }, + { + "epoch": 1.0773333333333333, + "grad_norm": 1.8488695621490479, + "learning_rate": 1.618103553513553e-05, + "loss": 0.4734, + "step": 3232 + }, + { + "epoch": 1.0776666666666666, + "grad_norm": 2.7353575229644775, + "learning_rate": 1.617798618689252e-05, + "loss": 0.4945, + "step": 3233 + }, + { + "epoch": 1.078, + "grad_norm": 2.0880494117736816, + "learning_rate": 1.6174935909305216e-05, + "loss": 0.4812, + "step": 3234 + }, + { + "epoch": 1.0783333333333334, + "grad_norm": 2.0218844413757324, + "learning_rate": 1.6171884702832472e-05, + "loss": 0.5139, + "step": 3235 + }, + { + "epoch": 1.0786666666666667, + "grad_norm": 1.9637078046798706, + "learning_rate": 1.616883256793327e-05, + "loss": 0.5144, + "step": 3236 + }, + { + "epoch": 1.079, + "grad_norm": 2.1541430950164795, + "learning_rate": 1.616577950506675e-05, + "loss": 0.4567, + "step": 3237 + }, + { + "epoch": 1.0793333333333333, + "grad_norm": 2.078345775604248, + "learning_rate": 1.6162725514692166e-05, + "loss": 0.4834, + "step": 3238 + }, + { + "epoch": 1.0796666666666668, + "grad_norm": 2.4819607734680176, + "learning_rate": 1.6159670597268927e-05, + "loss": 0.4932, + "step": 3239 + }, + { + "epoch": 1.08, + "grad_norm": 2.6949615478515625, + "learning_rate": 1.6156614753256583e-05, + "loss": 0.4879, + "step": 3240 + }, + { + "epoch": 1.0803333333333334, + "grad_norm": 2.343153476715088, + "learning_rate": 1.615355798311482e-05, + "loss": 0.4459, + "step": 3241 + }, + { + "epoch": 1.0806666666666667, + "grad_norm": 1.8969755172729492, + "learning_rate": 1.615050028730346e-05, + "loss": 0.4507, + "step": 3242 + }, + { + "epoch": 1.081, + "grad_norm": 1.8087433576583862, + "learning_rate": 1.614744166628247e-05, + "loss": 0.4506, + "step": 3243 + }, + { + "epoch": 1.0813333333333333, + "grad_norm": 1.8659217357635498, + "learning_rate": 1.6144382120511946e-05, + "loss": 0.4755, + "step": 3244 + }, + { + "epoch": 1.0816666666666666, + "grad_norm": 2.1856586933135986, + "learning_rate": 1.614132165045214e-05, + "loss": 0.4654, + "step": 3245 + }, + { + "epoch": 1.082, + "grad_norm": 1.707052230834961, + "learning_rate": 1.613826025656343e-05, + "loss": 0.4308, + "step": 3246 + }, + { + "epoch": 1.0823333333333334, + "grad_norm": 2.5776195526123047, + "learning_rate": 1.6135197939306334e-05, + "loss": 0.4891, + "step": 3247 + }, + { + "epoch": 1.0826666666666667, + "grad_norm": 1.9664990901947021, + "learning_rate": 1.6132134699141514e-05, + "loss": 0.4777, + "step": 3248 + }, + { + "epoch": 1.083, + "grad_norm": 1.8041198253631592, + "learning_rate": 1.6129070536529767e-05, + "loss": 0.4725, + "step": 3249 + }, + { + "epoch": 1.0833333333333333, + "grad_norm": 3.0820860862731934, + "learning_rate": 1.6126005451932028e-05, + "loss": 0.5158, + "step": 3250 + }, + { + "epoch": 1.0836666666666668, + "grad_norm": 1.9553828239440918, + "learning_rate": 1.612293944580938e-05, + "loss": 0.4723, + "step": 3251 + }, + { + "epoch": 1.084, + "grad_norm": 2.057863473892212, + "learning_rate": 1.611987251862303e-05, + "loss": 0.4486, + "step": 3252 + }, + { + "epoch": 1.0843333333333334, + "grad_norm": 2.2619707584381104, + "learning_rate": 1.611680467083433e-05, + "loss": 0.4849, + "step": 3253 + }, + { + "epoch": 1.0846666666666667, + "grad_norm": 2.033116340637207, + "learning_rate": 1.611373590290478e-05, + "loss": 0.4759, + "step": 3254 + }, + { + "epoch": 1.085, + "grad_norm": 2.120976448059082, + "learning_rate": 1.6110666215296e-05, + "loss": 0.4827, + "step": 3255 + }, + { + "epoch": 1.0853333333333333, + "grad_norm": 1.8005471229553223, + "learning_rate": 1.6107595608469764e-05, + "loss": 0.4904, + "step": 3256 + }, + { + "epoch": 1.0856666666666666, + "grad_norm": 2.0086095333099365, + "learning_rate": 1.6104524082887975e-05, + "loss": 0.4905, + "step": 3257 + }, + { + "epoch": 1.086, + "grad_norm": 2.6004886627197266, + "learning_rate": 1.610145163901268e-05, + "loss": 0.4732, + "step": 3258 + }, + { + "epoch": 1.0863333333333334, + "grad_norm": 2.1451218128204346, + "learning_rate": 1.6098378277306056e-05, + "loss": 0.527, + "step": 3259 + }, + { + "epoch": 1.0866666666666667, + "grad_norm": 1.7550746202468872, + "learning_rate": 1.6095303998230432e-05, + "loss": 0.4536, + "step": 3260 + }, + { + "epoch": 1.087, + "grad_norm": 2.2783849239349365, + "learning_rate": 1.6092228802248264e-05, + "loss": 0.4896, + "step": 3261 + }, + { + "epoch": 1.0873333333333333, + "grad_norm": 1.7969160079956055, + "learning_rate": 1.608915268982215e-05, + "loss": 0.5028, + "step": 3262 + }, + { + "epoch": 1.0876666666666668, + "grad_norm": 2.2234013080596924, + "learning_rate": 1.6086075661414818e-05, + "loss": 0.4862, + "step": 3263 + }, + { + "epoch": 1.088, + "grad_norm": 2.383121967315674, + "learning_rate": 1.6082997717489145e-05, + "loss": 0.4499, + "step": 3264 + }, + { + "epoch": 1.0883333333333334, + "grad_norm": 1.9092090129852295, + "learning_rate": 1.6079918858508144e-05, + "loss": 0.4661, + "step": 3265 + }, + { + "epoch": 1.0886666666666667, + "grad_norm": 2.1919126510620117, + "learning_rate": 1.6076839084934953e-05, + "loss": 0.4627, + "step": 3266 + }, + { + "epoch": 1.089, + "grad_norm": 1.7370631694793701, + "learning_rate": 1.607375839723287e-05, + "loss": 0.4702, + "step": 3267 + }, + { + "epoch": 1.0893333333333333, + "grad_norm": 2.0039076805114746, + "learning_rate": 1.6070676795865306e-05, + "loss": 0.4691, + "step": 3268 + }, + { + "epoch": 1.0896666666666666, + "grad_norm": 2.0881710052490234, + "learning_rate": 1.6067594281295832e-05, + "loss": 0.4766, + "step": 3269 + }, + { + "epoch": 1.09, + "grad_norm": 1.8073265552520752, + "learning_rate": 1.6064510853988137e-05, + "loss": 0.4504, + "step": 3270 + }, + { + "epoch": 1.0903333333333334, + "grad_norm": 1.820199966430664, + "learning_rate": 1.6061426514406056e-05, + "loss": 0.4276, + "step": 3271 + }, + { + "epoch": 1.0906666666666667, + "grad_norm": 2.868025541305542, + "learning_rate": 1.605834126301357e-05, + "loss": 0.5146, + "step": 3272 + }, + { + "epoch": 1.091, + "grad_norm": 2.03600811958313, + "learning_rate": 1.605525510027478e-05, + "loss": 0.5118, + "step": 3273 + }, + { + "epoch": 1.0913333333333333, + "grad_norm": 1.772374153137207, + "learning_rate": 1.6052168026653936e-05, + "loss": 0.4126, + "step": 3274 + }, + { + "epoch": 1.0916666666666666, + "grad_norm": 2.059155225753784, + "learning_rate": 1.6049080042615417e-05, + "loss": 0.4801, + "step": 3275 + }, + { + "epoch": 1.092, + "grad_norm": 1.6748100519180298, + "learning_rate": 1.6045991148623752e-05, + "loss": 0.4963, + "step": 3276 + }, + { + "epoch": 1.0923333333333334, + "grad_norm": 2.007636547088623, + "learning_rate": 1.604290134514359e-05, + "loss": 0.4836, + "step": 3277 + }, + { + "epoch": 1.0926666666666667, + "grad_norm": 1.9855884313583374, + "learning_rate": 1.6039810632639726e-05, + "loss": 0.5053, + "step": 3278 + }, + { + "epoch": 1.093, + "grad_norm": 1.7644248008728027, + "learning_rate": 1.6036719011577094e-05, + "loss": 0.4621, + "step": 3279 + }, + { + "epoch": 1.0933333333333333, + "grad_norm": 1.7495381832122803, + "learning_rate": 1.603362648242076e-05, + "loss": 0.4269, + "step": 3280 + }, + { + "epoch": 1.0936666666666666, + "grad_norm": 1.616342544555664, + "learning_rate": 1.6030533045635928e-05, + "loss": 0.4672, + "step": 3281 + }, + { + "epoch": 1.094, + "grad_norm": 2.4181792736053467, + "learning_rate": 1.6027438701687937e-05, + "loss": 0.4657, + "step": 3282 + }, + { + "epoch": 1.0943333333333334, + "grad_norm": 1.8298434019088745, + "learning_rate": 1.6024343451042272e-05, + "loss": 0.4821, + "step": 3283 + }, + { + "epoch": 1.0946666666666667, + "grad_norm": 2.092646360397339, + "learning_rate": 1.6021247294164538e-05, + "loss": 0.4919, + "step": 3284 + }, + { + "epoch": 1.095, + "grad_norm": 1.7375763654708862, + "learning_rate": 1.6018150231520486e-05, + "loss": 0.4552, + "step": 3285 + }, + { + "epoch": 1.0953333333333333, + "grad_norm": 1.9054824113845825, + "learning_rate": 1.6015052263576003e-05, + "loss": 0.4458, + "step": 3286 + }, + { + "epoch": 1.0956666666666666, + "grad_norm": 1.797002911567688, + "learning_rate": 1.601195339079711e-05, + "loss": 0.4591, + "step": 3287 + }, + { + "epoch": 1.096, + "grad_norm": 2.9139404296875, + "learning_rate": 1.600885361364997e-05, + "loss": 0.4605, + "step": 3288 + }, + { + "epoch": 1.0963333333333334, + "grad_norm": 3.0775256156921387, + "learning_rate": 1.600575293260087e-05, + "loss": 0.4763, + "step": 3289 + }, + { + "epoch": 1.0966666666666667, + "grad_norm": 2.0822575092315674, + "learning_rate": 1.6002651348116248e-05, + "loss": 0.4763, + "step": 3290 + }, + { + "epoch": 1.097, + "grad_norm": 2.1238505840301514, + "learning_rate": 1.5999548860662666e-05, + "loss": 0.4753, + "step": 3291 + }, + { + "epoch": 1.0973333333333333, + "grad_norm": 2.257321357727051, + "learning_rate": 1.5996445470706822e-05, + "loss": 0.42, + "step": 3292 + }, + { + "epoch": 1.0976666666666666, + "grad_norm": 2.390848398208618, + "learning_rate": 1.5993341178715563e-05, + "loss": 0.4944, + "step": 3293 + }, + { + "epoch": 1.098, + "grad_norm": 2.1301188468933105, + "learning_rate": 1.599023598515586e-05, + "loss": 0.4539, + "step": 3294 + }, + { + "epoch": 1.0983333333333334, + "grad_norm": 1.9435374736785889, + "learning_rate": 1.598712989049482e-05, + "loss": 0.4338, + "step": 3295 + }, + { + "epoch": 1.0986666666666667, + "grad_norm": 1.9710330963134766, + "learning_rate": 1.598402289519968e-05, + "loss": 0.4794, + "step": 3296 + }, + { + "epoch": 1.099, + "grad_norm": 2.355700731277466, + "learning_rate": 1.598091499973784e-05, + "loss": 0.4395, + "step": 3297 + }, + { + "epoch": 1.0993333333333333, + "grad_norm": 1.9771625995635986, + "learning_rate": 1.5977806204576798e-05, + "loss": 0.4587, + "step": 3298 + }, + { + "epoch": 1.0996666666666666, + "grad_norm": 1.8210252523422241, + "learning_rate": 1.5974696510184208e-05, + "loss": 0.495, + "step": 3299 + }, + { + "epoch": 1.1, + "grad_norm": 1.9994221925735474, + "learning_rate": 1.5971585917027864e-05, + "loss": 0.4706, + "step": 3300 + }, + { + "epoch": 1.1003333333333334, + "grad_norm": 2.1662395000457764, + "learning_rate": 1.596847442557568e-05, + "loss": 0.4962, + "step": 3301 + }, + { + "epoch": 1.1006666666666667, + "grad_norm": 1.7063288688659668, + "learning_rate": 1.5965362036295715e-05, + "loss": 0.4651, + "step": 3302 + }, + { + "epoch": 1.101, + "grad_norm": 2.5269615650177, + "learning_rate": 1.5962248749656158e-05, + "loss": 0.4919, + "step": 3303 + }, + { + "epoch": 1.1013333333333333, + "grad_norm": 1.6659492254257202, + "learning_rate": 1.595913456612534e-05, + "loss": 0.4509, + "step": 3304 + }, + { + "epoch": 1.1016666666666666, + "grad_norm": 2.004112958908081, + "learning_rate": 1.5956019486171724e-05, + "loss": 0.4353, + "step": 3305 + }, + { + "epoch": 1.102, + "grad_norm": 2.0460689067840576, + "learning_rate": 1.59529035102639e-05, + "loss": 0.5048, + "step": 3306 + }, + { + "epoch": 1.1023333333333334, + "grad_norm": 2.4590580463409424, + "learning_rate": 1.5949786638870602e-05, + "loss": 0.4937, + "step": 3307 + }, + { + "epoch": 1.1026666666666667, + "grad_norm": 1.9152462482452393, + "learning_rate": 1.5946668872460693e-05, + "loss": 0.4905, + "step": 3308 + }, + { + "epoch": 1.103, + "grad_norm": 1.997359037399292, + "learning_rate": 1.594355021150318e-05, + "loss": 0.4762, + "step": 3309 + }, + { + "epoch": 1.1033333333333333, + "grad_norm": 1.9366618394851685, + "learning_rate": 1.5940430656467193e-05, + "loss": 0.4992, + "step": 3310 + }, + { + "epoch": 1.1036666666666666, + "grad_norm": 1.9314720630645752, + "learning_rate": 1.5937310207822005e-05, + "loss": 0.4696, + "step": 3311 + }, + { + "epoch": 1.104, + "grad_norm": 2.0395195484161377, + "learning_rate": 1.5934188866037017e-05, + "loss": 0.5065, + "step": 3312 + }, + { + "epoch": 1.1043333333333334, + "grad_norm": 2.0652055740356445, + "learning_rate": 1.5931066631581766e-05, + "loss": 0.4619, + "step": 3313 + }, + { + "epoch": 1.1046666666666667, + "grad_norm": 1.9513851404190063, + "learning_rate": 1.592794350492593e-05, + "loss": 0.5159, + "step": 3314 + }, + { + "epoch": 1.105, + "grad_norm": 2.143723964691162, + "learning_rate": 1.592481948653931e-05, + "loss": 0.4965, + "step": 3315 + }, + { + "epoch": 1.1053333333333333, + "grad_norm": 1.924232006072998, + "learning_rate": 1.5921694576891847e-05, + "loss": 0.4695, + "step": 3316 + }, + { + "epoch": 1.1056666666666666, + "grad_norm": 1.854174256324768, + "learning_rate": 1.591856877645362e-05, + "loss": 0.4439, + "step": 3317 + }, + { + "epoch": 1.106, + "grad_norm": 1.729059100151062, + "learning_rate": 1.591544208569484e-05, + "loss": 0.484, + "step": 3318 + }, + { + "epoch": 1.1063333333333334, + "grad_norm": 1.9784599542617798, + "learning_rate": 1.591231450508585e-05, + "loss": 0.4647, + "step": 3319 + }, + { + "epoch": 1.1066666666666667, + "grad_norm": 2.26705265045166, + "learning_rate": 1.5909186035097114e-05, + "loss": 0.468, + "step": 3320 + }, + { + "epoch": 1.107, + "grad_norm": 1.631038784980774, + "learning_rate": 1.5906056676199256e-05, + "loss": 0.4733, + "step": 3321 + }, + { + "epoch": 1.1073333333333333, + "grad_norm": 1.7022122144699097, + "learning_rate": 1.5902926428863014e-05, + "loss": 0.4523, + "step": 3322 + }, + { + "epoch": 1.1076666666666666, + "grad_norm": 1.878237247467041, + "learning_rate": 1.589979529355927e-05, + "loss": 0.4799, + "step": 3323 + }, + { + "epoch": 1.108, + "grad_norm": 2.476735830307007, + "learning_rate": 1.5896663270759034e-05, + "loss": 0.529, + "step": 3324 + }, + { + "epoch": 1.1083333333333334, + "grad_norm": 1.915333867073059, + "learning_rate": 1.589353036093345e-05, + "loss": 0.472, + "step": 3325 + }, + { + "epoch": 1.1086666666666667, + "grad_norm": 1.7077006101608276, + "learning_rate": 1.5890396564553797e-05, + "loss": 0.428, + "step": 3326 + }, + { + "epoch": 1.109, + "grad_norm": 2.037419319152832, + "learning_rate": 1.5887261882091488e-05, + "loss": 0.4934, + "step": 3327 + }, + { + "epoch": 1.1093333333333333, + "grad_norm": 2.139150619506836, + "learning_rate": 1.5884126314018065e-05, + "loss": 0.4556, + "step": 3328 + }, + { + "epoch": 1.1096666666666666, + "grad_norm": 2.6925487518310547, + "learning_rate": 1.588098986080521e-05, + "loss": 0.5256, + "step": 3329 + }, + { + "epoch": 1.11, + "grad_norm": 2.1034746170043945, + "learning_rate": 1.5877852522924733e-05, + "loss": 0.4799, + "step": 3330 + }, + { + "epoch": 1.1103333333333334, + "grad_norm": 1.921148419380188, + "learning_rate": 1.5874714300848577e-05, + "loss": 0.4815, + "step": 3331 + }, + { + "epoch": 1.1106666666666667, + "grad_norm": 1.6565192937850952, + "learning_rate": 1.5871575195048822e-05, + "loss": 0.4145, + "step": 3332 + }, + { + "epoch": 1.111, + "grad_norm": 3.073138952255249, + "learning_rate": 1.586843520599768e-05, + "loss": 0.4635, + "step": 3333 + }, + { + "epoch": 1.1113333333333333, + "grad_norm": 2.562185049057007, + "learning_rate": 1.586529433416749e-05, + "loss": 0.4795, + "step": 3334 + }, + { + "epoch": 1.1116666666666666, + "grad_norm": 2.301253318786621, + "learning_rate": 1.586215258003073e-05, + "loss": 0.4417, + "step": 3335 + }, + { + "epoch": 1.112, + "grad_norm": 1.9132670164108276, + "learning_rate": 1.5859009944060005e-05, + "loss": 0.4389, + "step": 3336 + }, + { + "epoch": 1.1123333333333334, + "grad_norm": 2.01598858833313, + "learning_rate": 1.5855866426728066e-05, + "loss": 0.4556, + "step": 3337 + }, + { + "epoch": 1.1126666666666667, + "grad_norm": 2.719381809234619, + "learning_rate": 1.585272202850778e-05, + "loss": 0.4527, + "step": 3338 + }, + { + "epoch": 1.113, + "grad_norm": 2.1485238075256348, + "learning_rate": 1.584957674987216e-05, + "loss": 0.4862, + "step": 3339 + }, + { + "epoch": 1.1133333333333333, + "grad_norm": 1.8247313499450684, + "learning_rate": 1.5846430591294334e-05, + "loss": 0.4463, + "step": 3340 + }, + { + "epoch": 1.1136666666666666, + "grad_norm": 1.915191411972046, + "learning_rate": 1.584328355324758e-05, + "loss": 0.4723, + "step": 3341 + }, + { + "epoch": 1.114, + "grad_norm": 1.8733875751495361, + "learning_rate": 1.5840135636205305e-05, + "loss": 0.4862, + "step": 3342 + }, + { + "epoch": 1.1143333333333334, + "grad_norm": 2.2887237071990967, + "learning_rate": 1.5836986840641036e-05, + "loss": 0.4828, + "step": 3343 + }, + { + "epoch": 1.1146666666666667, + "grad_norm": 2.107534646987915, + "learning_rate": 1.5833837167028455e-05, + "loss": 0.4691, + "step": 3344 + }, + { + "epoch": 1.115, + "grad_norm": 2.068342447280884, + "learning_rate": 1.5830686615841348e-05, + "loss": 0.4592, + "step": 3345 + }, + { + "epoch": 1.1153333333333333, + "grad_norm": 2.169832706451416, + "learning_rate": 1.5827535187553657e-05, + "loss": 0.4729, + "step": 3346 + }, + { + "epoch": 1.1156666666666666, + "grad_norm": 2.594038963317871, + "learning_rate": 1.582438288263944e-05, + "loss": 0.4449, + "step": 3347 + }, + { + "epoch": 1.116, + "grad_norm": 2.267516613006592, + "learning_rate": 1.5821229701572897e-05, + "loss": 0.4905, + "step": 3348 + }, + { + "epoch": 1.1163333333333334, + "grad_norm": 2.568556547164917, + "learning_rate": 1.5818075644828353e-05, + "loss": 0.4509, + "step": 3349 + }, + { + "epoch": 1.1166666666666667, + "grad_norm": 2.477652072906494, + "learning_rate": 1.5814920712880267e-05, + "loss": 0.4939, + "step": 3350 + }, + { + "epoch": 1.117, + "grad_norm": 1.8674592971801758, + "learning_rate": 1.5811764906203235e-05, + "loss": 0.4883, + "step": 3351 + }, + { + "epoch": 1.1173333333333333, + "grad_norm": 1.973258376121521, + "learning_rate": 1.5808608225271975e-05, + "loss": 0.4745, + "step": 3352 + }, + { + "epoch": 1.1176666666666666, + "grad_norm": 2.6277198791503906, + "learning_rate": 1.5805450670561347e-05, + "loss": 0.4783, + "step": 3353 + }, + { + "epoch": 1.1179999999999999, + "grad_norm": 2.4433178901672363, + "learning_rate": 1.580229224254633e-05, + "loss": 0.4662, + "step": 3354 + }, + { + "epoch": 1.1183333333333334, + "grad_norm": 2.288973093032837, + "learning_rate": 1.5799132941702042e-05, + "loss": 0.4541, + "step": 3355 + }, + { + "epoch": 1.1186666666666667, + "grad_norm": 2.0431854724884033, + "learning_rate": 1.579597276850374e-05, + "loss": 0.4728, + "step": 3356 + }, + { + "epoch": 1.119, + "grad_norm": 1.9589743614196777, + "learning_rate": 1.5792811723426787e-05, + "loss": 0.4845, + "step": 3357 + }, + { + "epoch": 1.1193333333333333, + "grad_norm": 1.7049788236618042, + "learning_rate": 1.5789649806946713e-05, + "loss": 0.4412, + "step": 3358 + }, + { + "epoch": 1.1196666666666666, + "grad_norm": 2.0287585258483887, + "learning_rate": 1.5786487019539146e-05, + "loss": 0.456, + "step": 3359 + }, + { + "epoch": 1.12, + "grad_norm": 1.7839654684066772, + "learning_rate": 1.5783323361679865e-05, + "loss": 0.4445, + "step": 3360 + }, + { + "epoch": 1.1203333333333334, + "grad_norm": 1.6730620861053467, + "learning_rate": 1.5780158833844773e-05, + "loss": 0.4608, + "step": 3361 + }, + { + "epoch": 1.1206666666666667, + "grad_norm": 2.003404378890991, + "learning_rate": 1.5776993436509907e-05, + "loss": 0.4528, + "step": 3362 + }, + { + "epoch": 1.121, + "grad_norm": 2.002289056777954, + "learning_rate": 1.5773827170151425e-05, + "loss": 0.4889, + "step": 3363 + }, + { + "epoch": 1.1213333333333333, + "grad_norm": 1.7936046123504639, + "learning_rate": 1.5770660035245632e-05, + "loss": 0.4643, + "step": 3364 + }, + { + "epoch": 1.1216666666666666, + "grad_norm": 1.7317235469818115, + "learning_rate": 1.576749203226895e-05, + "loss": 0.429, + "step": 3365 + }, + { + "epoch": 1.1219999999999999, + "grad_norm": 2.6614060401916504, + "learning_rate": 1.5764323161697933e-05, + "loss": 0.5104, + "step": 3366 + }, + { + "epoch": 1.1223333333333334, + "grad_norm": 1.9465726613998413, + "learning_rate": 1.576115342400928e-05, + "loss": 0.4479, + "step": 3367 + }, + { + "epoch": 1.1226666666666667, + "grad_norm": 2.3724310398101807, + "learning_rate": 1.5757982819679795e-05, + "loss": 0.4746, + "step": 3368 + }, + { + "epoch": 1.123, + "grad_norm": 1.5377075672149658, + "learning_rate": 1.5754811349186443e-05, + "loss": 0.4224, + "step": 3369 + }, + { + "epoch": 1.1233333333333333, + "grad_norm": 2.029351234436035, + "learning_rate": 1.575163901300629e-05, + "loss": 0.4681, + "step": 3370 + }, + { + "epoch": 1.1236666666666666, + "grad_norm": 2.4886951446533203, + "learning_rate": 1.574846581161655e-05, + "loss": 0.4682, + "step": 3371 + }, + { + "epoch": 1.124, + "grad_norm": 2.3924543857574463, + "learning_rate": 1.5745291745494563e-05, + "loss": 0.4815, + "step": 3372 + }, + { + "epoch": 1.1243333333333334, + "grad_norm": 2.3844220638275146, + "learning_rate": 1.57421168151178e-05, + "loss": 0.4387, + "step": 3373 + }, + { + "epoch": 1.1246666666666667, + "grad_norm": 2.10634446144104, + "learning_rate": 1.5738941020963854e-05, + "loss": 0.4735, + "step": 3374 + }, + { + "epoch": 1.125, + "grad_norm": 1.7567239999771118, + "learning_rate": 1.573576436351046e-05, + "loss": 0.4737, + "step": 3375 + }, + { + "epoch": 1.1253333333333333, + "grad_norm": 1.766741156578064, + "learning_rate": 1.5732586843235483e-05, + "loss": 0.4452, + "step": 3376 + }, + { + "epoch": 1.1256666666666666, + "grad_norm": 2.0247292518615723, + "learning_rate": 1.5729408460616897e-05, + "loss": 0.4403, + "step": 3377 + }, + { + "epoch": 1.126, + "grad_norm": 2.0810706615448, + "learning_rate": 1.5726229216132835e-05, + "loss": 0.4741, + "step": 3378 + }, + { + "epoch": 1.1263333333333334, + "grad_norm": 2.0370216369628906, + "learning_rate": 1.5723049110261537e-05, + "loss": 0.4723, + "step": 3379 + }, + { + "epoch": 1.1266666666666667, + "grad_norm": 2.084721326828003, + "learning_rate": 1.5719868143481385e-05, + "loss": 0.4939, + "step": 3380 + }, + { + "epoch": 1.127, + "grad_norm": 2.4021809101104736, + "learning_rate": 1.5716686316270884e-05, + "loss": 0.4781, + "step": 3381 + }, + { + "epoch": 1.1273333333333333, + "grad_norm": 2.1152236461639404, + "learning_rate": 1.5713503629108676e-05, + "loss": 0.4808, + "step": 3382 + }, + { + "epoch": 1.1276666666666666, + "grad_norm": 1.6827484369277954, + "learning_rate": 1.571032008247352e-05, + "loss": 0.4292, + "step": 3383 + }, + { + "epoch": 1.1280000000000001, + "grad_norm": 2.0083279609680176, + "learning_rate": 1.570713567684432e-05, + "loss": 0.4597, + "step": 3384 + }, + { + "epoch": 1.1283333333333334, + "grad_norm": 2.0326051712036133, + "learning_rate": 1.5703950412700094e-05, + "loss": 0.5039, + "step": 3385 + }, + { + "epoch": 1.1286666666666667, + "grad_norm": 1.8624041080474854, + "learning_rate": 1.5700764290519997e-05, + "loss": 0.4191, + "step": 3386 + }, + { + "epoch": 1.129, + "grad_norm": 1.8796257972717285, + "learning_rate": 1.5697577310783318e-05, + "loss": 0.4741, + "step": 3387 + }, + { + "epoch": 1.1293333333333333, + "grad_norm": 1.7839596271514893, + "learning_rate": 1.569438947396946e-05, + "loss": 0.4683, + "step": 3388 + }, + { + "epoch": 1.1296666666666666, + "grad_norm": 1.9423686265945435, + "learning_rate": 1.569120078055797e-05, + "loss": 0.4669, + "step": 3389 + }, + { + "epoch": 1.13, + "grad_norm": 1.621351718902588, + "learning_rate": 1.568801123102852e-05, + "loss": 0.4332, + "step": 3390 + }, + { + "epoch": 1.1303333333333334, + "grad_norm": 1.7650374174118042, + "learning_rate": 1.5684820825860905e-05, + "loss": 0.4545, + "step": 3391 + }, + { + "epoch": 1.1306666666666667, + "grad_norm": 2.7837071418762207, + "learning_rate": 1.568162956553505e-05, + "loss": 0.4406, + "step": 3392 + }, + { + "epoch": 1.131, + "grad_norm": 1.8532389402389526, + "learning_rate": 1.5678437450531014e-05, + "loss": 0.4229, + "step": 3393 + }, + { + "epoch": 1.1313333333333333, + "grad_norm": 2.449455976486206, + "learning_rate": 1.5675244481328982e-05, + "loss": 0.4893, + "step": 3394 + }, + { + "epoch": 1.1316666666666666, + "grad_norm": 1.905610203742981, + "learning_rate": 1.567205065840927e-05, + "loss": 0.4766, + "step": 3395 + }, + { + "epoch": 1.1320000000000001, + "grad_norm": 2.4021706581115723, + "learning_rate": 1.566885598225231e-05, + "loss": 0.4795, + "step": 3396 + }, + { + "epoch": 1.1323333333333334, + "grad_norm": 1.8790534734725952, + "learning_rate": 1.5665660453338683e-05, + "loss": 0.4961, + "step": 3397 + }, + { + "epoch": 1.1326666666666667, + "grad_norm": 1.9747971296310425, + "learning_rate": 1.5662464072149083e-05, + "loss": 0.4863, + "step": 3398 + }, + { + "epoch": 1.133, + "grad_norm": 1.934444546699524, + "learning_rate": 1.565926683916433e-05, + "loss": 0.4873, + "step": 3399 + }, + { + "epoch": 1.1333333333333333, + "grad_norm": 2.0133609771728516, + "learning_rate": 1.5656068754865388e-05, + "loss": 0.4492, + "step": 3400 + }, + { + "epoch": 1.1336666666666666, + "grad_norm": 1.8066085577011108, + "learning_rate": 1.5652869819733335e-05, + "loss": 0.4421, + "step": 3401 + }, + { + "epoch": 1.134, + "grad_norm": 2.012803077697754, + "learning_rate": 1.564967003424938e-05, + "loss": 0.4405, + "step": 3402 + }, + { + "epoch": 1.1343333333333334, + "grad_norm": 2.005469799041748, + "learning_rate": 1.5646469398894864e-05, + "loss": 0.5173, + "step": 3403 + }, + { + "epoch": 1.1346666666666667, + "grad_norm": 1.8974169492721558, + "learning_rate": 1.5643267914151258e-05, + "loss": 0.4713, + "step": 3404 + }, + { + "epoch": 1.135, + "grad_norm": 2.0965983867645264, + "learning_rate": 1.5640065580500146e-05, + "loss": 0.4334, + "step": 3405 + }, + { + "epoch": 1.1353333333333333, + "grad_norm": 1.8577754497528076, + "learning_rate": 1.5636862398423253e-05, + "loss": 0.4387, + "step": 3406 + }, + { + "epoch": 1.1356666666666666, + "grad_norm": 1.864989161491394, + "learning_rate": 1.5633658368402436e-05, + "loss": 0.4773, + "step": 3407 + }, + { + "epoch": 1.1360000000000001, + "grad_norm": 1.7561482191085815, + "learning_rate": 1.5630453490919663e-05, + "loss": 0.4157, + "step": 3408 + }, + { + "epoch": 1.1363333333333334, + "grad_norm": 1.7770594358444214, + "learning_rate": 1.562724776645704e-05, + "loss": 0.4768, + "step": 3409 + }, + { + "epoch": 1.1366666666666667, + "grad_norm": 2.127619981765747, + "learning_rate": 1.56240411954968e-05, + "loss": 0.4725, + "step": 3410 + }, + { + "epoch": 1.137, + "grad_norm": 2.3314504623413086, + "learning_rate": 1.5620833778521306e-05, + "loss": 0.514, + "step": 3411 + }, + { + "epoch": 1.1373333333333333, + "grad_norm": 1.8305864334106445, + "learning_rate": 1.5617625516013043e-05, + "loss": 0.4355, + "step": 3412 + }, + { + "epoch": 1.1376666666666666, + "grad_norm": 2.030567169189453, + "learning_rate": 1.5614416408454616e-05, + "loss": 0.48, + "step": 3413 + }, + { + "epoch": 1.138, + "grad_norm": 1.8874828815460205, + "learning_rate": 1.561120645632878e-05, + "loss": 0.4601, + "step": 3414 + }, + { + "epoch": 1.1383333333333334, + "grad_norm": 1.8594450950622559, + "learning_rate": 1.5607995660118387e-05, + "loss": 0.4508, + "step": 3415 + }, + { + "epoch": 1.1386666666666667, + "grad_norm": 2.1788744926452637, + "learning_rate": 1.5604784020306446e-05, + "loss": 0.4491, + "step": 3416 + }, + { + "epoch": 1.139, + "grad_norm": 2.5533740520477295, + "learning_rate": 1.560157153737607e-05, + "loss": 0.4496, + "step": 3417 + }, + { + "epoch": 1.1393333333333333, + "grad_norm": 2.295027494430542, + "learning_rate": 1.559835821181051e-05, + "loss": 0.4453, + "step": 3418 + }, + { + "epoch": 1.1396666666666666, + "grad_norm": 1.6711286306381226, + "learning_rate": 1.5595144044093143e-05, + "loss": 0.4725, + "step": 3419 + }, + { + "epoch": 1.1400000000000001, + "grad_norm": 1.8557301759719849, + "learning_rate": 1.5591929034707468e-05, + "loss": 0.4301, + "step": 3420 + }, + { + "epoch": 1.1403333333333334, + "grad_norm": 2.1372902393341064, + "learning_rate": 1.558871318413712e-05, + "loss": 0.4824, + "step": 3421 + }, + { + "epoch": 1.1406666666666667, + "grad_norm": 2.0578501224517822, + "learning_rate": 1.5585496492865844e-05, + "loss": 0.4624, + "step": 3422 + }, + { + "epoch": 1.141, + "grad_norm": 1.8163989782333374, + "learning_rate": 1.5582278961377524e-05, + "loss": 0.445, + "step": 3423 + }, + { + "epoch": 1.1413333333333333, + "grad_norm": 1.6204196214675903, + "learning_rate": 1.5579060590156178e-05, + "loss": 0.4746, + "step": 3424 + }, + { + "epoch": 1.1416666666666666, + "grad_norm": 1.967958688735962, + "learning_rate": 1.557584137968593e-05, + "loss": 0.4181, + "step": 3425 + }, + { + "epoch": 1.142, + "grad_norm": 1.8917710781097412, + "learning_rate": 1.5572621330451044e-05, + "loss": 0.4905, + "step": 3426 + }, + { + "epoch": 1.1423333333333334, + "grad_norm": 2.50571608543396, + "learning_rate": 1.5569400442935904e-05, + "loss": 0.4571, + "step": 3427 + }, + { + "epoch": 1.1426666666666667, + "grad_norm": 1.8700056076049805, + "learning_rate": 1.5566178717625026e-05, + "loss": 0.4492, + "step": 3428 + }, + { + "epoch": 1.143, + "grad_norm": 1.7186375856399536, + "learning_rate": 1.556295615500305e-05, + "loss": 0.4582, + "step": 3429 + }, + { + "epoch": 1.1433333333333333, + "grad_norm": 2.253270149230957, + "learning_rate": 1.5559732755554734e-05, + "loss": 0.4597, + "step": 3430 + }, + { + "epoch": 1.1436666666666666, + "grad_norm": 2.182253122329712, + "learning_rate": 1.5556508519764978e-05, + "loss": 0.4348, + "step": 3431 + }, + { + "epoch": 1.144, + "grad_norm": 1.7890278100967407, + "learning_rate": 1.5553283448118795e-05, + "loss": 0.4777, + "step": 3432 + }, + { + "epoch": 1.1443333333333334, + "grad_norm": 1.977464199066162, + "learning_rate": 1.555005754110132e-05, + "loss": 0.5119, + "step": 3433 + }, + { + "epoch": 1.1446666666666667, + "grad_norm": 2.6588516235351562, + "learning_rate": 1.5546830799197833e-05, + "loss": 0.4219, + "step": 3434 + }, + { + "epoch": 1.145, + "grad_norm": 2.164128541946411, + "learning_rate": 1.5543603222893718e-05, + "loss": 0.4845, + "step": 3435 + }, + { + "epoch": 1.1453333333333333, + "grad_norm": 1.7471668720245361, + "learning_rate": 1.5540374812674496e-05, + "loss": 0.4673, + "step": 3436 + }, + { + "epoch": 1.1456666666666666, + "grad_norm": 2.0288314819335938, + "learning_rate": 1.5537145569025814e-05, + "loss": 0.491, + "step": 3437 + }, + { + "epoch": 1.146, + "grad_norm": 2.0385398864746094, + "learning_rate": 1.553391549243344e-05, + "loss": 0.4304, + "step": 3438 + }, + { + "epoch": 1.1463333333333334, + "grad_norm": 2.2439780235290527, + "learning_rate": 1.5530684583383273e-05, + "loss": 0.4745, + "step": 3439 + }, + { + "epoch": 1.1466666666666667, + "grad_norm": 2.0077078342437744, + "learning_rate": 1.552745284236133e-05, + "loss": 0.4594, + "step": 3440 + }, + { + "epoch": 1.147, + "grad_norm": 2.1633737087249756, + "learning_rate": 1.5524220269853754e-05, + "loss": 0.502, + "step": 3441 + }, + { + "epoch": 1.1473333333333333, + "grad_norm": 2.3252475261688232, + "learning_rate": 1.5520986866346817e-05, + "loss": 0.4407, + "step": 3442 + }, + { + "epoch": 1.1476666666666666, + "grad_norm": 1.6506083011627197, + "learning_rate": 1.551775263232692e-05, + "loss": 0.4586, + "step": 3443 + }, + { + "epoch": 1.148, + "grad_norm": 1.855846643447876, + "learning_rate": 1.5514517568280573e-05, + "loss": 0.4196, + "step": 3444 + }, + { + "epoch": 1.1483333333333334, + "grad_norm": 2.018500566482544, + "learning_rate": 1.551128167469443e-05, + "loss": 0.5168, + "step": 3445 + }, + { + "epoch": 1.1486666666666667, + "grad_norm": 1.8072384595870972, + "learning_rate": 1.550804495205526e-05, + "loss": 0.4503, + "step": 3446 + }, + { + "epoch": 1.149, + "grad_norm": 1.7805131673812866, + "learning_rate": 1.5504807400849957e-05, + "loss": 0.4323, + "step": 3447 + }, + { + "epoch": 1.1493333333333333, + "grad_norm": 1.9272656440734863, + "learning_rate": 1.550156902156554e-05, + "loss": 0.4596, + "step": 3448 + }, + { + "epoch": 1.1496666666666666, + "grad_norm": 1.9786120653152466, + "learning_rate": 1.549832981468915e-05, + "loss": 0.4395, + "step": 3449 + }, + { + "epoch": 1.15, + "grad_norm": 1.9659907817840576, + "learning_rate": 1.5495089780708062e-05, + "loss": 0.499, + "step": 3450 + }, + { + "epoch": 1.1503333333333334, + "grad_norm": 1.8576531410217285, + "learning_rate": 1.5491848920109665e-05, + "loss": 0.4522, + "step": 3451 + }, + { + "epoch": 1.1506666666666667, + "grad_norm": 2.245288133621216, + "learning_rate": 1.5488607233381475e-05, + "loss": 0.4126, + "step": 3452 + }, + { + "epoch": 1.151, + "grad_norm": 1.953558087348938, + "learning_rate": 1.548536472101114e-05, + "loss": 0.4933, + "step": 3453 + }, + { + "epoch": 1.1513333333333333, + "grad_norm": 1.8936622142791748, + "learning_rate": 1.5482121383486414e-05, + "loss": 0.4601, + "step": 3454 + }, + { + "epoch": 1.1516666666666666, + "grad_norm": 2.1159284114837646, + "learning_rate": 1.54788772212952e-05, + "loss": 0.4568, + "step": 3455 + }, + { + "epoch": 1.152, + "grad_norm": 2.100609540939331, + "learning_rate": 1.5475632234925505e-05, + "loss": 0.4661, + "step": 3456 + }, + { + "epoch": 1.1523333333333334, + "grad_norm": 1.8768576383590698, + "learning_rate": 1.5472386424865468e-05, + "loss": 0.4918, + "step": 3457 + }, + { + "epoch": 1.1526666666666667, + "grad_norm": 2.143301248550415, + "learning_rate": 1.546913979160335e-05, + "loss": 0.4285, + "step": 3458 + }, + { + "epoch": 1.153, + "grad_norm": 2.1413416862487793, + "learning_rate": 1.5465892335627537e-05, + "loss": 0.4735, + "step": 3459 + }, + { + "epoch": 1.1533333333333333, + "grad_norm": 1.7609272003173828, + "learning_rate": 1.546264405742654e-05, + "loss": 0.4492, + "step": 3460 + }, + { + "epoch": 1.1536666666666666, + "grad_norm": 2.3646459579467773, + "learning_rate": 1.5459394957488995e-05, + "loss": 0.4631, + "step": 3461 + }, + { + "epoch": 1.154, + "grad_norm": 1.9654889106750488, + "learning_rate": 1.545614503630365e-05, + "loss": 0.4472, + "step": 3462 + }, + { + "epoch": 1.1543333333333332, + "grad_norm": 2.019083261489868, + "learning_rate": 1.545289429435939e-05, + "loss": 0.4696, + "step": 3463 + }, + { + "epoch": 1.1546666666666667, + "grad_norm": 1.6056864261627197, + "learning_rate": 1.5449642732145224e-05, + "loss": 0.4513, + "step": 3464 + }, + { + "epoch": 1.155, + "grad_norm": 2.1931235790252686, + "learning_rate": 1.5446390350150272e-05, + "loss": 0.4628, + "step": 3465 + }, + { + "epoch": 1.1553333333333333, + "grad_norm": 2.121729612350464, + "learning_rate": 1.5443137148863786e-05, + "loss": 0.48, + "step": 3466 + }, + { + "epoch": 1.1556666666666666, + "grad_norm": 2.341189384460449, + "learning_rate": 1.5439883128775145e-05, + "loss": 0.4784, + "step": 3467 + }, + { + "epoch": 1.156, + "grad_norm": 2.609895706176758, + "learning_rate": 1.5436628290373835e-05, + "loss": 0.506, + "step": 3468 + }, + { + "epoch": 1.1563333333333334, + "grad_norm": 2.0169730186462402, + "learning_rate": 1.5433372634149485e-05, + "loss": 0.4315, + "step": 3469 + }, + { + "epoch": 1.1566666666666667, + "grad_norm": 1.9485234022140503, + "learning_rate": 1.5430116160591836e-05, + "loss": 0.4294, + "step": 3470 + }, + { + "epoch": 1.157, + "grad_norm": 2.760608673095703, + "learning_rate": 1.542685887019075e-05, + "loss": 0.46, + "step": 3471 + }, + { + "epoch": 1.1573333333333333, + "grad_norm": 1.676979422569275, + "learning_rate": 1.5423600763436222e-05, + "loss": 0.4165, + "step": 3472 + }, + { + "epoch": 1.1576666666666666, + "grad_norm": 3.540289878845215, + "learning_rate": 1.542034184081836e-05, + "loss": 0.4122, + "step": 3473 + }, + { + "epoch": 1.158, + "grad_norm": 2.149358034133911, + "learning_rate": 1.54170821028274e-05, + "loss": 0.4954, + "step": 3474 + }, + { + "epoch": 1.1583333333333332, + "grad_norm": 2.156590461730957, + "learning_rate": 1.5413821549953697e-05, + "loss": 0.4362, + "step": 3475 + }, + { + "epoch": 1.1586666666666667, + "grad_norm": 2.8702292442321777, + "learning_rate": 1.5410560182687736e-05, + "loss": 0.4737, + "step": 3476 + }, + { + "epoch": 1.159, + "grad_norm": 2.7799532413482666, + "learning_rate": 1.5407298001520108e-05, + "loss": 0.4698, + "step": 3477 + }, + { + "epoch": 1.1593333333333333, + "grad_norm": 2.1255290508270264, + "learning_rate": 1.5404035006941546e-05, + "loss": 0.4863, + "step": 3478 + }, + { + "epoch": 1.1596666666666666, + "grad_norm": 2.725829839706421, + "learning_rate": 1.54007711994429e-05, + "loss": 0.4346, + "step": 3479 + }, + { + "epoch": 1.16, + "grad_norm": 2.073582410812378, + "learning_rate": 1.539750657951513e-05, + "loss": 0.4988, + "step": 3480 + }, + { + "epoch": 1.1603333333333334, + "grad_norm": 1.8310521841049194, + "learning_rate": 1.5394241147649333e-05, + "loss": 0.4614, + "step": 3481 + }, + { + "epoch": 1.1606666666666667, + "grad_norm": 2.605480909347534, + "learning_rate": 1.539097490433672e-05, + "loss": 0.5007, + "step": 3482 + }, + { + "epoch": 1.161, + "grad_norm": 2.5771381855010986, + "learning_rate": 1.5387707850068633e-05, + "loss": 0.4524, + "step": 3483 + }, + { + "epoch": 1.1613333333333333, + "grad_norm": 2.5302963256835938, + "learning_rate": 1.5384439985336522e-05, + "loss": 0.4452, + "step": 3484 + }, + { + "epoch": 1.1616666666666666, + "grad_norm": 2.200883150100708, + "learning_rate": 1.5381171310631968e-05, + "loss": 0.4667, + "step": 3485 + }, + { + "epoch": 1.162, + "grad_norm": 1.9604096412658691, + "learning_rate": 1.5377901826446672e-05, + "loss": 0.4649, + "step": 3486 + }, + { + "epoch": 1.1623333333333332, + "grad_norm": 2.24973726272583, + "learning_rate": 1.537463153327246e-05, + "loss": 0.422, + "step": 3487 + }, + { + "epoch": 1.1626666666666667, + "grad_norm": 2.2424376010894775, + "learning_rate": 1.5371360431601278e-05, + "loss": 0.4615, + "step": 3488 + }, + { + "epoch": 1.163, + "grad_norm": 1.574415683746338, + "learning_rate": 1.5368088521925185e-05, + "loss": 0.4592, + "step": 3489 + }, + { + "epoch": 1.1633333333333333, + "grad_norm": 1.8913483619689941, + "learning_rate": 1.536481580473638e-05, + "loss": 0.4618, + "step": 3490 + }, + { + "epoch": 1.1636666666666666, + "grad_norm": 1.9400815963745117, + "learning_rate": 1.536154228052716e-05, + "loss": 0.4268, + "step": 3491 + }, + { + "epoch": 1.164, + "grad_norm": 2.146951913833618, + "learning_rate": 1.5358267949789968e-05, + "loss": 0.4484, + "step": 3492 + }, + { + "epoch": 1.1643333333333334, + "grad_norm": 2.905308961868286, + "learning_rate": 1.5354992813017347e-05, + "loss": 0.4763, + "step": 3493 + }, + { + "epoch": 1.1646666666666667, + "grad_norm": 2.014080762863159, + "learning_rate": 1.5351716870701973e-05, + "loss": 0.518, + "step": 3494 + }, + { + "epoch": 1.165, + "grad_norm": 2.358583927154541, + "learning_rate": 1.5348440123336647e-05, + "loss": 0.4409, + "step": 3495 + }, + { + "epoch": 1.1653333333333333, + "grad_norm": 2.2123029232025146, + "learning_rate": 1.534516257141427e-05, + "loss": 0.5033, + "step": 3496 + }, + { + "epoch": 1.1656666666666666, + "grad_norm": 2.2228126525878906, + "learning_rate": 1.5341884215427894e-05, + "loss": 0.4708, + "step": 3497 + }, + { + "epoch": 1.166, + "grad_norm": 1.9507590532302856, + "learning_rate": 1.533860505587067e-05, + "loss": 0.4724, + "step": 3498 + }, + { + "epoch": 1.1663333333333332, + "grad_norm": 2.446230411529541, + "learning_rate": 1.5335325093235878e-05, + "loss": 0.4412, + "step": 3499 + }, + { + "epoch": 1.1666666666666667, + "grad_norm": 1.904396891593933, + "learning_rate": 1.5332044328016916e-05, + "loss": 0.4184, + "step": 3500 + }, + { + "epoch": 1.167, + "grad_norm": 1.5859789848327637, + "learning_rate": 1.53287627607073e-05, + "loss": 0.4821, + "step": 3501 + }, + { + "epoch": 1.1673333333333333, + "grad_norm": 1.9846441745758057, + "learning_rate": 1.532548039180068e-05, + "loss": 0.494, + "step": 3502 + }, + { + "epoch": 1.1676666666666666, + "grad_norm": 2.260131359100342, + "learning_rate": 1.5322197221790812e-05, + "loss": 0.4473, + "step": 3503 + }, + { + "epoch": 1.168, + "grad_norm": 3.0353710651397705, + "learning_rate": 1.531891325117158e-05, + "loss": 0.4345, + "step": 3504 + }, + { + "epoch": 1.1683333333333334, + "grad_norm": 2.0710015296936035, + "learning_rate": 1.5315628480436982e-05, + "loss": 0.4471, + "step": 3505 + }, + { + "epoch": 1.1686666666666667, + "grad_norm": 1.6537854671478271, + "learning_rate": 1.5312342910081144e-05, + "loss": 0.4739, + "step": 3506 + }, + { + "epoch": 1.169, + "grad_norm": 2.4398105144500732, + "learning_rate": 1.530905654059831e-05, + "loss": 0.4499, + "step": 3507 + }, + { + "epoch": 1.1693333333333333, + "grad_norm": 1.8558629751205444, + "learning_rate": 1.530576937248284e-05, + "loss": 0.4746, + "step": 3508 + }, + { + "epoch": 1.1696666666666666, + "grad_norm": 2.217684745788574, + "learning_rate": 1.530248140622922e-05, + "loss": 0.4605, + "step": 3509 + }, + { + "epoch": 1.17, + "grad_norm": 1.7335542440414429, + "learning_rate": 1.529919264233205e-05, + "loss": 0.4399, + "step": 3510 + }, + { + "epoch": 1.1703333333333332, + "grad_norm": 2.233306407928467, + "learning_rate": 1.5295903081286057e-05, + "loss": 0.4505, + "step": 3511 + }, + { + "epoch": 1.1706666666666667, + "grad_norm": 1.769219160079956, + "learning_rate": 1.5292612723586084e-05, + "loss": 0.473, + "step": 3512 + }, + { + "epoch": 1.171, + "grad_norm": 2.318850517272949, + "learning_rate": 1.5289321569727093e-05, + "loss": 0.4633, + "step": 3513 + }, + { + "epoch": 1.1713333333333333, + "grad_norm": 2.2220911979675293, + "learning_rate": 1.5286029620204166e-05, + "loss": 0.4682, + "step": 3514 + }, + { + "epoch": 1.1716666666666666, + "grad_norm": 2.3762357234954834, + "learning_rate": 1.5282736875512506e-05, + "loss": 0.4502, + "step": 3515 + }, + { + "epoch": 1.172, + "grad_norm": 2.5734620094299316, + "learning_rate": 1.5279443336147437e-05, + "loss": 0.4639, + "step": 3516 + }, + { + "epoch": 1.1723333333333334, + "grad_norm": 2.1510536670684814, + "learning_rate": 1.5276149002604398e-05, + "loss": 0.4326, + "step": 3517 + }, + { + "epoch": 1.1726666666666667, + "grad_norm": 3.1478419303894043, + "learning_rate": 1.527285387537895e-05, + "loss": 0.4333, + "step": 3518 + }, + { + "epoch": 1.173, + "grad_norm": 2.1604459285736084, + "learning_rate": 1.5269557954966777e-05, + "loss": 0.4784, + "step": 3519 + }, + { + "epoch": 1.1733333333333333, + "grad_norm": 2.3418619632720947, + "learning_rate": 1.5266261241863675e-05, + "loss": 0.4243, + "step": 3520 + }, + { + "epoch": 1.1736666666666666, + "grad_norm": 2.0307815074920654, + "learning_rate": 1.5262963736565568e-05, + "loss": 0.445, + "step": 3521 + }, + { + "epoch": 1.174, + "grad_norm": 2.01073956489563, + "learning_rate": 1.525966543956849e-05, + "loss": 0.4399, + "step": 3522 + }, + { + "epoch": 1.1743333333333332, + "grad_norm": 2.0513243675231934, + "learning_rate": 1.52563663513686e-05, + "loss": 0.4786, + "step": 3523 + }, + { + "epoch": 1.1746666666666667, + "grad_norm": 1.691153645515442, + "learning_rate": 1.5253066472462171e-05, + "loss": 0.4504, + "step": 3524 + }, + { + "epoch": 1.175, + "grad_norm": 1.727756381034851, + "learning_rate": 1.5249765803345602e-05, + "loss": 0.4634, + "step": 3525 + }, + { + "epoch": 1.1753333333333333, + "grad_norm": 2.0650155544281006, + "learning_rate": 1.5246464344515408e-05, + "loss": 0.4517, + "step": 3526 + }, + { + "epoch": 1.1756666666666666, + "grad_norm": 2.526017904281616, + "learning_rate": 1.5243162096468223e-05, + "loss": 0.4712, + "step": 3527 + }, + { + "epoch": 1.176, + "grad_norm": 2.2174577713012695, + "learning_rate": 1.5239859059700794e-05, + "loss": 0.4828, + "step": 3528 + }, + { + "epoch": 1.1763333333333335, + "grad_norm": 1.9204890727996826, + "learning_rate": 1.5236555234709993e-05, + "loss": 0.427, + "step": 3529 + }, + { + "epoch": 1.1766666666666667, + "grad_norm": 2.7677385807037354, + "learning_rate": 1.523325062199281e-05, + "loss": 0.4854, + "step": 3530 + }, + { + "epoch": 1.177, + "grad_norm": 1.9025510549545288, + "learning_rate": 1.5229945222046354e-05, + "loss": 0.4154, + "step": 3531 + }, + { + "epoch": 1.1773333333333333, + "grad_norm": 2.3586199283599854, + "learning_rate": 1.5226639035367848e-05, + "loss": 0.4682, + "step": 3532 + }, + { + "epoch": 1.1776666666666666, + "grad_norm": 2.5862579345703125, + "learning_rate": 1.5223332062454634e-05, + "loss": 0.4874, + "step": 3533 + }, + { + "epoch": 1.178, + "grad_norm": 1.9733043909072876, + "learning_rate": 1.5220024303804181e-05, + "loss": 0.4685, + "step": 3534 + }, + { + "epoch": 1.1783333333333332, + "grad_norm": 1.8379154205322266, + "learning_rate": 1.5216715759914068e-05, + "loss": 0.4989, + "step": 3535 + }, + { + "epoch": 1.1786666666666668, + "grad_norm": 2.0285396575927734, + "learning_rate": 1.521340643128199e-05, + "loss": 0.426, + "step": 3536 + }, + { + "epoch": 1.179, + "grad_norm": 2.0840158462524414, + "learning_rate": 1.5210096318405768e-05, + "loss": 0.4534, + "step": 3537 + }, + { + "epoch": 1.1793333333333333, + "grad_norm": 1.7574483156204224, + "learning_rate": 1.520678542178333e-05, + "loss": 0.4602, + "step": 3538 + }, + { + "epoch": 1.1796666666666666, + "grad_norm": 1.6364351511001587, + "learning_rate": 1.5203473741912737e-05, + "loss": 0.399, + "step": 3539 + }, + { + "epoch": 1.18, + "grad_norm": 2.1704132556915283, + "learning_rate": 1.5200161279292154e-05, + "loss": 0.4007, + "step": 3540 + }, + { + "epoch": 1.1803333333333335, + "grad_norm": 2.410813093185425, + "learning_rate": 1.5196848034419876e-05, + "loss": 0.507, + "step": 3541 + }, + { + "epoch": 1.1806666666666668, + "grad_norm": 1.9721314907073975, + "learning_rate": 1.5193534007794303e-05, + "loss": 0.4708, + "step": 3542 + }, + { + "epoch": 1.181, + "grad_norm": 1.928574800491333, + "learning_rate": 1.5190219199913956e-05, + "loss": 0.4446, + "step": 3543 + }, + { + "epoch": 1.1813333333333333, + "grad_norm": 2.181241512298584, + "learning_rate": 1.5186903611277486e-05, + "loss": 0.5077, + "step": 3544 + }, + { + "epoch": 1.1816666666666666, + "grad_norm": 2.0305142402648926, + "learning_rate": 1.5183587242383639e-05, + "loss": 0.4766, + "step": 3545 + }, + { + "epoch": 1.182, + "grad_norm": 2.3674089908599854, + "learning_rate": 1.5180270093731305e-05, + "loss": 0.4663, + "step": 3546 + }, + { + "epoch": 1.1823333333333332, + "grad_norm": 2.3479859828948975, + "learning_rate": 1.5176952165819465e-05, + "loss": 0.493, + "step": 3547 + }, + { + "epoch": 1.1826666666666668, + "grad_norm": 1.911966323852539, + "learning_rate": 1.5173633459147235e-05, + "loss": 0.4769, + "step": 3548 + }, + { + "epoch": 1.183, + "grad_norm": 2.027218818664551, + "learning_rate": 1.5170313974213841e-05, + "loss": 0.4407, + "step": 3549 + }, + { + "epoch": 1.1833333333333333, + "grad_norm": 1.8829259872436523, + "learning_rate": 1.5166993711518631e-05, + "loss": 0.4789, + "step": 3550 + }, + { + "epoch": 1.1836666666666666, + "grad_norm": 2.1745169162750244, + "learning_rate": 1.5163672671561065e-05, + "loss": 0.4621, + "step": 3551 + }, + { + "epoch": 1.184, + "grad_norm": 1.6477388143539429, + "learning_rate": 1.5160350854840715e-05, + "loss": 0.4455, + "step": 3552 + }, + { + "epoch": 1.1843333333333332, + "grad_norm": 1.9569541215896606, + "learning_rate": 1.5157028261857285e-05, + "loss": 0.4711, + "step": 3553 + }, + { + "epoch": 1.1846666666666668, + "grad_norm": 2.750669002532959, + "learning_rate": 1.5153704893110584e-05, + "loss": 0.4808, + "step": 3554 + }, + { + "epoch": 1.185, + "grad_norm": 3.8058793544769287, + "learning_rate": 1.5150380749100545e-05, + "loss": 0.4471, + "step": 3555 + }, + { + "epoch": 1.1853333333333333, + "grad_norm": 2.382453441619873, + "learning_rate": 1.5147055830327206e-05, + "loss": 0.4796, + "step": 3556 + }, + { + "epoch": 1.1856666666666666, + "grad_norm": 2.5921995639801025, + "learning_rate": 1.5143730137290731e-05, + "loss": 0.4965, + "step": 3557 + }, + { + "epoch": 1.186, + "grad_norm": 1.722122311592102, + "learning_rate": 1.5140403670491406e-05, + "loss": 0.462, + "step": 3558 + }, + { + "epoch": 1.1863333333333332, + "grad_norm": 1.9912775754928589, + "learning_rate": 1.5137076430429613e-05, + "loss": 0.436, + "step": 3559 + }, + { + "epoch": 1.1866666666666668, + "grad_norm": 2.0386147499084473, + "learning_rate": 1.5133748417605878e-05, + "loss": 0.4415, + "step": 3560 + }, + { + "epoch": 1.187, + "grad_norm": 2.191254138946533, + "learning_rate": 1.5130419632520814e-05, + "loss": 0.4469, + "step": 3561 + }, + { + "epoch": 1.1873333333333334, + "grad_norm": 1.6077723503112793, + "learning_rate": 1.5127090075675174e-05, + "loss": 0.452, + "step": 3562 + }, + { + "epoch": 1.1876666666666666, + "grad_norm": 2.1708269119262695, + "learning_rate": 1.5123759747569819e-05, + "loss": 0.476, + "step": 3563 + }, + { + "epoch": 1.188, + "grad_norm": 2.2840797901153564, + "learning_rate": 1.5120428648705716e-05, + "loss": 0.4802, + "step": 3564 + }, + { + "epoch": 1.1883333333333332, + "grad_norm": 2.030975341796875, + "learning_rate": 1.5117096779583966e-05, + "loss": 0.4428, + "step": 3565 + }, + { + "epoch": 1.1886666666666668, + "grad_norm": 2.1888039112091064, + "learning_rate": 1.5113764140705768e-05, + "loss": 0.498, + "step": 3566 + }, + { + "epoch": 1.189, + "grad_norm": 2.017178535461426, + "learning_rate": 1.5110430732572454e-05, + "loss": 0.4351, + "step": 3567 + }, + { + "epoch": 1.1893333333333334, + "grad_norm": 2.1237940788269043, + "learning_rate": 1.5107096555685457e-05, + "loss": 0.4503, + "step": 3568 + }, + { + "epoch": 1.1896666666666667, + "grad_norm": 1.929861068725586, + "learning_rate": 1.5103761610546333e-05, + "loss": 0.4185, + "step": 3569 + }, + { + "epoch": 1.19, + "grad_norm": 2.5818052291870117, + "learning_rate": 1.5100425897656754e-05, + "loss": 0.4585, + "step": 3570 + }, + { + "epoch": 1.1903333333333332, + "grad_norm": 2.277862787246704, + "learning_rate": 1.5097089417518504e-05, + "loss": 0.4624, + "step": 3571 + }, + { + "epoch": 1.1906666666666668, + "grad_norm": 2.9524636268615723, + "learning_rate": 1.5093752170633486e-05, + "loss": 0.4335, + "step": 3572 + }, + { + "epoch": 1.191, + "grad_norm": 1.8573235273361206, + "learning_rate": 1.5090414157503715e-05, + "loss": 0.4563, + "step": 3573 + }, + { + "epoch": 1.1913333333333334, + "grad_norm": 2.5362563133239746, + "learning_rate": 1.5087075378631322e-05, + "loss": 0.4726, + "step": 3574 + }, + { + "epoch": 1.1916666666666667, + "grad_norm": 2.094550371170044, + "learning_rate": 1.5083735834518556e-05, + "loss": 0.4207, + "step": 3575 + }, + { + "epoch": 1.192, + "grad_norm": 1.8888705968856812, + "learning_rate": 1.508039552566778e-05, + "loss": 0.4829, + "step": 3576 + }, + { + "epoch": 1.1923333333333332, + "grad_norm": 1.9449268579483032, + "learning_rate": 1.507705445258147e-05, + "loss": 0.4413, + "step": 3577 + }, + { + "epoch": 1.1926666666666668, + "grad_norm": 3.2390925884246826, + "learning_rate": 1.5073712615762213e-05, + "loss": 0.4435, + "step": 3578 + }, + { + "epoch": 1.193, + "grad_norm": 2.3805816173553467, + "learning_rate": 1.5070370015712727e-05, + "loss": 0.4756, + "step": 3579 + }, + { + "epoch": 1.1933333333333334, + "grad_norm": 2.069995641708374, + "learning_rate": 1.5067026652935823e-05, + "loss": 0.4361, + "step": 3580 + }, + { + "epoch": 1.1936666666666667, + "grad_norm": 2.105062484741211, + "learning_rate": 1.5063682527934445e-05, + "loss": 0.4667, + "step": 3581 + }, + { + "epoch": 1.194, + "grad_norm": 2.127288579940796, + "learning_rate": 1.5060337641211637e-05, + "loss": 0.4823, + "step": 3582 + }, + { + "epoch": 1.1943333333333332, + "grad_norm": 2.0246832370758057, + "learning_rate": 1.5056991993270575e-05, + "loss": 0.4646, + "step": 3583 + }, + { + "epoch": 1.1946666666666665, + "grad_norm": 1.827953577041626, + "learning_rate": 1.5053645584614533e-05, + "loss": 0.496, + "step": 3584 + }, + { + "epoch": 1.195, + "grad_norm": 1.772531509399414, + "learning_rate": 1.5050298415746903e-05, + "loss": 0.4473, + "step": 3585 + }, + { + "epoch": 1.1953333333333334, + "grad_norm": 2.0129735469818115, + "learning_rate": 1.5046950487171196e-05, + "loss": 0.4219, + "step": 3586 + }, + { + "epoch": 1.1956666666666667, + "grad_norm": 1.7051286697387695, + "learning_rate": 1.504360179939104e-05, + "loss": 0.4689, + "step": 3587 + }, + { + "epoch": 1.196, + "grad_norm": 1.79444420337677, + "learning_rate": 1.5040252352910168e-05, + "loss": 0.4356, + "step": 3588 + }, + { + "epoch": 1.1963333333333332, + "grad_norm": 2.1506145000457764, + "learning_rate": 1.5036902148232433e-05, + "loss": 0.482, + "step": 3589 + }, + { + "epoch": 1.1966666666666668, + "grad_norm": 2.289778470993042, + "learning_rate": 1.50335511858618e-05, + "loss": 0.4337, + "step": 3590 + }, + { + "epoch": 1.197, + "grad_norm": 2.184636354446411, + "learning_rate": 1.5030199466302354e-05, + "loss": 0.4696, + "step": 3591 + }, + { + "epoch": 1.1973333333333334, + "grad_norm": 1.8214219808578491, + "learning_rate": 1.502684699005828e-05, + "loss": 0.4439, + "step": 3592 + }, + { + "epoch": 1.1976666666666667, + "grad_norm": 2.2887167930603027, + "learning_rate": 1.5023493757633888e-05, + "loss": 0.4222, + "step": 3593 + }, + { + "epoch": 1.198, + "grad_norm": 1.6604251861572266, + "learning_rate": 1.5020139769533604e-05, + "loss": 0.4367, + "step": 3594 + }, + { + "epoch": 1.1983333333333333, + "grad_norm": 2.4130353927612305, + "learning_rate": 1.5016785026261959e-05, + "loss": 0.4471, + "step": 3595 + }, + { + "epoch": 1.1986666666666665, + "grad_norm": 2.058225154876709, + "learning_rate": 1.5013429528323603e-05, + "loss": 0.4154, + "step": 3596 + }, + { + "epoch": 1.199, + "grad_norm": 2.4377431869506836, + "learning_rate": 1.5010073276223295e-05, + "loss": 0.4557, + "step": 3597 + }, + { + "epoch": 1.1993333333333334, + "grad_norm": 2.086317300796509, + "learning_rate": 1.5006716270465918e-05, + "loss": 0.446, + "step": 3598 + }, + { + "epoch": 1.1996666666666667, + "grad_norm": 1.7972038984298706, + "learning_rate": 1.5003358511556449e-05, + "loss": 0.4834, + "step": 3599 + }, + { + "epoch": 1.2, + "grad_norm": 1.8591723442077637, + "learning_rate": 1.5000000000000002e-05, + "loss": 0.4809, + "step": 3600 + }, + { + "epoch": 1.2003333333333333, + "grad_norm": 1.9653589725494385, + "learning_rate": 1.4996640736301784e-05, + "loss": 0.4742, + "step": 3601 + }, + { + "epoch": 1.2006666666666668, + "grad_norm": 1.9049458503723145, + "learning_rate": 1.4993280720967129e-05, + "loss": 0.4464, + "step": 3602 + }, + { + "epoch": 1.201, + "grad_norm": 2.4859068393707275, + "learning_rate": 1.4989919954501474e-05, + "loss": 0.4797, + "step": 3603 + }, + { + "epoch": 1.2013333333333334, + "grad_norm": 2.084995985031128, + "learning_rate": 1.4986558437410379e-05, + "loss": 0.5056, + "step": 3604 + }, + { + "epoch": 1.2016666666666667, + "grad_norm": 2.054882049560547, + "learning_rate": 1.4983196170199505e-05, + "loss": 0.4044, + "step": 3605 + }, + { + "epoch": 1.202, + "grad_norm": 1.9648844003677368, + "learning_rate": 1.4979833153374636e-05, + "loss": 0.4927, + "step": 3606 + }, + { + "epoch": 1.2023333333333333, + "grad_norm": 2.058539867401123, + "learning_rate": 1.4976469387441666e-05, + "loss": 0.4355, + "step": 3607 + }, + { + "epoch": 1.2026666666666666, + "grad_norm": 1.6504617929458618, + "learning_rate": 1.49731048729066e-05, + "loss": 0.4578, + "step": 3608 + }, + { + "epoch": 1.203, + "grad_norm": 1.770723819732666, + "learning_rate": 1.4969739610275556e-05, + "loss": 0.4399, + "step": 3609 + }, + { + "epoch": 1.2033333333333334, + "grad_norm": 1.9510291814804077, + "learning_rate": 1.4966373600054763e-05, + "loss": 0.4315, + "step": 3610 + }, + { + "epoch": 1.2036666666666667, + "grad_norm": 2.00298810005188, + "learning_rate": 1.4963006842750564e-05, + "loss": 0.4729, + "step": 3611 + }, + { + "epoch": 1.204, + "grad_norm": 1.933251976966858, + "learning_rate": 1.4959639338869423e-05, + "loss": 0.4786, + "step": 3612 + }, + { + "epoch": 1.2043333333333333, + "grad_norm": 1.8344179391860962, + "learning_rate": 1.4956271088917897e-05, + "loss": 0.4986, + "step": 3613 + }, + { + "epoch": 1.2046666666666668, + "grad_norm": 1.7013663053512573, + "learning_rate": 1.4952902093402675e-05, + "loss": 0.4459, + "step": 3614 + }, + { + "epoch": 1.205, + "grad_norm": 2.8047614097595215, + "learning_rate": 1.4949532352830543e-05, + "loss": 0.4244, + "step": 3615 + }, + { + "epoch": 1.2053333333333334, + "grad_norm": 1.8989795446395874, + "learning_rate": 1.494616186770841e-05, + "loss": 0.4323, + "step": 3616 + }, + { + "epoch": 1.2056666666666667, + "grad_norm": 1.8184815645217896, + "learning_rate": 1.494279063854329e-05, + "loss": 0.4127, + "step": 3617 + }, + { + "epoch": 1.206, + "grad_norm": 2.1310389041900635, + "learning_rate": 1.493941866584231e-05, + "loss": 0.4571, + "step": 3618 + }, + { + "epoch": 1.2063333333333333, + "grad_norm": 1.9125585556030273, + "learning_rate": 1.4936045950112714e-05, + "loss": 0.4871, + "step": 3619 + }, + { + "epoch": 1.2066666666666666, + "grad_norm": 1.7435959577560425, + "learning_rate": 1.4932672491861855e-05, + "loss": 0.4894, + "step": 3620 + }, + { + "epoch": 1.207, + "grad_norm": 1.7435431480407715, + "learning_rate": 1.4929298291597195e-05, + "loss": 0.4529, + "step": 3621 + }, + { + "epoch": 1.2073333333333334, + "grad_norm": 1.6941876411437988, + "learning_rate": 1.4925923349826303e-05, + "loss": 0.4614, + "step": 3622 + }, + { + "epoch": 1.2076666666666667, + "grad_norm": 2.28096079826355, + "learning_rate": 1.4922547667056877e-05, + "loss": 0.4248, + "step": 3623 + }, + { + "epoch": 1.208, + "grad_norm": 2.40734601020813, + "learning_rate": 1.4919171243796706e-05, + "loss": 0.4429, + "step": 3624 + }, + { + "epoch": 1.2083333333333333, + "grad_norm": 2.7983877658843994, + "learning_rate": 1.4915794080553706e-05, + "loss": 0.4505, + "step": 3625 + }, + { + "epoch": 1.2086666666666668, + "grad_norm": 2.147287368774414, + "learning_rate": 1.4912416177835897e-05, + "loss": 0.494, + "step": 3626 + }, + { + "epoch": 1.209, + "grad_norm": 2.989819288253784, + "learning_rate": 1.490903753615141e-05, + "loss": 0.5107, + "step": 3627 + }, + { + "epoch": 1.2093333333333334, + "grad_norm": 1.8779916763305664, + "learning_rate": 1.4905658156008489e-05, + "loss": 0.4579, + "step": 3628 + }, + { + "epoch": 1.2096666666666667, + "grad_norm": 1.9703369140625, + "learning_rate": 1.4902278037915485e-05, + "loss": 0.4409, + "step": 3629 + }, + { + "epoch": 1.21, + "grad_norm": 2.1699440479278564, + "learning_rate": 1.4898897182380872e-05, + "loss": 0.4697, + "step": 3630 + }, + { + "epoch": 1.2103333333333333, + "grad_norm": 1.941283941268921, + "learning_rate": 1.4895515589913219e-05, + "loss": 0.4469, + "step": 3631 + }, + { + "epoch": 1.2106666666666666, + "grad_norm": 2.6715972423553467, + "learning_rate": 1.4892133261021217e-05, + "loss": 0.4842, + "step": 3632 + }, + { + "epoch": 1.211, + "grad_norm": 2.481964349746704, + "learning_rate": 1.4888750196213661e-05, + "loss": 0.4211, + "step": 3633 + }, + { + "epoch": 1.2113333333333334, + "grad_norm": 1.8403793573379517, + "learning_rate": 1.4885366395999463e-05, + "loss": 0.4465, + "step": 3634 + }, + { + "epoch": 1.2116666666666667, + "grad_norm": 1.7884855270385742, + "learning_rate": 1.4881981860887642e-05, + "loss": 0.4264, + "step": 3635 + }, + { + "epoch": 1.212, + "grad_norm": 2.5508358478546143, + "learning_rate": 1.4878596591387329e-05, + "loss": 0.4397, + "step": 3636 + }, + { + "epoch": 1.2123333333333333, + "grad_norm": 2.6540191173553467, + "learning_rate": 1.4875210588007763e-05, + "loss": 0.4949, + "step": 3637 + }, + { + "epoch": 1.2126666666666668, + "grad_norm": 2.708523750305176, + "learning_rate": 1.4871823851258292e-05, + "loss": 0.4485, + "step": 3638 + }, + { + "epoch": 1.213, + "grad_norm": 2.3964951038360596, + "learning_rate": 1.486843638164838e-05, + "loss": 0.4331, + "step": 3639 + }, + { + "epoch": 1.2133333333333334, + "grad_norm": 2.6637842655181885, + "learning_rate": 1.48650481796876e-05, + "loss": 0.4448, + "step": 3640 + }, + { + "epoch": 1.2136666666666667, + "grad_norm": 2.1158931255340576, + "learning_rate": 1.4861659245885633e-05, + "loss": 0.4719, + "step": 3641 + }, + { + "epoch": 1.214, + "grad_norm": 1.7911992073059082, + "learning_rate": 1.4858269580752272e-05, + "loss": 0.4661, + "step": 3642 + }, + { + "epoch": 1.2143333333333333, + "grad_norm": 2.66974139213562, + "learning_rate": 1.4854879184797413e-05, + "loss": 0.4701, + "step": 3643 + }, + { + "epoch": 1.2146666666666666, + "grad_norm": 1.8872348070144653, + "learning_rate": 1.4851488058531072e-05, + "loss": 0.4828, + "step": 3644 + }, + { + "epoch": 1.215, + "grad_norm": 2.1442298889160156, + "learning_rate": 1.4848096202463373e-05, + "loss": 0.436, + "step": 3645 + }, + { + "epoch": 1.2153333333333334, + "grad_norm": 1.947938323020935, + "learning_rate": 1.4844703617104541e-05, + "loss": 0.4205, + "step": 3646 + }, + { + "epoch": 1.2156666666666667, + "grad_norm": 1.7558131217956543, + "learning_rate": 1.4841310302964922e-05, + "loss": 0.48, + "step": 3647 + }, + { + "epoch": 1.216, + "grad_norm": 1.987143635749817, + "learning_rate": 1.4837916260554966e-05, + "loss": 0.4217, + "step": 3648 + }, + { + "epoch": 1.2163333333333333, + "grad_norm": 2.325270891189575, + "learning_rate": 1.483452149038523e-05, + "loss": 0.4519, + "step": 3649 + }, + { + "epoch": 1.2166666666666668, + "grad_norm": 2.3550095558166504, + "learning_rate": 1.4831125992966386e-05, + "loss": 0.491, + "step": 3650 + }, + { + "epoch": 1.217, + "grad_norm": 1.8783644437789917, + "learning_rate": 1.4827729768809215e-05, + "loss": 0.475, + "step": 3651 + }, + { + "epoch": 1.2173333333333334, + "grad_norm": 1.8205156326293945, + "learning_rate": 1.48243328184246e-05, + "loss": 0.4397, + "step": 3652 + }, + { + "epoch": 1.2176666666666667, + "grad_norm": 1.7389907836914062, + "learning_rate": 1.4820935142323544e-05, + "loss": 0.4561, + "step": 3653 + }, + { + "epoch": 1.218, + "grad_norm": 1.867498755455017, + "learning_rate": 1.4817536741017153e-05, + "loss": 0.4771, + "step": 3654 + }, + { + "epoch": 1.2183333333333333, + "grad_norm": 1.667130708694458, + "learning_rate": 1.4814137615016644e-05, + "loss": 0.4626, + "step": 3655 + }, + { + "epoch": 1.2186666666666666, + "grad_norm": 1.6476634740829468, + "learning_rate": 1.4810737764833336e-05, + "loss": 0.4436, + "step": 3656 + }, + { + "epoch": 1.219, + "grad_norm": 2.449219226837158, + "learning_rate": 1.4807337190978666e-05, + "loss": 0.4498, + "step": 3657 + }, + { + "epoch": 1.2193333333333334, + "grad_norm": 2.2484216690063477, + "learning_rate": 1.4803935893964178e-05, + "loss": 0.4307, + "step": 3658 + }, + { + "epoch": 1.2196666666666667, + "grad_norm": 2.0355112552642822, + "learning_rate": 1.4800533874301523e-05, + "loss": 0.4632, + "step": 3659 + }, + { + "epoch": 1.22, + "grad_norm": 2.0813279151916504, + "learning_rate": 1.4797131132502464e-05, + "loss": 0.4696, + "step": 3660 + }, + { + "epoch": 1.2203333333333333, + "grad_norm": 2.5972859859466553, + "learning_rate": 1.4793727669078863e-05, + "loss": 0.4725, + "step": 3661 + }, + { + "epoch": 1.2206666666666668, + "grad_norm": 2.191145658493042, + "learning_rate": 1.4790323484542703e-05, + "loss": 0.4385, + "step": 3662 + }, + { + "epoch": 1.221, + "grad_norm": 3.4031031131744385, + "learning_rate": 1.478691857940607e-05, + "loss": 0.448, + "step": 3663 + }, + { + "epoch": 1.2213333333333334, + "grad_norm": 2.197817087173462, + "learning_rate": 1.4783512954181154e-05, + "loss": 0.4427, + "step": 3664 + }, + { + "epoch": 1.2216666666666667, + "grad_norm": 2.050992727279663, + "learning_rate": 1.4780106609380262e-05, + "loss": 0.4651, + "step": 3665 + }, + { + "epoch": 1.222, + "grad_norm": 2.1310930252075195, + "learning_rate": 1.47766995455158e-05, + "loss": 0.4712, + "step": 3666 + }, + { + "epoch": 1.2223333333333333, + "grad_norm": 2.7889418601989746, + "learning_rate": 1.477329176310029e-05, + "loss": 0.4396, + "step": 3667 + }, + { + "epoch": 1.2226666666666666, + "grad_norm": 2.0394392013549805, + "learning_rate": 1.4769883262646361e-05, + "loss": 0.4892, + "step": 3668 + }, + { + "epoch": 1.223, + "grad_norm": 2.9903664588928223, + "learning_rate": 1.4766474044666748e-05, + "loss": 0.4652, + "step": 3669 + }, + { + "epoch": 1.2233333333333334, + "grad_norm": 2.177185535430908, + "learning_rate": 1.476306410967429e-05, + "loss": 0.4384, + "step": 3670 + }, + { + "epoch": 1.2236666666666667, + "grad_norm": 1.7835633754730225, + "learning_rate": 1.4759653458181937e-05, + "loss": 0.4214, + "step": 3671 + }, + { + "epoch": 1.224, + "grad_norm": 3.912917375564575, + "learning_rate": 1.4756242090702756e-05, + "loss": 0.4727, + "step": 3672 + }, + { + "epoch": 1.2243333333333333, + "grad_norm": 2.6304516792297363, + "learning_rate": 1.4752830007749902e-05, + "loss": 0.4688, + "step": 3673 + }, + { + "epoch": 1.2246666666666666, + "grad_norm": 1.8166626691818237, + "learning_rate": 1.4749417209836661e-05, + "loss": 0.4485, + "step": 3674 + }, + { + "epoch": 1.225, + "grad_norm": 2.120305061340332, + "learning_rate": 1.4746003697476406e-05, + "loss": 0.4813, + "step": 3675 + }, + { + "epoch": 1.2253333333333334, + "grad_norm": 1.868691086769104, + "learning_rate": 1.474258947118263e-05, + "loss": 0.4147, + "step": 3676 + }, + { + "epoch": 1.2256666666666667, + "grad_norm": 2.1171715259552, + "learning_rate": 1.4739174531468927e-05, + "loss": 0.4737, + "step": 3677 + }, + { + "epoch": 1.226, + "grad_norm": 2.1783864498138428, + "learning_rate": 1.4735758878849e-05, + "loss": 0.4633, + "step": 3678 + }, + { + "epoch": 1.2263333333333333, + "grad_norm": 2.4301016330718994, + "learning_rate": 1.4732342513836669e-05, + "loss": 0.4663, + "step": 3679 + }, + { + "epoch": 1.2266666666666666, + "grad_norm": 2.3221025466918945, + "learning_rate": 1.4728925436945838e-05, + "loss": 0.438, + "step": 3680 + }, + { + "epoch": 1.227, + "grad_norm": 1.9430309534072876, + "learning_rate": 1.4725507648690542e-05, + "loss": 0.4088, + "step": 3681 + }, + { + "epoch": 1.2273333333333334, + "grad_norm": 2.2006943225860596, + "learning_rate": 1.4722089149584908e-05, + "loss": 0.4385, + "step": 3682 + }, + { + "epoch": 1.2276666666666667, + "grad_norm": 2.301147699356079, + "learning_rate": 1.4718669940143182e-05, + "loss": 0.4716, + "step": 3683 + }, + { + "epoch": 1.228, + "grad_norm": 2.3663859367370605, + "learning_rate": 1.4715250020879705e-05, + "loss": 0.4298, + "step": 3684 + }, + { + "epoch": 1.2283333333333333, + "grad_norm": 1.916046380996704, + "learning_rate": 1.471182939230893e-05, + "loss": 0.4214, + "step": 3685 + }, + { + "epoch": 1.2286666666666666, + "grad_norm": 2.031867504119873, + "learning_rate": 1.4708408054945418e-05, + "loss": 0.4472, + "step": 3686 + }, + { + "epoch": 1.229, + "grad_norm": 3.3008291721343994, + "learning_rate": 1.4704986009303833e-05, + "loss": 0.4462, + "step": 3687 + }, + { + "epoch": 1.2293333333333334, + "grad_norm": 3.5394821166992188, + "learning_rate": 1.470156325589895e-05, + "loss": 0.4665, + "step": 3688 + }, + { + "epoch": 1.2296666666666667, + "grad_norm": 2.119612693786621, + "learning_rate": 1.4698139795245645e-05, + "loss": 0.4151, + "step": 3689 + }, + { + "epoch": 1.23, + "grad_norm": 2.26462984085083, + "learning_rate": 1.469471562785891e-05, + "loss": 0.4543, + "step": 3690 + }, + { + "epoch": 1.2303333333333333, + "grad_norm": 1.9806493520736694, + "learning_rate": 1.469129075425383e-05, + "loss": 0.4925, + "step": 3691 + }, + { + "epoch": 1.2306666666666666, + "grad_norm": 2.292172908782959, + "learning_rate": 1.4687865174945605e-05, + "loss": 0.4673, + "step": 3692 + }, + { + "epoch": 1.231, + "grad_norm": 2.7065231800079346, + "learning_rate": 1.4684438890449542e-05, + "loss": 0.4674, + "step": 3693 + }, + { + "epoch": 1.2313333333333334, + "grad_norm": 2.047373056411743, + "learning_rate": 1.4681011901281048e-05, + "loss": 0.4433, + "step": 3694 + }, + { + "epoch": 1.2316666666666667, + "grad_norm": 2.11812162399292, + "learning_rate": 1.4677584207955641e-05, + "loss": 0.4376, + "step": 3695 + }, + { + "epoch": 1.232, + "grad_norm": 1.7150847911834717, + "learning_rate": 1.4674155810988944e-05, + "loss": 0.4402, + "step": 3696 + }, + { + "epoch": 1.2323333333333333, + "grad_norm": 4.223010063171387, + "learning_rate": 1.4670726710896683e-05, + "loss": 0.437, + "step": 3697 + }, + { + "epoch": 1.2326666666666666, + "grad_norm": 1.8054052591323853, + "learning_rate": 1.4667296908194694e-05, + "loss": 0.426, + "step": 3698 + }, + { + "epoch": 1.233, + "grad_norm": 1.7131661176681519, + "learning_rate": 1.4663866403398915e-05, + "loss": 0.4487, + "step": 3699 + }, + { + "epoch": 1.2333333333333334, + "grad_norm": 2.057929754257202, + "learning_rate": 1.4660435197025391e-05, + "loss": 0.4488, + "step": 3700 + }, + { + "epoch": 1.2336666666666667, + "grad_norm": 2.069866895675659, + "learning_rate": 1.4657003289590272e-05, + "loss": 0.4525, + "step": 3701 + }, + { + "epoch": 1.234, + "grad_norm": 2.2197883129119873, + "learning_rate": 1.4653570681609816e-05, + "loss": 0.4761, + "step": 3702 + }, + { + "epoch": 1.2343333333333333, + "grad_norm": 2.6874849796295166, + "learning_rate": 1.4650137373600388e-05, + "loss": 0.4568, + "step": 3703 + }, + { + "epoch": 1.2346666666666666, + "grad_norm": 2.1824657917022705, + "learning_rate": 1.4646703366078448e-05, + "loss": 0.4751, + "step": 3704 + }, + { + "epoch": 1.2349999999999999, + "grad_norm": 2.2965822219848633, + "learning_rate": 1.4643268659560571e-05, + "loss": 0.4662, + "step": 3705 + }, + { + "epoch": 1.2353333333333334, + "grad_norm": 2.0602924823760986, + "learning_rate": 1.4639833254563435e-05, + "loss": 0.4348, + "step": 3706 + }, + { + "epoch": 1.2356666666666667, + "grad_norm": 2.475106954574585, + "learning_rate": 1.4636397151603823e-05, + "loss": 0.4584, + "step": 3707 + }, + { + "epoch": 1.236, + "grad_norm": 2.2526919841766357, + "learning_rate": 1.463296035119862e-05, + "loss": 0.4726, + "step": 3708 + }, + { + "epoch": 1.2363333333333333, + "grad_norm": 1.5288777351379395, + "learning_rate": 1.4629522853864816e-05, + "loss": 0.4346, + "step": 3709 + }, + { + "epoch": 1.2366666666666666, + "grad_norm": 2.2367608547210693, + "learning_rate": 1.4626084660119515e-05, + "loss": 0.4046, + "step": 3710 + }, + { + "epoch": 1.237, + "grad_norm": 1.7246630191802979, + "learning_rate": 1.4622645770479915e-05, + "loss": 0.488, + "step": 3711 + }, + { + "epoch": 1.2373333333333334, + "grad_norm": 2.2492902278900146, + "learning_rate": 1.4619206185463322e-05, + "loss": 0.4582, + "step": 3712 + }, + { + "epoch": 1.2376666666666667, + "grad_norm": 1.8328876495361328, + "learning_rate": 1.461576590558715e-05, + "loss": 0.4882, + "step": 3713 + }, + { + "epoch": 1.238, + "grad_norm": 1.747689962387085, + "learning_rate": 1.4612324931368909e-05, + "loss": 0.4189, + "step": 3714 + }, + { + "epoch": 1.2383333333333333, + "grad_norm": 1.784241795539856, + "learning_rate": 1.4608883263326221e-05, + "loss": 0.4575, + "step": 3715 + }, + { + "epoch": 1.2386666666666666, + "grad_norm": 2.347734212875366, + "learning_rate": 1.4605440901976815e-05, + "loss": 0.4859, + "step": 3716 + }, + { + "epoch": 1.2389999999999999, + "grad_norm": 2.2694778442382812, + "learning_rate": 1.4601997847838518e-05, + "loss": 0.48, + "step": 3717 + }, + { + "epoch": 1.2393333333333334, + "grad_norm": 1.786476492881775, + "learning_rate": 1.4598554101429262e-05, + "loss": 0.4634, + "step": 3718 + }, + { + "epoch": 1.2396666666666667, + "grad_norm": 2.7530524730682373, + "learning_rate": 1.4595109663267079e-05, + "loss": 0.4679, + "step": 3719 + }, + { + "epoch": 1.24, + "grad_norm": 1.9182621240615845, + "learning_rate": 1.4591664533870118e-05, + "loss": 0.4224, + "step": 3720 + }, + { + "epoch": 1.2403333333333333, + "grad_norm": 2.129664659500122, + "learning_rate": 1.458821871375662e-05, + "loss": 0.461, + "step": 3721 + }, + { + "epoch": 1.2406666666666666, + "grad_norm": 2.272054672241211, + "learning_rate": 1.4584772203444937e-05, + "loss": 0.4315, + "step": 3722 + }, + { + "epoch": 1.241, + "grad_norm": 1.7678719758987427, + "learning_rate": 1.458132500345352e-05, + "loss": 0.3895, + "step": 3723 + }, + { + "epoch": 1.2413333333333334, + "grad_norm": 2.4902756214141846, + "learning_rate": 1.457787711430092e-05, + "loss": 0.4691, + "step": 3724 + }, + { + "epoch": 1.2416666666666667, + "grad_norm": 2.462686777114868, + "learning_rate": 1.4574428536505809e-05, + "loss": 0.429, + "step": 3725 + }, + { + "epoch": 1.242, + "grad_norm": 2.366212844848633, + "learning_rate": 1.4570979270586944e-05, + "loss": 0.4694, + "step": 3726 + }, + { + "epoch": 1.2423333333333333, + "grad_norm": 2.153597831726074, + "learning_rate": 1.4567529317063192e-05, + "loss": 0.44, + "step": 3727 + }, + { + "epoch": 1.2426666666666666, + "grad_norm": 1.8893499374389648, + "learning_rate": 1.4564078676453525e-05, + "loss": 0.4465, + "step": 3728 + }, + { + "epoch": 1.2429999999999999, + "grad_norm": 2.1075279712677, + "learning_rate": 1.4560627349277017e-05, + "loss": 0.4551, + "step": 3729 + }, + { + "epoch": 1.2433333333333334, + "grad_norm": 3.023179054260254, + "learning_rate": 1.4557175336052844e-05, + "loss": 0.4863, + "step": 3730 + }, + { + "epoch": 1.2436666666666667, + "grad_norm": 2.2716166973114014, + "learning_rate": 1.4553722637300291e-05, + "loss": 0.4496, + "step": 3731 + }, + { + "epoch": 1.244, + "grad_norm": 1.8751100301742554, + "learning_rate": 1.4550269253538739e-05, + "loss": 0.445, + "step": 3732 + }, + { + "epoch": 1.2443333333333333, + "grad_norm": 2.279985189437866, + "learning_rate": 1.4546815185287673e-05, + "loss": 0.4831, + "step": 3733 + }, + { + "epoch": 1.2446666666666666, + "grad_norm": 2.0033695697784424, + "learning_rate": 1.4543360433066686e-05, + "loss": 0.4253, + "step": 3734 + }, + { + "epoch": 1.245, + "grad_norm": 2.29156494140625, + "learning_rate": 1.4539904997395468e-05, + "loss": 0.3978, + "step": 3735 + }, + { + "epoch": 1.2453333333333334, + "grad_norm": 2.602569818496704, + "learning_rate": 1.4536448878793818e-05, + "loss": 0.4488, + "step": 3736 + }, + { + "epoch": 1.2456666666666667, + "grad_norm": 1.8897285461425781, + "learning_rate": 1.453299207778163e-05, + "loss": 0.4372, + "step": 3737 + }, + { + "epoch": 1.246, + "grad_norm": 2.1228818893432617, + "learning_rate": 1.452953459487891e-05, + "loss": 0.407, + "step": 3738 + }, + { + "epoch": 1.2463333333333333, + "grad_norm": 2.2467358112335205, + "learning_rate": 1.4526076430605756e-05, + "loss": 0.4717, + "step": 3739 + }, + { + "epoch": 1.2466666666666666, + "grad_norm": 1.891943335533142, + "learning_rate": 1.4522617585482377e-05, + "loss": 0.4636, + "step": 3740 + }, + { + "epoch": 1.2469999999999999, + "grad_norm": 1.7859731912612915, + "learning_rate": 1.4519158060029081e-05, + "loss": 0.4587, + "step": 3741 + }, + { + "epoch": 1.2473333333333334, + "grad_norm": 2.093454122543335, + "learning_rate": 1.451569785476628e-05, + "loss": 0.4742, + "step": 3742 + }, + { + "epoch": 1.2476666666666667, + "grad_norm": 2.1724143028259277, + "learning_rate": 1.4512236970214484e-05, + "loss": 0.4516, + "step": 3743 + }, + { + "epoch": 1.248, + "grad_norm": 1.8144965171813965, + "learning_rate": 1.4508775406894308e-05, + "loss": 0.4561, + "step": 3744 + }, + { + "epoch": 1.2483333333333333, + "grad_norm": 2.027216911315918, + "learning_rate": 1.4505313165326473e-05, + "loss": 0.4697, + "step": 3745 + }, + { + "epoch": 1.2486666666666666, + "grad_norm": 2.0910820960998535, + "learning_rate": 1.4501850246031796e-05, + "loss": 0.3922, + "step": 3746 + }, + { + "epoch": 1.249, + "grad_norm": 1.8312132358551025, + "learning_rate": 1.4498386649531198e-05, + "loss": 0.4047, + "step": 3747 + }, + { + "epoch": 1.2493333333333334, + "grad_norm": 1.9607402086257935, + "learning_rate": 1.4494922376345704e-05, + "loss": 0.4521, + "step": 3748 + }, + { + "epoch": 1.2496666666666667, + "grad_norm": 2.07328724861145, + "learning_rate": 1.4491457426996438e-05, + "loss": 0.4267, + "step": 3749 + }, + { + "epoch": 1.25, + "grad_norm": 1.956960916519165, + "learning_rate": 1.4487991802004625e-05, + "loss": 0.4607, + "step": 3750 + }, + { + "epoch": 1.2503333333333333, + "grad_norm": 1.8556407690048218, + "learning_rate": 1.4484525501891594e-05, + "loss": 0.4264, + "step": 3751 + }, + { + "epoch": 1.2506666666666666, + "grad_norm": 2.2518768310546875, + "learning_rate": 1.4481058527178772e-05, + "loss": 0.4569, + "step": 3752 + }, + { + "epoch": 1.251, + "grad_norm": 1.9622656106948853, + "learning_rate": 1.4477590878387697e-05, + "loss": 0.4351, + "step": 3753 + }, + { + "epoch": 1.2513333333333334, + "grad_norm": 2.032024383544922, + "learning_rate": 1.4474122556039997e-05, + "loss": 0.4313, + "step": 3754 + }, + { + "epoch": 1.2516666666666667, + "grad_norm": 2.034853458404541, + "learning_rate": 1.4470653560657413e-05, + "loss": 0.425, + "step": 3755 + }, + { + "epoch": 1.252, + "grad_norm": 1.9037164449691772, + "learning_rate": 1.4467183892761769e-05, + "loss": 0.4636, + "step": 3756 + }, + { + "epoch": 1.2523333333333333, + "grad_norm": 2.063434362411499, + "learning_rate": 1.4463713552875006e-05, + "loss": 0.4321, + "step": 3757 + }, + { + "epoch": 1.2526666666666666, + "grad_norm": 1.8328278064727783, + "learning_rate": 1.4460242541519165e-05, + "loss": 0.4428, + "step": 3758 + }, + { + "epoch": 1.2530000000000001, + "grad_norm": 2.3786637783050537, + "learning_rate": 1.4456770859216383e-05, + "loss": 0.442, + "step": 3759 + }, + { + "epoch": 1.2533333333333334, + "grad_norm": 2.47713303565979, + "learning_rate": 1.4453298506488896e-05, + "loss": 0.4847, + "step": 3760 + }, + { + "epoch": 1.2536666666666667, + "grad_norm": 1.8960039615631104, + "learning_rate": 1.4449825483859045e-05, + "loss": 0.4505, + "step": 3761 + }, + { + "epoch": 1.254, + "grad_norm": 2.173851490020752, + "learning_rate": 1.4446351791849276e-05, + "loss": 0.4673, + "step": 3762 + }, + { + "epoch": 1.2543333333333333, + "grad_norm": 2.098567485809326, + "learning_rate": 1.4442877430982128e-05, + "loss": 0.4452, + "step": 3763 + }, + { + "epoch": 1.2546666666666666, + "grad_norm": 2.008098840713501, + "learning_rate": 1.4439402401780243e-05, + "loss": 0.4108, + "step": 3764 + }, + { + "epoch": 1.255, + "grad_norm": 1.813326358795166, + "learning_rate": 1.4435926704766364e-05, + "loss": 0.378, + "step": 3765 + }, + { + "epoch": 1.2553333333333334, + "grad_norm": 1.9171578884124756, + "learning_rate": 1.4432450340463329e-05, + "loss": 0.4784, + "step": 3766 + }, + { + "epoch": 1.2556666666666667, + "grad_norm": 2.152315378189087, + "learning_rate": 1.4428973309394091e-05, + "loss": 0.3851, + "step": 3767 + }, + { + "epoch": 1.256, + "grad_norm": 2.27624773979187, + "learning_rate": 1.442549561208169e-05, + "loss": 0.4588, + "step": 3768 + }, + { + "epoch": 1.2563333333333333, + "grad_norm": 2.158641815185547, + "learning_rate": 1.4422017249049272e-05, + "loss": 0.5053, + "step": 3769 + }, + { + "epoch": 1.2566666666666666, + "grad_norm": 2.001112699508667, + "learning_rate": 1.441853822082008e-05, + "loss": 0.4035, + "step": 3770 + }, + { + "epoch": 1.2570000000000001, + "grad_norm": 2.1803345680236816, + "learning_rate": 1.4415058527917454e-05, + "loss": 0.4754, + "step": 3771 + }, + { + "epoch": 1.2573333333333334, + "grad_norm": 2.277876853942871, + "learning_rate": 1.4411578170864844e-05, + "loss": 0.4496, + "step": 3772 + }, + { + "epoch": 1.2576666666666667, + "grad_norm": 1.705907940864563, + "learning_rate": 1.4408097150185794e-05, + "loss": 0.4128, + "step": 3773 + }, + { + "epoch": 1.258, + "grad_norm": 1.965734839439392, + "learning_rate": 1.4404615466403951e-05, + "loss": 0.4297, + "step": 3774 + }, + { + "epoch": 1.2583333333333333, + "grad_norm": 1.9476176500320435, + "learning_rate": 1.440113312004305e-05, + "loss": 0.4336, + "step": 3775 + }, + { + "epoch": 1.2586666666666666, + "grad_norm": 2.182021141052246, + "learning_rate": 1.4397650111626943e-05, + "loss": 0.4397, + "step": 3776 + }, + { + "epoch": 1.259, + "grad_norm": 2.0129921436309814, + "learning_rate": 1.439416644167957e-05, + "loss": 0.4598, + "step": 3777 + }, + { + "epoch": 1.2593333333333334, + "grad_norm": 2.1106200218200684, + "learning_rate": 1.439068211072497e-05, + "loss": 0.4399, + "step": 3778 + }, + { + "epoch": 1.2596666666666667, + "grad_norm": 1.9992029666900635, + "learning_rate": 1.4387197119287294e-05, + "loss": 0.4776, + "step": 3779 + }, + { + "epoch": 1.26, + "grad_norm": 1.7440659999847412, + "learning_rate": 1.4383711467890776e-05, + "loss": 0.4311, + "step": 3780 + }, + { + "epoch": 1.2603333333333333, + "grad_norm": 3.3062222003936768, + "learning_rate": 1.438022515705976e-05, + "loss": 0.4568, + "step": 3781 + }, + { + "epoch": 1.2606666666666666, + "grad_norm": 1.8144992589950562, + "learning_rate": 1.4376738187318685e-05, + "loss": 0.4368, + "step": 3782 + }, + { + "epoch": 1.2610000000000001, + "grad_norm": 1.9059442281723022, + "learning_rate": 1.4373250559192088e-05, + "loss": 0.4145, + "step": 3783 + }, + { + "epoch": 1.2613333333333334, + "grad_norm": 2.8296284675598145, + "learning_rate": 1.4369762273204618e-05, + "loss": 0.4339, + "step": 3784 + }, + { + "epoch": 1.2616666666666667, + "grad_norm": 1.8866751194000244, + "learning_rate": 1.4366273329880996e-05, + "loss": 0.4052, + "step": 3785 + }, + { + "epoch": 1.262, + "grad_norm": 2.0456440448760986, + "learning_rate": 1.4362783729746068e-05, + "loss": 0.4475, + "step": 3786 + }, + { + "epoch": 1.2623333333333333, + "grad_norm": 2.2218785285949707, + "learning_rate": 1.4359293473324765e-05, + "loss": 0.4895, + "step": 3787 + }, + { + "epoch": 1.2626666666666666, + "grad_norm": 1.9557065963745117, + "learning_rate": 1.4355802561142127e-05, + "loss": 0.4211, + "step": 3788 + }, + { + "epoch": 1.263, + "grad_norm": 1.8411163091659546, + "learning_rate": 1.4352310993723277e-05, + "loss": 0.3986, + "step": 3789 + }, + { + "epoch": 1.2633333333333332, + "grad_norm": 2.2256717681884766, + "learning_rate": 1.4348818771593452e-05, + "loss": 0.4679, + "step": 3790 + }, + { + "epoch": 1.2636666666666667, + "grad_norm": 2.415987253189087, + "learning_rate": 1.4345325895277977e-05, + "loss": 0.4645, + "step": 3791 + }, + { + "epoch": 1.264, + "grad_norm": 2.0670711994171143, + "learning_rate": 1.4341832365302282e-05, + "loss": 0.4706, + "step": 3792 + }, + { + "epoch": 1.2643333333333333, + "grad_norm": 2.0662338733673096, + "learning_rate": 1.4338338182191898e-05, + "loss": 0.3928, + "step": 3793 + }, + { + "epoch": 1.2646666666666666, + "grad_norm": 2.405611515045166, + "learning_rate": 1.4334843346472438e-05, + "loss": 0.4774, + "step": 3794 + }, + { + "epoch": 1.2650000000000001, + "grad_norm": 1.8310359716415405, + "learning_rate": 1.4331347858669631e-05, + "loss": 0.4105, + "step": 3795 + }, + { + "epoch": 1.2653333333333334, + "grad_norm": 2.250049114227295, + "learning_rate": 1.4327851719309298e-05, + "loss": 0.3948, + "step": 3796 + }, + { + "epoch": 1.2656666666666667, + "grad_norm": 3.6418633460998535, + "learning_rate": 1.4324354928917357e-05, + "loss": 0.4532, + "step": 3797 + }, + { + "epoch": 1.266, + "grad_norm": 1.746102213859558, + "learning_rate": 1.4320857488019826e-05, + "loss": 0.4176, + "step": 3798 + }, + { + "epoch": 1.2663333333333333, + "grad_norm": 1.7841068506240845, + "learning_rate": 1.4317359397142814e-05, + "loss": 0.436, + "step": 3799 + }, + { + "epoch": 1.2666666666666666, + "grad_norm": 2.1562235355377197, + "learning_rate": 1.4313860656812537e-05, + "loss": 0.4435, + "step": 3800 + }, + { + "epoch": 1.267, + "grad_norm": 2.603123903274536, + "learning_rate": 1.4310361267555302e-05, + "loss": 0.4563, + "step": 3801 + }, + { + "epoch": 1.2673333333333332, + "grad_norm": 3.054077625274658, + "learning_rate": 1.430686122989752e-05, + "loss": 0.4416, + "step": 3802 + }, + { + "epoch": 1.2676666666666667, + "grad_norm": 2.0260632038116455, + "learning_rate": 1.4303360544365695e-05, + "loss": 0.4148, + "step": 3803 + }, + { + "epoch": 1.268, + "grad_norm": 2.8678512573242188, + "learning_rate": 1.4299859211486429e-05, + "loss": 0.48, + "step": 3804 + }, + { + "epoch": 1.2683333333333333, + "grad_norm": 1.8981337547302246, + "learning_rate": 1.4296357231786417e-05, + "loss": 0.4317, + "step": 3805 + }, + { + "epoch": 1.2686666666666666, + "grad_norm": 2.4009315967559814, + "learning_rate": 1.4292854605792464e-05, + "loss": 0.464, + "step": 3806 + }, + { + "epoch": 1.2690000000000001, + "grad_norm": 2.2560462951660156, + "learning_rate": 1.4289351334031461e-05, + "loss": 0.4484, + "step": 3807 + }, + { + "epoch": 1.2693333333333334, + "grad_norm": 2.073779582977295, + "learning_rate": 1.4285847417030398e-05, + "loss": 0.458, + "step": 3808 + }, + { + "epoch": 1.2696666666666667, + "grad_norm": 1.7185527086257935, + "learning_rate": 1.4282342855316364e-05, + "loss": 0.4692, + "step": 3809 + }, + { + "epoch": 1.27, + "grad_norm": 1.7833210229873657, + "learning_rate": 1.4278837649416543e-05, + "loss": 0.4587, + "step": 3810 + }, + { + "epoch": 1.2703333333333333, + "grad_norm": 1.9455443620681763, + "learning_rate": 1.4275331799858223e-05, + "loss": 0.4213, + "step": 3811 + }, + { + "epoch": 1.2706666666666666, + "grad_norm": 1.8856741189956665, + "learning_rate": 1.4271825307168778e-05, + "loss": 0.4504, + "step": 3812 + }, + { + "epoch": 1.271, + "grad_norm": 2.222961664199829, + "learning_rate": 1.4268318171875683e-05, + "loss": 0.4749, + "step": 3813 + }, + { + "epoch": 1.2713333333333332, + "grad_norm": 1.9084389209747314, + "learning_rate": 1.4264810394506517e-05, + "loss": 0.4078, + "step": 3814 + }, + { + "epoch": 1.2716666666666667, + "grad_norm": 1.9359400272369385, + "learning_rate": 1.4261301975588941e-05, + "loss": 0.4019, + "step": 3815 + }, + { + "epoch": 1.272, + "grad_norm": 2.613342523574829, + "learning_rate": 1.4257792915650728e-05, + "loss": 0.4112, + "step": 3816 + }, + { + "epoch": 1.2723333333333333, + "grad_norm": 2.2260000705718994, + "learning_rate": 1.4254283215219735e-05, + "loss": 0.448, + "step": 3817 + }, + { + "epoch": 1.2726666666666666, + "grad_norm": 1.850510835647583, + "learning_rate": 1.4250772874823923e-05, + "loss": 0.4727, + "step": 3818 + }, + { + "epoch": 1.2730000000000001, + "grad_norm": 2.059331178665161, + "learning_rate": 1.4247261894991344e-05, + "loss": 0.4163, + "step": 3819 + }, + { + "epoch": 1.2733333333333334, + "grad_norm": 2.4013171195983887, + "learning_rate": 1.4243750276250154e-05, + "loss": 0.4586, + "step": 3820 + }, + { + "epoch": 1.2736666666666667, + "grad_norm": 2.02060604095459, + "learning_rate": 1.4240238019128598e-05, + "loss": 0.4399, + "step": 3821 + }, + { + "epoch": 1.274, + "grad_norm": 1.9842334985733032, + "learning_rate": 1.4236725124155015e-05, + "loss": 0.4187, + "step": 3822 + }, + { + "epoch": 1.2743333333333333, + "grad_norm": 2.59712553024292, + "learning_rate": 1.423321159185785e-05, + "loss": 0.4777, + "step": 3823 + }, + { + "epoch": 1.2746666666666666, + "grad_norm": 2.1868138313293457, + "learning_rate": 1.4229697422765632e-05, + "loss": 0.4387, + "step": 3824 + }, + { + "epoch": 1.275, + "grad_norm": 2.2077836990356445, + "learning_rate": 1.4226182617406996e-05, + "loss": 0.408, + "step": 3825 + }, + { + "epoch": 1.2753333333333332, + "grad_norm": 2.552806854248047, + "learning_rate": 1.4222667176310667e-05, + "loss": 0.4033, + "step": 3826 + }, + { + "epoch": 1.2756666666666667, + "grad_norm": 1.8710808753967285, + "learning_rate": 1.4219151100005465e-05, + "loss": 0.4372, + "step": 3827 + }, + { + "epoch": 1.276, + "grad_norm": 2.7542688846588135, + "learning_rate": 1.4215634389020314e-05, + "loss": 0.4153, + "step": 3828 + }, + { + "epoch": 1.2763333333333333, + "grad_norm": 2.0057907104492188, + "learning_rate": 1.4212117043884218e-05, + "loss": 0.4314, + "step": 3829 + }, + { + "epoch": 1.2766666666666666, + "grad_norm": 2.019566297531128, + "learning_rate": 1.4208599065126292e-05, + "loss": 0.4191, + "step": 3830 + }, + { + "epoch": 1.2770000000000001, + "grad_norm": 2.6800389289855957, + "learning_rate": 1.4205080453275739e-05, + "loss": 0.4572, + "step": 3831 + }, + { + "epoch": 1.2773333333333334, + "grad_norm": 2.2012057304382324, + "learning_rate": 1.4201561208861856e-05, + "loss": 0.4611, + "step": 3832 + }, + { + "epoch": 1.2776666666666667, + "grad_norm": 1.5985770225524902, + "learning_rate": 1.4198041332414037e-05, + "loss": 0.3633, + "step": 3833 + }, + { + "epoch": 1.278, + "grad_norm": 1.667069673538208, + "learning_rate": 1.4194520824461773e-05, + "loss": 0.3945, + "step": 3834 + }, + { + "epoch": 1.2783333333333333, + "grad_norm": 1.8017868995666504, + "learning_rate": 1.4190999685534648e-05, + "loss": 0.3963, + "step": 3835 + }, + { + "epoch": 1.2786666666666666, + "grad_norm": 3.2264957427978516, + "learning_rate": 1.4187477916162338e-05, + "loss": 0.4812, + "step": 3836 + }, + { + "epoch": 1.279, + "grad_norm": 2.2261836528778076, + "learning_rate": 1.4183955516874624e-05, + "loss": 0.4109, + "step": 3837 + }, + { + "epoch": 1.2793333333333332, + "grad_norm": 2.4000113010406494, + "learning_rate": 1.4180432488201366e-05, + "loss": 0.4262, + "step": 3838 + }, + { + "epoch": 1.2796666666666667, + "grad_norm": 2.088527202606201, + "learning_rate": 1.4176908830672531e-05, + "loss": 0.4203, + "step": 3839 + }, + { + "epoch": 1.28, + "grad_norm": 1.9089995622634888, + "learning_rate": 1.417338454481818e-05, + "loss": 0.4334, + "step": 3840 + }, + { + "epoch": 1.2803333333333333, + "grad_norm": 1.7367889881134033, + "learning_rate": 1.4169859631168463e-05, + "loss": 0.3796, + "step": 3841 + }, + { + "epoch": 1.2806666666666666, + "grad_norm": 2.057239055633545, + "learning_rate": 1.4166334090253629e-05, + "loss": 0.4777, + "step": 3842 + }, + { + "epoch": 1.2810000000000001, + "grad_norm": 1.763196349143982, + "learning_rate": 1.4162807922604014e-05, + "loss": 0.483, + "step": 3843 + }, + { + "epoch": 1.2813333333333334, + "grad_norm": 1.690468192100525, + "learning_rate": 1.4159281128750058e-05, + "loss": 0.4492, + "step": 3844 + }, + { + "epoch": 1.2816666666666667, + "grad_norm": 2.3677978515625, + "learning_rate": 1.415575370922229e-05, + "loss": 0.4389, + "step": 3845 + }, + { + "epoch": 1.282, + "grad_norm": 2.5341272354125977, + "learning_rate": 1.4152225664551333e-05, + "loss": 0.4081, + "step": 3846 + }, + { + "epoch": 1.2823333333333333, + "grad_norm": 2.5529325008392334, + "learning_rate": 1.4148696995267905e-05, + "loss": 0.4393, + "step": 3847 + }, + { + "epoch": 1.2826666666666666, + "grad_norm": 2.427572727203369, + "learning_rate": 1.4145167701902823e-05, + "loss": 0.4527, + "step": 3848 + }, + { + "epoch": 1.283, + "grad_norm": 1.8842095136642456, + "learning_rate": 1.4141637784986984e-05, + "loss": 0.4828, + "step": 3849 + }, + { + "epoch": 1.2833333333333332, + "grad_norm": 2.1474106311798096, + "learning_rate": 1.4138107245051394e-05, + "loss": 0.4527, + "step": 3850 + }, + { + "epoch": 1.2836666666666667, + "grad_norm": 1.6460667848587036, + "learning_rate": 1.4134576082627142e-05, + "loss": 0.4452, + "step": 3851 + }, + { + "epoch": 1.284, + "grad_norm": 1.762737512588501, + "learning_rate": 1.413104429824542e-05, + "loss": 0.4203, + "step": 3852 + }, + { + "epoch": 1.2843333333333333, + "grad_norm": 1.8844592571258545, + "learning_rate": 1.4127511892437505e-05, + "loss": 0.4617, + "step": 3853 + }, + { + "epoch": 1.2846666666666666, + "grad_norm": 1.7990268468856812, + "learning_rate": 1.412397886573477e-05, + "loss": 0.4473, + "step": 3854 + }, + { + "epoch": 1.285, + "grad_norm": 1.769297480583191, + "learning_rate": 1.4120445218668687e-05, + "loss": 0.4745, + "step": 3855 + }, + { + "epoch": 1.2853333333333334, + "grad_norm": 1.89057195186615, + "learning_rate": 1.411691095177081e-05, + "loss": 0.4393, + "step": 3856 + }, + { + "epoch": 1.2856666666666667, + "grad_norm": 2.6213717460632324, + "learning_rate": 1.4113376065572797e-05, + "loss": 0.4419, + "step": 3857 + }, + { + "epoch": 1.286, + "grad_norm": 1.8652480840682983, + "learning_rate": 1.4109840560606397e-05, + "loss": 0.4296, + "step": 3858 + }, + { + "epoch": 1.2863333333333333, + "grad_norm": 2.3344783782958984, + "learning_rate": 1.4106304437403448e-05, + "loss": 0.4011, + "step": 3859 + }, + { + "epoch": 1.2866666666666666, + "grad_norm": 2.189352035522461, + "learning_rate": 1.4102767696495885e-05, + "loss": 0.4216, + "step": 3860 + }, + { + "epoch": 1.287, + "grad_norm": 2.0701918601989746, + "learning_rate": 1.4099230338415728e-05, + "loss": 0.4523, + "step": 3861 + }, + { + "epoch": 1.2873333333333332, + "grad_norm": 2.7328271865844727, + "learning_rate": 1.4095692363695103e-05, + "loss": 0.4459, + "step": 3862 + }, + { + "epoch": 1.2876666666666667, + "grad_norm": 1.9816937446594238, + "learning_rate": 1.4092153772866219e-05, + "loss": 0.441, + "step": 3863 + }, + { + "epoch": 1.288, + "grad_norm": 1.8788831233978271, + "learning_rate": 1.408861456646138e-05, + "loss": 0.3783, + "step": 3864 + }, + { + "epoch": 1.2883333333333333, + "grad_norm": 2.2342309951782227, + "learning_rate": 1.4085074745012986e-05, + "loss": 0.4195, + "step": 3865 + }, + { + "epoch": 1.2886666666666666, + "grad_norm": 2.37644624710083, + "learning_rate": 1.408153430905352e-05, + "loss": 0.4334, + "step": 3866 + }, + { + "epoch": 1.289, + "grad_norm": 2.443526029586792, + "learning_rate": 1.4077993259115568e-05, + "loss": 0.4729, + "step": 3867 + }, + { + "epoch": 1.2893333333333334, + "grad_norm": 2.5603549480438232, + "learning_rate": 1.4074451595731804e-05, + "loss": 0.4689, + "step": 3868 + }, + { + "epoch": 1.2896666666666667, + "grad_norm": 2.3168020248413086, + "learning_rate": 1.4070909319435e-05, + "loss": 0.4323, + "step": 3869 + }, + { + "epoch": 1.29, + "grad_norm": 1.8669002056121826, + "learning_rate": 1.4067366430758004e-05, + "loss": 0.3958, + "step": 3870 + }, + { + "epoch": 1.2903333333333333, + "grad_norm": 1.860651969909668, + "learning_rate": 1.4063822930233774e-05, + "loss": 0.4346, + "step": 3871 + }, + { + "epoch": 1.2906666666666666, + "grad_norm": 2.0116753578186035, + "learning_rate": 1.4060278818395353e-05, + "loss": 0.414, + "step": 3872 + }, + { + "epoch": 1.291, + "grad_norm": 2.3815793991088867, + "learning_rate": 1.405673409577587e-05, + "loss": 0.4166, + "step": 3873 + }, + { + "epoch": 1.2913333333333332, + "grad_norm": 2.8447275161743164, + "learning_rate": 1.4053188762908562e-05, + "loss": 0.4647, + "step": 3874 + }, + { + "epoch": 1.2916666666666667, + "grad_norm": 1.76083505153656, + "learning_rate": 1.4049642820326737e-05, + "loss": 0.418, + "step": 3875 + }, + { + "epoch": 1.292, + "grad_norm": 2.4110946655273438, + "learning_rate": 1.4046096268563814e-05, + "loss": 0.4665, + "step": 3876 + }, + { + "epoch": 1.2923333333333333, + "grad_norm": 1.9770140647888184, + "learning_rate": 1.4042549108153287e-05, + "loss": 0.4308, + "step": 3877 + }, + { + "epoch": 1.2926666666666666, + "grad_norm": 2.2591552734375, + "learning_rate": 1.4039001339628756e-05, + "loss": 0.4454, + "step": 3878 + }, + { + "epoch": 1.293, + "grad_norm": 2.4257235527038574, + "learning_rate": 1.4035452963523903e-05, + "loss": 0.448, + "step": 3879 + }, + { + "epoch": 1.2933333333333334, + "grad_norm": 1.9306738376617432, + "learning_rate": 1.4031903980372503e-05, + "loss": 0.4062, + "step": 3880 + }, + { + "epoch": 1.2936666666666667, + "grad_norm": 2.230847120285034, + "learning_rate": 1.4028354390708428e-05, + "loss": 0.4348, + "step": 3881 + }, + { + "epoch": 1.294, + "grad_norm": 2.2440335750579834, + "learning_rate": 1.402480419506563e-05, + "loss": 0.4197, + "step": 3882 + }, + { + "epoch": 1.2943333333333333, + "grad_norm": 2.30576229095459, + "learning_rate": 1.4021253393978172e-05, + "loss": 0.4694, + "step": 3883 + }, + { + "epoch": 1.2946666666666666, + "grad_norm": 3.3298230171203613, + "learning_rate": 1.401770198798018e-05, + "loss": 0.4089, + "step": 3884 + }, + { + "epoch": 1.295, + "grad_norm": 1.8062715530395508, + "learning_rate": 1.4014149977605893e-05, + "loss": 0.4329, + "step": 3885 + }, + { + "epoch": 1.2953333333333332, + "grad_norm": 1.7653950452804565, + "learning_rate": 1.4010597363389638e-05, + "loss": 0.4301, + "step": 3886 + }, + { + "epoch": 1.2956666666666667, + "grad_norm": 2.509382963180542, + "learning_rate": 1.4007044145865818e-05, + "loss": 0.4362, + "step": 3887 + }, + { + "epoch": 1.296, + "grad_norm": 2.3179454803466797, + "learning_rate": 1.4003490325568953e-05, + "loss": 0.3615, + "step": 3888 + }, + { + "epoch": 1.2963333333333333, + "grad_norm": 3.301262855529785, + "learning_rate": 1.3999935903033623e-05, + "loss": 0.426, + "step": 3889 + }, + { + "epoch": 1.2966666666666666, + "grad_norm": 2.486290693283081, + "learning_rate": 1.3996380878794524e-05, + "loss": 0.4407, + "step": 3890 + }, + { + "epoch": 1.297, + "grad_norm": 2.979915142059326, + "learning_rate": 1.3992825253386428e-05, + "loss": 0.4164, + "step": 3891 + }, + { + "epoch": 1.2973333333333334, + "grad_norm": 5.621781349182129, + "learning_rate": 1.3989269027344204e-05, + "loss": 0.4409, + "step": 3892 + }, + { + "epoch": 1.2976666666666667, + "grad_norm": 2.3673198223114014, + "learning_rate": 1.3985712201202807e-05, + "loss": 0.4438, + "step": 3893 + }, + { + "epoch": 1.298, + "grad_norm": 2.3322348594665527, + "learning_rate": 1.3982154775497287e-05, + "loss": 0.4605, + "step": 3894 + }, + { + "epoch": 1.2983333333333333, + "grad_norm": 2.2701752185821533, + "learning_rate": 1.397859675076278e-05, + "loss": 0.4688, + "step": 3895 + }, + { + "epoch": 1.2986666666666666, + "grad_norm": 2.3688042163848877, + "learning_rate": 1.3975038127534513e-05, + "loss": 0.4292, + "step": 3896 + }, + { + "epoch": 1.299, + "grad_norm": 1.6792250871658325, + "learning_rate": 1.3971478906347806e-05, + "loss": 0.4275, + "step": 3897 + }, + { + "epoch": 1.2993333333333332, + "grad_norm": 2.5477895736694336, + "learning_rate": 1.3967919087738069e-05, + "loss": 0.455, + "step": 3898 + }, + { + "epoch": 1.2996666666666667, + "grad_norm": 2.6776492595672607, + "learning_rate": 1.3964358672240792e-05, + "loss": 0.49, + "step": 3899 + }, + { + "epoch": 1.3, + "grad_norm": 2.659306526184082, + "learning_rate": 1.396079766039157e-05, + "loss": 0.4762, + "step": 3900 + }, + { + "epoch": 1.3003333333333333, + "grad_norm": 1.637818455696106, + "learning_rate": 1.3957236052726076e-05, + "loss": 0.3946, + "step": 3901 + }, + { + "epoch": 1.3006666666666666, + "grad_norm": 1.7061941623687744, + "learning_rate": 1.3953673849780076e-05, + "loss": 0.4266, + "step": 3902 + }, + { + "epoch": 1.301, + "grad_norm": 2.1800761222839355, + "learning_rate": 1.3950111052089432e-05, + "loss": 0.4469, + "step": 3903 + }, + { + "epoch": 1.3013333333333335, + "grad_norm": 2.2532284259796143, + "learning_rate": 1.3946547660190084e-05, + "loss": 0.4258, + "step": 3904 + }, + { + "epoch": 1.3016666666666667, + "grad_norm": 2.057459831237793, + "learning_rate": 1.394298367461807e-05, + "loss": 0.4321, + "step": 3905 + }, + { + "epoch": 1.302, + "grad_norm": 3.3158071041107178, + "learning_rate": 1.3939419095909513e-05, + "loss": 0.4246, + "step": 3906 + }, + { + "epoch": 1.3023333333333333, + "grad_norm": 2.573613405227661, + "learning_rate": 1.393585392460063e-05, + "loss": 0.4796, + "step": 3907 + }, + { + "epoch": 1.3026666666666666, + "grad_norm": 2.609769821166992, + "learning_rate": 1.3932288161227716e-05, + "loss": 0.4412, + "step": 3908 + }, + { + "epoch": 1.303, + "grad_norm": 1.8374089002609253, + "learning_rate": 1.3928721806327173e-05, + "loss": 0.4386, + "step": 3909 + }, + { + "epoch": 1.3033333333333332, + "grad_norm": 1.8651577234268188, + "learning_rate": 1.3925154860435473e-05, + "loss": 0.4484, + "step": 3910 + }, + { + "epoch": 1.3036666666666665, + "grad_norm": 2.0108301639556885, + "learning_rate": 1.3921587324089192e-05, + "loss": 0.4472, + "step": 3911 + }, + { + "epoch": 1.304, + "grad_norm": 3.328984498977661, + "learning_rate": 1.3918019197824985e-05, + "loss": 0.4238, + "step": 3912 + }, + { + "epoch": 1.3043333333333333, + "grad_norm": 2.010154962539673, + "learning_rate": 1.3914450482179604e-05, + "loss": 0.4454, + "step": 3913 + }, + { + "epoch": 1.3046666666666666, + "grad_norm": 1.510329246520996, + "learning_rate": 1.3910881177689881e-05, + "loss": 0.4365, + "step": 3914 + }, + { + "epoch": 1.305, + "grad_norm": 2.483088970184326, + "learning_rate": 1.3907311284892737e-05, + "loss": 0.4964, + "step": 3915 + }, + { + "epoch": 1.3053333333333335, + "grad_norm": 2.1171786785125732, + "learning_rate": 1.3903740804325193e-05, + "loss": 0.4298, + "step": 3916 + }, + { + "epoch": 1.3056666666666668, + "grad_norm": 1.876490592956543, + "learning_rate": 1.390016973652435e-05, + "loss": 0.4198, + "step": 3917 + }, + { + "epoch": 1.306, + "grad_norm": 2.49251127243042, + "learning_rate": 1.389659808202739e-05, + "loss": 0.4063, + "step": 3918 + }, + { + "epoch": 1.3063333333333333, + "grad_norm": 1.993699550628662, + "learning_rate": 1.3893025841371598e-05, + "loss": 0.436, + "step": 3919 + }, + { + "epoch": 1.3066666666666666, + "grad_norm": 1.821175217628479, + "learning_rate": 1.3889453015094338e-05, + "loss": 0.454, + "step": 3920 + }, + { + "epoch": 1.307, + "grad_norm": 1.9825352430343628, + "learning_rate": 1.3885879603733066e-05, + "loss": 0.4425, + "step": 3921 + }, + { + "epoch": 1.3073333333333332, + "grad_norm": 1.9222930669784546, + "learning_rate": 1.3882305607825323e-05, + "loss": 0.4113, + "step": 3922 + }, + { + "epoch": 1.3076666666666665, + "grad_norm": 2.0950427055358887, + "learning_rate": 1.3878731027908739e-05, + "loss": 0.4127, + "step": 3923 + }, + { + "epoch": 1.308, + "grad_norm": 2.1269540786743164, + "learning_rate": 1.3875155864521031e-05, + "loss": 0.4632, + "step": 3924 + }, + { + "epoch": 1.3083333333333333, + "grad_norm": 3.1901931762695312, + "learning_rate": 1.3871580118200007e-05, + "loss": 0.4896, + "step": 3925 + }, + { + "epoch": 1.3086666666666666, + "grad_norm": 1.9883273839950562, + "learning_rate": 1.3868003789483562e-05, + "loss": 0.441, + "step": 3926 + }, + { + "epoch": 1.309, + "grad_norm": 2.366713047027588, + "learning_rate": 1.3864426878909674e-05, + "loss": 0.4813, + "step": 3927 + }, + { + "epoch": 1.3093333333333335, + "grad_norm": 2.0402112007141113, + "learning_rate": 1.3860849387016413e-05, + "loss": 0.4508, + "step": 3928 + }, + { + "epoch": 1.3096666666666668, + "grad_norm": 2.3578085899353027, + "learning_rate": 1.3857271314341934e-05, + "loss": 0.4336, + "step": 3929 + }, + { + "epoch": 1.31, + "grad_norm": 2.729173421859741, + "learning_rate": 1.3853692661424485e-05, + "loss": 0.4755, + "step": 3930 + }, + { + "epoch": 1.3103333333333333, + "grad_norm": 2.8200149536132812, + "learning_rate": 1.3850113428802392e-05, + "loss": 0.4583, + "step": 3931 + }, + { + "epoch": 1.3106666666666666, + "grad_norm": 1.582682728767395, + "learning_rate": 1.3846533617014075e-05, + "loss": 0.4702, + "step": 3932 + }, + { + "epoch": 1.311, + "grad_norm": 2.310777187347412, + "learning_rate": 1.3842953226598036e-05, + "loss": 0.4754, + "step": 3933 + }, + { + "epoch": 1.3113333333333332, + "grad_norm": 1.894606590270996, + "learning_rate": 1.3839372258092875e-05, + "loss": 0.4218, + "step": 3934 + }, + { + "epoch": 1.3116666666666665, + "grad_norm": 1.6717088222503662, + "learning_rate": 1.3835790712037268e-05, + "loss": 0.4088, + "step": 3935 + }, + { + "epoch": 1.312, + "grad_norm": 1.9346680641174316, + "learning_rate": 1.3832208588969975e-05, + "loss": 0.3953, + "step": 3936 + }, + { + "epoch": 1.3123333333333334, + "grad_norm": 2.138970375061035, + "learning_rate": 1.3828625889429853e-05, + "loss": 0.468, + "step": 3937 + }, + { + "epoch": 1.3126666666666666, + "grad_norm": 2.3609519004821777, + "learning_rate": 1.3825042613955844e-05, + "loss": 0.4533, + "step": 3938 + }, + { + "epoch": 1.313, + "grad_norm": 2.0723700523376465, + "learning_rate": 1.3821458763086973e-05, + "loss": 0.4298, + "step": 3939 + }, + { + "epoch": 1.3133333333333335, + "grad_norm": 1.5863920450210571, + "learning_rate": 1.3817874337362351e-05, + "loss": 0.4119, + "step": 3940 + }, + { + "epoch": 1.3136666666666668, + "grad_norm": 1.9540965557098389, + "learning_rate": 1.381428933732118e-05, + "loss": 0.3774, + "step": 3941 + }, + { + "epoch": 1.314, + "grad_norm": 2.6945340633392334, + "learning_rate": 1.3810703763502744e-05, + "loss": 0.4333, + "step": 3942 + }, + { + "epoch": 1.3143333333333334, + "grad_norm": 2.0361671447753906, + "learning_rate": 1.380711761644641e-05, + "loss": 0.3587, + "step": 3943 + }, + { + "epoch": 1.3146666666666667, + "grad_norm": 1.996535301208496, + "learning_rate": 1.3803530896691646e-05, + "loss": 0.4199, + "step": 3944 + }, + { + "epoch": 1.315, + "grad_norm": 2.048079252243042, + "learning_rate": 1.3799943604777993e-05, + "loss": 0.466, + "step": 3945 + }, + { + "epoch": 1.3153333333333332, + "grad_norm": 1.9949936866760254, + "learning_rate": 1.3796355741245075e-05, + "loss": 0.4291, + "step": 3946 + }, + { + "epoch": 1.3156666666666665, + "grad_norm": 2.615034580230713, + "learning_rate": 1.3792767306632614e-05, + "loss": 0.4466, + "step": 3947 + }, + { + "epoch": 1.316, + "grad_norm": 1.944091796875, + "learning_rate": 1.3789178301480415e-05, + "loss": 0.4344, + "step": 3948 + }, + { + "epoch": 1.3163333333333334, + "grad_norm": 2.2792017459869385, + "learning_rate": 1.378558872632836e-05, + "loss": 0.4203, + "step": 3949 + }, + { + "epoch": 1.3166666666666667, + "grad_norm": 1.9865614175796509, + "learning_rate": 1.3781998581716427e-05, + "loss": 0.4539, + "step": 3950 + }, + { + "epoch": 1.317, + "grad_norm": 1.8545788526535034, + "learning_rate": 1.3778407868184674e-05, + "loss": 0.41, + "step": 3951 + }, + { + "epoch": 1.3173333333333335, + "grad_norm": 2.581266164779663, + "learning_rate": 1.3774816586273242e-05, + "loss": 0.4664, + "step": 3952 + }, + { + "epoch": 1.3176666666666668, + "grad_norm": 1.9974572658538818, + "learning_rate": 1.3771224736522373e-05, + "loss": 0.4182, + "step": 3953 + }, + { + "epoch": 1.318, + "grad_norm": 2.1703925132751465, + "learning_rate": 1.3767632319472373e-05, + "loss": 0.4103, + "step": 3954 + }, + { + "epoch": 1.3183333333333334, + "grad_norm": 1.9623632431030273, + "learning_rate": 1.3764039335663645e-05, + "loss": 0.4347, + "step": 3955 + }, + { + "epoch": 1.3186666666666667, + "grad_norm": 2.0908491611480713, + "learning_rate": 1.376044578563668e-05, + "loss": 0.4173, + "step": 3956 + }, + { + "epoch": 1.319, + "grad_norm": 1.7560179233551025, + "learning_rate": 1.375685166993204e-05, + "loss": 0.4351, + "step": 3957 + }, + { + "epoch": 1.3193333333333332, + "grad_norm": 2.081408739089966, + "learning_rate": 1.3753256989090395e-05, + "loss": 0.3968, + "step": 3958 + }, + { + "epoch": 1.3196666666666665, + "grad_norm": 2.605381488800049, + "learning_rate": 1.3749661743652481e-05, + "loss": 0.4664, + "step": 3959 + }, + { + "epoch": 1.32, + "grad_norm": 2.344468355178833, + "learning_rate": 1.3746065934159123e-05, + "loss": 0.4534, + "step": 3960 + }, + { + "epoch": 1.3203333333333334, + "grad_norm": 1.8966875076293945, + "learning_rate": 1.3742469561151233e-05, + "loss": 0.3893, + "step": 3961 + }, + { + "epoch": 1.3206666666666667, + "grad_norm": 2.3010032176971436, + "learning_rate": 1.373887262516981e-05, + "loss": 0.4054, + "step": 3962 + }, + { + "epoch": 1.321, + "grad_norm": 1.9095978736877441, + "learning_rate": 1.3735275126755933e-05, + "loss": 0.4264, + "step": 3963 + }, + { + "epoch": 1.3213333333333335, + "grad_norm": 2.6384048461914062, + "learning_rate": 1.3731677066450768e-05, + "loss": 0.476, + "step": 3964 + }, + { + "epoch": 1.3216666666666668, + "grad_norm": 2.4218668937683105, + "learning_rate": 1.3728078444795567e-05, + "loss": 0.4653, + "step": 3965 + }, + { + "epoch": 1.322, + "grad_norm": 2.1581859588623047, + "learning_rate": 1.3724479262331662e-05, + "loss": 0.4364, + "step": 3966 + }, + { + "epoch": 1.3223333333333334, + "grad_norm": 2.1681487560272217, + "learning_rate": 1.3720879519600476e-05, + "loss": 0.4608, + "step": 3967 + }, + { + "epoch": 1.3226666666666667, + "grad_norm": 1.9387850761413574, + "learning_rate": 1.3717279217143507e-05, + "loss": 0.4296, + "step": 3968 + }, + { + "epoch": 1.323, + "grad_norm": 2.3060219287872314, + "learning_rate": 1.371367835550235e-05, + "loss": 0.4632, + "step": 3969 + }, + { + "epoch": 1.3233333333333333, + "grad_norm": 2.554258108139038, + "learning_rate": 1.3710076935218671e-05, + "loss": 0.4409, + "step": 3970 + }, + { + "epoch": 1.3236666666666665, + "grad_norm": 2.3191514015197754, + "learning_rate": 1.3706474956834223e-05, + "loss": 0.4719, + "step": 3971 + }, + { + "epoch": 1.324, + "grad_norm": 2.6418685913085938, + "learning_rate": 1.3702872420890853e-05, + "loss": 0.4409, + "step": 3972 + }, + { + "epoch": 1.3243333333333334, + "grad_norm": 2.252352476119995, + "learning_rate": 1.3699269327930482e-05, + "loss": 0.4731, + "step": 3973 + }, + { + "epoch": 1.3246666666666667, + "grad_norm": 1.9029724597930908, + "learning_rate": 1.3695665678495118e-05, + "loss": 0.4076, + "step": 3974 + }, + { + "epoch": 1.325, + "grad_norm": 2.122746229171753, + "learning_rate": 1.3692061473126845e-05, + "loss": 0.4438, + "step": 3975 + }, + { + "epoch": 1.3253333333333333, + "grad_norm": 1.6303867101669312, + "learning_rate": 1.3688456712367849e-05, + "loss": 0.431, + "step": 3976 + }, + { + "epoch": 1.3256666666666668, + "grad_norm": 2.621004581451416, + "learning_rate": 1.368485139676038e-05, + "loss": 0.4692, + "step": 3977 + }, + { + "epoch": 1.326, + "grad_norm": 2.8015294075012207, + "learning_rate": 1.3681245526846782e-05, + "loss": 0.4765, + "step": 3978 + }, + { + "epoch": 1.3263333333333334, + "grad_norm": 2.100907564163208, + "learning_rate": 1.3677639103169481e-05, + "loss": 0.383, + "step": 3979 + }, + { + "epoch": 1.3266666666666667, + "grad_norm": 2.210078239440918, + "learning_rate": 1.3674032126270982e-05, + "loss": 0.4369, + "step": 3980 + }, + { + "epoch": 1.327, + "grad_norm": 2.7388663291931152, + "learning_rate": 1.3670424596693884e-05, + "loss": 0.476, + "step": 3981 + }, + { + "epoch": 1.3273333333333333, + "grad_norm": 2.4581503868103027, + "learning_rate": 1.3666816514980851e-05, + "loss": 0.4504, + "step": 3982 + }, + { + "epoch": 1.3276666666666666, + "grad_norm": 1.6715757846832275, + "learning_rate": 1.3663207881674654e-05, + "loss": 0.4126, + "step": 3983 + }, + { + "epoch": 1.328, + "grad_norm": 2.534447431564331, + "learning_rate": 1.3659598697318122e-05, + "loss": 0.4412, + "step": 3984 + }, + { + "epoch": 1.3283333333333334, + "grad_norm": 2.783086061477661, + "learning_rate": 1.3655988962454185e-05, + "loss": 0.4479, + "step": 3985 + }, + { + "epoch": 1.3286666666666667, + "grad_norm": 2.2931196689605713, + "learning_rate": 1.3652378677625848e-05, + "loss": 0.4313, + "step": 3986 + }, + { + "epoch": 1.329, + "grad_norm": 2.2050864696502686, + "learning_rate": 1.3648767843376196e-05, + "loss": 0.4291, + "step": 3987 + }, + { + "epoch": 1.3293333333333333, + "grad_norm": 2.4459211826324463, + "learning_rate": 1.3645156460248412e-05, + "loss": 0.4084, + "step": 3988 + }, + { + "epoch": 1.3296666666666668, + "grad_norm": 2.337657928466797, + "learning_rate": 1.3641544528785737e-05, + "loss": 0.435, + "step": 3989 + }, + { + "epoch": 1.33, + "grad_norm": 2.822838544845581, + "learning_rate": 1.3637932049531517e-05, + "loss": 0.4481, + "step": 3990 + }, + { + "epoch": 1.3303333333333334, + "grad_norm": 2.094388723373413, + "learning_rate": 1.3634319023029165e-05, + "loss": 0.4431, + "step": 3991 + }, + { + "epoch": 1.3306666666666667, + "grad_norm": 1.9054129123687744, + "learning_rate": 1.363070544982219e-05, + "loss": 0.4223, + "step": 3992 + }, + { + "epoch": 1.331, + "grad_norm": 2.392293691635132, + "learning_rate": 1.3627091330454172e-05, + "loss": 0.3997, + "step": 3993 + }, + { + "epoch": 1.3313333333333333, + "grad_norm": 4.334693431854248, + "learning_rate": 1.3623476665468776e-05, + "loss": 0.4595, + "step": 3994 + }, + { + "epoch": 1.3316666666666666, + "grad_norm": 2.3672924041748047, + "learning_rate": 1.3619861455409749e-05, + "loss": 0.4361, + "step": 3995 + }, + { + "epoch": 1.332, + "grad_norm": 2.1929023265838623, + "learning_rate": 1.3616245700820922e-05, + "loss": 0.444, + "step": 3996 + }, + { + "epoch": 1.3323333333333334, + "grad_norm": 2.0475411415100098, + "learning_rate": 1.3612629402246214e-05, + "loss": 0.4495, + "step": 3997 + }, + { + "epoch": 1.3326666666666667, + "grad_norm": 2.8409597873687744, + "learning_rate": 1.3609012560229608e-05, + "loss": 0.4374, + "step": 3998 + }, + { + "epoch": 1.333, + "grad_norm": 2.443429708480835, + "learning_rate": 1.3605395175315188e-05, + "loss": 0.4863, + "step": 3999 + }, + { + "epoch": 1.3333333333333333, + "grad_norm": 1.7742435932159424, + "learning_rate": 1.3601777248047105e-05, + "loss": 0.4328, + "step": 4000 + }, + { + "epoch": 1.3336666666666668, + "grad_norm": 1.702661395072937, + "learning_rate": 1.3598158778969601e-05, + "loss": 0.4189, + "step": 4001 + }, + { + "epoch": 1.334, + "grad_norm": 2.2591307163238525, + "learning_rate": 1.3594539768627e-05, + "loss": 0.3877, + "step": 4002 + }, + { + "epoch": 1.3343333333333334, + "grad_norm": 1.902758240699768, + "learning_rate": 1.3590920217563694e-05, + "loss": 0.4238, + "step": 4003 + }, + { + "epoch": 1.3346666666666667, + "grad_norm": 2.1042938232421875, + "learning_rate": 1.3587300126324174e-05, + "loss": 0.4262, + "step": 4004 + }, + { + "epoch": 1.335, + "grad_norm": 2.1026954650878906, + "learning_rate": 1.3583679495453e-05, + "loss": 0.4416, + "step": 4005 + }, + { + "epoch": 1.3353333333333333, + "grad_norm": 2.8349192142486572, + "learning_rate": 1.3580058325494827e-05, + "loss": 0.426, + "step": 4006 + }, + { + "epoch": 1.3356666666666666, + "grad_norm": 2.361039161682129, + "learning_rate": 1.357643661699437e-05, + "loss": 0.5, + "step": 4007 + }, + { + "epoch": 1.336, + "grad_norm": 2.016700267791748, + "learning_rate": 1.3572814370496441e-05, + "loss": 0.481, + "step": 4008 + }, + { + "epoch": 1.3363333333333334, + "grad_norm": 2.376772880554199, + "learning_rate": 1.3569191586545929e-05, + "loss": 0.3918, + "step": 4009 + }, + { + "epoch": 1.3366666666666667, + "grad_norm": 1.8212547302246094, + "learning_rate": 1.3565568265687802e-05, + "loss": 0.4561, + "step": 4010 + }, + { + "epoch": 1.337, + "grad_norm": 2.3287558555603027, + "learning_rate": 1.3561944408467112e-05, + "loss": 0.4175, + "step": 4011 + }, + { + "epoch": 1.3373333333333333, + "grad_norm": 1.9734416007995605, + "learning_rate": 1.355832001542899e-05, + "loss": 0.4474, + "step": 4012 + }, + { + "epoch": 1.3376666666666668, + "grad_norm": 1.76744544506073, + "learning_rate": 1.3554695087118645e-05, + "loss": 0.4147, + "step": 4013 + }, + { + "epoch": 1.338, + "grad_norm": 1.6875869035720825, + "learning_rate": 1.3551069624081372e-05, + "loss": 0.4466, + "step": 4014 + }, + { + "epoch": 1.3383333333333334, + "grad_norm": 2.1589372158050537, + "learning_rate": 1.3547443626862543e-05, + "loss": 0.411, + "step": 4015 + }, + { + "epoch": 1.3386666666666667, + "grad_norm": 1.937870979309082, + "learning_rate": 1.3543817096007606e-05, + "loss": 0.4442, + "step": 4016 + }, + { + "epoch": 1.339, + "grad_norm": 2.0803287029266357, + "learning_rate": 1.3540190032062102e-05, + "loss": 0.4351, + "step": 4017 + }, + { + "epoch": 1.3393333333333333, + "grad_norm": 2.267624855041504, + "learning_rate": 1.353656243557164e-05, + "loss": 0.448, + "step": 4018 + }, + { + "epoch": 1.3396666666666666, + "grad_norm": 2.0480880737304688, + "learning_rate": 1.3532934307081909e-05, + "loss": 0.4488, + "step": 4019 + }, + { + "epoch": 1.34, + "grad_norm": 2.113337993621826, + "learning_rate": 1.3529305647138689e-05, + "loss": 0.4319, + "step": 4020 + }, + { + "epoch": 1.3403333333333334, + "grad_norm": 2.0944416522979736, + "learning_rate": 1.3525676456287832e-05, + "loss": 0.4267, + "step": 4021 + }, + { + "epoch": 1.3406666666666667, + "grad_norm": 1.8629188537597656, + "learning_rate": 1.352204673507527e-05, + "loss": 0.4039, + "step": 4022 + }, + { + "epoch": 1.341, + "grad_norm": 2.479680061340332, + "learning_rate": 1.3518416484047018e-05, + "loss": 0.452, + "step": 4023 + }, + { + "epoch": 1.3413333333333333, + "grad_norm": 2.065948247909546, + "learning_rate": 1.3514785703749168e-05, + "loss": 0.4229, + "step": 4024 + }, + { + "epoch": 1.3416666666666668, + "grad_norm": 2.6506478786468506, + "learning_rate": 1.351115439472789e-05, + "loss": 0.4271, + "step": 4025 + }, + { + "epoch": 1.342, + "grad_norm": 1.9128103256225586, + "learning_rate": 1.3507522557529438e-05, + "loss": 0.4512, + "step": 4026 + }, + { + "epoch": 1.3423333333333334, + "grad_norm": 2.1317713260650635, + "learning_rate": 1.350389019270014e-05, + "loss": 0.4025, + "step": 4027 + }, + { + "epoch": 1.3426666666666667, + "grad_norm": 1.7793078422546387, + "learning_rate": 1.3500257300786413e-05, + "loss": 0.4345, + "step": 4028 + }, + { + "epoch": 1.343, + "grad_norm": 2.120425224304199, + "learning_rate": 1.3496623882334738e-05, + "loss": 0.4333, + "step": 4029 + }, + { + "epoch": 1.3433333333333333, + "grad_norm": 1.9276654720306396, + "learning_rate": 1.3492989937891694e-05, + "loss": 0.4117, + "step": 4030 + }, + { + "epoch": 1.3436666666666666, + "grad_norm": 1.9633657932281494, + "learning_rate": 1.3489355468003922e-05, + "loss": 0.4062, + "step": 4031 + }, + { + "epoch": 1.3439999999999999, + "grad_norm": 3.2184343338012695, + "learning_rate": 1.3485720473218153e-05, + "loss": 0.446, + "step": 4032 + }, + { + "epoch": 1.3443333333333334, + "grad_norm": 2.2902567386627197, + "learning_rate": 1.3482084954081192e-05, + "loss": 0.4237, + "step": 4033 + }, + { + "epoch": 1.3446666666666667, + "grad_norm": 1.9041099548339844, + "learning_rate": 1.3478448911139925e-05, + "loss": 0.4377, + "step": 4034 + }, + { + "epoch": 1.345, + "grad_norm": 1.7595800161361694, + "learning_rate": 1.3474812344941315e-05, + "loss": 0.4172, + "step": 4035 + }, + { + "epoch": 1.3453333333333333, + "grad_norm": 2.618051767349243, + "learning_rate": 1.3471175256032406e-05, + "loss": 0.4008, + "step": 4036 + }, + { + "epoch": 1.3456666666666668, + "grad_norm": 3.2696685791015625, + "learning_rate": 1.3467537644960318e-05, + "loss": 0.458, + "step": 4037 + }, + { + "epoch": 1.346, + "grad_norm": 2.3814215660095215, + "learning_rate": 1.3463899512272249e-05, + "loss": 0.4407, + "step": 4038 + }, + { + "epoch": 1.3463333333333334, + "grad_norm": 1.6441619396209717, + "learning_rate": 1.346026085851548e-05, + "loss": 0.392, + "step": 4039 + }, + { + "epoch": 1.3466666666666667, + "grad_norm": 2.2195684909820557, + "learning_rate": 1.3456621684237367e-05, + "loss": 0.4201, + "step": 4040 + }, + { + "epoch": 1.347, + "grad_norm": 1.8409740924835205, + "learning_rate": 1.3452981989985347e-05, + "loss": 0.421, + "step": 4041 + }, + { + "epoch": 1.3473333333333333, + "grad_norm": 2.4080631732940674, + "learning_rate": 1.3449341776306932e-05, + "loss": 0.4391, + "step": 4042 + }, + { + "epoch": 1.3476666666666666, + "grad_norm": 1.8833301067352295, + "learning_rate": 1.3445701043749711e-05, + "loss": 0.4254, + "step": 4043 + }, + { + "epoch": 1.3479999999999999, + "grad_norm": 2.04375958442688, + "learning_rate": 1.3442059792861356e-05, + "loss": 0.3583, + "step": 4044 + }, + { + "epoch": 1.3483333333333334, + "grad_norm": 2.0385453701019287, + "learning_rate": 1.3438418024189612e-05, + "loss": 0.4106, + "step": 4045 + }, + { + "epoch": 1.3486666666666667, + "grad_norm": 1.8697539567947388, + "learning_rate": 1.3434775738282306e-05, + "loss": 0.4136, + "step": 4046 + }, + { + "epoch": 1.349, + "grad_norm": 1.823530673980713, + "learning_rate": 1.343113293568734e-05, + "loss": 0.3985, + "step": 4047 + }, + { + "epoch": 1.3493333333333333, + "grad_norm": 2.6098577976226807, + "learning_rate": 1.3427489616952698e-05, + "loss": 0.42, + "step": 4048 + }, + { + "epoch": 1.3496666666666668, + "grad_norm": 1.889946460723877, + "learning_rate": 1.3423845782626437e-05, + "loss": 0.4476, + "step": 4049 + }, + { + "epoch": 1.35, + "grad_norm": 1.818507432937622, + "learning_rate": 1.342020143325669e-05, + "loss": 0.4325, + "step": 4050 + }, + { + "epoch": 1.3503333333333334, + "grad_norm": 3.684271812438965, + "learning_rate": 1.3416556569391672e-05, + "loss": 0.4425, + "step": 4051 + }, + { + "epoch": 1.3506666666666667, + "grad_norm": 2.783240795135498, + "learning_rate": 1.3412911191579674e-05, + "loss": 0.4413, + "step": 4052 + }, + { + "epoch": 1.351, + "grad_norm": 2.2634873390197754, + "learning_rate": 1.3409265300369065e-05, + "loss": 0.4194, + "step": 4053 + }, + { + "epoch": 1.3513333333333333, + "grad_norm": 1.709645390510559, + "learning_rate": 1.3405618896308293e-05, + "loss": 0.418, + "step": 4054 + }, + { + "epoch": 1.3516666666666666, + "grad_norm": 2.2111427783966064, + "learning_rate": 1.3401971979945873e-05, + "loss": 0.3958, + "step": 4055 + }, + { + "epoch": 1.3519999999999999, + "grad_norm": 3.0629515647888184, + "learning_rate": 1.3398324551830416e-05, + "loss": 0.4207, + "step": 4056 + }, + { + "epoch": 1.3523333333333334, + "grad_norm": 3.2368011474609375, + "learning_rate": 1.3394676612510585e-05, + "loss": 0.4467, + "step": 4057 + }, + { + "epoch": 1.3526666666666667, + "grad_norm": 2.4952969551086426, + "learning_rate": 1.3391028162535142e-05, + "loss": 0.4291, + "step": 4058 + }, + { + "epoch": 1.353, + "grad_norm": 2.5858802795410156, + "learning_rate": 1.3387379202452917e-05, + "loss": 0.4523, + "step": 4059 + }, + { + "epoch": 1.3533333333333333, + "grad_norm": 2.0759928226470947, + "learning_rate": 1.3383729732812814e-05, + "loss": 0.4104, + "step": 4060 + }, + { + "epoch": 1.3536666666666668, + "grad_norm": 2.779031753540039, + "learning_rate": 1.3380079754163818e-05, + "loss": 0.4573, + "step": 4061 + }, + { + "epoch": 1.354, + "grad_norm": 1.8355473279953003, + "learning_rate": 1.3376429267054991e-05, + "loss": 0.4119, + "step": 4062 + }, + { + "epoch": 1.3543333333333334, + "grad_norm": 1.897520661354065, + "learning_rate": 1.337277827203547e-05, + "loss": 0.437, + "step": 4063 + }, + { + "epoch": 1.3546666666666667, + "grad_norm": 1.9011083841323853, + "learning_rate": 1.3369126769654463e-05, + "loss": 0.3918, + "step": 4064 + }, + { + "epoch": 1.355, + "grad_norm": 2.0155396461486816, + "learning_rate": 1.3365474760461265e-05, + "loss": 0.4398, + "step": 4065 + }, + { + "epoch": 1.3553333333333333, + "grad_norm": 2.71474027633667, + "learning_rate": 1.336182224500524e-05, + "loss": 0.4003, + "step": 4066 + }, + { + "epoch": 1.3556666666666666, + "grad_norm": 2.02255916595459, + "learning_rate": 1.3358169223835828e-05, + "loss": 0.4092, + "step": 4067 + }, + { + "epoch": 1.3559999999999999, + "grad_norm": 2.026224374771118, + "learning_rate": 1.3354515697502552e-05, + "loss": 0.4302, + "step": 4068 + }, + { + "epoch": 1.3563333333333334, + "grad_norm": 2.362471103668213, + "learning_rate": 1.3350861666555001e-05, + "loss": 0.4068, + "step": 4069 + }, + { + "epoch": 1.3566666666666667, + "grad_norm": 2.160334587097168, + "learning_rate": 1.3347207131542847e-05, + "loss": 0.4594, + "step": 4070 + }, + { + "epoch": 1.357, + "grad_norm": 2.4565160274505615, + "learning_rate": 1.3343552093015833e-05, + "loss": 0.4293, + "step": 4071 + }, + { + "epoch": 1.3573333333333333, + "grad_norm": 1.9360255002975464, + "learning_rate": 1.3339896551523786e-05, + "loss": 0.3647, + "step": 4072 + }, + { + "epoch": 1.3576666666666668, + "grad_norm": 2.468860149383545, + "learning_rate": 1.3336240507616595e-05, + "loss": 0.4479, + "step": 4073 + }, + { + "epoch": 1.358, + "grad_norm": 2.2277090549468994, + "learning_rate": 1.3332583961844243e-05, + "loss": 0.4431, + "step": 4074 + }, + { + "epoch": 1.3583333333333334, + "grad_norm": 2.5251550674438477, + "learning_rate": 1.3328926914756765e-05, + "loss": 0.3654, + "step": 4075 + }, + { + "epoch": 1.3586666666666667, + "grad_norm": 1.9905890226364136, + "learning_rate": 1.33252693669043e-05, + "loss": 0.4394, + "step": 4076 + }, + { + "epoch": 1.359, + "grad_norm": 1.9066463708877563, + "learning_rate": 1.3321611318837033e-05, + "loss": 0.4336, + "step": 4077 + }, + { + "epoch": 1.3593333333333333, + "grad_norm": 2.2011351585388184, + "learning_rate": 1.331795277110525e-05, + "loss": 0.4118, + "step": 4078 + }, + { + "epoch": 1.3596666666666666, + "grad_norm": 2.324631690979004, + "learning_rate": 1.331429372425929e-05, + "loss": 0.4568, + "step": 4079 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 1.7997889518737793, + "learning_rate": 1.3310634178849583e-05, + "loss": 0.4508, + "step": 4080 + }, + { + "epoch": 1.3603333333333334, + "grad_norm": 1.8739527463912964, + "learning_rate": 1.3306974135426626e-05, + "loss": 0.4292, + "step": 4081 + }, + { + "epoch": 1.3606666666666667, + "grad_norm": 1.735390305519104, + "learning_rate": 1.3303313594540993e-05, + "loss": 0.4148, + "step": 4082 + }, + { + "epoch": 1.361, + "grad_norm": 2.544579029083252, + "learning_rate": 1.3299652556743341e-05, + "loss": 0.4449, + "step": 4083 + }, + { + "epoch": 1.3613333333333333, + "grad_norm": 2.4624953269958496, + "learning_rate": 1.3295991022584382e-05, + "loss": 0.4475, + "step": 4084 + }, + { + "epoch": 1.3616666666666668, + "grad_norm": 2.018395185470581, + "learning_rate": 1.3292328992614922e-05, + "loss": 0.4362, + "step": 4085 + }, + { + "epoch": 1.362, + "grad_norm": 2.1110386848449707, + "learning_rate": 1.3288666467385834e-05, + "loss": 0.4702, + "step": 4086 + }, + { + "epoch": 1.3623333333333334, + "grad_norm": 2.1681225299835205, + "learning_rate": 1.3285003447448062e-05, + "loss": 0.4236, + "step": 4087 + }, + { + "epoch": 1.3626666666666667, + "grad_norm": 2.0553064346313477, + "learning_rate": 1.3281339933352633e-05, + "loss": 0.4138, + "step": 4088 + }, + { + "epoch": 1.363, + "grad_norm": 2.4165773391723633, + "learning_rate": 1.3277675925650635e-05, + "loss": 0.4395, + "step": 4089 + }, + { + "epoch": 1.3633333333333333, + "grad_norm": 1.6397720575332642, + "learning_rate": 1.3274011424893245e-05, + "loss": 0.4252, + "step": 4090 + }, + { + "epoch": 1.3636666666666666, + "grad_norm": 2.5856356620788574, + "learning_rate": 1.3270346431631706e-05, + "loss": 0.4344, + "step": 4091 + }, + { + "epoch": 1.3639999999999999, + "grad_norm": 1.8829457759857178, + "learning_rate": 1.3266680946417346e-05, + "loss": 0.3651, + "step": 4092 + }, + { + "epoch": 1.3643333333333334, + "grad_norm": 2.1430158615112305, + "learning_rate": 1.3263014969801542e-05, + "loss": 0.4369, + "step": 4093 + }, + { + "epoch": 1.3646666666666667, + "grad_norm": 2.1041791439056396, + "learning_rate": 1.325934850233577e-05, + "loss": 0.4333, + "step": 4094 + }, + { + "epoch": 1.365, + "grad_norm": 1.888534426689148, + "learning_rate": 1.3255681544571568e-05, + "loss": 0.4355, + "step": 4095 + }, + { + "epoch": 1.3653333333333333, + "grad_norm": 2.1959187984466553, + "learning_rate": 1.3252014097060553e-05, + "loss": 0.4782, + "step": 4096 + }, + { + "epoch": 1.3656666666666666, + "grad_norm": 1.9827972650527954, + "learning_rate": 1.3248346160354413e-05, + "loss": 0.4064, + "step": 4097 + }, + { + "epoch": 1.366, + "grad_norm": 2.5645480155944824, + "learning_rate": 1.3244677735004904e-05, + "loss": 0.4141, + "step": 4098 + }, + { + "epoch": 1.3663333333333334, + "grad_norm": 1.9843820333480835, + "learning_rate": 1.3241008821563867e-05, + "loss": 0.4257, + "step": 4099 + }, + { + "epoch": 1.3666666666666667, + "grad_norm": 2.388456106185913, + "learning_rate": 1.3237339420583213e-05, + "loss": 0.4595, + "step": 4100 + }, + { + "epoch": 1.367, + "grad_norm": 2.3298614025115967, + "learning_rate": 1.3233669532614914e-05, + "loss": 0.4491, + "step": 4101 + }, + { + "epoch": 1.3673333333333333, + "grad_norm": 2.3660905361175537, + "learning_rate": 1.3229999158211037e-05, + "loss": 0.4071, + "step": 4102 + }, + { + "epoch": 1.3676666666666666, + "grad_norm": 2.401282787322998, + "learning_rate": 1.32263282979237e-05, + "loss": 0.4228, + "step": 4103 + }, + { + "epoch": 1.3679999999999999, + "grad_norm": 2.137641429901123, + "learning_rate": 1.3222656952305113e-05, + "loss": 0.3815, + "step": 4104 + }, + { + "epoch": 1.3683333333333334, + "grad_norm": 2.1896190643310547, + "learning_rate": 1.3218985121907544e-05, + "loss": 0.492, + "step": 4105 + }, + { + "epoch": 1.3686666666666667, + "grad_norm": 2.185682535171509, + "learning_rate": 1.3215312807283343e-05, + "loss": 0.4173, + "step": 4106 + }, + { + "epoch": 1.369, + "grad_norm": 2.296051025390625, + "learning_rate": 1.3211640008984934e-05, + "loss": 0.4327, + "step": 4107 + }, + { + "epoch": 1.3693333333333333, + "grad_norm": 2.3760504722595215, + "learning_rate": 1.3207966727564801e-05, + "loss": 0.4425, + "step": 4108 + }, + { + "epoch": 1.3696666666666666, + "grad_norm": 2.2271125316619873, + "learning_rate": 1.3204292963575517e-05, + "loss": 0.4342, + "step": 4109 + }, + { + "epoch": 1.37, + "grad_norm": 3.9666123390197754, + "learning_rate": 1.3200618717569716e-05, + "loss": 0.4202, + "step": 4110 + }, + { + "epoch": 1.3703333333333334, + "grad_norm": 2.1083984375, + "learning_rate": 1.3196943990100112e-05, + "loss": 0.4411, + "step": 4111 + }, + { + "epoch": 1.3706666666666667, + "grad_norm": 2.48651385307312, + "learning_rate": 1.319326878171949e-05, + "loss": 0.4464, + "step": 4112 + }, + { + "epoch": 1.371, + "grad_norm": 2.1207480430603027, + "learning_rate": 1.3189593092980701e-05, + "loss": 0.4058, + "step": 4113 + }, + { + "epoch": 1.3713333333333333, + "grad_norm": 2.028930425643921, + "learning_rate": 1.3185916924436675e-05, + "loss": 0.4092, + "step": 4114 + }, + { + "epoch": 1.3716666666666666, + "grad_norm": 1.9226911067962646, + "learning_rate": 1.3182240276640408e-05, + "loss": 0.4329, + "step": 4115 + }, + { + "epoch": 1.3719999999999999, + "grad_norm": 2.336848258972168, + "learning_rate": 1.317856315014498e-05, + "loss": 0.4182, + "step": 4116 + }, + { + "epoch": 1.3723333333333334, + "grad_norm": 3.076395034790039, + "learning_rate": 1.3174885545503528e-05, + "loss": 0.4347, + "step": 4117 + }, + { + "epoch": 1.3726666666666667, + "grad_norm": 1.9304423332214355, + "learning_rate": 1.3171207463269272e-05, + "loss": 0.4781, + "step": 4118 + }, + { + "epoch": 1.373, + "grad_norm": 2.2799601554870605, + "learning_rate": 1.3167528903995497e-05, + "loss": 0.4551, + "step": 4119 + }, + { + "epoch": 1.3733333333333333, + "grad_norm": 3.565476179122925, + "learning_rate": 1.3163849868235566e-05, + "loss": 0.4373, + "step": 4120 + }, + { + "epoch": 1.3736666666666666, + "grad_norm": 2.1394705772399902, + "learning_rate": 1.316017035654291e-05, + "loss": 0.4481, + "step": 4121 + }, + { + "epoch": 1.374, + "grad_norm": 2.463912010192871, + "learning_rate": 1.3156490369471026e-05, + "loss": 0.4243, + "step": 4122 + }, + { + "epoch": 1.3743333333333334, + "grad_norm": 2.45925235748291, + "learning_rate": 1.3152809907573496e-05, + "loss": 0.4061, + "step": 4123 + }, + { + "epoch": 1.3746666666666667, + "grad_norm": 1.8023463487625122, + "learning_rate": 1.314912897140396e-05, + "loss": 0.4102, + "step": 4124 + }, + { + "epoch": 1.375, + "grad_norm": 2.850297689437866, + "learning_rate": 1.3145447561516138e-05, + "loss": 0.4141, + "step": 4125 + }, + { + "epoch": 1.3753333333333333, + "grad_norm": 3.6914775371551514, + "learning_rate": 1.3141765678463819e-05, + "loss": 0.429, + "step": 4126 + }, + { + "epoch": 1.3756666666666666, + "grad_norm": 1.8386235237121582, + "learning_rate": 1.313808332280086e-05, + "loss": 0.467, + "step": 4127 + }, + { + "epoch": 1.376, + "grad_norm": 3.4109280109405518, + "learning_rate": 1.3134400495081197e-05, + "loss": 0.3899, + "step": 4128 + }, + { + "epoch": 1.3763333333333334, + "grad_norm": 1.9983510971069336, + "learning_rate": 1.3130717195858825e-05, + "loss": 0.3975, + "step": 4129 + }, + { + "epoch": 1.3766666666666667, + "grad_norm": 2.0289130210876465, + "learning_rate": 1.312703342568782e-05, + "loss": 0.4762, + "step": 4130 + }, + { + "epoch": 1.377, + "grad_norm": 2.032121419906616, + "learning_rate": 1.3123349185122328e-05, + "loss": 0.4615, + "step": 4131 + }, + { + "epoch": 1.3773333333333333, + "grad_norm": 1.9992647171020508, + "learning_rate": 1.3119664474716558e-05, + "loss": 0.4131, + "step": 4132 + }, + { + "epoch": 1.3776666666666666, + "grad_norm": 1.9083448648452759, + "learning_rate": 1.3115979295024796e-05, + "loss": 0.4355, + "step": 4133 + }, + { + "epoch": 1.3780000000000001, + "grad_norm": 2.069701671600342, + "learning_rate": 1.3112293646601402e-05, + "loss": 0.4076, + "step": 4134 + }, + { + "epoch": 1.3783333333333334, + "grad_norm": 1.7754952907562256, + "learning_rate": 1.3108607530000796e-05, + "loss": 0.5033, + "step": 4135 + }, + { + "epoch": 1.3786666666666667, + "grad_norm": 2.0060977935791016, + "learning_rate": 1.310492094577748e-05, + "loss": 0.4281, + "step": 4136 + }, + { + "epoch": 1.379, + "grad_norm": 2.482656240463257, + "learning_rate": 1.3101233894486018e-05, + "loss": 0.4412, + "step": 4137 + }, + { + "epoch": 1.3793333333333333, + "grad_norm": 3.8850388526916504, + "learning_rate": 1.3097546376681046e-05, + "loss": 0.4595, + "step": 4138 + }, + { + "epoch": 1.3796666666666666, + "grad_norm": 1.8450167179107666, + "learning_rate": 1.3093858392917271e-05, + "loss": 0.4221, + "step": 4139 + }, + { + "epoch": 1.38, + "grad_norm": 2.3598058223724365, + "learning_rate": 1.3090169943749475e-05, + "loss": 0.4117, + "step": 4140 + }, + { + "epoch": 1.3803333333333334, + "grad_norm": 2.484260082244873, + "learning_rate": 1.3086481029732504e-05, + "loss": 0.4259, + "step": 4141 + }, + { + "epoch": 1.3806666666666667, + "grad_norm": 2.1077427864074707, + "learning_rate": 1.3082791651421269e-05, + "loss": 0.4391, + "step": 4142 + }, + { + "epoch": 1.381, + "grad_norm": 2.0911996364593506, + "learning_rate": 1.307910180937076e-05, + "loss": 0.4191, + "step": 4143 + }, + { + "epoch": 1.3813333333333333, + "grad_norm": 2.3289363384246826, + "learning_rate": 1.307541150413604e-05, + "loss": 0.4203, + "step": 4144 + }, + { + "epoch": 1.3816666666666666, + "grad_norm": 2.1173202991485596, + "learning_rate": 1.307172073627223e-05, + "loss": 0.3889, + "step": 4145 + }, + { + "epoch": 1.3820000000000001, + "grad_norm": 2.2455577850341797, + "learning_rate": 1.3068029506334526e-05, + "loss": 0.3989, + "step": 4146 + }, + { + "epoch": 1.3823333333333334, + "grad_norm": 2.0102710723876953, + "learning_rate": 1.3064337814878192e-05, + "loss": 0.4196, + "step": 4147 + }, + { + "epoch": 1.3826666666666667, + "grad_norm": 1.7816983461380005, + "learning_rate": 1.3060645662458569e-05, + "loss": 0.4413, + "step": 4148 + }, + { + "epoch": 1.383, + "grad_norm": 2.0734975337982178, + "learning_rate": 1.3056953049631059e-05, + "loss": 0.4356, + "step": 4149 + }, + { + "epoch": 1.3833333333333333, + "grad_norm": 1.8870151042938232, + "learning_rate": 1.3053259976951134e-05, + "loss": 0.4313, + "step": 4150 + }, + { + "epoch": 1.3836666666666666, + "grad_norm": 1.9066005945205688, + "learning_rate": 1.3049566444974335e-05, + "loss": 0.4346, + "step": 4151 + }, + { + "epoch": 1.384, + "grad_norm": 1.7835731506347656, + "learning_rate": 1.3045872454256278e-05, + "loss": 0.4192, + "step": 4152 + }, + { + "epoch": 1.3843333333333334, + "grad_norm": 4.209802150726318, + "learning_rate": 1.3042178005352644e-05, + "loss": 0.4578, + "step": 4153 + }, + { + "epoch": 1.3846666666666667, + "grad_norm": 3.0387399196624756, + "learning_rate": 1.3038483098819181e-05, + "loss": 0.4635, + "step": 4154 + }, + { + "epoch": 1.385, + "grad_norm": 2.3739259243011475, + "learning_rate": 1.3034787735211708e-05, + "loss": 0.425, + "step": 4155 + }, + { + "epoch": 1.3853333333333333, + "grad_norm": 3.2760815620422363, + "learning_rate": 1.3031091915086114e-05, + "loss": 0.4494, + "step": 4156 + }, + { + "epoch": 1.3856666666666666, + "grad_norm": 1.884202003479004, + "learning_rate": 1.302739563899835e-05, + "loss": 0.3916, + "step": 4157 + }, + { + "epoch": 1.3860000000000001, + "grad_norm": 1.7982455492019653, + "learning_rate": 1.3023698907504447e-05, + "loss": 0.4165, + "step": 4158 + }, + { + "epoch": 1.3863333333333334, + "grad_norm": 2.287827968597412, + "learning_rate": 1.3020001721160495e-05, + "loss": 0.4435, + "step": 4159 + }, + { + "epoch": 1.3866666666666667, + "grad_norm": 2.2520103454589844, + "learning_rate": 1.3016304080522657e-05, + "loss": 0.4151, + "step": 4160 + }, + { + "epoch": 1.387, + "grad_norm": 2.330341100692749, + "learning_rate": 1.301260598614716e-05, + "loss": 0.4081, + "step": 4161 + }, + { + "epoch": 1.3873333333333333, + "grad_norm": 2.341596841812134, + "learning_rate": 1.3008907438590308e-05, + "loss": 0.4052, + "step": 4162 + }, + { + "epoch": 1.3876666666666666, + "grad_norm": 1.9963903427124023, + "learning_rate": 1.300520843840846e-05, + "loss": 0.4397, + "step": 4163 + }, + { + "epoch": 1.388, + "grad_norm": 1.8314616680145264, + "learning_rate": 1.3001508986158057e-05, + "loss": 0.4081, + "step": 4164 + }, + { + "epoch": 1.3883333333333332, + "grad_norm": 2.0011789798736572, + "learning_rate": 1.29978090823956e-05, + "loss": 0.4197, + "step": 4165 + }, + { + "epoch": 1.3886666666666667, + "grad_norm": 2.13606858253479, + "learning_rate": 1.2994108727677657e-05, + "loss": 0.3693, + "step": 4166 + }, + { + "epoch": 1.389, + "grad_norm": 2.2595608234405518, + "learning_rate": 1.2990407922560869e-05, + "loss": 0.4557, + "step": 4167 + }, + { + "epoch": 1.3893333333333333, + "grad_norm": 2.0692219734191895, + "learning_rate": 1.2986706667601938e-05, + "loss": 0.4332, + "step": 4168 + }, + { + "epoch": 1.3896666666666666, + "grad_norm": 2.037379503250122, + "learning_rate": 1.2983004963357644e-05, + "loss": 0.4415, + "step": 4169 + }, + { + "epoch": 1.3900000000000001, + "grad_norm": 2.2836711406707764, + "learning_rate": 1.297930281038482e-05, + "loss": 0.4062, + "step": 4170 + }, + { + "epoch": 1.3903333333333334, + "grad_norm": 2.0799200534820557, + "learning_rate": 1.2975600209240384e-05, + "loss": 0.4879, + "step": 4171 + }, + { + "epoch": 1.3906666666666667, + "grad_norm": 1.6501466035842896, + "learning_rate": 1.2971897160481305e-05, + "loss": 0.3983, + "step": 4172 + }, + { + "epoch": 1.391, + "grad_norm": 1.6213264465332031, + "learning_rate": 1.2968193664664633e-05, + "loss": 0.3907, + "step": 4173 + }, + { + "epoch": 1.3913333333333333, + "grad_norm": 1.9443094730377197, + "learning_rate": 1.296448972234747e-05, + "loss": 0.4296, + "step": 4174 + }, + { + "epoch": 1.3916666666666666, + "grad_norm": 2.3601396083831787, + "learning_rate": 1.2960785334087e-05, + "loss": 0.4087, + "step": 4175 + }, + { + "epoch": 1.392, + "grad_norm": 2.058213472366333, + "learning_rate": 1.2957080500440469e-05, + "loss": 0.4775, + "step": 4176 + }, + { + "epoch": 1.3923333333333332, + "grad_norm": 2.0184485912323, + "learning_rate": 1.2953375221965182e-05, + "loss": 0.4488, + "step": 4177 + }, + { + "epoch": 1.3926666666666667, + "grad_norm": 3.300091028213501, + "learning_rate": 1.2949669499218531e-05, + "loss": 0.4342, + "step": 4178 + }, + { + "epoch": 1.393, + "grad_norm": 2.088280439376831, + "learning_rate": 1.2945963332757949e-05, + "loss": 0.4188, + "step": 4179 + }, + { + "epoch": 1.3933333333333333, + "grad_norm": 1.9477156400680542, + "learning_rate": 1.2942256723140951e-05, + "loss": 0.4261, + "step": 4180 + }, + { + "epoch": 1.3936666666666666, + "grad_norm": 1.747100591659546, + "learning_rate": 1.2938549670925122e-05, + "loss": 0.4254, + "step": 4181 + }, + { + "epoch": 1.3940000000000001, + "grad_norm": 2.5268139839172363, + "learning_rate": 1.2934842176668105e-05, + "loss": 0.4268, + "step": 4182 + }, + { + "epoch": 1.3943333333333334, + "grad_norm": 2.5111262798309326, + "learning_rate": 1.2931134240927609e-05, + "loss": 0.4268, + "step": 4183 + }, + { + "epoch": 1.3946666666666667, + "grad_norm": 2.0148518085479736, + "learning_rate": 1.2927425864261415e-05, + "loss": 0.4226, + "step": 4184 + }, + { + "epoch": 1.395, + "grad_norm": 1.8309370279312134, + "learning_rate": 1.2923717047227368e-05, + "loss": 0.4421, + "step": 4185 + }, + { + "epoch": 1.3953333333333333, + "grad_norm": 2.365903377532959, + "learning_rate": 1.2920007790383383e-05, + "loss": 0.4245, + "step": 4186 + }, + { + "epoch": 1.3956666666666666, + "grad_norm": 2.0862324237823486, + "learning_rate": 1.291629809428743e-05, + "loss": 0.412, + "step": 4187 + }, + { + "epoch": 1.396, + "grad_norm": 2.3952505588531494, + "learning_rate": 1.2912587959497556e-05, + "loss": 0.4244, + "step": 4188 + }, + { + "epoch": 1.3963333333333332, + "grad_norm": 2.0573673248291016, + "learning_rate": 1.290887738657187e-05, + "loss": 0.4459, + "step": 4189 + }, + { + "epoch": 1.3966666666666667, + "grad_norm": 1.9212181568145752, + "learning_rate": 1.290516637606855e-05, + "loss": 0.4441, + "step": 4190 + }, + { + "epoch": 1.397, + "grad_norm": 1.8616859912872314, + "learning_rate": 1.2901454928545834e-05, + "loss": 0.4103, + "step": 4191 + }, + { + "epoch": 1.3973333333333333, + "grad_norm": 2.9636409282684326, + "learning_rate": 1.2897743044562032e-05, + "loss": 0.412, + "step": 4192 + }, + { + "epoch": 1.3976666666666666, + "grad_norm": 2.1088688373565674, + "learning_rate": 1.2894030724675515e-05, + "loss": 0.4531, + "step": 4193 + }, + { + "epoch": 1.3980000000000001, + "grad_norm": 2.3544633388519287, + "learning_rate": 1.2890317969444716e-05, + "loss": 0.4072, + "step": 4194 + }, + { + "epoch": 1.3983333333333334, + "grad_norm": 2.6100151538848877, + "learning_rate": 1.288660477942815e-05, + "loss": 0.4429, + "step": 4195 + }, + { + "epoch": 1.3986666666666667, + "grad_norm": 1.788604974746704, + "learning_rate": 1.2882891155184375e-05, + "loss": 0.4327, + "step": 4196 + }, + { + "epoch": 1.399, + "grad_norm": 2.2453455924987793, + "learning_rate": 1.2879177097272033e-05, + "loss": 0.3905, + "step": 4197 + }, + { + "epoch": 1.3993333333333333, + "grad_norm": 3.0299816131591797, + "learning_rate": 1.2875462606249817e-05, + "loss": 0.4705, + "step": 4198 + }, + { + "epoch": 1.3996666666666666, + "grad_norm": 2.3069043159484863, + "learning_rate": 1.2871747682676498e-05, + "loss": 0.4298, + "step": 4199 + }, + { + "epoch": 1.4, + "grad_norm": 2.5730926990509033, + "learning_rate": 1.2868032327110904e-05, + "loss": 0.4247, + "step": 4200 + }, + { + "epoch": 1.4003333333333332, + "grad_norm": 2.4371118545532227, + "learning_rate": 1.2864316540111928e-05, + "loss": 0.4588, + "step": 4201 + }, + { + "epoch": 1.4006666666666667, + "grad_norm": 1.8527507781982422, + "learning_rate": 1.2860600322238532e-05, + "loss": 0.3979, + "step": 4202 + }, + { + "epoch": 1.401, + "grad_norm": 2.4099068641662598, + "learning_rate": 1.2856883674049736e-05, + "loss": 0.417, + "step": 4203 + }, + { + "epoch": 1.4013333333333333, + "grad_norm": 1.8456270694732666, + "learning_rate": 1.2853166596104635e-05, + "loss": 0.4306, + "step": 4204 + }, + { + "epoch": 1.4016666666666666, + "grad_norm": 1.9952774047851562, + "learning_rate": 1.284944908896238e-05, + "loss": 0.428, + "step": 4205 + }, + { + "epoch": 1.4020000000000001, + "grad_norm": 2.6461782455444336, + "learning_rate": 1.2845731153182191e-05, + "loss": 0.4154, + "step": 4206 + }, + { + "epoch": 1.4023333333333334, + "grad_norm": 2.365670919418335, + "learning_rate": 1.284201278932335e-05, + "loss": 0.3661, + "step": 4207 + }, + { + "epoch": 1.4026666666666667, + "grad_norm": 1.9815982580184937, + "learning_rate": 1.2838293997945204e-05, + "loss": 0.3623, + "step": 4208 + }, + { + "epoch": 1.403, + "grad_norm": 2.3917906284332275, + "learning_rate": 1.2834574779607163e-05, + "loss": 0.4267, + "step": 4209 + }, + { + "epoch": 1.4033333333333333, + "grad_norm": 1.9307727813720703, + "learning_rate": 1.2830855134868705e-05, + "loss": 0.4152, + "step": 4210 + }, + { + "epoch": 1.4036666666666666, + "grad_norm": 1.7345914840698242, + "learning_rate": 1.2827135064289374e-05, + "loss": 0.441, + "step": 4211 + }, + { + "epoch": 1.404, + "grad_norm": 1.7135056257247925, + "learning_rate": 1.2823414568428767e-05, + "loss": 0.4222, + "step": 4212 + }, + { + "epoch": 1.4043333333333332, + "grad_norm": 2.3457679748535156, + "learning_rate": 1.2819693647846554e-05, + "loss": 0.3848, + "step": 4213 + }, + { + "epoch": 1.4046666666666667, + "grad_norm": 1.9207227230072021, + "learning_rate": 1.281597230310247e-05, + "loss": 0.4733, + "step": 4214 + }, + { + "epoch": 1.405, + "grad_norm": 2.407586097717285, + "learning_rate": 1.2812250534756307e-05, + "loss": 0.4151, + "step": 4215 + }, + { + "epoch": 1.4053333333333333, + "grad_norm": 2.2704946994781494, + "learning_rate": 1.280852834336793e-05, + "loss": 0.414, + "step": 4216 + }, + { + "epoch": 1.4056666666666666, + "grad_norm": 2.3929975032806396, + "learning_rate": 1.2804805729497255e-05, + "loss": 0.4469, + "step": 4217 + }, + { + "epoch": 1.4060000000000001, + "grad_norm": 1.881379246711731, + "learning_rate": 1.2801082693704272e-05, + "loss": 0.4112, + "step": 4218 + }, + { + "epoch": 1.4063333333333334, + "grad_norm": 2.5797312259674072, + "learning_rate": 1.279735923654903e-05, + "loss": 0.4388, + "step": 4219 + }, + { + "epoch": 1.4066666666666667, + "grad_norm": 2.004080057144165, + "learning_rate": 1.2793635358591645e-05, + "loss": 0.4202, + "step": 4220 + }, + { + "epoch": 1.407, + "grad_norm": 2.1702606678009033, + "learning_rate": 1.2789911060392295e-05, + "loss": 0.4413, + "step": 4221 + }, + { + "epoch": 1.4073333333333333, + "grad_norm": 2.494495153427124, + "learning_rate": 1.2786186342511216e-05, + "loss": 0.4512, + "step": 4222 + }, + { + "epoch": 1.4076666666666666, + "grad_norm": 2.9879510402679443, + "learning_rate": 1.278246120550871e-05, + "loss": 0.4321, + "step": 4223 + }, + { + "epoch": 1.408, + "grad_norm": 2.1473758220672607, + "learning_rate": 1.277873564994515e-05, + "loss": 0.4137, + "step": 4224 + }, + { + "epoch": 1.4083333333333332, + "grad_norm": 2.226731061935425, + "learning_rate": 1.2775009676380959e-05, + "loss": 0.4078, + "step": 4225 + }, + { + "epoch": 1.4086666666666667, + "grad_norm": 1.8874210119247437, + "learning_rate": 1.2771283285376633e-05, + "loss": 0.4117, + "step": 4226 + }, + { + "epoch": 1.409, + "grad_norm": 2.1560325622558594, + "learning_rate": 1.2767556477492722e-05, + "loss": 0.413, + "step": 4227 + }, + { + "epoch": 1.4093333333333333, + "grad_norm": 2.2125608921051025, + "learning_rate": 1.276382925328985e-05, + "loss": 0.4436, + "step": 4228 + }, + { + "epoch": 1.4096666666666666, + "grad_norm": 1.8448435068130493, + "learning_rate": 1.2760101613328693e-05, + "loss": 0.3878, + "step": 4229 + }, + { + "epoch": 1.41, + "grad_norm": 2.103559732437134, + "learning_rate": 1.2756373558169992e-05, + "loss": 0.4465, + "step": 4230 + }, + { + "epoch": 1.4103333333333334, + "grad_norm": 2.136390209197998, + "learning_rate": 1.2752645088374558e-05, + "loss": 0.4489, + "step": 4231 + }, + { + "epoch": 1.4106666666666667, + "grad_norm": 2.0648162364959717, + "learning_rate": 1.2748916204503257e-05, + "loss": 0.4811, + "step": 4232 + }, + { + "epoch": 1.411, + "grad_norm": 2.2573251724243164, + "learning_rate": 1.274518690711701e-05, + "loss": 0.4192, + "step": 4233 + }, + { + "epoch": 1.4113333333333333, + "grad_norm": 2.232323408126831, + "learning_rate": 1.2741457196776823e-05, + "loss": 0.4318, + "step": 4234 + }, + { + "epoch": 1.4116666666666666, + "grad_norm": 2.2189278602600098, + "learning_rate": 1.2737727074043741e-05, + "loss": 0.3894, + "step": 4235 + }, + { + "epoch": 1.412, + "grad_norm": 1.9611910581588745, + "learning_rate": 1.2733996539478883e-05, + "loss": 0.379, + "step": 4236 + }, + { + "epoch": 1.4123333333333332, + "grad_norm": 2.103881359100342, + "learning_rate": 1.2730265593643429e-05, + "loss": 0.4377, + "step": 4237 + }, + { + "epoch": 1.4126666666666667, + "grad_norm": 2.030085802078247, + "learning_rate": 1.2726534237098614e-05, + "loss": 0.4029, + "step": 4238 + }, + { + "epoch": 1.413, + "grad_norm": 2.2179367542266846, + "learning_rate": 1.2722802470405744e-05, + "loss": 0.3927, + "step": 4239 + }, + { + "epoch": 1.4133333333333333, + "grad_norm": 1.8742170333862305, + "learning_rate": 1.2719070294126183e-05, + "loss": 0.444, + "step": 4240 + }, + { + "epoch": 1.4136666666666666, + "grad_norm": 1.6942081451416016, + "learning_rate": 1.2715337708821351e-05, + "loss": 0.4189, + "step": 4241 + }, + { + "epoch": 1.414, + "grad_norm": 2.2812893390655518, + "learning_rate": 1.271160471505274e-05, + "loss": 0.3795, + "step": 4242 + }, + { + "epoch": 1.4143333333333334, + "grad_norm": 2.415921449661255, + "learning_rate": 1.2707871313381897e-05, + "loss": 0.4457, + "step": 4243 + }, + { + "epoch": 1.4146666666666667, + "grad_norm": 2.409968614578247, + "learning_rate": 1.270413750437043e-05, + "loss": 0.4616, + "step": 4244 + }, + { + "epoch": 1.415, + "grad_norm": 1.9006694555282593, + "learning_rate": 1.270040328858001e-05, + "loss": 0.4478, + "step": 4245 + }, + { + "epoch": 1.4153333333333333, + "grad_norm": 2.365903377532959, + "learning_rate": 1.2696668666572369e-05, + "loss": 0.4084, + "step": 4246 + }, + { + "epoch": 1.4156666666666666, + "grad_norm": 1.659257173538208, + "learning_rate": 1.2692933638909299e-05, + "loss": 0.3946, + "step": 4247 + }, + { + "epoch": 1.416, + "grad_norm": 1.7140274047851562, + "learning_rate": 1.2689198206152657e-05, + "loss": 0.4016, + "step": 4248 + }, + { + "epoch": 1.4163333333333332, + "grad_norm": 2.0872995853424072, + "learning_rate": 1.2685462368864358e-05, + "loss": 0.4255, + "step": 4249 + }, + { + "epoch": 1.4166666666666667, + "grad_norm": 1.7456756830215454, + "learning_rate": 1.2681726127606374e-05, + "loss": 0.3945, + "step": 4250 + }, + { + "epoch": 1.417, + "grad_norm": 2.118865489959717, + "learning_rate": 1.2677989482940747e-05, + "loss": 0.4694, + "step": 4251 + }, + { + "epoch": 1.4173333333333333, + "grad_norm": 1.9375540018081665, + "learning_rate": 1.2674252435429569e-05, + "loss": 0.4163, + "step": 4252 + }, + { + "epoch": 1.4176666666666666, + "grad_norm": 2.439126968383789, + "learning_rate": 1.2670514985634998e-05, + "loss": 0.4397, + "step": 4253 + }, + { + "epoch": 1.418, + "grad_norm": 1.9608159065246582, + "learning_rate": 1.2666777134119257e-05, + "loss": 0.4031, + "step": 4254 + }, + { + "epoch": 1.4183333333333334, + "grad_norm": 2.126660108566284, + "learning_rate": 1.2663038881444622e-05, + "loss": 0.4243, + "step": 4255 + }, + { + "epoch": 1.4186666666666667, + "grad_norm": 1.8863391876220703, + "learning_rate": 1.2659300228173435e-05, + "loss": 0.3933, + "step": 4256 + }, + { + "epoch": 1.419, + "grad_norm": 2.2172396183013916, + "learning_rate": 1.265556117486809e-05, + "loss": 0.3946, + "step": 4257 + }, + { + "epoch": 1.4193333333333333, + "grad_norm": 2.633141040802002, + "learning_rate": 1.2651821722091051e-05, + "loss": 0.4248, + "step": 4258 + }, + { + "epoch": 1.4196666666666666, + "grad_norm": 2.101621627807617, + "learning_rate": 1.2648081870404836e-05, + "loss": 0.4445, + "step": 4259 + }, + { + "epoch": 1.42, + "grad_norm": 2.975247859954834, + "learning_rate": 1.2644341620372025e-05, + "loss": 0.4428, + "step": 4260 + }, + { + "epoch": 1.4203333333333332, + "grad_norm": 2.3593053817749023, + "learning_rate": 1.2640600972555255e-05, + "loss": 0.4344, + "step": 4261 + }, + { + "epoch": 1.4206666666666667, + "grad_norm": 3.1870522499084473, + "learning_rate": 1.2636859927517234e-05, + "loss": 0.4423, + "step": 4262 + }, + { + "epoch": 1.421, + "grad_norm": 2.1950204372406006, + "learning_rate": 1.2633118485820713e-05, + "loss": 0.4731, + "step": 4263 + }, + { + "epoch": 1.4213333333333333, + "grad_norm": 2.4002842903137207, + "learning_rate": 1.262937664802851e-05, + "loss": 0.4445, + "step": 4264 + }, + { + "epoch": 1.4216666666666666, + "grad_norm": 3.924745559692383, + "learning_rate": 1.2625634414703512e-05, + "loss": 0.4294, + "step": 4265 + }, + { + "epoch": 1.422, + "grad_norm": 2.0960519313812256, + "learning_rate": 1.2621891786408648e-05, + "loss": 0.421, + "step": 4266 + }, + { + "epoch": 1.4223333333333334, + "grad_norm": 2.5537707805633545, + "learning_rate": 1.2618148763706921e-05, + "loss": 0.4626, + "step": 4267 + }, + { + "epoch": 1.4226666666666667, + "grad_norm": 2.055589437484741, + "learning_rate": 1.2614405347161388e-05, + "loss": 0.4283, + "step": 4268 + }, + { + "epoch": 1.423, + "grad_norm": 2.118973731994629, + "learning_rate": 1.2610661537335163e-05, + "loss": 0.4145, + "step": 4269 + }, + { + "epoch": 1.4233333333333333, + "grad_norm": 2.142054557800293, + "learning_rate": 1.2606917334791415e-05, + "loss": 0.4084, + "step": 4270 + }, + { + "epoch": 1.4236666666666666, + "grad_norm": 2.020226001739502, + "learning_rate": 1.260317274009339e-05, + "loss": 0.4051, + "step": 4271 + }, + { + "epoch": 1.424, + "grad_norm": 2.133958101272583, + "learning_rate": 1.2599427753804377e-05, + "loss": 0.4619, + "step": 4272 + }, + { + "epoch": 1.4243333333333332, + "grad_norm": 2.3708910942077637, + "learning_rate": 1.2595682376487723e-05, + "loss": 0.4498, + "step": 4273 + }, + { + "epoch": 1.4246666666666667, + "grad_norm": 2.2390568256378174, + "learning_rate": 1.2591936608706845e-05, + "loss": 0.4216, + "step": 4274 + }, + { + "epoch": 1.425, + "grad_norm": 2.2441349029541016, + "learning_rate": 1.2588190451025209e-05, + "loss": 0.4425, + "step": 4275 + }, + { + "epoch": 1.4253333333333333, + "grad_norm": 2.667358875274658, + "learning_rate": 1.2584443904006345e-05, + "loss": 0.3892, + "step": 4276 + }, + { + "epoch": 1.4256666666666666, + "grad_norm": 2.22326922416687, + "learning_rate": 1.2580696968213842e-05, + "loss": 0.428, + "step": 4277 + }, + { + "epoch": 1.426, + "grad_norm": 2.261275291442871, + "learning_rate": 1.257694964421134e-05, + "loss": 0.4134, + "step": 4278 + }, + { + "epoch": 1.4263333333333335, + "grad_norm": 1.8703452348709106, + "learning_rate": 1.2573201932562546e-05, + "loss": 0.4115, + "step": 4279 + }, + { + "epoch": 1.4266666666666667, + "grad_norm": 2.490893840789795, + "learning_rate": 1.2569453833831222e-05, + "loss": 0.4135, + "step": 4280 + }, + { + "epoch": 1.427, + "grad_norm": 3.165391683578491, + "learning_rate": 1.256570534858119e-05, + "loss": 0.4348, + "step": 4281 + }, + { + "epoch": 1.4273333333333333, + "grad_norm": 2.0148327350616455, + "learning_rate": 1.2561956477376325e-05, + "loss": 0.4419, + "step": 4282 + }, + { + "epoch": 1.4276666666666666, + "grad_norm": 2.844803810119629, + "learning_rate": 1.2558207220780568e-05, + "loss": 0.396, + "step": 4283 + }, + { + "epoch": 1.428, + "grad_norm": 2.0547821521759033, + "learning_rate": 1.2554457579357906e-05, + "loss": 0.3718, + "step": 4284 + }, + { + "epoch": 1.4283333333333332, + "grad_norm": 2.3633439540863037, + "learning_rate": 1.2550707553672399e-05, + "loss": 0.4454, + "step": 4285 + }, + { + "epoch": 1.4286666666666665, + "grad_norm": 2.792901039123535, + "learning_rate": 1.2546957144288154e-05, + "loss": 0.4301, + "step": 4286 + }, + { + "epoch": 1.429, + "grad_norm": 2.525186061859131, + "learning_rate": 1.2543206351769341e-05, + "loss": 0.4385, + "step": 4287 + }, + { + "epoch": 1.4293333333333333, + "grad_norm": 2.032254457473755, + "learning_rate": 1.2539455176680183e-05, + "loss": 0.3929, + "step": 4288 + }, + { + "epoch": 1.4296666666666666, + "grad_norm": 2.2030763626098633, + "learning_rate": 1.253570361958496e-05, + "loss": 0.412, + "step": 4289 + }, + { + "epoch": 1.43, + "grad_norm": 2.375046491622925, + "learning_rate": 1.253195168104802e-05, + "loss": 0.4145, + "step": 4290 + }, + { + "epoch": 1.4303333333333335, + "grad_norm": 2.1283063888549805, + "learning_rate": 1.2528199361633753e-05, + "loss": 0.4401, + "step": 4291 + }, + { + "epoch": 1.4306666666666668, + "grad_norm": 2.199359178543091, + "learning_rate": 1.2524446661906625e-05, + "loss": 0.3881, + "step": 4292 + }, + { + "epoch": 1.431, + "grad_norm": 1.9513942003250122, + "learning_rate": 1.252069358243114e-05, + "loss": 0.4055, + "step": 4293 + }, + { + "epoch": 1.4313333333333333, + "grad_norm": 2.7535266876220703, + "learning_rate": 1.2516940123771866e-05, + "loss": 0.414, + "step": 4294 + }, + { + "epoch": 1.4316666666666666, + "grad_norm": 2.5705654621124268, + "learning_rate": 1.2513186286493437e-05, + "loss": 0.402, + "step": 4295 + }, + { + "epoch": 1.432, + "grad_norm": 2.195105791091919, + "learning_rate": 1.2509432071160527e-05, + "loss": 0.4354, + "step": 4296 + }, + { + "epoch": 1.4323333333333332, + "grad_norm": 2.5046260356903076, + "learning_rate": 1.250567747833789e-05, + "loss": 0.4075, + "step": 4297 + }, + { + "epoch": 1.4326666666666665, + "grad_norm": 2.8288207054138184, + "learning_rate": 1.2501922508590311e-05, + "loss": 0.4041, + "step": 4298 + }, + { + "epoch": 1.433, + "grad_norm": 2.4096291065216064, + "learning_rate": 1.2498167162482649e-05, + "loss": 0.384, + "step": 4299 + }, + { + "epoch": 1.4333333333333333, + "grad_norm": 2.133258819580078, + "learning_rate": 1.2494411440579814e-05, + "loss": 0.4181, + "step": 4300 + }, + { + "epoch": 1.4336666666666666, + "grad_norm": 2.4145612716674805, + "learning_rate": 1.2490655343446773e-05, + "loss": 0.4464, + "step": 4301 + }, + { + "epoch": 1.434, + "grad_norm": 2.2793688774108887, + "learning_rate": 1.2486898871648552e-05, + "loss": 0.3992, + "step": 4302 + }, + { + "epoch": 1.4343333333333335, + "grad_norm": 2.0591046810150146, + "learning_rate": 1.2483142025750224e-05, + "loss": 0.4457, + "step": 4303 + }, + { + "epoch": 1.4346666666666668, + "grad_norm": 2.012709379196167, + "learning_rate": 1.247938480631693e-05, + "loss": 0.4734, + "step": 4304 + }, + { + "epoch": 1.435, + "grad_norm": 2.1922824382781982, + "learning_rate": 1.2475627213913861e-05, + "loss": 0.395, + "step": 4305 + }, + { + "epoch": 1.4353333333333333, + "grad_norm": 2.3593459129333496, + "learning_rate": 1.247186924910627e-05, + "loss": 0.4524, + "step": 4306 + }, + { + "epoch": 1.4356666666666666, + "grad_norm": 2.524994373321533, + "learning_rate": 1.2468110912459457e-05, + "loss": 0.402, + "step": 4307 + }, + { + "epoch": 1.436, + "grad_norm": 2.008467197418213, + "learning_rate": 1.246435220453878e-05, + "loss": 0.4128, + "step": 4308 + }, + { + "epoch": 1.4363333333333332, + "grad_norm": 2.3537662029266357, + "learning_rate": 1.2460593125909658e-05, + "loss": 0.4088, + "step": 4309 + }, + { + "epoch": 1.4366666666666665, + "grad_norm": 2.3492581844329834, + "learning_rate": 1.2456833677137563e-05, + "loss": 0.4278, + "step": 4310 + }, + { + "epoch": 1.437, + "grad_norm": 2.204594373703003, + "learning_rate": 1.2453073858788027e-05, + "loss": 0.4231, + "step": 4311 + }, + { + "epoch": 1.4373333333333334, + "grad_norm": 2.0094146728515625, + "learning_rate": 1.2449313671426626e-05, + "loss": 0.4524, + "step": 4312 + }, + { + "epoch": 1.4376666666666666, + "grad_norm": 1.835618495941162, + "learning_rate": 1.2445553115619004e-05, + "loss": 0.4303, + "step": 4313 + }, + { + "epoch": 1.438, + "grad_norm": 2.101666212081909, + "learning_rate": 1.2441792191930856e-05, + "loss": 0.4232, + "step": 4314 + }, + { + "epoch": 1.4383333333333335, + "grad_norm": 1.978222131729126, + "learning_rate": 1.2438030900927923e-05, + "loss": 0.3872, + "step": 4315 + }, + { + "epoch": 1.4386666666666668, + "grad_norm": 2.815089464187622, + "learning_rate": 1.2434269243176018e-05, + "loss": 0.4078, + "step": 4316 + }, + { + "epoch": 1.439, + "grad_norm": 3.5518078804016113, + "learning_rate": 1.2430507219240997e-05, + "loss": 0.4399, + "step": 4317 + }, + { + "epoch": 1.4393333333333334, + "grad_norm": 2.139178514480591, + "learning_rate": 1.242674482968878e-05, + "loss": 0.3986, + "step": 4318 + }, + { + "epoch": 1.4396666666666667, + "grad_norm": 2.876626968383789, + "learning_rate": 1.242298207508533e-05, + "loss": 0.3757, + "step": 4319 + }, + { + "epoch": 1.44, + "grad_norm": 2.0710902214050293, + "learning_rate": 1.2419218955996677e-05, + "loss": 0.3862, + "step": 4320 + }, + { + "epoch": 1.4403333333333332, + "grad_norm": 2.316556215286255, + "learning_rate": 1.2415455472988904e-05, + "loss": 0.4116, + "step": 4321 + }, + { + "epoch": 1.4406666666666665, + "grad_norm": 1.9579781293869019, + "learning_rate": 1.2411691626628136e-05, + "loss": 0.3893, + "step": 4322 + }, + { + "epoch": 1.441, + "grad_norm": 1.8088115453720093, + "learning_rate": 1.2407927417480567e-05, + "loss": 0.4331, + "step": 4323 + }, + { + "epoch": 1.4413333333333334, + "grad_norm": 1.8558316230773926, + "learning_rate": 1.2404162846112443e-05, + "loss": 0.437, + "step": 4324 + }, + { + "epoch": 1.4416666666666667, + "grad_norm": 2.0201961994171143, + "learning_rate": 1.2400397913090061e-05, + "loss": 0.4294, + "step": 4325 + }, + { + "epoch": 1.442, + "grad_norm": 2.7098796367645264, + "learning_rate": 1.2396632618979772e-05, + "loss": 0.4541, + "step": 4326 + }, + { + "epoch": 1.4423333333333335, + "grad_norm": 1.717038631439209, + "learning_rate": 1.2392866964347984e-05, + "loss": 0.4498, + "step": 4327 + }, + { + "epoch": 1.4426666666666668, + "grad_norm": 1.8904579877853394, + "learning_rate": 1.2389100949761159e-05, + "loss": 0.3378, + "step": 4328 + }, + { + "epoch": 1.443, + "grad_norm": 2.775022029876709, + "learning_rate": 1.238533457578581e-05, + "loss": 0.4211, + "step": 4329 + }, + { + "epoch": 1.4433333333333334, + "grad_norm": 2.3261241912841797, + "learning_rate": 1.238156784298851e-05, + "loss": 0.4391, + "step": 4330 + }, + { + "epoch": 1.4436666666666667, + "grad_norm": 1.9073102474212646, + "learning_rate": 1.2377800751935878e-05, + "loss": 0.433, + "step": 4331 + }, + { + "epoch": 1.444, + "grad_norm": 2.085239887237549, + "learning_rate": 1.2374033303194597e-05, + "loss": 0.4001, + "step": 4332 + }, + { + "epoch": 1.4443333333333332, + "grad_norm": 2.1926157474517822, + "learning_rate": 1.237026549733139e-05, + "loss": 0.4253, + "step": 4333 + }, + { + "epoch": 1.4446666666666665, + "grad_norm": 2.1272132396698, + "learning_rate": 1.2366497334913052e-05, + "loss": 0.4237, + "step": 4334 + }, + { + "epoch": 1.445, + "grad_norm": 2.0830326080322266, + "learning_rate": 1.2362728816506418e-05, + "loss": 0.4187, + "step": 4335 + }, + { + "epoch": 1.4453333333333334, + "grad_norm": 2.02469801902771, + "learning_rate": 1.2358959942678372e-05, + "loss": 0.3932, + "step": 4336 + }, + { + "epoch": 1.4456666666666667, + "grad_norm": 2.4871573448181152, + "learning_rate": 1.2355190713995868e-05, + "loss": 0.4286, + "step": 4337 + }, + { + "epoch": 1.446, + "grad_norm": 2.161851644515991, + "learning_rate": 1.23514211310259e-05, + "loss": 0.4205, + "step": 4338 + }, + { + "epoch": 1.4463333333333335, + "grad_norm": 3.922456741333008, + "learning_rate": 1.2347651194335526e-05, + "loss": 0.4583, + "step": 4339 + }, + { + "epoch": 1.4466666666666668, + "grad_norm": 3.0275306701660156, + "learning_rate": 1.2343880904491846e-05, + "loss": 0.4405, + "step": 4340 + }, + { + "epoch": 1.447, + "grad_norm": 2.3531689643859863, + "learning_rate": 1.2340110262062024e-05, + "loss": 0.4289, + "step": 4341 + }, + { + "epoch": 1.4473333333333334, + "grad_norm": 2.1766345500946045, + "learning_rate": 1.2336339267613267e-05, + "loss": 0.3877, + "step": 4342 + }, + { + "epoch": 1.4476666666666667, + "grad_norm": 2.1732988357543945, + "learning_rate": 1.233256792171284e-05, + "loss": 0.4076, + "step": 4343 + }, + { + "epoch": 1.448, + "grad_norm": 2.7216925621032715, + "learning_rate": 1.232879622492806e-05, + "loss": 0.4024, + "step": 4344 + }, + { + "epoch": 1.4483333333333333, + "grad_norm": 5.261264801025391, + "learning_rate": 1.2325024177826299e-05, + "loss": 0.4009, + "step": 4345 + }, + { + "epoch": 1.4486666666666665, + "grad_norm": 2.085413932800293, + "learning_rate": 1.2321251780974978e-05, + "loss": 0.4192, + "step": 4346 + }, + { + "epoch": 1.449, + "grad_norm": 2.1895649433135986, + "learning_rate": 1.2317479034941572e-05, + "loss": 0.3998, + "step": 4347 + }, + { + "epoch": 1.4493333333333334, + "grad_norm": 3.14558744430542, + "learning_rate": 1.2313705940293615e-05, + "loss": 0.4998, + "step": 4348 + }, + { + "epoch": 1.4496666666666667, + "grad_norm": 2.8420004844665527, + "learning_rate": 1.230993249759868e-05, + "loss": 0.4103, + "step": 4349 + }, + { + "epoch": 1.45, + "grad_norm": 2.4056644439697266, + "learning_rate": 1.2306158707424402e-05, + "loss": 0.39, + "step": 4350 + }, + { + "epoch": 1.4503333333333333, + "grad_norm": 3.1843631267547607, + "learning_rate": 1.230238457033847e-05, + "loss": 0.4368, + "step": 4351 + }, + { + "epoch": 1.4506666666666668, + "grad_norm": 2.0987491607666016, + "learning_rate": 1.2298610086908613e-05, + "loss": 0.4027, + "step": 4352 + }, + { + "epoch": 1.451, + "grad_norm": 2.6089608669281006, + "learning_rate": 1.2294835257702629e-05, + "loss": 0.4069, + "step": 4353 + }, + { + "epoch": 1.4513333333333334, + "grad_norm": 2.5659983158111572, + "learning_rate": 1.2291060083288354e-05, + "loss": 0.4045, + "step": 4354 + }, + { + "epoch": 1.4516666666666667, + "grad_norm": 4.115542411804199, + "learning_rate": 1.228728456423368e-05, + "loss": 0.4295, + "step": 4355 + }, + { + "epoch": 1.452, + "grad_norm": 3.1238865852355957, + "learning_rate": 1.2283508701106559e-05, + "loss": 0.4006, + "step": 4356 + }, + { + "epoch": 1.4523333333333333, + "grad_norm": 2.456324338912964, + "learning_rate": 1.2279732494474981e-05, + "loss": 0.4068, + "step": 4357 + }, + { + "epoch": 1.4526666666666666, + "grad_norm": 2.6554551124572754, + "learning_rate": 1.2275955944906999e-05, + "loss": 0.4274, + "step": 4358 + }, + { + "epoch": 1.453, + "grad_norm": 2.5487916469573975, + "learning_rate": 1.2272179052970711e-05, + "loss": 0.4078, + "step": 4359 + }, + { + "epoch": 1.4533333333333334, + "grad_norm": 1.9425185918807983, + "learning_rate": 1.226840181923427e-05, + "loss": 0.4499, + "step": 4360 + }, + { + "epoch": 1.4536666666666667, + "grad_norm": 2.7227954864501953, + "learning_rate": 1.2264624244265874e-05, + "loss": 0.4353, + "step": 4361 + }, + { + "epoch": 1.454, + "grad_norm": 1.856796145439148, + "learning_rate": 1.2260846328633786e-05, + "loss": 0.3951, + "step": 4362 + }, + { + "epoch": 1.4543333333333333, + "grad_norm": 2.5715739727020264, + "learning_rate": 1.2257068072906307e-05, + "loss": 0.4126, + "step": 4363 + }, + { + "epoch": 1.4546666666666668, + "grad_norm": 2.1797356605529785, + "learning_rate": 1.2253289477651793e-05, + "loss": 0.3997, + "step": 4364 + }, + { + "epoch": 1.455, + "grad_norm": 2.058387279510498, + "learning_rate": 1.2249510543438652e-05, + "loss": 0.4028, + "step": 4365 + }, + { + "epoch": 1.4553333333333334, + "grad_norm": 1.7594350576400757, + "learning_rate": 1.2245731270835344e-05, + "loss": 0.4216, + "step": 4366 + }, + { + "epoch": 1.4556666666666667, + "grad_norm": 1.9932981729507446, + "learning_rate": 1.2241951660410378e-05, + "loss": 0.413, + "step": 4367 + }, + { + "epoch": 1.456, + "grad_norm": 1.8412070274353027, + "learning_rate": 1.2238171712732316e-05, + "loss": 0.4139, + "step": 4368 + }, + { + "epoch": 1.4563333333333333, + "grad_norm": 2.04097580909729, + "learning_rate": 1.2234391428369767e-05, + "loss": 0.4107, + "step": 4369 + }, + { + "epoch": 1.4566666666666666, + "grad_norm": 1.705998420715332, + "learning_rate": 1.2230610807891394e-05, + "loss": 0.3928, + "step": 4370 + }, + { + "epoch": 1.457, + "grad_norm": 2.1191768646240234, + "learning_rate": 1.2226829851865911e-05, + "loss": 0.4348, + "step": 4371 + }, + { + "epoch": 1.4573333333333334, + "grad_norm": 2.3249552249908447, + "learning_rate": 1.222304856086208e-05, + "loss": 0.4393, + "step": 4372 + }, + { + "epoch": 1.4576666666666667, + "grad_norm": 1.8432012796401978, + "learning_rate": 1.2219266935448713e-05, + "loss": 0.392, + "step": 4373 + }, + { + "epoch": 1.458, + "grad_norm": 2.084885597229004, + "learning_rate": 1.2215484976194675e-05, + "loss": 0.3935, + "step": 4374 + }, + { + "epoch": 1.4583333333333333, + "grad_norm": 2.2801156044006348, + "learning_rate": 1.2211702683668878e-05, + "loss": 0.422, + "step": 4375 + }, + { + "epoch": 1.4586666666666668, + "grad_norm": 2.10634708404541, + "learning_rate": 1.220792005844029e-05, + "loss": 0.3396, + "step": 4376 + }, + { + "epoch": 1.459, + "grad_norm": 2.899996280670166, + "learning_rate": 1.2204137101077924e-05, + "loss": 0.423, + "step": 4377 + }, + { + "epoch": 1.4593333333333334, + "grad_norm": 2.2205164432525635, + "learning_rate": 1.220035381215084e-05, + "loss": 0.432, + "step": 4378 + }, + { + "epoch": 1.4596666666666667, + "grad_norm": 3.391493558883667, + "learning_rate": 1.2196570192228156e-05, + "loss": 0.395, + "step": 4379 + }, + { + "epoch": 1.46, + "grad_norm": 2.309601306915283, + "learning_rate": 1.2192786241879033e-05, + "loss": 0.4028, + "step": 4380 + }, + { + "epoch": 1.4603333333333333, + "grad_norm": 1.6865627765655518, + "learning_rate": 1.2189001961672688e-05, + "loss": 0.42, + "step": 4381 + }, + { + "epoch": 1.4606666666666666, + "grad_norm": 2.6494243144989014, + "learning_rate": 1.2185217352178383e-05, + "loss": 0.3731, + "step": 4382 + }, + { + "epoch": 1.461, + "grad_norm": 2.645418643951416, + "learning_rate": 1.2181432413965428e-05, + "loss": 0.4021, + "step": 4383 + }, + { + "epoch": 1.4613333333333334, + "grad_norm": 2.356947422027588, + "learning_rate": 1.2177647147603184e-05, + "loss": 0.4437, + "step": 4384 + }, + { + "epoch": 1.4616666666666667, + "grad_norm": 1.9912081956863403, + "learning_rate": 1.2173861553661069e-05, + "loss": 0.3801, + "step": 4385 + }, + { + "epoch": 1.462, + "grad_norm": 2.636651039123535, + "learning_rate": 1.2170075632708538e-05, + "loss": 0.3995, + "step": 4386 + }, + { + "epoch": 1.4623333333333333, + "grad_norm": 2.272113561630249, + "learning_rate": 1.2166289385315102e-05, + "loss": 0.3795, + "step": 4387 + }, + { + "epoch": 1.4626666666666668, + "grad_norm": 2.712053060531616, + "learning_rate": 1.2162502812050324e-05, + "loss": 0.4176, + "step": 4388 + }, + { + "epoch": 1.463, + "grad_norm": 2.0916972160339355, + "learning_rate": 1.21587159134838e-05, + "loss": 0.4206, + "step": 4389 + }, + { + "epoch": 1.4633333333333334, + "grad_norm": 2.103753089904785, + "learning_rate": 1.2154928690185201e-05, + "loss": 0.4362, + "step": 4390 + }, + { + "epoch": 1.4636666666666667, + "grad_norm": 2.4214134216308594, + "learning_rate": 1.2151141142724225e-05, + "loss": 0.4372, + "step": 4391 + }, + { + "epoch": 1.464, + "grad_norm": 2.1179451942443848, + "learning_rate": 1.2147353271670634e-05, + "loss": 0.4231, + "step": 4392 + }, + { + "epoch": 1.4643333333333333, + "grad_norm": 1.793068528175354, + "learning_rate": 1.2143565077594224e-05, + "loss": 0.3959, + "step": 4393 + }, + { + "epoch": 1.4646666666666666, + "grad_norm": 2.2874181270599365, + "learning_rate": 1.2139776561064844e-05, + "loss": 0.4459, + "step": 4394 + }, + { + "epoch": 1.465, + "grad_norm": 2.213188886642456, + "learning_rate": 1.2135987722652403e-05, + "loss": 0.4087, + "step": 4395 + }, + { + "epoch": 1.4653333333333334, + "grad_norm": 1.8653665781021118, + "learning_rate": 1.2132198562926845e-05, + "loss": 0.4489, + "step": 4396 + }, + { + "epoch": 1.4656666666666667, + "grad_norm": 2.2819623947143555, + "learning_rate": 1.2128409082458166e-05, + "loss": 0.4313, + "step": 4397 + }, + { + "epoch": 1.466, + "grad_norm": 2.0792129039764404, + "learning_rate": 1.2124619281816413e-05, + "loss": 0.4434, + "step": 4398 + }, + { + "epoch": 1.4663333333333333, + "grad_norm": 2.060321569442749, + "learning_rate": 1.212082916157168e-05, + "loss": 0.416, + "step": 4399 + }, + { + "epoch": 1.4666666666666668, + "grad_norm": 2.2844295501708984, + "learning_rate": 1.211703872229411e-05, + "loss": 0.397, + "step": 4400 + }, + { + "epoch": 1.467, + "grad_norm": 1.8361470699310303, + "learning_rate": 1.211324796455389e-05, + "loss": 0.387, + "step": 4401 + }, + { + "epoch": 1.4673333333333334, + "grad_norm": 2.2301952838897705, + "learning_rate": 1.2109456888921255e-05, + "loss": 0.3907, + "step": 4402 + }, + { + "epoch": 1.4676666666666667, + "grad_norm": 2.1160404682159424, + "learning_rate": 1.2105665495966494e-05, + "loss": 0.4006, + "step": 4403 + }, + { + "epoch": 1.468, + "grad_norm": 3.3104004859924316, + "learning_rate": 1.210187378625994e-05, + "loss": 0.4047, + "step": 4404 + }, + { + "epoch": 1.4683333333333333, + "grad_norm": 2.3976383209228516, + "learning_rate": 1.2098081760371973e-05, + "loss": 0.3786, + "step": 4405 + }, + { + "epoch": 1.4686666666666666, + "grad_norm": 1.9155336618423462, + "learning_rate": 1.2094289418873024e-05, + "loss": 0.4113, + "step": 4406 + }, + { + "epoch": 1.4689999999999999, + "grad_norm": 2.0095374584198, + "learning_rate": 1.2090496762333565e-05, + "loss": 0.381, + "step": 4407 + }, + { + "epoch": 1.4693333333333334, + "grad_norm": 3.129544258117676, + "learning_rate": 1.2086703791324118e-05, + "loss": 0.3928, + "step": 4408 + }, + { + "epoch": 1.4696666666666667, + "grad_norm": 2.0897693634033203, + "learning_rate": 1.2082910506415256e-05, + "loss": 0.4231, + "step": 4409 + }, + { + "epoch": 1.47, + "grad_norm": 1.8572827577590942, + "learning_rate": 1.2079116908177592e-05, + "loss": 0.4238, + "step": 4410 + }, + { + "epoch": 1.4703333333333333, + "grad_norm": 2.0680019855499268, + "learning_rate": 1.2075322997181802e-05, + "loss": 0.4081, + "step": 4411 + }, + { + "epoch": 1.4706666666666668, + "grad_norm": 2.1931724548339844, + "learning_rate": 1.2071528773998585e-05, + "loss": 0.4425, + "step": 4412 + }, + { + "epoch": 1.471, + "grad_norm": 3.9410653114318848, + "learning_rate": 1.2067734239198707e-05, + "loss": 0.4222, + "step": 4413 + }, + { + "epoch": 1.4713333333333334, + "grad_norm": 2.262795925140381, + "learning_rate": 1.2063939393352973e-05, + "loss": 0.4252, + "step": 4414 + }, + { + "epoch": 1.4716666666666667, + "grad_norm": 1.6508134603500366, + "learning_rate": 1.2060144237032232e-05, + "loss": 0.4444, + "step": 4415 + }, + { + "epoch": 1.472, + "grad_norm": 2.2273807525634766, + "learning_rate": 1.2056348770807386e-05, + "loss": 0.4326, + "step": 4416 + }, + { + "epoch": 1.4723333333333333, + "grad_norm": 2.2979536056518555, + "learning_rate": 1.205255299524938e-05, + "loss": 0.4072, + "step": 4417 + }, + { + "epoch": 1.4726666666666666, + "grad_norm": 2.097721576690674, + "learning_rate": 1.2048756910929206e-05, + "loss": 0.4185, + "step": 4418 + }, + { + "epoch": 1.4729999999999999, + "grad_norm": 2.219648838043213, + "learning_rate": 1.2044960518417902e-05, + "loss": 0.4139, + "step": 4419 + }, + { + "epoch": 1.4733333333333334, + "grad_norm": 2.7506115436553955, + "learning_rate": 1.2041163818286558e-05, + "loss": 0.4449, + "step": 4420 + }, + { + "epoch": 1.4736666666666667, + "grad_norm": 2.1700074672698975, + "learning_rate": 1.2037366811106302e-05, + "loss": 0.433, + "step": 4421 + }, + { + "epoch": 1.474, + "grad_norm": 2.6986870765686035, + "learning_rate": 1.2033569497448306e-05, + "loss": 0.3992, + "step": 4422 + }, + { + "epoch": 1.4743333333333333, + "grad_norm": 2.412170171737671, + "learning_rate": 1.20297718778838e-05, + "loss": 0.4091, + "step": 4423 + }, + { + "epoch": 1.4746666666666668, + "grad_norm": 2.536518096923828, + "learning_rate": 1.202597395298405e-05, + "loss": 0.4242, + "step": 4424 + }, + { + "epoch": 1.475, + "grad_norm": 1.969635248184204, + "learning_rate": 1.2022175723320382e-05, + "loss": 0.4089, + "step": 4425 + }, + { + "epoch": 1.4753333333333334, + "grad_norm": 2.288621425628662, + "learning_rate": 1.2018377189464144e-05, + "loss": 0.3902, + "step": 4426 + }, + { + "epoch": 1.4756666666666667, + "grad_norm": 2.1412599086761475, + "learning_rate": 1.2014578351986747e-05, + "loss": 0.3856, + "step": 4427 + }, + { + "epoch": 1.476, + "grad_norm": 2.7379934787750244, + "learning_rate": 1.2010779211459649e-05, + "loss": 0.3646, + "step": 4428 + }, + { + "epoch": 1.4763333333333333, + "grad_norm": 2.4421017169952393, + "learning_rate": 1.200697976845434e-05, + "loss": 0.4353, + "step": 4429 + }, + { + "epoch": 1.4766666666666666, + "grad_norm": 2.8903465270996094, + "learning_rate": 1.2003180023542375e-05, + "loss": 0.4051, + "step": 4430 + }, + { + "epoch": 1.4769999999999999, + "grad_norm": 2.5041768550872803, + "learning_rate": 1.1999379977295334e-05, + "loss": 0.4003, + "step": 4431 + }, + { + "epoch": 1.4773333333333334, + "grad_norm": 2.1646621227264404, + "learning_rate": 1.1995579630284855e-05, + "loss": 0.3928, + "step": 4432 + }, + { + "epoch": 1.4776666666666667, + "grad_norm": 1.9588849544525146, + "learning_rate": 1.1991778983082616e-05, + "loss": 0.393, + "step": 4433 + }, + { + "epoch": 1.478, + "grad_norm": 2.9233779907226562, + "learning_rate": 1.1987978036260346e-05, + "loss": 0.4156, + "step": 4434 + }, + { + "epoch": 1.4783333333333333, + "grad_norm": 3.4462268352508545, + "learning_rate": 1.1984176790389815e-05, + "loss": 0.4582, + "step": 4435 + }, + { + "epoch": 1.4786666666666668, + "grad_norm": 3.316166639328003, + "learning_rate": 1.1980375246042832e-05, + "loss": 0.3988, + "step": 4436 + }, + { + "epoch": 1.479, + "grad_norm": 2.886756420135498, + "learning_rate": 1.1976573403791263e-05, + "loss": 0.4309, + "step": 4437 + }, + { + "epoch": 1.4793333333333334, + "grad_norm": 2.1024160385131836, + "learning_rate": 1.197277126420701e-05, + "loss": 0.3586, + "step": 4438 + }, + { + "epoch": 1.4796666666666667, + "grad_norm": 2.527660369873047, + "learning_rate": 1.1968968827862026e-05, + "loss": 0.3974, + "step": 4439 + }, + { + "epoch": 1.48, + "grad_norm": 2.4547600746154785, + "learning_rate": 1.1965166095328302e-05, + "loss": 0.4162, + "step": 4440 + }, + { + "epoch": 1.4803333333333333, + "grad_norm": 1.9393043518066406, + "learning_rate": 1.1961363067177877e-05, + "loss": 0.4412, + "step": 4441 + }, + { + "epoch": 1.4806666666666666, + "grad_norm": 3.32869815826416, + "learning_rate": 1.1957559743982838e-05, + "loss": 0.4502, + "step": 4442 + }, + { + "epoch": 1.4809999999999999, + "grad_norm": 1.9792367219924927, + "learning_rate": 1.1953756126315306e-05, + "loss": 0.4322, + "step": 4443 + }, + { + "epoch": 1.4813333333333334, + "grad_norm": 3.5881991386413574, + "learning_rate": 1.194995221474746e-05, + "loss": 0.4196, + "step": 4444 + }, + { + "epoch": 1.4816666666666667, + "grad_norm": 2.0359537601470947, + "learning_rate": 1.194614800985151e-05, + "loss": 0.4181, + "step": 4445 + }, + { + "epoch": 1.482, + "grad_norm": 2.84293270111084, + "learning_rate": 1.194234351219972e-05, + "loss": 0.4159, + "step": 4446 + }, + { + "epoch": 1.4823333333333333, + "grad_norm": 2.410393238067627, + "learning_rate": 1.1938538722364395e-05, + "loss": 0.416, + "step": 4447 + }, + { + "epoch": 1.4826666666666668, + "grad_norm": 1.910607099533081, + "learning_rate": 1.1934733640917879e-05, + "loss": 0.4299, + "step": 4448 + }, + { + "epoch": 1.483, + "grad_norm": 1.9847393035888672, + "learning_rate": 1.1930928268432569e-05, + "loss": 0.4102, + "step": 4449 + }, + { + "epoch": 1.4833333333333334, + "grad_norm": 2.1816534996032715, + "learning_rate": 1.1927122605480899e-05, + "loss": 0.419, + "step": 4450 + }, + { + "epoch": 1.4836666666666667, + "grad_norm": 2.560614585876465, + "learning_rate": 1.1923316652635349e-05, + "loss": 0.4223, + "step": 4451 + }, + { + "epoch": 1.484, + "grad_norm": 1.8097997903823853, + "learning_rate": 1.1919510410468435e-05, + "loss": 0.3771, + "step": 4452 + }, + { + "epoch": 1.4843333333333333, + "grad_norm": 1.787440299987793, + "learning_rate": 1.1915703879552738e-05, + "loss": 0.4168, + "step": 4453 + }, + { + "epoch": 1.4846666666666666, + "grad_norm": 2.065204381942749, + "learning_rate": 1.1911897060460858e-05, + "loss": 0.4429, + "step": 4454 + }, + { + "epoch": 1.4849999999999999, + "grad_norm": 2.489821195602417, + "learning_rate": 1.190808995376545e-05, + "loss": 0.4162, + "step": 4455 + }, + { + "epoch": 1.4853333333333334, + "grad_norm": 2.2562155723571777, + "learning_rate": 1.190428256003921e-05, + "loss": 0.4433, + "step": 4456 + }, + { + "epoch": 1.4856666666666667, + "grad_norm": 2.1790659427642822, + "learning_rate": 1.1900474879854884e-05, + "loss": 0.4131, + "step": 4457 + }, + { + "epoch": 1.486, + "grad_norm": 2.028926372528076, + "learning_rate": 1.1896666913785248e-05, + "loss": 0.4218, + "step": 4458 + }, + { + "epoch": 1.4863333333333333, + "grad_norm": 1.9908692836761475, + "learning_rate": 1.1892858662403132e-05, + "loss": 0.4534, + "step": 4459 + }, + { + "epoch": 1.4866666666666668, + "grad_norm": 1.9729528427124023, + "learning_rate": 1.1889050126281405e-05, + "loss": 0.4019, + "step": 4460 + }, + { + "epoch": 1.487, + "grad_norm": 2.200756311416626, + "learning_rate": 1.1885241305992976e-05, + "loss": 0.4108, + "step": 4461 + }, + { + "epoch": 1.4873333333333334, + "grad_norm": 2.1345624923706055, + "learning_rate": 1.1881432202110801e-05, + "loss": 0.4515, + "step": 4462 + }, + { + "epoch": 1.4876666666666667, + "grad_norm": 2.1370441913604736, + "learning_rate": 1.187762281520788e-05, + "loss": 0.4036, + "step": 4463 + }, + { + "epoch": 1.488, + "grad_norm": 2.2854723930358887, + "learning_rate": 1.187381314585725e-05, + "loss": 0.3577, + "step": 4464 + }, + { + "epoch": 1.4883333333333333, + "grad_norm": 1.971579670906067, + "learning_rate": 1.1870003194631991e-05, + "loss": 0.3929, + "step": 4465 + }, + { + "epoch": 1.4886666666666666, + "grad_norm": 2.1954894065856934, + "learning_rate": 1.1866192962105229e-05, + "loss": 0.4186, + "step": 4466 + }, + { + "epoch": 1.4889999999999999, + "grad_norm": 2.4567601680755615, + "learning_rate": 1.1862382448850136e-05, + "loss": 0.4047, + "step": 4467 + }, + { + "epoch": 1.4893333333333334, + "grad_norm": 2.2461183071136475, + "learning_rate": 1.1858571655439916e-05, + "loss": 0.4282, + "step": 4468 + }, + { + "epoch": 1.4896666666666667, + "grad_norm": 2.228302478790283, + "learning_rate": 1.1854760582447825e-05, + "loss": 0.3944, + "step": 4469 + }, + { + "epoch": 1.49, + "grad_norm": 2.964979887008667, + "learning_rate": 1.1850949230447146e-05, + "loss": 0.403, + "step": 4470 + }, + { + "epoch": 1.4903333333333333, + "grad_norm": 2.182877540588379, + "learning_rate": 1.1847137600011226e-05, + "loss": 0.3952, + "step": 4471 + }, + { + "epoch": 1.4906666666666666, + "grad_norm": 1.8863117694854736, + "learning_rate": 1.1843325691713438e-05, + "loss": 0.4081, + "step": 4472 + }, + { + "epoch": 1.491, + "grad_norm": 2.085278034210205, + "learning_rate": 1.1839513506127202e-05, + "loss": 0.4353, + "step": 4473 + }, + { + "epoch": 1.4913333333333334, + "grad_norm": 2.212477207183838, + "learning_rate": 1.183570104382598e-05, + "loss": 0.416, + "step": 4474 + }, + { + "epoch": 1.4916666666666667, + "grad_norm": 2.299213171005249, + "learning_rate": 1.1831888305383268e-05, + "loss": 0.4228, + "step": 4475 + }, + { + "epoch": 1.492, + "grad_norm": 2.7080934047698975, + "learning_rate": 1.1828075291372616e-05, + "loss": 0.4443, + "step": 4476 + }, + { + "epoch": 1.4923333333333333, + "grad_norm": 2.0087106227874756, + "learning_rate": 1.1824262002367609e-05, + "loss": 0.4026, + "step": 4477 + }, + { + "epoch": 1.4926666666666666, + "grad_norm": 2.2049598693847656, + "learning_rate": 1.182044843894187e-05, + "loss": 0.4128, + "step": 4478 + }, + { + "epoch": 1.4929999999999999, + "grad_norm": 2.5622940063476562, + "learning_rate": 1.181663460166907e-05, + "loss": 0.3994, + "step": 4479 + }, + { + "epoch": 1.4933333333333334, + "grad_norm": 2.8226442337036133, + "learning_rate": 1.1812820491122918e-05, + "loss": 0.4519, + "step": 4480 + }, + { + "epoch": 1.4936666666666667, + "grad_norm": 2.2677254676818848, + "learning_rate": 1.1809006107877165e-05, + "loss": 0.3888, + "step": 4481 + }, + { + "epoch": 1.494, + "grad_norm": 2.499776601791382, + "learning_rate": 1.1805191452505602e-05, + "loss": 0.392, + "step": 4482 + }, + { + "epoch": 1.4943333333333333, + "grad_norm": 1.93801748752594, + "learning_rate": 1.180137652558206e-05, + "loss": 0.3723, + "step": 4483 + }, + { + "epoch": 1.4946666666666666, + "grad_norm": 2.3441357612609863, + "learning_rate": 1.1797561327680412e-05, + "loss": 0.4052, + "step": 4484 + }, + { + "epoch": 1.495, + "grad_norm": 2.8711273670196533, + "learning_rate": 1.1793745859374575e-05, + "loss": 0.4442, + "step": 4485 + }, + { + "epoch": 1.4953333333333334, + "grad_norm": 2.849168062210083, + "learning_rate": 1.1789930121238501e-05, + "loss": 0.4153, + "step": 4486 + }, + { + "epoch": 1.4956666666666667, + "grad_norm": 1.8469303846359253, + "learning_rate": 1.1786114113846187e-05, + "loss": 0.4176, + "step": 4487 + }, + { + "epoch": 1.496, + "grad_norm": 2.7057743072509766, + "learning_rate": 1.1782297837771668e-05, + "loss": 0.458, + "step": 4488 + }, + { + "epoch": 1.4963333333333333, + "grad_norm": 2.344125270843506, + "learning_rate": 1.1778481293589015e-05, + "loss": 0.4059, + "step": 4489 + }, + { + "epoch": 1.4966666666666666, + "grad_norm": 1.8390482664108276, + "learning_rate": 1.1774664481872354e-05, + "loss": 0.3728, + "step": 4490 + }, + { + "epoch": 1.4969999999999999, + "grad_norm": 2.607189893722534, + "learning_rate": 1.1770847403195836e-05, + "loss": 0.407, + "step": 4491 + }, + { + "epoch": 1.4973333333333334, + "grad_norm": 1.8116655349731445, + "learning_rate": 1.1767030058133656e-05, + "loss": 0.427, + "step": 4492 + }, + { + "epoch": 1.4976666666666667, + "grad_norm": 2.180344343185425, + "learning_rate": 1.1763212447260058e-05, + "loss": 0.3468, + "step": 4493 + }, + { + "epoch": 1.498, + "grad_norm": 2.479219436645508, + "learning_rate": 1.175939457114931e-05, + "loss": 0.3627, + "step": 4494 + }, + { + "epoch": 1.4983333333333333, + "grad_norm": 2.582557439804077, + "learning_rate": 1.1755576430375735e-05, + "loss": 0.3897, + "step": 4495 + }, + { + "epoch": 1.4986666666666666, + "grad_norm": 2.0340192317962646, + "learning_rate": 1.175175802551369e-05, + "loss": 0.4458, + "step": 4496 + }, + { + "epoch": 1.499, + "grad_norm": 2.3162872791290283, + "learning_rate": 1.1747939357137568e-05, + "loss": 0.3982, + "step": 4497 + }, + { + "epoch": 1.4993333333333334, + "grad_norm": 2.3222172260284424, + "learning_rate": 1.1744120425821806e-05, + "loss": 0.4067, + "step": 4498 + }, + { + "epoch": 1.4996666666666667, + "grad_norm": 2.523641586303711, + "learning_rate": 1.174030123214088e-05, + "loss": 0.4218, + "step": 4499 + }, + { + "epoch": 1.5, + "grad_norm": 2.2606654167175293, + "learning_rate": 1.1736481776669307e-05, + "loss": 0.4334, + "step": 4500 + }, + { + "epoch": 1.5003333333333333, + "grad_norm": 2.213113307952881, + "learning_rate": 1.1732662059981637e-05, + "loss": 0.4184, + "step": 4501 + }, + { + "epoch": 1.5006666666666666, + "grad_norm": 1.942258358001709, + "learning_rate": 1.1728842082652467e-05, + "loss": 0.3852, + "step": 4502 + }, + { + "epoch": 1.501, + "grad_norm": 2.467301845550537, + "learning_rate": 1.1725021845256426e-05, + "loss": 0.3888, + "step": 4503 + }, + { + "epoch": 1.5013333333333332, + "grad_norm": 2.1340184211730957, + "learning_rate": 1.1721201348368192e-05, + "loss": 0.4108, + "step": 4504 + }, + { + "epoch": 1.5016666666666667, + "grad_norm": 3.2336068153381348, + "learning_rate": 1.171738059256247e-05, + "loss": 0.4437, + "step": 4505 + }, + { + "epoch": 1.502, + "grad_norm": 2.4690935611724854, + "learning_rate": 1.171355957841402e-05, + "loss": 0.3968, + "step": 4506 + }, + { + "epoch": 1.5023333333333333, + "grad_norm": 2.311581611633301, + "learning_rate": 1.170973830649762e-05, + "loss": 0.4153, + "step": 4507 + }, + { + "epoch": 1.5026666666666668, + "grad_norm": 2.111309289932251, + "learning_rate": 1.1705916777388097e-05, + "loss": 0.4227, + "step": 4508 + }, + { + "epoch": 1.5030000000000001, + "grad_norm": 1.8576077222824097, + "learning_rate": 1.1702094991660326e-05, + "loss": 0.3876, + "step": 4509 + }, + { + "epoch": 1.5033333333333334, + "grad_norm": 2.524840831756592, + "learning_rate": 1.1698272949889206e-05, + "loss": 0.4187, + "step": 4510 + }, + { + "epoch": 1.5036666666666667, + "grad_norm": 2.250126838684082, + "learning_rate": 1.1694450652649687e-05, + "loss": 0.3668, + "step": 4511 + }, + { + "epoch": 1.504, + "grad_norm": 2.1706457138061523, + "learning_rate": 1.169062810051674e-05, + "loss": 0.4092, + "step": 4512 + }, + { + "epoch": 1.5043333333333333, + "grad_norm": 2.057668924331665, + "learning_rate": 1.1686805294065397e-05, + "loss": 0.3853, + "step": 4513 + }, + { + "epoch": 1.5046666666666666, + "grad_norm": 4.376829624176025, + "learning_rate": 1.1682982233870708e-05, + "loss": 0.4048, + "step": 4514 + }, + { + "epoch": 1.505, + "grad_norm": 1.8808777332305908, + "learning_rate": 1.1679158920507773e-05, + "loss": 0.3997, + "step": 4515 + }, + { + "epoch": 1.5053333333333332, + "grad_norm": 3.593636989593506, + "learning_rate": 1.1675335354551726e-05, + "loss": 0.4244, + "step": 4516 + }, + { + "epoch": 1.5056666666666667, + "grad_norm": 2.92787766456604, + "learning_rate": 1.1671511536577737e-05, + "loss": 0.4416, + "step": 4517 + }, + { + "epoch": 1.506, + "grad_norm": 2.529820442199707, + "learning_rate": 1.1667687467161025e-05, + "loss": 0.4191, + "step": 4518 + }, + { + "epoch": 1.5063333333333333, + "grad_norm": 2.0379295349121094, + "learning_rate": 1.1663863146876828e-05, + "loss": 0.3969, + "step": 4519 + }, + { + "epoch": 1.5066666666666668, + "grad_norm": 2.196471929550171, + "learning_rate": 1.1660038576300444e-05, + "loss": 0.4122, + "step": 4520 + }, + { + "epoch": 1.5070000000000001, + "grad_norm": 3.411020040512085, + "learning_rate": 1.1656213756007184e-05, + "loss": 0.3838, + "step": 4521 + }, + { + "epoch": 1.5073333333333334, + "grad_norm": 1.9331562519073486, + "learning_rate": 1.1652388686572416e-05, + "loss": 0.3699, + "step": 4522 + }, + { + "epoch": 1.5076666666666667, + "grad_norm": 2.2996857166290283, + "learning_rate": 1.1648563368571541e-05, + "loss": 0.397, + "step": 4523 + }, + { + "epoch": 1.508, + "grad_norm": 1.9231303930282593, + "learning_rate": 1.1644737802579989e-05, + "loss": 0.3997, + "step": 4524 + }, + { + "epoch": 1.5083333333333333, + "grad_norm": 1.9787415266036987, + "learning_rate": 1.1640911989173242e-05, + "loss": 0.4475, + "step": 4525 + }, + { + "epoch": 1.5086666666666666, + "grad_norm": 1.9905426502227783, + "learning_rate": 1.1637085928926803e-05, + "loss": 0.44, + "step": 4526 + }, + { + "epoch": 1.509, + "grad_norm": 2.0000295639038086, + "learning_rate": 1.1633259622416224e-05, + "loss": 0.4238, + "step": 4527 + }, + { + "epoch": 1.5093333333333332, + "grad_norm": 2.3935389518737793, + "learning_rate": 1.162943307021709e-05, + "loss": 0.3832, + "step": 4528 + }, + { + "epoch": 1.5096666666666667, + "grad_norm": 2.6589722633361816, + "learning_rate": 1.1625606272905019e-05, + "loss": 0.4126, + "step": 4529 + }, + { + "epoch": 1.51, + "grad_norm": 2.5124828815460205, + "learning_rate": 1.1621779231055677e-05, + "loss": 0.3806, + "step": 4530 + }, + { + "epoch": 1.5103333333333333, + "grad_norm": 2.0962131023406982, + "learning_rate": 1.1617951945244753e-05, + "loss": 0.3663, + "step": 4531 + }, + { + "epoch": 1.5106666666666668, + "grad_norm": 2.4686543941497803, + "learning_rate": 1.1614124416047981e-05, + "loss": 0.4154, + "step": 4532 + }, + { + "epoch": 1.5110000000000001, + "grad_norm": 2.6200613975524902, + "learning_rate": 1.161029664404113e-05, + "loss": 0.3782, + "step": 4533 + }, + { + "epoch": 1.5113333333333334, + "grad_norm": 2.2662456035614014, + "learning_rate": 1.160646862980001e-05, + "loss": 0.4225, + "step": 4534 + }, + { + "epoch": 1.5116666666666667, + "grad_norm": 2.281245231628418, + "learning_rate": 1.1602640373900457e-05, + "loss": 0.4466, + "step": 4535 + }, + { + "epoch": 1.512, + "grad_norm": 2.3515193462371826, + "learning_rate": 1.159881187691835e-05, + "loss": 0.3886, + "step": 4536 + }, + { + "epoch": 1.5123333333333333, + "grad_norm": 2.211338996887207, + "learning_rate": 1.1594983139429606e-05, + "loss": 0.4677, + "step": 4537 + }, + { + "epoch": 1.5126666666666666, + "grad_norm": 2.865842342376709, + "learning_rate": 1.1591154162010172e-05, + "loss": 0.4215, + "step": 4538 + }, + { + "epoch": 1.513, + "grad_norm": 2.42582106590271, + "learning_rate": 1.158732494523604e-05, + "loss": 0.3787, + "step": 4539 + }, + { + "epoch": 1.5133333333333332, + "grad_norm": 3.289379596710205, + "learning_rate": 1.158349548968323e-05, + "loss": 0.4134, + "step": 4540 + }, + { + "epoch": 1.5136666666666667, + "grad_norm": 3.2779924869537354, + "learning_rate": 1.1579665795927798e-05, + "loss": 0.4286, + "step": 4541 + }, + { + "epoch": 1.514, + "grad_norm": 2.7365059852600098, + "learning_rate": 1.1575835864545844e-05, + "loss": 0.4117, + "step": 4542 + }, + { + "epoch": 1.5143333333333333, + "grad_norm": 2.276204824447632, + "learning_rate": 1.1572005696113493e-05, + "loss": 0.3651, + "step": 4543 + }, + { + "epoch": 1.5146666666666668, + "grad_norm": 1.8814116716384888, + "learning_rate": 1.1568175291206917e-05, + "loss": 0.3615, + "step": 4544 + }, + { + "epoch": 1.5150000000000001, + "grad_norm": 2.1392273902893066, + "learning_rate": 1.156434465040231e-05, + "loss": 0.4361, + "step": 4545 + }, + { + "epoch": 1.5153333333333334, + "grad_norm": 2.701874256134033, + "learning_rate": 1.1560513774275915e-05, + "loss": 0.4553, + "step": 4546 + }, + { + "epoch": 1.5156666666666667, + "grad_norm": 3.014608383178711, + "learning_rate": 1.1556682663404e-05, + "loss": 0.419, + "step": 4547 + }, + { + "epoch": 1.516, + "grad_norm": 2.7536110877990723, + "learning_rate": 1.1552851318362876e-05, + "loss": 0.3836, + "step": 4548 + }, + { + "epoch": 1.5163333333333333, + "grad_norm": 1.904276728630066, + "learning_rate": 1.1549019739728887e-05, + "loss": 0.3753, + "step": 4549 + }, + { + "epoch": 1.5166666666666666, + "grad_norm": 2.600801467895508, + "learning_rate": 1.1545187928078407e-05, + "loss": 0.4271, + "step": 4550 + }, + { + "epoch": 1.517, + "grad_norm": 2.457437038421631, + "learning_rate": 1.154135588398785e-05, + "loss": 0.4095, + "step": 4551 + }, + { + "epoch": 1.5173333333333332, + "grad_norm": 2.633578062057495, + "learning_rate": 1.1537523608033665e-05, + "loss": 0.3965, + "step": 4552 + }, + { + "epoch": 1.5176666666666667, + "grad_norm": 2.0384926795959473, + "learning_rate": 1.1533691100792336e-05, + "loss": 0.3856, + "step": 4553 + }, + { + "epoch": 1.518, + "grad_norm": 1.6652981042861938, + "learning_rate": 1.1529858362840383e-05, + "loss": 0.3738, + "step": 4554 + }, + { + "epoch": 1.5183333333333333, + "grad_norm": 2.7906060218811035, + "learning_rate": 1.1526025394754351e-05, + "loss": 0.4228, + "step": 4555 + }, + { + "epoch": 1.5186666666666668, + "grad_norm": 1.8500792980194092, + "learning_rate": 1.1522192197110833e-05, + "loss": 0.4365, + "step": 4556 + }, + { + "epoch": 1.5190000000000001, + "grad_norm": 2.0590744018554688, + "learning_rate": 1.151835877048645e-05, + "loss": 0.4055, + "step": 4557 + }, + { + "epoch": 1.5193333333333334, + "grad_norm": 2.0349485874176025, + "learning_rate": 1.1514525115457855e-05, + "loss": 0.4119, + "step": 4558 + }, + { + "epoch": 1.5196666666666667, + "grad_norm": 2.3443245887756348, + "learning_rate": 1.151069123260174e-05, + "loss": 0.4429, + "step": 4559 + }, + { + "epoch": 1.52, + "grad_norm": 2.375197172164917, + "learning_rate": 1.1506857122494832e-05, + "loss": 0.4145, + "step": 4560 + }, + { + "epoch": 1.5203333333333333, + "grad_norm": 2.061567544937134, + "learning_rate": 1.1503022785713886e-05, + "loss": 0.4124, + "step": 4561 + }, + { + "epoch": 1.5206666666666666, + "grad_norm": 1.9566704034805298, + "learning_rate": 1.14991882228357e-05, + "loss": 0.3703, + "step": 4562 + }, + { + "epoch": 1.521, + "grad_norm": 2.0190846920013428, + "learning_rate": 1.1495353434437098e-05, + "loss": 0.3654, + "step": 4563 + }, + { + "epoch": 1.5213333333333332, + "grad_norm": 3.101468563079834, + "learning_rate": 1.1491518421094938e-05, + "loss": 0.3772, + "step": 4564 + }, + { + "epoch": 1.5216666666666665, + "grad_norm": 2.4638009071350098, + "learning_rate": 1.148768318338612e-05, + "loss": 0.406, + "step": 4565 + }, + { + "epoch": 1.522, + "grad_norm": 2.3988027572631836, + "learning_rate": 1.1483847721887567e-05, + "loss": 0.4035, + "step": 4566 + }, + { + "epoch": 1.5223333333333333, + "grad_norm": 3.6791205406188965, + "learning_rate": 1.1480012037176247e-05, + "loss": 0.4344, + "step": 4567 + }, + { + "epoch": 1.5226666666666666, + "grad_norm": 2.238023281097412, + "learning_rate": 1.1476176129829153e-05, + "loss": 0.4313, + "step": 4568 + }, + { + "epoch": 1.5230000000000001, + "grad_norm": 2.966233253479004, + "learning_rate": 1.1472340000423313e-05, + "loss": 0.3976, + "step": 4569 + }, + { + "epoch": 1.5233333333333334, + "grad_norm": 2.1513335704803467, + "learning_rate": 1.146850364953579e-05, + "loss": 0.4089, + "step": 4570 + }, + { + "epoch": 1.5236666666666667, + "grad_norm": 2.1426186561584473, + "learning_rate": 1.1464667077743683e-05, + "loss": 0.3658, + "step": 4571 + }, + { + "epoch": 1.524, + "grad_norm": 2.3184545040130615, + "learning_rate": 1.1460830285624119e-05, + "loss": 0.4062, + "step": 4572 + }, + { + "epoch": 1.5243333333333333, + "grad_norm": 2.7629973888397217, + "learning_rate": 1.1456993273754258e-05, + "loss": 0.4366, + "step": 4573 + }, + { + "epoch": 1.5246666666666666, + "grad_norm": 3.2267942428588867, + "learning_rate": 1.14531560427113e-05, + "loss": 0.3381, + "step": 4574 + }, + { + "epoch": 1.525, + "grad_norm": 2.2783761024475098, + "learning_rate": 1.1449318593072468e-05, + "loss": 0.407, + "step": 4575 + }, + { + "epoch": 1.5253333333333332, + "grad_norm": 3.583699941635132, + "learning_rate": 1.144548092541503e-05, + "loss": 0.4654, + "step": 4576 + }, + { + "epoch": 1.5256666666666665, + "grad_norm": 1.9921696186065674, + "learning_rate": 1.1441643040316275e-05, + "loss": 0.4384, + "step": 4577 + }, + { + "epoch": 1.526, + "grad_norm": 1.8321667909622192, + "learning_rate": 1.143780493835353e-05, + "loss": 0.3963, + "step": 4578 + }, + { + "epoch": 1.5263333333333333, + "grad_norm": 2.9079325199127197, + "learning_rate": 1.1433966620104155e-05, + "loss": 0.4446, + "step": 4579 + }, + { + "epoch": 1.5266666666666666, + "grad_norm": 2.1535236835479736, + "learning_rate": 1.1430128086145542e-05, + "loss": 0.3739, + "step": 4580 + }, + { + "epoch": 1.5270000000000001, + "grad_norm": 2.520395517349243, + "learning_rate": 1.1426289337055119e-05, + "loss": 0.4276, + "step": 4581 + }, + { + "epoch": 1.5273333333333334, + "grad_norm": 2.4481453895568848, + "learning_rate": 1.1422450373410337e-05, + "loss": 0.3888, + "step": 4582 + }, + { + "epoch": 1.5276666666666667, + "grad_norm": 2.026834487915039, + "learning_rate": 1.1418611195788687e-05, + "loss": 0.4215, + "step": 4583 + }, + { + "epoch": 1.528, + "grad_norm": 2.345726490020752, + "learning_rate": 1.141477180476769e-05, + "loss": 0.4161, + "step": 4584 + }, + { + "epoch": 1.5283333333333333, + "grad_norm": 2.5751025676727295, + "learning_rate": 1.1410932200924901e-05, + "loss": 0.4246, + "step": 4585 + }, + { + "epoch": 1.5286666666666666, + "grad_norm": 3.168186902999878, + "learning_rate": 1.1407092384837903e-05, + "loss": 0.382, + "step": 4586 + }, + { + "epoch": 1.529, + "grad_norm": 2.9757847785949707, + "learning_rate": 1.1403252357084315e-05, + "loss": 0.3603, + "step": 4587 + }, + { + "epoch": 1.5293333333333332, + "grad_norm": 2.555752754211426, + "learning_rate": 1.1399412118241785e-05, + "loss": 0.3972, + "step": 4588 + }, + { + "epoch": 1.5296666666666665, + "grad_norm": 2.2885689735412598, + "learning_rate": 1.1395571668887995e-05, + "loss": 0.3812, + "step": 4589 + }, + { + "epoch": 1.53, + "grad_norm": 1.930442452430725, + "learning_rate": 1.1391731009600655e-05, + "loss": 0.3865, + "step": 4590 + }, + { + "epoch": 1.5303333333333333, + "grad_norm": 2.6977665424346924, + "learning_rate": 1.1387890140957513e-05, + "loss": 0.4045, + "step": 4591 + }, + { + "epoch": 1.5306666666666666, + "grad_norm": 3.0578505992889404, + "learning_rate": 1.138404906353634e-05, + "loss": 0.4275, + "step": 4592 + }, + { + "epoch": 1.5310000000000001, + "grad_norm": 2.3081791400909424, + "learning_rate": 1.1380207777914946e-05, + "loss": 0.4338, + "step": 4593 + }, + { + "epoch": 1.5313333333333334, + "grad_norm": 3.016777992248535, + "learning_rate": 1.1376366284671167e-05, + "loss": 0.4335, + "step": 4594 + }, + { + "epoch": 1.5316666666666667, + "grad_norm": 1.9012219905853271, + "learning_rate": 1.1372524584382876e-05, + "loss": 0.3982, + "step": 4595 + }, + { + "epoch": 1.532, + "grad_norm": 2.534528970718384, + "learning_rate": 1.1368682677627971e-05, + "loss": 0.4031, + "step": 4596 + }, + { + "epoch": 1.5323333333333333, + "grad_norm": 2.0854902267456055, + "learning_rate": 1.1364840564984385e-05, + "loss": 0.3787, + "step": 4597 + }, + { + "epoch": 1.5326666666666666, + "grad_norm": 4.48397159576416, + "learning_rate": 1.1360998247030078e-05, + "loss": 0.4055, + "step": 4598 + }, + { + "epoch": 1.533, + "grad_norm": 2.437084674835205, + "learning_rate": 1.1357155724343046e-05, + "loss": 0.3845, + "step": 4599 + }, + { + "epoch": 1.5333333333333332, + "grad_norm": 2.558687448501587, + "learning_rate": 1.1353312997501313e-05, + "loss": 0.3655, + "step": 4600 + }, + { + "epoch": 1.5336666666666665, + "grad_norm": 2.5663747787475586, + "learning_rate": 1.1349470067082934e-05, + "loss": 0.4437, + "step": 4601 + }, + { + "epoch": 1.534, + "grad_norm": 2.5764846801757812, + "learning_rate": 1.1345626933665996e-05, + "loss": 0.4029, + "step": 4602 + }, + { + "epoch": 1.5343333333333333, + "grad_norm": 2.0151638984680176, + "learning_rate": 1.1341783597828611e-05, + "loss": 0.4111, + "step": 4603 + }, + { + "epoch": 1.5346666666666666, + "grad_norm": 2.4481468200683594, + "learning_rate": 1.133794006014893e-05, + "loss": 0.4107, + "step": 4604 + }, + { + "epoch": 1.5350000000000001, + "grad_norm": 2.4583842754364014, + "learning_rate": 1.1334096321205129e-05, + "loss": 0.4021, + "step": 4605 + }, + { + "epoch": 1.5353333333333334, + "grad_norm": 2.3759219646453857, + "learning_rate": 1.1330252381575415e-05, + "loss": 0.3764, + "step": 4606 + }, + { + "epoch": 1.5356666666666667, + "grad_norm": 2.4388067722320557, + "learning_rate": 1.1326408241838026e-05, + "loss": 0.4197, + "step": 4607 + }, + { + "epoch": 1.536, + "grad_norm": 2.0552756786346436, + "learning_rate": 1.1322563902571227e-05, + "loss": 0.3874, + "step": 4608 + }, + { + "epoch": 1.5363333333333333, + "grad_norm": 2.1117823123931885, + "learning_rate": 1.1318719364353319e-05, + "loss": 0.3947, + "step": 4609 + }, + { + "epoch": 1.5366666666666666, + "grad_norm": 2.28401780128479, + "learning_rate": 1.1314874627762627e-05, + "loss": 0.4232, + "step": 4610 + }, + { + "epoch": 1.537, + "grad_norm": 2.3095343112945557, + "learning_rate": 1.1311029693377511e-05, + "loss": 0.3726, + "step": 4611 + }, + { + "epoch": 1.5373333333333332, + "grad_norm": 2.3964972496032715, + "learning_rate": 1.1307184561776354e-05, + "loss": 0.4091, + "step": 4612 + }, + { + "epoch": 1.5376666666666665, + "grad_norm": 1.8483046293258667, + "learning_rate": 1.1303339233537577e-05, + "loss": 0.3929, + "step": 4613 + }, + { + "epoch": 1.538, + "grad_norm": 2.4538846015930176, + "learning_rate": 1.1299493709239628e-05, + "loss": 0.407, + "step": 4614 + }, + { + "epoch": 1.5383333333333333, + "grad_norm": 1.9776288270950317, + "learning_rate": 1.1295647989460978e-05, + "loss": 0.3792, + "step": 4615 + }, + { + "epoch": 1.5386666666666666, + "grad_norm": 2.1142117977142334, + "learning_rate": 1.1291802074780134e-05, + "loss": 0.3748, + "step": 4616 + }, + { + "epoch": 1.5390000000000001, + "grad_norm": 2.1858370304107666, + "learning_rate": 1.128795596577563e-05, + "loss": 0.4106, + "step": 4617 + }, + { + "epoch": 1.5393333333333334, + "grad_norm": 2.3255436420440674, + "learning_rate": 1.1284109663026031e-05, + "loss": 0.3936, + "step": 4618 + }, + { + "epoch": 1.5396666666666667, + "grad_norm": 2.332824468612671, + "learning_rate": 1.1280263167109929e-05, + "loss": 0.4284, + "step": 4619 + }, + { + "epoch": 1.54, + "grad_norm": 2.367053270339966, + "learning_rate": 1.127641647860595e-05, + "loss": 0.4017, + "step": 4620 + }, + { + "epoch": 1.5403333333333333, + "grad_norm": 1.9043395519256592, + "learning_rate": 1.1272569598092737e-05, + "loss": 0.3652, + "step": 4621 + }, + { + "epoch": 1.5406666666666666, + "grad_norm": 1.9708354473114014, + "learning_rate": 1.1268722526148977e-05, + "loss": 0.4172, + "step": 4622 + }, + { + "epoch": 1.541, + "grad_norm": 2.1746528148651123, + "learning_rate": 1.1264875263353375e-05, + "loss": 0.3341, + "step": 4623 + }, + { + "epoch": 1.5413333333333332, + "grad_norm": 2.5968854427337646, + "learning_rate": 1.1261027810284668e-05, + "loss": 0.439, + "step": 4624 + }, + { + "epoch": 1.5416666666666665, + "grad_norm": 2.7150979042053223, + "learning_rate": 1.125718016752163e-05, + "loss": 0.3961, + "step": 4625 + }, + { + "epoch": 1.542, + "grad_norm": 2.626476526260376, + "learning_rate": 1.1253332335643043e-05, + "loss": 0.358, + "step": 4626 + }, + { + "epoch": 1.5423333333333333, + "grad_norm": 2.6113221645355225, + "learning_rate": 1.1249484315227739e-05, + "loss": 0.3827, + "step": 4627 + }, + { + "epoch": 1.5426666666666666, + "grad_norm": 2.03092622756958, + "learning_rate": 1.1245636106854565e-05, + "loss": 0.404, + "step": 4628 + }, + { + "epoch": 1.5430000000000001, + "grad_norm": 2.1253018379211426, + "learning_rate": 1.1241787711102405e-05, + "loss": 0.4084, + "step": 4629 + }, + { + "epoch": 1.5433333333333334, + "grad_norm": 2.22802472114563, + "learning_rate": 1.1237939128550167e-05, + "loss": 0.377, + "step": 4630 + }, + { + "epoch": 1.5436666666666667, + "grad_norm": 3.0110156536102295, + "learning_rate": 1.1234090359776778e-05, + "loss": 0.3984, + "step": 4631 + }, + { + "epoch": 1.544, + "grad_norm": 2.8835387229919434, + "learning_rate": 1.1230241405361209e-05, + "loss": 0.4283, + "step": 4632 + }, + { + "epoch": 1.5443333333333333, + "grad_norm": 1.9403769969940186, + "learning_rate": 1.122639226588245e-05, + "loss": 0.4145, + "step": 4633 + }, + { + "epoch": 1.5446666666666666, + "grad_norm": 2.0384490489959717, + "learning_rate": 1.1222542941919526e-05, + "loss": 0.3877, + "step": 4634 + }, + { + "epoch": 1.545, + "grad_norm": 4.214197635650635, + "learning_rate": 1.1218693434051475e-05, + "loss": 0.434, + "step": 4635 + }, + { + "epoch": 1.5453333333333332, + "grad_norm": 2.1647138595581055, + "learning_rate": 1.1214843742857382e-05, + "loss": 0.4155, + "step": 4636 + }, + { + "epoch": 1.5456666666666665, + "grad_norm": 2.5295403003692627, + "learning_rate": 1.1210993868916342e-05, + "loss": 0.4242, + "step": 4637 + }, + { + "epoch": 1.546, + "grad_norm": 2.9477016925811768, + "learning_rate": 1.1207143812807489e-05, + "loss": 0.4216, + "step": 4638 + }, + { + "epoch": 1.5463333333333333, + "grad_norm": 2.1538548469543457, + "learning_rate": 1.1203293575109981e-05, + "loss": 0.4191, + "step": 4639 + }, + { + "epoch": 1.5466666666666666, + "grad_norm": 2.2159759998321533, + "learning_rate": 1.1199443156402998e-05, + "loss": 0.4284, + "step": 4640 + }, + { + "epoch": 1.5470000000000002, + "grad_norm": 2.2940385341644287, + "learning_rate": 1.1195592557265757e-05, + "loss": 0.4005, + "step": 4641 + }, + { + "epoch": 1.5473333333333334, + "grad_norm": 1.986438274383545, + "learning_rate": 1.1191741778277496e-05, + "loss": 0.4162, + "step": 4642 + }, + { + "epoch": 1.5476666666666667, + "grad_norm": 1.8089224100112915, + "learning_rate": 1.1187890820017485e-05, + "loss": 0.3665, + "step": 4643 + }, + { + "epoch": 1.548, + "grad_norm": 2.4131550788879395, + "learning_rate": 1.1184039683065014e-05, + "loss": 0.3972, + "step": 4644 + }, + { + "epoch": 1.5483333333333333, + "grad_norm": 2.6298828125, + "learning_rate": 1.1180188367999395e-05, + "loss": 0.4087, + "step": 4645 + }, + { + "epoch": 1.5486666666666666, + "grad_norm": 2.8239173889160156, + "learning_rate": 1.1176336875399991e-05, + "loss": 0.4246, + "step": 4646 + }, + { + "epoch": 1.549, + "grad_norm": 2.4081337451934814, + "learning_rate": 1.1172485205846161e-05, + "loss": 0.4112, + "step": 4647 + }, + { + "epoch": 1.5493333333333332, + "grad_norm": 2.2222630977630615, + "learning_rate": 1.1168633359917319e-05, + "loss": 0.4168, + "step": 4648 + }, + { + "epoch": 1.5496666666666665, + "grad_norm": 1.9541877508163452, + "learning_rate": 1.116478133819288e-05, + "loss": 0.3793, + "step": 4649 + }, + { + "epoch": 1.55, + "grad_norm": 1.9589672088623047, + "learning_rate": 1.1160929141252303e-05, + "loss": 0.382, + "step": 4650 + }, + { + "epoch": 1.5503333333333333, + "grad_norm": 1.9807180166244507, + "learning_rate": 1.1157076769675068e-05, + "loss": 0.3802, + "step": 4651 + }, + { + "epoch": 1.5506666666666666, + "grad_norm": 1.9759724140167236, + "learning_rate": 1.1153224224040678e-05, + "loss": 0.431, + "step": 4652 + }, + { + "epoch": 1.5510000000000002, + "grad_norm": 2.858398199081421, + "learning_rate": 1.1149371504928667e-05, + "loss": 0.3615, + "step": 4653 + }, + { + "epoch": 1.5513333333333335, + "grad_norm": 3.086412191390991, + "learning_rate": 1.1145518612918593e-05, + "loss": 0.3488, + "step": 4654 + }, + { + "epoch": 1.5516666666666667, + "grad_norm": 3.077212333679199, + "learning_rate": 1.1141665548590041e-05, + "loss": 0.4101, + "step": 4655 + }, + { + "epoch": 1.552, + "grad_norm": 2.8847625255584717, + "learning_rate": 1.1137812312522618e-05, + "loss": 0.3733, + "step": 4656 + }, + { + "epoch": 1.5523333333333333, + "grad_norm": 1.9701124429702759, + "learning_rate": 1.1133958905295965e-05, + "loss": 0.4082, + "step": 4657 + }, + { + "epoch": 1.5526666666666666, + "grad_norm": 2.7493772506713867, + "learning_rate": 1.113010532748974e-05, + "loss": 0.3864, + "step": 4658 + }, + { + "epoch": 1.553, + "grad_norm": 3.2303378582000732, + "learning_rate": 1.112625157968363e-05, + "loss": 0.4049, + "step": 4659 + }, + { + "epoch": 1.5533333333333332, + "grad_norm": 3.9866883754730225, + "learning_rate": 1.1122397662457352e-05, + "loss": 0.4236, + "step": 4660 + }, + { + "epoch": 1.5536666666666665, + "grad_norm": 2.9112443923950195, + "learning_rate": 1.1118543576390636e-05, + "loss": 0.3875, + "step": 4661 + }, + { + "epoch": 1.554, + "grad_norm": 2.420149564743042, + "learning_rate": 1.1114689322063255e-05, + "loss": 0.4095, + "step": 4662 + }, + { + "epoch": 1.5543333333333333, + "grad_norm": 2.4312527179718018, + "learning_rate": 1.1110834900054996e-05, + "loss": 0.3927, + "step": 4663 + }, + { + "epoch": 1.5546666666666666, + "grad_norm": 2.8385722637176514, + "learning_rate": 1.110698031094567e-05, + "loss": 0.4002, + "step": 4664 + }, + { + "epoch": 1.5550000000000002, + "grad_norm": 2.0809662342071533, + "learning_rate": 1.110312555531512e-05, + "loss": 0.4217, + "step": 4665 + }, + { + "epoch": 1.5553333333333335, + "grad_norm": 1.9962151050567627, + "learning_rate": 1.1099270633743204e-05, + "loss": 0.3576, + "step": 4666 + }, + { + "epoch": 1.5556666666666668, + "grad_norm": 2.9496941566467285, + "learning_rate": 1.1095415546809822e-05, + "loss": 0.3973, + "step": 4667 + }, + { + "epoch": 1.556, + "grad_norm": 2.1002399921417236, + "learning_rate": 1.109156029509488e-05, + "loss": 0.3634, + "step": 4668 + }, + { + "epoch": 1.5563333333333333, + "grad_norm": 2.4066667556762695, + "learning_rate": 1.1087704879178322e-05, + "loss": 0.3954, + "step": 4669 + }, + { + "epoch": 1.5566666666666666, + "grad_norm": 2.5645601749420166, + "learning_rate": 1.1083849299640109e-05, + "loss": 0.4285, + "step": 4670 + }, + { + "epoch": 1.557, + "grad_norm": 1.7781466245651245, + "learning_rate": 1.1079993557060228e-05, + "loss": 0.3484, + "step": 4671 + }, + { + "epoch": 1.5573333333333332, + "grad_norm": 2.4414970874786377, + "learning_rate": 1.1076137652018699e-05, + "loss": 0.4327, + "step": 4672 + }, + { + "epoch": 1.5576666666666665, + "grad_norm": 2.3034300804138184, + "learning_rate": 1.1072281585095552e-05, + "loss": 0.3953, + "step": 4673 + }, + { + "epoch": 1.558, + "grad_norm": 1.8869044780731201, + "learning_rate": 1.1068425356870853e-05, + "loss": 0.4152, + "step": 4674 + }, + { + "epoch": 1.5583333333333333, + "grad_norm": 2.1908695697784424, + "learning_rate": 1.1064568967924683e-05, + "loss": 0.369, + "step": 4675 + }, + { + "epoch": 1.5586666666666666, + "grad_norm": 2.319551467895508, + "learning_rate": 1.1060712418837159e-05, + "loss": 0.3977, + "step": 4676 + }, + { + "epoch": 1.5590000000000002, + "grad_norm": 1.9849603176116943, + "learning_rate": 1.1056855710188413e-05, + "loss": 0.363, + "step": 4677 + }, + { + "epoch": 1.5593333333333335, + "grad_norm": 2.3069894313812256, + "learning_rate": 1.10529988425586e-05, + "loss": 0.4119, + "step": 4678 + }, + { + "epoch": 1.5596666666666668, + "grad_norm": 2.2390997409820557, + "learning_rate": 1.1049141816527906e-05, + "loss": 0.3943, + "step": 4679 + }, + { + "epoch": 1.56, + "grad_norm": 2.2448410987854004, + "learning_rate": 1.1045284632676535e-05, + "loss": 0.4021, + "step": 4680 + }, + { + "epoch": 1.5603333333333333, + "grad_norm": 2.17044997215271, + "learning_rate": 1.1041427291584719e-05, + "loss": 0.4067, + "step": 4681 + }, + { + "epoch": 1.5606666666666666, + "grad_norm": 3.391261339187622, + "learning_rate": 1.103756979383271e-05, + "loss": 0.4181, + "step": 4682 + }, + { + "epoch": 1.561, + "grad_norm": 1.939231276512146, + "learning_rate": 1.1033712140000787e-05, + "loss": 0.3928, + "step": 4683 + }, + { + "epoch": 1.5613333333333332, + "grad_norm": 2.8292856216430664, + "learning_rate": 1.1029854330669245e-05, + "loss": 0.4068, + "step": 4684 + }, + { + "epoch": 1.5616666666666665, + "grad_norm": 2.590684652328491, + "learning_rate": 1.1025996366418413e-05, + "loss": 0.3819, + "step": 4685 + }, + { + "epoch": 1.562, + "grad_norm": 2.2163379192352295, + "learning_rate": 1.1022138247828638e-05, + "loss": 0.4061, + "step": 4686 + }, + { + "epoch": 1.5623333333333334, + "grad_norm": 2.145742177963257, + "learning_rate": 1.1018279975480288e-05, + "loss": 0.3218, + "step": 4687 + }, + { + "epoch": 1.5626666666666666, + "grad_norm": 1.8293603658676147, + "learning_rate": 1.101442154995376e-05, + "loss": 0.401, + "step": 4688 + }, + { + "epoch": 1.563, + "grad_norm": 3.057927370071411, + "learning_rate": 1.1010562971829464e-05, + "loss": 0.428, + "step": 4689 + }, + { + "epoch": 1.5633333333333335, + "grad_norm": 2.913428544998169, + "learning_rate": 1.1006704241687846e-05, + "loss": 0.4109, + "step": 4690 + }, + { + "epoch": 1.5636666666666668, + "grad_norm": 2.055891752243042, + "learning_rate": 1.1002845360109368e-05, + "loss": 0.4101, + "step": 4691 + }, + { + "epoch": 1.564, + "grad_norm": 2.057849407196045, + "learning_rate": 1.0998986327674515e-05, + "loss": 0.3994, + "step": 4692 + }, + { + "epoch": 1.5643333333333334, + "grad_norm": 2.349092960357666, + "learning_rate": 1.0995127144963792e-05, + "loss": 0.3807, + "step": 4693 + }, + { + "epoch": 1.5646666666666667, + "grad_norm": 3.7130393981933594, + "learning_rate": 1.0991267812557726e-05, + "loss": 0.4104, + "step": 4694 + }, + { + "epoch": 1.565, + "grad_norm": 2.899174690246582, + "learning_rate": 1.0987408331036879e-05, + "loss": 0.4427, + "step": 4695 + }, + { + "epoch": 1.5653333333333332, + "grad_norm": 2.764601469039917, + "learning_rate": 1.0983548700981825e-05, + "loss": 0.3879, + "step": 4696 + }, + { + "epoch": 1.5656666666666665, + "grad_norm": 2.248028516769409, + "learning_rate": 1.0979688922973157e-05, + "loss": 0.382, + "step": 4697 + }, + { + "epoch": 1.5659999999999998, + "grad_norm": 2.628772735595703, + "learning_rate": 1.0975828997591496e-05, + "loss": 0.3861, + "step": 4698 + }, + { + "epoch": 1.5663333333333334, + "grad_norm": 2.4924910068511963, + "learning_rate": 1.0971968925417486e-05, + "loss": 0.4031, + "step": 4699 + }, + { + "epoch": 1.5666666666666667, + "grad_norm": 2.4867780208587646, + "learning_rate": 1.0968108707031792e-05, + "loss": 0.3957, + "step": 4700 + }, + { + "epoch": 1.567, + "grad_norm": 2.0705368518829346, + "learning_rate": 1.09642483430151e-05, + "loss": 0.3884, + "step": 4701 + }, + { + "epoch": 1.5673333333333335, + "grad_norm": 1.9664608240127563, + "learning_rate": 1.0960387833948117e-05, + "loss": 0.3794, + "step": 4702 + }, + { + "epoch": 1.5676666666666668, + "grad_norm": 2.253676414489746, + "learning_rate": 1.095652718041157e-05, + "loss": 0.3807, + "step": 4703 + }, + { + "epoch": 1.568, + "grad_norm": 4.3155837059021, + "learning_rate": 1.0952666382986216e-05, + "loss": 0.4043, + "step": 4704 + }, + { + "epoch": 1.5683333333333334, + "grad_norm": 1.858162522315979, + "learning_rate": 1.0948805442252828e-05, + "loss": 0.3636, + "step": 4705 + }, + { + "epoch": 1.5686666666666667, + "grad_norm": 2.0638339519500732, + "learning_rate": 1.09449443587922e-05, + "loss": 0.414, + "step": 4706 + }, + { + "epoch": 1.569, + "grad_norm": 2.9656152725219727, + "learning_rate": 1.0941083133185146e-05, + "loss": 0.3737, + "step": 4707 + }, + { + "epoch": 1.5693333333333332, + "grad_norm": 2.032008647918701, + "learning_rate": 1.0937221766012504e-05, + "loss": 0.4132, + "step": 4708 + }, + { + "epoch": 1.5696666666666665, + "grad_norm": 1.9929908514022827, + "learning_rate": 1.0933360257855137e-05, + "loss": 0.3739, + "step": 4709 + }, + { + "epoch": 1.5699999999999998, + "grad_norm": 2.375175952911377, + "learning_rate": 1.0929498609293925e-05, + "loss": 0.3748, + "step": 4710 + }, + { + "epoch": 1.5703333333333334, + "grad_norm": 2.020542621612549, + "learning_rate": 1.0925636820909764e-05, + "loss": 0.3929, + "step": 4711 + }, + { + "epoch": 1.5706666666666667, + "grad_norm": 2.082646131515503, + "learning_rate": 1.092177489328358e-05, + "loss": 0.4019, + "step": 4712 + }, + { + "epoch": 1.571, + "grad_norm": 2.1189210414886475, + "learning_rate": 1.0917912826996319e-05, + "loss": 0.3736, + "step": 4713 + }, + { + "epoch": 1.5713333333333335, + "grad_norm": 1.821919322013855, + "learning_rate": 1.0914050622628942e-05, + "loss": 0.4036, + "step": 4714 + }, + { + "epoch": 1.5716666666666668, + "grad_norm": 3.0367393493652344, + "learning_rate": 1.0910188280762435e-05, + "loss": 0.3822, + "step": 4715 + }, + { + "epoch": 1.572, + "grad_norm": 2.570927143096924, + "learning_rate": 1.0906325801977804e-05, + "loss": 0.4002, + "step": 4716 + }, + { + "epoch": 1.5723333333333334, + "grad_norm": 2.153837203979492, + "learning_rate": 1.0902463186856071e-05, + "loss": 0.3984, + "step": 4717 + }, + { + "epoch": 1.5726666666666667, + "grad_norm": 2.3464348316192627, + "learning_rate": 1.0898600435978291e-05, + "loss": 0.4062, + "step": 4718 + }, + { + "epoch": 1.573, + "grad_norm": 2.3791842460632324, + "learning_rate": 1.0894737549925525e-05, + "loss": 0.394, + "step": 4719 + }, + { + "epoch": 1.5733333333333333, + "grad_norm": 1.9859588146209717, + "learning_rate": 1.0890874529278866e-05, + "loss": 0.4008, + "step": 4720 + }, + { + "epoch": 1.5736666666666665, + "grad_norm": 2.2477478981018066, + "learning_rate": 1.0887011374619412e-05, + "loss": 0.38, + "step": 4721 + }, + { + "epoch": 1.5739999999999998, + "grad_norm": 2.416189432144165, + "learning_rate": 1.08831480865283e-05, + "loss": 0.3843, + "step": 4722 + }, + { + "epoch": 1.5743333333333334, + "grad_norm": 2.2872397899627686, + "learning_rate": 1.0879284665586678e-05, + "loss": 0.404, + "step": 4723 + }, + { + "epoch": 1.5746666666666667, + "grad_norm": 2.1532442569732666, + "learning_rate": 1.0875421112375709e-05, + "loss": 0.4106, + "step": 4724 + }, + { + "epoch": 1.575, + "grad_norm": 2.477294683456421, + "learning_rate": 1.0871557427476585e-05, + "loss": 0.4027, + "step": 4725 + }, + { + "epoch": 1.5753333333333335, + "grad_norm": 1.9042569398880005, + "learning_rate": 1.0867693611470508e-05, + "loss": 0.3679, + "step": 4726 + }, + { + "epoch": 1.5756666666666668, + "grad_norm": 1.989035964012146, + "learning_rate": 1.0863829664938714e-05, + "loss": 0.3941, + "step": 4727 + }, + { + "epoch": 1.576, + "grad_norm": 2.2634170055389404, + "learning_rate": 1.0859965588462442e-05, + "loss": 0.4173, + "step": 4728 + }, + { + "epoch": 1.5763333333333334, + "grad_norm": 2.1763765811920166, + "learning_rate": 1.0856101382622968e-05, + "loss": 0.4017, + "step": 4729 + }, + { + "epoch": 1.5766666666666667, + "grad_norm": 2.779428482055664, + "learning_rate": 1.0852237048001568e-05, + "loss": 0.4213, + "step": 4730 + }, + { + "epoch": 1.577, + "grad_norm": 2.4275803565979004, + "learning_rate": 1.0848372585179552e-05, + "loss": 0.3812, + "step": 4731 + }, + { + "epoch": 1.5773333333333333, + "grad_norm": 2.0971174240112305, + "learning_rate": 1.0844507994738248e-05, + "loss": 0.3975, + "step": 4732 + }, + { + "epoch": 1.5776666666666666, + "grad_norm": 2.3259613513946533, + "learning_rate": 1.0840643277258993e-05, + "loss": 0.4296, + "step": 4733 + }, + { + "epoch": 1.5779999999999998, + "grad_norm": 2.3203985691070557, + "learning_rate": 1.083677843332316e-05, + "loss": 0.3925, + "step": 4734 + }, + { + "epoch": 1.5783333333333334, + "grad_norm": 2.19077205657959, + "learning_rate": 1.0832913463512116e-05, + "loss": 0.39, + "step": 4735 + }, + { + "epoch": 1.5786666666666667, + "grad_norm": 1.7853426933288574, + "learning_rate": 1.0829048368407276e-05, + "loss": 0.3616, + "step": 4736 + }, + { + "epoch": 1.579, + "grad_norm": 2.1817517280578613, + "learning_rate": 1.0825183148590055e-05, + "loss": 0.407, + "step": 4737 + }, + { + "epoch": 1.5793333333333335, + "grad_norm": 1.7937780618667603, + "learning_rate": 1.0821317804641892e-05, + "loss": 0.4119, + "step": 4738 + }, + { + "epoch": 1.5796666666666668, + "grad_norm": 2.0732204914093018, + "learning_rate": 1.0817452337144242e-05, + "loss": 0.4109, + "step": 4739 + }, + { + "epoch": 1.58, + "grad_norm": 2.1286094188690186, + "learning_rate": 1.0813586746678584e-05, + "loss": 0.3918, + "step": 4740 + }, + { + "epoch": 1.5803333333333334, + "grad_norm": 2.1760098934173584, + "learning_rate": 1.0809721033826413e-05, + "loss": 0.4095, + "step": 4741 + }, + { + "epoch": 1.5806666666666667, + "grad_norm": 2.117506504058838, + "learning_rate": 1.0805855199169235e-05, + "loss": 0.3851, + "step": 4742 + }, + { + "epoch": 1.581, + "grad_norm": 2.2339413166046143, + "learning_rate": 1.0801989243288588e-05, + "loss": 0.3675, + "step": 4743 + }, + { + "epoch": 1.5813333333333333, + "grad_norm": 1.8721472024917603, + "learning_rate": 1.0798123166766026e-05, + "loss": 0.4194, + "step": 4744 + }, + { + "epoch": 1.5816666666666666, + "grad_norm": 2.2725019454956055, + "learning_rate": 1.0794256970183104e-05, + "loss": 0.3939, + "step": 4745 + }, + { + "epoch": 1.5819999999999999, + "grad_norm": 2.296945333480835, + "learning_rate": 1.0790390654121414e-05, + "loss": 0.3547, + "step": 4746 + }, + { + "epoch": 1.5823333333333334, + "grad_norm": 3.4445290565490723, + "learning_rate": 1.0786524219162558e-05, + "loss": 0.3988, + "step": 4747 + }, + { + "epoch": 1.5826666666666667, + "grad_norm": 2.450566053390503, + "learning_rate": 1.0782657665888162e-05, + "loss": 0.3965, + "step": 4748 + }, + { + "epoch": 1.583, + "grad_norm": 2.256586790084839, + "learning_rate": 1.077879099487986e-05, + "loss": 0.3872, + "step": 4749 + }, + { + "epoch": 1.5833333333333335, + "grad_norm": 2.3115105628967285, + "learning_rate": 1.077492420671931e-05, + "loss": 0.4002, + "step": 4750 + }, + { + "epoch": 1.5836666666666668, + "grad_norm": 2.436431646347046, + "learning_rate": 1.0771057301988191e-05, + "loss": 0.3653, + "step": 4751 + }, + { + "epoch": 1.584, + "grad_norm": 1.936546802520752, + "learning_rate": 1.0767190281268187e-05, + "loss": 0.3662, + "step": 4752 + }, + { + "epoch": 1.5843333333333334, + "grad_norm": 2.678028106689453, + "learning_rate": 1.0763323145141015e-05, + "loss": 0.4083, + "step": 4753 + }, + { + "epoch": 1.5846666666666667, + "grad_norm": 1.9824035167694092, + "learning_rate": 1.0759455894188397e-05, + "loss": 0.3802, + "step": 4754 + }, + { + "epoch": 1.585, + "grad_norm": 2.3016467094421387, + "learning_rate": 1.0755588528992082e-05, + "loss": 0.3956, + "step": 4755 + }, + { + "epoch": 1.5853333333333333, + "grad_norm": 2.706146001815796, + "learning_rate": 1.0751721050133825e-05, + "loss": 0.424, + "step": 4756 + }, + { + "epoch": 1.5856666666666666, + "grad_norm": 1.9859908819198608, + "learning_rate": 1.0747853458195413e-05, + "loss": 0.3409, + "step": 4757 + }, + { + "epoch": 1.5859999999999999, + "grad_norm": 2.7304940223693848, + "learning_rate": 1.0743985753758636e-05, + "loss": 0.3589, + "step": 4758 + }, + { + "epoch": 1.5863333333333334, + "grad_norm": 1.7344845533370972, + "learning_rate": 1.0740117937405304e-05, + "loss": 0.3752, + "step": 4759 + }, + { + "epoch": 1.5866666666666667, + "grad_norm": 2.2903528213500977, + "learning_rate": 1.0736250009717249e-05, + "loss": 0.3657, + "step": 4760 + }, + { + "epoch": 1.587, + "grad_norm": 2.109903335571289, + "learning_rate": 1.0732381971276318e-05, + "loss": 0.3762, + "step": 4761 + }, + { + "epoch": 1.5873333333333335, + "grad_norm": 3.3861196041107178, + "learning_rate": 1.0728513822664373e-05, + "loss": 0.3863, + "step": 4762 + }, + { + "epoch": 1.5876666666666668, + "grad_norm": 2.157378911972046, + "learning_rate": 1.0724645564463293e-05, + "loss": 0.399, + "step": 4763 + }, + { + "epoch": 1.588, + "grad_norm": 2.5586671829223633, + "learning_rate": 1.0720777197254974e-05, + "loss": 0.3702, + "step": 4764 + }, + { + "epoch": 1.5883333333333334, + "grad_norm": 3.137629508972168, + "learning_rate": 1.0716908721621331e-05, + "loss": 0.3602, + "step": 4765 + }, + { + "epoch": 1.5886666666666667, + "grad_norm": 2.1479222774505615, + "learning_rate": 1.0713040138144284e-05, + "loss": 0.3717, + "step": 4766 + }, + { + "epoch": 1.589, + "grad_norm": 1.9763215780258179, + "learning_rate": 1.0709171447405786e-05, + "loss": 0.3755, + "step": 4767 + }, + { + "epoch": 1.5893333333333333, + "grad_norm": 1.9722269773483276, + "learning_rate": 1.0705302649987794e-05, + "loss": 0.3943, + "step": 4768 + }, + { + "epoch": 1.5896666666666666, + "grad_norm": 2.757087469100952, + "learning_rate": 1.0701433746472287e-05, + "loss": 0.4129, + "step": 4769 + }, + { + "epoch": 1.5899999999999999, + "grad_norm": 2.2545645236968994, + "learning_rate": 1.0697564737441254e-05, + "loss": 0.3743, + "step": 4770 + }, + { + "epoch": 1.5903333333333334, + "grad_norm": 2.2409629821777344, + "learning_rate": 1.0693695623476707e-05, + "loss": 0.3578, + "step": 4771 + }, + { + "epoch": 1.5906666666666667, + "grad_norm": 2.0801119804382324, + "learning_rate": 1.068982640516067e-05, + "loss": 0.3405, + "step": 4772 + }, + { + "epoch": 1.591, + "grad_norm": 2.3514246940612793, + "learning_rate": 1.0685957083075182e-05, + "loss": 0.4087, + "step": 4773 + }, + { + "epoch": 1.5913333333333335, + "grad_norm": 1.6243207454681396, + "learning_rate": 1.06820876578023e-05, + "loss": 0.3457, + "step": 4774 + }, + { + "epoch": 1.5916666666666668, + "grad_norm": 2.9967806339263916, + "learning_rate": 1.0678218129924093e-05, + "loss": 0.4188, + "step": 4775 + }, + { + "epoch": 1.592, + "grad_norm": 1.8725097179412842, + "learning_rate": 1.0674348500022653e-05, + "loss": 0.3569, + "step": 4776 + }, + { + "epoch": 1.5923333333333334, + "grad_norm": 2.8142142295837402, + "learning_rate": 1.0670478768680074e-05, + "loss": 0.4106, + "step": 4777 + }, + { + "epoch": 1.5926666666666667, + "grad_norm": 3.6168906688690186, + "learning_rate": 1.0666608936478482e-05, + "loss": 0.4168, + "step": 4778 + }, + { + "epoch": 1.593, + "grad_norm": 2.2844016551971436, + "learning_rate": 1.0662739004000005e-05, + "loss": 0.3972, + "step": 4779 + }, + { + "epoch": 1.5933333333333333, + "grad_norm": 2.087989091873169, + "learning_rate": 1.0658868971826785e-05, + "loss": 0.3671, + "step": 4780 + }, + { + "epoch": 1.5936666666666666, + "grad_norm": 2.884720802307129, + "learning_rate": 1.0654998840540995e-05, + "loss": 0.4083, + "step": 4781 + }, + { + "epoch": 1.5939999999999999, + "grad_norm": 2.1068036556243896, + "learning_rate": 1.0651128610724808e-05, + "loss": 0.3885, + "step": 4782 + }, + { + "epoch": 1.5943333333333334, + "grad_norm": 2.6984241008758545, + "learning_rate": 1.0647258282960415e-05, + "loss": 0.404, + "step": 4783 + }, + { + "epoch": 1.5946666666666667, + "grad_norm": 2.8043196201324463, + "learning_rate": 1.0643387857830024e-05, + "loss": 0.4007, + "step": 4784 + }, + { + "epoch": 1.595, + "grad_norm": 2.191270112991333, + "learning_rate": 1.0639517335915857e-05, + "loss": 0.3997, + "step": 4785 + }, + { + "epoch": 1.5953333333333335, + "grad_norm": 2.2835893630981445, + "learning_rate": 1.0635646717800152e-05, + "loss": 0.3825, + "step": 4786 + }, + { + "epoch": 1.5956666666666668, + "grad_norm": 2.3807997703552246, + "learning_rate": 1.0631776004065155e-05, + "loss": 0.4076, + "step": 4787 + }, + { + "epoch": 1.596, + "grad_norm": 3.0683302879333496, + "learning_rate": 1.0627905195293135e-05, + "loss": 0.3545, + "step": 4788 + }, + { + "epoch": 1.5963333333333334, + "grad_norm": 2.0057082176208496, + "learning_rate": 1.0624034292066369e-05, + "loss": 0.3836, + "step": 4789 + }, + { + "epoch": 1.5966666666666667, + "grad_norm": 2.6906983852386475, + "learning_rate": 1.0620163294967155e-05, + "loss": 0.3625, + "step": 4790 + }, + { + "epoch": 1.597, + "grad_norm": 2.220893621444702, + "learning_rate": 1.0616292204577796e-05, + "loss": 0.3241, + "step": 4791 + }, + { + "epoch": 1.5973333333333333, + "grad_norm": 2.17507266998291, + "learning_rate": 1.0612421021480614e-05, + "loss": 0.3913, + "step": 4792 + }, + { + "epoch": 1.5976666666666666, + "grad_norm": 5.486623764038086, + "learning_rate": 1.0608549746257949e-05, + "loss": 0.4216, + "step": 4793 + }, + { + "epoch": 1.5979999999999999, + "grad_norm": 1.9665871858596802, + "learning_rate": 1.0604678379492143e-05, + "loss": 0.363, + "step": 4794 + }, + { + "epoch": 1.5983333333333334, + "grad_norm": 2.3992183208465576, + "learning_rate": 1.0600806921765568e-05, + "loss": 0.4097, + "step": 4795 + }, + { + "epoch": 1.5986666666666667, + "grad_norm": 2.255674362182617, + "learning_rate": 1.0596935373660595e-05, + "loss": 0.4281, + "step": 4796 + }, + { + "epoch": 1.599, + "grad_norm": 5.246337890625, + "learning_rate": 1.0593063735759619e-05, + "loss": 0.4043, + "step": 4797 + }, + { + "epoch": 1.5993333333333335, + "grad_norm": 2.734703779220581, + "learning_rate": 1.0589192008645037e-05, + "loss": 0.3863, + "step": 4798 + }, + { + "epoch": 1.5996666666666668, + "grad_norm": 2.6793932914733887, + "learning_rate": 1.0585320192899275e-05, + "loss": 0.4015, + "step": 4799 + }, + { + "epoch": 1.6, + "grad_norm": 2.8210718631744385, + "learning_rate": 1.0581448289104759e-05, + "loss": 0.3989, + "step": 4800 + }, + { + "epoch": 1.6003333333333334, + "grad_norm": 2.7178497314453125, + "learning_rate": 1.0577576297843936e-05, + "loss": 0.3826, + "step": 4801 + }, + { + "epoch": 1.6006666666666667, + "grad_norm": 2.5951902866363525, + "learning_rate": 1.0573704219699258e-05, + "loss": 0.376, + "step": 4802 + }, + { + "epoch": 1.601, + "grad_norm": 3.310730218887329, + "learning_rate": 1.05698320552532e-05, + "loss": 0.4054, + "step": 4803 + }, + { + "epoch": 1.6013333333333333, + "grad_norm": 2.4814789295196533, + "learning_rate": 1.0565959805088246e-05, + "loss": 0.4398, + "step": 4804 + }, + { + "epoch": 1.6016666666666666, + "grad_norm": 2.1903674602508545, + "learning_rate": 1.056208746978689e-05, + "loss": 0.3682, + "step": 4805 + }, + { + "epoch": 1.6019999999999999, + "grad_norm": 2.1509461402893066, + "learning_rate": 1.055821504993164e-05, + "loss": 0.4006, + "step": 4806 + }, + { + "epoch": 1.6023333333333334, + "grad_norm": 2.4567108154296875, + "learning_rate": 1.0554342546105021e-05, + "loss": 0.3959, + "step": 4807 + }, + { + "epoch": 1.6026666666666667, + "grad_norm": 2.2782247066497803, + "learning_rate": 1.0550469958889562e-05, + "loss": 0.4068, + "step": 4808 + }, + { + "epoch": 1.603, + "grad_norm": 2.2155869007110596, + "learning_rate": 1.0546597288867815e-05, + "loss": 0.3954, + "step": 4809 + }, + { + "epoch": 1.6033333333333335, + "grad_norm": 2.044660806655884, + "learning_rate": 1.054272453662234e-05, + "loss": 0.4247, + "step": 4810 + }, + { + "epoch": 1.6036666666666668, + "grad_norm": 2.046394109725952, + "learning_rate": 1.0538851702735704e-05, + "loss": 0.3846, + "step": 4811 + }, + { + "epoch": 1.604, + "grad_norm": 1.964968204498291, + "learning_rate": 1.0534978787790494e-05, + "loss": 0.3631, + "step": 4812 + }, + { + "epoch": 1.6043333333333334, + "grad_norm": 3.1363744735717773, + "learning_rate": 1.0531105792369305e-05, + "loss": 0.3974, + "step": 4813 + }, + { + "epoch": 1.6046666666666667, + "grad_norm": 2.5201399326324463, + "learning_rate": 1.0527232717054744e-05, + "loss": 0.369, + "step": 4814 + }, + { + "epoch": 1.605, + "grad_norm": 3.5226402282714844, + "learning_rate": 1.0523359562429441e-05, + "loss": 0.4167, + "step": 4815 + }, + { + "epoch": 1.6053333333333333, + "grad_norm": 2.0293350219726562, + "learning_rate": 1.0519486329076017e-05, + "loss": 0.3853, + "step": 4816 + }, + { + "epoch": 1.6056666666666666, + "grad_norm": 1.8135545253753662, + "learning_rate": 1.0515613017577115e-05, + "loss": 0.3598, + "step": 4817 + }, + { + "epoch": 1.6059999999999999, + "grad_norm": 2.093762159347534, + "learning_rate": 1.0511739628515402e-05, + "loss": 0.3946, + "step": 4818 + }, + { + "epoch": 1.6063333333333332, + "grad_norm": 1.9064711332321167, + "learning_rate": 1.0507866162473537e-05, + "loss": 0.3919, + "step": 4819 + }, + { + "epoch": 1.6066666666666667, + "grad_norm": 2.6507022380828857, + "learning_rate": 1.0503992620034202e-05, + "loss": 0.4005, + "step": 4820 + }, + { + "epoch": 1.607, + "grad_norm": 2.795788049697876, + "learning_rate": 1.0500119001780085e-05, + "loss": 0.4228, + "step": 4821 + }, + { + "epoch": 1.6073333333333333, + "grad_norm": 4.068974018096924, + "learning_rate": 1.0496245308293892e-05, + "loss": 0.4176, + "step": 4822 + }, + { + "epoch": 1.6076666666666668, + "grad_norm": 2.7622857093811035, + "learning_rate": 1.0492371540158332e-05, + "loss": 0.3934, + "step": 4823 + }, + { + "epoch": 1.608, + "grad_norm": 2.65724515914917, + "learning_rate": 1.0488497697956134e-05, + "loss": 0.4162, + "step": 4824 + }, + { + "epoch": 1.6083333333333334, + "grad_norm": 2.5938451290130615, + "learning_rate": 1.0484623782270032e-05, + "loss": 0.3533, + "step": 4825 + }, + { + "epoch": 1.6086666666666667, + "grad_norm": 2.4468917846679688, + "learning_rate": 1.048074979368277e-05, + "loss": 0.3922, + "step": 4826 + }, + { + "epoch": 1.609, + "grad_norm": 2.1622705459594727, + "learning_rate": 1.047687573277711e-05, + "loss": 0.3719, + "step": 4827 + }, + { + "epoch": 1.6093333333333333, + "grad_norm": 2.59745717048645, + "learning_rate": 1.0473001600135815e-05, + "loss": 0.3964, + "step": 4828 + }, + { + "epoch": 1.6096666666666666, + "grad_norm": 2.2890374660491943, + "learning_rate": 1.0469127396341675e-05, + "loss": 0.3712, + "step": 4829 + }, + { + "epoch": 1.6099999999999999, + "grad_norm": 2.776484489440918, + "learning_rate": 1.046525312197747e-05, + "loss": 0.3862, + "step": 4830 + }, + { + "epoch": 1.6103333333333332, + "grad_norm": 3.104187250137329, + "learning_rate": 1.0461378777626001e-05, + "loss": 0.4083, + "step": 4831 + }, + { + "epoch": 1.6106666666666667, + "grad_norm": 2.26220440864563, + "learning_rate": 1.0457504363870084e-05, + "loss": 0.3692, + "step": 4832 + }, + { + "epoch": 1.611, + "grad_norm": 2.8042452335357666, + "learning_rate": 1.0453629881292537e-05, + "loss": 0.4228, + "step": 4833 + }, + { + "epoch": 1.6113333333333333, + "grad_norm": 2.036648750305176, + "learning_rate": 1.04497553304762e-05, + "loss": 0.3876, + "step": 4834 + }, + { + "epoch": 1.6116666666666668, + "grad_norm": 3.0298118591308594, + "learning_rate": 1.0445880712003901e-05, + "loss": 0.395, + "step": 4835 + }, + { + "epoch": 1.612, + "grad_norm": 2.0553860664367676, + "learning_rate": 1.0442006026458506e-05, + "loss": 0.353, + "step": 4836 + }, + { + "epoch": 1.6123333333333334, + "grad_norm": 2.584496021270752, + "learning_rate": 1.0438131274422872e-05, + "loss": 0.4106, + "step": 4837 + }, + { + "epoch": 1.6126666666666667, + "grad_norm": 2.3801681995391846, + "learning_rate": 1.0434256456479868e-05, + "loss": 0.408, + "step": 4838 + }, + { + "epoch": 1.613, + "grad_norm": 2.0928633213043213, + "learning_rate": 1.0430381573212385e-05, + "loss": 0.3503, + "step": 4839 + }, + { + "epoch": 1.6133333333333333, + "grad_norm": 2.049912691116333, + "learning_rate": 1.0426506625203308e-05, + "loss": 0.3862, + "step": 4840 + }, + { + "epoch": 1.6136666666666666, + "grad_norm": 2.269869327545166, + "learning_rate": 1.042263161303554e-05, + "loss": 0.4249, + "step": 4841 + }, + { + "epoch": 1.6139999999999999, + "grad_norm": 3.526336669921875, + "learning_rate": 1.0418756537291996e-05, + "loss": 0.437, + "step": 4842 + }, + { + "epoch": 1.6143333333333332, + "grad_norm": 2.8765945434570312, + "learning_rate": 1.0414881398555596e-05, + "loss": 0.4274, + "step": 4843 + }, + { + "epoch": 1.6146666666666667, + "grad_norm": 3.190725326538086, + "learning_rate": 1.0411006197409272e-05, + "loss": 0.3941, + "step": 4844 + }, + { + "epoch": 1.615, + "grad_norm": 2.027998208999634, + "learning_rate": 1.040713093443596e-05, + "loss": 0.395, + "step": 4845 + }, + { + "epoch": 1.6153333333333333, + "grad_norm": 2.842268943786621, + "learning_rate": 1.0403255610218613e-05, + "loss": 0.3985, + "step": 4846 + }, + { + "epoch": 1.6156666666666668, + "grad_norm": 2.3296847343444824, + "learning_rate": 1.0399380225340186e-05, + "loss": 0.3921, + "step": 4847 + }, + { + "epoch": 1.616, + "grad_norm": 2.092621088027954, + "learning_rate": 1.0395504780383653e-05, + "loss": 0.4101, + "step": 4848 + }, + { + "epoch": 1.6163333333333334, + "grad_norm": 2.0927963256835938, + "learning_rate": 1.0391629275931982e-05, + "loss": 0.3955, + "step": 4849 + }, + { + "epoch": 1.6166666666666667, + "grad_norm": 3.2226643562316895, + "learning_rate": 1.038775371256817e-05, + "loss": 0.3977, + "step": 4850 + }, + { + "epoch": 1.617, + "grad_norm": 1.9971424341201782, + "learning_rate": 1.03838780908752e-05, + "loss": 0.3574, + "step": 4851 + }, + { + "epoch": 1.6173333333333333, + "grad_norm": 2.32261061668396, + "learning_rate": 1.0380002411436082e-05, + "loss": 0.3823, + "step": 4852 + }, + { + "epoch": 1.6176666666666666, + "grad_norm": 2.4926445484161377, + "learning_rate": 1.037612667483383e-05, + "loss": 0.3844, + "step": 4853 + }, + { + "epoch": 1.6179999999999999, + "grad_norm": 2.3345537185668945, + "learning_rate": 1.037225088165146e-05, + "loss": 0.3663, + "step": 4854 + }, + { + "epoch": 1.6183333333333332, + "grad_norm": 2.195115089416504, + "learning_rate": 1.0368375032472003e-05, + "loss": 0.3941, + "step": 4855 + }, + { + "epoch": 1.6186666666666667, + "grad_norm": 2.7384862899780273, + "learning_rate": 1.0364499127878493e-05, + "loss": 0.3841, + "step": 4856 + }, + { + "epoch": 1.619, + "grad_norm": 2.6462645530700684, + "learning_rate": 1.0360623168453982e-05, + "loss": 0.3578, + "step": 4857 + }, + { + "epoch": 1.6193333333333333, + "grad_norm": 2.379380941390991, + "learning_rate": 1.0356747154781526e-05, + "loss": 0.4129, + "step": 4858 + }, + { + "epoch": 1.6196666666666668, + "grad_norm": 2.5646514892578125, + "learning_rate": 1.0352871087444176e-05, + "loss": 0.3763, + "step": 4859 + }, + { + "epoch": 1.62, + "grad_norm": 2.0218708515167236, + "learning_rate": 1.0348994967025012e-05, + "loss": 0.4063, + "step": 4860 + }, + { + "epoch": 1.6203333333333334, + "grad_norm": 1.9470257759094238, + "learning_rate": 1.0345118794107108e-05, + "loss": 0.3905, + "step": 4861 + }, + { + "epoch": 1.6206666666666667, + "grad_norm": 2.319248676300049, + "learning_rate": 1.0341242569273553e-05, + "loss": 0.4164, + "step": 4862 + }, + { + "epoch": 1.621, + "grad_norm": 2.6181647777557373, + "learning_rate": 1.0337366293107441e-05, + "loss": 0.4107, + "step": 4863 + }, + { + "epoch": 1.6213333333333333, + "grad_norm": 2.8394150733947754, + "learning_rate": 1.0333489966191874e-05, + "loss": 0.3978, + "step": 4864 + }, + { + "epoch": 1.6216666666666666, + "grad_norm": 2.463758707046509, + "learning_rate": 1.0329613589109959e-05, + "loss": 0.3911, + "step": 4865 + }, + { + "epoch": 1.6219999999999999, + "grad_norm": 2.103893280029297, + "learning_rate": 1.0325737162444813e-05, + "loss": 0.3996, + "step": 4866 + }, + { + "epoch": 1.6223333333333332, + "grad_norm": 2.368427276611328, + "learning_rate": 1.0321860686779563e-05, + "loss": 0.3864, + "step": 4867 + }, + { + "epoch": 1.6226666666666667, + "grad_norm": 2.2395358085632324, + "learning_rate": 1.0317984162697341e-05, + "loss": 0.4348, + "step": 4868 + }, + { + "epoch": 1.623, + "grad_norm": 3.056201219558716, + "learning_rate": 1.0314107590781284e-05, + "loss": 0.4051, + "step": 4869 + }, + { + "epoch": 1.6233333333333333, + "grad_norm": 2.745420455932617, + "learning_rate": 1.0310230971614538e-05, + "loss": 0.3808, + "step": 4870 + }, + { + "epoch": 1.6236666666666668, + "grad_norm": 2.0188450813293457, + "learning_rate": 1.030635430578026e-05, + "loss": 0.3585, + "step": 4871 + }, + { + "epoch": 1.624, + "grad_norm": 2.153754472732544, + "learning_rate": 1.0302477593861608e-05, + "loss": 0.4287, + "step": 4872 + }, + { + "epoch": 1.6243333333333334, + "grad_norm": 2.647303819656372, + "learning_rate": 1.029860083644175e-05, + "loss": 0.3959, + "step": 4873 + }, + { + "epoch": 1.6246666666666667, + "grad_norm": 2.1011321544647217, + "learning_rate": 1.0294724034103858e-05, + "loss": 0.3939, + "step": 4874 + }, + { + "epoch": 1.625, + "grad_norm": 2.139519214630127, + "learning_rate": 1.0290847187431115e-05, + "loss": 0.393, + "step": 4875 + }, + { + "epoch": 1.6253333333333333, + "grad_norm": 2.748246431350708, + "learning_rate": 1.0286970297006709e-05, + "loss": 0.3998, + "step": 4876 + }, + { + "epoch": 1.6256666666666666, + "grad_norm": 3.8351449966430664, + "learning_rate": 1.0283093363413834e-05, + "loss": 0.3905, + "step": 4877 + }, + { + "epoch": 1.626, + "grad_norm": 2.5498998165130615, + "learning_rate": 1.0279216387235691e-05, + "loss": 0.3617, + "step": 4878 + }, + { + "epoch": 1.6263333333333332, + "grad_norm": 2.092214584350586, + "learning_rate": 1.0275339369055485e-05, + "loss": 0.3864, + "step": 4879 + }, + { + "epoch": 1.6266666666666667, + "grad_norm": 2.8568849563598633, + "learning_rate": 1.027146230945643e-05, + "loss": 0.4039, + "step": 4880 + }, + { + "epoch": 1.627, + "grad_norm": 3.3279335498809814, + "learning_rate": 1.0267585209021748e-05, + "loss": 0.4312, + "step": 4881 + }, + { + "epoch": 1.6273333333333333, + "grad_norm": 2.1159865856170654, + "learning_rate": 1.0263708068334666e-05, + "loss": 0.3927, + "step": 4882 + }, + { + "epoch": 1.6276666666666668, + "grad_norm": 2.2602357864379883, + "learning_rate": 1.0259830887978413e-05, + "loss": 0.3885, + "step": 4883 + }, + { + "epoch": 1.6280000000000001, + "grad_norm": 2.091521739959717, + "learning_rate": 1.0255953668536223e-05, + "loss": 0.396, + "step": 4884 + }, + { + "epoch": 1.6283333333333334, + "grad_norm": 2.5102624893188477, + "learning_rate": 1.0252076410591348e-05, + "loss": 0.3908, + "step": 4885 + }, + { + "epoch": 1.6286666666666667, + "grad_norm": 2.202422618865967, + "learning_rate": 1.0248199114727033e-05, + "loss": 0.3699, + "step": 4886 + }, + { + "epoch": 1.629, + "grad_norm": 1.9880046844482422, + "learning_rate": 1.0244321781526533e-05, + "loss": 0.3887, + "step": 4887 + }, + { + "epoch": 1.6293333333333333, + "grad_norm": 2.8319144248962402, + "learning_rate": 1.0240444411573112e-05, + "loss": 0.3557, + "step": 4888 + }, + { + "epoch": 1.6296666666666666, + "grad_norm": 2.355677366256714, + "learning_rate": 1.023656700545003e-05, + "loss": 0.3927, + "step": 4889 + }, + { + "epoch": 1.63, + "grad_norm": 3.66475510597229, + "learning_rate": 1.0232689563740563e-05, + "loss": 0.3731, + "step": 4890 + }, + { + "epoch": 1.6303333333333332, + "grad_norm": 2.2152700424194336, + "learning_rate": 1.022881208702799e-05, + "loss": 0.3888, + "step": 4891 + }, + { + "epoch": 1.6306666666666667, + "grad_norm": 2.8040058612823486, + "learning_rate": 1.0224934575895592e-05, + "loss": 0.3817, + "step": 4892 + }, + { + "epoch": 1.631, + "grad_norm": 1.9826041460037231, + "learning_rate": 1.0221057030926657e-05, + "loss": 0.4104, + "step": 4893 + }, + { + "epoch": 1.6313333333333333, + "grad_norm": 2.312415599822998, + "learning_rate": 1.0217179452704474e-05, + "loss": 0.4427, + "step": 4894 + }, + { + "epoch": 1.6316666666666668, + "grad_norm": 3.294074535369873, + "learning_rate": 1.0213301841812345e-05, + "loss": 0.3967, + "step": 4895 + }, + { + "epoch": 1.6320000000000001, + "grad_norm": 3.1755149364471436, + "learning_rate": 1.0209424198833571e-05, + "loss": 0.3884, + "step": 4896 + }, + { + "epoch": 1.6323333333333334, + "grad_norm": 1.8074257373809814, + "learning_rate": 1.020554652435146e-05, + "loss": 0.3701, + "step": 4897 + }, + { + "epoch": 1.6326666666666667, + "grad_norm": 2.393001079559326, + "learning_rate": 1.0201668818949323e-05, + "loss": 0.4198, + "step": 4898 + }, + { + "epoch": 1.633, + "grad_norm": 2.337869167327881, + "learning_rate": 1.0197791083210478e-05, + "loss": 0.3562, + "step": 4899 + }, + { + "epoch": 1.6333333333333333, + "grad_norm": 2.3221940994262695, + "learning_rate": 1.0193913317718245e-05, + "loss": 0.3994, + "step": 4900 + }, + { + "epoch": 1.6336666666666666, + "grad_norm": 2.6955478191375732, + "learning_rate": 1.0190035523055952e-05, + "loss": 0.3969, + "step": 4901 + }, + { + "epoch": 1.634, + "grad_norm": 2.3303139209747314, + "learning_rate": 1.0186157699806928e-05, + "loss": 0.407, + "step": 4902 + }, + { + "epoch": 1.6343333333333332, + "grad_norm": 2.1778452396392822, + "learning_rate": 1.0182279848554506e-05, + "loss": 0.3659, + "step": 4903 + }, + { + "epoch": 1.6346666666666667, + "grad_norm": 2.0941028594970703, + "learning_rate": 1.0178401969882029e-05, + "loss": 0.3885, + "step": 4904 + }, + { + "epoch": 1.635, + "grad_norm": 2.345041036605835, + "learning_rate": 1.0174524064372837e-05, + "loss": 0.4185, + "step": 4905 + }, + { + "epoch": 1.6353333333333333, + "grad_norm": 2.154445171356201, + "learning_rate": 1.0170646132610278e-05, + "loss": 0.4074, + "step": 4906 + }, + { + "epoch": 1.6356666666666668, + "grad_norm": 2.2848308086395264, + "learning_rate": 1.0166768175177699e-05, + "loss": 0.3541, + "step": 4907 + }, + { + "epoch": 1.6360000000000001, + "grad_norm": 2.359203577041626, + "learning_rate": 1.0162890192658459e-05, + "loss": 0.3878, + "step": 4908 + }, + { + "epoch": 1.6363333333333334, + "grad_norm": 2.398984909057617, + "learning_rate": 1.0159012185635917e-05, + "loss": 0.3584, + "step": 4909 + }, + { + "epoch": 1.6366666666666667, + "grad_norm": 2.125455141067505, + "learning_rate": 1.0155134154693434e-05, + "loss": 0.4067, + "step": 4910 + }, + { + "epoch": 1.637, + "grad_norm": 1.8736975193023682, + "learning_rate": 1.0151256100414375e-05, + "loss": 0.3775, + "step": 4911 + }, + { + "epoch": 1.6373333333333333, + "grad_norm": 2.5161311626434326, + "learning_rate": 1.0147378023382108e-05, + "loss": 0.4136, + "step": 4912 + }, + { + "epoch": 1.6376666666666666, + "grad_norm": 1.9798706769943237, + "learning_rate": 1.014349992418001e-05, + "loss": 0.3942, + "step": 4913 + }, + { + "epoch": 1.638, + "grad_norm": 2.628796339035034, + "learning_rate": 1.0139621803391454e-05, + "loss": 0.367, + "step": 4914 + }, + { + "epoch": 1.6383333333333332, + "grad_norm": 2.231912851333618, + "learning_rate": 1.0135743661599821e-05, + "loss": 0.3721, + "step": 4915 + }, + { + "epoch": 1.6386666666666667, + "grad_norm": 1.9139373302459717, + "learning_rate": 1.013186549938849e-05, + "loss": 0.363, + "step": 4916 + }, + { + "epoch": 1.639, + "grad_norm": 2.7914624214172363, + "learning_rate": 1.0127987317340851e-05, + "loss": 0.3728, + "step": 4917 + }, + { + "epoch": 1.6393333333333333, + "grad_norm": 1.9204601049423218, + "learning_rate": 1.012410911604029e-05, + "loss": 0.426, + "step": 4918 + }, + { + "epoch": 1.6396666666666668, + "grad_norm": 2.6371610164642334, + "learning_rate": 1.0120230896070197e-05, + "loss": 0.3981, + "step": 4919 + }, + { + "epoch": 1.6400000000000001, + "grad_norm": 2.171576499938965, + "learning_rate": 1.0116352658013973e-05, + "loss": 0.3559, + "step": 4920 + }, + { + "epoch": 1.6403333333333334, + "grad_norm": 1.9554239511489868, + "learning_rate": 1.0112474402455005e-05, + "loss": 0.3179, + "step": 4921 + }, + { + "epoch": 1.6406666666666667, + "grad_norm": 2.6682281494140625, + "learning_rate": 1.01085961299767e-05, + "loss": 0.3839, + "step": 4922 + }, + { + "epoch": 1.641, + "grad_norm": 1.965303897857666, + "learning_rate": 1.010471784116246e-05, + "loss": 0.4072, + "step": 4923 + }, + { + "epoch": 1.6413333333333333, + "grad_norm": 1.87592613697052, + "learning_rate": 1.0100839536595685e-05, + "loss": 0.376, + "step": 4924 + }, + { + "epoch": 1.6416666666666666, + "grad_norm": 2.572605848312378, + "learning_rate": 1.0096961216859786e-05, + "loss": 0.3927, + "step": 4925 + }, + { + "epoch": 1.642, + "grad_norm": 2.179682493209839, + "learning_rate": 1.009308288253817e-05, + "loss": 0.3842, + "step": 4926 + }, + { + "epoch": 1.6423333333333332, + "grad_norm": 2.0119402408599854, + "learning_rate": 1.008920453421425e-05, + "loss": 0.3886, + "step": 4927 + }, + { + "epoch": 1.6426666666666667, + "grad_norm": 2.047334671020508, + "learning_rate": 1.0085326172471435e-05, + "loss": 0.3773, + "step": 4928 + }, + { + "epoch": 1.643, + "grad_norm": 1.9641050100326538, + "learning_rate": 1.0081447797893149e-05, + "loss": 0.3892, + "step": 4929 + }, + { + "epoch": 1.6433333333333333, + "grad_norm": 2.8584659099578857, + "learning_rate": 1.0077569411062804e-05, + "loss": 0.3481, + "step": 4930 + }, + { + "epoch": 1.6436666666666668, + "grad_norm": 1.952132225036621, + "learning_rate": 1.0073691012563818e-05, + "loss": 0.3805, + "step": 4931 + }, + { + "epoch": 1.6440000000000001, + "grad_norm": 2.1198618412017822, + "learning_rate": 1.0069812602979617e-05, + "loss": 0.3909, + "step": 4932 + }, + { + "epoch": 1.6443333333333334, + "grad_norm": 2.3500747680664062, + "learning_rate": 1.0065934182893618e-05, + "loss": 0.3815, + "step": 4933 + }, + { + "epoch": 1.6446666666666667, + "grad_norm": 2.0353474617004395, + "learning_rate": 1.0062055752889252e-05, + "loss": 0.4262, + "step": 4934 + }, + { + "epoch": 1.645, + "grad_norm": 2.2703795433044434, + "learning_rate": 1.005817731354994e-05, + "loss": 0.3776, + "step": 4935 + }, + { + "epoch": 1.6453333333333333, + "grad_norm": 2.891414165496826, + "learning_rate": 1.005429886545911e-05, + "loss": 0.4056, + "step": 4936 + }, + { + "epoch": 1.6456666666666666, + "grad_norm": 2.646493911743164, + "learning_rate": 1.0050420409200193e-05, + "loss": 0.3894, + "step": 4937 + }, + { + "epoch": 1.646, + "grad_norm": 2.694119453430176, + "learning_rate": 1.0046541945356613e-05, + "loss": 0.3878, + "step": 4938 + }, + { + "epoch": 1.6463333333333332, + "grad_norm": 2.2561452388763428, + "learning_rate": 1.004266347451181e-05, + "loss": 0.3916, + "step": 4939 + }, + { + "epoch": 1.6466666666666665, + "grad_norm": 2.1495814323425293, + "learning_rate": 1.0038784997249205e-05, + "loss": 0.3709, + "step": 4940 + }, + { + "epoch": 1.647, + "grad_norm": 2.343183755874634, + "learning_rate": 1.0034906514152239e-05, + "loss": 0.3542, + "step": 4941 + }, + { + "epoch": 1.6473333333333333, + "grad_norm": 3.140831708908081, + "learning_rate": 1.0031028025804341e-05, + "loss": 0.4176, + "step": 4942 + }, + { + "epoch": 1.6476666666666666, + "grad_norm": 3.365590810775757, + "learning_rate": 1.0027149532788955e-05, + "loss": 0.3848, + "step": 4943 + }, + { + "epoch": 1.6480000000000001, + "grad_norm": 3.9170079231262207, + "learning_rate": 1.0023271035689506e-05, + "loss": 0.4223, + "step": 4944 + }, + { + "epoch": 1.6483333333333334, + "grad_norm": 3.1836650371551514, + "learning_rate": 1.0019392535089431e-05, + "loss": 0.38, + "step": 4945 + }, + { + "epoch": 1.6486666666666667, + "grad_norm": 3.1342391967773438, + "learning_rate": 1.0015514031572171e-05, + "loss": 0.3811, + "step": 4946 + }, + { + "epoch": 1.649, + "grad_norm": 2.6175882816314697, + "learning_rate": 1.001163552572116e-05, + "loss": 0.4222, + "step": 4947 + }, + { + "epoch": 1.6493333333333333, + "grad_norm": 3.2767069339752197, + "learning_rate": 1.0007757018119839e-05, + "loss": 0.4045, + "step": 4948 + }, + { + "epoch": 1.6496666666666666, + "grad_norm": 2.269263982772827, + "learning_rate": 1.0003878509351637e-05, + "loss": 0.3484, + "step": 4949 + }, + { + "epoch": 1.65, + "grad_norm": 2.3987982273101807, + "learning_rate": 1e-05, + "loss": 0.3708, + "step": 4950 + }, + { + "epoch": 1.6503333333333332, + "grad_norm": 2.0157628059387207, + "learning_rate": 9.996121490648363e-06, + "loss": 0.3819, + "step": 4951 + }, + { + "epoch": 1.6506666666666665, + "grad_norm": 2.325796365737915, + "learning_rate": 9.992242981880168e-06, + "loss": 0.374, + "step": 4952 + }, + { + "epoch": 1.651, + "grad_norm": 3.889958143234253, + "learning_rate": 9.988364474278844e-06, + "loss": 0.3713, + "step": 4953 + }, + { + "epoch": 1.6513333333333333, + "grad_norm": 2.4422495365142822, + "learning_rate": 9.984485968427832e-06, + "loss": 0.3683, + "step": 4954 + }, + { + "epoch": 1.6516666666666666, + "grad_norm": 2.6227846145629883, + "learning_rate": 9.98060746491057e-06, + "loss": 0.3779, + "step": 4955 + }, + { + "epoch": 1.6520000000000001, + "grad_norm": 2.8090436458587646, + "learning_rate": 9.976728964310499e-06, + "loss": 0.3804, + "step": 4956 + }, + { + "epoch": 1.6523333333333334, + "grad_norm": 2.075206756591797, + "learning_rate": 9.972850467211048e-06, + "loss": 0.3803, + "step": 4957 + }, + { + "epoch": 1.6526666666666667, + "grad_norm": 2.6792287826538086, + "learning_rate": 9.968971974195659e-06, + "loss": 0.36, + "step": 4958 + }, + { + "epoch": 1.653, + "grad_norm": 2.1883387565612793, + "learning_rate": 9.965093485847766e-06, + "loss": 0.3835, + "step": 4959 + }, + { + "epoch": 1.6533333333333333, + "grad_norm": 2.533402919769287, + "learning_rate": 9.961215002750799e-06, + "loss": 0.3806, + "step": 4960 + }, + { + "epoch": 1.6536666666666666, + "grad_norm": 2.582916259765625, + "learning_rate": 9.957336525488196e-06, + "loss": 0.4071, + "step": 4961 + }, + { + "epoch": 1.654, + "grad_norm": 2.6558892726898193, + "learning_rate": 9.953458054643389e-06, + "loss": 0.385, + "step": 4962 + }, + { + "epoch": 1.6543333333333332, + "grad_norm": 1.7557164430618286, + "learning_rate": 9.949579590799814e-06, + "loss": 0.4095, + "step": 4963 + }, + { + "epoch": 1.6546666666666665, + "grad_norm": 2.6410083770751953, + "learning_rate": 9.945701134540892e-06, + "loss": 0.404, + "step": 4964 + }, + { + "epoch": 1.655, + "grad_norm": 1.9365836381912231, + "learning_rate": 9.941822686450061e-06, + "loss": 0.3772, + "step": 4965 + }, + { + "epoch": 1.6553333333333333, + "grad_norm": 2.5795581340789795, + "learning_rate": 9.937944247110752e-06, + "loss": 0.3661, + "step": 4966 + }, + { + "epoch": 1.6556666666666666, + "grad_norm": 2.351900100708008, + "learning_rate": 9.934065817106383e-06, + "loss": 0.3803, + "step": 4967 + }, + { + "epoch": 1.6560000000000001, + "grad_norm": 2.3972959518432617, + "learning_rate": 9.930187397020385e-06, + "loss": 0.3436, + "step": 4968 + }, + { + "epoch": 1.6563333333333334, + "grad_norm": 3.265639066696167, + "learning_rate": 9.926308987436182e-06, + "loss": 0.3902, + "step": 4969 + }, + { + "epoch": 1.6566666666666667, + "grad_norm": 2.666452646255493, + "learning_rate": 9.9224305889372e-06, + "loss": 0.3894, + "step": 4970 + }, + { + "epoch": 1.657, + "grad_norm": 2.7219629287719727, + "learning_rate": 9.918552202106853e-06, + "loss": 0.3718, + "step": 4971 + }, + { + "epoch": 1.6573333333333333, + "grad_norm": 2.6471261978149414, + "learning_rate": 9.914673827528567e-06, + "loss": 0.4006, + "step": 4972 + }, + { + "epoch": 1.6576666666666666, + "grad_norm": 2.249971389770508, + "learning_rate": 9.910795465785757e-06, + "loss": 0.4189, + "step": 4973 + }, + { + "epoch": 1.658, + "grad_norm": 2.3453447818756104, + "learning_rate": 9.906917117461835e-06, + "loss": 0.4051, + "step": 4974 + }, + { + "epoch": 1.6583333333333332, + "grad_norm": 3.230998992919922, + "learning_rate": 9.903038783140216e-06, + "loss": 0.3697, + "step": 4975 + }, + { + "epoch": 1.6586666666666665, + "grad_norm": 3.545405387878418, + "learning_rate": 9.899160463404316e-06, + "loss": 0.405, + "step": 4976 + }, + { + "epoch": 1.659, + "grad_norm": 1.7897201776504517, + "learning_rate": 9.895282158837545e-06, + "loss": 0.3773, + "step": 4977 + }, + { + "epoch": 1.6593333333333333, + "grad_norm": 3.6461915969848633, + "learning_rate": 9.891403870023302e-06, + "loss": 0.4022, + "step": 4978 + }, + { + "epoch": 1.6596666666666666, + "grad_norm": 2.7432844638824463, + "learning_rate": 9.887525597544996e-06, + "loss": 0.3703, + "step": 4979 + }, + { + "epoch": 1.6600000000000001, + "grad_norm": 2.7352712154388428, + "learning_rate": 9.883647341986032e-06, + "loss": 0.3763, + "step": 4980 + }, + { + "epoch": 1.6603333333333334, + "grad_norm": 2.0071091651916504, + "learning_rate": 9.879769103929804e-06, + "loss": 0.3518, + "step": 4981 + }, + { + "epoch": 1.6606666666666667, + "grad_norm": 2.5309622287750244, + "learning_rate": 9.875890883959714e-06, + "loss": 0.3756, + "step": 4982 + }, + { + "epoch": 1.661, + "grad_norm": 2.3521878719329834, + "learning_rate": 9.87201268265915e-06, + "loss": 0.3747, + "step": 4983 + }, + { + "epoch": 1.6613333333333333, + "grad_norm": 2.2282159328460693, + "learning_rate": 9.868134500611514e-06, + "loss": 0.4048, + "step": 4984 + }, + { + "epoch": 1.6616666666666666, + "grad_norm": 2.713447093963623, + "learning_rate": 9.864256338400182e-06, + "loss": 0.3898, + "step": 4985 + }, + { + "epoch": 1.662, + "grad_norm": 2.934696674346924, + "learning_rate": 9.860378196608549e-06, + "loss": 0.3881, + "step": 4986 + }, + { + "epoch": 1.6623333333333332, + "grad_norm": 2.2195093631744385, + "learning_rate": 9.856500075819994e-06, + "loss": 0.389, + "step": 4987 + }, + { + "epoch": 1.6626666666666665, + "grad_norm": 2.72175669670105, + "learning_rate": 9.852621976617894e-06, + "loss": 0.3743, + "step": 4988 + }, + { + "epoch": 1.663, + "grad_norm": 2.570976734161377, + "learning_rate": 9.848743899585628e-06, + "loss": 0.3638, + "step": 4989 + }, + { + "epoch": 1.6633333333333333, + "grad_norm": 3.048560380935669, + "learning_rate": 9.844865845306568e-06, + "loss": 0.3638, + "step": 4990 + }, + { + "epoch": 1.6636666666666666, + "grad_norm": 2.8323118686676025, + "learning_rate": 9.840987814364085e-06, + "loss": 0.4189, + "step": 4991 + }, + { + "epoch": 1.6640000000000001, + "grad_norm": 2.549638032913208, + "learning_rate": 9.837109807341543e-06, + "loss": 0.3529, + "step": 4992 + }, + { + "epoch": 1.6643333333333334, + "grad_norm": 2.237649917602539, + "learning_rate": 9.833231824822303e-06, + "loss": 0.3947, + "step": 4993 + }, + { + "epoch": 1.6646666666666667, + "grad_norm": 2.2162322998046875, + "learning_rate": 9.829353867389728e-06, + "loss": 0.3794, + "step": 4994 + }, + { + "epoch": 1.665, + "grad_norm": 2.029552936553955, + "learning_rate": 9.825475935627165e-06, + "loss": 0.3718, + "step": 4995 + }, + { + "epoch": 1.6653333333333333, + "grad_norm": 2.5049149990081787, + "learning_rate": 9.821598030117973e-06, + "loss": 0.3399, + "step": 4996 + }, + { + "epoch": 1.6656666666666666, + "grad_norm": 3.829625129699707, + "learning_rate": 9.817720151445495e-06, + "loss": 0.3623, + "step": 4997 + }, + { + "epoch": 1.666, + "grad_norm": 1.9380640983581543, + "learning_rate": 9.813842300193077e-06, + "loss": 0.4117, + "step": 4998 + }, + { + "epoch": 1.6663333333333332, + "grad_norm": 2.3208489418029785, + "learning_rate": 9.80996447694405e-06, + "loss": 0.3989, + "step": 4999 + }, + { + "epoch": 1.6666666666666665, + "grad_norm": 2.2219128608703613, + "learning_rate": 9.806086682281759e-06, + "loss": 0.3902, + "step": 5000 + }, + { + "epoch": 1.667, + "grad_norm": 2.7912545204162598, + "learning_rate": 9.802208916789528e-06, + "loss": 0.379, + "step": 5001 + }, + { + "epoch": 1.6673333333333333, + "grad_norm": 1.888846516609192, + "learning_rate": 9.79833118105068e-06, + "loss": 0.3429, + "step": 5002 + }, + { + "epoch": 1.6676666666666666, + "grad_norm": 2.3864665031433105, + "learning_rate": 9.794453475648542e-06, + "loss": 0.414, + "step": 5003 + }, + { + "epoch": 1.6680000000000001, + "grad_norm": 3.4496917724609375, + "learning_rate": 9.790575801166432e-06, + "loss": 0.3664, + "step": 5004 + }, + { + "epoch": 1.6683333333333334, + "grad_norm": 2.594925880432129, + "learning_rate": 9.786698158187657e-06, + "loss": 0.3988, + "step": 5005 + }, + { + "epoch": 1.6686666666666667, + "grad_norm": 2.378037929534912, + "learning_rate": 9.78282054729553e-06, + "loss": 0.4049, + "step": 5006 + }, + { + "epoch": 1.669, + "grad_norm": 2.562091588973999, + "learning_rate": 9.778942969073345e-06, + "loss": 0.3965, + "step": 5007 + }, + { + "epoch": 1.6693333333333333, + "grad_norm": 2.068887710571289, + "learning_rate": 9.775065424104413e-06, + "loss": 0.3739, + "step": 5008 + }, + { + "epoch": 1.6696666666666666, + "grad_norm": 1.7505497932434082, + "learning_rate": 9.771187912972011e-06, + "loss": 0.3936, + "step": 5009 + }, + { + "epoch": 1.67, + "grad_norm": 2.3070061206817627, + "learning_rate": 9.767310436259438e-06, + "loss": 0.3954, + "step": 5010 + }, + { + "epoch": 1.6703333333333332, + "grad_norm": 2.2969107627868652, + "learning_rate": 9.763432994549972e-06, + "loss": 0.4103, + "step": 5011 + }, + { + "epoch": 1.6706666666666665, + "grad_norm": 2.05610728263855, + "learning_rate": 9.759555588426894e-06, + "loss": 0.3767, + "step": 5012 + }, + { + "epoch": 1.671, + "grad_norm": 3.2617416381835938, + "learning_rate": 9.75567821847347e-06, + "loss": 0.4113, + "step": 5013 + }, + { + "epoch": 1.6713333333333333, + "grad_norm": 2.557739019393921, + "learning_rate": 9.75180088527297e-06, + "loss": 0.343, + "step": 5014 + }, + { + "epoch": 1.6716666666666666, + "grad_norm": 2.0348896980285645, + "learning_rate": 9.747923589408655e-06, + "loss": 0.4082, + "step": 5015 + }, + { + "epoch": 1.6720000000000002, + "grad_norm": 1.8544715642929077, + "learning_rate": 9.74404633146378e-06, + "loss": 0.3551, + "step": 5016 + }, + { + "epoch": 1.6723333333333334, + "grad_norm": 2.4801321029663086, + "learning_rate": 9.74016911202159e-06, + "loss": 0.3726, + "step": 5017 + }, + { + "epoch": 1.6726666666666667, + "grad_norm": 3.076768398284912, + "learning_rate": 9.736291931665334e-06, + "loss": 0.4155, + "step": 5018 + }, + { + "epoch": 1.673, + "grad_norm": 2.480668783187866, + "learning_rate": 9.732414790978253e-06, + "loss": 0.4093, + "step": 5019 + }, + { + "epoch": 1.6733333333333333, + "grad_norm": 2.280982255935669, + "learning_rate": 9.728537690543573e-06, + "loss": 0.397, + "step": 5020 + }, + { + "epoch": 1.6736666666666666, + "grad_norm": 2.496459722518921, + "learning_rate": 9.724660630944516e-06, + "loss": 0.3313, + "step": 5021 + }, + { + "epoch": 1.674, + "grad_norm": 2.6173815727233887, + "learning_rate": 9.720783612764314e-06, + "loss": 0.4066, + "step": 5022 + }, + { + "epoch": 1.6743333333333332, + "grad_norm": 2.127870559692383, + "learning_rate": 9.716906636586168e-06, + "loss": 0.3944, + "step": 5023 + }, + { + "epoch": 1.6746666666666665, + "grad_norm": 2.5555052757263184, + "learning_rate": 9.713029702993295e-06, + "loss": 0.3784, + "step": 5024 + }, + { + "epoch": 1.675, + "grad_norm": 2.0755112171173096, + "learning_rate": 9.709152812568886e-06, + "loss": 0.3944, + "step": 5025 + }, + { + "epoch": 1.6753333333333333, + "grad_norm": 2.371626138687134, + "learning_rate": 9.705275965896146e-06, + "loss": 0.3926, + "step": 5026 + }, + { + "epoch": 1.6756666666666666, + "grad_norm": 2.4466378688812256, + "learning_rate": 9.701399163558254e-06, + "loss": 0.3825, + "step": 5027 + }, + { + "epoch": 1.6760000000000002, + "grad_norm": 2.710641860961914, + "learning_rate": 9.697522406138395e-06, + "loss": 0.3933, + "step": 5028 + }, + { + "epoch": 1.6763333333333335, + "grad_norm": 2.3133363723754883, + "learning_rate": 9.693645694219741e-06, + "loss": 0.3702, + "step": 5029 + }, + { + "epoch": 1.6766666666666667, + "grad_norm": 2.8435323238372803, + "learning_rate": 9.689769028385463e-06, + "loss": 0.4292, + "step": 5030 + }, + { + "epoch": 1.677, + "grad_norm": 3.1649467945098877, + "learning_rate": 9.685892409218718e-06, + "loss": 0.3823, + "step": 5031 + }, + { + "epoch": 1.6773333333333333, + "grad_norm": 2.912868022918701, + "learning_rate": 9.682015837302659e-06, + "loss": 0.3868, + "step": 5032 + }, + { + "epoch": 1.6776666666666666, + "grad_norm": 1.9627151489257812, + "learning_rate": 9.678139313220439e-06, + "loss": 0.3649, + "step": 5033 + }, + { + "epoch": 1.678, + "grad_norm": 1.948817253112793, + "learning_rate": 9.67426283755519e-06, + "loss": 0.3418, + "step": 5034 + }, + { + "epoch": 1.6783333333333332, + "grad_norm": 2.2295267581939697, + "learning_rate": 9.670386410890043e-06, + "loss": 0.3772, + "step": 5035 + }, + { + "epoch": 1.6786666666666665, + "grad_norm": 2.441718339920044, + "learning_rate": 9.666510033808131e-06, + "loss": 0.3661, + "step": 5036 + }, + { + "epoch": 1.679, + "grad_norm": 2.2611043453216553, + "learning_rate": 9.66263370689256e-06, + "loss": 0.3738, + "step": 5037 + }, + { + "epoch": 1.6793333333333333, + "grad_norm": 3.520847797393799, + "learning_rate": 9.658757430726449e-06, + "loss": 0.3989, + "step": 5038 + }, + { + "epoch": 1.6796666666666666, + "grad_norm": 2.8122475147247314, + "learning_rate": 9.654881205892894e-06, + "loss": 0.3545, + "step": 5039 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 3.442500591278076, + "learning_rate": 9.651005032974994e-06, + "loss": 0.3884, + "step": 5040 + }, + { + "epoch": 1.6803333333333335, + "grad_norm": 2.116173028945923, + "learning_rate": 9.647128912555827e-06, + "loss": 0.3866, + "step": 5041 + }, + { + "epoch": 1.6806666666666668, + "grad_norm": 1.9766980409622192, + "learning_rate": 9.643252845218477e-06, + "loss": 0.3448, + "step": 5042 + }, + { + "epoch": 1.681, + "grad_norm": 3.243069887161255, + "learning_rate": 9.639376831546018e-06, + "loss": 0.3851, + "step": 5043 + }, + { + "epoch": 1.6813333333333333, + "grad_norm": 2.321885108947754, + "learning_rate": 9.635500872121509e-06, + "loss": 0.3687, + "step": 5044 + }, + { + "epoch": 1.6816666666666666, + "grad_norm": 1.9190640449523926, + "learning_rate": 9.631624967528e-06, + "loss": 0.3981, + "step": 5045 + }, + { + "epoch": 1.682, + "grad_norm": 2.2264339923858643, + "learning_rate": 9.627749118348541e-06, + "loss": 0.3826, + "step": 5046 + }, + { + "epoch": 1.6823333333333332, + "grad_norm": 2.2703545093536377, + "learning_rate": 9.623873325166173e-06, + "loss": 0.387, + "step": 5047 + }, + { + "epoch": 1.6826666666666665, + "grad_norm": 2.5621445178985596, + "learning_rate": 9.61999758856392e-06, + "loss": 0.3415, + "step": 5048 + }, + { + "epoch": 1.683, + "grad_norm": 1.8794641494750977, + "learning_rate": 9.616121909124801e-06, + "loss": 0.373, + "step": 5049 + }, + { + "epoch": 1.6833333333333333, + "grad_norm": 2.9223968982696533, + "learning_rate": 9.612246287431832e-06, + "loss": 0.387, + "step": 5050 + }, + { + "epoch": 1.6836666666666666, + "grad_norm": 2.9868319034576416, + "learning_rate": 9.60837072406802e-06, + "loss": 0.3769, + "step": 5051 + }, + { + "epoch": 1.6840000000000002, + "grad_norm": 2.180448293685913, + "learning_rate": 9.60449521961635e-06, + "loss": 0.3624, + "step": 5052 + }, + { + "epoch": 1.6843333333333335, + "grad_norm": 2.1136667728424072, + "learning_rate": 9.600619774659816e-06, + "loss": 0.3707, + "step": 5053 + }, + { + "epoch": 1.6846666666666668, + "grad_norm": 3.2567765712738037, + "learning_rate": 9.596744389781392e-06, + "loss": 0.4006, + "step": 5054 + }, + { + "epoch": 1.685, + "grad_norm": 2.6187610626220703, + "learning_rate": 9.592869065564043e-06, + "loss": 0.3545, + "step": 5055 + }, + { + "epoch": 1.6853333333333333, + "grad_norm": 2.6208784580230713, + "learning_rate": 9.588993802590731e-06, + "loss": 0.3624, + "step": 5056 + }, + { + "epoch": 1.6856666666666666, + "grad_norm": 2.4526824951171875, + "learning_rate": 9.585118601444404e-06, + "loss": 0.3713, + "step": 5057 + }, + { + "epoch": 1.686, + "grad_norm": 2.0681235790252686, + "learning_rate": 9.581243462708007e-06, + "loss": 0.3513, + "step": 5058 + }, + { + "epoch": 1.6863333333333332, + "grad_norm": 2.2504427433013916, + "learning_rate": 9.57736838696446e-06, + "loss": 0.3602, + "step": 5059 + }, + { + "epoch": 1.6866666666666665, + "grad_norm": 3.6342787742614746, + "learning_rate": 9.573493374796694e-06, + "loss": 0.3878, + "step": 5060 + }, + { + "epoch": 1.687, + "grad_norm": 2.4253907203674316, + "learning_rate": 9.56961842678762e-06, + "loss": 0.3904, + "step": 5061 + }, + { + "epoch": 1.6873333333333334, + "grad_norm": 2.334533214569092, + "learning_rate": 9.565743543520134e-06, + "loss": 0.3643, + "step": 5062 + }, + { + "epoch": 1.6876666666666666, + "grad_norm": 2.5953047275543213, + "learning_rate": 9.561868725577132e-06, + "loss": 0.382, + "step": 5063 + }, + { + "epoch": 1.688, + "grad_norm": 2.968580722808838, + "learning_rate": 9.557993973541494e-06, + "loss": 0.4055, + "step": 5064 + }, + { + "epoch": 1.6883333333333335, + "grad_norm": 2.0313236713409424, + "learning_rate": 9.5541192879961e-06, + "loss": 0.3764, + "step": 5065 + }, + { + "epoch": 1.6886666666666668, + "grad_norm": 3.4067413806915283, + "learning_rate": 9.550244669523804e-06, + "loss": 0.3922, + "step": 5066 + }, + { + "epoch": 1.689, + "grad_norm": 2.2015573978424072, + "learning_rate": 9.546370118707463e-06, + "loss": 0.3657, + "step": 5067 + }, + { + "epoch": 1.6893333333333334, + "grad_norm": 2.2501180171966553, + "learning_rate": 9.54249563612992e-06, + "loss": 0.3705, + "step": 5068 + }, + { + "epoch": 1.6896666666666667, + "grad_norm": 2.0535707473754883, + "learning_rate": 9.538621222374002e-06, + "loss": 0.3558, + "step": 5069 + }, + { + "epoch": 1.69, + "grad_norm": 2.42559814453125, + "learning_rate": 9.534746878022533e-06, + "loss": 0.3515, + "step": 5070 + }, + { + "epoch": 1.6903333333333332, + "grad_norm": 2.1289608478546143, + "learning_rate": 9.530872603658327e-06, + "loss": 0.3336, + "step": 5071 + }, + { + "epoch": 1.6906666666666665, + "grad_norm": 2.27459454536438, + "learning_rate": 9.526998399864186e-06, + "loss": 0.3825, + "step": 5072 + }, + { + "epoch": 1.6909999999999998, + "grad_norm": 2.003516674041748, + "learning_rate": 9.523124267222894e-06, + "loss": 0.3727, + "step": 5073 + }, + { + "epoch": 1.6913333333333334, + "grad_norm": 2.634650707244873, + "learning_rate": 9.519250206317231e-06, + "loss": 0.3594, + "step": 5074 + }, + { + "epoch": 1.6916666666666667, + "grad_norm": 2.378114938735962, + "learning_rate": 9.515376217729973e-06, + "loss": 0.4061, + "step": 5075 + }, + { + "epoch": 1.692, + "grad_norm": 2.8676862716674805, + "learning_rate": 9.511502302043867e-06, + "loss": 0.3829, + "step": 5076 + }, + { + "epoch": 1.6923333333333335, + "grad_norm": 2.032747268676758, + "learning_rate": 9.50762845984167e-06, + "loss": 0.3877, + "step": 5077 + }, + { + "epoch": 1.6926666666666668, + "grad_norm": 2.402486801147461, + "learning_rate": 9.50375469170611e-06, + "loss": 0.4288, + "step": 5078 + }, + { + "epoch": 1.693, + "grad_norm": 1.89150071144104, + "learning_rate": 9.49988099821992e-06, + "loss": 0.3732, + "step": 5079 + }, + { + "epoch": 1.6933333333333334, + "grad_norm": 3.3360366821289062, + "learning_rate": 9.496007379965801e-06, + "loss": 0.4118, + "step": 5080 + }, + { + "epoch": 1.6936666666666667, + "grad_norm": 3.025247573852539, + "learning_rate": 9.492133837526467e-06, + "loss": 0.3945, + "step": 5081 + }, + { + "epoch": 1.694, + "grad_norm": 2.426227331161499, + "learning_rate": 9.488260371484603e-06, + "loss": 0.3998, + "step": 5082 + }, + { + "epoch": 1.6943333333333332, + "grad_norm": 2.5539047718048096, + "learning_rate": 9.484386982422887e-06, + "loss": 0.4221, + "step": 5083 + }, + { + "epoch": 1.6946666666666665, + "grad_norm": 2.33144474029541, + "learning_rate": 9.480513670923987e-06, + "loss": 0.3748, + "step": 5084 + }, + { + "epoch": 1.6949999999999998, + "grad_norm": 2.77890682220459, + "learning_rate": 9.476640437570562e-06, + "loss": 0.3557, + "step": 5085 + }, + { + "epoch": 1.6953333333333334, + "grad_norm": 2.210439682006836, + "learning_rate": 9.472767282945257e-06, + "loss": 0.3894, + "step": 5086 + }, + { + "epoch": 1.6956666666666667, + "grad_norm": 2.330188274383545, + "learning_rate": 9.468894207630698e-06, + "loss": 0.3953, + "step": 5087 + }, + { + "epoch": 1.696, + "grad_norm": 2.7238917350769043, + "learning_rate": 9.465021212209508e-06, + "loss": 0.4455, + "step": 5088 + }, + { + "epoch": 1.6963333333333335, + "grad_norm": 2.3207950592041016, + "learning_rate": 9.461148297264301e-06, + "loss": 0.4258, + "step": 5089 + }, + { + "epoch": 1.6966666666666668, + "grad_norm": 2.1796934604644775, + "learning_rate": 9.457275463377665e-06, + "loss": 0.3664, + "step": 5090 + }, + { + "epoch": 1.697, + "grad_norm": 2.7596852779388428, + "learning_rate": 9.453402711132188e-06, + "loss": 0.3403, + "step": 5091 + }, + { + "epoch": 1.6973333333333334, + "grad_norm": 2.365678310394287, + "learning_rate": 9.44953004111044e-06, + "loss": 0.3542, + "step": 5092 + }, + { + "epoch": 1.6976666666666667, + "grad_norm": 3.5693178176879883, + "learning_rate": 9.445657453894986e-06, + "loss": 0.3751, + "step": 5093 + }, + { + "epoch": 1.698, + "grad_norm": 2.3466246128082275, + "learning_rate": 9.441784950068362e-06, + "loss": 0.404, + "step": 5094 + }, + { + "epoch": 1.6983333333333333, + "grad_norm": 3.5652823448181152, + "learning_rate": 9.437912530213114e-06, + "loss": 0.3838, + "step": 5095 + }, + { + "epoch": 1.6986666666666665, + "grad_norm": 2.710354804992676, + "learning_rate": 9.434040194911759e-06, + "loss": 0.3488, + "step": 5096 + }, + { + "epoch": 1.6989999999999998, + "grad_norm": 2.069540500640869, + "learning_rate": 9.430167944746802e-06, + "loss": 0.3885, + "step": 5097 + }, + { + "epoch": 1.6993333333333334, + "grad_norm": 2.1608428955078125, + "learning_rate": 9.426295780300744e-06, + "loss": 0.3901, + "step": 5098 + }, + { + "epoch": 1.6996666666666667, + "grad_norm": 3.6131575107574463, + "learning_rate": 9.422423702156067e-06, + "loss": 0.3476, + "step": 5099 + }, + { + "epoch": 1.7, + "grad_norm": 2.7963411808013916, + "learning_rate": 9.418551710895243e-06, + "loss": 0.3794, + "step": 5100 + }, + { + "epoch": 1.7003333333333335, + "grad_norm": 2.801400661468506, + "learning_rate": 9.414679807100727e-06, + "loss": 0.3828, + "step": 5101 + }, + { + "epoch": 1.7006666666666668, + "grad_norm": 2.4873359203338623, + "learning_rate": 9.410807991354963e-06, + "loss": 0.364, + "step": 5102 + }, + { + "epoch": 1.701, + "grad_norm": 2.823265314102173, + "learning_rate": 9.406936264240386e-06, + "loss": 0.4164, + "step": 5103 + }, + { + "epoch": 1.7013333333333334, + "grad_norm": 2.701188325881958, + "learning_rate": 9.403064626339407e-06, + "loss": 0.3835, + "step": 5104 + }, + { + "epoch": 1.7016666666666667, + "grad_norm": 1.9052032232284546, + "learning_rate": 9.399193078234435e-06, + "loss": 0.3618, + "step": 5105 + }, + { + "epoch": 1.702, + "grad_norm": 2.4113705158233643, + "learning_rate": 9.395321620507857e-06, + "loss": 0.3943, + "step": 5106 + }, + { + "epoch": 1.7023333333333333, + "grad_norm": 1.8386569023132324, + "learning_rate": 9.391450253742056e-06, + "loss": 0.378, + "step": 5107 + }, + { + "epoch": 1.7026666666666666, + "grad_norm": 2.041626214981079, + "learning_rate": 9.387578978519389e-06, + "loss": 0.3878, + "step": 5108 + }, + { + "epoch": 1.7029999999999998, + "grad_norm": 2.271043062210083, + "learning_rate": 9.383707795422207e-06, + "loss": 0.3772, + "step": 5109 + }, + { + "epoch": 1.7033333333333334, + "grad_norm": 2.9856436252593994, + "learning_rate": 9.379836705032849e-06, + "loss": 0.3623, + "step": 5110 + }, + { + "epoch": 1.7036666666666667, + "grad_norm": 2.913928985595703, + "learning_rate": 9.375965707933633e-06, + "loss": 0.3704, + "step": 5111 + }, + { + "epoch": 1.704, + "grad_norm": 2.730884075164795, + "learning_rate": 9.372094804706867e-06, + "loss": 0.3532, + "step": 5112 + }, + { + "epoch": 1.7043333333333335, + "grad_norm": 3.8744094371795654, + "learning_rate": 9.368223995934845e-06, + "loss": 0.4172, + "step": 5113 + }, + { + "epoch": 1.7046666666666668, + "grad_norm": 2.080631971359253, + "learning_rate": 9.364353282199853e-06, + "loss": 0.3522, + "step": 5114 + }, + { + "epoch": 1.705, + "grad_norm": 2.251356840133667, + "learning_rate": 9.360482664084144e-06, + "loss": 0.4144, + "step": 5115 + }, + { + "epoch": 1.7053333333333334, + "grad_norm": 2.7896530628204346, + "learning_rate": 9.356612142169978e-06, + "loss": 0.3798, + "step": 5116 + }, + { + "epoch": 1.7056666666666667, + "grad_norm": 2.5360658168792725, + "learning_rate": 9.35274171703959e-06, + "loss": 0.3768, + "step": 5117 + }, + { + "epoch": 1.706, + "grad_norm": 2.449821710586548, + "learning_rate": 9.348871389275194e-06, + "loss": 0.3698, + "step": 5118 + }, + { + "epoch": 1.7063333333333333, + "grad_norm": 3.3387138843536377, + "learning_rate": 9.345001159459008e-06, + "loss": 0.3764, + "step": 5119 + }, + { + "epoch": 1.7066666666666666, + "grad_norm": 2.5201878547668457, + "learning_rate": 9.341131028173215e-06, + "loss": 0.3908, + "step": 5120 + }, + { + "epoch": 1.7069999999999999, + "grad_norm": 2.0505270957946777, + "learning_rate": 9.337260996000002e-06, + "loss": 0.4056, + "step": 5121 + }, + { + "epoch": 1.7073333333333334, + "grad_norm": 2.652522563934326, + "learning_rate": 9.333391063521521e-06, + "loss": 0.4097, + "step": 5122 + }, + { + "epoch": 1.7076666666666667, + "grad_norm": 1.8782075643539429, + "learning_rate": 9.329521231319928e-06, + "loss": 0.367, + "step": 5123 + }, + { + "epoch": 1.708, + "grad_norm": 2.5181286334991455, + "learning_rate": 9.32565149997735e-06, + "loss": 0.3803, + "step": 5124 + }, + { + "epoch": 1.7083333333333335, + "grad_norm": 3.6602602005004883, + "learning_rate": 9.321781870075908e-06, + "loss": 0.3457, + "step": 5125 + }, + { + "epoch": 1.7086666666666668, + "grad_norm": 2.0763251781463623, + "learning_rate": 9.317912342197701e-06, + "loss": 0.3547, + "step": 5126 + }, + { + "epoch": 1.709, + "grad_norm": 2.2905311584472656, + "learning_rate": 9.314042916924816e-06, + "loss": 0.3666, + "step": 5127 + }, + { + "epoch": 1.7093333333333334, + "grad_norm": 2.7608392238616943, + "learning_rate": 9.310173594839332e-06, + "loss": 0.3765, + "step": 5128 + }, + { + "epoch": 1.7096666666666667, + "grad_norm": 2.9790542125701904, + "learning_rate": 9.306304376523296e-06, + "loss": 0.4061, + "step": 5129 + }, + { + "epoch": 1.71, + "grad_norm": 2.042633533477783, + "learning_rate": 9.302435262558748e-06, + "loss": 0.3551, + "step": 5130 + }, + { + "epoch": 1.7103333333333333, + "grad_norm": 3.2220234870910645, + "learning_rate": 9.298566253527718e-06, + "loss": 0.3341, + "step": 5131 + }, + { + "epoch": 1.7106666666666666, + "grad_norm": 3.3072354793548584, + "learning_rate": 9.29469735001221e-06, + "loss": 0.4128, + "step": 5132 + }, + { + "epoch": 1.7109999999999999, + "grad_norm": 2.376716375350952, + "learning_rate": 9.290828552594218e-06, + "loss": 0.4186, + "step": 5133 + }, + { + "epoch": 1.7113333333333334, + "grad_norm": 3.030332088470459, + "learning_rate": 9.286959861855716e-06, + "loss": 0.3427, + "step": 5134 + }, + { + "epoch": 1.7116666666666667, + "grad_norm": 2.7364237308502197, + "learning_rate": 9.283091278378675e-06, + "loss": 0.3733, + "step": 5135 + }, + { + "epoch": 1.712, + "grad_norm": 2.2935068607330322, + "learning_rate": 9.279222802745028e-06, + "loss": 0.3757, + "step": 5136 + }, + { + "epoch": 1.7123333333333335, + "grad_norm": 2.5655527114868164, + "learning_rate": 9.275354435536706e-06, + "loss": 0.3932, + "step": 5137 + }, + { + "epoch": 1.7126666666666668, + "grad_norm": 2.2205827236175537, + "learning_rate": 9.27148617733563e-06, + "loss": 0.3849, + "step": 5138 + }, + { + "epoch": 1.713, + "grad_norm": 2.296111583709717, + "learning_rate": 9.267618028723687e-06, + "loss": 0.3563, + "step": 5139 + }, + { + "epoch": 1.7133333333333334, + "grad_norm": 2.226588726043701, + "learning_rate": 9.263749990282753e-06, + "loss": 0.389, + "step": 5140 + }, + { + "epoch": 1.7136666666666667, + "grad_norm": 2.781053066253662, + "learning_rate": 9.259882062594698e-06, + "loss": 0.3417, + "step": 5141 + }, + { + "epoch": 1.714, + "grad_norm": 2.333702564239502, + "learning_rate": 9.256014246241369e-06, + "loss": 0.3642, + "step": 5142 + }, + { + "epoch": 1.7143333333333333, + "grad_norm": 2.2762386798858643, + "learning_rate": 9.25214654180459e-06, + "loss": 0.3701, + "step": 5143 + }, + { + "epoch": 1.7146666666666666, + "grad_norm": 2.670630693435669, + "learning_rate": 9.248278949866175e-06, + "loss": 0.3288, + "step": 5144 + }, + { + "epoch": 1.7149999999999999, + "grad_norm": 2.162947654724121, + "learning_rate": 9.244411471007923e-06, + "loss": 0.357, + "step": 5145 + }, + { + "epoch": 1.7153333333333334, + "grad_norm": 2.3029918670654297, + "learning_rate": 9.240544105811604e-06, + "loss": 0.3966, + "step": 5146 + }, + { + "epoch": 1.7156666666666667, + "grad_norm": 3.06973934173584, + "learning_rate": 9.236676854858986e-06, + "loss": 0.3716, + "step": 5147 + }, + { + "epoch": 1.716, + "grad_norm": 2.9807803630828857, + "learning_rate": 9.232809718731815e-06, + "loss": 0.3688, + "step": 5148 + }, + { + "epoch": 1.7163333333333335, + "grad_norm": 2.119098663330078, + "learning_rate": 9.228942698011814e-06, + "loss": 0.417, + "step": 5149 + }, + { + "epoch": 1.7166666666666668, + "grad_norm": 2.2442538738250732, + "learning_rate": 9.225075793280693e-06, + "loss": 0.3789, + "step": 5150 + }, + { + "epoch": 1.717, + "grad_norm": 2.7909839153289795, + "learning_rate": 9.221209005120142e-06, + "loss": 0.395, + "step": 5151 + }, + { + "epoch": 1.7173333333333334, + "grad_norm": 2.986013650894165, + "learning_rate": 9.217342334111843e-06, + "loss": 0.3714, + "step": 5152 + }, + { + "epoch": 1.7176666666666667, + "grad_norm": 2.901939630508423, + "learning_rate": 9.213475780837445e-06, + "loss": 0.4024, + "step": 5153 + }, + { + "epoch": 1.718, + "grad_norm": 2.4435768127441406, + "learning_rate": 9.20960934587859e-06, + "loss": 0.3822, + "step": 5154 + }, + { + "epoch": 1.7183333333333333, + "grad_norm": 2.202850341796875, + "learning_rate": 9.205743029816898e-06, + "loss": 0.3852, + "step": 5155 + }, + { + "epoch": 1.7186666666666666, + "grad_norm": 2.317484140396118, + "learning_rate": 9.201876833233981e-06, + "loss": 0.4102, + "step": 5156 + }, + { + "epoch": 1.7189999999999999, + "grad_norm": 1.878745436668396, + "learning_rate": 9.198010756711413e-06, + "loss": 0.3705, + "step": 5157 + }, + { + "epoch": 1.7193333333333334, + "grad_norm": 1.7375705242156982, + "learning_rate": 9.194144800830765e-06, + "loss": 0.3859, + "step": 5158 + }, + { + "epoch": 1.7196666666666667, + "grad_norm": 2.004394769668579, + "learning_rate": 9.190278966173594e-06, + "loss": 0.3335, + "step": 5159 + }, + { + "epoch": 1.72, + "grad_norm": 2.1038453578948975, + "learning_rate": 9.18641325332142e-06, + "loss": 0.3875, + "step": 5160 + }, + { + "epoch": 1.7203333333333335, + "grad_norm": 2.0144495964050293, + "learning_rate": 9.182547662855759e-06, + "loss": 0.3763, + "step": 5161 + }, + { + "epoch": 1.7206666666666668, + "grad_norm": 2.782109260559082, + "learning_rate": 9.17868219535811e-06, + "loss": 0.4065, + "step": 5162 + }, + { + "epoch": 1.721, + "grad_norm": 2.59626841545105, + "learning_rate": 9.174816851409949e-06, + "loss": 0.3953, + "step": 5163 + }, + { + "epoch": 1.7213333333333334, + "grad_norm": 2.0883145332336426, + "learning_rate": 9.170951631592726e-06, + "loss": 0.4137, + "step": 5164 + }, + { + "epoch": 1.7216666666666667, + "grad_norm": 2.1571037769317627, + "learning_rate": 9.167086536487884e-06, + "loss": 0.388, + "step": 5165 + }, + { + "epoch": 1.722, + "grad_norm": 2.2948813438415527, + "learning_rate": 9.163221566676847e-06, + "loss": 0.3912, + "step": 5166 + }, + { + "epoch": 1.7223333333333333, + "grad_norm": 2.561216354370117, + "learning_rate": 9.15935672274101e-06, + "loss": 0.3505, + "step": 5167 + }, + { + "epoch": 1.7226666666666666, + "grad_norm": 2.3675310611724854, + "learning_rate": 9.155492005261756e-06, + "loss": 0.3699, + "step": 5168 + }, + { + "epoch": 1.7229999999999999, + "grad_norm": 1.9843590259552002, + "learning_rate": 9.151627414820448e-06, + "loss": 0.3624, + "step": 5169 + }, + { + "epoch": 1.7233333333333334, + "grad_norm": 2.147515296936035, + "learning_rate": 9.147762951998436e-06, + "loss": 0.3697, + "step": 5170 + }, + { + "epoch": 1.7236666666666667, + "grad_norm": 2.709007501602173, + "learning_rate": 9.143898617377035e-06, + "loss": 0.4324, + "step": 5171 + }, + { + "epoch": 1.724, + "grad_norm": 2.244258165359497, + "learning_rate": 9.140034411537558e-06, + "loss": 0.3826, + "step": 5172 + }, + { + "epoch": 1.7243333333333335, + "grad_norm": 2.4196972846984863, + "learning_rate": 9.136170335061293e-06, + "loss": 0.3373, + "step": 5173 + }, + { + "epoch": 1.7246666666666668, + "grad_norm": 2.056774377822876, + "learning_rate": 9.132306388529494e-06, + "loss": 0.3476, + "step": 5174 + }, + { + "epoch": 1.725, + "grad_norm": 2.657819986343384, + "learning_rate": 9.128442572523418e-06, + "loss": 0.3701, + "step": 5175 + }, + { + "epoch": 1.7253333333333334, + "grad_norm": 2.826077461242676, + "learning_rate": 9.124578887624293e-06, + "loss": 0.389, + "step": 5176 + }, + { + "epoch": 1.7256666666666667, + "grad_norm": 2.128185272216797, + "learning_rate": 9.120715334413329e-06, + "loss": 0.3933, + "step": 5177 + }, + { + "epoch": 1.726, + "grad_norm": 2.2916769981384277, + "learning_rate": 9.116851913471701e-06, + "loss": 0.392, + "step": 5178 + }, + { + "epoch": 1.7263333333333333, + "grad_norm": 1.946853518486023, + "learning_rate": 9.11298862538059e-06, + "loss": 0.3829, + "step": 5179 + }, + { + "epoch": 1.7266666666666666, + "grad_norm": 2.439119338989258, + "learning_rate": 9.109125470721141e-06, + "loss": 0.4077, + "step": 5180 + }, + { + "epoch": 1.7269999999999999, + "grad_norm": 2.971374750137329, + "learning_rate": 9.105262450074479e-06, + "loss": 0.4023, + "step": 5181 + }, + { + "epoch": 1.7273333333333334, + "grad_norm": 3.7289726734161377, + "learning_rate": 9.10139956402171e-06, + "loss": 0.3544, + "step": 5182 + }, + { + "epoch": 1.7276666666666667, + "grad_norm": 2.7020418643951416, + "learning_rate": 9.097536813143927e-06, + "loss": 0.3953, + "step": 5183 + }, + { + "epoch": 1.728, + "grad_norm": 1.950249195098877, + "learning_rate": 9.093674198022201e-06, + "loss": 0.3857, + "step": 5184 + }, + { + "epoch": 1.7283333333333335, + "grad_norm": 2.761533737182617, + "learning_rate": 9.089811719237567e-06, + "loss": 0.3905, + "step": 5185 + }, + { + "epoch": 1.7286666666666668, + "grad_norm": 3.0800583362579346, + "learning_rate": 9.08594937737106e-06, + "loss": 0.3977, + "step": 5186 + }, + { + "epoch": 1.729, + "grad_norm": 2.463881492614746, + "learning_rate": 9.082087173003686e-06, + "loss": 0.3595, + "step": 5187 + }, + { + "epoch": 1.7293333333333334, + "grad_norm": 2.5622663497924805, + "learning_rate": 9.078225106716421e-06, + "loss": 0.3839, + "step": 5188 + }, + { + "epoch": 1.7296666666666667, + "grad_norm": 2.313080310821533, + "learning_rate": 9.074363179090237e-06, + "loss": 0.3846, + "step": 5189 + }, + { + "epoch": 1.73, + "grad_norm": 3.299686908721924, + "learning_rate": 9.07050139070608e-06, + "loss": 0.3927, + "step": 5190 + }, + { + "epoch": 1.7303333333333333, + "grad_norm": 2.2481729984283447, + "learning_rate": 9.066639742144866e-06, + "loss": 0.3795, + "step": 5191 + }, + { + "epoch": 1.7306666666666666, + "grad_norm": 2.080122709274292, + "learning_rate": 9.062778233987499e-06, + "loss": 0.3818, + "step": 5192 + }, + { + "epoch": 1.7309999999999999, + "grad_norm": 2.1994292736053467, + "learning_rate": 9.058916866814857e-06, + "loss": 0.351, + "step": 5193 + }, + { + "epoch": 1.7313333333333332, + "grad_norm": 2.2775111198425293, + "learning_rate": 9.055055641207806e-06, + "loss": 0.3678, + "step": 5194 + }, + { + "epoch": 1.7316666666666667, + "grad_norm": 2.719740867614746, + "learning_rate": 9.051194557747175e-06, + "loss": 0.3944, + "step": 5195 + }, + { + "epoch": 1.732, + "grad_norm": 2.3289966583251953, + "learning_rate": 9.047333617013786e-06, + "loss": 0.4066, + "step": 5196 + }, + { + "epoch": 1.7323333333333333, + "grad_norm": 2.003002882003784, + "learning_rate": 9.04347281958843e-06, + "loss": 0.3651, + "step": 5197 + }, + { + "epoch": 1.7326666666666668, + "grad_norm": 3.045464277267456, + "learning_rate": 9.039612166051889e-06, + "loss": 0.4128, + "step": 5198 + }, + { + "epoch": 1.733, + "grad_norm": 3.2326855659484863, + "learning_rate": 9.035751656984904e-06, + "loss": 0.3949, + "step": 5199 + }, + { + "epoch": 1.7333333333333334, + "grad_norm": 2.4260425567626953, + "learning_rate": 9.03189129296821e-06, + "loss": 0.3715, + "step": 5200 + }, + { + "epoch": 1.7336666666666667, + "grad_norm": 2.8002748489379883, + "learning_rate": 9.028031074582519e-06, + "loss": 0.3825, + "step": 5201 + }, + { + "epoch": 1.734, + "grad_norm": 2.6394522190093994, + "learning_rate": 9.024171002408507e-06, + "loss": 0.3744, + "step": 5202 + }, + { + "epoch": 1.7343333333333333, + "grad_norm": 2.3996529579162598, + "learning_rate": 9.020311077026846e-06, + "loss": 0.3885, + "step": 5203 + }, + { + "epoch": 1.7346666666666666, + "grad_norm": 2.3751330375671387, + "learning_rate": 9.016451299018179e-06, + "loss": 0.3645, + "step": 5204 + }, + { + "epoch": 1.7349999999999999, + "grad_norm": 3.731998920440674, + "learning_rate": 9.012591668963123e-06, + "loss": 0.3889, + "step": 5205 + }, + { + "epoch": 1.7353333333333332, + "grad_norm": 2.044649839401245, + "learning_rate": 9.008732187442276e-06, + "loss": 0.3565, + "step": 5206 + }, + { + "epoch": 1.7356666666666667, + "grad_norm": 2.287670373916626, + "learning_rate": 9.004872855036212e-06, + "loss": 0.3689, + "step": 5207 + }, + { + "epoch": 1.736, + "grad_norm": 2.4104654788970947, + "learning_rate": 9.001013672325491e-06, + "loss": 0.3856, + "step": 5208 + }, + { + "epoch": 1.7363333333333333, + "grad_norm": 2.0945770740509033, + "learning_rate": 8.997154639890633e-06, + "loss": 0.3755, + "step": 5209 + }, + { + "epoch": 1.7366666666666668, + "grad_norm": 2.4133594036102295, + "learning_rate": 8.993295758312155e-06, + "loss": 0.3794, + "step": 5210 + }, + { + "epoch": 1.737, + "grad_norm": 2.3266549110412598, + "learning_rate": 8.989437028170537e-06, + "loss": 0.3312, + "step": 5211 + }, + { + "epoch": 1.7373333333333334, + "grad_norm": 2.348606586456299, + "learning_rate": 8.985578450046246e-06, + "loss": 0.3617, + "step": 5212 + }, + { + "epoch": 1.7376666666666667, + "grad_norm": 2.424304485321045, + "learning_rate": 8.981720024519714e-06, + "loss": 0.3679, + "step": 5213 + }, + { + "epoch": 1.738, + "grad_norm": 2.2763776779174805, + "learning_rate": 8.977861752171365e-06, + "loss": 0.3688, + "step": 5214 + }, + { + "epoch": 1.7383333333333333, + "grad_norm": 2.635798931121826, + "learning_rate": 8.974003633581592e-06, + "loss": 0.384, + "step": 5215 + }, + { + "epoch": 1.7386666666666666, + "grad_norm": 2.4573752880096436, + "learning_rate": 8.970145669330758e-06, + "loss": 0.3533, + "step": 5216 + }, + { + "epoch": 1.7389999999999999, + "grad_norm": 3.086747646331787, + "learning_rate": 8.966287859999216e-06, + "loss": 0.4074, + "step": 5217 + }, + { + "epoch": 1.7393333333333332, + "grad_norm": 2.5433876514434814, + "learning_rate": 8.962430206167292e-06, + "loss": 0.3919, + "step": 5218 + }, + { + "epoch": 1.7396666666666667, + "grad_norm": 2.2118029594421387, + "learning_rate": 8.958572708415283e-06, + "loss": 0.3302, + "step": 5219 + }, + { + "epoch": 1.74, + "grad_norm": 2.648317575454712, + "learning_rate": 8.954715367323468e-06, + "loss": 0.362, + "step": 5220 + }, + { + "epoch": 1.7403333333333333, + "grad_norm": 1.923326015472412, + "learning_rate": 8.950858183472096e-06, + "loss": 0.36, + "step": 5221 + }, + { + "epoch": 1.7406666666666668, + "grad_norm": 2.4813389778137207, + "learning_rate": 8.947001157441404e-06, + "loss": 0.348, + "step": 5222 + }, + { + "epoch": 1.741, + "grad_norm": 2.4247236251831055, + "learning_rate": 8.94314428981159e-06, + "loss": 0.3586, + "step": 5223 + }, + { + "epoch": 1.7413333333333334, + "grad_norm": 2.377544641494751, + "learning_rate": 8.939287581162844e-06, + "loss": 0.4254, + "step": 5224 + }, + { + "epoch": 1.7416666666666667, + "grad_norm": 2.1041038036346436, + "learning_rate": 8.935431032075317e-06, + "loss": 0.3747, + "step": 5225 + }, + { + "epoch": 1.742, + "grad_norm": 2.9485561847686768, + "learning_rate": 8.931574643129152e-06, + "loss": 0.3835, + "step": 5226 + }, + { + "epoch": 1.7423333333333333, + "grad_norm": 2.651953935623169, + "learning_rate": 8.927718414904451e-06, + "loss": 0.3804, + "step": 5227 + }, + { + "epoch": 1.7426666666666666, + "grad_norm": 2.230396270751953, + "learning_rate": 8.923862347981305e-06, + "loss": 0.3658, + "step": 5228 + }, + { + "epoch": 1.7429999999999999, + "grad_norm": 2.2071592807769775, + "learning_rate": 8.920006442939772e-06, + "loss": 0.3674, + "step": 5229 + }, + { + "epoch": 1.7433333333333332, + "grad_norm": 2.3431363105773926, + "learning_rate": 8.916150700359896e-06, + "loss": 0.376, + "step": 5230 + }, + { + "epoch": 1.7436666666666667, + "grad_norm": 2.0892233848571777, + "learning_rate": 8.91229512082168e-06, + "loss": 0.3484, + "step": 5231 + }, + { + "epoch": 1.744, + "grad_norm": 2.847841501235962, + "learning_rate": 8.90843970490512e-06, + "loss": 0.3766, + "step": 5232 + }, + { + "epoch": 1.7443333333333333, + "grad_norm": 2.967644691467285, + "learning_rate": 8.904584453190181e-06, + "loss": 0.4042, + "step": 5233 + }, + { + "epoch": 1.7446666666666668, + "grad_norm": 2.0068893432617188, + "learning_rate": 8.900729366256798e-06, + "loss": 0.337, + "step": 5234 + }, + { + "epoch": 1.745, + "grad_norm": 2.0116653442382812, + "learning_rate": 8.896874444684882e-06, + "loss": 0.3591, + "step": 5235 + }, + { + "epoch": 1.7453333333333334, + "grad_norm": 2.4195032119750977, + "learning_rate": 8.893019689054331e-06, + "loss": 0.3718, + "step": 5236 + }, + { + "epoch": 1.7456666666666667, + "grad_norm": 2.173764944076538, + "learning_rate": 8.889165099945008e-06, + "loss": 0.355, + "step": 5237 + }, + { + "epoch": 1.746, + "grad_norm": 2.3379435539245605, + "learning_rate": 8.885310677936746e-06, + "loss": 0.3665, + "step": 5238 + }, + { + "epoch": 1.7463333333333333, + "grad_norm": 1.9895784854888916, + "learning_rate": 8.881456423609365e-06, + "loss": 0.3158, + "step": 5239 + }, + { + "epoch": 1.7466666666666666, + "grad_norm": 1.9865703582763672, + "learning_rate": 8.877602337542655e-06, + "loss": 0.3884, + "step": 5240 + }, + { + "epoch": 1.7469999999999999, + "grad_norm": 2.184357166290283, + "learning_rate": 8.873748420316372e-06, + "loss": 0.4281, + "step": 5241 + }, + { + "epoch": 1.7473333333333332, + "grad_norm": 2.2074928283691406, + "learning_rate": 8.869894672510263e-06, + "loss": 0.3334, + "step": 5242 + }, + { + "epoch": 1.7476666666666667, + "grad_norm": 1.820659875869751, + "learning_rate": 8.866041094704037e-06, + "loss": 0.3743, + "step": 5243 + }, + { + "epoch": 1.748, + "grad_norm": 2.405888080596924, + "learning_rate": 8.862187687477386e-06, + "loss": 0.3706, + "step": 5244 + }, + { + "epoch": 1.7483333333333333, + "grad_norm": 2.0148534774780273, + "learning_rate": 8.85833445140996e-06, + "loss": 0.3398, + "step": 5245 + }, + { + "epoch": 1.7486666666666668, + "grad_norm": 2.143540620803833, + "learning_rate": 8.854481387081407e-06, + "loss": 0.3918, + "step": 5246 + }, + { + "epoch": 1.749, + "grad_norm": 5.493214130401611, + "learning_rate": 8.850628495071336e-06, + "loss": 0.3655, + "step": 5247 + }, + { + "epoch": 1.7493333333333334, + "grad_norm": 2.6839330196380615, + "learning_rate": 8.846775775959325e-06, + "loss": 0.3813, + "step": 5248 + }, + { + "epoch": 1.7496666666666667, + "grad_norm": 2.3490705490112305, + "learning_rate": 8.842923230324934e-06, + "loss": 0.3375, + "step": 5249 + }, + { + "epoch": 1.75, + "grad_norm": 2.8785390853881836, + "learning_rate": 8.839070858747697e-06, + "loss": 0.3959, + "step": 5250 + }, + { + "epoch": 1.7503333333333333, + "grad_norm": 2.4787137508392334, + "learning_rate": 8.835218661807122e-06, + "loss": 0.356, + "step": 5251 + }, + { + "epoch": 1.7506666666666666, + "grad_norm": 2.6119916439056396, + "learning_rate": 8.831366640082686e-06, + "loss": 0.3279, + "step": 5252 + }, + { + "epoch": 1.751, + "grad_norm": 3.0670406818389893, + "learning_rate": 8.827514794153839e-06, + "loss": 0.4294, + "step": 5253 + }, + { + "epoch": 1.7513333333333332, + "grad_norm": 2.0611681938171387, + "learning_rate": 8.823663124600016e-06, + "loss": 0.3731, + "step": 5254 + }, + { + "epoch": 1.7516666666666667, + "grad_norm": 2.3248164653778076, + "learning_rate": 8.819811632000606e-06, + "loss": 0.3687, + "step": 5255 + }, + { + "epoch": 1.752, + "grad_norm": 2.828484535217285, + "learning_rate": 8.815960316934991e-06, + "loss": 0.3948, + "step": 5256 + }, + { + "epoch": 1.7523333333333333, + "grad_norm": 2.0826475620269775, + "learning_rate": 8.812109179982517e-06, + "loss": 0.3568, + "step": 5257 + }, + { + "epoch": 1.7526666666666668, + "grad_norm": 2.8356964588165283, + "learning_rate": 8.808258221722507e-06, + "loss": 0.3694, + "step": 5258 + }, + { + "epoch": 1.7530000000000001, + "grad_norm": 2.4468371868133545, + "learning_rate": 8.804407442734244e-06, + "loss": 0.3551, + "step": 5259 + }, + { + "epoch": 1.7533333333333334, + "grad_norm": 2.586949348449707, + "learning_rate": 8.800556843597002e-06, + "loss": 0.4022, + "step": 5260 + }, + { + "epoch": 1.7536666666666667, + "grad_norm": 2.891343593597412, + "learning_rate": 8.796706424890025e-06, + "loss": 0.3828, + "step": 5261 + }, + { + "epoch": 1.754, + "grad_norm": 3.078901529312134, + "learning_rate": 8.792856187192516e-06, + "loss": 0.3564, + "step": 5262 + }, + { + "epoch": 1.7543333333333333, + "grad_norm": 2.089284896850586, + "learning_rate": 8.789006131083661e-06, + "loss": 0.3589, + "step": 5263 + }, + { + "epoch": 1.7546666666666666, + "grad_norm": 2.163081169128418, + "learning_rate": 8.78515625714262e-06, + "loss": 0.381, + "step": 5264 + }, + { + "epoch": 1.755, + "grad_norm": 2.151970148086548, + "learning_rate": 8.781306565948528e-06, + "loss": 0.3741, + "step": 5265 + }, + { + "epoch": 1.7553333333333332, + "grad_norm": 2.7031476497650146, + "learning_rate": 8.777457058080476e-06, + "loss": 0.3717, + "step": 5266 + }, + { + "epoch": 1.7556666666666667, + "grad_norm": 2.4392731189727783, + "learning_rate": 8.773607734117551e-06, + "loss": 0.3816, + "step": 5267 + }, + { + "epoch": 1.756, + "grad_norm": 2.1644980907440186, + "learning_rate": 8.769758594638796e-06, + "loss": 0.3637, + "step": 5268 + }, + { + "epoch": 1.7563333333333333, + "grad_norm": 2.86175799369812, + "learning_rate": 8.765909640223228e-06, + "loss": 0.3995, + "step": 5269 + }, + { + "epoch": 1.7566666666666668, + "grad_norm": 2.2576770782470703, + "learning_rate": 8.762060871449838e-06, + "loss": 0.3715, + "step": 5270 + }, + { + "epoch": 1.7570000000000001, + "grad_norm": 1.8314756155014038, + "learning_rate": 8.758212288897597e-06, + "loss": 0.3697, + "step": 5271 + }, + { + "epoch": 1.7573333333333334, + "grad_norm": 1.9456430673599243, + "learning_rate": 8.754363893145437e-06, + "loss": 0.3764, + "step": 5272 + }, + { + "epoch": 1.7576666666666667, + "grad_norm": 2.301055669784546, + "learning_rate": 8.750515684772263e-06, + "loss": 0.3636, + "step": 5273 + }, + { + "epoch": 1.758, + "grad_norm": 2.862175941467285, + "learning_rate": 8.746667664356957e-06, + "loss": 0.3185, + "step": 5274 + }, + { + "epoch": 1.7583333333333333, + "grad_norm": 2.12833309173584, + "learning_rate": 8.742819832478376e-06, + "loss": 0.3781, + "step": 5275 + }, + { + "epoch": 1.7586666666666666, + "grad_norm": 2.3194851875305176, + "learning_rate": 8.738972189715333e-06, + "loss": 0.3714, + "step": 5276 + }, + { + "epoch": 1.759, + "grad_norm": 2.2675223350524902, + "learning_rate": 8.735124736646627e-06, + "loss": 0.3405, + "step": 5277 + }, + { + "epoch": 1.7593333333333332, + "grad_norm": 4.028599262237549, + "learning_rate": 8.731277473851025e-06, + "loss": 0.3353, + "step": 5278 + }, + { + "epoch": 1.7596666666666667, + "grad_norm": 2.544346332550049, + "learning_rate": 8.727430401907266e-06, + "loss": 0.3887, + "step": 5279 + }, + { + "epoch": 1.76, + "grad_norm": 3.4397928714752197, + "learning_rate": 8.723583521394054e-06, + "loss": 0.3925, + "step": 5280 + }, + { + "epoch": 1.7603333333333333, + "grad_norm": 2.598506450653076, + "learning_rate": 8.719736832890073e-06, + "loss": 0.3736, + "step": 5281 + }, + { + "epoch": 1.7606666666666668, + "grad_norm": 2.0712671279907227, + "learning_rate": 8.715890336973974e-06, + "loss": 0.3746, + "step": 5282 + }, + { + "epoch": 1.7610000000000001, + "grad_norm": 3.15639328956604, + "learning_rate": 8.712044034224374e-06, + "loss": 0.3728, + "step": 5283 + }, + { + "epoch": 1.7613333333333334, + "grad_norm": 2.1073312759399414, + "learning_rate": 8.70819792521987e-06, + "loss": 0.3658, + "step": 5284 + }, + { + "epoch": 1.7616666666666667, + "grad_norm": 2.2145590782165527, + "learning_rate": 8.704352010539026e-06, + "loss": 0.3672, + "step": 5285 + }, + { + "epoch": 1.762, + "grad_norm": 3.279059648513794, + "learning_rate": 8.700506290760377e-06, + "loss": 0.406, + "step": 5286 + }, + { + "epoch": 1.7623333333333333, + "grad_norm": 2.823753595352173, + "learning_rate": 8.696660766462424e-06, + "loss": 0.4152, + "step": 5287 + }, + { + "epoch": 1.7626666666666666, + "grad_norm": 2.397030830383301, + "learning_rate": 8.692815438223646e-06, + "loss": 0.3915, + "step": 5288 + }, + { + "epoch": 1.763, + "grad_norm": 2.6316795349121094, + "learning_rate": 8.688970306622494e-06, + "loss": 0.3776, + "step": 5289 + }, + { + "epoch": 1.7633333333333332, + "grad_norm": 2.1493914127349854, + "learning_rate": 8.685125372237374e-06, + "loss": 0.3767, + "step": 5290 + }, + { + "epoch": 1.7636666666666667, + "grad_norm": 2.2359750270843506, + "learning_rate": 8.681280635646685e-06, + "loss": 0.3619, + "step": 5291 + }, + { + "epoch": 1.764, + "grad_norm": 1.8109965324401855, + "learning_rate": 8.677436097428775e-06, + "loss": 0.363, + "step": 5292 + }, + { + "epoch": 1.7643333333333333, + "grad_norm": 2.892040252685547, + "learning_rate": 8.67359175816198e-06, + "loss": 0.3771, + "step": 5293 + }, + { + "epoch": 1.7646666666666668, + "grad_norm": 2.072190046310425, + "learning_rate": 8.669747618424587e-06, + "loss": 0.3538, + "step": 5294 + }, + { + "epoch": 1.7650000000000001, + "grad_norm": 2.205911159515381, + "learning_rate": 8.665903678794873e-06, + "loss": 0.3808, + "step": 5295 + }, + { + "epoch": 1.7653333333333334, + "grad_norm": 2.0868875980377197, + "learning_rate": 8.662059939851076e-06, + "loss": 0.385, + "step": 5296 + }, + { + "epoch": 1.7656666666666667, + "grad_norm": 2.281784772872925, + "learning_rate": 8.658216402171392e-06, + "loss": 0.4147, + "step": 5297 + }, + { + "epoch": 1.766, + "grad_norm": 2.3989357948303223, + "learning_rate": 8.654373066334007e-06, + "loss": 0.3328, + "step": 5298 + }, + { + "epoch": 1.7663333333333333, + "grad_norm": 2.230523109436035, + "learning_rate": 8.65052993291707e-06, + "loss": 0.381, + "step": 5299 + }, + { + "epoch": 1.7666666666666666, + "grad_norm": 2.744215965270996, + "learning_rate": 8.646687002498692e-06, + "loss": 0.389, + "step": 5300 + }, + { + "epoch": 1.767, + "grad_norm": 2.794107675552368, + "learning_rate": 8.642844275656957e-06, + "loss": 0.4047, + "step": 5301 + }, + { + "epoch": 1.7673333333333332, + "grad_norm": 2.328735828399658, + "learning_rate": 8.639001752969924e-06, + "loss": 0.3603, + "step": 5302 + }, + { + "epoch": 1.7676666666666667, + "grad_norm": 2.1093459129333496, + "learning_rate": 8.635159435015621e-06, + "loss": 0.3383, + "step": 5303 + }, + { + "epoch": 1.768, + "grad_norm": 2.859316349029541, + "learning_rate": 8.631317322372032e-06, + "loss": 0.4017, + "step": 5304 + }, + { + "epoch": 1.7683333333333333, + "grad_norm": 2.238375186920166, + "learning_rate": 8.627475415617127e-06, + "loss": 0.3911, + "step": 5305 + }, + { + "epoch": 1.7686666666666668, + "grad_norm": 2.1103832721710205, + "learning_rate": 8.623633715328833e-06, + "loss": 0.3206, + "step": 5306 + }, + { + "epoch": 1.7690000000000001, + "grad_norm": 2.9180855751037598, + "learning_rate": 8.619792222085059e-06, + "loss": 0.3894, + "step": 5307 + }, + { + "epoch": 1.7693333333333334, + "grad_norm": 1.929516315460205, + "learning_rate": 8.615950936463662e-06, + "loss": 0.3427, + "step": 5308 + }, + { + "epoch": 1.7696666666666667, + "grad_norm": 2.7390401363372803, + "learning_rate": 8.61210985904249e-06, + "loss": 0.3635, + "step": 5309 + }, + { + "epoch": 1.77, + "grad_norm": 2.265267848968506, + "learning_rate": 8.60826899039935e-06, + "loss": 0.3355, + "step": 5310 + }, + { + "epoch": 1.7703333333333333, + "grad_norm": 2.5322136878967285, + "learning_rate": 8.60442833111201e-06, + "loss": 0.402, + "step": 5311 + }, + { + "epoch": 1.7706666666666666, + "grad_norm": 2.2316811084747314, + "learning_rate": 8.600587881758216e-06, + "loss": 0.3812, + "step": 5312 + }, + { + "epoch": 1.771, + "grad_norm": 2.7555599212646484, + "learning_rate": 8.596747642915687e-06, + "loss": 0.2988, + "step": 5313 + }, + { + "epoch": 1.7713333333333332, + "grad_norm": 1.8979309797286987, + "learning_rate": 8.592907615162099e-06, + "loss": 0.3462, + "step": 5314 + }, + { + "epoch": 1.7716666666666665, + "grad_norm": 1.647798776626587, + "learning_rate": 8.589067799075102e-06, + "loss": 0.3339, + "step": 5315 + }, + { + "epoch": 1.772, + "grad_norm": 2.5185980796813965, + "learning_rate": 8.585228195232311e-06, + "loss": 0.4122, + "step": 5316 + }, + { + "epoch": 1.7723333333333333, + "grad_norm": 2.4933671951293945, + "learning_rate": 8.581388804211318e-06, + "loss": 0.3963, + "step": 5317 + }, + { + "epoch": 1.7726666666666666, + "grad_norm": 2.920473575592041, + "learning_rate": 8.577549626589666e-06, + "loss": 0.3843, + "step": 5318 + }, + { + "epoch": 1.7730000000000001, + "grad_norm": 2.2596988677978516, + "learning_rate": 8.573710662944884e-06, + "loss": 0.3051, + "step": 5319 + }, + { + "epoch": 1.7733333333333334, + "grad_norm": 2.245378017425537, + "learning_rate": 8.569871913854458e-06, + "loss": 0.3414, + "step": 5320 + }, + { + "epoch": 1.7736666666666667, + "grad_norm": 1.9246572256088257, + "learning_rate": 8.566033379895848e-06, + "loss": 0.3557, + "step": 5321 + }, + { + "epoch": 1.774, + "grad_norm": 2.593600273132324, + "learning_rate": 8.562195061646474e-06, + "loss": 0.3315, + "step": 5322 + }, + { + "epoch": 1.7743333333333333, + "grad_norm": 2.461127281188965, + "learning_rate": 8.558356959683729e-06, + "loss": 0.3433, + "step": 5323 + }, + { + "epoch": 1.7746666666666666, + "grad_norm": 2.2521796226501465, + "learning_rate": 8.554519074584974e-06, + "loss": 0.3772, + "step": 5324 + }, + { + "epoch": 1.775, + "grad_norm": 2.519683837890625, + "learning_rate": 8.550681406927534e-06, + "loss": 0.3508, + "step": 5325 + }, + { + "epoch": 1.7753333333333332, + "grad_norm": 2.256483554840088, + "learning_rate": 8.546843957288704e-06, + "loss": 0.353, + "step": 5326 + }, + { + "epoch": 1.7756666666666665, + "grad_norm": 2.1790640354156494, + "learning_rate": 8.543006726245743e-06, + "loss": 0.3885, + "step": 5327 + }, + { + "epoch": 1.776, + "grad_norm": 1.7241216897964478, + "learning_rate": 8.539169714375885e-06, + "loss": 0.3604, + "step": 5328 + }, + { + "epoch": 1.7763333333333333, + "grad_norm": 2.429671049118042, + "learning_rate": 8.53533292225632e-06, + "loss": 0.3573, + "step": 5329 + }, + { + "epoch": 1.7766666666666666, + "grad_norm": 1.9336366653442383, + "learning_rate": 8.53149635046421e-06, + "loss": 0.3723, + "step": 5330 + }, + { + "epoch": 1.7770000000000001, + "grad_norm": 1.9970588684082031, + "learning_rate": 8.527659999576692e-06, + "loss": 0.3702, + "step": 5331 + }, + { + "epoch": 1.7773333333333334, + "grad_norm": 2.4210636615753174, + "learning_rate": 8.52382387017085e-06, + "loss": 0.3505, + "step": 5332 + }, + { + "epoch": 1.7776666666666667, + "grad_norm": 3.1627867221832275, + "learning_rate": 8.519987962823756e-06, + "loss": 0.4039, + "step": 5333 + }, + { + "epoch": 1.778, + "grad_norm": 2.5705161094665527, + "learning_rate": 8.516152278112433e-06, + "loss": 0.3616, + "step": 5334 + }, + { + "epoch": 1.7783333333333333, + "grad_norm": 2.9969100952148438, + "learning_rate": 8.512316816613885e-06, + "loss": 0.384, + "step": 5335 + }, + { + "epoch": 1.7786666666666666, + "grad_norm": 3.5169713497161865, + "learning_rate": 8.508481578905064e-06, + "loss": 0.3424, + "step": 5336 + }, + { + "epoch": 1.779, + "grad_norm": 2.127121686935425, + "learning_rate": 8.504646565562907e-06, + "loss": 0.3482, + "step": 5337 + }, + { + "epoch": 1.7793333333333332, + "grad_norm": 2.9168031215667725, + "learning_rate": 8.500811777164303e-06, + "loss": 0.3857, + "step": 5338 + }, + { + "epoch": 1.7796666666666665, + "grad_norm": 2.517439842224121, + "learning_rate": 8.496977214286116e-06, + "loss": 0.3567, + "step": 5339 + }, + { + "epoch": 1.78, + "grad_norm": 2.2605862617492676, + "learning_rate": 8.49314287750517e-06, + "loss": 0.3517, + "step": 5340 + }, + { + "epoch": 1.7803333333333333, + "grad_norm": 2.775373935699463, + "learning_rate": 8.489308767398259e-06, + "loss": 0.3844, + "step": 5341 + }, + { + "epoch": 1.7806666666666666, + "grad_norm": 2.8198471069335938, + "learning_rate": 8.485474884542149e-06, + "loss": 0.3632, + "step": 5342 + }, + { + "epoch": 1.7810000000000001, + "grad_norm": 2.3662514686584473, + "learning_rate": 8.481641229513554e-06, + "loss": 0.337, + "step": 5343 + }, + { + "epoch": 1.7813333333333334, + "grad_norm": 2.9349942207336426, + "learning_rate": 8.477807802889169e-06, + "loss": 0.3756, + "step": 5344 + }, + { + "epoch": 1.7816666666666667, + "grad_norm": 2.7736525535583496, + "learning_rate": 8.473974605245652e-06, + "loss": 0.384, + "step": 5345 + }, + { + "epoch": 1.782, + "grad_norm": 2.4834377765655518, + "learning_rate": 8.47014163715962e-06, + "loss": 0.3512, + "step": 5346 + }, + { + "epoch": 1.7823333333333333, + "grad_norm": 2.5502874851226807, + "learning_rate": 8.466308899207665e-06, + "loss": 0.3445, + "step": 5347 + }, + { + "epoch": 1.7826666666666666, + "grad_norm": 2.9331412315368652, + "learning_rate": 8.462476391966334e-06, + "loss": 0.3394, + "step": 5348 + }, + { + "epoch": 1.783, + "grad_norm": 2.0848731994628906, + "learning_rate": 8.458644116012154e-06, + "loss": 0.3863, + "step": 5349 + }, + { + "epoch": 1.7833333333333332, + "grad_norm": 2.8035008907318115, + "learning_rate": 8.454812071921597e-06, + "loss": 0.3701, + "step": 5350 + }, + { + "epoch": 1.7836666666666665, + "grad_norm": 2.712843418121338, + "learning_rate": 8.450980260271115e-06, + "loss": 0.3527, + "step": 5351 + }, + { + "epoch": 1.784, + "grad_norm": 3.1563847064971924, + "learning_rate": 8.447148681637127e-06, + "loss": 0.3719, + "step": 5352 + }, + { + "epoch": 1.7843333333333333, + "grad_norm": 2.739694356918335, + "learning_rate": 8.443317336596003e-06, + "loss": 0.3753, + "step": 5353 + }, + { + "epoch": 1.7846666666666666, + "grad_norm": 2.028402090072632, + "learning_rate": 8.439486225724088e-06, + "loss": 0.3796, + "step": 5354 + }, + { + "epoch": 1.7850000000000001, + "grad_norm": 2.9310131072998047, + "learning_rate": 8.43565534959769e-06, + "loss": 0.3525, + "step": 5355 + }, + { + "epoch": 1.7853333333333334, + "grad_norm": 3.119868278503418, + "learning_rate": 8.431824708793088e-06, + "loss": 0.3804, + "step": 5356 + }, + { + "epoch": 1.7856666666666667, + "grad_norm": 3.9267079830169678, + "learning_rate": 8.42799430388651e-06, + "loss": 0.3787, + "step": 5357 + }, + { + "epoch": 1.786, + "grad_norm": 2.371084213256836, + "learning_rate": 8.424164135454158e-06, + "loss": 0.3965, + "step": 5358 + }, + { + "epoch": 1.7863333333333333, + "grad_norm": 2.4693548679351807, + "learning_rate": 8.420334204072205e-06, + "loss": 0.3934, + "step": 5359 + }, + { + "epoch": 1.7866666666666666, + "grad_norm": 2.0154976844787598, + "learning_rate": 8.416504510316774e-06, + "loss": 0.3582, + "step": 5360 + }, + { + "epoch": 1.787, + "grad_norm": 3.097656726837158, + "learning_rate": 8.412675054763963e-06, + "loss": 0.4233, + "step": 5361 + }, + { + "epoch": 1.7873333333333332, + "grad_norm": 2.3662753105163574, + "learning_rate": 8.408845837989828e-06, + "loss": 0.3673, + "step": 5362 + }, + { + "epoch": 1.7876666666666665, + "grad_norm": 2.7975540161132812, + "learning_rate": 8.4050168605704e-06, + "loss": 0.3456, + "step": 5363 + }, + { + "epoch": 1.788, + "grad_norm": 2.1157279014587402, + "learning_rate": 8.401188123081653e-06, + "loss": 0.3813, + "step": 5364 + }, + { + "epoch": 1.7883333333333333, + "grad_norm": 2.159705400466919, + "learning_rate": 8.397359626099544e-06, + "loss": 0.4, + "step": 5365 + }, + { + "epoch": 1.7886666666666666, + "grad_norm": 2.094238042831421, + "learning_rate": 8.393531370199995e-06, + "loss": 0.3279, + "step": 5366 + }, + { + "epoch": 1.7890000000000001, + "grad_norm": 2.532374382019043, + "learning_rate": 8.389703355958873e-06, + "loss": 0.3754, + "step": 5367 + }, + { + "epoch": 1.7893333333333334, + "grad_norm": 2.217909574508667, + "learning_rate": 8.38587558395202e-06, + "loss": 0.4028, + "step": 5368 + }, + { + "epoch": 1.7896666666666667, + "grad_norm": 3.1114413738250732, + "learning_rate": 8.382048054755249e-06, + "loss": 0.3767, + "step": 5369 + }, + { + "epoch": 1.79, + "grad_norm": 3.719454288482666, + "learning_rate": 8.378220768944328e-06, + "loss": 0.4058, + "step": 5370 + }, + { + "epoch": 1.7903333333333333, + "grad_norm": 3.3040771484375, + "learning_rate": 8.374393727094984e-06, + "loss": 0.3686, + "step": 5371 + }, + { + "epoch": 1.7906666666666666, + "grad_norm": 2.143054723739624, + "learning_rate": 8.370566929782912e-06, + "loss": 0.3636, + "step": 5372 + }, + { + "epoch": 1.791, + "grad_norm": 2.3527774810791016, + "learning_rate": 8.366740377583781e-06, + "loss": 0.3835, + "step": 5373 + }, + { + "epoch": 1.7913333333333332, + "grad_norm": 1.8353407382965088, + "learning_rate": 8.3629140710732e-06, + "loss": 0.3158, + "step": 5374 + }, + { + "epoch": 1.7916666666666665, + "grad_norm": 2.264157295227051, + "learning_rate": 8.35908801082676e-06, + "loss": 0.3921, + "step": 5375 + }, + { + "epoch": 1.792, + "grad_norm": 2.5551371574401855, + "learning_rate": 8.355262197420011e-06, + "loss": 0.3703, + "step": 5376 + }, + { + "epoch": 1.7923333333333333, + "grad_norm": 2.338632822036743, + "learning_rate": 8.351436631428464e-06, + "loss": 0.4023, + "step": 5377 + }, + { + "epoch": 1.7926666666666666, + "grad_norm": 2.638227939605713, + "learning_rate": 8.347611313427586e-06, + "loss": 0.3615, + "step": 5378 + }, + { + "epoch": 1.7930000000000001, + "grad_norm": 3.248967409133911, + "learning_rate": 8.343786243992819e-06, + "loss": 0.3734, + "step": 5379 + }, + { + "epoch": 1.7933333333333334, + "grad_norm": 2.148685932159424, + "learning_rate": 8.339961423699563e-06, + "loss": 0.3553, + "step": 5380 + }, + { + "epoch": 1.7936666666666667, + "grad_norm": 1.8442659378051758, + "learning_rate": 8.336136853123175e-06, + "loss": 0.3524, + "step": 5381 + }, + { + "epoch": 1.794, + "grad_norm": 3.5756301879882812, + "learning_rate": 8.332312532838978e-06, + "loss": 0.3577, + "step": 5382 + }, + { + "epoch": 1.7943333333333333, + "grad_norm": 3.024296998977661, + "learning_rate": 8.328488463422261e-06, + "loss": 0.363, + "step": 5383 + }, + { + "epoch": 1.7946666666666666, + "grad_norm": 2.1696012020111084, + "learning_rate": 8.324664645448277e-06, + "loss": 0.3551, + "step": 5384 + }, + { + "epoch": 1.795, + "grad_norm": 3.1377241611480713, + "learning_rate": 8.32084107949223e-06, + "loss": 0.3893, + "step": 5385 + }, + { + "epoch": 1.7953333333333332, + "grad_norm": 2.1317851543426514, + "learning_rate": 8.317017766129295e-06, + "loss": 0.3791, + "step": 5386 + }, + { + "epoch": 1.7956666666666665, + "grad_norm": 2.2976009845733643, + "learning_rate": 8.313194705934608e-06, + "loss": 0.3808, + "step": 5387 + }, + { + "epoch": 1.796, + "grad_norm": 4.229997158050537, + "learning_rate": 8.309371899483261e-06, + "loss": 0.3255, + "step": 5388 + }, + { + "epoch": 1.7963333333333333, + "grad_norm": 2.5205891132354736, + "learning_rate": 8.305549347350315e-06, + "loss": 0.3471, + "step": 5389 + }, + { + "epoch": 1.7966666666666666, + "grad_norm": 2.4710819721221924, + "learning_rate": 8.301727050110794e-06, + "loss": 0.352, + "step": 5390 + }, + { + "epoch": 1.7970000000000002, + "grad_norm": 1.8797929286956787, + "learning_rate": 8.297905008339677e-06, + "loss": 0.355, + "step": 5391 + }, + { + "epoch": 1.7973333333333334, + "grad_norm": 2.6008102893829346, + "learning_rate": 8.294083222611904e-06, + "loss": 0.3737, + "step": 5392 + }, + { + "epoch": 1.7976666666666667, + "grad_norm": 3.3063559532165527, + "learning_rate": 8.290261693502384e-06, + "loss": 0.401, + "step": 5393 + }, + { + "epoch": 1.798, + "grad_norm": 2.0809543132781982, + "learning_rate": 8.286440421585986e-06, + "loss": 0.365, + "step": 5394 + }, + { + "epoch": 1.7983333333333333, + "grad_norm": 2.619013786315918, + "learning_rate": 8.282619407437531e-06, + "loss": 0.3488, + "step": 5395 + }, + { + "epoch": 1.7986666666666666, + "grad_norm": 2.1401407718658447, + "learning_rate": 8.27879865163181e-06, + "loss": 0.3652, + "step": 5396 + }, + { + "epoch": 1.799, + "grad_norm": 2.765852451324463, + "learning_rate": 8.274978154743574e-06, + "loss": 0.3577, + "step": 5397 + }, + { + "epoch": 1.7993333333333332, + "grad_norm": 2.3988256454467773, + "learning_rate": 8.27115791734754e-06, + "loss": 0.3433, + "step": 5398 + }, + { + "epoch": 1.7996666666666665, + "grad_norm": 2.432441234588623, + "learning_rate": 8.267337940018367e-06, + "loss": 0.3285, + "step": 5399 + }, + { + "epoch": 1.8, + "grad_norm": 2.7725160121917725, + "learning_rate": 8.263518223330698e-06, + "loss": 0.3616, + "step": 5400 + }, + { + "epoch": 1.8003333333333333, + "grad_norm": 3.0689473152160645, + "learning_rate": 8.259698767859125e-06, + "loss": 0.3314, + "step": 5401 + }, + { + "epoch": 1.8006666666666666, + "grad_norm": 2.154219150543213, + "learning_rate": 8.255879574178198e-06, + "loss": 0.3828, + "step": 5402 + }, + { + "epoch": 1.8010000000000002, + "grad_norm": 2.1715598106384277, + "learning_rate": 8.252060642862436e-06, + "loss": 0.3645, + "step": 5403 + }, + { + "epoch": 1.8013333333333335, + "grad_norm": 2.5091381072998047, + "learning_rate": 8.248241974486312e-06, + "loss": 0.3671, + "step": 5404 + }, + { + "epoch": 1.8016666666666667, + "grad_norm": 2.2891128063201904, + "learning_rate": 8.24442356962427e-06, + "loss": 0.3872, + "step": 5405 + }, + { + "epoch": 1.802, + "grad_norm": 2.628812313079834, + "learning_rate": 8.240605428850693e-06, + "loss": 0.3843, + "step": 5406 + }, + { + "epoch": 1.8023333333333333, + "grad_norm": 2.638728618621826, + "learning_rate": 8.236787552739945e-06, + "loss": 0.4071, + "step": 5407 + }, + { + "epoch": 1.8026666666666666, + "grad_norm": 2.655045509338379, + "learning_rate": 8.232969941866349e-06, + "loss": 0.3984, + "step": 5408 + }, + { + "epoch": 1.803, + "grad_norm": 3.109473705291748, + "learning_rate": 8.22915259680417e-06, + "loss": 0.3693, + "step": 5409 + }, + { + "epoch": 1.8033333333333332, + "grad_norm": 2.710890531539917, + "learning_rate": 8.22533551812765e-06, + "loss": 0.3698, + "step": 5410 + }, + { + "epoch": 1.8036666666666665, + "grad_norm": 2.1857151985168457, + "learning_rate": 8.221518706410985e-06, + "loss": 0.3433, + "step": 5411 + }, + { + "epoch": 1.804, + "grad_norm": 2.081925868988037, + "learning_rate": 8.217702162228337e-06, + "loss": 0.3776, + "step": 5412 + }, + { + "epoch": 1.8043333333333333, + "grad_norm": 2.1225204467773438, + "learning_rate": 8.213885886153816e-06, + "loss": 0.3646, + "step": 5413 + }, + { + "epoch": 1.8046666666666666, + "grad_norm": 2.2899110317230225, + "learning_rate": 8.210069878761502e-06, + "loss": 0.3671, + "step": 5414 + }, + { + "epoch": 1.8050000000000002, + "grad_norm": 2.7650771141052246, + "learning_rate": 8.206254140625425e-06, + "loss": 0.3681, + "step": 5415 + }, + { + "epoch": 1.8053333333333335, + "grad_norm": 2.312861204147339, + "learning_rate": 8.20243867231959e-06, + "loss": 0.3839, + "step": 5416 + }, + { + "epoch": 1.8056666666666668, + "grad_norm": 2.3486545085906982, + "learning_rate": 8.198623474417942e-06, + "loss": 0.3463, + "step": 5417 + }, + { + "epoch": 1.806, + "grad_norm": 2.899407386779785, + "learning_rate": 8.194808547494401e-06, + "loss": 0.362, + "step": 5418 + }, + { + "epoch": 1.8063333333333333, + "grad_norm": 3.1218314170837402, + "learning_rate": 8.190993892122841e-06, + "loss": 0.3396, + "step": 5419 + }, + { + "epoch": 1.8066666666666666, + "grad_norm": 1.9150714874267578, + "learning_rate": 8.187179508877086e-06, + "loss": 0.3941, + "step": 5420 + }, + { + "epoch": 1.807, + "grad_norm": 3.27451491355896, + "learning_rate": 8.183365398330931e-06, + "loss": 0.4119, + "step": 5421 + }, + { + "epoch": 1.8073333333333332, + "grad_norm": 2.178478479385376, + "learning_rate": 8.179551561058134e-06, + "loss": 0.3522, + "step": 5422 + }, + { + "epoch": 1.8076666666666665, + "grad_norm": 2.4835970401763916, + "learning_rate": 8.175737997632396e-06, + "loss": 0.3714, + "step": 5423 + }, + { + "epoch": 1.808, + "grad_norm": 2.4324076175689697, + "learning_rate": 8.171924708627387e-06, + "loss": 0.3478, + "step": 5424 + }, + { + "epoch": 1.8083333333333333, + "grad_norm": 2.336601495742798, + "learning_rate": 8.168111694616733e-06, + "loss": 0.3508, + "step": 5425 + }, + { + "epoch": 1.8086666666666666, + "grad_norm": 2.229922294616699, + "learning_rate": 8.164298956174025e-06, + "loss": 0.3604, + "step": 5426 + }, + { + "epoch": 1.8090000000000002, + "grad_norm": 2.7695398330688477, + "learning_rate": 8.1604864938728e-06, + "loss": 0.3573, + "step": 5427 + }, + { + "epoch": 1.8093333333333335, + "grad_norm": 2.4285361766815186, + "learning_rate": 8.156674308286564e-06, + "loss": 0.3794, + "step": 5428 + }, + { + "epoch": 1.8096666666666668, + "grad_norm": 2.1725447177886963, + "learning_rate": 8.152862399988774e-06, + "loss": 0.3473, + "step": 5429 + }, + { + "epoch": 1.81, + "grad_norm": 3.591898202896118, + "learning_rate": 8.149050769552856e-06, + "loss": 0.354, + "step": 5430 + }, + { + "epoch": 1.8103333333333333, + "grad_norm": 2.498190402984619, + "learning_rate": 8.14523941755218e-06, + "loss": 0.3725, + "step": 5431 + }, + { + "epoch": 1.8106666666666666, + "grad_norm": 2.516977071762085, + "learning_rate": 8.141428344560085e-06, + "loss": 0.3644, + "step": 5432 + }, + { + "epoch": 1.811, + "grad_norm": 2.311023235321045, + "learning_rate": 8.137617551149868e-06, + "loss": 0.3607, + "step": 5433 + }, + { + "epoch": 1.8113333333333332, + "grad_norm": 2.600330114364624, + "learning_rate": 8.133807037894773e-06, + "loss": 0.3637, + "step": 5434 + }, + { + "epoch": 1.8116666666666665, + "grad_norm": 2.2878880500793457, + "learning_rate": 8.129996805368012e-06, + "loss": 0.3238, + "step": 5435 + }, + { + "epoch": 1.812, + "grad_norm": 2.067725419998169, + "learning_rate": 8.126186854142752e-06, + "loss": 0.3601, + "step": 5436 + }, + { + "epoch": 1.8123333333333334, + "grad_norm": 2.507697582244873, + "learning_rate": 8.122377184792124e-06, + "loss": 0.3445, + "step": 5437 + }, + { + "epoch": 1.8126666666666666, + "grad_norm": 4.175189971923828, + "learning_rate": 8.1185677978892e-06, + "loss": 0.3679, + "step": 5438 + }, + { + "epoch": 1.813, + "grad_norm": 2.637550115585327, + "learning_rate": 8.114758694007025e-06, + "loss": 0.3611, + "step": 5439 + }, + { + "epoch": 1.8133333333333335, + "grad_norm": 2.022696018218994, + "learning_rate": 8.1109498737186e-06, + "loss": 0.3353, + "step": 5440 + }, + { + "epoch": 1.8136666666666668, + "grad_norm": 2.853543281555176, + "learning_rate": 8.10714133759687e-06, + "loss": 0.3805, + "step": 5441 + }, + { + "epoch": 1.814, + "grad_norm": 2.366594076156616, + "learning_rate": 8.103333086214753e-06, + "loss": 0.3554, + "step": 5442 + }, + { + "epoch": 1.8143333333333334, + "grad_norm": 2.926645040512085, + "learning_rate": 8.099525120145118e-06, + "loss": 0.3659, + "step": 5443 + }, + { + "epoch": 1.8146666666666667, + "grad_norm": 2.763331890106201, + "learning_rate": 8.095717439960793e-06, + "loss": 0.3625, + "step": 5444 + }, + { + "epoch": 1.815, + "grad_norm": 2.526215076446533, + "learning_rate": 8.091910046234552e-06, + "loss": 0.3152, + "step": 5445 + }, + { + "epoch": 1.8153333333333332, + "grad_norm": 2.7198991775512695, + "learning_rate": 8.088102939539144e-06, + "loss": 0.3552, + "step": 5446 + }, + { + "epoch": 1.8156666666666665, + "grad_norm": 2.0951318740844727, + "learning_rate": 8.084296120447266e-06, + "loss": 0.3774, + "step": 5447 + }, + { + "epoch": 1.8159999999999998, + "grad_norm": 1.8909368515014648, + "learning_rate": 8.080489589531567e-06, + "loss": 0.3313, + "step": 5448 + }, + { + "epoch": 1.8163333333333334, + "grad_norm": 2.1012096405029297, + "learning_rate": 8.076683347364656e-06, + "loss": 0.3501, + "step": 5449 + }, + { + "epoch": 1.8166666666666667, + "grad_norm": 2.2138054370880127, + "learning_rate": 8.072877394519103e-06, + "loss": 0.3515, + "step": 5450 + }, + { + "epoch": 1.817, + "grad_norm": 2.9433929920196533, + "learning_rate": 8.069071731567435e-06, + "loss": 0.4149, + "step": 5451 + }, + { + "epoch": 1.8173333333333335, + "grad_norm": 1.8352386951446533, + "learning_rate": 8.065266359082124e-06, + "loss": 0.3602, + "step": 5452 + }, + { + "epoch": 1.8176666666666668, + "grad_norm": 2.890646457672119, + "learning_rate": 8.061461277635607e-06, + "loss": 0.3996, + "step": 5453 + }, + { + "epoch": 1.818, + "grad_norm": 3.024275541305542, + "learning_rate": 8.057656487800283e-06, + "loss": 0.3565, + "step": 5454 + }, + { + "epoch": 1.8183333333333334, + "grad_norm": 4.020020008087158, + "learning_rate": 8.053851990148491e-06, + "loss": 0.3421, + "step": 5455 + }, + { + "epoch": 1.8186666666666667, + "grad_norm": 2.311554431915283, + "learning_rate": 8.050047785252544e-06, + "loss": 0.363, + "step": 5456 + }, + { + "epoch": 1.819, + "grad_norm": 3.2435085773468018, + "learning_rate": 8.046243873684694e-06, + "loss": 0.3784, + "step": 5457 + }, + { + "epoch": 1.8193333333333332, + "grad_norm": 2.7340290546417236, + "learning_rate": 8.042440256017167e-06, + "loss": 0.3897, + "step": 5458 + }, + { + "epoch": 1.8196666666666665, + "grad_norm": 3.186596632003784, + "learning_rate": 8.038636932822124e-06, + "loss": 0.3786, + "step": 5459 + }, + { + "epoch": 1.8199999999999998, + "grad_norm": 2.76076078414917, + "learning_rate": 8.034833904671698e-06, + "loss": 0.3898, + "step": 5460 + }, + { + "epoch": 1.8203333333333334, + "grad_norm": 2.1885719299316406, + "learning_rate": 8.031031172137977e-06, + "loss": 0.3654, + "step": 5461 + }, + { + "epoch": 1.8206666666666667, + "grad_norm": 2.058173179626465, + "learning_rate": 8.027228735792993e-06, + "loss": 0.3141, + "step": 5462 + }, + { + "epoch": 1.821, + "grad_norm": 2.628751516342163, + "learning_rate": 8.023426596208739e-06, + "loss": 0.393, + "step": 5463 + }, + { + "epoch": 1.8213333333333335, + "grad_norm": 3.7102136611938477, + "learning_rate": 8.01962475395717e-06, + "loss": 0.4072, + "step": 5464 + }, + { + "epoch": 1.8216666666666668, + "grad_norm": 2.878371000289917, + "learning_rate": 8.01582320961019e-06, + "loss": 0.3893, + "step": 5465 + }, + { + "epoch": 1.822, + "grad_norm": 2.335231065750122, + "learning_rate": 8.012021963739659e-06, + "loss": 0.3391, + "step": 5466 + }, + { + "epoch": 1.8223333333333334, + "grad_norm": 2.5994858741760254, + "learning_rate": 8.008221016917386e-06, + "loss": 0.3673, + "step": 5467 + }, + { + "epoch": 1.8226666666666667, + "grad_norm": 2.3225367069244385, + "learning_rate": 8.00442036971515e-06, + "loss": 0.3796, + "step": 5468 + }, + { + "epoch": 1.823, + "grad_norm": 2.945516586303711, + "learning_rate": 8.00062002270467e-06, + "loss": 0.3645, + "step": 5469 + }, + { + "epoch": 1.8233333333333333, + "grad_norm": 2.7687911987304688, + "learning_rate": 7.996819976457626e-06, + "loss": 0.3465, + "step": 5470 + }, + { + "epoch": 1.8236666666666665, + "grad_norm": 2.6591625213623047, + "learning_rate": 7.99302023154566e-06, + "loss": 0.3499, + "step": 5471 + }, + { + "epoch": 1.8239999999999998, + "grad_norm": 2.9979231357574463, + "learning_rate": 7.989220788540356e-06, + "loss": 0.3994, + "step": 5472 + }, + { + "epoch": 1.8243333333333334, + "grad_norm": 2.3876395225524902, + "learning_rate": 7.985421648013255e-06, + "loss": 0.3785, + "step": 5473 + }, + { + "epoch": 1.8246666666666667, + "grad_norm": 2.889697551727295, + "learning_rate": 7.981622810535858e-06, + "loss": 0.3959, + "step": 5474 + }, + { + "epoch": 1.825, + "grad_norm": 2.435112714767456, + "learning_rate": 7.977824276679623e-06, + "loss": 0.3592, + "step": 5475 + }, + { + "epoch": 1.8253333333333335, + "grad_norm": 2.2293660640716553, + "learning_rate": 7.974026047015951e-06, + "loss": 0.3604, + "step": 5476 + }, + { + "epoch": 1.8256666666666668, + "grad_norm": 3.118772268295288, + "learning_rate": 7.970228122116202e-06, + "loss": 0.3295, + "step": 5477 + }, + { + "epoch": 1.826, + "grad_norm": 2.4431405067443848, + "learning_rate": 7.966430502551694e-06, + "loss": 0.3388, + "step": 5478 + }, + { + "epoch": 1.8263333333333334, + "grad_norm": 2.4034037590026855, + "learning_rate": 7.962633188893703e-06, + "loss": 0.3457, + "step": 5479 + }, + { + "epoch": 1.8266666666666667, + "grad_norm": 2.2752480506896973, + "learning_rate": 7.958836181713445e-06, + "loss": 0.3821, + "step": 5480 + }, + { + "epoch": 1.827, + "grad_norm": 2.7604024410247803, + "learning_rate": 7.955039481582098e-06, + "loss": 0.4052, + "step": 5481 + }, + { + "epoch": 1.8273333333333333, + "grad_norm": 2.44389271736145, + "learning_rate": 7.951243089070797e-06, + "loss": 0.3633, + "step": 5482 + }, + { + "epoch": 1.8276666666666666, + "grad_norm": 3.1873605251312256, + "learning_rate": 7.947447004750623e-06, + "loss": 0.3739, + "step": 5483 + }, + { + "epoch": 1.8279999999999998, + "grad_norm": 2.293501377105713, + "learning_rate": 7.943651229192615e-06, + "loss": 0.3445, + "step": 5484 + }, + { + "epoch": 1.8283333333333334, + "grad_norm": 2.8560314178466797, + "learning_rate": 7.93985576296777e-06, + "loss": 0.387, + "step": 5485 + }, + { + "epoch": 1.8286666666666667, + "grad_norm": 2.037147283554077, + "learning_rate": 7.936060606647032e-06, + "loss": 0.3687, + "step": 5486 + }, + { + "epoch": 1.829, + "grad_norm": 2.022843599319458, + "learning_rate": 7.932265760801295e-06, + "loss": 0.3663, + "step": 5487 + }, + { + "epoch": 1.8293333333333335, + "grad_norm": 2.165550470352173, + "learning_rate": 7.928471226001415e-06, + "loss": 0.3626, + "step": 5488 + }, + { + "epoch": 1.8296666666666668, + "grad_norm": 2.420119047164917, + "learning_rate": 7.924677002818203e-06, + "loss": 0.3776, + "step": 5489 + }, + { + "epoch": 1.83, + "grad_norm": 2.2368967533111572, + "learning_rate": 7.92088309182241e-06, + "loss": 0.3659, + "step": 5490 + }, + { + "epoch": 1.8303333333333334, + "grad_norm": 2.001519203186035, + "learning_rate": 7.917089493584747e-06, + "loss": 0.3625, + "step": 5491 + }, + { + "epoch": 1.8306666666666667, + "grad_norm": 2.3049464225769043, + "learning_rate": 7.913296208675884e-06, + "loss": 0.3752, + "step": 5492 + }, + { + "epoch": 1.831, + "grad_norm": 4.061065673828125, + "learning_rate": 7.90950323766644e-06, + "loss": 0.3901, + "step": 5493 + }, + { + "epoch": 1.8313333333333333, + "grad_norm": 2.2317042350769043, + "learning_rate": 7.905710581126978e-06, + "loss": 0.3523, + "step": 5494 + }, + { + "epoch": 1.8316666666666666, + "grad_norm": 2.6167449951171875, + "learning_rate": 7.901918239628027e-06, + "loss": 0.3391, + "step": 5495 + }, + { + "epoch": 1.8319999999999999, + "grad_norm": 2.8901095390319824, + "learning_rate": 7.898126213740063e-06, + "loss": 0.3382, + "step": 5496 + }, + { + "epoch": 1.8323333333333334, + "grad_norm": 2.5121517181396484, + "learning_rate": 7.894334504033508e-06, + "loss": 0.3618, + "step": 5497 + }, + { + "epoch": 1.8326666666666667, + "grad_norm": 2.68487286567688, + "learning_rate": 7.890543111078746e-06, + "loss": 0.3804, + "step": 5498 + }, + { + "epoch": 1.833, + "grad_norm": 2.7520952224731445, + "learning_rate": 7.886752035446116e-06, + "loss": 0.3226, + "step": 5499 + }, + { + "epoch": 1.8333333333333335, + "grad_norm": 2.487419843673706, + "learning_rate": 7.882961277705897e-06, + "loss": 0.3545, + "step": 5500 + }, + { + "epoch": 1.8336666666666668, + "grad_norm": 2.546741008758545, + "learning_rate": 7.879170838428323e-06, + "loss": 0.3692, + "step": 5501 + }, + { + "epoch": 1.834, + "grad_norm": 2.8901634216308594, + "learning_rate": 7.875380718183589e-06, + "loss": 0.3775, + "step": 5502 + }, + { + "epoch": 1.8343333333333334, + "grad_norm": 3.516281843185425, + "learning_rate": 7.871590917541839e-06, + "loss": 0.3557, + "step": 5503 + }, + { + "epoch": 1.8346666666666667, + "grad_norm": 2.1186773777008057, + "learning_rate": 7.867801437073159e-06, + "loss": 0.3376, + "step": 5504 + }, + { + "epoch": 1.835, + "grad_norm": 3.1027071475982666, + "learning_rate": 7.864012277347602e-06, + "loss": 0.3285, + "step": 5505 + }, + { + "epoch": 1.8353333333333333, + "grad_norm": 2.6262598037719727, + "learning_rate": 7.860223438935158e-06, + "loss": 0.3418, + "step": 5506 + }, + { + "epoch": 1.8356666666666666, + "grad_norm": 3.4294626712799072, + "learning_rate": 7.856434922405782e-06, + "loss": 0.3517, + "step": 5507 + }, + { + "epoch": 1.8359999999999999, + "grad_norm": 2.4505629539489746, + "learning_rate": 7.852646728329368e-06, + "loss": 0.3689, + "step": 5508 + }, + { + "epoch": 1.8363333333333334, + "grad_norm": 2.350208282470703, + "learning_rate": 7.848858857275773e-06, + "loss": 0.3344, + "step": 5509 + }, + { + "epoch": 1.8366666666666667, + "grad_norm": 2.744863510131836, + "learning_rate": 7.845071309814802e-06, + "loss": 0.3644, + "step": 5510 + }, + { + "epoch": 1.837, + "grad_norm": 2.8499512672424316, + "learning_rate": 7.841284086516201e-06, + "loss": 0.375, + "step": 5511 + }, + { + "epoch": 1.8373333333333335, + "grad_norm": 3.954984188079834, + "learning_rate": 7.837497187949681e-06, + "loss": 0.3524, + "step": 5512 + }, + { + "epoch": 1.8376666666666668, + "grad_norm": 3.381503105163574, + "learning_rate": 7.8337106146849e-06, + "loss": 0.3372, + "step": 5513 + }, + { + "epoch": 1.838, + "grad_norm": 2.2495436668395996, + "learning_rate": 7.829924367291467e-06, + "loss": 0.3449, + "step": 5514 + }, + { + "epoch": 1.8383333333333334, + "grad_norm": 3.513482093811035, + "learning_rate": 7.826138446338935e-06, + "loss": 0.327, + "step": 5515 + }, + { + "epoch": 1.8386666666666667, + "grad_norm": 2.5298540592193604, + "learning_rate": 7.822352852396816e-06, + "loss": 0.3577, + "step": 5516 + }, + { + "epoch": 1.839, + "grad_norm": 2.489560127258301, + "learning_rate": 7.818567586034578e-06, + "loss": 0.3586, + "step": 5517 + }, + { + "epoch": 1.8393333333333333, + "grad_norm": 2.1225008964538574, + "learning_rate": 7.81478264782162e-06, + "loss": 0.3409, + "step": 5518 + }, + { + "epoch": 1.8396666666666666, + "grad_norm": 3.310192108154297, + "learning_rate": 7.810998038327314e-06, + "loss": 0.3684, + "step": 5519 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 2.920771837234497, + "learning_rate": 7.807213758120965e-06, + "loss": 0.321, + "step": 5520 + }, + { + "epoch": 1.8403333333333334, + "grad_norm": 2.432680606842041, + "learning_rate": 7.803429807771847e-06, + "loss": 0.3422, + "step": 5521 + }, + { + "epoch": 1.8406666666666667, + "grad_norm": 2.4585859775543213, + "learning_rate": 7.799646187849161e-06, + "loss": 0.3434, + "step": 5522 + }, + { + "epoch": 1.841, + "grad_norm": 2.4910244941711426, + "learning_rate": 7.79586289892208e-06, + "loss": 0.3841, + "step": 5523 + }, + { + "epoch": 1.8413333333333335, + "grad_norm": 2.419058084487915, + "learning_rate": 7.792079941559715e-06, + "loss": 0.3837, + "step": 5524 + }, + { + "epoch": 1.8416666666666668, + "grad_norm": 2.4057562351226807, + "learning_rate": 7.788297316331123e-06, + "loss": 0.3745, + "step": 5525 + }, + { + "epoch": 1.842, + "grad_norm": 2.5938632488250732, + "learning_rate": 7.784515023805328e-06, + "loss": 0.3436, + "step": 5526 + }, + { + "epoch": 1.8423333333333334, + "grad_norm": 5.335912704467773, + "learning_rate": 7.78073306455129e-06, + "loss": 0.3591, + "step": 5527 + }, + { + "epoch": 1.8426666666666667, + "grad_norm": 2.666966438293457, + "learning_rate": 7.776951439137922e-06, + "loss": 0.3951, + "step": 5528 + }, + { + "epoch": 1.843, + "grad_norm": 2.3032803535461426, + "learning_rate": 7.773170148134092e-06, + "loss": 0.3995, + "step": 5529 + }, + { + "epoch": 1.8433333333333333, + "grad_norm": 3.1119368076324463, + "learning_rate": 7.769389192108608e-06, + "loss": 0.3739, + "step": 5530 + }, + { + "epoch": 1.8436666666666666, + "grad_norm": 2.0270910263061523, + "learning_rate": 7.765608571630238e-06, + "loss": 0.3102, + "step": 5531 + }, + { + "epoch": 1.8439999999999999, + "grad_norm": 2.3446521759033203, + "learning_rate": 7.761828287267688e-06, + "loss": 0.3538, + "step": 5532 + }, + { + "epoch": 1.8443333333333334, + "grad_norm": 2.2060301303863525, + "learning_rate": 7.758048339589626e-06, + "loss": 0.3821, + "step": 5533 + }, + { + "epoch": 1.8446666666666667, + "grad_norm": 2.1543655395507812, + "learning_rate": 7.754268729164657e-06, + "loss": 0.3421, + "step": 5534 + }, + { + "epoch": 1.845, + "grad_norm": 2.71929669380188, + "learning_rate": 7.750489456561351e-06, + "loss": 0.3699, + "step": 5535 + }, + { + "epoch": 1.8453333333333335, + "grad_norm": 2.160336494445801, + "learning_rate": 7.74671052234821e-06, + "loss": 0.339, + "step": 5536 + }, + { + "epoch": 1.8456666666666668, + "grad_norm": 1.7148994207382202, + "learning_rate": 7.742931927093697e-06, + "loss": 0.3621, + "step": 5537 + }, + { + "epoch": 1.846, + "grad_norm": 2.9316744804382324, + "learning_rate": 7.739153671366219e-06, + "loss": 0.3612, + "step": 5538 + }, + { + "epoch": 1.8463333333333334, + "grad_norm": 2.78823184967041, + "learning_rate": 7.735375755734128e-06, + "loss": 0.3692, + "step": 5539 + }, + { + "epoch": 1.8466666666666667, + "grad_norm": 2.6292128562927246, + "learning_rate": 7.731598180765732e-06, + "loss": 0.3886, + "step": 5540 + }, + { + "epoch": 1.847, + "grad_norm": 2.6697487831115723, + "learning_rate": 7.727820947029289e-06, + "loss": 0.3811, + "step": 5541 + }, + { + "epoch": 1.8473333333333333, + "grad_norm": 2.787865400314331, + "learning_rate": 7.724044055093003e-06, + "loss": 0.3618, + "step": 5542 + }, + { + "epoch": 1.8476666666666666, + "grad_norm": 2.71844482421875, + "learning_rate": 7.72026750552502e-06, + "loss": 0.3585, + "step": 5543 + }, + { + "epoch": 1.8479999999999999, + "grad_norm": 2.5425424575805664, + "learning_rate": 7.716491298893443e-06, + "loss": 0.401, + "step": 5544 + }, + { + "epoch": 1.8483333333333334, + "grad_norm": 2.1570277214050293, + "learning_rate": 7.712715435766323e-06, + "loss": 0.3582, + "step": 5545 + }, + { + "epoch": 1.8486666666666667, + "grad_norm": 2.1015241146087646, + "learning_rate": 7.70893991671165e-06, + "loss": 0.3751, + "step": 5546 + }, + { + "epoch": 1.849, + "grad_norm": 2.1866703033447266, + "learning_rate": 7.705164742297376e-06, + "loss": 0.3606, + "step": 5547 + }, + { + "epoch": 1.8493333333333335, + "grad_norm": 2.1186156272888184, + "learning_rate": 7.701389913091389e-06, + "loss": 0.3565, + "step": 5548 + }, + { + "epoch": 1.8496666666666668, + "grad_norm": 2.038564682006836, + "learning_rate": 7.697615429661535e-06, + "loss": 0.3379, + "step": 5549 + }, + { + "epoch": 1.85, + "grad_norm": 2.348875045776367, + "learning_rate": 7.6938412925756e-06, + "loss": 0.3814, + "step": 5550 + }, + { + "epoch": 1.8503333333333334, + "grad_norm": 2.6962778568267822, + "learning_rate": 7.690067502401322e-06, + "loss": 0.3738, + "step": 5551 + }, + { + "epoch": 1.8506666666666667, + "grad_norm": 2.5452351570129395, + "learning_rate": 7.686294059706388e-06, + "loss": 0.3348, + "step": 5552 + }, + { + "epoch": 1.851, + "grad_norm": 2.153430938720703, + "learning_rate": 7.68252096505843e-06, + "loss": 0.3174, + "step": 5553 + }, + { + "epoch": 1.8513333333333333, + "grad_norm": 3.5707480907440186, + "learning_rate": 7.678748219025023e-06, + "loss": 0.3358, + "step": 5554 + }, + { + "epoch": 1.8516666666666666, + "grad_norm": 2.105642080307007, + "learning_rate": 7.674975822173701e-06, + "loss": 0.3639, + "step": 5555 + }, + { + "epoch": 1.8519999999999999, + "grad_norm": 1.920292854309082, + "learning_rate": 7.671203775071942e-06, + "loss": 0.3603, + "step": 5556 + }, + { + "epoch": 1.8523333333333334, + "grad_norm": 2.6239304542541504, + "learning_rate": 7.667432078287166e-06, + "loss": 0.3493, + "step": 5557 + }, + { + "epoch": 1.8526666666666667, + "grad_norm": 2.4241654872894287, + "learning_rate": 7.663660732386734e-06, + "loss": 0.3383, + "step": 5558 + }, + { + "epoch": 1.853, + "grad_norm": 2.068380355834961, + "learning_rate": 7.65988973793798e-06, + "loss": 0.3284, + "step": 5559 + }, + { + "epoch": 1.8533333333333335, + "grad_norm": 2.2281296253204346, + "learning_rate": 7.656119095508155e-06, + "loss": 0.3878, + "step": 5560 + }, + { + "epoch": 1.8536666666666668, + "grad_norm": 2.298295259475708, + "learning_rate": 7.652348805664476e-06, + "loss": 0.3378, + "step": 5561 + }, + { + "epoch": 1.854, + "grad_norm": 2.6974668502807617, + "learning_rate": 7.6485788689741e-06, + "loss": 0.3559, + "step": 5562 + }, + { + "epoch": 1.8543333333333334, + "grad_norm": 3.1653544902801514, + "learning_rate": 7.644809286004139e-06, + "loss": 0.3652, + "step": 5563 + }, + { + "epoch": 1.8546666666666667, + "grad_norm": 2.799814462661743, + "learning_rate": 7.641040057321631e-06, + "loss": 0.3431, + "step": 5564 + }, + { + "epoch": 1.855, + "grad_norm": 3.0475449562072754, + "learning_rate": 7.637271183493587e-06, + "loss": 0.3578, + "step": 5565 + }, + { + "epoch": 1.8553333333333333, + "grad_norm": 2.502711534500122, + "learning_rate": 7.633502665086951e-06, + "loss": 0.3188, + "step": 5566 + }, + { + "epoch": 1.8556666666666666, + "grad_norm": 2.084550142288208, + "learning_rate": 7.629734502668611e-06, + "loss": 0.3644, + "step": 5567 + }, + { + "epoch": 1.8559999999999999, + "grad_norm": 2.103053569793701, + "learning_rate": 7.625966696805406e-06, + "loss": 0.4029, + "step": 5568 + }, + { + "epoch": 1.8563333333333332, + "grad_norm": 2.4026424884796143, + "learning_rate": 7.6221992480641215e-06, + "loss": 0.3871, + "step": 5569 + }, + { + "epoch": 1.8566666666666667, + "grad_norm": 2.890148878097534, + "learning_rate": 7.618432157011494e-06, + "loss": 0.3529, + "step": 5570 + }, + { + "epoch": 1.857, + "grad_norm": 4.341788291931152, + "learning_rate": 7.6146654242141935e-06, + "loss": 0.3584, + "step": 5571 + }, + { + "epoch": 1.8573333333333333, + "grad_norm": 2.323730945587158, + "learning_rate": 7.610899050238844e-06, + "loss": 0.3643, + "step": 5572 + }, + { + "epoch": 1.8576666666666668, + "grad_norm": 2.326608180999756, + "learning_rate": 7.6071330356520215e-06, + "loss": 0.3573, + "step": 5573 + }, + { + "epoch": 1.858, + "grad_norm": 2.27469801902771, + "learning_rate": 7.6033673810202314e-06, + "loss": 0.3631, + "step": 5574 + }, + { + "epoch": 1.8583333333333334, + "grad_norm": 2.304471492767334, + "learning_rate": 7.599602086909943e-06, + "loss": 0.3612, + "step": 5575 + }, + { + "epoch": 1.8586666666666667, + "grad_norm": 2.2589409351348877, + "learning_rate": 7.595837153887559e-06, + "loss": 0.3401, + "step": 5576 + }, + { + "epoch": 1.859, + "grad_norm": 2.223318099975586, + "learning_rate": 7.592072582519437e-06, + "loss": 0.3345, + "step": 5577 + }, + { + "epoch": 1.8593333333333333, + "grad_norm": 2.855982780456543, + "learning_rate": 7.588308373371867e-06, + "loss": 0.4006, + "step": 5578 + }, + { + "epoch": 1.8596666666666666, + "grad_norm": 2.206834316253662, + "learning_rate": 7.5845445270111e-06, + "loss": 0.3962, + "step": 5579 + }, + { + "epoch": 1.8599999999999999, + "grad_norm": 2.895549774169922, + "learning_rate": 7.580781044003324e-06, + "loss": 0.3326, + "step": 5580 + }, + { + "epoch": 1.8603333333333332, + "grad_norm": 2.140850782394409, + "learning_rate": 7.5770179249146735e-06, + "loss": 0.3404, + "step": 5581 + }, + { + "epoch": 1.8606666666666667, + "grad_norm": 3.9837803840637207, + "learning_rate": 7.573255170311223e-06, + "loss": 0.3557, + "step": 5582 + }, + { + "epoch": 1.861, + "grad_norm": 2.132540225982666, + "learning_rate": 7.569492780759002e-06, + "loss": 0.3758, + "step": 5583 + }, + { + "epoch": 1.8613333333333333, + "grad_norm": 2.2377231121063232, + "learning_rate": 7.565730756823986e-06, + "loss": 0.3632, + "step": 5584 + }, + { + "epoch": 1.8616666666666668, + "grad_norm": 2.1047213077545166, + "learning_rate": 7.561969099072082e-06, + "loss": 0.3825, + "step": 5585 + }, + { + "epoch": 1.862, + "grad_norm": 2.571810007095337, + "learning_rate": 7.558207808069149e-06, + "loss": 0.3779, + "step": 5586 + }, + { + "epoch": 1.8623333333333334, + "grad_norm": 1.9571603536605835, + "learning_rate": 7.554446884381001e-06, + "loss": 0.3554, + "step": 5587 + }, + { + "epoch": 1.8626666666666667, + "grad_norm": 1.7177859544754028, + "learning_rate": 7.550686328573375e-06, + "loss": 0.3485, + "step": 5588 + }, + { + "epoch": 1.863, + "grad_norm": 2.6288998126983643, + "learning_rate": 7.546926141211975e-06, + "loss": 0.3775, + "step": 5589 + }, + { + "epoch": 1.8633333333333333, + "grad_norm": 2.320122718811035, + "learning_rate": 7.543166322862437e-06, + "loss": 0.3355, + "step": 5590 + }, + { + "epoch": 1.8636666666666666, + "grad_norm": 2.723085880279541, + "learning_rate": 7.539406874090346e-06, + "loss": 0.3887, + "step": 5591 + }, + { + "epoch": 1.8639999999999999, + "grad_norm": 2.0701844692230225, + "learning_rate": 7.535647795461224e-06, + "loss": 0.3184, + "step": 5592 + }, + { + "epoch": 1.8643333333333332, + "grad_norm": 2.948953628540039, + "learning_rate": 7.531889087540547e-06, + "loss": 0.4099, + "step": 5593 + }, + { + "epoch": 1.8646666666666667, + "grad_norm": 2.0604450702667236, + "learning_rate": 7.528130750893735e-06, + "loss": 0.3404, + "step": 5594 + }, + { + "epoch": 1.865, + "grad_norm": 4.413976192474365, + "learning_rate": 7.524372786086143e-06, + "loss": 0.3967, + "step": 5595 + }, + { + "epoch": 1.8653333333333333, + "grad_norm": 2.195340633392334, + "learning_rate": 7.520615193683073e-06, + "loss": 0.3297, + "step": 5596 + }, + { + "epoch": 1.8656666666666668, + "grad_norm": 2.575200319290161, + "learning_rate": 7.516857974249778e-06, + "loss": 0.3272, + "step": 5597 + }, + { + "epoch": 1.866, + "grad_norm": 2.063181161880493, + "learning_rate": 7.513101128351454e-06, + "loss": 0.366, + "step": 5598 + }, + { + "epoch": 1.8663333333333334, + "grad_norm": 2.4569249153137207, + "learning_rate": 7.509344656553229e-06, + "loss": 0.3304, + "step": 5599 + }, + { + "epoch": 1.8666666666666667, + "grad_norm": 3.9508330821990967, + "learning_rate": 7.505588559420188e-06, + "loss": 0.3651, + "step": 5600 + }, + { + "epoch": 1.867, + "grad_norm": 2.3632638454437256, + "learning_rate": 7.501832837517351e-06, + "loss": 0.3903, + "step": 5601 + }, + { + "epoch": 1.8673333333333333, + "grad_norm": 2.450829267501831, + "learning_rate": 7.498077491409692e-06, + "loss": 0.3694, + "step": 5602 + }, + { + "epoch": 1.8676666666666666, + "grad_norm": 3.8215951919555664, + "learning_rate": 7.4943225216621115e-06, + "loss": 0.3596, + "step": 5603 + }, + { + "epoch": 1.8679999999999999, + "grad_norm": 3.662102460861206, + "learning_rate": 7.490567928839472e-06, + "loss": 0.3395, + "step": 5604 + }, + { + "epoch": 1.8683333333333332, + "grad_norm": 2.2592427730560303, + "learning_rate": 7.486813713506569e-06, + "loss": 0.3703, + "step": 5605 + }, + { + "epoch": 1.8686666666666667, + "grad_norm": 2.9237070083618164, + "learning_rate": 7.4830598762281374e-06, + "loss": 0.3504, + "step": 5606 + }, + { + "epoch": 1.869, + "grad_norm": 2.7443244457244873, + "learning_rate": 7.4793064175688635e-06, + "loss": 0.3529, + "step": 5607 + }, + { + "epoch": 1.8693333333333333, + "grad_norm": 2.3109564781188965, + "learning_rate": 7.475553338093378e-06, + "loss": 0.3587, + "step": 5608 + }, + { + "epoch": 1.8696666666666668, + "grad_norm": 2.473395586013794, + "learning_rate": 7.471800638366249e-06, + "loss": 0.3839, + "step": 5609 + }, + { + "epoch": 1.87, + "grad_norm": 3.1130292415618896, + "learning_rate": 7.468048318951983e-06, + "loss": 0.3842, + "step": 5610 + }, + { + "epoch": 1.8703333333333334, + "grad_norm": 2.4232375621795654, + "learning_rate": 7.464296380415042e-06, + "loss": 0.369, + "step": 5611 + }, + { + "epoch": 1.8706666666666667, + "grad_norm": 1.895370364189148, + "learning_rate": 7.460544823319824e-06, + "loss": 0.3437, + "step": 5612 + }, + { + "epoch": 1.871, + "grad_norm": 2.0233829021453857, + "learning_rate": 7.4567936482306625e-06, + "loss": 0.3242, + "step": 5613 + }, + { + "epoch": 1.8713333333333333, + "grad_norm": 2.1459553241729736, + "learning_rate": 7.453042855711849e-06, + "loss": 0.3865, + "step": 5614 + }, + { + "epoch": 1.8716666666666666, + "grad_norm": 2.3009824752807617, + "learning_rate": 7.449292446327601e-06, + "loss": 0.3609, + "step": 5615 + }, + { + "epoch": 1.8719999999999999, + "grad_norm": 2.539860486984253, + "learning_rate": 7.445542420642097e-06, + "loss": 0.3816, + "step": 5616 + }, + { + "epoch": 1.8723333333333332, + "grad_norm": 2.836951971054077, + "learning_rate": 7.4417927792194355e-06, + "loss": 0.3462, + "step": 5617 + }, + { + "epoch": 1.8726666666666667, + "grad_norm": 2.2585196495056152, + "learning_rate": 7.438043522623677e-06, + "loss": 0.3512, + "step": 5618 + }, + { + "epoch": 1.873, + "grad_norm": 2.1281747817993164, + "learning_rate": 7.434294651418815e-06, + "loss": 0.3386, + "step": 5619 + }, + { + "epoch": 1.8733333333333333, + "grad_norm": 2.6932356357574463, + "learning_rate": 7.430546166168781e-06, + "loss": 0.3726, + "step": 5620 + }, + { + "epoch": 1.8736666666666668, + "grad_norm": 2.2237560749053955, + "learning_rate": 7.426798067437455e-06, + "loss": 0.3482, + "step": 5621 + }, + { + "epoch": 1.874, + "grad_norm": 5.45789909362793, + "learning_rate": 7.423050355788663e-06, + "loss": 0.3722, + "step": 5622 + }, + { + "epoch": 1.8743333333333334, + "grad_norm": 2.303879976272583, + "learning_rate": 7.4193030317861626e-06, + "loss": 0.3603, + "step": 5623 + }, + { + "epoch": 1.8746666666666667, + "grad_norm": 2.0355474948883057, + "learning_rate": 7.415556095993657e-06, + "loss": 0.37, + "step": 5624 + }, + { + "epoch": 1.875, + "grad_norm": 1.9796501398086548, + "learning_rate": 7.411809548974792e-06, + "loss": 0.3547, + "step": 5625 + }, + { + "epoch": 1.8753333333333333, + "grad_norm": 2.690549612045288, + "learning_rate": 7.408063391293159e-06, + "loss": 0.3762, + "step": 5626 + }, + { + "epoch": 1.8756666666666666, + "grad_norm": 2.8241889476776123, + "learning_rate": 7.404317623512278e-06, + "loss": 0.3774, + "step": 5627 + }, + { + "epoch": 1.876, + "grad_norm": 1.9984806776046753, + "learning_rate": 7.400572246195628e-06, + "loss": 0.33, + "step": 5628 + }, + { + "epoch": 1.8763333333333332, + "grad_norm": 1.9575400352478027, + "learning_rate": 7.396827259906609e-06, + "loss": 0.3276, + "step": 5629 + }, + { + "epoch": 1.8766666666666667, + "grad_norm": 2.1533749103546143, + "learning_rate": 7.393082665208587e-06, + "loss": 0.3561, + "step": 5630 + }, + { + "epoch": 1.877, + "grad_norm": 2.681577205657959, + "learning_rate": 7.389338462664841e-06, + "loss": 0.3483, + "step": 5631 + }, + { + "epoch": 1.8773333333333333, + "grad_norm": 2.5522592067718506, + "learning_rate": 7.385594652838615e-06, + "loss": 0.3559, + "step": 5632 + }, + { + "epoch": 1.8776666666666668, + "grad_norm": 2.537431478500366, + "learning_rate": 7.381851236293083e-06, + "loss": 0.3417, + "step": 5633 + }, + { + "epoch": 1.8780000000000001, + "grad_norm": 2.9262051582336426, + "learning_rate": 7.378108213591355e-06, + "loss": 0.3631, + "step": 5634 + }, + { + "epoch": 1.8783333333333334, + "grad_norm": 3.03083872795105, + "learning_rate": 7.37436558529649e-06, + "loss": 0.3926, + "step": 5635 + }, + { + "epoch": 1.8786666666666667, + "grad_norm": 3.338308334350586, + "learning_rate": 7.370623351971491e-06, + "loss": 0.3527, + "step": 5636 + }, + { + "epoch": 1.879, + "grad_norm": 2.696983575820923, + "learning_rate": 7.366881514179292e-06, + "loss": 0.3783, + "step": 5637 + }, + { + "epoch": 1.8793333333333333, + "grad_norm": 2.339334487915039, + "learning_rate": 7.363140072482771e-06, + "loss": 0.36, + "step": 5638 + }, + { + "epoch": 1.8796666666666666, + "grad_norm": 2.7117860317230225, + "learning_rate": 7.359399027444745e-06, + "loss": 0.3595, + "step": 5639 + }, + { + "epoch": 1.88, + "grad_norm": 3.61712384223938, + "learning_rate": 7.355658379627981e-06, + "loss": 0.3505, + "step": 5640 + }, + { + "epoch": 1.8803333333333332, + "grad_norm": 2.5746281147003174, + "learning_rate": 7.351918129595168e-06, + "loss": 0.3206, + "step": 5641 + }, + { + "epoch": 1.8806666666666667, + "grad_norm": 3.2910239696502686, + "learning_rate": 7.348178277908953e-06, + "loss": 0.3922, + "step": 5642 + }, + { + "epoch": 1.881, + "grad_norm": 2.7973098754882812, + "learning_rate": 7.344438825131912e-06, + "loss": 0.3109, + "step": 5643 + }, + { + "epoch": 1.8813333333333333, + "grad_norm": 3.062346935272217, + "learning_rate": 7.3406997718265695e-06, + "loss": 0.3487, + "step": 5644 + }, + { + "epoch": 1.8816666666666668, + "grad_norm": 2.5321319103240967, + "learning_rate": 7.336961118555379e-06, + "loss": 0.3515, + "step": 5645 + }, + { + "epoch": 1.8820000000000001, + "grad_norm": 2.15105938911438, + "learning_rate": 7.333222865880745e-06, + "loss": 0.3636, + "step": 5646 + }, + { + "epoch": 1.8823333333333334, + "grad_norm": 2.0366482734680176, + "learning_rate": 7.329485014365003e-06, + "loss": 0.3443, + "step": 5647 + }, + { + "epoch": 1.8826666666666667, + "grad_norm": 2.13942551612854, + "learning_rate": 7.325747564570435e-06, + "loss": 0.3436, + "step": 5648 + }, + { + "epoch": 1.883, + "grad_norm": 3.106720447540283, + "learning_rate": 7.322010517059256e-06, + "loss": 0.3923, + "step": 5649 + }, + { + "epoch": 1.8833333333333333, + "grad_norm": 2.657942533493042, + "learning_rate": 7.3182738723936255e-06, + "loss": 0.3732, + "step": 5650 + }, + { + "epoch": 1.8836666666666666, + "grad_norm": 3.108591318130493, + "learning_rate": 7.314537631135645e-06, + "loss": 0.3474, + "step": 5651 + }, + { + "epoch": 1.884, + "grad_norm": 3.3175048828125, + "learning_rate": 7.310801793847344e-06, + "loss": 0.3742, + "step": 5652 + }, + { + "epoch": 1.8843333333333332, + "grad_norm": 2.53395938873291, + "learning_rate": 7.307066361090701e-06, + "loss": 0.3895, + "step": 5653 + }, + { + "epoch": 1.8846666666666667, + "grad_norm": 2.148625135421753, + "learning_rate": 7.303331333427636e-06, + "loss": 0.35, + "step": 5654 + }, + { + "epoch": 1.885, + "grad_norm": 2.598776340484619, + "learning_rate": 7.299596711419994e-06, + "loss": 0.3626, + "step": 5655 + }, + { + "epoch": 1.8853333333333333, + "grad_norm": 2.8579158782958984, + "learning_rate": 7.295862495629573e-06, + "loss": 0.3412, + "step": 5656 + }, + { + "epoch": 1.8856666666666668, + "grad_norm": 2.5845701694488525, + "learning_rate": 7.2921286866181055e-06, + "loss": 0.3748, + "step": 5657 + }, + { + "epoch": 1.8860000000000001, + "grad_norm": 2.1433675289154053, + "learning_rate": 7.288395284947263e-06, + "loss": 0.3713, + "step": 5658 + }, + { + "epoch": 1.8863333333333334, + "grad_norm": 2.7975287437438965, + "learning_rate": 7.28466229117865e-06, + "loss": 0.3523, + "step": 5659 + }, + { + "epoch": 1.8866666666666667, + "grad_norm": 2.5286097526550293, + "learning_rate": 7.280929705873818e-06, + "loss": 0.3556, + "step": 5660 + }, + { + "epoch": 1.887, + "grad_norm": 2.550220251083374, + "learning_rate": 7.277197529594257e-06, + "loss": 0.3771, + "step": 5661 + }, + { + "epoch": 1.8873333333333333, + "grad_norm": 2.5434036254882812, + "learning_rate": 7.273465762901388e-06, + "loss": 0.3401, + "step": 5662 + }, + { + "epoch": 1.8876666666666666, + "grad_norm": 3.277407169342041, + "learning_rate": 7.2697344063565735e-06, + "loss": 0.3602, + "step": 5663 + }, + { + "epoch": 1.888, + "grad_norm": 2.9335501194000244, + "learning_rate": 7.266003460521116e-06, + "loss": 0.3848, + "step": 5664 + }, + { + "epoch": 1.8883333333333332, + "grad_norm": 2.260789155960083, + "learning_rate": 7.262272925956261e-06, + "loss": 0.3032, + "step": 5665 + }, + { + "epoch": 1.8886666666666667, + "grad_norm": 2.3754985332489014, + "learning_rate": 7.25854280322318e-06, + "loss": 0.3606, + "step": 5666 + }, + { + "epoch": 1.889, + "grad_norm": 3.9038517475128174, + "learning_rate": 7.254813092882989e-06, + "loss": 0.3552, + "step": 5667 + }, + { + "epoch": 1.8893333333333333, + "grad_norm": 2.4489963054656982, + "learning_rate": 7.25108379549675e-06, + "loss": 0.3529, + "step": 5668 + }, + { + "epoch": 1.8896666666666668, + "grad_norm": 2.612478017807007, + "learning_rate": 7.247354911625444e-06, + "loss": 0.3995, + "step": 5669 + }, + { + "epoch": 1.8900000000000001, + "grad_norm": 2.5309178829193115, + "learning_rate": 7.243626441830009e-06, + "loss": 0.3919, + "step": 5670 + }, + { + "epoch": 1.8903333333333334, + "grad_norm": 2.2909252643585205, + "learning_rate": 7.239898386671309e-06, + "loss": 0.3517, + "step": 5671 + }, + { + "epoch": 1.8906666666666667, + "grad_norm": 3.085480213165283, + "learning_rate": 7.236170746710154e-06, + "loss": 0.3912, + "step": 5672 + }, + { + "epoch": 1.891, + "grad_norm": 2.521397829055786, + "learning_rate": 7.23244352250728e-06, + "loss": 0.3687, + "step": 5673 + }, + { + "epoch": 1.8913333333333333, + "grad_norm": 2.8532445430755615, + "learning_rate": 7.228716714623369e-06, + "loss": 0.3464, + "step": 5674 + }, + { + "epoch": 1.8916666666666666, + "grad_norm": 4.360434055328369, + "learning_rate": 7.224990323619045e-06, + "loss": 0.3866, + "step": 5675 + }, + { + "epoch": 1.892, + "grad_norm": 4.016312599182129, + "learning_rate": 7.221264350054855e-06, + "loss": 0.3483, + "step": 5676 + }, + { + "epoch": 1.8923333333333332, + "grad_norm": 2.220210313796997, + "learning_rate": 7.217538794491291e-06, + "loss": 0.3727, + "step": 5677 + }, + { + "epoch": 1.8926666666666667, + "grad_norm": 2.585583448410034, + "learning_rate": 7.2138136574887865e-06, + "loss": 0.384, + "step": 5678 + }, + { + "epoch": 1.893, + "grad_norm": 2.3215315341949463, + "learning_rate": 7.210088939607709e-06, + "loss": 0.3698, + "step": 5679 + }, + { + "epoch": 1.8933333333333333, + "grad_norm": 2.724557638168335, + "learning_rate": 7.206364641408358e-06, + "loss": 0.3483, + "step": 5680 + }, + { + "epoch": 1.8936666666666668, + "grad_norm": 2.6974687576293945, + "learning_rate": 7.202640763450972e-06, + "loss": 0.3844, + "step": 5681 + }, + { + "epoch": 1.8940000000000001, + "grad_norm": 2.453516721725464, + "learning_rate": 7.1989173062957345e-06, + "loss": 0.3635, + "step": 5682 + }, + { + "epoch": 1.8943333333333334, + "grad_norm": 2.4289650917053223, + "learning_rate": 7.19519427050275e-06, + "loss": 0.3395, + "step": 5683 + }, + { + "epoch": 1.8946666666666667, + "grad_norm": 2.6942451000213623, + "learning_rate": 7.191471656632074e-06, + "loss": 0.4006, + "step": 5684 + }, + { + "epoch": 1.895, + "grad_norm": 2.953718900680542, + "learning_rate": 7.187749465243694e-06, + "loss": 0.3634, + "step": 5685 + }, + { + "epoch": 1.8953333333333333, + "grad_norm": 3.006122350692749, + "learning_rate": 7.1840276968975354e-06, + "loss": 0.376, + "step": 5686 + }, + { + "epoch": 1.8956666666666666, + "grad_norm": 2.662825584411621, + "learning_rate": 7.1803063521534475e-06, + "loss": 0.3434, + "step": 5687 + }, + { + "epoch": 1.896, + "grad_norm": 2.3257219791412354, + "learning_rate": 7.176585431571235e-06, + "loss": 0.4037, + "step": 5688 + }, + { + "epoch": 1.8963333333333332, + "grad_norm": 4.085545063018799, + "learning_rate": 7.172864935710631e-06, + "loss": 0.3562, + "step": 5689 + }, + { + "epoch": 1.8966666666666665, + "grad_norm": 2.634225368499756, + "learning_rate": 7.169144865131297e-06, + "loss": 0.3423, + "step": 5690 + }, + { + "epoch": 1.897, + "grad_norm": 2.5591659545898438, + "learning_rate": 7.165425220392839e-06, + "loss": 0.3102, + "step": 5691 + }, + { + "epoch": 1.8973333333333333, + "grad_norm": 2.5355305671691895, + "learning_rate": 7.161706002054798e-06, + "loss": 0.3707, + "step": 5692 + }, + { + "epoch": 1.8976666666666666, + "grad_norm": 3.1589560508728027, + "learning_rate": 7.157987210676654e-06, + "loss": 0.329, + "step": 5693 + }, + { + "epoch": 1.8980000000000001, + "grad_norm": 2.428018093109131, + "learning_rate": 7.154268846817812e-06, + "loss": 0.348, + "step": 5694 + }, + { + "epoch": 1.8983333333333334, + "grad_norm": 2.4587135314941406, + "learning_rate": 7.150550911037621e-06, + "loss": 0.298, + "step": 5695 + }, + { + "epoch": 1.8986666666666667, + "grad_norm": 2.2226791381835938, + "learning_rate": 7.146833403895369e-06, + "loss": 0.3507, + "step": 5696 + }, + { + "epoch": 1.899, + "grad_norm": 2.312396764755249, + "learning_rate": 7.143116325950266e-06, + "loss": 0.3768, + "step": 5697 + }, + { + "epoch": 1.8993333333333333, + "grad_norm": 2.5852174758911133, + "learning_rate": 7.13939967776147e-06, + "loss": 0.3474, + "step": 5698 + }, + { + "epoch": 1.8996666666666666, + "grad_norm": 2.4203360080718994, + "learning_rate": 7.135683459888075e-06, + "loss": 0.3899, + "step": 5699 + }, + { + "epoch": 1.9, + "grad_norm": 2.5629043579101562, + "learning_rate": 7.131967672889101e-06, + "loss": 0.3253, + "step": 5700 + }, + { + "epoch": 1.9003333333333332, + "grad_norm": 2.2700021266937256, + "learning_rate": 7.1282523173235045e-06, + "loss": 0.3696, + "step": 5701 + }, + { + "epoch": 1.9006666666666665, + "grad_norm": 3.3049516677856445, + "learning_rate": 7.124537393750183e-06, + "loss": 0.3575, + "step": 5702 + }, + { + "epoch": 1.901, + "grad_norm": 2.5164084434509277, + "learning_rate": 7.120822902727972e-06, + "loss": 0.362, + "step": 5703 + }, + { + "epoch": 1.9013333333333333, + "grad_norm": 3.204995632171631, + "learning_rate": 7.117108844815629e-06, + "loss": 0.3952, + "step": 5704 + }, + { + "epoch": 1.9016666666666666, + "grad_norm": 2.4103150367736816, + "learning_rate": 7.113395220571855e-06, + "loss": 0.3602, + "step": 5705 + }, + { + "epoch": 1.9020000000000001, + "grad_norm": 2.9959304332733154, + "learning_rate": 7.109682030555283e-06, + "loss": 0.3845, + "step": 5706 + }, + { + "epoch": 1.9023333333333334, + "grad_norm": 2.154757499694824, + "learning_rate": 7.105969275324491e-06, + "loss": 0.3188, + "step": 5707 + }, + { + "epoch": 1.9026666666666667, + "grad_norm": 2.6827030181884766, + "learning_rate": 7.102256955437971e-06, + "loss": 0.3093, + "step": 5708 + }, + { + "epoch": 1.903, + "grad_norm": 2.2081615924835205, + "learning_rate": 7.0985450714541685e-06, + "loss": 0.3572, + "step": 5709 + }, + { + "epoch": 1.9033333333333333, + "grad_norm": 2.3348007202148438, + "learning_rate": 7.094833623931455e-06, + "loss": 0.3437, + "step": 5710 + }, + { + "epoch": 1.9036666666666666, + "grad_norm": 2.3725807666778564, + "learning_rate": 7.091122613428133e-06, + "loss": 0.3819, + "step": 5711 + }, + { + "epoch": 1.904, + "grad_norm": 2.2757186889648438, + "learning_rate": 7.087412040502446e-06, + "loss": 0.355, + "step": 5712 + }, + { + "epoch": 1.9043333333333332, + "grad_norm": 2.366138458251953, + "learning_rate": 7.083701905712574e-06, + "loss": 0.3867, + "step": 5713 + }, + { + "epoch": 1.9046666666666665, + "grad_norm": 2.1577188968658447, + "learning_rate": 7.079992209616624e-06, + "loss": 0.3226, + "step": 5714 + }, + { + "epoch": 1.905, + "grad_norm": 2.259312629699707, + "learning_rate": 7.076282952772634e-06, + "loss": 0.3107, + "step": 5715 + }, + { + "epoch": 1.9053333333333333, + "grad_norm": 2.329374074935913, + "learning_rate": 7.072574135738585e-06, + "loss": 0.3427, + "step": 5716 + }, + { + "epoch": 1.9056666666666666, + "grad_norm": 2.1741394996643066, + "learning_rate": 7.068865759072395e-06, + "loss": 0.3801, + "step": 5717 + }, + { + "epoch": 1.9060000000000001, + "grad_norm": 2.3127496242523193, + "learning_rate": 7.0651578233318986e-06, + "loss": 0.3389, + "step": 5718 + }, + { + "epoch": 1.9063333333333334, + "grad_norm": 2.1988625526428223, + "learning_rate": 7.061450329074879e-06, + "loss": 0.3578, + "step": 5719 + }, + { + "epoch": 1.9066666666666667, + "grad_norm": 2.142458438873291, + "learning_rate": 7.057743276859048e-06, + "loss": 0.3795, + "step": 5720 + }, + { + "epoch": 1.907, + "grad_norm": 2.295443534851074, + "learning_rate": 7.054036667242055e-06, + "loss": 0.3429, + "step": 5721 + }, + { + "epoch": 1.9073333333333333, + "grad_norm": 3.0462260246276855, + "learning_rate": 7.050330500781473e-06, + "loss": 0.3717, + "step": 5722 + }, + { + "epoch": 1.9076666666666666, + "grad_norm": 2.120497465133667, + "learning_rate": 7.046624778034818e-06, + "loss": 0.3581, + "step": 5723 + }, + { + "epoch": 1.908, + "grad_norm": 3.4639394283294678, + "learning_rate": 7.042919499559538e-06, + "loss": 0.3237, + "step": 5724 + }, + { + "epoch": 1.9083333333333332, + "grad_norm": 2.0872864723205566, + "learning_rate": 7.039214665913004e-06, + "loss": 0.3335, + "step": 5725 + }, + { + "epoch": 1.9086666666666665, + "grad_norm": 2.4642648696899414, + "learning_rate": 7.035510277652532e-06, + "loss": 0.3586, + "step": 5726 + }, + { + "epoch": 1.909, + "grad_norm": 2.288789987564087, + "learning_rate": 7.031806335335372e-06, + "loss": 0.3785, + "step": 5727 + }, + { + "epoch": 1.9093333333333333, + "grad_norm": 2.8712351322174072, + "learning_rate": 7.028102839518699e-06, + "loss": 0.3368, + "step": 5728 + }, + { + "epoch": 1.9096666666666666, + "grad_norm": 2.5093040466308594, + "learning_rate": 7.0243997907596195e-06, + "loss": 0.3514, + "step": 5729 + }, + { + "epoch": 1.9100000000000001, + "grad_norm": 2.3562777042388916, + "learning_rate": 7.02069718961518e-06, + "loss": 0.3373, + "step": 5730 + }, + { + "epoch": 1.9103333333333334, + "grad_norm": 2.995589256286621, + "learning_rate": 7.016995036642361e-06, + "loss": 0.3799, + "step": 5731 + }, + { + "epoch": 1.9106666666666667, + "grad_norm": 2.932391881942749, + "learning_rate": 7.013293332398063e-06, + "loss": 0.3496, + "step": 5732 + }, + { + "epoch": 1.911, + "grad_norm": 2.2538344860076904, + "learning_rate": 7.009592077439135e-06, + "loss": 0.3206, + "step": 5733 + }, + { + "epoch": 1.9113333333333333, + "grad_norm": 2.786163330078125, + "learning_rate": 7.005891272322344e-06, + "loss": 0.3282, + "step": 5734 + }, + { + "epoch": 1.9116666666666666, + "grad_norm": 2.8812358379364014, + "learning_rate": 7.002190917604403e-06, + "loss": 0.353, + "step": 5735 + }, + { + "epoch": 1.912, + "grad_norm": 2.7760026454925537, + "learning_rate": 6.9984910138419434e-06, + "loss": 0.3308, + "step": 5736 + }, + { + "epoch": 1.9123333333333332, + "grad_norm": 2.8519070148468018, + "learning_rate": 6.99479156159154e-06, + "loss": 0.3632, + "step": 5737 + }, + { + "epoch": 1.9126666666666665, + "grad_norm": 2.3918356895446777, + "learning_rate": 6.991092561409698e-06, + "loss": 0.3639, + "step": 5738 + }, + { + "epoch": 1.913, + "grad_norm": 2.6699576377868652, + "learning_rate": 6.987394013852843e-06, + "loss": 0.3878, + "step": 5739 + }, + { + "epoch": 1.9133333333333333, + "grad_norm": 3.075443744659424, + "learning_rate": 6.983695919477346e-06, + "loss": 0.3922, + "step": 5740 + }, + { + "epoch": 1.9136666666666666, + "grad_norm": 3.17342472076416, + "learning_rate": 6.979998278839508e-06, + "loss": 0.3637, + "step": 5741 + }, + { + "epoch": 1.9140000000000001, + "grad_norm": 2.5242278575897217, + "learning_rate": 6.976301092495556e-06, + "loss": 0.3382, + "step": 5742 + }, + { + "epoch": 1.9143333333333334, + "grad_norm": 2.1365127563476562, + "learning_rate": 6.972604361001653e-06, + "loss": 0.3567, + "step": 5743 + }, + { + "epoch": 1.9146666666666667, + "grad_norm": 2.3185627460479736, + "learning_rate": 6.9689080849138905e-06, + "loss": 0.3562, + "step": 5744 + }, + { + "epoch": 1.915, + "grad_norm": 2.7823305130004883, + "learning_rate": 6.9652122647882966e-06, + "loss": 0.3524, + "step": 5745 + }, + { + "epoch": 1.9153333333333333, + "grad_norm": 2.20747971534729, + "learning_rate": 6.961516901180822e-06, + "loss": 0.3547, + "step": 5746 + }, + { + "epoch": 1.9156666666666666, + "grad_norm": 2.3405673503875732, + "learning_rate": 6.957821994647358e-06, + "loss": 0.3165, + "step": 5747 + }, + { + "epoch": 1.916, + "grad_norm": 2.1743435859680176, + "learning_rate": 6.9541275457437215e-06, + "loss": 0.3594, + "step": 5748 + }, + { + "epoch": 1.9163333333333332, + "grad_norm": 2.1818981170654297, + "learning_rate": 6.950433555025669e-06, + "loss": 0.3665, + "step": 5749 + }, + { + "epoch": 1.9166666666666665, + "grad_norm": 2.029953956604004, + "learning_rate": 6.94674002304887e-06, + "loss": 0.3398, + "step": 5750 + }, + { + "epoch": 1.917, + "grad_norm": 2.670579195022583, + "learning_rate": 6.943046950368944e-06, + "loss": 0.3322, + "step": 5751 + }, + { + "epoch": 1.9173333333333333, + "grad_norm": 2.5549123287200928, + "learning_rate": 6.939354337541435e-06, + "loss": 0.3752, + "step": 5752 + }, + { + "epoch": 1.9176666666666666, + "grad_norm": 2.2916295528411865, + "learning_rate": 6.93566218512181e-06, + "loss": 0.3616, + "step": 5753 + }, + { + "epoch": 1.9180000000000001, + "grad_norm": 2.436678647994995, + "learning_rate": 6.931970493665478e-06, + "loss": 0.3678, + "step": 5754 + }, + { + "epoch": 1.9183333333333334, + "grad_norm": 2.4081265926361084, + "learning_rate": 6.928279263727774e-06, + "loss": 0.345, + "step": 5755 + }, + { + "epoch": 1.9186666666666667, + "grad_norm": 2.6001691818237305, + "learning_rate": 6.924588495863964e-06, + "loss": 0.347, + "step": 5756 + }, + { + "epoch": 1.919, + "grad_norm": 2.005338668823242, + "learning_rate": 6.920898190629242e-06, + "loss": 0.3671, + "step": 5757 + }, + { + "epoch": 1.9193333333333333, + "grad_norm": 3.0546939373016357, + "learning_rate": 6.917208348578734e-06, + "loss": 0.4, + "step": 5758 + }, + { + "epoch": 1.9196666666666666, + "grad_norm": 2.4877896308898926, + "learning_rate": 6.913518970267503e-06, + "loss": 0.3475, + "step": 5759 + }, + { + "epoch": 1.92, + "grad_norm": 2.6258435249328613, + "learning_rate": 6.909830056250527e-06, + "loss": 0.3383, + "step": 5760 + }, + { + "epoch": 1.9203333333333332, + "grad_norm": 2.267446994781494, + "learning_rate": 6.90614160708273e-06, + "loss": 0.3532, + "step": 5761 + }, + { + "epoch": 1.9206666666666665, + "grad_norm": 2.689154863357544, + "learning_rate": 6.902453623318956e-06, + "loss": 0.3294, + "step": 5762 + }, + { + "epoch": 1.921, + "grad_norm": 1.985040545463562, + "learning_rate": 6.8987661055139865e-06, + "loss": 0.3283, + "step": 5763 + }, + { + "epoch": 1.9213333333333333, + "grad_norm": 2.670128345489502, + "learning_rate": 6.895079054222522e-06, + "loss": 0.3444, + "step": 5764 + }, + { + "epoch": 1.9216666666666666, + "grad_norm": 2.471184015274048, + "learning_rate": 6.891392469999205e-06, + "loss": 0.3375, + "step": 5765 + }, + { + "epoch": 1.9220000000000002, + "grad_norm": 3.115675926208496, + "learning_rate": 6.8877063533986025e-06, + "loss": 0.3474, + "step": 5766 + }, + { + "epoch": 1.9223333333333334, + "grad_norm": 2.634183168411255, + "learning_rate": 6.884020704975207e-06, + "loss": 0.3425, + "step": 5767 + }, + { + "epoch": 1.9226666666666667, + "grad_norm": 2.7141897678375244, + "learning_rate": 6.880335525283444e-06, + "loss": 0.3606, + "step": 5768 + }, + { + "epoch": 1.923, + "grad_norm": 2.6407101154327393, + "learning_rate": 6.876650814877675e-06, + "loss": 0.3419, + "step": 5769 + }, + { + "epoch": 1.9233333333333333, + "grad_norm": 2.5004429817199707, + "learning_rate": 6.872966574312182e-06, + "loss": 0.3411, + "step": 5770 + }, + { + "epoch": 1.9236666666666666, + "grad_norm": 2.655996561050415, + "learning_rate": 6.869282804141179e-06, + "loss": 0.3572, + "step": 5771 + }, + { + "epoch": 1.924, + "grad_norm": 2.213456392288208, + "learning_rate": 6.865599504918805e-06, + "loss": 0.3702, + "step": 5772 + }, + { + "epoch": 1.9243333333333332, + "grad_norm": 2.8703689575195312, + "learning_rate": 6.861916677199143e-06, + "loss": 0.3905, + "step": 5773 + }, + { + "epoch": 1.9246666666666665, + "grad_norm": 2.141258478164673, + "learning_rate": 6.858234321536184e-06, + "loss": 0.331, + "step": 5774 + }, + { + "epoch": 1.925, + "grad_norm": 2.937593936920166, + "learning_rate": 6.854552438483866e-06, + "loss": 0.3752, + "step": 5775 + }, + { + "epoch": 1.9253333333333333, + "grad_norm": 2.2262301445007324, + "learning_rate": 6.850871028596042e-06, + "loss": 0.3375, + "step": 5776 + }, + { + "epoch": 1.9256666666666666, + "grad_norm": 2.195676326751709, + "learning_rate": 6.84719009242651e-06, + "loss": 0.3327, + "step": 5777 + }, + { + "epoch": 1.9260000000000002, + "grad_norm": 2.608597993850708, + "learning_rate": 6.843509630528977e-06, + "loss": 0.3764, + "step": 5778 + }, + { + "epoch": 1.9263333333333335, + "grad_norm": 2.261298418045044, + "learning_rate": 6.839829643457092e-06, + "loss": 0.3484, + "step": 5779 + }, + { + "epoch": 1.9266666666666667, + "grad_norm": 2.2317662239074707, + "learning_rate": 6.836150131764434e-06, + "loss": 0.3446, + "step": 5780 + }, + { + "epoch": 1.927, + "grad_norm": 2.4526567459106445, + "learning_rate": 6.832471096004505e-06, + "loss": 0.3535, + "step": 5781 + }, + { + "epoch": 1.9273333333333333, + "grad_norm": 2.594057559967041, + "learning_rate": 6.828792536730729e-06, + "loss": 0.341, + "step": 5782 + }, + { + "epoch": 1.9276666666666666, + "grad_norm": 2.667989492416382, + "learning_rate": 6.825114454496471e-06, + "loss": 0.2971, + "step": 5783 + }, + { + "epoch": 1.928, + "grad_norm": 2.776954412460327, + "learning_rate": 6.821436849855023e-06, + "loss": 0.3255, + "step": 5784 + }, + { + "epoch": 1.9283333333333332, + "grad_norm": 2.2365376949310303, + "learning_rate": 6.817759723359594e-06, + "loss": 0.3826, + "step": 5785 + }, + { + "epoch": 1.9286666666666665, + "grad_norm": 2.431884288787842, + "learning_rate": 6.814083075563328e-06, + "loss": 0.3569, + "step": 5786 + }, + { + "epoch": 1.929, + "grad_norm": 2.3628296852111816, + "learning_rate": 6.8104069070193e-06, + "loss": 0.3699, + "step": 5787 + }, + { + "epoch": 1.9293333333333333, + "grad_norm": 2.440586805343628, + "learning_rate": 6.8067312182805135e-06, + "loss": 0.3563, + "step": 5788 + }, + { + "epoch": 1.9296666666666666, + "grad_norm": 3.352154493331909, + "learning_rate": 6.803056009899889e-06, + "loss": 0.3373, + "step": 5789 + }, + { + "epoch": 1.9300000000000002, + "grad_norm": 2.4407565593719482, + "learning_rate": 6.799381282430284e-06, + "loss": 0.4137, + "step": 5790 + }, + { + "epoch": 1.9303333333333335, + "grad_norm": 2.055032730102539, + "learning_rate": 6.7957070364244886e-06, + "loss": 0.3569, + "step": 5791 + }, + { + "epoch": 1.9306666666666668, + "grad_norm": 2.318357229232788, + "learning_rate": 6.792033272435202e-06, + "loss": 0.3654, + "step": 5792 + }, + { + "epoch": 1.931, + "grad_norm": 2.698575258255005, + "learning_rate": 6.78835999101507e-06, + "loss": 0.3523, + "step": 5793 + }, + { + "epoch": 1.9313333333333333, + "grad_norm": 3.935476541519165, + "learning_rate": 6.784687192716658e-06, + "loss": 0.3655, + "step": 5794 + }, + { + "epoch": 1.9316666666666666, + "grad_norm": 3.457667112350464, + "learning_rate": 6.78101487809246e-06, + "loss": 0.3461, + "step": 5795 + }, + { + "epoch": 1.932, + "grad_norm": 3.8804173469543457, + "learning_rate": 6.777343047694891e-06, + "loss": 0.3469, + "step": 5796 + }, + { + "epoch": 1.9323333333333332, + "grad_norm": 2.8910529613494873, + "learning_rate": 6.7736717020763e-06, + "loss": 0.3524, + "step": 5797 + }, + { + "epoch": 1.9326666666666665, + "grad_norm": 3.4441072940826416, + "learning_rate": 6.7700008417889675e-06, + "loss": 0.3149, + "step": 5798 + }, + { + "epoch": 1.933, + "grad_norm": 2.8124029636383057, + "learning_rate": 6.766330467385088e-06, + "loss": 0.3556, + "step": 5799 + }, + { + "epoch": 1.9333333333333333, + "grad_norm": 3.2082011699676514, + "learning_rate": 6.762660579416791e-06, + "loss": 0.3694, + "step": 5800 + }, + { + "epoch": 1.9336666666666666, + "grad_norm": 4.192351818084717, + "learning_rate": 6.758991178436131e-06, + "loss": 0.3563, + "step": 5801 + }, + { + "epoch": 1.9340000000000002, + "grad_norm": 2.6875901222229004, + "learning_rate": 6.755322264995099e-06, + "loss": 0.3269, + "step": 5802 + }, + { + "epoch": 1.9343333333333335, + "grad_norm": 2.2189953327178955, + "learning_rate": 6.751653839645591e-06, + "loss": 0.3732, + "step": 5803 + }, + { + "epoch": 1.9346666666666668, + "grad_norm": 2.72359037399292, + "learning_rate": 6.747985902939449e-06, + "loss": 0.3506, + "step": 5804 + }, + { + "epoch": 1.935, + "grad_norm": 2.701676368713379, + "learning_rate": 6.744318455428436e-06, + "loss": 0.341, + "step": 5805 + }, + { + "epoch": 1.9353333333333333, + "grad_norm": 3.380495071411133, + "learning_rate": 6.740651497664234e-06, + "loss": 0.3556, + "step": 5806 + }, + { + "epoch": 1.9356666666666666, + "grad_norm": 3.382206678390503, + "learning_rate": 6.73698503019846e-06, + "loss": 0.362, + "step": 5807 + }, + { + "epoch": 1.936, + "grad_norm": 2.6506052017211914, + "learning_rate": 6.733319053582659e-06, + "loss": 0.3669, + "step": 5808 + }, + { + "epoch": 1.9363333333333332, + "grad_norm": 2.3430004119873047, + "learning_rate": 6.729653568368295e-06, + "loss": 0.3779, + "step": 5809 + }, + { + "epoch": 1.9366666666666665, + "grad_norm": 2.2559378147125244, + "learning_rate": 6.725988575106757e-06, + "loss": 0.329, + "step": 5810 + }, + { + "epoch": 1.937, + "grad_norm": 2.073637008666992, + "learning_rate": 6.722324074349367e-06, + "loss": 0.3246, + "step": 5811 + }, + { + "epoch": 1.9373333333333334, + "grad_norm": 1.9249424934387207, + "learning_rate": 6.718660066647373e-06, + "loss": 0.3226, + "step": 5812 + }, + { + "epoch": 1.9376666666666666, + "grad_norm": 2.134880304336548, + "learning_rate": 6.714996552551942e-06, + "loss": 0.3751, + "step": 5813 + }, + { + "epoch": 1.938, + "grad_norm": 2.062938928604126, + "learning_rate": 6.711333532614168e-06, + "loss": 0.3304, + "step": 5814 + }, + { + "epoch": 1.9383333333333335, + "grad_norm": 2.2330198287963867, + "learning_rate": 6.707671007385077e-06, + "loss": 0.307, + "step": 5815 + }, + { + "epoch": 1.9386666666666668, + "grad_norm": 1.9641848802566528, + "learning_rate": 6.704008977415619e-06, + "loss": 0.3431, + "step": 5816 + }, + { + "epoch": 1.939, + "grad_norm": 2.465345859527588, + "learning_rate": 6.700347443256661e-06, + "loss": 0.3581, + "step": 5817 + }, + { + "epoch": 1.9393333333333334, + "grad_norm": 2.477250814437866, + "learning_rate": 6.696686405459005e-06, + "loss": 0.3789, + "step": 5818 + }, + { + "epoch": 1.9396666666666667, + "grad_norm": 2.923757791519165, + "learning_rate": 6.693025864573378e-06, + "loss": 0.3864, + "step": 5819 + }, + { + "epoch": 1.94, + "grad_norm": 2.4117093086242676, + "learning_rate": 6.689365821150421e-06, + "loss": 0.345, + "step": 5820 + }, + { + "epoch": 1.9403333333333332, + "grad_norm": 2.3126533031463623, + "learning_rate": 6.685706275740712e-06, + "loss": 0.3798, + "step": 5821 + }, + { + "epoch": 1.9406666666666665, + "grad_norm": 2.312392234802246, + "learning_rate": 6.6820472288947535e-06, + "loss": 0.3606, + "step": 5822 + }, + { + "epoch": 1.9409999999999998, + "grad_norm": 2.0296742916107178, + "learning_rate": 6.67838868116297e-06, + "loss": 0.3333, + "step": 5823 + }, + { + "epoch": 1.9413333333333334, + "grad_norm": 2.7048451900482178, + "learning_rate": 6.674730633095704e-06, + "loss": 0.3826, + "step": 5824 + }, + { + "epoch": 1.9416666666666667, + "grad_norm": 2.8276937007904053, + "learning_rate": 6.671073085243234e-06, + "loss": 0.3783, + "step": 5825 + }, + { + "epoch": 1.942, + "grad_norm": 2.440068244934082, + "learning_rate": 6.667416038155763e-06, + "loss": 0.3487, + "step": 5826 + }, + { + "epoch": 1.9423333333333335, + "grad_norm": 2.2971785068511963, + "learning_rate": 6.663759492383406e-06, + "loss": 0.3572, + "step": 5827 + }, + { + "epoch": 1.9426666666666668, + "grad_norm": 2.0987141132354736, + "learning_rate": 6.660103448476219e-06, + "loss": 0.364, + "step": 5828 + }, + { + "epoch": 1.943, + "grad_norm": 2.038602113723755, + "learning_rate": 6.656447906984168e-06, + "loss": 0.3414, + "step": 5829 + }, + { + "epoch": 1.9433333333333334, + "grad_norm": 2.2090373039245605, + "learning_rate": 6.652792868457159e-06, + "loss": 0.315, + "step": 5830 + }, + { + "epoch": 1.9436666666666667, + "grad_norm": 4.8220906257629395, + "learning_rate": 6.649138333445002e-06, + "loss": 0.3497, + "step": 5831 + }, + { + "epoch": 1.944, + "grad_norm": 1.739748239517212, + "learning_rate": 6.645484302497452e-06, + "loss": 0.3455, + "step": 5832 + }, + { + "epoch": 1.9443333333333332, + "grad_norm": 2.1643965244293213, + "learning_rate": 6.641830776164176e-06, + "loss": 0.3622, + "step": 5833 + }, + { + "epoch": 1.9446666666666665, + "grad_norm": 1.891984224319458, + "learning_rate": 6.638177754994764e-06, + "loss": 0.3083, + "step": 5834 + }, + { + "epoch": 1.9449999999999998, + "grad_norm": 1.99345064163208, + "learning_rate": 6.634525239538736e-06, + "loss": 0.3255, + "step": 5835 + }, + { + "epoch": 1.9453333333333334, + "grad_norm": 2.6533031463623047, + "learning_rate": 6.630873230345538e-06, + "loss": 0.3469, + "step": 5836 + }, + { + "epoch": 1.9456666666666667, + "grad_norm": 3.5561089515686035, + "learning_rate": 6.627221727964535e-06, + "loss": 0.3733, + "step": 5837 + }, + { + "epoch": 1.946, + "grad_norm": 3.1993114948272705, + "learning_rate": 6.623570732945012e-06, + "loss": 0.3115, + "step": 5838 + }, + { + "epoch": 1.9463333333333335, + "grad_norm": 2.0058836936950684, + "learning_rate": 6.619920245836184e-06, + "loss": 0.3182, + "step": 5839 + }, + { + "epoch": 1.9466666666666668, + "grad_norm": 2.180893659591675, + "learning_rate": 6.61627026718719e-06, + "loss": 0.3739, + "step": 5840 + }, + { + "epoch": 1.947, + "grad_norm": 2.2358274459838867, + "learning_rate": 6.612620797547087e-06, + "loss": 0.3529, + "step": 5841 + }, + { + "epoch": 1.9473333333333334, + "grad_norm": 2.114553928375244, + "learning_rate": 6.608971837464862e-06, + "loss": 0.3286, + "step": 5842 + }, + { + "epoch": 1.9476666666666667, + "grad_norm": 3.3894195556640625, + "learning_rate": 6.605323387489418e-06, + "loss": 0.3319, + "step": 5843 + }, + { + "epoch": 1.948, + "grad_norm": 2.04754376411438, + "learning_rate": 6.601675448169591e-06, + "loss": 0.3454, + "step": 5844 + }, + { + "epoch": 1.9483333333333333, + "grad_norm": 2.672422170639038, + "learning_rate": 6.598028020054128e-06, + "loss": 0.2948, + "step": 5845 + }, + { + "epoch": 1.9486666666666665, + "grad_norm": 3.0317258834838867, + "learning_rate": 6.5943811036917105e-06, + "loss": 0.357, + "step": 5846 + }, + { + "epoch": 1.9489999999999998, + "grad_norm": 2.5176339149475098, + "learning_rate": 6.590734699630939e-06, + "loss": 0.3238, + "step": 5847 + }, + { + "epoch": 1.9493333333333334, + "grad_norm": 2.6966826915740967, + "learning_rate": 6.587088808420329e-06, + "loss": 0.3485, + "step": 5848 + }, + { + "epoch": 1.9496666666666667, + "grad_norm": 3.249274730682373, + "learning_rate": 6.58344343060833e-06, + "loss": 0.3357, + "step": 5849 + }, + { + "epoch": 1.95, + "grad_norm": 2.6325292587280273, + "learning_rate": 6.579798566743314e-06, + "loss": 0.3806, + "step": 5850 + }, + { + "epoch": 1.9503333333333335, + "grad_norm": 2.552860975265503, + "learning_rate": 6.576154217373567e-06, + "loss": 0.3858, + "step": 5851 + }, + { + "epoch": 1.9506666666666668, + "grad_norm": 2.4684619903564453, + "learning_rate": 6.5725103830473045e-06, + "loss": 0.3679, + "step": 5852 + }, + { + "epoch": 1.951, + "grad_norm": 1.9556649923324585, + "learning_rate": 6.568867064312661e-06, + "loss": 0.3366, + "step": 5853 + }, + { + "epoch": 1.9513333333333334, + "grad_norm": 2.292102813720703, + "learning_rate": 6.565224261717698e-06, + "loss": 0.3359, + "step": 5854 + }, + { + "epoch": 1.9516666666666667, + "grad_norm": 3.6507461071014404, + "learning_rate": 6.5615819758103915e-06, + "loss": 0.3742, + "step": 5855 + }, + { + "epoch": 1.952, + "grad_norm": 2.194676160812378, + "learning_rate": 6.5579402071386485e-06, + "loss": 0.3617, + "step": 5856 + }, + { + "epoch": 1.9523333333333333, + "grad_norm": 4.133101463317871, + "learning_rate": 6.5542989562502916e-06, + "loss": 0.3689, + "step": 5857 + }, + { + "epoch": 1.9526666666666666, + "grad_norm": 2.873497724533081, + "learning_rate": 6.550658223693072e-06, + "loss": 0.3567, + "step": 5858 + }, + { + "epoch": 1.9529999999999998, + "grad_norm": 2.3436362743377686, + "learning_rate": 6.547018010014654e-06, + "loss": 0.2857, + "step": 5859 + }, + { + "epoch": 1.9533333333333334, + "grad_norm": 2.301193952560425, + "learning_rate": 6.543378315762634e-06, + "loss": 0.3832, + "step": 5860 + }, + { + "epoch": 1.9536666666666667, + "grad_norm": 3.2620182037353516, + "learning_rate": 6.539739141484522e-06, + "loss": 0.3628, + "step": 5861 + }, + { + "epoch": 1.954, + "grad_norm": 2.773494005203247, + "learning_rate": 6.536100487727754e-06, + "loss": 0.2909, + "step": 5862 + }, + { + "epoch": 1.9543333333333335, + "grad_norm": 2.58152437210083, + "learning_rate": 6.532462355039686e-06, + "loss": 0.3044, + "step": 5863 + }, + { + "epoch": 1.9546666666666668, + "grad_norm": 2.1788947582244873, + "learning_rate": 6.528824743967594e-06, + "loss": 0.3785, + "step": 5864 + }, + { + "epoch": 1.955, + "grad_norm": 2.999427318572998, + "learning_rate": 6.525187655058687e-06, + "loss": 0.3332, + "step": 5865 + }, + { + "epoch": 1.9553333333333334, + "grad_norm": 2.078556537628174, + "learning_rate": 6.521551088860079e-06, + "loss": 0.3696, + "step": 5866 + }, + { + "epoch": 1.9556666666666667, + "grad_norm": 3.666177749633789, + "learning_rate": 6.517915045918809e-06, + "loss": 0.3581, + "step": 5867 + }, + { + "epoch": 1.956, + "grad_norm": 2.8111963272094727, + "learning_rate": 6.5142795267818505e-06, + "loss": 0.3327, + "step": 5868 + }, + { + "epoch": 1.9563333333333333, + "grad_norm": 2.5158159732818604, + "learning_rate": 6.51064453199608e-06, + "loss": 0.3911, + "step": 5869 + }, + { + "epoch": 1.9566666666666666, + "grad_norm": 2.8075640201568604, + "learning_rate": 6.50701006210831e-06, + "loss": 0.3413, + "step": 5870 + }, + { + "epoch": 1.9569999999999999, + "grad_norm": 2.304605722427368, + "learning_rate": 6.503376117665262e-06, + "loss": 0.3415, + "step": 5871 + }, + { + "epoch": 1.9573333333333334, + "grad_norm": 2.472468137741089, + "learning_rate": 6.499742699213593e-06, + "loss": 0.3446, + "step": 5872 + }, + { + "epoch": 1.9576666666666667, + "grad_norm": 2.7798993587493896, + "learning_rate": 6.4961098072998616e-06, + "loss": 0.3458, + "step": 5873 + }, + { + "epoch": 1.958, + "grad_norm": 3.222255229949951, + "learning_rate": 6.492477442470566e-06, + "loss": 0.3544, + "step": 5874 + }, + { + "epoch": 1.9583333333333335, + "grad_norm": 2.1333017349243164, + "learning_rate": 6.488845605272114e-06, + "loss": 0.3818, + "step": 5875 + }, + { + "epoch": 1.9586666666666668, + "grad_norm": 2.6546308994293213, + "learning_rate": 6.485214296250836e-06, + "loss": 0.3584, + "step": 5876 + }, + { + "epoch": 1.959, + "grad_norm": 2.096511125564575, + "learning_rate": 6.481583515952983e-06, + "loss": 0.3386, + "step": 5877 + }, + { + "epoch": 1.9593333333333334, + "grad_norm": 2.100632429122925, + "learning_rate": 6.477953264924728e-06, + "loss": 0.3833, + "step": 5878 + }, + { + "epoch": 1.9596666666666667, + "grad_norm": 2.9546351432800293, + "learning_rate": 6.474323543712169e-06, + "loss": 0.4083, + "step": 5879 + }, + { + "epoch": 1.96, + "grad_norm": 3.056872606277466, + "learning_rate": 6.4706943528613135e-06, + "loss": 0.3351, + "step": 5880 + }, + { + "epoch": 1.9603333333333333, + "grad_norm": 2.6093571186065674, + "learning_rate": 6.467065692918093e-06, + "loss": 0.3426, + "step": 5881 + }, + { + "epoch": 1.9606666666666666, + "grad_norm": 2.0812106132507324, + "learning_rate": 6.4634375644283676e-06, + "loss": 0.3175, + "step": 5882 + }, + { + "epoch": 1.9609999999999999, + "grad_norm": 2.4505748748779297, + "learning_rate": 6.4598099679379024e-06, + "loss": 0.3837, + "step": 5883 + }, + { + "epoch": 1.9613333333333334, + "grad_norm": 3.171400785446167, + "learning_rate": 6.456182903992396e-06, + "loss": 0.3258, + "step": 5884 + }, + { + "epoch": 1.9616666666666667, + "grad_norm": 2.558333396911621, + "learning_rate": 6.45255637313746e-06, + "loss": 0.4078, + "step": 5885 + }, + { + "epoch": 1.962, + "grad_norm": 2.4060287475585938, + "learning_rate": 6.448930375918632e-06, + "loss": 0.3388, + "step": 5886 + }, + { + "epoch": 1.9623333333333335, + "grad_norm": 2.4234659671783447, + "learning_rate": 6.445304912881357e-06, + "loss": 0.3631, + "step": 5887 + }, + { + "epoch": 1.9626666666666668, + "grad_norm": 2.452002763748169, + "learning_rate": 6.441679984571011e-06, + "loss": 0.3423, + "step": 5888 + }, + { + "epoch": 1.963, + "grad_norm": 3.016340970993042, + "learning_rate": 6.43805559153289e-06, + "loss": 0.3858, + "step": 5889 + }, + { + "epoch": 1.9633333333333334, + "grad_norm": 3.7162222862243652, + "learning_rate": 6.434431734312201e-06, + "loss": 0.3668, + "step": 5890 + }, + { + "epoch": 1.9636666666666667, + "grad_norm": 2.7475056648254395, + "learning_rate": 6.4308084134540734e-06, + "loss": 0.3547, + "step": 5891 + }, + { + "epoch": 1.964, + "grad_norm": 2.4359426498413086, + "learning_rate": 6.427185629503561e-06, + "loss": 0.3469, + "step": 5892 + }, + { + "epoch": 1.9643333333333333, + "grad_norm": 2.251882553100586, + "learning_rate": 6.423563383005633e-06, + "loss": 0.383, + "step": 5893 + }, + { + "epoch": 1.9646666666666666, + "grad_norm": 2.15497088432312, + "learning_rate": 6.419941674505177e-06, + "loss": 0.371, + "step": 5894 + }, + { + "epoch": 1.9649999999999999, + "grad_norm": 2.1273350715637207, + "learning_rate": 6.4163205045469975e-06, + "loss": 0.362, + "step": 5895 + }, + { + "epoch": 1.9653333333333334, + "grad_norm": 2.533719778060913, + "learning_rate": 6.412699873675829e-06, + "loss": 0.3177, + "step": 5896 + }, + { + "epoch": 1.9656666666666667, + "grad_norm": 2.3301639556884766, + "learning_rate": 6.409079782436308e-06, + "loss": 0.3458, + "step": 5897 + }, + { + "epoch": 1.966, + "grad_norm": 3.004455327987671, + "learning_rate": 6.405460231373003e-06, + "loss": 0.3348, + "step": 5898 + }, + { + "epoch": 1.9663333333333335, + "grad_norm": 2.790844202041626, + "learning_rate": 6.401841221030399e-06, + "loss": 0.3561, + "step": 5899 + }, + { + "epoch": 1.9666666666666668, + "grad_norm": 2.4993414878845215, + "learning_rate": 6.3982227519528986e-06, + "loss": 0.3734, + "step": 5900 + }, + { + "epoch": 1.967, + "grad_norm": 3.104717254638672, + "learning_rate": 6.394604824684815e-06, + "loss": 0.3358, + "step": 5901 + }, + { + "epoch": 1.9673333333333334, + "grad_norm": 2.601370334625244, + "learning_rate": 6.390987439770392e-06, + "loss": 0.3799, + "step": 5902 + }, + { + "epoch": 1.9676666666666667, + "grad_norm": 2.982483386993408, + "learning_rate": 6.387370597753791e-06, + "loss": 0.3616, + "step": 5903 + }, + { + "epoch": 1.968, + "grad_norm": 2.9781408309936523, + "learning_rate": 6.383754299179079e-06, + "loss": 0.3414, + "step": 5904 + }, + { + "epoch": 1.9683333333333333, + "grad_norm": 2.4388253688812256, + "learning_rate": 6.380138544590253e-06, + "loss": 0.3612, + "step": 5905 + }, + { + "epoch": 1.9686666666666666, + "grad_norm": 2.6805317401885986, + "learning_rate": 6.376523334531226e-06, + "loss": 0.3057, + "step": 5906 + }, + { + "epoch": 1.9689999999999999, + "grad_norm": 2.9432685375213623, + "learning_rate": 6.372908669545832e-06, + "loss": 0.3318, + "step": 5907 + }, + { + "epoch": 1.9693333333333334, + "grad_norm": 2.1496458053588867, + "learning_rate": 6.3692945501778135e-06, + "loss": 0.3319, + "step": 5908 + }, + { + "epoch": 1.9696666666666667, + "grad_norm": 2.1557250022888184, + "learning_rate": 6.3656809769708365e-06, + "loss": 0.3122, + "step": 5909 + }, + { + "epoch": 1.97, + "grad_norm": 2.7627058029174805, + "learning_rate": 6.362067950468489e-06, + "loss": 0.3294, + "step": 5910 + }, + { + "epoch": 1.9703333333333335, + "grad_norm": 2.457094669342041, + "learning_rate": 6.3584554712142664e-06, + "loss": 0.3635, + "step": 5911 + }, + { + "epoch": 1.9706666666666668, + "grad_norm": 2.816606283187866, + "learning_rate": 6.354843539751592e-06, + "loss": 0.3198, + "step": 5912 + }, + { + "epoch": 1.971, + "grad_norm": 2.053891181945801, + "learning_rate": 6.351232156623803e-06, + "loss": 0.3335, + "step": 5913 + }, + { + "epoch": 1.9713333333333334, + "grad_norm": 2.5404162406921387, + "learning_rate": 6.347621322374158e-06, + "loss": 0.3494, + "step": 5914 + }, + { + "epoch": 1.9716666666666667, + "grad_norm": 2.7754709720611572, + "learning_rate": 6.3440110375458186e-06, + "loss": 0.3715, + "step": 5915 + }, + { + "epoch": 1.972, + "grad_norm": 2.7079274654388428, + "learning_rate": 6.340401302681879e-06, + "loss": 0.3251, + "step": 5916 + }, + { + "epoch": 1.9723333333333333, + "grad_norm": 2.731116533279419, + "learning_rate": 6.33679211832535e-06, + "loss": 0.3415, + "step": 5917 + }, + { + "epoch": 1.9726666666666666, + "grad_norm": 2.433122396469116, + "learning_rate": 6.33318348501915e-06, + "loss": 0.3738, + "step": 5918 + }, + { + "epoch": 1.9729999999999999, + "grad_norm": 2.695558547973633, + "learning_rate": 6.3295754033061196e-06, + "loss": 0.3642, + "step": 5919 + }, + { + "epoch": 1.9733333333333334, + "grad_norm": 2.707301378250122, + "learning_rate": 6.3259678737290174e-06, + "loss": 0.3561, + "step": 5920 + }, + { + "epoch": 1.9736666666666667, + "grad_norm": 2.424834728240967, + "learning_rate": 6.322360896830524e-06, + "loss": 0.3556, + "step": 5921 + }, + { + "epoch": 1.974, + "grad_norm": 3.031911611557007, + "learning_rate": 6.318754473153221e-06, + "loss": 0.3011, + "step": 5922 + }, + { + "epoch": 1.9743333333333335, + "grad_norm": 2.5191776752471924, + "learning_rate": 6.315148603239624e-06, + "loss": 0.3448, + "step": 5923 + }, + { + "epoch": 1.9746666666666668, + "grad_norm": 2.708308219909668, + "learning_rate": 6.311543287632158e-06, + "loss": 0.388, + "step": 5924 + }, + { + "epoch": 1.975, + "grad_norm": 2.127868890762329, + "learning_rate": 6.3079385268731575e-06, + "loss": 0.3608, + "step": 5925 + }, + { + "epoch": 1.9753333333333334, + "grad_norm": 2.4747610092163086, + "learning_rate": 6.304334321504886e-06, + "loss": 0.3033, + "step": 5926 + }, + { + "epoch": 1.9756666666666667, + "grad_norm": 2.6710593700408936, + "learning_rate": 6.300730672069519e-06, + "loss": 0.365, + "step": 5927 + }, + { + "epoch": 1.976, + "grad_norm": 3.52089524269104, + "learning_rate": 6.29712757910915e-06, + "loss": 0.3165, + "step": 5928 + }, + { + "epoch": 1.9763333333333333, + "grad_norm": 2.5838401317596436, + "learning_rate": 6.293525043165778e-06, + "loss": 0.3185, + "step": 5929 + }, + { + "epoch": 1.9766666666666666, + "grad_norm": 2.2758851051330566, + "learning_rate": 6.2899230647813315e-06, + "loss": 0.3651, + "step": 5930 + }, + { + "epoch": 1.9769999999999999, + "grad_norm": 3.5719001293182373, + "learning_rate": 6.286321644497655e-06, + "loss": 0.3582, + "step": 5931 + }, + { + "epoch": 1.9773333333333334, + "grad_norm": 2.579975128173828, + "learning_rate": 6.282720782856495e-06, + "loss": 0.2921, + "step": 5932 + }, + { + "epoch": 1.9776666666666667, + "grad_norm": 2.159362316131592, + "learning_rate": 6.279120480399526e-06, + "loss": 0.3333, + "step": 5933 + }, + { + "epoch": 1.978, + "grad_norm": 1.9006069898605347, + "learning_rate": 6.275520737668338e-06, + "loss": 0.3405, + "step": 5934 + }, + { + "epoch": 1.9783333333333335, + "grad_norm": 2.0546061992645264, + "learning_rate": 6.271921555204437e-06, + "loss": 0.3216, + "step": 5935 + }, + { + "epoch": 1.9786666666666668, + "grad_norm": 2.1718521118164062, + "learning_rate": 6.268322933549234e-06, + "loss": 0.3425, + "step": 5936 + }, + { + "epoch": 1.979, + "grad_norm": 2.762294292449951, + "learning_rate": 6.26472487324407e-06, + "loss": 0.3515, + "step": 5937 + }, + { + "epoch": 1.9793333333333334, + "grad_norm": 2.420114755630493, + "learning_rate": 6.261127374830196e-06, + "loss": 0.3522, + "step": 5938 + }, + { + "epoch": 1.9796666666666667, + "grad_norm": 2.2018496990203857, + "learning_rate": 6.257530438848771e-06, + "loss": 0.3421, + "step": 5939 + }, + { + "epoch": 1.98, + "grad_norm": 2.1334493160247803, + "learning_rate": 6.25393406584088e-06, + "loss": 0.3617, + "step": 5940 + }, + { + "epoch": 1.9803333333333333, + "grad_norm": 2.491694688796997, + "learning_rate": 6.2503382563475215e-06, + "loss": 0.3566, + "step": 5941 + }, + { + "epoch": 1.9806666666666666, + "grad_norm": 2.4020979404449463, + "learning_rate": 6.246743010909608e-06, + "loss": 0.3523, + "step": 5942 + }, + { + "epoch": 1.9809999999999999, + "grad_norm": 2.7803735733032227, + "learning_rate": 6.243148330067961e-06, + "loss": 0.376, + "step": 5943 + }, + { + "epoch": 1.9813333333333332, + "grad_norm": 2.6631743907928467, + "learning_rate": 6.2395542143633234e-06, + "loss": 0.3748, + "step": 5944 + }, + { + "epoch": 1.9816666666666667, + "grad_norm": 3.5306789875030518, + "learning_rate": 6.235960664336359e-06, + "loss": 0.3424, + "step": 5945 + }, + { + "epoch": 1.982, + "grad_norm": 2.696218252182007, + "learning_rate": 6.2323676805276315e-06, + "loss": 0.3789, + "step": 5946 + }, + { + "epoch": 1.9823333333333333, + "grad_norm": 2.426495313644409, + "learning_rate": 6.228775263477631e-06, + "loss": 0.3687, + "step": 5947 + }, + { + "epoch": 1.9826666666666668, + "grad_norm": 2.7003653049468994, + "learning_rate": 6.225183413726757e-06, + "loss": 0.3778, + "step": 5948 + }, + { + "epoch": 1.983, + "grad_norm": 2.0808939933776855, + "learning_rate": 6.22159213181533e-06, + "loss": 0.3482, + "step": 5949 + }, + { + "epoch": 1.9833333333333334, + "grad_norm": 2.1382596492767334, + "learning_rate": 6.218001418283577e-06, + "loss": 0.3372, + "step": 5950 + }, + { + "epoch": 1.9836666666666667, + "grad_norm": 2.3212313652038574, + "learning_rate": 6.214411273671644e-06, + "loss": 0.3293, + "step": 5951 + }, + { + "epoch": 1.984, + "grad_norm": 2.716639518737793, + "learning_rate": 6.210821698519592e-06, + "loss": 0.348, + "step": 5952 + }, + { + "epoch": 1.9843333333333333, + "grad_norm": 2.9665324687957764, + "learning_rate": 6.207232693367389e-06, + "loss": 0.3729, + "step": 5953 + }, + { + "epoch": 1.9846666666666666, + "grad_norm": 3.0113003253936768, + "learning_rate": 6.203644258754927e-06, + "loss": 0.3521, + "step": 5954 + }, + { + "epoch": 1.9849999999999999, + "grad_norm": 2.347224473953247, + "learning_rate": 6.200056395222012e-06, + "loss": 0.3207, + "step": 5955 + }, + { + "epoch": 1.9853333333333332, + "grad_norm": 2.148651361465454, + "learning_rate": 6.196469103308356e-06, + "loss": 0.3292, + "step": 5956 + }, + { + "epoch": 1.9856666666666667, + "grad_norm": 2.3516297340393066, + "learning_rate": 6.192882383553591e-06, + "loss": 0.3739, + "step": 5957 + }, + { + "epoch": 1.986, + "grad_norm": 2.5816526412963867, + "learning_rate": 6.18929623649726e-06, + "loss": 0.3646, + "step": 5958 + }, + { + "epoch": 1.9863333333333333, + "grad_norm": 2.359983444213867, + "learning_rate": 6.185710662678825e-06, + "loss": 0.3359, + "step": 5959 + }, + { + "epoch": 1.9866666666666668, + "grad_norm": 2.322126626968384, + "learning_rate": 6.18212566263765e-06, + "loss": 0.3319, + "step": 5960 + }, + { + "epoch": 1.987, + "grad_norm": 2.2193031311035156, + "learning_rate": 6.178541236913029e-06, + "loss": 0.3523, + "step": 5961 + }, + { + "epoch": 1.9873333333333334, + "grad_norm": 3.1382534503936768, + "learning_rate": 6.174957386044156e-06, + "loss": 0.3375, + "step": 5962 + }, + { + "epoch": 1.9876666666666667, + "grad_norm": 2.4181604385375977, + "learning_rate": 6.17137411057015e-06, + "loss": 0.3556, + "step": 5963 + }, + { + "epoch": 1.988, + "grad_norm": 2.4461052417755127, + "learning_rate": 6.167791411030027e-06, + "loss": 0.3485, + "step": 5964 + }, + { + "epoch": 1.9883333333333333, + "grad_norm": 2.926201820373535, + "learning_rate": 6.1642092879627365e-06, + "loss": 0.3243, + "step": 5965 + }, + { + "epoch": 1.9886666666666666, + "grad_norm": 2.350299596786499, + "learning_rate": 6.1606277419071245e-06, + "loss": 0.3426, + "step": 5966 + }, + { + "epoch": 1.9889999999999999, + "grad_norm": 2.692614793777466, + "learning_rate": 6.157046773401964e-06, + "loss": 0.3376, + "step": 5967 + }, + { + "epoch": 1.9893333333333332, + "grad_norm": 2.069979429244995, + "learning_rate": 6.1534663829859276e-06, + "loss": 0.3736, + "step": 5968 + }, + { + "epoch": 1.9896666666666667, + "grad_norm": 2.7170569896698, + "learning_rate": 6.149886571197611e-06, + "loss": 0.3669, + "step": 5969 + }, + { + "epoch": 1.99, + "grad_norm": 3.154858112335205, + "learning_rate": 6.146307338575519e-06, + "loss": 0.3372, + "step": 5970 + }, + { + "epoch": 1.9903333333333333, + "grad_norm": 3.5226638317108154, + "learning_rate": 6.142728685658068e-06, + "loss": 0.347, + "step": 5971 + }, + { + "epoch": 1.9906666666666668, + "grad_norm": 2.6311912536621094, + "learning_rate": 6.139150612983589e-06, + "loss": 0.3376, + "step": 5972 + }, + { + "epoch": 1.991, + "grad_norm": 2.340747117996216, + "learning_rate": 6.135573121090327e-06, + "loss": 0.3334, + "step": 5973 + }, + { + "epoch": 1.9913333333333334, + "grad_norm": 2.2838735580444336, + "learning_rate": 6.131996210516442e-06, + "loss": 0.3038, + "step": 5974 + }, + { + "epoch": 1.9916666666666667, + "grad_norm": 3.0832877159118652, + "learning_rate": 6.1284198817999964e-06, + "loss": 0.3478, + "step": 5975 + }, + { + "epoch": 1.992, + "grad_norm": 2.433070659637451, + "learning_rate": 6.124844135478971e-06, + "loss": 0.3435, + "step": 5976 + }, + { + "epoch": 1.9923333333333333, + "grad_norm": 2.9942479133605957, + "learning_rate": 6.121268972091265e-06, + "loss": 0.3462, + "step": 5977 + }, + { + "epoch": 1.9926666666666666, + "grad_norm": 2.344801902770996, + "learning_rate": 6.11769439217468e-06, + "loss": 0.3245, + "step": 5978 + }, + { + "epoch": 1.9929999999999999, + "grad_norm": 2.4848790168762207, + "learning_rate": 6.114120396266936e-06, + "loss": 0.2936, + "step": 5979 + }, + { + "epoch": 1.9933333333333332, + "grad_norm": 2.257791042327881, + "learning_rate": 6.110546984905661e-06, + "loss": 0.3528, + "step": 5980 + }, + { + "epoch": 1.9936666666666667, + "grad_norm": 2.405048370361328, + "learning_rate": 6.106974158628405e-06, + "loss": 0.3385, + "step": 5981 + }, + { + "epoch": 1.994, + "grad_norm": 3.139634847640991, + "learning_rate": 6.1034019179726115e-06, + "loss": 0.3398, + "step": 5982 + }, + { + "epoch": 1.9943333333333333, + "grad_norm": 2.574254035949707, + "learning_rate": 6.099830263475651e-06, + "loss": 0.3411, + "step": 5983 + }, + { + "epoch": 1.9946666666666668, + "grad_norm": 3.464691638946533, + "learning_rate": 6.096259195674807e-06, + "loss": 0.3192, + "step": 5984 + }, + { + "epoch": 1.995, + "grad_norm": 3.0301592350006104, + "learning_rate": 6.092688715107265e-06, + "loss": 0.3709, + "step": 5985 + }, + { + "epoch": 1.9953333333333334, + "grad_norm": 2.7343966960906982, + "learning_rate": 6.089118822310123e-06, + "loss": 0.3233, + "step": 5986 + }, + { + "epoch": 1.9956666666666667, + "grad_norm": 2.7787511348724365, + "learning_rate": 6.0855495178203975e-06, + "loss": 0.345, + "step": 5987 + }, + { + "epoch": 1.996, + "grad_norm": 2.4025421142578125, + "learning_rate": 6.081980802175016e-06, + "loss": 0.3449, + "step": 5988 + }, + { + "epoch": 1.9963333333333333, + "grad_norm": 2.515866756439209, + "learning_rate": 6.078412675910812e-06, + "loss": 0.3352, + "step": 5989 + }, + { + "epoch": 1.9966666666666666, + "grad_norm": 2.1986351013183594, + "learning_rate": 6.074845139564529e-06, + "loss": 0.328, + "step": 5990 + }, + { + "epoch": 1.9969999999999999, + "grad_norm": 2.552824020385742, + "learning_rate": 6.071278193672834e-06, + "loss": 0.318, + "step": 5991 + }, + { + "epoch": 1.9973333333333332, + "grad_norm": 2.4577560424804688, + "learning_rate": 6.067711838772287e-06, + "loss": 0.3184, + "step": 5992 + }, + { + "epoch": 1.9976666666666667, + "grad_norm": 2.576903820037842, + "learning_rate": 6.064146075399373e-06, + "loss": 0.3387, + "step": 5993 + }, + { + "epoch": 1.998, + "grad_norm": 2.1293296813964844, + "learning_rate": 6.06058090409049e-06, + "loss": 0.3245, + "step": 5994 + }, + { + "epoch": 1.9983333333333333, + "grad_norm": 2.9006781578063965, + "learning_rate": 6.057016325381934e-06, + "loss": 0.3728, + "step": 5995 + }, + { + "epoch": 1.9986666666666668, + "grad_norm": 3.1404426097869873, + "learning_rate": 6.053452339809917e-06, + "loss": 0.3542, + "step": 5996 + }, + { + "epoch": 1.999, + "grad_norm": 2.634274482727051, + "learning_rate": 6.049888947910569e-06, + "loss": 0.3365, + "step": 5997 + }, + { + "epoch": 1.9993333333333334, + "grad_norm": 2.930957317352295, + "learning_rate": 6.0463261502199256e-06, + "loss": 0.3979, + "step": 5998 + }, + { + "epoch": 1.9996666666666667, + "grad_norm": 2.5582244396209717, + "learning_rate": 6.0427639472739285e-06, + "loss": 0.3656, + "step": 5999 + }, + { + "epoch": 2.0, + "grad_norm": 2.6003642082214355, + "learning_rate": 6.039202339608432e-06, + "loss": 0.3392, + "step": 6000 + }, + { + "epoch": 2.0003333333333333, + "grad_norm": 1.9653325080871582, + "learning_rate": 6.0356413277592074e-06, + "loss": 0.3082, + "step": 6001 + }, + { + "epoch": 2.0006666666666666, + "grad_norm": 2.128626585006714, + "learning_rate": 6.032080912261935e-06, + "loss": 0.3481, + "step": 6002 + }, + { + "epoch": 2.001, + "grad_norm": 2.0981175899505615, + "learning_rate": 6.028521093652195e-06, + "loss": 0.3405, + "step": 6003 + }, + { + "epoch": 2.001333333333333, + "grad_norm": 2.2308778762817383, + "learning_rate": 6.024961872465488e-06, + "loss": 0.3631, + "step": 6004 + }, + { + "epoch": 2.0016666666666665, + "grad_norm": 2.5678203105926514, + "learning_rate": 6.021403249237224e-06, + "loss": 0.3662, + "step": 6005 + }, + { + "epoch": 2.002, + "grad_norm": 2.4903883934020996, + "learning_rate": 6.0178452245027165e-06, + "loss": 0.3602, + "step": 6006 + }, + { + "epoch": 2.0023333333333335, + "grad_norm": 2.1321327686309814, + "learning_rate": 6.014287798797194e-06, + "loss": 0.3004, + "step": 6007 + }, + { + "epoch": 2.002666666666667, + "grad_norm": 2.450126886367798, + "learning_rate": 6.010730972655798e-06, + "loss": 0.3134, + "step": 6008 + }, + { + "epoch": 2.003, + "grad_norm": 2.32597279548645, + "learning_rate": 6.007174746613576e-06, + "loss": 0.3124, + "step": 6009 + }, + { + "epoch": 2.0033333333333334, + "grad_norm": 2.254140615463257, + "learning_rate": 6.00361912120548e-06, + "loss": 0.3153, + "step": 6010 + }, + { + "epoch": 2.0036666666666667, + "grad_norm": 2.040235757827759, + "learning_rate": 6.000064096966378e-06, + "loss": 0.3194, + "step": 6011 + }, + { + "epoch": 2.004, + "grad_norm": 2.065810203552246, + "learning_rate": 5.996509674431053e-06, + "loss": 0.3573, + "step": 6012 + }, + { + "epoch": 2.0043333333333333, + "grad_norm": 2.146749496459961, + "learning_rate": 5.992955854134184e-06, + "loss": 0.2908, + "step": 6013 + }, + { + "epoch": 2.0046666666666666, + "grad_norm": 2.232659339904785, + "learning_rate": 5.9894026366103665e-06, + "loss": 0.3353, + "step": 6014 + }, + { + "epoch": 2.005, + "grad_norm": 3.1567883491516113, + "learning_rate": 5.9858500223941066e-06, + "loss": 0.3573, + "step": 6015 + }, + { + "epoch": 2.005333333333333, + "grad_norm": 2.5326383113861084, + "learning_rate": 5.982298012019823e-06, + "loss": 0.359, + "step": 6016 + }, + { + "epoch": 2.0056666666666665, + "grad_norm": 2.9069182872772217, + "learning_rate": 5.978746606021832e-06, + "loss": 0.35, + "step": 6017 + }, + { + "epoch": 2.006, + "grad_norm": 2.782893657684326, + "learning_rate": 5.975195804934369e-06, + "loss": 0.3431, + "step": 6018 + }, + { + "epoch": 2.0063333333333335, + "grad_norm": 2.9325196743011475, + "learning_rate": 5.971645609291576e-06, + "loss": 0.3307, + "step": 6019 + }, + { + "epoch": 2.006666666666667, + "grad_norm": 2.009209632873535, + "learning_rate": 5.9680960196274995e-06, + "loss": 0.3123, + "step": 6020 + }, + { + "epoch": 2.007, + "grad_norm": 2.621558666229248, + "learning_rate": 5.9645470364761e-06, + "loss": 0.3196, + "step": 6021 + }, + { + "epoch": 2.0073333333333334, + "grad_norm": 2.4929628372192383, + "learning_rate": 5.960998660371247e-06, + "loss": 0.365, + "step": 6022 + }, + { + "epoch": 2.0076666666666667, + "grad_norm": 2.6164944171905518, + "learning_rate": 5.957450891846717e-06, + "loss": 0.3312, + "step": 6023 + }, + { + "epoch": 2.008, + "grad_norm": 2.6786680221557617, + "learning_rate": 5.953903731436191e-06, + "loss": 0.339, + "step": 6024 + }, + { + "epoch": 2.0083333333333333, + "grad_norm": 2.7226386070251465, + "learning_rate": 5.950357179673264e-06, + "loss": 0.357, + "step": 6025 + }, + { + "epoch": 2.0086666666666666, + "grad_norm": 2.563469409942627, + "learning_rate": 5.9468112370914435e-06, + "loss": 0.3304, + "step": 6026 + }, + { + "epoch": 2.009, + "grad_norm": 4.447580814361572, + "learning_rate": 5.943265904224133e-06, + "loss": 0.3727, + "step": 6027 + }, + { + "epoch": 2.009333333333333, + "grad_norm": 2.3838109970092773, + "learning_rate": 5.939721181604652e-06, + "loss": 0.3596, + "step": 6028 + }, + { + "epoch": 2.0096666666666665, + "grad_norm": 3.261134147644043, + "learning_rate": 5.936177069766227e-06, + "loss": 0.3233, + "step": 6029 + }, + { + "epoch": 2.01, + "grad_norm": 2.826007604598999, + "learning_rate": 5.932633569242e-06, + "loss": 0.3502, + "step": 6030 + }, + { + "epoch": 2.0103333333333335, + "grad_norm": 2.8273608684539795, + "learning_rate": 5.929090680565004e-06, + "loss": 0.3186, + "step": 6031 + }, + { + "epoch": 2.010666666666667, + "grad_norm": 3.4125325679779053, + "learning_rate": 5.925548404268196e-06, + "loss": 0.3346, + "step": 6032 + }, + { + "epoch": 2.011, + "grad_norm": 2.2861411571502686, + "learning_rate": 5.922006740884436e-06, + "loss": 0.2952, + "step": 6033 + }, + { + "epoch": 2.0113333333333334, + "grad_norm": 2.4974043369293213, + "learning_rate": 5.918465690946485e-06, + "loss": 0.3167, + "step": 6034 + }, + { + "epoch": 2.0116666666666667, + "grad_norm": 2.6506288051605225, + "learning_rate": 5.914925254987018e-06, + "loss": 0.3441, + "step": 6035 + }, + { + "epoch": 2.012, + "grad_norm": 3.2917091846466064, + "learning_rate": 5.911385433538621e-06, + "loss": 0.3424, + "step": 6036 + }, + { + "epoch": 2.0123333333333333, + "grad_norm": 2.057335138320923, + "learning_rate": 5.907846227133784e-06, + "loss": 0.2865, + "step": 6037 + }, + { + "epoch": 2.0126666666666666, + "grad_norm": 2.148505449295044, + "learning_rate": 5.904307636304899e-06, + "loss": 0.3378, + "step": 6038 + }, + { + "epoch": 2.013, + "grad_norm": 2.2483792304992676, + "learning_rate": 5.900769661584273e-06, + "loss": 0.3006, + "step": 6039 + }, + { + "epoch": 2.013333333333333, + "grad_norm": 2.474740982055664, + "learning_rate": 5.89723230350412e-06, + "loss": 0.3558, + "step": 6040 + }, + { + "epoch": 2.0136666666666665, + "grad_norm": 2.4406161308288574, + "learning_rate": 5.893695562596553e-06, + "loss": 0.2945, + "step": 6041 + }, + { + "epoch": 2.014, + "grad_norm": 2.1670875549316406, + "learning_rate": 5.890159439393604e-06, + "loss": 0.3199, + "step": 6042 + }, + { + "epoch": 2.0143333333333335, + "grad_norm": 2.634962797164917, + "learning_rate": 5.886623934427202e-06, + "loss": 0.2926, + "step": 6043 + }, + { + "epoch": 2.014666666666667, + "grad_norm": 2.5571203231811523, + "learning_rate": 5.883089048229193e-06, + "loss": 0.3261, + "step": 6044 + }, + { + "epoch": 2.015, + "grad_norm": 2.2582294940948486, + "learning_rate": 5.879554781331317e-06, + "loss": 0.3586, + "step": 6045 + }, + { + "epoch": 2.0153333333333334, + "grad_norm": 2.621598958969116, + "learning_rate": 5.876021134265233e-06, + "loss": 0.2792, + "step": 6046 + }, + { + "epoch": 2.0156666666666667, + "grad_norm": 3.6122004985809326, + "learning_rate": 5.872488107562502e-06, + "loss": 0.3187, + "step": 6047 + }, + { + "epoch": 2.016, + "grad_norm": 2.5740182399749756, + "learning_rate": 5.868955701754584e-06, + "loss": 0.3521, + "step": 6048 + }, + { + "epoch": 2.0163333333333333, + "grad_norm": 2.510537624359131, + "learning_rate": 5.865423917372859e-06, + "loss": 0.3305, + "step": 6049 + }, + { + "epoch": 2.0166666666666666, + "grad_norm": 2.5031583309173584, + "learning_rate": 5.8618927549486095e-06, + "loss": 0.3178, + "step": 6050 + }, + { + "epoch": 2.017, + "grad_norm": 2.0058562755584717, + "learning_rate": 5.858362215013018e-06, + "loss": 0.2916, + "step": 6051 + }, + { + "epoch": 2.017333333333333, + "grad_norm": 4.246352672576904, + "learning_rate": 5.854832298097182e-06, + "loss": 0.3285, + "step": 6052 + }, + { + "epoch": 2.0176666666666665, + "grad_norm": 3.6149561405181885, + "learning_rate": 5.851303004732095e-06, + "loss": 0.3616, + "step": 6053 + }, + { + "epoch": 2.018, + "grad_norm": 2.958402633666992, + "learning_rate": 5.847774335448671e-06, + "loss": 0.3437, + "step": 6054 + }, + { + "epoch": 2.0183333333333335, + "grad_norm": 2.3972725868225098, + "learning_rate": 5.844246290777713e-06, + "loss": 0.2891, + "step": 6055 + }, + { + "epoch": 2.018666666666667, + "grad_norm": 2.284438133239746, + "learning_rate": 5.840718871249945e-06, + "loss": 0.3314, + "step": 6056 + }, + { + "epoch": 2.019, + "grad_norm": 3.445800542831421, + "learning_rate": 5.83719207739599e-06, + "loss": 0.3216, + "step": 6057 + }, + { + "epoch": 2.0193333333333334, + "grad_norm": 7.027379989624023, + "learning_rate": 5.8336659097463746e-06, + "loss": 0.3336, + "step": 6058 + }, + { + "epoch": 2.0196666666666667, + "grad_norm": 2.3160400390625, + "learning_rate": 5.830140368831541e-06, + "loss": 0.3256, + "step": 6059 + }, + { + "epoch": 2.02, + "grad_norm": 2.57999324798584, + "learning_rate": 5.8266154551818225e-06, + "loss": 0.3373, + "step": 6060 + }, + { + "epoch": 2.0203333333333333, + "grad_norm": 3.021900177001953, + "learning_rate": 5.823091169327473e-06, + "loss": 0.3104, + "step": 6061 + }, + { + "epoch": 2.0206666666666666, + "grad_norm": 2.2501189708709717, + "learning_rate": 5.819567511798638e-06, + "loss": 0.3349, + "step": 6062 + }, + { + "epoch": 2.021, + "grad_norm": 3.7525484561920166, + "learning_rate": 5.816044483125381e-06, + "loss": 0.3266, + "step": 6063 + }, + { + "epoch": 2.021333333333333, + "grad_norm": 3.0531656742095947, + "learning_rate": 5.812522083837662e-06, + "loss": 0.3319, + "step": 6064 + }, + { + "epoch": 2.0216666666666665, + "grad_norm": 2.390275239944458, + "learning_rate": 5.809000314465356e-06, + "loss": 0.3512, + "step": 6065 + }, + { + "epoch": 2.022, + "grad_norm": 2.885456085205078, + "learning_rate": 5.8054791755382286e-06, + "loss": 0.325, + "step": 6066 + }, + { + "epoch": 2.0223333333333335, + "grad_norm": 2.8243706226348877, + "learning_rate": 5.801958667585967e-06, + "loss": 0.3539, + "step": 6067 + }, + { + "epoch": 2.022666666666667, + "grad_norm": 3.527907609939575, + "learning_rate": 5.79843879113815e-06, + "loss": 0.3455, + "step": 6068 + }, + { + "epoch": 2.023, + "grad_norm": 2.8548030853271484, + "learning_rate": 5.7949195467242654e-06, + "loss": 0.3279, + "step": 6069 + }, + { + "epoch": 2.0233333333333334, + "grad_norm": 2.478156566619873, + "learning_rate": 5.79140093487371e-06, + "loss": 0.3214, + "step": 6070 + }, + { + "epoch": 2.0236666666666667, + "grad_norm": 2.2862958908081055, + "learning_rate": 5.787882956115782e-06, + "loss": 0.3241, + "step": 6071 + }, + { + "epoch": 2.024, + "grad_norm": 2.500647783279419, + "learning_rate": 5.784365610979692e-06, + "loss": 0.3166, + "step": 6072 + }, + { + "epoch": 2.0243333333333333, + "grad_norm": 2.798034191131592, + "learning_rate": 5.7808488999945355e-06, + "loss": 0.3306, + "step": 6073 + }, + { + "epoch": 2.0246666666666666, + "grad_norm": 2.6084976196289062, + "learning_rate": 5.777332823689335e-06, + "loss": 0.3027, + "step": 6074 + }, + { + "epoch": 2.025, + "grad_norm": 2.7252748012542725, + "learning_rate": 5.773817382593008e-06, + "loss": 0.3589, + "step": 6075 + }, + { + "epoch": 2.025333333333333, + "grad_norm": 2.816976308822632, + "learning_rate": 5.77030257723437e-06, + "loss": 0.3181, + "step": 6076 + }, + { + "epoch": 2.0256666666666665, + "grad_norm": 2.59092116355896, + "learning_rate": 5.766788408142154e-06, + "loss": 0.3275, + "step": 6077 + }, + { + "epoch": 2.026, + "grad_norm": 2.8538198471069336, + "learning_rate": 5.7632748758449865e-06, + "loss": 0.3007, + "step": 6078 + }, + { + "epoch": 2.0263333333333335, + "grad_norm": 2.597588300704956, + "learning_rate": 5.759761980871408e-06, + "loss": 0.3073, + "step": 6079 + }, + { + "epoch": 2.026666666666667, + "grad_norm": 2.595020055770874, + "learning_rate": 5.756249723749847e-06, + "loss": 0.325, + "step": 6080 + }, + { + "epoch": 2.027, + "grad_norm": 2.4097518920898438, + "learning_rate": 5.7527381050086555e-06, + "loss": 0.3323, + "step": 6081 + }, + { + "epoch": 2.0273333333333334, + "grad_norm": 3.732606887817383, + "learning_rate": 5.74922712517608e-06, + "loss": 0.3289, + "step": 6082 + }, + { + "epoch": 2.0276666666666667, + "grad_norm": 2.7880923748016357, + "learning_rate": 5.745716784780266e-06, + "loss": 0.3417, + "step": 6083 + }, + { + "epoch": 2.028, + "grad_norm": 3.785658836364746, + "learning_rate": 5.742207084349274e-06, + "loss": 0.3234, + "step": 6084 + }, + { + "epoch": 2.0283333333333333, + "grad_norm": 2.552564859390259, + "learning_rate": 5.738698024411058e-06, + "loss": 0.3106, + "step": 6085 + }, + { + "epoch": 2.0286666666666666, + "grad_norm": 3.0271782875061035, + "learning_rate": 5.735189605493485e-06, + "loss": 0.3036, + "step": 6086 + }, + { + "epoch": 2.029, + "grad_norm": 2.1585464477539062, + "learning_rate": 5.73168182812432e-06, + "loss": 0.3529, + "step": 6087 + }, + { + "epoch": 2.029333333333333, + "grad_norm": 2.451132297515869, + "learning_rate": 5.728174692831225e-06, + "loss": 0.3236, + "step": 6088 + }, + { + "epoch": 2.0296666666666665, + "grad_norm": 2.568779230117798, + "learning_rate": 5.7246682001417834e-06, + "loss": 0.308, + "step": 6089 + }, + { + "epoch": 2.03, + "grad_norm": 2.302239418029785, + "learning_rate": 5.72116235058346e-06, + "loss": 0.3188, + "step": 6090 + }, + { + "epoch": 2.0303333333333335, + "grad_norm": 3.2420897483825684, + "learning_rate": 5.717657144683639e-06, + "loss": 0.3252, + "step": 6091 + }, + { + "epoch": 2.030666666666667, + "grad_norm": 2.649864912033081, + "learning_rate": 5.714152582969603e-06, + "loss": 0.3356, + "step": 6092 + }, + { + "epoch": 2.031, + "grad_norm": 2.9431254863739014, + "learning_rate": 5.710648665968543e-06, + "loss": 0.323, + "step": 6093 + }, + { + "epoch": 2.0313333333333334, + "grad_norm": 2.4522502422332764, + "learning_rate": 5.707145394207536e-06, + "loss": 0.2813, + "step": 6094 + }, + { + "epoch": 2.0316666666666667, + "grad_norm": 2.7831146717071533, + "learning_rate": 5.703642768213582e-06, + "loss": 0.2996, + "step": 6095 + }, + { + "epoch": 2.032, + "grad_norm": 2.2545511722564697, + "learning_rate": 5.700140788513575e-06, + "loss": 0.3088, + "step": 6096 + }, + { + "epoch": 2.0323333333333333, + "grad_norm": 3.2877602577209473, + "learning_rate": 5.696639455634309e-06, + "loss": 0.2912, + "step": 6097 + }, + { + "epoch": 2.0326666666666666, + "grad_norm": 3.4716713428497314, + "learning_rate": 5.693138770102482e-06, + "loss": 0.3096, + "step": 6098 + }, + { + "epoch": 2.033, + "grad_norm": 2.6216604709625244, + "learning_rate": 5.689638732444699e-06, + "loss": 0.3165, + "step": 6099 + }, + { + "epoch": 2.033333333333333, + "grad_norm": 3.015882968902588, + "learning_rate": 5.686139343187468e-06, + "loss": 0.2971, + "step": 6100 + }, + { + "epoch": 2.0336666666666665, + "grad_norm": 2.512134313583374, + "learning_rate": 5.68264060285719e-06, + "loss": 0.3068, + "step": 6101 + }, + { + "epoch": 2.034, + "grad_norm": 2.555518627166748, + "learning_rate": 5.679142511980176e-06, + "loss": 0.3609, + "step": 6102 + }, + { + "epoch": 2.0343333333333335, + "grad_norm": 3.1716244220733643, + "learning_rate": 5.675645071082645e-06, + "loss": 0.3184, + "step": 6103 + }, + { + "epoch": 2.034666666666667, + "grad_norm": 2.117358684539795, + "learning_rate": 5.672148280690704e-06, + "loss": 0.3204, + "step": 6104 + }, + { + "epoch": 2.035, + "grad_norm": 2.90661883354187, + "learning_rate": 5.668652141330373e-06, + "loss": 0.3013, + "step": 6105 + }, + { + "epoch": 2.0353333333333334, + "grad_norm": 2.6680469512939453, + "learning_rate": 5.665156653527566e-06, + "loss": 0.3323, + "step": 6106 + }, + { + "epoch": 2.0356666666666667, + "grad_norm": 2.551981210708618, + "learning_rate": 5.66166181780811e-06, + "loss": 0.3309, + "step": 6107 + }, + { + "epoch": 2.036, + "grad_norm": 2.2630560398101807, + "learning_rate": 5.65816763469772e-06, + "loss": 0.3409, + "step": 6108 + }, + { + "epoch": 2.0363333333333333, + "grad_norm": 2.4976844787597656, + "learning_rate": 5.654674104722025e-06, + "loss": 0.3416, + "step": 6109 + }, + { + "epoch": 2.0366666666666666, + "grad_norm": 3.3602728843688965, + "learning_rate": 5.651181228406554e-06, + "loss": 0.3152, + "step": 6110 + }, + { + "epoch": 2.037, + "grad_norm": 2.2757818698883057, + "learning_rate": 5.647689006276727e-06, + "loss": 0.3448, + "step": 6111 + }, + { + "epoch": 2.037333333333333, + "grad_norm": 2.5396766662597656, + "learning_rate": 5.644197438857876e-06, + "loss": 0.3218, + "step": 6112 + }, + { + "epoch": 2.0376666666666665, + "grad_norm": 2.14754581451416, + "learning_rate": 5.640706526675233e-06, + "loss": 0.3324, + "step": 6113 + }, + { + "epoch": 2.038, + "grad_norm": 2.41329026222229, + "learning_rate": 5.637216270253934e-06, + "loss": 0.3223, + "step": 6114 + }, + { + "epoch": 2.038333333333333, + "grad_norm": 3.107128381729126, + "learning_rate": 5.6337266701190085e-06, + "loss": 0.3049, + "step": 6115 + }, + { + "epoch": 2.038666666666667, + "grad_norm": 2.3924670219421387, + "learning_rate": 5.630237726795388e-06, + "loss": 0.3016, + "step": 6116 + }, + { + "epoch": 2.039, + "grad_norm": 2.6602976322174072, + "learning_rate": 5.626749440807915e-06, + "loss": 0.3152, + "step": 6117 + }, + { + "epoch": 2.0393333333333334, + "grad_norm": 2.4897022247314453, + "learning_rate": 5.6232618126813186e-06, + "loss": 0.3066, + "step": 6118 + }, + { + "epoch": 2.0396666666666667, + "grad_norm": 2.8147408962249756, + "learning_rate": 5.619774842940242e-06, + "loss": 0.321, + "step": 6119 + }, + { + "epoch": 2.04, + "grad_norm": 2.453002452850342, + "learning_rate": 5.616288532109225e-06, + "loss": 0.3143, + "step": 6120 + }, + { + "epoch": 2.0403333333333333, + "grad_norm": 2.6327831745147705, + "learning_rate": 5.6128028807127115e-06, + "loss": 0.2863, + "step": 6121 + }, + { + "epoch": 2.0406666666666666, + "grad_norm": 3.3700568675994873, + "learning_rate": 5.609317889275031e-06, + "loss": 0.3407, + "step": 6122 + }, + { + "epoch": 2.041, + "grad_norm": 2.153897762298584, + "learning_rate": 5.605833558320432e-06, + "loss": 0.3034, + "step": 6123 + }, + { + "epoch": 2.041333333333333, + "grad_norm": 2.481820821762085, + "learning_rate": 5.602349888373061e-06, + "loss": 0.3171, + "step": 6124 + }, + { + "epoch": 2.0416666666666665, + "grad_norm": 3.5033156871795654, + "learning_rate": 5.598866879956955e-06, + "loss": 0.3122, + "step": 6125 + }, + { + "epoch": 2.042, + "grad_norm": 2.446000337600708, + "learning_rate": 5.595384533596054e-06, + "loss": 0.3238, + "step": 6126 + }, + { + "epoch": 2.0423333333333336, + "grad_norm": 2.5074031352996826, + "learning_rate": 5.591902849814207e-06, + "loss": 0.319, + "step": 6127 + }, + { + "epoch": 2.042666666666667, + "grad_norm": 2.152041435241699, + "learning_rate": 5.58842182913516e-06, + "loss": 0.3207, + "step": 6128 + }, + { + "epoch": 2.043, + "grad_norm": 2.89815092086792, + "learning_rate": 5.584941472082549e-06, + "loss": 0.3272, + "step": 6129 + }, + { + "epoch": 2.0433333333333334, + "grad_norm": 3.0084445476531982, + "learning_rate": 5.581461779179924e-06, + "loss": 0.295, + "step": 6130 + }, + { + "epoch": 2.0436666666666667, + "grad_norm": 2.402047872543335, + "learning_rate": 5.577982750950732e-06, + "loss": 0.3042, + "step": 6131 + }, + { + "epoch": 2.044, + "grad_norm": 1.9831451177597046, + "learning_rate": 5.574504387918311e-06, + "loss": 0.3195, + "step": 6132 + }, + { + "epoch": 2.0443333333333333, + "grad_norm": 2.620384693145752, + "learning_rate": 5.5710266906059095e-06, + "loss": 0.3281, + "step": 6133 + }, + { + "epoch": 2.0446666666666666, + "grad_norm": 2.1750409603118896, + "learning_rate": 5.567549659536673e-06, + "loss": 0.329, + "step": 6134 + }, + { + "epoch": 2.045, + "grad_norm": 2.565276622772217, + "learning_rate": 5.564073295233645e-06, + "loss": 0.3584, + "step": 6135 + }, + { + "epoch": 2.0453333333333332, + "grad_norm": 2.629345178604126, + "learning_rate": 5.560597598219763e-06, + "loss": 0.3416, + "step": 6136 + }, + { + "epoch": 2.0456666666666665, + "grad_norm": 2.8064544200897217, + "learning_rate": 5.5571225690178755e-06, + "loss": 0.2998, + "step": 6137 + }, + { + "epoch": 2.046, + "grad_norm": 2.3707797527313232, + "learning_rate": 5.553648208150728e-06, + "loss": 0.3396, + "step": 6138 + }, + { + "epoch": 2.046333333333333, + "grad_norm": 2.6438393592834473, + "learning_rate": 5.550174516140957e-06, + "loss": 0.3315, + "step": 6139 + }, + { + "epoch": 2.046666666666667, + "grad_norm": 2.3429114818573, + "learning_rate": 5.5467014935111065e-06, + "loss": 0.3059, + "step": 6140 + }, + { + "epoch": 2.047, + "grad_norm": 2.434035539627075, + "learning_rate": 5.543229140783619e-06, + "loss": 0.33, + "step": 6141 + }, + { + "epoch": 2.0473333333333334, + "grad_norm": 2.5735418796539307, + "learning_rate": 5.539757458480838e-06, + "loss": 0.3085, + "step": 6142 + }, + { + "epoch": 2.0476666666666667, + "grad_norm": 2.2985358238220215, + "learning_rate": 5.5362864471249944e-06, + "loss": 0.3188, + "step": 6143 + }, + { + "epoch": 2.048, + "grad_norm": 2.7335574626922607, + "learning_rate": 5.5328161072382355e-06, + "loss": 0.2885, + "step": 6144 + }, + { + "epoch": 2.0483333333333333, + "grad_norm": 2.6843416690826416, + "learning_rate": 5.529346439342595e-06, + "loss": 0.3374, + "step": 6145 + }, + { + "epoch": 2.0486666666666666, + "grad_norm": 2.570805072784424, + "learning_rate": 5.525877443960005e-06, + "loss": 0.2972, + "step": 6146 + }, + { + "epoch": 2.049, + "grad_norm": 2.1981990337371826, + "learning_rate": 5.522409121612304e-06, + "loss": 0.2944, + "step": 6147 + }, + { + "epoch": 2.0493333333333332, + "grad_norm": 2.345489501953125, + "learning_rate": 5.5189414728212276e-06, + "loss": 0.3242, + "step": 6148 + }, + { + "epoch": 2.0496666666666665, + "grad_norm": 2.2646913528442383, + "learning_rate": 5.5154744981084105e-06, + "loss": 0.2896, + "step": 6149 + }, + { + "epoch": 2.05, + "grad_norm": 2.3068690299987793, + "learning_rate": 5.512008197995379e-06, + "loss": 0.3194, + "step": 6150 + }, + { + "epoch": 2.050333333333333, + "grad_norm": 2.0241074562072754, + "learning_rate": 5.5085425730035635e-06, + "loss": 0.2967, + "step": 6151 + }, + { + "epoch": 2.050666666666667, + "grad_norm": 2.5335581302642822, + "learning_rate": 5.505077623654299e-06, + "loss": 0.3433, + "step": 6152 + }, + { + "epoch": 2.051, + "grad_norm": 3.0909156799316406, + "learning_rate": 5.501613350468802e-06, + "loss": 0.3253, + "step": 6153 + }, + { + "epoch": 2.0513333333333335, + "grad_norm": 2.241699695587158, + "learning_rate": 5.498149753968207e-06, + "loss": 0.3188, + "step": 6154 + }, + { + "epoch": 2.0516666666666667, + "grad_norm": 2.280463933944702, + "learning_rate": 5.494686834673528e-06, + "loss": 0.3074, + "step": 6155 + }, + { + "epoch": 2.052, + "grad_norm": 2.146502733230591, + "learning_rate": 5.491224593105695e-06, + "loss": 0.3117, + "step": 6156 + }, + { + "epoch": 2.0523333333333333, + "grad_norm": 2.5165038108825684, + "learning_rate": 5.48776302978552e-06, + "loss": 0.2972, + "step": 6157 + }, + { + "epoch": 2.0526666666666666, + "grad_norm": 1.9152976274490356, + "learning_rate": 5.484302145233722e-06, + "loss": 0.3162, + "step": 6158 + }, + { + "epoch": 2.053, + "grad_norm": 2.472301483154297, + "learning_rate": 5.480841939970918e-06, + "loss": 0.2854, + "step": 6159 + }, + { + "epoch": 2.0533333333333332, + "grad_norm": 2.845468759536743, + "learning_rate": 5.477382414517625e-06, + "loss": 0.3377, + "step": 6160 + }, + { + "epoch": 2.0536666666666665, + "grad_norm": 2.743675708770752, + "learning_rate": 5.4739235693942435e-06, + "loss": 0.3097, + "step": 6161 + }, + { + "epoch": 2.054, + "grad_norm": 3.4722912311553955, + "learning_rate": 5.470465405121093e-06, + "loss": 0.2835, + "step": 6162 + }, + { + "epoch": 2.054333333333333, + "grad_norm": 2.3001787662506104, + "learning_rate": 5.4670079222183745e-06, + "loss": 0.3406, + "step": 6163 + }, + { + "epoch": 2.054666666666667, + "grad_norm": 2.8098785877227783, + "learning_rate": 5.463551121206185e-06, + "loss": 0.339, + "step": 6164 + }, + { + "epoch": 2.055, + "grad_norm": 2.9299886226654053, + "learning_rate": 5.460095002604533e-06, + "loss": 0.3248, + "step": 6165 + }, + { + "epoch": 2.0553333333333335, + "grad_norm": 2.8143749237060547, + "learning_rate": 5.456639566933315e-06, + "loss": 0.3621, + "step": 6166 + }, + { + "epoch": 2.0556666666666668, + "grad_norm": 2.9754905700683594, + "learning_rate": 5.45318481471233e-06, + "loss": 0.3473, + "step": 6167 + }, + { + "epoch": 2.056, + "grad_norm": 2.551044225692749, + "learning_rate": 5.449730746461264e-06, + "loss": 0.31, + "step": 6168 + }, + { + "epoch": 2.0563333333333333, + "grad_norm": 2.3214120864868164, + "learning_rate": 5.446277362699709e-06, + "loss": 0.321, + "step": 6169 + }, + { + "epoch": 2.0566666666666666, + "grad_norm": 2.5298879146575928, + "learning_rate": 5.442824663947157e-06, + "loss": 0.3356, + "step": 6170 + }, + { + "epoch": 2.057, + "grad_norm": 2.7912819385528564, + "learning_rate": 5.439372650722985e-06, + "loss": 0.2874, + "step": 6171 + }, + { + "epoch": 2.0573333333333332, + "grad_norm": 3.6469500064849854, + "learning_rate": 5.4359213235464805e-06, + "loss": 0.3604, + "step": 6172 + }, + { + "epoch": 2.0576666666666665, + "grad_norm": 3.273893356323242, + "learning_rate": 5.432470682936811e-06, + "loss": 0.3464, + "step": 6173 + }, + { + "epoch": 2.058, + "grad_norm": 3.340852737426758, + "learning_rate": 5.429020729413062e-06, + "loss": 0.3063, + "step": 6174 + }, + { + "epoch": 2.058333333333333, + "grad_norm": 3.6824076175689697, + "learning_rate": 5.4255714634941934e-06, + "loss": 0.3442, + "step": 6175 + }, + { + "epoch": 2.058666666666667, + "grad_norm": 2.61885142326355, + "learning_rate": 5.422122885699079e-06, + "loss": 0.305, + "step": 6176 + }, + { + "epoch": 2.059, + "grad_norm": 2.7394213676452637, + "learning_rate": 5.418674996546486e-06, + "loss": 0.3298, + "step": 6177 + }, + { + "epoch": 2.0593333333333335, + "grad_norm": 3.4821736812591553, + "learning_rate": 5.415227796555066e-06, + "loss": 0.2878, + "step": 6178 + }, + { + "epoch": 2.0596666666666668, + "grad_norm": 3.524080991744995, + "learning_rate": 5.41178128624338e-06, + "loss": 0.3033, + "step": 6179 + }, + { + "epoch": 2.06, + "grad_norm": 3.0011868476867676, + "learning_rate": 5.4083354661298816e-06, + "loss": 0.2869, + "step": 6180 + }, + { + "epoch": 2.0603333333333333, + "grad_norm": 3.373601198196411, + "learning_rate": 5.404890336732922e-06, + "loss": 0.3872, + "step": 6181 + }, + { + "epoch": 2.0606666666666666, + "grad_norm": 2.754730463027954, + "learning_rate": 5.401445898570744e-06, + "loss": 0.3122, + "step": 6182 + }, + { + "epoch": 2.061, + "grad_norm": 2.9448819160461426, + "learning_rate": 5.398002152161484e-06, + "loss": 0.3544, + "step": 6183 + }, + { + "epoch": 2.0613333333333332, + "grad_norm": 2.2486331462860107, + "learning_rate": 5.394559098023189e-06, + "loss": 0.3405, + "step": 6184 + }, + { + "epoch": 2.0616666666666665, + "grad_norm": 2.287644863128662, + "learning_rate": 5.3911167366737805e-06, + "loss": 0.3041, + "step": 6185 + }, + { + "epoch": 2.062, + "grad_norm": 2.7041282653808594, + "learning_rate": 5.387675068631093e-06, + "loss": 0.3275, + "step": 6186 + }, + { + "epoch": 2.062333333333333, + "grad_norm": 3.834388256072998, + "learning_rate": 5.384234094412853e-06, + "loss": 0.3571, + "step": 6187 + }, + { + "epoch": 2.062666666666667, + "grad_norm": 2.548356294631958, + "learning_rate": 5.38079381453668e-06, + "loss": 0.2955, + "step": 6188 + }, + { + "epoch": 2.063, + "grad_norm": 2.545342206954956, + "learning_rate": 5.377354229520086e-06, + "loss": 0.3559, + "step": 6189 + }, + { + "epoch": 2.0633333333333335, + "grad_norm": 2.103670835494995, + "learning_rate": 5.373915339880484e-06, + "loss": 0.28, + "step": 6190 + }, + { + "epoch": 2.0636666666666668, + "grad_norm": 2.1799471378326416, + "learning_rate": 5.370477146135184e-06, + "loss": 0.2966, + "step": 6191 + }, + { + "epoch": 2.064, + "grad_norm": 2.2084903717041016, + "learning_rate": 5.367039648801386e-06, + "loss": 0.3045, + "step": 6192 + }, + { + "epoch": 2.0643333333333334, + "grad_norm": 3.0607824325561523, + "learning_rate": 5.363602848396181e-06, + "loss": 0.3272, + "step": 6193 + }, + { + "epoch": 2.0646666666666667, + "grad_norm": 2.1967411041259766, + "learning_rate": 5.360166745436566e-06, + "loss": 0.3187, + "step": 6194 + }, + { + "epoch": 2.065, + "grad_norm": 3.2152602672576904, + "learning_rate": 5.356731340439432e-06, + "loss": 0.3269, + "step": 6195 + }, + { + "epoch": 2.0653333333333332, + "grad_norm": 2.1769416332244873, + "learning_rate": 5.353296633921554e-06, + "loss": 0.3068, + "step": 6196 + }, + { + "epoch": 2.0656666666666665, + "grad_norm": 2.4070887565612793, + "learning_rate": 5.349862626399613e-06, + "loss": 0.3199, + "step": 6197 + }, + { + "epoch": 2.066, + "grad_norm": 2.935253143310547, + "learning_rate": 5.346429318390185e-06, + "loss": 0.354, + "step": 6198 + }, + { + "epoch": 2.066333333333333, + "grad_norm": 2.569606065750122, + "learning_rate": 5.342996710409729e-06, + "loss": 0.3592, + "step": 6199 + }, + { + "epoch": 2.066666666666667, + "grad_norm": 2.176741361618042, + "learning_rate": 5.339564802974615e-06, + "loss": 0.3205, + "step": 6200 + }, + { + "epoch": 2.067, + "grad_norm": 3.143571138381958, + "learning_rate": 5.336133596601089e-06, + "loss": 0.2965, + "step": 6201 + }, + { + "epoch": 2.0673333333333335, + "grad_norm": 2.0994491577148438, + "learning_rate": 5.332703091805312e-06, + "loss": 0.2735, + "step": 6202 + }, + { + "epoch": 2.0676666666666668, + "grad_norm": 2.4660696983337402, + "learning_rate": 5.32927328910332e-06, + "loss": 0.3736, + "step": 6203 + }, + { + "epoch": 2.068, + "grad_norm": 2.303964376449585, + "learning_rate": 5.325844189011058e-06, + "loss": 0.3162, + "step": 6204 + }, + { + "epoch": 2.0683333333333334, + "grad_norm": 2.13151478767395, + "learning_rate": 5.322415792044362e-06, + "loss": 0.3207, + "step": 6205 + }, + { + "epoch": 2.0686666666666667, + "grad_norm": 2.151017665863037, + "learning_rate": 5.318988098718953e-06, + "loss": 0.3225, + "step": 6206 + }, + { + "epoch": 2.069, + "grad_norm": 3.325901508331299, + "learning_rate": 5.31556110955046e-06, + "loss": 0.3252, + "step": 6207 + }, + { + "epoch": 2.0693333333333332, + "grad_norm": 2.7646615505218506, + "learning_rate": 5.312134825054394e-06, + "loss": 0.3526, + "step": 6208 + }, + { + "epoch": 2.0696666666666665, + "grad_norm": 2.990515947341919, + "learning_rate": 5.308709245746173e-06, + "loss": 0.3155, + "step": 6209 + }, + { + "epoch": 2.07, + "grad_norm": 3.2323131561279297, + "learning_rate": 5.305284372141095e-06, + "loss": 0.335, + "step": 6210 + }, + { + "epoch": 2.070333333333333, + "grad_norm": 2.607255697250366, + "learning_rate": 5.301860204754357e-06, + "loss": 0.3203, + "step": 6211 + }, + { + "epoch": 2.070666666666667, + "grad_norm": 2.4757702350616455, + "learning_rate": 5.298436744101056e-06, + "loss": 0.331, + "step": 6212 + }, + { + "epoch": 2.071, + "grad_norm": 2.5803215503692627, + "learning_rate": 5.2950139906961716e-06, + "loss": 0.3336, + "step": 6213 + }, + { + "epoch": 2.0713333333333335, + "grad_norm": 2.314643621444702, + "learning_rate": 5.291591945054585e-06, + "loss": 0.2722, + "step": 6214 + }, + { + "epoch": 2.0716666666666668, + "grad_norm": 3.2877047061920166, + "learning_rate": 5.288170607691071e-06, + "loss": 0.3248, + "step": 6215 + }, + { + "epoch": 2.072, + "grad_norm": 2.6827054023742676, + "learning_rate": 5.284749979120299e-06, + "loss": 0.325, + "step": 6216 + }, + { + "epoch": 2.0723333333333334, + "grad_norm": 2.212336301803589, + "learning_rate": 5.281330059856819e-06, + "loss": 0.2894, + "step": 6217 + }, + { + "epoch": 2.0726666666666667, + "grad_norm": 2.564934253692627, + "learning_rate": 5.27791085041509e-06, + "loss": 0.3422, + "step": 6218 + }, + { + "epoch": 2.073, + "grad_norm": 2.5209286212921143, + "learning_rate": 5.274492351309462e-06, + "loss": 0.329, + "step": 6219 + }, + { + "epoch": 2.0733333333333333, + "grad_norm": 3.2892212867736816, + "learning_rate": 5.271074563054167e-06, + "loss": 0.3126, + "step": 6220 + }, + { + "epoch": 2.0736666666666665, + "grad_norm": 2.449331283569336, + "learning_rate": 5.267657486163338e-06, + "loss": 0.3031, + "step": 6221 + }, + { + "epoch": 2.074, + "grad_norm": 2.1999692916870117, + "learning_rate": 5.2642411211510005e-06, + "loss": 0.3076, + "step": 6222 + }, + { + "epoch": 2.074333333333333, + "grad_norm": 3.5210654735565186, + "learning_rate": 5.260825468531078e-06, + "loss": 0.3242, + "step": 6223 + }, + { + "epoch": 2.074666666666667, + "grad_norm": 2.482654333114624, + "learning_rate": 5.257410528817374e-06, + "loss": 0.3121, + "step": 6224 + }, + { + "epoch": 2.075, + "grad_norm": 2.7237393856048584, + "learning_rate": 5.253996302523596e-06, + "loss": 0.3093, + "step": 6225 + }, + { + "epoch": 2.0753333333333335, + "grad_norm": 2.9210352897644043, + "learning_rate": 5.250582790163343e-06, + "loss": 0.2879, + "step": 6226 + }, + { + "epoch": 2.0756666666666668, + "grad_norm": 2.1622142791748047, + "learning_rate": 5.247169992250098e-06, + "loss": 0.3311, + "step": 6227 + }, + { + "epoch": 2.076, + "grad_norm": 2.8024792671203613, + "learning_rate": 5.243757909297247e-06, + "loss": 0.3411, + "step": 6228 + }, + { + "epoch": 2.0763333333333334, + "grad_norm": 2.368364095687866, + "learning_rate": 5.240346541818065e-06, + "loss": 0.3283, + "step": 6229 + }, + { + "epoch": 2.0766666666666667, + "grad_norm": 2.953193187713623, + "learning_rate": 5.236935890325717e-06, + "loss": 0.3194, + "step": 6230 + }, + { + "epoch": 2.077, + "grad_norm": 1.9007736444473267, + "learning_rate": 5.233525955333258e-06, + "loss": 0.3199, + "step": 6231 + }, + { + "epoch": 2.0773333333333333, + "grad_norm": 2.103919267654419, + "learning_rate": 5.230116737353641e-06, + "loss": 0.3133, + "step": 6232 + }, + { + "epoch": 2.0776666666666666, + "grad_norm": 3.0197134017944336, + "learning_rate": 5.226708236899713e-06, + "loss": 0.3054, + "step": 6233 + }, + { + "epoch": 2.078, + "grad_norm": 2.670353412628174, + "learning_rate": 5.223300454484204e-06, + "loss": 0.3471, + "step": 6234 + }, + { + "epoch": 2.078333333333333, + "grad_norm": 3.191392183303833, + "learning_rate": 5.2198933906197415e-06, + "loss": 0.3152, + "step": 6235 + }, + { + "epoch": 2.078666666666667, + "grad_norm": 2.4235382080078125, + "learning_rate": 5.216487045818846e-06, + "loss": 0.2887, + "step": 6236 + }, + { + "epoch": 2.079, + "grad_norm": 2.5153355598449707, + "learning_rate": 5.213081420593933e-06, + "loss": 0.3122, + "step": 6237 + }, + { + "epoch": 2.0793333333333335, + "grad_norm": 2.8520445823669434, + "learning_rate": 5.209676515457296e-06, + "loss": 0.3351, + "step": 6238 + }, + { + "epoch": 2.0796666666666668, + "grad_norm": 2.05683970451355, + "learning_rate": 5.206272330921138e-06, + "loss": 0.2997, + "step": 6239 + }, + { + "epoch": 2.08, + "grad_norm": 2.8200230598449707, + "learning_rate": 5.202868867497542e-06, + "loss": 0.3294, + "step": 6240 + }, + { + "epoch": 2.0803333333333334, + "grad_norm": 2.118157148361206, + "learning_rate": 5.199466125698479e-06, + "loss": 0.3282, + "step": 6241 + }, + { + "epoch": 2.0806666666666667, + "grad_norm": 3.588630199432373, + "learning_rate": 5.196064106035823e-06, + "loss": 0.3619, + "step": 6242 + }, + { + "epoch": 2.081, + "grad_norm": 2.8380064964294434, + "learning_rate": 5.192662809021334e-06, + "loss": 0.3186, + "step": 6243 + }, + { + "epoch": 2.0813333333333333, + "grad_norm": 3.034698009490967, + "learning_rate": 5.189262235166668e-06, + "loss": 0.311, + "step": 6244 + }, + { + "epoch": 2.0816666666666666, + "grad_norm": 3.179243326187134, + "learning_rate": 5.18586238498336e-06, + "loss": 0.3739, + "step": 6245 + }, + { + "epoch": 2.082, + "grad_norm": 3.0352232456207275, + "learning_rate": 5.1824632589828465e-06, + "loss": 0.3212, + "step": 6246 + }, + { + "epoch": 2.082333333333333, + "grad_norm": 2.8880679607391357, + "learning_rate": 5.179064857676457e-06, + "loss": 0.3423, + "step": 6247 + }, + { + "epoch": 2.0826666666666664, + "grad_norm": 2.5146987438201904, + "learning_rate": 5.175667181575399e-06, + "loss": 0.3301, + "step": 6248 + }, + { + "epoch": 2.083, + "grad_norm": 2.8032002449035645, + "learning_rate": 5.172270231190789e-06, + "loss": 0.3278, + "step": 6249 + }, + { + "epoch": 2.0833333333333335, + "grad_norm": 2.788817882537842, + "learning_rate": 5.168874007033615e-06, + "loss": 0.3411, + "step": 6250 + }, + { + "epoch": 2.083666666666667, + "grad_norm": 4.151683330535889, + "learning_rate": 5.165478509614774e-06, + "loss": 0.3373, + "step": 6251 + }, + { + "epoch": 2.084, + "grad_norm": 2.709195137023926, + "learning_rate": 5.162083739445038e-06, + "loss": 0.3368, + "step": 6252 + }, + { + "epoch": 2.0843333333333334, + "grad_norm": 3.1015360355377197, + "learning_rate": 5.1586896970350795e-06, + "loss": 0.3283, + "step": 6253 + }, + { + "epoch": 2.0846666666666667, + "grad_norm": 3.001744031906128, + "learning_rate": 5.155296382895463e-06, + "loss": 0.3218, + "step": 6254 + }, + { + "epoch": 2.085, + "grad_norm": 2.6440987586975098, + "learning_rate": 5.151903797536631e-06, + "loss": 0.3195, + "step": 6255 + }, + { + "epoch": 2.0853333333333333, + "grad_norm": 3.3993494510650635, + "learning_rate": 5.1485119414689275e-06, + "loss": 0.3157, + "step": 6256 + }, + { + "epoch": 2.0856666666666666, + "grad_norm": 2.4680490493774414, + "learning_rate": 5.14512081520259e-06, + "loss": 0.2839, + "step": 6257 + }, + { + "epoch": 2.086, + "grad_norm": 2.3781275749206543, + "learning_rate": 5.141730419247735e-06, + "loss": 0.2832, + "step": 6258 + }, + { + "epoch": 2.086333333333333, + "grad_norm": 2.234412431716919, + "learning_rate": 5.1383407541143704e-06, + "loss": 0.3007, + "step": 6259 + }, + { + "epoch": 2.086666666666667, + "grad_norm": 2.614278793334961, + "learning_rate": 5.134951820312402e-06, + "loss": 0.3193, + "step": 6260 + }, + { + "epoch": 2.087, + "grad_norm": 2.6304104328155518, + "learning_rate": 5.131563618351624e-06, + "loss": 0.3059, + "step": 6261 + }, + { + "epoch": 2.0873333333333335, + "grad_norm": 2.5398552417755127, + "learning_rate": 5.128176148741713e-06, + "loss": 0.3286, + "step": 6262 + }, + { + "epoch": 2.087666666666667, + "grad_norm": 2.9977335929870605, + "learning_rate": 5.124789411992242e-06, + "loss": 0.3566, + "step": 6263 + }, + { + "epoch": 2.088, + "grad_norm": 2.0559234619140625, + "learning_rate": 5.121403408612672e-06, + "loss": 0.316, + "step": 6264 + }, + { + "epoch": 2.0883333333333334, + "grad_norm": 2.3756625652313232, + "learning_rate": 5.1180181391123596e-06, + "loss": 0.293, + "step": 6265 + }, + { + "epoch": 2.0886666666666667, + "grad_norm": 1.9948419332504272, + "learning_rate": 5.1146336040005375e-06, + "loss": 0.3229, + "step": 6266 + }, + { + "epoch": 2.089, + "grad_norm": 2.569420099258423, + "learning_rate": 5.111249803786342e-06, + "loss": 0.2994, + "step": 6267 + }, + { + "epoch": 2.0893333333333333, + "grad_norm": 2.3437325954437256, + "learning_rate": 5.10786673897879e-06, + "loss": 0.3315, + "step": 6268 + }, + { + "epoch": 2.0896666666666666, + "grad_norm": 1.9536700248718262, + "learning_rate": 5.104484410086785e-06, + "loss": 0.3312, + "step": 6269 + }, + { + "epoch": 2.09, + "grad_norm": 2.841278553009033, + "learning_rate": 5.101102817619132e-06, + "loss": 0.3204, + "step": 6270 + }, + { + "epoch": 2.090333333333333, + "grad_norm": 2.1327764987945557, + "learning_rate": 5.097721962084515e-06, + "loss": 0.3127, + "step": 6271 + }, + { + "epoch": 2.0906666666666665, + "grad_norm": 2.0786893367767334, + "learning_rate": 5.094341843991515e-06, + "loss": 0.2715, + "step": 6272 + }, + { + "epoch": 2.091, + "grad_norm": 2.1749775409698486, + "learning_rate": 5.090962463848592e-06, + "loss": 0.3054, + "step": 6273 + }, + { + "epoch": 2.0913333333333335, + "grad_norm": 4.003320217132568, + "learning_rate": 5.0875838221641035e-06, + "loss": 0.3189, + "step": 6274 + }, + { + "epoch": 2.091666666666667, + "grad_norm": 2.022723913192749, + "learning_rate": 5.084205919446295e-06, + "loss": 0.3404, + "step": 6275 + }, + { + "epoch": 2.092, + "grad_norm": 2.413268566131592, + "learning_rate": 5.080828756203294e-06, + "loss": 0.3479, + "step": 6276 + }, + { + "epoch": 2.0923333333333334, + "grad_norm": 2.9589133262634277, + "learning_rate": 5.077452332943127e-06, + "loss": 0.3477, + "step": 6277 + }, + { + "epoch": 2.0926666666666667, + "grad_norm": 2.7169978618621826, + "learning_rate": 5.0740766501736986e-06, + "loss": 0.292, + "step": 6278 + }, + { + "epoch": 2.093, + "grad_norm": 2.3114676475524902, + "learning_rate": 5.070701708402812e-06, + "loss": 0.3079, + "step": 6279 + }, + { + "epoch": 2.0933333333333333, + "grad_norm": 2.286555051803589, + "learning_rate": 5.067327508138148e-06, + "loss": 0.3173, + "step": 6280 + }, + { + "epoch": 2.0936666666666666, + "grad_norm": 2.2941179275512695, + "learning_rate": 5.0639540498872854e-06, + "loss": 0.2898, + "step": 6281 + }, + { + "epoch": 2.094, + "grad_norm": 3.792891025543213, + "learning_rate": 5.060581334157693e-06, + "loss": 0.3307, + "step": 6282 + }, + { + "epoch": 2.094333333333333, + "grad_norm": 2.5574796199798584, + "learning_rate": 5.057209361456714e-06, + "loss": 0.3443, + "step": 6283 + }, + { + "epoch": 2.0946666666666665, + "grad_norm": 3.53375506401062, + "learning_rate": 5.0538381322915916e-06, + "loss": 0.3461, + "step": 6284 + }, + { + "epoch": 2.095, + "grad_norm": 2.335524797439575, + "learning_rate": 5.05046764716946e-06, + "loss": 0.3416, + "step": 6285 + }, + { + "epoch": 2.0953333333333335, + "grad_norm": 2.1341631412506104, + "learning_rate": 5.047097906597327e-06, + "loss": 0.3174, + "step": 6286 + }, + { + "epoch": 2.095666666666667, + "grad_norm": 2.2133727073669434, + "learning_rate": 5.043728911082106e-06, + "loss": 0.3153, + "step": 6287 + }, + { + "epoch": 2.096, + "grad_norm": 3.4925882816314697, + "learning_rate": 5.04036066113058e-06, + "loss": 0.2881, + "step": 6288 + }, + { + "epoch": 2.0963333333333334, + "grad_norm": 3.2005693912506104, + "learning_rate": 5.036993157249439e-06, + "loss": 0.3657, + "step": 6289 + }, + { + "epoch": 2.0966666666666667, + "grad_norm": 2.971694231033325, + "learning_rate": 5.033626399945241e-06, + "loss": 0.3226, + "step": 6290 + }, + { + "epoch": 2.097, + "grad_norm": 2.527589797973633, + "learning_rate": 5.030260389724447e-06, + "loss": 0.2843, + "step": 6291 + }, + { + "epoch": 2.0973333333333333, + "grad_norm": 2.749095916748047, + "learning_rate": 5.0268951270934005e-06, + "loss": 0.2903, + "step": 6292 + }, + { + "epoch": 2.0976666666666666, + "grad_norm": 2.7922682762145996, + "learning_rate": 5.023530612558336e-06, + "loss": 0.3221, + "step": 6293 + }, + { + "epoch": 2.098, + "grad_norm": 2.126664161682129, + "learning_rate": 5.020166846625365e-06, + "loss": 0.3228, + "step": 6294 + }, + { + "epoch": 2.098333333333333, + "grad_norm": 2.305917978286743, + "learning_rate": 5.016803829800498e-06, + "loss": 0.2924, + "step": 6295 + }, + { + "epoch": 2.0986666666666665, + "grad_norm": 2.6359219551086426, + "learning_rate": 5.013441562589625e-06, + "loss": 0.3014, + "step": 6296 + }, + { + "epoch": 2.099, + "grad_norm": 2.0113234519958496, + "learning_rate": 5.01008004549853e-06, + "loss": 0.3105, + "step": 6297 + }, + { + "epoch": 2.0993333333333335, + "grad_norm": 1.896327018737793, + "learning_rate": 5.006719279032874e-06, + "loss": 0.3003, + "step": 6298 + }, + { + "epoch": 2.099666666666667, + "grad_norm": 2.160270929336548, + "learning_rate": 5.003359263698217e-06, + "loss": 0.2877, + "step": 6299 + }, + { + "epoch": 2.1, + "grad_norm": 2.026189088821411, + "learning_rate": 5.000000000000003e-06, + "loss": 0.3209, + "step": 6300 + }, + { + "epoch": 2.1003333333333334, + "grad_norm": 2.2345926761627197, + "learning_rate": 4.9966414884435525e-06, + "loss": 0.3162, + "step": 6301 + }, + { + "epoch": 2.1006666666666667, + "grad_norm": 2.1201624870300293, + "learning_rate": 4.9932837295340855e-06, + "loss": 0.2879, + "step": 6302 + }, + { + "epoch": 2.101, + "grad_norm": 2.6921138763427734, + "learning_rate": 4.989926723776707e-06, + "loss": 0.339, + "step": 6303 + }, + { + "epoch": 2.1013333333333333, + "grad_norm": 2.304050922393799, + "learning_rate": 4.986570471676398e-06, + "loss": 0.3, + "step": 6304 + }, + { + "epoch": 2.1016666666666666, + "grad_norm": 2.643129825592041, + "learning_rate": 4.983214973738044e-06, + "loss": 0.3278, + "step": 6305 + }, + { + "epoch": 2.102, + "grad_norm": 2.9113776683807373, + "learning_rate": 4.979860230466398e-06, + "loss": 0.3247, + "step": 6306 + }, + { + "epoch": 2.102333333333333, + "grad_norm": 2.3314480781555176, + "learning_rate": 4.976506242366116e-06, + "loss": 0.3169, + "step": 6307 + }, + { + "epoch": 2.1026666666666665, + "grad_norm": 2.5487260818481445, + "learning_rate": 4.973153009941725e-06, + "loss": 0.3351, + "step": 6308 + }, + { + "epoch": 2.103, + "grad_norm": 2.604585647583008, + "learning_rate": 4.96980053369765e-06, + "loss": 0.2872, + "step": 6309 + }, + { + "epoch": 2.1033333333333335, + "grad_norm": 2.6548476219177246, + "learning_rate": 4.9664488141382026e-06, + "loss": 0.3216, + "step": 6310 + }, + { + "epoch": 2.103666666666667, + "grad_norm": 2.986034870147705, + "learning_rate": 4.96309785176757e-06, + "loss": 0.3214, + "step": 6311 + }, + { + "epoch": 2.104, + "grad_norm": 2.422689437866211, + "learning_rate": 4.959747647089833e-06, + "loss": 0.3235, + "step": 6312 + }, + { + "epoch": 2.1043333333333334, + "grad_norm": 2.3332948684692383, + "learning_rate": 4.95639820060896e-06, + "loss": 0.2947, + "step": 6313 + }, + { + "epoch": 2.1046666666666667, + "grad_norm": 2.4683632850646973, + "learning_rate": 4.953049512828805e-06, + "loss": 0.2718, + "step": 6314 + }, + { + "epoch": 2.105, + "grad_norm": 2.3680028915405273, + "learning_rate": 4.949701584253103e-06, + "loss": 0.328, + "step": 6315 + }, + { + "epoch": 2.1053333333333333, + "grad_norm": 2.364886999130249, + "learning_rate": 4.946354415385473e-06, + "loss": 0.3383, + "step": 6316 + }, + { + "epoch": 2.1056666666666666, + "grad_norm": 2.739124059677124, + "learning_rate": 4.9430080067294304e-06, + "loss": 0.3069, + "step": 6317 + }, + { + "epoch": 2.106, + "grad_norm": 2.94464111328125, + "learning_rate": 4.939662358788364e-06, + "loss": 0.2919, + "step": 6318 + }, + { + "epoch": 2.106333333333333, + "grad_norm": 3.362185478210449, + "learning_rate": 4.936317472065558e-06, + "loss": 0.3528, + "step": 6319 + }, + { + "epoch": 2.1066666666666665, + "grad_norm": 2.570154905319214, + "learning_rate": 4.932973347064177e-06, + "loss": 0.3183, + "step": 6320 + }, + { + "epoch": 2.107, + "grad_norm": 2.7527458667755127, + "learning_rate": 4.929629984287278e-06, + "loss": 0.3231, + "step": 6321 + }, + { + "epoch": 2.1073333333333335, + "grad_norm": 2.1947598457336426, + "learning_rate": 4.9262873842377864e-06, + "loss": 0.3434, + "step": 6322 + }, + { + "epoch": 2.107666666666667, + "grad_norm": 2.163933038711548, + "learning_rate": 4.922945547418532e-06, + "loss": 0.307, + "step": 6323 + }, + { + "epoch": 2.108, + "grad_norm": 1.8410886526107788, + "learning_rate": 4.919604474332223e-06, + "loss": 0.2979, + "step": 6324 + }, + { + "epoch": 2.1083333333333334, + "grad_norm": 2.807276725769043, + "learning_rate": 4.916264165481448e-06, + "loss": 0.2972, + "step": 6325 + }, + { + "epoch": 2.1086666666666667, + "grad_norm": 2.6824023723602295, + "learning_rate": 4.912924621368681e-06, + "loss": 0.3333, + "step": 6326 + }, + { + "epoch": 2.109, + "grad_norm": 3.091144323348999, + "learning_rate": 4.909585842496287e-06, + "loss": 0.3225, + "step": 6327 + }, + { + "epoch": 2.1093333333333333, + "grad_norm": 2.1670563220977783, + "learning_rate": 4.906247829366518e-06, + "loss": 0.3061, + "step": 6328 + }, + { + "epoch": 2.1096666666666666, + "grad_norm": 2.1971840858459473, + "learning_rate": 4.902910582481498e-06, + "loss": 0.336, + "step": 6329 + }, + { + "epoch": 2.11, + "grad_norm": 2.856015205383301, + "learning_rate": 4.899574102343247e-06, + "loss": 0.3239, + "step": 6330 + }, + { + "epoch": 2.110333333333333, + "grad_norm": 2.918257713317871, + "learning_rate": 4.896238389453667e-06, + "loss": 0.309, + "step": 6331 + }, + { + "epoch": 2.1106666666666665, + "grad_norm": 2.8346004486083984, + "learning_rate": 4.892903444314545e-06, + "loss": 0.3252, + "step": 6332 + }, + { + "epoch": 2.111, + "grad_norm": 2.5084023475646973, + "learning_rate": 4.889569267427548e-06, + "loss": 0.2877, + "step": 6333 + }, + { + "epoch": 2.1113333333333335, + "grad_norm": 2.560919761657715, + "learning_rate": 4.8862358592942335e-06, + "loss": 0.3307, + "step": 6334 + }, + { + "epoch": 2.111666666666667, + "grad_norm": 2.5323984622955322, + "learning_rate": 4.882903220416039e-06, + "loss": 0.3044, + "step": 6335 + }, + { + "epoch": 2.112, + "grad_norm": 2.9862582683563232, + "learning_rate": 4.879571351294287e-06, + "loss": 0.3557, + "step": 6336 + }, + { + "epoch": 2.1123333333333334, + "grad_norm": 2.6003856658935547, + "learning_rate": 4.876240252430184e-06, + "loss": 0.3115, + "step": 6337 + }, + { + "epoch": 2.1126666666666667, + "grad_norm": 3.981738328933716, + "learning_rate": 4.872909924324825e-06, + "loss": 0.3539, + "step": 6338 + }, + { + "epoch": 2.113, + "grad_norm": 3.668489694595337, + "learning_rate": 4.869580367479187e-06, + "loss": 0.3367, + "step": 6339 + }, + { + "epoch": 2.1133333333333333, + "grad_norm": 3.219730854034424, + "learning_rate": 4.8662515823941255e-06, + "loss": 0.3058, + "step": 6340 + }, + { + "epoch": 2.1136666666666666, + "grad_norm": 2.692105531692505, + "learning_rate": 4.862923569570386e-06, + "loss": 0.3395, + "step": 6341 + }, + { + "epoch": 2.114, + "grad_norm": 2.4298386573791504, + "learning_rate": 4.859596329508598e-06, + "loss": 0.321, + "step": 6342 + }, + { + "epoch": 2.114333333333333, + "grad_norm": 2.397754669189453, + "learning_rate": 4.856269862709272e-06, + "loss": 0.3289, + "step": 6343 + }, + { + "epoch": 2.1146666666666665, + "grad_norm": 2.5986311435699463, + "learning_rate": 4.8529441696727985e-06, + "loss": 0.2936, + "step": 6344 + }, + { + "epoch": 2.115, + "grad_norm": 2.3459010124206543, + "learning_rate": 4.849619250899458e-06, + "loss": 0.286, + "step": 6345 + }, + { + "epoch": 2.1153333333333335, + "grad_norm": 2.6987390518188477, + "learning_rate": 4.846295106889418e-06, + "loss": 0.3095, + "step": 6346 + }, + { + "epoch": 2.115666666666667, + "grad_norm": 2.4894697666168213, + "learning_rate": 4.842971738142716e-06, + "loss": 0.2645, + "step": 6347 + }, + { + "epoch": 2.116, + "grad_norm": 2.688589096069336, + "learning_rate": 4.8396491451592855e-06, + "loss": 0.2914, + "step": 6348 + }, + { + "epoch": 2.1163333333333334, + "grad_norm": 2.429633378982544, + "learning_rate": 4.836327328438941e-06, + "loss": 0.3075, + "step": 6349 + }, + { + "epoch": 2.1166666666666667, + "grad_norm": 2.5467545986175537, + "learning_rate": 4.8330062884813714e-06, + "loss": 0.2936, + "step": 6350 + }, + { + "epoch": 2.117, + "grad_norm": 2.981050968170166, + "learning_rate": 4.8296860257861585e-06, + "loss": 0.2962, + "step": 6351 + }, + { + "epoch": 2.1173333333333333, + "grad_norm": 2.3433773517608643, + "learning_rate": 4.8263665408527685e-06, + "loss": 0.2662, + "step": 6352 + }, + { + "epoch": 2.1176666666666666, + "grad_norm": 3.0894832611083984, + "learning_rate": 4.823047834180541e-06, + "loss": 0.3808, + "step": 6353 + }, + { + "epoch": 2.118, + "grad_norm": 2.709752321243286, + "learning_rate": 4.8197299062687e-06, + "loss": 0.2897, + "step": 6354 + }, + { + "epoch": 2.118333333333333, + "grad_norm": 2.2213313579559326, + "learning_rate": 4.816412757616361e-06, + "loss": 0.2887, + "step": 6355 + }, + { + "epoch": 2.1186666666666665, + "grad_norm": 3.145595073699951, + "learning_rate": 4.8130963887225205e-06, + "loss": 0.3147, + "step": 6356 + }, + { + "epoch": 2.1189999999999998, + "grad_norm": 3.2162957191467285, + "learning_rate": 4.809780800086046e-06, + "loss": 0.3059, + "step": 6357 + }, + { + "epoch": 2.1193333333333335, + "grad_norm": 3.365649700164795, + "learning_rate": 4.8064659922057e-06, + "loss": 0.2973, + "step": 6358 + }, + { + "epoch": 2.119666666666667, + "grad_norm": 2.6793429851531982, + "learning_rate": 4.803151965580124e-06, + "loss": 0.3384, + "step": 6359 + }, + { + "epoch": 2.12, + "grad_norm": 3.0028250217437744, + "learning_rate": 4.799838720707847e-06, + "loss": 0.3088, + "step": 6360 + }, + { + "epoch": 2.1203333333333334, + "grad_norm": 2.4321722984313965, + "learning_rate": 4.796526258087264e-06, + "loss": 0.3244, + "step": 6361 + }, + { + "epoch": 2.1206666666666667, + "grad_norm": 3.7089648246765137, + "learning_rate": 4.793214578216673e-06, + "loss": 0.3302, + "step": 6362 + }, + { + "epoch": 2.121, + "grad_norm": 2.7312204837799072, + "learning_rate": 4.78990368159424e-06, + "loss": 0.3235, + "step": 6363 + }, + { + "epoch": 2.1213333333333333, + "grad_norm": 3.2069785594940186, + "learning_rate": 4.786593568718015e-06, + "loss": 0.3487, + "step": 6364 + }, + { + "epoch": 2.1216666666666666, + "grad_norm": 2.6082873344421387, + "learning_rate": 4.783284240085936e-06, + "loss": 0.312, + "step": 6365 + }, + { + "epoch": 2.122, + "grad_norm": 1.8880831003189087, + "learning_rate": 4.7799756961958195e-06, + "loss": 0.3214, + "step": 6366 + }, + { + "epoch": 2.122333333333333, + "grad_norm": 2.237048387527466, + "learning_rate": 4.7766679375453685e-06, + "loss": 0.3083, + "step": 6367 + }, + { + "epoch": 2.1226666666666665, + "grad_norm": 2.2853009700775146, + "learning_rate": 4.773360964632155e-06, + "loss": 0.3259, + "step": 6368 + }, + { + "epoch": 2.123, + "grad_norm": 2.425917148590088, + "learning_rate": 4.770054777953647e-06, + "loss": 0.2729, + "step": 6369 + }, + { + "epoch": 2.1233333333333335, + "grad_norm": 2.9128873348236084, + "learning_rate": 4.766749378007193e-06, + "loss": 0.3172, + "step": 6370 + }, + { + "epoch": 2.123666666666667, + "grad_norm": 2.6433751583099365, + "learning_rate": 4.7634447652900085e-06, + "loss": 0.3146, + "step": 6371 + }, + { + "epoch": 2.124, + "grad_norm": 2.673581123352051, + "learning_rate": 4.76014094029921e-06, + "loss": 0.2891, + "step": 6372 + }, + { + "epoch": 2.1243333333333334, + "grad_norm": 3.6565418243408203, + "learning_rate": 4.75683790353178e-06, + "loss": 0.3075, + "step": 6373 + }, + { + "epoch": 2.1246666666666667, + "grad_norm": 2.89543080329895, + "learning_rate": 4.753535655484595e-06, + "loss": 0.3149, + "step": 6374 + }, + { + "epoch": 2.125, + "grad_norm": 2.808878183364868, + "learning_rate": 4.7502341966544e-06, + "loss": 0.3241, + "step": 6375 + }, + { + "epoch": 2.1253333333333333, + "grad_norm": 2.5995099544525146, + "learning_rate": 4.74693352753783e-06, + "loss": 0.2811, + "step": 6376 + }, + { + "epoch": 2.1256666666666666, + "grad_norm": 2.1840286254882812, + "learning_rate": 4.743633648631406e-06, + "loss": 0.2662, + "step": 6377 + }, + { + "epoch": 2.126, + "grad_norm": 2.4371511936187744, + "learning_rate": 4.7403345604315135e-06, + "loss": 0.3358, + "step": 6378 + }, + { + "epoch": 2.126333333333333, + "grad_norm": 2.123777151107788, + "learning_rate": 4.7370362634344335e-06, + "loss": 0.2879, + "step": 6379 + }, + { + "epoch": 2.1266666666666665, + "grad_norm": 3.653169631958008, + "learning_rate": 4.733738758136327e-06, + "loss": 0.354, + "step": 6380 + }, + { + "epoch": 2.127, + "grad_norm": 2.5866377353668213, + "learning_rate": 4.7304420450332244e-06, + "loss": 0.3476, + "step": 6381 + }, + { + "epoch": 2.1273333333333335, + "grad_norm": 2.750919818878174, + "learning_rate": 4.727146124621054e-06, + "loss": 0.3315, + "step": 6382 + }, + { + "epoch": 2.127666666666667, + "grad_norm": 2.253031015396118, + "learning_rate": 4.723850997395605e-06, + "loss": 0.3582, + "step": 6383 + }, + { + "epoch": 2.128, + "grad_norm": 3.733321189880371, + "learning_rate": 4.720556663852569e-06, + "loss": 0.3069, + "step": 6384 + }, + { + "epoch": 2.1283333333333334, + "grad_norm": 2.9074156284332275, + "learning_rate": 4.7172631244874965e-06, + "loss": 0.2932, + "step": 6385 + }, + { + "epoch": 2.1286666666666667, + "grad_norm": 2.6236379146575928, + "learning_rate": 4.713970379795836e-06, + "loss": 0.3165, + "step": 6386 + }, + { + "epoch": 2.129, + "grad_norm": 2.345994710922241, + "learning_rate": 4.710678430272907e-06, + "loss": 0.328, + "step": 6387 + }, + { + "epoch": 2.1293333333333333, + "grad_norm": 2.3997106552124023, + "learning_rate": 4.707387276413918e-06, + "loss": 0.3145, + "step": 6388 + }, + { + "epoch": 2.1296666666666666, + "grad_norm": 2.786710739135742, + "learning_rate": 4.7040969187139425e-06, + "loss": 0.3102, + "step": 6389 + }, + { + "epoch": 2.13, + "grad_norm": 2.718306064605713, + "learning_rate": 4.700807357667953e-06, + "loss": 0.3087, + "step": 6390 + }, + { + "epoch": 2.130333333333333, + "grad_norm": 2.9089651107788086, + "learning_rate": 4.6975185937707825e-06, + "loss": 0.3442, + "step": 6391 + }, + { + "epoch": 2.1306666666666665, + "grad_norm": 2.491276979446411, + "learning_rate": 4.6942306275171646e-06, + "loss": 0.3355, + "step": 6392 + }, + { + "epoch": 2.1310000000000002, + "grad_norm": 3.9609174728393555, + "learning_rate": 4.690943459401693e-06, + "loss": 0.321, + "step": 6393 + }, + { + "epoch": 2.1313333333333335, + "grad_norm": 2.381281852722168, + "learning_rate": 4.687657089918858e-06, + "loss": 0.3124, + "step": 6394 + }, + { + "epoch": 2.131666666666667, + "grad_norm": 2.2917628288269043, + "learning_rate": 4.684371519563022e-06, + "loss": 0.3241, + "step": 6395 + }, + { + "epoch": 2.132, + "grad_norm": 2.3022918701171875, + "learning_rate": 4.681086748828424e-06, + "loss": 0.3336, + "step": 6396 + }, + { + "epoch": 2.1323333333333334, + "grad_norm": 2.23095440864563, + "learning_rate": 4.677802778209188e-06, + "loss": 0.3104, + "step": 6397 + }, + { + "epoch": 2.1326666666666667, + "grad_norm": 2.566776990890503, + "learning_rate": 4.674519608199323e-06, + "loss": 0.3369, + "step": 6398 + }, + { + "epoch": 2.133, + "grad_norm": 2.613136053085327, + "learning_rate": 4.671237239292699e-06, + "loss": 0.3406, + "step": 6399 + }, + { + "epoch": 2.1333333333333333, + "grad_norm": 2.4464359283447266, + "learning_rate": 4.66795567198309e-06, + "loss": 0.3177, + "step": 6400 + }, + { + "epoch": 2.1336666666666666, + "grad_norm": 2.601344108581543, + "learning_rate": 4.664674906764125e-06, + "loss": 0.3251, + "step": 6401 + }, + { + "epoch": 2.134, + "grad_norm": 3.079507350921631, + "learning_rate": 4.661394944129334e-06, + "loss": 0.2877, + "step": 6402 + }, + { + "epoch": 2.134333333333333, + "grad_norm": 2.2503788471221924, + "learning_rate": 4.658115784572108e-06, + "loss": 0.3399, + "step": 6403 + }, + { + "epoch": 2.1346666666666665, + "grad_norm": 3.302725076675415, + "learning_rate": 4.654837428585729e-06, + "loss": 0.3127, + "step": 6404 + }, + { + "epoch": 2.135, + "grad_norm": 4.661499977111816, + "learning_rate": 4.65155987666336e-06, + "loss": 0.3475, + "step": 6405 + }, + { + "epoch": 2.1353333333333335, + "grad_norm": 2.3793954849243164, + "learning_rate": 4.648283129298028e-06, + "loss": 0.3123, + "step": 6406 + }, + { + "epoch": 2.135666666666667, + "grad_norm": 2.9585206508636475, + "learning_rate": 4.645007186982654e-06, + "loss": 0.3303, + "step": 6407 + }, + { + "epoch": 2.136, + "grad_norm": 2.7871804237365723, + "learning_rate": 4.641732050210032e-06, + "loss": 0.3102, + "step": 6408 + }, + { + "epoch": 2.1363333333333334, + "grad_norm": 1.983106255531311, + "learning_rate": 4.638457719472839e-06, + "loss": 0.3437, + "step": 6409 + }, + { + "epoch": 2.1366666666666667, + "grad_norm": 2.6880764961242676, + "learning_rate": 4.635184195263624e-06, + "loss": 0.3109, + "step": 6410 + }, + { + "epoch": 2.137, + "grad_norm": 3.153519630432129, + "learning_rate": 4.631911478074815e-06, + "loss": 0.3434, + "step": 6411 + }, + { + "epoch": 2.1373333333333333, + "grad_norm": 3.532078504562378, + "learning_rate": 4.628639568398728e-06, + "loss": 0.2977, + "step": 6412 + }, + { + "epoch": 2.1376666666666666, + "grad_norm": 2.05910325050354, + "learning_rate": 4.625368466727542e-06, + "loss": 0.2838, + "step": 6413 + }, + { + "epoch": 2.138, + "grad_norm": 2.3909687995910645, + "learning_rate": 4.622098173553329e-06, + "loss": 0.3141, + "step": 6414 + }, + { + "epoch": 2.138333333333333, + "grad_norm": 2.5101168155670166, + "learning_rate": 4.618828689368033e-06, + "loss": 0.3149, + "step": 6415 + }, + { + "epoch": 2.1386666666666665, + "grad_norm": 2.957582950592041, + "learning_rate": 4.615560014663483e-06, + "loss": 0.3204, + "step": 6416 + }, + { + "epoch": 2.1390000000000002, + "grad_norm": 2.9396700859069824, + "learning_rate": 4.612292149931369e-06, + "loss": 0.3476, + "step": 6417 + }, + { + "epoch": 2.1393333333333335, + "grad_norm": 3.8331844806671143, + "learning_rate": 4.609025095663278e-06, + "loss": 0.3082, + "step": 6418 + }, + { + "epoch": 2.139666666666667, + "grad_norm": 3.37829852104187, + "learning_rate": 4.605758852350669e-06, + "loss": 0.331, + "step": 6419 + }, + { + "epoch": 2.14, + "grad_norm": 3.2010891437530518, + "learning_rate": 4.6024934204848745e-06, + "loss": 0.3609, + "step": 6420 + }, + { + "epoch": 2.1403333333333334, + "grad_norm": 2.740877628326416, + "learning_rate": 4.599228800557104e-06, + "loss": 0.3048, + "step": 6421 + }, + { + "epoch": 2.1406666666666667, + "grad_norm": 2.689948797225952, + "learning_rate": 4.595964993058454e-06, + "loss": 0.3467, + "step": 6422 + }, + { + "epoch": 2.141, + "grad_norm": 2.824436664581299, + "learning_rate": 4.592701998479896e-06, + "loss": 0.3177, + "step": 6423 + }, + { + "epoch": 2.1413333333333333, + "grad_norm": 2.258425235748291, + "learning_rate": 4.589439817312269e-06, + "loss": 0.302, + "step": 6424 + }, + { + "epoch": 2.1416666666666666, + "grad_norm": 2.863478183746338, + "learning_rate": 4.586178450046304e-06, + "loss": 0.3159, + "step": 6425 + }, + { + "epoch": 2.142, + "grad_norm": 2.393861770629883, + "learning_rate": 4.582917897172603e-06, + "loss": 0.3187, + "step": 6426 + }, + { + "epoch": 2.142333333333333, + "grad_norm": 2.897693157196045, + "learning_rate": 4.579658159181641e-06, + "loss": 0.3056, + "step": 6427 + }, + { + "epoch": 2.1426666666666665, + "grad_norm": 3.358215093612671, + "learning_rate": 4.576399236563778e-06, + "loss": 0.3263, + "step": 6428 + }, + { + "epoch": 2.143, + "grad_norm": 2.3861770629882812, + "learning_rate": 4.573141129809252e-06, + "loss": 0.2946, + "step": 6429 + }, + { + "epoch": 2.1433333333333335, + "grad_norm": 2.387828826904297, + "learning_rate": 4.56988383940817e-06, + "loss": 0.3169, + "step": 6430 + }, + { + "epoch": 2.143666666666667, + "grad_norm": 2.6957077980041504, + "learning_rate": 4.566627365850519e-06, + "loss": 0.3321, + "step": 6431 + }, + { + "epoch": 2.144, + "grad_norm": 2.1304328441619873, + "learning_rate": 4.563371709626167e-06, + "loss": 0.3263, + "step": 6432 + }, + { + "epoch": 2.1443333333333334, + "grad_norm": 2.8230037689208984, + "learning_rate": 4.560116871224862e-06, + "loss": 0.3008, + "step": 6433 + }, + { + "epoch": 2.1446666666666667, + "grad_norm": 3.0186874866485596, + "learning_rate": 4.556862851136216e-06, + "loss": 0.3305, + "step": 6434 + }, + { + "epoch": 2.145, + "grad_norm": 2.553173065185547, + "learning_rate": 4.5536096498497295e-06, + "loss": 0.3037, + "step": 6435 + }, + { + "epoch": 2.1453333333333333, + "grad_norm": 2.6542038917541504, + "learning_rate": 4.5503572678547754e-06, + "loss": 0.3466, + "step": 6436 + }, + { + "epoch": 2.1456666666666666, + "grad_norm": 2.2195358276367188, + "learning_rate": 4.54710570564061e-06, + "loss": 0.3505, + "step": 6437 + }, + { + "epoch": 2.146, + "grad_norm": 2.7498979568481445, + "learning_rate": 4.5438549636963534e-06, + "loss": 0.2971, + "step": 6438 + }, + { + "epoch": 2.146333333333333, + "grad_norm": 2.257662773132324, + "learning_rate": 4.5406050425110095e-06, + "loss": 0.2786, + "step": 6439 + }, + { + "epoch": 2.1466666666666665, + "grad_norm": 3.400212049484253, + "learning_rate": 4.537355942573464e-06, + "loss": 0.3473, + "step": 6440 + }, + { + "epoch": 2.147, + "grad_norm": 2.387885570526123, + "learning_rate": 4.534107664372466e-06, + "loss": 0.3192, + "step": 6441 + }, + { + "epoch": 2.1473333333333335, + "grad_norm": 2.3865063190460205, + "learning_rate": 4.5308602083966534e-06, + "loss": 0.3208, + "step": 6442 + }, + { + "epoch": 2.147666666666667, + "grad_norm": 2.8084890842437744, + "learning_rate": 4.527613575134534e-06, + "loss": 0.3131, + "step": 6443 + }, + { + "epoch": 2.148, + "grad_norm": 2.425896644592285, + "learning_rate": 4.524367765074499e-06, + "loss": 0.3428, + "step": 6444 + }, + { + "epoch": 2.1483333333333334, + "grad_norm": 2.8742897510528564, + "learning_rate": 4.521122778704802e-06, + "loss": 0.3352, + "step": 6445 + }, + { + "epoch": 2.1486666666666667, + "grad_norm": 2.30307936668396, + "learning_rate": 4.517878616513585e-06, + "loss": 0.3264, + "step": 6446 + }, + { + "epoch": 2.149, + "grad_norm": 2.642223596572876, + "learning_rate": 4.514635278988866e-06, + "loss": 0.3352, + "step": 6447 + }, + { + "epoch": 2.1493333333333333, + "grad_norm": 2.3251383304595947, + "learning_rate": 4.51139276661853e-06, + "loss": 0.3274, + "step": 6448 + }, + { + "epoch": 2.1496666666666666, + "grad_norm": 2.1730093955993652, + "learning_rate": 4.50815107989034e-06, + "loss": 0.3119, + "step": 6449 + }, + { + "epoch": 2.15, + "grad_norm": 2.6208269596099854, + "learning_rate": 4.504910219291941e-06, + "loss": 0.3197, + "step": 6450 + }, + { + "epoch": 2.150333333333333, + "grad_norm": 2.4784791469573975, + "learning_rate": 4.501670185310853e-06, + "loss": 0.2986, + "step": 6451 + }, + { + "epoch": 2.1506666666666665, + "grad_norm": 2.5759637355804443, + "learning_rate": 4.498430978434464e-06, + "loss": 0.3355, + "step": 6452 + }, + { + "epoch": 2.151, + "grad_norm": 2.7811195850372314, + "learning_rate": 4.495192599150045e-06, + "loss": 0.309, + "step": 6453 + }, + { + "epoch": 2.1513333333333335, + "grad_norm": 3.125481128692627, + "learning_rate": 4.491955047944743e-06, + "loss": 0.295, + "step": 6454 + }, + { + "epoch": 2.151666666666667, + "grad_norm": 2.7365047931671143, + "learning_rate": 4.48871832530557e-06, + "loss": 0.3125, + "step": 6455 + }, + { + "epoch": 2.152, + "grad_norm": 2.0694382190704346, + "learning_rate": 4.4854824317194266e-06, + "loss": 0.2748, + "step": 6456 + }, + { + "epoch": 2.1523333333333334, + "grad_norm": 3.0090038776397705, + "learning_rate": 4.482247367673086e-06, + "loss": 0.3102, + "step": 6457 + }, + { + "epoch": 2.1526666666666667, + "grad_norm": 3.19936203956604, + "learning_rate": 4.4790131336531885e-06, + "loss": 0.3036, + "step": 6458 + }, + { + "epoch": 2.153, + "grad_norm": 2.3554399013519287, + "learning_rate": 4.475779730146252e-06, + "loss": 0.3065, + "step": 6459 + }, + { + "epoch": 2.1533333333333333, + "grad_norm": 2.5382132530212402, + "learning_rate": 4.472547157638674e-06, + "loss": 0.3255, + "step": 6460 + }, + { + "epoch": 2.1536666666666666, + "grad_norm": 2.6401994228363037, + "learning_rate": 4.469315416616732e-06, + "loss": 0.3028, + "step": 6461 + }, + { + "epoch": 2.154, + "grad_norm": 2.219165802001953, + "learning_rate": 4.46608450756656e-06, + "loss": 0.3015, + "step": 6462 + }, + { + "epoch": 2.154333333333333, + "grad_norm": 3.1542959213256836, + "learning_rate": 4.462854430974186e-06, + "loss": 0.3319, + "step": 6463 + }, + { + "epoch": 2.1546666666666665, + "grad_norm": 3.563854932785034, + "learning_rate": 4.459625187325503e-06, + "loss": 0.3227, + "step": 6464 + }, + { + "epoch": 2.155, + "grad_norm": 2.1474051475524902, + "learning_rate": 4.4563967771062856e-06, + "loss": 0.276, + "step": 6465 + }, + { + "epoch": 2.155333333333333, + "grad_norm": 3.197709321975708, + "learning_rate": 4.45316920080217e-06, + "loss": 0.3509, + "step": 6466 + }, + { + "epoch": 2.155666666666667, + "grad_norm": 2.623553514480591, + "learning_rate": 4.449942458898682e-06, + "loss": 0.3406, + "step": 6467 + }, + { + "epoch": 2.156, + "grad_norm": 3.747795581817627, + "learning_rate": 4.446716551881213e-06, + "loss": 0.3522, + "step": 6468 + }, + { + "epoch": 2.1563333333333334, + "grad_norm": 2.347576379776001, + "learning_rate": 4.443491480235025e-06, + "loss": 0.3093, + "step": 6469 + }, + { + "epoch": 2.1566666666666667, + "grad_norm": 2.2209601402282715, + "learning_rate": 4.4402672444452664e-06, + "loss": 0.3085, + "step": 6470 + }, + { + "epoch": 2.157, + "grad_norm": 2.733924388885498, + "learning_rate": 4.437043844996952e-06, + "loss": 0.2932, + "step": 6471 + }, + { + "epoch": 2.1573333333333333, + "grad_norm": 3.4174883365631104, + "learning_rate": 4.433821282374976e-06, + "loss": 0.3249, + "step": 6472 + }, + { + "epoch": 2.1576666666666666, + "grad_norm": 3.033153772354126, + "learning_rate": 4.430599557064097e-06, + "loss": 0.3543, + "step": 6473 + }, + { + "epoch": 2.158, + "grad_norm": 2.3896214962005615, + "learning_rate": 4.427378669548958e-06, + "loss": 0.327, + "step": 6474 + }, + { + "epoch": 2.158333333333333, + "grad_norm": 2.180675983428955, + "learning_rate": 4.424158620314073e-06, + "loss": 0.3, + "step": 6475 + }, + { + "epoch": 2.1586666666666665, + "grad_norm": 2.4514684677124023, + "learning_rate": 4.420939409843823e-06, + "loss": 0.3168, + "step": 6476 + }, + { + "epoch": 2.159, + "grad_norm": 2.5434436798095703, + "learning_rate": 4.417721038622476e-06, + "loss": 0.3314, + "step": 6477 + }, + { + "epoch": 2.1593333333333335, + "grad_norm": 2.7006113529205322, + "learning_rate": 4.414503507134159e-06, + "loss": 0.3066, + "step": 6478 + }, + { + "epoch": 2.159666666666667, + "grad_norm": 2.1610898971557617, + "learning_rate": 4.411286815862887e-06, + "loss": 0.3179, + "step": 6479 + }, + { + "epoch": 2.16, + "grad_norm": 2.9276645183563232, + "learning_rate": 4.408070965292534e-06, + "loss": 0.2899, + "step": 6480 + }, + { + "epoch": 2.1603333333333334, + "grad_norm": 2.4104154109954834, + "learning_rate": 4.404855955906858e-06, + "loss": 0.3221, + "step": 6481 + }, + { + "epoch": 2.1606666666666667, + "grad_norm": 2.574270248413086, + "learning_rate": 4.401641788189492e-06, + "loss": 0.2953, + "step": 6482 + }, + { + "epoch": 2.161, + "grad_norm": 3.585681200027466, + "learning_rate": 4.398428462623932e-06, + "loss": 0.3331, + "step": 6483 + }, + { + "epoch": 2.1613333333333333, + "grad_norm": 2.8670530319213867, + "learning_rate": 4.395215979693556e-06, + "loss": 0.3483, + "step": 6484 + }, + { + "epoch": 2.1616666666666666, + "grad_norm": 2.3947556018829346, + "learning_rate": 4.392004339881615e-06, + "loss": 0.3023, + "step": 6485 + }, + { + "epoch": 2.162, + "grad_norm": 3.4425549507141113, + "learning_rate": 4.388793543671225e-06, + "loss": 0.2893, + "step": 6486 + }, + { + "epoch": 2.162333333333333, + "grad_norm": 2.304880142211914, + "learning_rate": 4.385583591545387e-06, + "loss": 0.2915, + "step": 6487 + }, + { + "epoch": 2.1626666666666665, + "grad_norm": 2.389173984527588, + "learning_rate": 4.382374483986961e-06, + "loss": 0.3146, + "step": 6488 + }, + { + "epoch": 2.163, + "grad_norm": 2.833306312561035, + "learning_rate": 4.379166221478697e-06, + "loss": 0.2913, + "step": 6489 + }, + { + "epoch": 2.163333333333333, + "grad_norm": 2.4034981727600098, + "learning_rate": 4.375958804503201e-06, + "loss": 0.3352, + "step": 6490 + }, + { + "epoch": 2.163666666666667, + "grad_norm": 2.5737948417663574, + "learning_rate": 4.3727522335429605e-06, + "loss": 0.328, + "step": 6491 + }, + { + "epoch": 2.164, + "grad_norm": 2.958028793334961, + "learning_rate": 4.369546509080338e-06, + "loss": 0.3198, + "step": 6492 + }, + { + "epoch": 2.1643333333333334, + "grad_norm": 2.877260446548462, + "learning_rate": 4.366341631597567e-06, + "loss": 0.3097, + "step": 6493 + }, + { + "epoch": 2.1646666666666667, + "grad_norm": 2.395108699798584, + "learning_rate": 4.363137601576746e-06, + "loss": 0.3393, + "step": 6494 + }, + { + "epoch": 2.165, + "grad_norm": 3.332504987716675, + "learning_rate": 4.359934419499859e-06, + "loss": 0.3531, + "step": 6495 + }, + { + "epoch": 2.1653333333333333, + "grad_norm": 2.676037549972534, + "learning_rate": 4.356732085848749e-06, + "loss": 0.3136, + "step": 6496 + }, + { + "epoch": 2.1656666666666666, + "grad_norm": 3.3838629722595215, + "learning_rate": 4.353530601105138e-06, + "loss": 0.3267, + "step": 6497 + }, + { + "epoch": 2.166, + "grad_norm": 2.6364121437072754, + "learning_rate": 4.350329965750622e-06, + "loss": 0.3014, + "step": 6498 + }, + { + "epoch": 2.166333333333333, + "grad_norm": 2.7879154682159424, + "learning_rate": 4.347130180266668e-06, + "loss": 0.3294, + "step": 6499 + }, + { + "epoch": 2.1666666666666665, + "grad_norm": 2.6425633430480957, + "learning_rate": 4.343931245134616e-06, + "loss": 0.2858, + "step": 6500 + }, + { + "epoch": 2.167, + "grad_norm": 2.786630868911743, + "learning_rate": 4.3407331608356715e-06, + "loss": 0.2807, + "step": 6501 + }, + { + "epoch": 2.1673333333333336, + "grad_norm": 2.3994219303131104, + "learning_rate": 4.33753592785092e-06, + "loss": 0.3182, + "step": 6502 + }, + { + "epoch": 2.167666666666667, + "grad_norm": 2.6204426288604736, + "learning_rate": 4.33433954666132e-06, + "loss": 0.2989, + "step": 6503 + }, + { + "epoch": 2.168, + "grad_norm": 2.6678853034973145, + "learning_rate": 4.33114401774769e-06, + "loss": 0.2828, + "step": 6504 + }, + { + "epoch": 2.1683333333333334, + "grad_norm": 2.500805616378784, + "learning_rate": 4.327949341590736e-06, + "loss": 0.3199, + "step": 6505 + }, + { + "epoch": 2.1686666666666667, + "grad_norm": 3.278581380844116, + "learning_rate": 4.32475551867102e-06, + "loss": 0.3361, + "step": 6506 + }, + { + "epoch": 2.169, + "grad_norm": 3.8741471767425537, + "learning_rate": 4.321562549468991e-06, + "loss": 0.3351, + "step": 6507 + }, + { + "epoch": 2.1693333333333333, + "grad_norm": 2.77289080619812, + "learning_rate": 4.318370434464954e-06, + "loss": 0.2985, + "step": 6508 + }, + { + "epoch": 2.1696666666666666, + "grad_norm": 2.5797863006591797, + "learning_rate": 4.315179174139099e-06, + "loss": 0.2539, + "step": 6509 + }, + { + "epoch": 2.17, + "grad_norm": 2.679236650466919, + "learning_rate": 4.311988768971484e-06, + "loss": 0.3279, + "step": 6510 + }, + { + "epoch": 2.1703333333333332, + "grad_norm": 3.1864631175994873, + "learning_rate": 4.308799219442032e-06, + "loss": 0.3298, + "step": 6511 + }, + { + "epoch": 2.1706666666666665, + "grad_norm": 3.460164785385132, + "learning_rate": 4.305610526030542e-06, + "loss": 0.3045, + "step": 6512 + }, + { + "epoch": 2.171, + "grad_norm": 3.0894851684570312, + "learning_rate": 4.302422689216684e-06, + "loss": 0.2872, + "step": 6513 + }, + { + "epoch": 2.171333333333333, + "grad_norm": 2.38299298286438, + "learning_rate": 4.299235709480004e-06, + "loss": 0.3157, + "step": 6514 + }, + { + "epoch": 2.171666666666667, + "grad_norm": 2.6571707725524902, + "learning_rate": 4.296049587299912e-06, + "loss": 0.3195, + "step": 6515 + }, + { + "epoch": 2.172, + "grad_norm": 2.4700543880462646, + "learning_rate": 4.292864323155684e-06, + "loss": 0.2896, + "step": 6516 + }, + { + "epoch": 2.1723333333333334, + "grad_norm": 2.3314902782440186, + "learning_rate": 4.289679917526481e-06, + "loss": 0.2935, + "step": 6517 + }, + { + "epoch": 2.1726666666666667, + "grad_norm": 2.5525712966918945, + "learning_rate": 4.286496370891329e-06, + "loss": 0.2863, + "step": 6518 + }, + { + "epoch": 2.173, + "grad_norm": 2.5366389751434326, + "learning_rate": 4.2833136837291165e-06, + "loss": 0.3034, + "step": 6519 + }, + { + "epoch": 2.1733333333333333, + "grad_norm": 2.847135305404663, + "learning_rate": 4.2801318565186165e-06, + "loss": 0.3004, + "step": 6520 + }, + { + "epoch": 2.1736666666666666, + "grad_norm": 2.4701356887817383, + "learning_rate": 4.276950889738466e-06, + "loss": 0.3273, + "step": 6521 + }, + { + "epoch": 2.174, + "grad_norm": 2.36368465423584, + "learning_rate": 4.273770783867167e-06, + "loss": 0.3138, + "step": 6522 + }, + { + "epoch": 2.1743333333333332, + "grad_norm": 3.014298915863037, + "learning_rate": 4.2705915393831055e-06, + "loss": 0.2993, + "step": 6523 + }, + { + "epoch": 2.1746666666666665, + "grad_norm": 3.254816770553589, + "learning_rate": 4.267413156764522e-06, + "loss": 0.3397, + "step": 6524 + }, + { + "epoch": 2.175, + "grad_norm": 3.5447475910186768, + "learning_rate": 4.264235636489542e-06, + "loss": 0.3436, + "step": 6525 + }, + { + "epoch": 2.1753333333333336, + "grad_norm": 2.621342897415161, + "learning_rate": 4.261058979036148e-06, + "loss": 0.3197, + "step": 6526 + }, + { + "epoch": 2.175666666666667, + "grad_norm": 2.4868052005767822, + "learning_rate": 4.257883184882203e-06, + "loss": 0.3007, + "step": 6527 + }, + { + "epoch": 2.176, + "grad_norm": 2.2955691814422607, + "learning_rate": 4.25470825450544e-06, + "loss": 0.339, + "step": 6528 + }, + { + "epoch": 2.1763333333333335, + "grad_norm": 2.7995834350585938, + "learning_rate": 4.2515341883834525e-06, + "loss": 0.3091, + "step": 6529 + }, + { + "epoch": 2.1766666666666667, + "grad_norm": 2.5704565048217773, + "learning_rate": 4.2483609869937115e-06, + "loss": 0.3223, + "step": 6530 + }, + { + "epoch": 2.177, + "grad_norm": 2.682403087615967, + "learning_rate": 4.245188650813559e-06, + "loss": 0.3028, + "step": 6531 + }, + { + "epoch": 2.1773333333333333, + "grad_norm": 2.8559982776641846, + "learning_rate": 4.242017180320205e-06, + "loss": 0.3232, + "step": 6532 + }, + { + "epoch": 2.1776666666666666, + "grad_norm": 2.015151262283325, + "learning_rate": 4.238846575990726e-06, + "loss": 0.3314, + "step": 6533 + }, + { + "epoch": 2.178, + "grad_norm": 2.6281750202178955, + "learning_rate": 4.235676838302069e-06, + "loss": 0.3123, + "step": 6534 + }, + { + "epoch": 2.1783333333333332, + "grad_norm": 4.265559673309326, + "learning_rate": 4.2325079677310575e-06, + "loss": 0.2884, + "step": 6535 + }, + { + "epoch": 2.1786666666666665, + "grad_norm": 2.1238317489624023, + "learning_rate": 4.2293399647543735e-06, + "loss": 0.2798, + "step": 6536 + }, + { + "epoch": 2.179, + "grad_norm": 2.995258092880249, + "learning_rate": 4.226172829848576e-06, + "loss": 0.3332, + "step": 6537 + }, + { + "epoch": 2.179333333333333, + "grad_norm": 2.6831436157226562, + "learning_rate": 4.223006563490095e-06, + "loss": 0.3099, + "step": 6538 + }, + { + "epoch": 2.179666666666667, + "grad_norm": 2.934586524963379, + "learning_rate": 4.219841166155228e-06, + "loss": 0.3422, + "step": 6539 + }, + { + "epoch": 2.18, + "grad_norm": 2.4317617416381836, + "learning_rate": 4.216676638320135e-06, + "loss": 0.3101, + "step": 6540 + }, + { + "epoch": 2.1803333333333335, + "grad_norm": 2.4213805198669434, + "learning_rate": 4.213512980460853e-06, + "loss": 0.2949, + "step": 6541 + }, + { + "epoch": 2.1806666666666668, + "grad_norm": 2.647028923034668, + "learning_rate": 4.21035019305329e-06, + "loss": 0.3603, + "step": 6542 + }, + { + "epoch": 2.181, + "grad_norm": 2.4198460578918457, + "learning_rate": 4.207188276573214e-06, + "loss": 0.3257, + "step": 6543 + }, + { + "epoch": 2.1813333333333333, + "grad_norm": 2.1898529529571533, + "learning_rate": 4.204027231496266e-06, + "loss": 0.2961, + "step": 6544 + }, + { + "epoch": 2.1816666666666666, + "grad_norm": 3.036764621734619, + "learning_rate": 4.200867058297959e-06, + "loss": 0.2841, + "step": 6545 + }, + { + "epoch": 2.182, + "grad_norm": 2.7645070552825928, + "learning_rate": 4.197707757453675e-06, + "loss": 0.311, + "step": 6546 + }, + { + "epoch": 2.1823333333333332, + "grad_norm": 2.6110777854919434, + "learning_rate": 4.194549329438656e-06, + "loss": 0.308, + "step": 6547 + }, + { + "epoch": 2.1826666666666665, + "grad_norm": 2.8378894329071045, + "learning_rate": 4.191391774728024e-06, + "loss": 0.3253, + "step": 6548 + }, + { + "epoch": 2.183, + "grad_norm": 2.401017427444458, + "learning_rate": 4.188235093796768e-06, + "loss": 0.3085, + "step": 6549 + }, + { + "epoch": 2.183333333333333, + "grad_norm": 2.902221202850342, + "learning_rate": 4.185079287119733e-06, + "loss": 0.3152, + "step": 6550 + }, + { + "epoch": 2.183666666666667, + "grad_norm": 2.416741371154785, + "learning_rate": 4.181924355171648e-06, + "loss": 0.3011, + "step": 6551 + }, + { + "epoch": 2.184, + "grad_norm": 3.6818127632141113, + "learning_rate": 4.178770298427107e-06, + "loss": 0.2877, + "step": 6552 + }, + { + "epoch": 2.1843333333333335, + "grad_norm": 2.936256170272827, + "learning_rate": 4.1756171173605654e-06, + "loss": 0.3307, + "step": 6553 + }, + { + "epoch": 2.1846666666666668, + "grad_norm": 2.4013822078704834, + "learning_rate": 4.1724648124463475e-06, + "loss": 0.3233, + "step": 6554 + }, + { + "epoch": 2.185, + "grad_norm": 2.9239659309387207, + "learning_rate": 4.169313384158653e-06, + "loss": 0.2909, + "step": 6555 + }, + { + "epoch": 2.1853333333333333, + "grad_norm": 4.050417900085449, + "learning_rate": 4.166162832971551e-06, + "loss": 0.3174, + "step": 6556 + }, + { + "epoch": 2.1856666666666666, + "grad_norm": 3.6492979526519775, + "learning_rate": 4.163013159358964e-06, + "loss": 0.3177, + "step": 6557 + }, + { + "epoch": 2.186, + "grad_norm": 2.4940311908721924, + "learning_rate": 4.1598643637946975e-06, + "loss": 0.3035, + "step": 6558 + }, + { + "epoch": 2.1863333333333332, + "grad_norm": 2.3350915908813477, + "learning_rate": 4.15671644675242e-06, + "loss": 0.3397, + "step": 6559 + }, + { + "epoch": 2.1866666666666665, + "grad_norm": 2.4398984909057617, + "learning_rate": 4.15356940870567e-06, + "loss": 0.3223, + "step": 6560 + }, + { + "epoch": 2.187, + "grad_norm": 2.5527968406677246, + "learning_rate": 4.150423250127846e-06, + "loss": 0.3062, + "step": 6561 + }, + { + "epoch": 2.187333333333333, + "grad_norm": 2.7459399700164795, + "learning_rate": 4.147277971492223e-06, + "loss": 0.3272, + "step": 6562 + }, + { + "epoch": 2.187666666666667, + "grad_norm": 2.769986867904663, + "learning_rate": 4.144133573271939e-06, + "loss": 0.3184, + "step": 6563 + }, + { + "epoch": 2.188, + "grad_norm": 2.6438143253326416, + "learning_rate": 4.140990055939997e-06, + "loss": 0.3225, + "step": 6564 + }, + { + "epoch": 2.1883333333333335, + "grad_norm": 3.7676138877868652, + "learning_rate": 4.137847419969274e-06, + "loss": 0.3607, + "step": 6565 + }, + { + "epoch": 2.1886666666666668, + "grad_norm": 2.586336374282837, + "learning_rate": 4.134705665832512e-06, + "loss": 0.3214, + "step": 6566 + }, + { + "epoch": 2.189, + "grad_norm": 2.5067567825317383, + "learning_rate": 4.131564794002324e-06, + "loss": 0.3031, + "step": 6567 + }, + { + "epoch": 2.1893333333333334, + "grad_norm": 2.6045923233032227, + "learning_rate": 4.128424804951179e-06, + "loss": 0.3193, + "step": 6568 + }, + { + "epoch": 2.1896666666666667, + "grad_norm": 2.695772886276245, + "learning_rate": 4.125285699151422e-06, + "loss": 0.3136, + "step": 6569 + }, + { + "epoch": 2.19, + "grad_norm": 2.3202786445617676, + "learning_rate": 4.12214747707527e-06, + "loss": 0.28, + "step": 6570 + }, + { + "epoch": 2.1903333333333332, + "grad_norm": 2.34440541267395, + "learning_rate": 4.119010139194791e-06, + "loss": 0.2981, + "step": 6571 + }, + { + "epoch": 2.1906666666666665, + "grad_norm": 4.138936996459961, + "learning_rate": 4.115873685981938e-06, + "loss": 0.3141, + "step": 6572 + }, + { + "epoch": 2.191, + "grad_norm": 3.507793664932251, + "learning_rate": 4.1127381179085145e-06, + "loss": 0.2985, + "step": 6573 + }, + { + "epoch": 2.191333333333333, + "grad_norm": 2.476323366165161, + "learning_rate": 4.109603435446206e-06, + "loss": 0.3397, + "step": 6574 + }, + { + "epoch": 2.191666666666667, + "grad_norm": 2.3662362098693848, + "learning_rate": 4.106469639066552e-06, + "loss": 0.2851, + "step": 6575 + }, + { + "epoch": 2.192, + "grad_norm": 2.378005027770996, + "learning_rate": 4.103336729240967e-06, + "loss": 0.3016, + "step": 6576 + }, + { + "epoch": 2.1923333333333335, + "grad_norm": 3.193324327468872, + "learning_rate": 4.1002047064407325e-06, + "loss": 0.3184, + "step": 6577 + }, + { + "epoch": 2.1926666666666668, + "grad_norm": 3.5931315422058105, + "learning_rate": 4.0970735711369865e-06, + "loss": 0.31, + "step": 6578 + }, + { + "epoch": 2.193, + "grad_norm": 1.9470454454421997, + "learning_rate": 4.093943323800746e-06, + "loss": 0.2774, + "step": 6579 + }, + { + "epoch": 2.1933333333333334, + "grad_norm": 2.4665746688842773, + "learning_rate": 4.090813964902889e-06, + "loss": 0.2958, + "step": 6580 + }, + { + "epoch": 2.1936666666666667, + "grad_norm": 2.492048740386963, + "learning_rate": 4.087685494914159e-06, + "loss": 0.3047, + "step": 6581 + }, + { + "epoch": 2.194, + "grad_norm": 3.040195941925049, + "learning_rate": 4.0845579143051625e-06, + "loss": 0.3338, + "step": 6582 + }, + { + "epoch": 2.1943333333333332, + "grad_norm": 2.2642502784729004, + "learning_rate": 4.081431223546379e-06, + "loss": 0.3101, + "step": 6583 + }, + { + "epoch": 2.1946666666666665, + "grad_norm": 2.451172351837158, + "learning_rate": 4.078305423108155e-06, + "loss": 0.2985, + "step": 6584 + }, + { + "epoch": 2.195, + "grad_norm": 2.307185649871826, + "learning_rate": 4.075180513460695e-06, + "loss": 0.3015, + "step": 6585 + }, + { + "epoch": 2.195333333333333, + "grad_norm": 3.2152156829833984, + "learning_rate": 4.072056495074074e-06, + "loss": 0.2848, + "step": 6586 + }, + { + "epoch": 2.195666666666667, + "grad_norm": 2.2153711318969727, + "learning_rate": 4.068933368418234e-06, + "loss": 0.3416, + "step": 6587 + }, + { + "epoch": 2.196, + "grad_norm": 3.2649621963500977, + "learning_rate": 4.065811133962987e-06, + "loss": 0.3061, + "step": 6588 + }, + { + "epoch": 2.1963333333333335, + "grad_norm": 2.2559516429901123, + "learning_rate": 4.062689792177996e-06, + "loss": 0.3372, + "step": 6589 + }, + { + "epoch": 2.1966666666666668, + "grad_norm": 2.849320650100708, + "learning_rate": 4.059569343532809e-06, + "loss": 0.3025, + "step": 6590 + }, + { + "epoch": 2.197, + "grad_norm": 2.22568941116333, + "learning_rate": 4.056449788496824e-06, + "loss": 0.2667, + "step": 6591 + }, + { + "epoch": 2.1973333333333334, + "grad_norm": 2.6100196838378906, + "learning_rate": 4.05333112753931e-06, + "loss": 0.3103, + "step": 6592 + }, + { + "epoch": 2.1976666666666667, + "grad_norm": 2.2102999687194824, + "learning_rate": 4.0502133611294015e-06, + "loss": 0.3312, + "step": 6593 + }, + { + "epoch": 2.198, + "grad_norm": 3.2255187034606934, + "learning_rate": 4.047096489736102e-06, + "loss": 0.3471, + "step": 6594 + }, + { + "epoch": 2.1983333333333333, + "grad_norm": 2.3316709995269775, + "learning_rate": 4.043980513828281e-06, + "loss": 0.302, + "step": 6595 + }, + { + "epoch": 2.1986666666666665, + "grad_norm": 2.663879871368408, + "learning_rate": 4.04086543387466e-06, + "loss": 0.2887, + "step": 6596 + }, + { + "epoch": 2.199, + "grad_norm": 3.130620241165161, + "learning_rate": 4.037751250343841e-06, + "loss": 0.3285, + "step": 6597 + }, + { + "epoch": 2.199333333333333, + "grad_norm": 2.6648120880126953, + "learning_rate": 4.0346379637042885e-06, + "loss": 0.2964, + "step": 6598 + }, + { + "epoch": 2.1996666666666664, + "grad_norm": 2.931572675704956, + "learning_rate": 4.031525574424322e-06, + "loss": 0.2969, + "step": 6599 + }, + { + "epoch": 2.2, + "grad_norm": 2.5110559463500977, + "learning_rate": 4.028414082972141e-06, + "loss": 0.3114, + "step": 6600 + }, + { + "epoch": 2.2003333333333335, + "grad_norm": 2.6372337341308594, + "learning_rate": 4.025303489815793e-06, + "loss": 0.2935, + "step": 6601 + }, + { + "epoch": 2.2006666666666668, + "grad_norm": 4.232251167297363, + "learning_rate": 4.022193795423208e-06, + "loss": 0.3484, + "step": 6602 + }, + { + "epoch": 2.201, + "grad_norm": 2.424072027206421, + "learning_rate": 4.019085000262164e-06, + "loss": 0.3084, + "step": 6603 + }, + { + "epoch": 2.2013333333333334, + "grad_norm": 2.6973705291748047, + "learning_rate": 4.0159771048003175e-06, + "loss": 0.3288, + "step": 6604 + }, + { + "epoch": 2.2016666666666667, + "grad_norm": 2.9424688816070557, + "learning_rate": 4.012870109505186e-06, + "loss": 0.3095, + "step": 6605 + }, + { + "epoch": 2.202, + "grad_norm": 2.678269624710083, + "learning_rate": 4.009764014844143e-06, + "loss": 0.3182, + "step": 6606 + }, + { + "epoch": 2.2023333333333333, + "grad_norm": 2.8680262565612793, + "learning_rate": 4.006658821284436e-06, + "loss": 0.3152, + "step": 6607 + }, + { + "epoch": 2.2026666666666666, + "grad_norm": 2.3107123374938965, + "learning_rate": 4.003554529293176e-06, + "loss": 0.3131, + "step": 6608 + }, + { + "epoch": 2.203, + "grad_norm": 2.7227046489715576, + "learning_rate": 4.000451139337338e-06, + "loss": 0.308, + "step": 6609 + }, + { + "epoch": 2.203333333333333, + "grad_norm": 2.4196319580078125, + "learning_rate": 3.997348651883757e-06, + "loss": 0.3011, + "step": 6610 + }, + { + "epoch": 2.203666666666667, + "grad_norm": 2.7183797359466553, + "learning_rate": 3.994247067399132e-06, + "loss": 0.3033, + "step": 6611 + }, + { + "epoch": 2.204, + "grad_norm": 2.541820526123047, + "learning_rate": 3.9911463863500365e-06, + "loss": 0.2906, + "step": 6612 + }, + { + "epoch": 2.2043333333333335, + "grad_norm": 2.54455828666687, + "learning_rate": 3.988046609202894e-06, + "loss": 0.3032, + "step": 6613 + }, + { + "epoch": 2.2046666666666668, + "grad_norm": 2.597684144973755, + "learning_rate": 3.984947736424001e-06, + "loss": 0.3133, + "step": 6614 + }, + { + "epoch": 2.205, + "grad_norm": 3.711714506149292, + "learning_rate": 3.981849768479516e-06, + "loss": 0.3272, + "step": 6615 + }, + { + "epoch": 2.2053333333333334, + "grad_norm": 2.9851181507110596, + "learning_rate": 3.978752705835466e-06, + "loss": 0.315, + "step": 6616 + }, + { + "epoch": 2.2056666666666667, + "grad_norm": 2.8546648025512695, + "learning_rate": 3.975656548957729e-06, + "loss": 0.292, + "step": 6617 + }, + { + "epoch": 2.206, + "grad_norm": 2.3444645404815674, + "learning_rate": 3.972561298312063e-06, + "loss": 0.3489, + "step": 6618 + }, + { + "epoch": 2.2063333333333333, + "grad_norm": 3.020400285720825, + "learning_rate": 3.969466954364073e-06, + "loss": 0.3105, + "step": 6619 + }, + { + "epoch": 2.2066666666666666, + "grad_norm": 2.6196837425231934, + "learning_rate": 3.966373517579244e-06, + "loss": 0.2963, + "step": 6620 + }, + { + "epoch": 2.207, + "grad_norm": 2.596961736679077, + "learning_rate": 3.96328098842291e-06, + "loss": 0.3323, + "step": 6621 + }, + { + "epoch": 2.207333333333333, + "grad_norm": 2.4690909385681152, + "learning_rate": 3.960189367360277e-06, + "loss": 0.2652, + "step": 6622 + }, + { + "epoch": 2.2076666666666664, + "grad_norm": 2.7882115840911865, + "learning_rate": 3.957098654856416e-06, + "loss": 0.3154, + "step": 6623 + }, + { + "epoch": 2.208, + "grad_norm": 2.592076301574707, + "learning_rate": 3.954008851376252e-06, + "loss": 0.2629, + "step": 6624 + }, + { + "epoch": 2.2083333333333335, + "grad_norm": 2.433209180831909, + "learning_rate": 3.950919957384583e-06, + "loss": 0.286, + "step": 6625 + }, + { + "epoch": 2.208666666666667, + "grad_norm": 2.6038060188293457, + "learning_rate": 3.9478319733460676e-06, + "loss": 0.2796, + "step": 6626 + }, + { + "epoch": 2.209, + "grad_norm": 2.1002705097198486, + "learning_rate": 3.944744899725221e-06, + "loss": 0.304, + "step": 6627 + }, + { + "epoch": 2.2093333333333334, + "grad_norm": 3.891993761062622, + "learning_rate": 3.9416587369864335e-06, + "loss": 0.3142, + "step": 6628 + }, + { + "epoch": 2.2096666666666667, + "grad_norm": 3.496098279953003, + "learning_rate": 3.938573485593944e-06, + "loss": 0.3368, + "step": 6629 + }, + { + "epoch": 2.21, + "grad_norm": 2.7398815155029297, + "learning_rate": 3.9354891460118695e-06, + "loss": 0.3159, + "step": 6630 + }, + { + "epoch": 2.2103333333333333, + "grad_norm": 2.1396994590759277, + "learning_rate": 3.932405718704173e-06, + "loss": 0.2778, + "step": 6631 + }, + { + "epoch": 2.2106666666666666, + "grad_norm": 2.7826449871063232, + "learning_rate": 3.929323204134695e-06, + "loss": 0.2801, + "step": 6632 + }, + { + "epoch": 2.211, + "grad_norm": 2.3792030811309814, + "learning_rate": 3.9262416027671354e-06, + "loss": 0.2955, + "step": 6633 + }, + { + "epoch": 2.211333333333333, + "grad_norm": 2.899524688720703, + "learning_rate": 3.9231609150650485e-06, + "loss": 0.3472, + "step": 6634 + }, + { + "epoch": 2.211666666666667, + "grad_norm": 3.1884961128234863, + "learning_rate": 3.92008114149186e-06, + "loss": 0.3056, + "step": 6635 + }, + { + "epoch": 2.212, + "grad_norm": 2.659237861633301, + "learning_rate": 3.917002282510854e-06, + "loss": 0.3292, + "step": 6636 + }, + { + "epoch": 2.2123333333333335, + "grad_norm": 2.0496132373809814, + "learning_rate": 3.9139243385851845e-06, + "loss": 0.3015, + "step": 6637 + }, + { + "epoch": 2.212666666666667, + "grad_norm": 3.1880338191986084, + "learning_rate": 3.910847310177856e-06, + "loss": 0.312, + "step": 6638 + }, + { + "epoch": 2.213, + "grad_norm": 3.4589366912841797, + "learning_rate": 3.907771197751737e-06, + "loss": 0.3223, + "step": 6639 + }, + { + "epoch": 2.2133333333333334, + "grad_norm": 3.1715667247772217, + "learning_rate": 3.904696001769571e-06, + "loss": 0.3019, + "step": 6640 + }, + { + "epoch": 2.2136666666666667, + "grad_norm": 2.9132471084594727, + "learning_rate": 3.901621722693946e-06, + "loss": 0.3033, + "step": 6641 + }, + { + "epoch": 2.214, + "grad_norm": 2.291792154312134, + "learning_rate": 3.898548360987325e-06, + "loss": 0.2977, + "step": 6642 + }, + { + "epoch": 2.2143333333333333, + "grad_norm": 3.045686721801758, + "learning_rate": 3.895475917112027e-06, + "loss": 0.3059, + "step": 6643 + }, + { + "epoch": 2.2146666666666666, + "grad_norm": 3.2356436252593994, + "learning_rate": 3.8924043915302415e-06, + "loss": 0.3388, + "step": 6644 + }, + { + "epoch": 2.215, + "grad_norm": 5.786038875579834, + "learning_rate": 3.889333784704003e-06, + "loss": 0.3408, + "step": 6645 + }, + { + "epoch": 2.215333333333333, + "grad_norm": 2.3418657779693604, + "learning_rate": 3.886264097095222e-06, + "loss": 0.2933, + "step": 6646 + }, + { + "epoch": 2.2156666666666665, + "grad_norm": 2.9728403091430664, + "learning_rate": 3.883195329165671e-06, + "loss": 0.3206, + "step": 6647 + }, + { + "epoch": 2.216, + "grad_norm": 3.0097579956054688, + "learning_rate": 3.880127481376975e-06, + "loss": 0.3305, + "step": 6648 + }, + { + "epoch": 2.2163333333333335, + "grad_norm": 2.7563681602478027, + "learning_rate": 3.8770605541906235e-06, + "loss": 0.2934, + "step": 6649 + }, + { + "epoch": 2.216666666666667, + "grad_norm": 2.5649211406707764, + "learning_rate": 3.873994548067972e-06, + "loss": 0.2465, + "step": 6650 + }, + { + "epoch": 2.217, + "grad_norm": 2.496687173843384, + "learning_rate": 3.8709294634702374e-06, + "loss": 0.3337, + "step": 6651 + }, + { + "epoch": 2.2173333333333334, + "grad_norm": 2.9856436252593994, + "learning_rate": 3.867865300858489e-06, + "loss": 0.3275, + "step": 6652 + }, + { + "epoch": 2.2176666666666667, + "grad_norm": 2.2649550437927246, + "learning_rate": 3.8648020606936676e-06, + "loss": 0.2789, + "step": 6653 + }, + { + "epoch": 2.218, + "grad_norm": 2.5028486251831055, + "learning_rate": 3.861739743436575e-06, + "loss": 0.3128, + "step": 6654 + }, + { + "epoch": 2.2183333333333333, + "grad_norm": 2.4213452339172363, + "learning_rate": 3.858678349547862e-06, + "loss": 0.323, + "step": 6655 + }, + { + "epoch": 2.2186666666666666, + "grad_norm": 2.59833025932312, + "learning_rate": 3.855617879488054e-06, + "loss": 0.3365, + "step": 6656 + }, + { + "epoch": 2.219, + "grad_norm": 3.0114428997039795, + "learning_rate": 3.852558333717536e-06, + "loss": 0.3087, + "step": 6657 + }, + { + "epoch": 2.219333333333333, + "grad_norm": 3.3359363079071045, + "learning_rate": 3.849499712696545e-06, + "loss": 0.3187, + "step": 6658 + }, + { + "epoch": 2.219666666666667, + "grad_norm": 2.945455551147461, + "learning_rate": 3.846442016885183e-06, + "loss": 0.3081, + "step": 6659 + }, + { + "epoch": 2.22, + "grad_norm": 3.587653398513794, + "learning_rate": 3.8433852467434175e-06, + "loss": 0.2914, + "step": 6660 + }, + { + "epoch": 2.2203333333333335, + "grad_norm": 3.2927494049072266, + "learning_rate": 3.840329402731077e-06, + "loss": 0.2822, + "step": 6661 + }, + { + "epoch": 2.220666666666667, + "grad_norm": 2.7695536613464355, + "learning_rate": 3.837274485307838e-06, + "loss": 0.2999, + "step": 6662 + }, + { + "epoch": 2.221, + "grad_norm": 3.045480966567993, + "learning_rate": 3.834220494933252e-06, + "loss": 0.3419, + "step": 6663 + }, + { + "epoch": 2.2213333333333334, + "grad_norm": 2.3415791988372803, + "learning_rate": 3.831167432066726e-06, + "loss": 0.2729, + "step": 6664 + }, + { + "epoch": 2.2216666666666667, + "grad_norm": 3.6114466190338135, + "learning_rate": 3.828115297167529e-06, + "loss": 0.3219, + "step": 6665 + }, + { + "epoch": 2.222, + "grad_norm": 2.808091402053833, + "learning_rate": 3.825064090694785e-06, + "loss": 0.3301, + "step": 6666 + }, + { + "epoch": 2.2223333333333333, + "grad_norm": 2.8828938007354736, + "learning_rate": 3.822013813107484e-06, + "loss": 0.3045, + "step": 6667 + }, + { + "epoch": 2.2226666666666666, + "grad_norm": 2.137385606765747, + "learning_rate": 3.818964464864475e-06, + "loss": 0.3034, + "step": 6668 + }, + { + "epoch": 2.223, + "grad_norm": 2.857691764831543, + "learning_rate": 3.81591604642446e-06, + "loss": 0.3238, + "step": 6669 + }, + { + "epoch": 2.223333333333333, + "grad_norm": 2.2954845428466797, + "learning_rate": 3.8128685582460144e-06, + "loss": 0.3117, + "step": 6670 + }, + { + "epoch": 2.2236666666666665, + "grad_norm": 3.5412025451660156, + "learning_rate": 3.809822000787564e-06, + "loss": 0.3324, + "step": 6671 + }, + { + "epoch": 2.224, + "grad_norm": 3.2278387546539307, + "learning_rate": 3.8067763745074017e-06, + "loss": 0.3006, + "step": 6672 + }, + { + "epoch": 2.2243333333333335, + "grad_norm": 2.9415321350097656, + "learning_rate": 3.803731679863669e-06, + "loss": 0.3293, + "step": 6673 + }, + { + "epoch": 2.224666666666667, + "grad_norm": 4.433736801147461, + "learning_rate": 3.8006879173143784e-06, + "loss": 0.3253, + "step": 6674 + }, + { + "epoch": 2.225, + "grad_norm": 2.2546796798706055, + "learning_rate": 3.797645087317401e-06, + "loss": 0.2974, + "step": 6675 + }, + { + "epoch": 2.2253333333333334, + "grad_norm": 2.6168253421783447, + "learning_rate": 3.79460319033046e-06, + "loss": 0.3129, + "step": 6676 + }, + { + "epoch": 2.2256666666666667, + "grad_norm": 2.67207670211792, + "learning_rate": 3.791562226811143e-06, + "loss": 0.3043, + "step": 6677 + }, + { + "epoch": 2.226, + "grad_norm": 3.178563117980957, + "learning_rate": 3.7885221972168974e-06, + "loss": 0.3038, + "step": 6678 + }, + { + "epoch": 2.2263333333333333, + "grad_norm": 2.750715970993042, + "learning_rate": 3.7854831020050343e-06, + "loss": 0.2973, + "step": 6679 + }, + { + "epoch": 2.2266666666666666, + "grad_norm": 5.833286285400391, + "learning_rate": 3.7824449416327123e-06, + "loss": 0.2961, + "step": 6680 + }, + { + "epoch": 2.227, + "grad_norm": 3.725026845932007, + "learning_rate": 3.779407716556962e-06, + "loss": 0.3156, + "step": 6681 + }, + { + "epoch": 2.227333333333333, + "grad_norm": 3.508746862411499, + "learning_rate": 3.77637142723467e-06, + "loss": 0.3002, + "step": 6682 + }, + { + "epoch": 2.2276666666666665, + "grad_norm": 2.3252222537994385, + "learning_rate": 3.7733360741225734e-06, + "loss": 0.3212, + "step": 6683 + }, + { + "epoch": 2.228, + "grad_norm": 2.8248581886291504, + "learning_rate": 3.77030165767728e-06, + "loss": 0.3236, + "step": 6684 + }, + { + "epoch": 2.2283333333333335, + "grad_norm": 3.071352481842041, + "learning_rate": 3.7672681783552557e-06, + "loss": 0.2803, + "step": 6685 + }, + { + "epoch": 2.228666666666667, + "grad_norm": 2.671156167984009, + "learning_rate": 3.7642356366128165e-06, + "loss": 0.3425, + "step": 6686 + }, + { + "epoch": 2.229, + "grad_norm": 3.0220119953155518, + "learning_rate": 3.7612040329061405e-06, + "loss": 0.3299, + "step": 6687 + }, + { + "epoch": 2.2293333333333334, + "grad_norm": 2.6258933544158936, + "learning_rate": 3.7581733676912703e-06, + "loss": 0.2781, + "step": 6688 + }, + { + "epoch": 2.2296666666666667, + "grad_norm": 3.689681053161621, + "learning_rate": 3.755143641424106e-06, + "loss": 0.3188, + "step": 6689 + }, + { + "epoch": 2.23, + "grad_norm": 3.5383760929107666, + "learning_rate": 3.7521148545604003e-06, + "loss": 0.3302, + "step": 6690 + }, + { + "epoch": 2.2303333333333333, + "grad_norm": 2.782818555831909, + "learning_rate": 3.749087007555768e-06, + "loss": 0.3059, + "step": 6691 + }, + { + "epoch": 2.2306666666666666, + "grad_norm": 2.8716835975646973, + "learning_rate": 3.7460601008656873e-06, + "loss": 0.3086, + "step": 6692 + }, + { + "epoch": 2.231, + "grad_norm": 2.9410579204559326, + "learning_rate": 3.7430341349454924e-06, + "loss": 0.3154, + "step": 6693 + }, + { + "epoch": 2.231333333333333, + "grad_norm": 4.441892147064209, + "learning_rate": 3.7400091102503664e-06, + "loss": 0.2931, + "step": 6694 + }, + { + "epoch": 2.2316666666666665, + "grad_norm": 2.490243673324585, + "learning_rate": 3.736985027235367e-06, + "loss": 0.2723, + "step": 6695 + }, + { + "epoch": 2.232, + "grad_norm": 2.449953556060791, + "learning_rate": 3.7339618863553983e-06, + "loss": 0.2954, + "step": 6696 + }, + { + "epoch": 2.2323333333333335, + "grad_norm": 2.438344955444336, + "learning_rate": 3.7309396880652238e-06, + "loss": 0.3238, + "step": 6697 + }, + { + "epoch": 2.232666666666667, + "grad_norm": 2.4569931030273438, + "learning_rate": 3.7279184328194695e-06, + "loss": 0.2977, + "step": 6698 + }, + { + "epoch": 2.233, + "grad_norm": 3.0252320766448975, + "learning_rate": 3.7248981210726186e-06, + "loss": 0.2718, + "step": 6699 + }, + { + "epoch": 2.2333333333333334, + "grad_norm": 3.107860803604126, + "learning_rate": 3.7218787532790167e-06, + "loss": 0.3122, + "step": 6700 + }, + { + "epoch": 2.2336666666666667, + "grad_norm": 4.343075275421143, + "learning_rate": 3.718860329892853e-06, + "loss": 0.3273, + "step": 6701 + }, + { + "epoch": 2.234, + "grad_norm": 2.456477642059326, + "learning_rate": 3.7158428513681876e-06, + "loss": 0.3282, + "step": 6702 + }, + { + "epoch": 2.2343333333333333, + "grad_norm": 2.7611258029937744, + "learning_rate": 3.7128263181589362e-06, + "loss": 0.308, + "step": 6703 + }, + { + "epoch": 2.2346666666666666, + "grad_norm": 3.6079659461975098, + "learning_rate": 3.7098107307188745e-06, + "loss": 0.3321, + "step": 6704 + }, + { + "epoch": 2.235, + "grad_norm": 3.098569869995117, + "learning_rate": 3.7067960895016277e-06, + "loss": 0.3529, + "step": 6705 + }, + { + "epoch": 2.235333333333333, + "grad_norm": 2.9094669818878174, + "learning_rate": 3.70378239496068e-06, + "loss": 0.3127, + "step": 6706 + }, + { + "epoch": 2.2356666666666665, + "grad_norm": 2.7120769023895264, + "learning_rate": 3.7007696475493838e-06, + "loss": 0.2956, + "step": 6707 + }, + { + "epoch": 2.2359999999999998, + "grad_norm": 2.2773547172546387, + "learning_rate": 3.6977578477209352e-06, + "loss": 0.2978, + "step": 6708 + }, + { + "epoch": 2.2363333333333335, + "grad_norm": 2.146476984024048, + "learning_rate": 3.6947469959283975e-06, + "loss": 0.3173, + "step": 6709 + }, + { + "epoch": 2.236666666666667, + "grad_norm": 3.2220048904418945, + "learning_rate": 3.6917370926246877e-06, + "loss": 0.3342, + "step": 6710 + }, + { + "epoch": 2.237, + "grad_norm": 2.4846010208129883, + "learning_rate": 3.6887281382625838e-06, + "loss": 0.3184, + "step": 6711 + }, + { + "epoch": 2.2373333333333334, + "grad_norm": 3.208467483520508, + "learning_rate": 3.685720133294712e-06, + "loss": 0.3181, + "step": 6712 + }, + { + "epoch": 2.2376666666666667, + "grad_norm": 2.8994905948638916, + "learning_rate": 3.6827130781735686e-06, + "loss": 0.2944, + "step": 6713 + }, + { + "epoch": 2.238, + "grad_norm": 2.587427854537964, + "learning_rate": 3.679706973351491e-06, + "loss": 0.3298, + "step": 6714 + }, + { + "epoch": 2.2383333333333333, + "grad_norm": 2.192960023880005, + "learning_rate": 3.6767018192806926e-06, + "loss": 0.2673, + "step": 6715 + }, + { + "epoch": 2.2386666666666666, + "grad_norm": 2.0718741416931152, + "learning_rate": 3.6736976164132245e-06, + "loss": 0.3337, + "step": 6716 + }, + { + "epoch": 2.239, + "grad_norm": 3.171464681625366, + "learning_rate": 3.6706943652010073e-06, + "loss": 0.3155, + "step": 6717 + }, + { + "epoch": 2.239333333333333, + "grad_norm": 2.978466749191284, + "learning_rate": 3.6676920660958205e-06, + "loss": 0.2817, + "step": 6718 + }, + { + "epoch": 2.2396666666666665, + "grad_norm": 2.936885356903076, + "learning_rate": 3.6646907195492866e-06, + "loss": 0.3404, + "step": 6719 + }, + { + "epoch": 2.24, + "grad_norm": 3.26621675491333, + "learning_rate": 3.661690326012897e-06, + "loss": 0.3098, + "step": 6720 + }, + { + "epoch": 2.2403333333333335, + "grad_norm": 2.4500772953033447, + "learning_rate": 3.658690885937999e-06, + "loss": 0.3014, + "step": 6721 + }, + { + "epoch": 2.240666666666667, + "grad_norm": 2.4058239459991455, + "learning_rate": 3.655692399775788e-06, + "loss": 0.3224, + "step": 6722 + }, + { + "epoch": 2.241, + "grad_norm": 3.6463937759399414, + "learning_rate": 3.6526948679773256e-06, + "loss": 0.3329, + "step": 6723 + }, + { + "epoch": 2.2413333333333334, + "grad_norm": 2.1723949909210205, + "learning_rate": 3.6496982909935217e-06, + "loss": 0.3143, + "step": 6724 + }, + { + "epoch": 2.2416666666666667, + "grad_norm": 2.585686206817627, + "learning_rate": 3.646702669275152e-06, + "loss": 0.323, + "step": 6725 + }, + { + "epoch": 2.242, + "grad_norm": 3.0546059608459473, + "learning_rate": 3.6437080032728355e-06, + "loss": 0.321, + "step": 6726 + }, + { + "epoch": 2.2423333333333333, + "grad_norm": 4.546361446380615, + "learning_rate": 3.6407142934370586e-06, + "loss": 0.3611, + "step": 6727 + }, + { + "epoch": 2.2426666666666666, + "grad_norm": 2.876508951187134, + "learning_rate": 3.6377215402181653e-06, + "loss": 0.3023, + "step": 6728 + }, + { + "epoch": 2.243, + "grad_norm": 2.4084911346435547, + "learning_rate": 3.634729744066341e-06, + "loss": 0.2951, + "step": 6729 + }, + { + "epoch": 2.243333333333333, + "grad_norm": 2.650728225708008, + "learning_rate": 3.631738905431641e-06, + "loss": 0.2895, + "step": 6730 + }, + { + "epoch": 2.2436666666666665, + "grad_norm": 4.078126430511475, + "learning_rate": 3.6287490247639734e-06, + "loss": 0.3162, + "step": 6731 + }, + { + "epoch": 2.2439999999999998, + "grad_norm": 3.161071300506592, + "learning_rate": 3.625760102513103e-06, + "loss": 0.3067, + "step": 6732 + }, + { + "epoch": 2.2443333333333335, + "grad_norm": 2.5871946811676025, + "learning_rate": 3.622772139128646e-06, + "loss": 0.3207, + "step": 6733 + }, + { + "epoch": 2.244666666666667, + "grad_norm": 2.192671537399292, + "learning_rate": 3.6197851350600733e-06, + "loss": 0.3161, + "step": 6734 + }, + { + "epoch": 2.245, + "grad_norm": 2.809631586074829, + "learning_rate": 3.6167990907567207e-06, + "loss": 0.3338, + "step": 6735 + }, + { + "epoch": 2.2453333333333334, + "grad_norm": 2.0807671546936035, + "learning_rate": 3.6138140066677684e-06, + "loss": 0.2662, + "step": 6736 + }, + { + "epoch": 2.2456666666666667, + "grad_norm": 2.6048583984375, + "learning_rate": 3.6108298832422606e-06, + "loss": 0.3169, + "step": 6737 + }, + { + "epoch": 2.246, + "grad_norm": 2.7043063640594482, + "learning_rate": 3.6078467209290936e-06, + "loss": 0.2854, + "step": 6738 + }, + { + "epoch": 2.2463333333333333, + "grad_norm": 2.4115827083587646, + "learning_rate": 3.604864520177024e-06, + "loss": 0.3265, + "step": 6739 + }, + { + "epoch": 2.2466666666666666, + "grad_norm": 2.684056043624878, + "learning_rate": 3.6018832814346516e-06, + "loss": 0.3531, + "step": 6740 + }, + { + "epoch": 2.247, + "grad_norm": 2.3703837394714355, + "learning_rate": 3.598903005150444e-06, + "loss": 0.2631, + "step": 6741 + }, + { + "epoch": 2.247333333333333, + "grad_norm": 3.5121865272521973, + "learning_rate": 3.5959236917727213e-06, + "loss": 0.3258, + "step": 6742 + }, + { + "epoch": 2.2476666666666665, + "grad_norm": 2.227701187133789, + "learning_rate": 3.592945341749653e-06, + "loss": 0.3218, + "step": 6743 + }, + { + "epoch": 2.248, + "grad_norm": 2.2316582202911377, + "learning_rate": 3.5899679555292654e-06, + "loss": 0.3147, + "step": 6744 + }, + { + "epoch": 2.2483333333333335, + "grad_norm": 3.006098985671997, + "learning_rate": 3.586991533559445e-06, + "loss": 0.3072, + "step": 6745 + }, + { + "epoch": 2.248666666666667, + "grad_norm": 2.643861770629883, + "learning_rate": 3.584016076287933e-06, + "loss": 0.343, + "step": 6746 + }, + { + "epoch": 2.249, + "grad_norm": 2.3770487308502197, + "learning_rate": 3.5810415841623146e-06, + "loss": 0.3284, + "step": 6747 + }, + { + "epoch": 2.2493333333333334, + "grad_norm": 3.547746419906616, + "learning_rate": 3.578068057630043e-06, + "loss": 0.3191, + "step": 6748 + }, + { + "epoch": 2.2496666666666667, + "grad_norm": 2.6753885746002197, + "learning_rate": 3.5750954971384233e-06, + "loss": 0.2938, + "step": 6749 + }, + { + "epoch": 2.25, + "grad_norm": 2.330566644668579, + "learning_rate": 3.5721239031346067e-06, + "loss": 0.3419, + "step": 6750 + }, + { + "epoch": 2.2503333333333333, + "grad_norm": 2.3958606719970703, + "learning_rate": 3.569153276065609e-06, + "loss": 0.3019, + "step": 6751 + }, + { + "epoch": 2.2506666666666666, + "grad_norm": 2.306229829788208, + "learning_rate": 3.566183616378298e-06, + "loss": 0.3011, + "step": 6752 + }, + { + "epoch": 2.251, + "grad_norm": 3.316742181777954, + "learning_rate": 3.563214924519394e-06, + "loss": 0.2805, + "step": 6753 + }, + { + "epoch": 2.251333333333333, + "grad_norm": 3.8145294189453125, + "learning_rate": 3.560247200935466e-06, + "loss": 0.2931, + "step": 6754 + }, + { + "epoch": 2.2516666666666665, + "grad_norm": 2.514345169067383, + "learning_rate": 3.5572804460729505e-06, + "loss": 0.3092, + "step": 6755 + }, + { + "epoch": 2.252, + "grad_norm": 3.1563832759857178, + "learning_rate": 3.554314660378133e-06, + "loss": 0.3132, + "step": 6756 + }, + { + "epoch": 2.2523333333333335, + "grad_norm": 3.1058907508850098, + "learning_rate": 3.551349844297145e-06, + "loss": 0.2989, + "step": 6757 + }, + { + "epoch": 2.252666666666667, + "grad_norm": 2.825812578201294, + "learning_rate": 3.548385998275983e-06, + "loss": 0.3282, + "step": 6758 + }, + { + "epoch": 2.253, + "grad_norm": 2.5203042030334473, + "learning_rate": 3.545423122760493e-06, + "loss": 0.324, + "step": 6759 + }, + { + "epoch": 2.2533333333333334, + "grad_norm": 3.103494644165039, + "learning_rate": 3.542461218196379e-06, + "loss": 0.322, + "step": 6760 + }, + { + "epoch": 2.2536666666666667, + "grad_norm": 2.1711745262145996, + "learning_rate": 3.539500285029188e-06, + "loss": 0.3067, + "step": 6761 + }, + { + "epoch": 2.254, + "grad_norm": 2.614548444747925, + "learning_rate": 3.5365403237043373e-06, + "loss": 0.3158, + "step": 6762 + }, + { + "epoch": 2.2543333333333333, + "grad_norm": 3.09328556060791, + "learning_rate": 3.5335813346670823e-06, + "loss": 0.3286, + "step": 6763 + }, + { + "epoch": 2.2546666666666666, + "grad_norm": 2.9532129764556885, + "learning_rate": 3.5306233183625384e-06, + "loss": 0.3316, + "step": 6764 + }, + { + "epoch": 2.255, + "grad_norm": 2.718792200088501, + "learning_rate": 3.527666275235677e-06, + "loss": 0.3333, + "step": 6765 + }, + { + "epoch": 2.255333333333333, + "grad_norm": 3.0884170532226562, + "learning_rate": 3.524710205731321e-06, + "loss": 0.3279, + "step": 6766 + }, + { + "epoch": 2.2556666666666665, + "grad_norm": 2.277388572692871, + "learning_rate": 3.5217551102941516e-06, + "loss": 0.3162, + "step": 6767 + }, + { + "epoch": 2.2560000000000002, + "grad_norm": 3.054852247238159, + "learning_rate": 3.5188009893686916e-06, + "loss": 0.318, + "step": 6768 + }, + { + "epoch": 2.2563333333333335, + "grad_norm": 2.338610887527466, + "learning_rate": 3.515847843399327e-06, + "loss": 0.2766, + "step": 6769 + }, + { + "epoch": 2.256666666666667, + "grad_norm": 2.819277286529541, + "learning_rate": 3.5128956728303e-06, + "loss": 0.2994, + "step": 6770 + }, + { + "epoch": 2.257, + "grad_norm": 2.7023627758026123, + "learning_rate": 3.5099444781056956e-06, + "loss": 0.3214, + "step": 6771 + }, + { + "epoch": 2.2573333333333334, + "grad_norm": 2.528679847717285, + "learning_rate": 3.506994259669455e-06, + "loss": 0.314, + "step": 6772 + }, + { + "epoch": 2.2576666666666667, + "grad_norm": 2.3192050457000732, + "learning_rate": 3.5040450179653774e-06, + "loss": 0.2871, + "step": 6773 + }, + { + "epoch": 2.258, + "grad_norm": 2.611470937728882, + "learning_rate": 3.5010967534371167e-06, + "loss": 0.3419, + "step": 6774 + }, + { + "epoch": 2.2583333333333333, + "grad_norm": 2.537414312362671, + "learning_rate": 3.4981494665281666e-06, + "loss": 0.3119, + "step": 6775 + }, + { + "epoch": 2.2586666666666666, + "grad_norm": 2.4684865474700928, + "learning_rate": 3.4952031576818877e-06, + "loss": 0.3267, + "step": 6776 + }, + { + "epoch": 2.259, + "grad_norm": 2.3377537727355957, + "learning_rate": 3.492257827341492e-06, + "loss": 0.2896, + "step": 6777 + }, + { + "epoch": 2.259333333333333, + "grad_norm": 2.9534332752227783, + "learning_rate": 3.4893134759500335e-06, + "loss": 0.3103, + "step": 6778 + }, + { + "epoch": 2.2596666666666665, + "grad_norm": 2.7164156436920166, + "learning_rate": 3.4863701039504293e-06, + "loss": 0.2883, + "step": 6779 + }, + { + "epoch": 2.26, + "grad_norm": 2.8613710403442383, + "learning_rate": 3.483427711785449e-06, + "loss": 0.3079, + "step": 6780 + }, + { + "epoch": 2.2603333333333335, + "grad_norm": 2.6882922649383545, + "learning_rate": 3.4804862998977096e-06, + "loss": 0.3139, + "step": 6781 + }, + { + "epoch": 2.260666666666667, + "grad_norm": 2.610339879989624, + "learning_rate": 3.4775458687296783e-06, + "loss": 0.31, + "step": 6782 + }, + { + "epoch": 2.261, + "grad_norm": 2.736382484436035, + "learning_rate": 3.474606418723683e-06, + "loss": 0.2968, + "step": 6783 + }, + { + "epoch": 2.2613333333333334, + "grad_norm": 2.8446872234344482, + "learning_rate": 3.471667950321904e-06, + "loss": 0.2986, + "step": 6784 + }, + { + "epoch": 2.2616666666666667, + "grad_norm": 3.425736427307129, + "learning_rate": 3.4687304639663634e-06, + "loss": 0.2832, + "step": 6785 + }, + { + "epoch": 2.262, + "grad_norm": 3.323076009750366, + "learning_rate": 3.4657939600989453e-06, + "loss": 0.3272, + "step": 6786 + }, + { + "epoch": 2.2623333333333333, + "grad_norm": 2.274257183074951, + "learning_rate": 3.4628584391613852e-06, + "loss": 0.2941, + "step": 6787 + }, + { + "epoch": 2.2626666666666666, + "grad_norm": 2.460505962371826, + "learning_rate": 3.4599239015952692e-06, + "loss": 0.3306, + "step": 6788 + }, + { + "epoch": 2.263, + "grad_norm": 2.823204517364502, + "learning_rate": 3.45699034784203e-06, + "loss": 0.3368, + "step": 6789 + }, + { + "epoch": 2.263333333333333, + "grad_norm": 3.0486226081848145, + "learning_rate": 3.454057778342963e-06, + "loss": 0.3047, + "step": 6790 + }, + { + "epoch": 2.2636666666666665, + "grad_norm": 2.262373685836792, + "learning_rate": 3.451126193539207e-06, + "loss": 0.2588, + "step": 6791 + }, + { + "epoch": 2.2640000000000002, + "grad_norm": 2.5864408016204834, + "learning_rate": 3.4481955938717514e-06, + "loss": 0.3142, + "step": 6792 + }, + { + "epoch": 2.264333333333333, + "grad_norm": 2.863354206085205, + "learning_rate": 3.445265979781447e-06, + "loss": 0.3097, + "step": 6793 + }, + { + "epoch": 2.264666666666667, + "grad_norm": 2.5583205223083496, + "learning_rate": 3.4423373517089887e-06, + "loss": 0.2934, + "step": 6794 + }, + { + "epoch": 2.265, + "grad_norm": 2.8699965476989746, + "learning_rate": 3.4394097100949286e-06, + "loss": 0.3037, + "step": 6795 + }, + { + "epoch": 2.2653333333333334, + "grad_norm": 3.7535433769226074, + "learning_rate": 3.4364830553796614e-06, + "loss": 0.3238, + "step": 6796 + }, + { + "epoch": 2.2656666666666667, + "grad_norm": 2.3676323890686035, + "learning_rate": 3.4335573880034424e-06, + "loss": 0.2899, + "step": 6797 + }, + { + "epoch": 2.266, + "grad_norm": 3.002953290939331, + "learning_rate": 3.4306327084063762e-06, + "loss": 0.311, + "step": 6798 + }, + { + "epoch": 2.2663333333333333, + "grad_norm": 2.678706169128418, + "learning_rate": 3.427709017028413e-06, + "loss": 0.3188, + "step": 6799 + }, + { + "epoch": 2.2666666666666666, + "grad_norm": 3.2556445598602295, + "learning_rate": 3.424786314309365e-06, + "loss": 0.2856, + "step": 6800 + }, + { + "epoch": 2.267, + "grad_norm": 2.820913314819336, + "learning_rate": 3.4218646006888836e-06, + "loss": 0.282, + "step": 6801 + }, + { + "epoch": 2.267333333333333, + "grad_norm": 2.776272773742676, + "learning_rate": 3.418943876606482e-06, + "loss": 0.2981, + "step": 6802 + }, + { + "epoch": 2.2676666666666665, + "grad_norm": 2.6000730991363525, + "learning_rate": 3.416024142501514e-06, + "loss": 0.3007, + "step": 6803 + }, + { + "epoch": 2.268, + "grad_norm": 3.1941165924072266, + "learning_rate": 3.4131053988131947e-06, + "loss": 0.3087, + "step": 6804 + }, + { + "epoch": 2.2683333333333335, + "grad_norm": 2.4755945205688477, + "learning_rate": 3.4101876459805892e-06, + "loss": 0.2816, + "step": 6805 + }, + { + "epoch": 2.268666666666667, + "grad_norm": 4.5087080001831055, + "learning_rate": 3.407270884442603e-06, + "loss": 0.2902, + "step": 6806 + }, + { + "epoch": 2.269, + "grad_norm": 2.766005277633667, + "learning_rate": 3.4043551146380026e-06, + "loss": 0.3428, + "step": 6807 + }, + { + "epoch": 2.2693333333333334, + "grad_norm": 2.4697422981262207, + "learning_rate": 3.401440337005406e-06, + "loss": 0.3127, + "step": 6808 + }, + { + "epoch": 2.2696666666666667, + "grad_norm": 2.3318581581115723, + "learning_rate": 3.398526551983273e-06, + "loss": 0.2986, + "step": 6809 + }, + { + "epoch": 2.27, + "grad_norm": 4.22735071182251, + "learning_rate": 3.3956137600099248e-06, + "loss": 0.3083, + "step": 6810 + }, + { + "epoch": 2.2703333333333333, + "grad_norm": 3.069761037826538, + "learning_rate": 3.3927019615235222e-06, + "loss": 0.3199, + "step": 6811 + }, + { + "epoch": 2.2706666666666666, + "grad_norm": 3.7384755611419678, + "learning_rate": 3.389791156962088e-06, + "loss": 0.2927, + "step": 6812 + }, + { + "epoch": 2.271, + "grad_norm": 2.230895519256592, + "learning_rate": 3.3868813467634833e-06, + "loss": 0.2951, + "step": 6813 + }, + { + "epoch": 2.271333333333333, + "grad_norm": 2.795734167098999, + "learning_rate": 3.383972531365429e-06, + "loss": 0.2692, + "step": 6814 + }, + { + "epoch": 2.2716666666666665, + "grad_norm": 2.940797805786133, + "learning_rate": 3.381064711205495e-06, + "loss": 0.2909, + "step": 6815 + }, + { + "epoch": 2.2720000000000002, + "grad_norm": 3.016238212585449, + "learning_rate": 3.3781578867211016e-06, + "loss": 0.3005, + "step": 6816 + }, + { + "epoch": 2.272333333333333, + "grad_norm": 3.077134609222412, + "learning_rate": 3.375252058349511e-06, + "loss": 0.3307, + "step": 6817 + }, + { + "epoch": 2.272666666666667, + "grad_norm": 2.6083004474639893, + "learning_rate": 3.37234722652785e-06, + "loss": 0.3305, + "step": 6818 + }, + { + "epoch": 2.273, + "grad_norm": 2.4174234867095947, + "learning_rate": 3.3694433916930803e-06, + "loss": 0.2923, + "step": 6819 + }, + { + "epoch": 2.2733333333333334, + "grad_norm": 3.327345609664917, + "learning_rate": 3.3665405542820283e-06, + "loss": 0.3222, + "step": 6820 + }, + { + "epoch": 2.2736666666666667, + "grad_norm": 4.187863826751709, + "learning_rate": 3.3636387147313553e-06, + "loss": 0.31, + "step": 6821 + }, + { + "epoch": 2.274, + "grad_norm": 2.9633631706237793, + "learning_rate": 3.360737873477584e-06, + "loss": 0.3459, + "step": 6822 + }, + { + "epoch": 2.2743333333333333, + "grad_norm": 2.7503280639648438, + "learning_rate": 3.3578380309570866e-06, + "loss": 0.2892, + "step": 6823 + }, + { + "epoch": 2.2746666666666666, + "grad_norm": 2.6781487464904785, + "learning_rate": 3.3549391876060756e-06, + "loss": 0.33, + "step": 6824 + }, + { + "epoch": 2.275, + "grad_norm": 2.933464527130127, + "learning_rate": 3.3520413438606215e-06, + "loss": 0.3182, + "step": 6825 + }, + { + "epoch": 2.275333333333333, + "grad_norm": 2.9607434272766113, + "learning_rate": 3.349144500156646e-06, + "loss": 0.3205, + "step": 6826 + }, + { + "epoch": 2.2756666666666665, + "grad_norm": 2.299171209335327, + "learning_rate": 3.346248656929909e-06, + "loss": 0.2924, + "step": 6827 + }, + { + "epoch": 2.276, + "grad_norm": 2.339345932006836, + "learning_rate": 3.343353814616036e-06, + "loss": 0.2972, + "step": 6828 + }, + { + "epoch": 2.2763333333333335, + "grad_norm": 3.3758294582366943, + "learning_rate": 3.340459973650485e-06, + "loss": 0.3028, + "step": 6829 + }, + { + "epoch": 2.276666666666667, + "grad_norm": 2.8642418384552, + "learning_rate": 3.337567134468579e-06, + "loss": 0.2956, + "step": 6830 + }, + { + "epoch": 2.277, + "grad_norm": 2.528581380844116, + "learning_rate": 3.3346752975054763e-06, + "loss": 0.3088, + "step": 6831 + }, + { + "epoch": 2.2773333333333334, + "grad_norm": 2.425318956375122, + "learning_rate": 3.331784463196195e-06, + "loss": 0.2997, + "step": 6832 + }, + { + "epoch": 2.2776666666666667, + "grad_norm": 2.382843494415283, + "learning_rate": 3.3288946319756012e-06, + "loss": 0.2859, + "step": 6833 + }, + { + "epoch": 2.278, + "grad_norm": 2.308413505554199, + "learning_rate": 3.3260058042784014e-06, + "loss": 0.2967, + "step": 6834 + }, + { + "epoch": 2.2783333333333333, + "grad_norm": 2.748220443725586, + "learning_rate": 3.32311798053916e-06, + "loss": 0.3045, + "step": 6835 + }, + { + "epoch": 2.2786666666666666, + "grad_norm": 2.4382998943328857, + "learning_rate": 3.3202311611922878e-06, + "loss": 0.2819, + "step": 6836 + }, + { + "epoch": 2.279, + "grad_norm": 2.1153926849365234, + "learning_rate": 3.3173453466720473e-06, + "loss": 0.2532, + "step": 6837 + }, + { + "epoch": 2.279333333333333, + "grad_norm": 2.6180083751678467, + "learning_rate": 3.3144605374125437e-06, + "loss": 0.3278, + "step": 6838 + }, + { + "epoch": 2.2796666666666665, + "grad_norm": 2.3891682624816895, + "learning_rate": 3.3115767338477313e-06, + "loss": 0.3056, + "step": 6839 + }, + { + "epoch": 2.2800000000000002, + "grad_norm": 2.8131840229034424, + "learning_rate": 3.308693936411421e-06, + "loss": 0.3207, + "step": 6840 + }, + { + "epoch": 2.280333333333333, + "grad_norm": 2.6188840866088867, + "learning_rate": 3.3058121455372625e-06, + "loss": 0.3258, + "step": 6841 + }, + { + "epoch": 2.280666666666667, + "grad_norm": 2.302368402481079, + "learning_rate": 3.302931361658761e-06, + "loss": 0.2969, + "step": 6842 + }, + { + "epoch": 2.281, + "grad_norm": 3.307961940765381, + "learning_rate": 3.3000515852092684e-06, + "loss": 0.3101, + "step": 6843 + }, + { + "epoch": 2.2813333333333334, + "grad_norm": 2.176194667816162, + "learning_rate": 3.2971728166219894e-06, + "loss": 0.3199, + "step": 6844 + }, + { + "epoch": 2.2816666666666667, + "grad_norm": 3.395460844039917, + "learning_rate": 3.2942950563299636e-06, + "loss": 0.3092, + "step": 6845 + }, + { + "epoch": 2.282, + "grad_norm": 2.92580509185791, + "learning_rate": 3.291418304766092e-06, + "loss": 0.3077, + "step": 6846 + }, + { + "epoch": 2.2823333333333333, + "grad_norm": 2.2706339359283447, + "learning_rate": 3.288542562363123e-06, + "loss": 0.2833, + "step": 6847 + }, + { + "epoch": 2.2826666666666666, + "grad_norm": 3.7567710876464844, + "learning_rate": 3.285667829553646e-06, + "loss": 0.2802, + "step": 6848 + }, + { + "epoch": 2.283, + "grad_norm": 3.1334192752838135, + "learning_rate": 3.2827941067700996e-06, + "loss": 0.3275, + "step": 6849 + }, + { + "epoch": 2.283333333333333, + "grad_norm": 2.515042543411255, + "learning_rate": 3.279921394444776e-06, + "loss": 0.2608, + "step": 6850 + }, + { + "epoch": 2.2836666666666665, + "grad_norm": 2.9491562843322754, + "learning_rate": 3.277049693009816e-06, + "loss": 0.3209, + "step": 6851 + }, + { + "epoch": 2.284, + "grad_norm": 2.7624781131744385, + "learning_rate": 3.2741790028972e-06, + "loss": 0.3142, + "step": 6852 + }, + { + "epoch": 2.2843333333333335, + "grad_norm": 2.824052333831787, + "learning_rate": 3.2713093245387615e-06, + "loss": 0.3332, + "step": 6853 + }, + { + "epoch": 2.284666666666667, + "grad_norm": 3.23064923286438, + "learning_rate": 3.2684406583661865e-06, + "loss": 0.2681, + "step": 6854 + }, + { + "epoch": 2.285, + "grad_norm": 2.577172040939331, + "learning_rate": 3.265573004810997e-06, + "loss": 0.2734, + "step": 6855 + }, + { + "epoch": 2.2853333333333334, + "grad_norm": 2.6760857105255127, + "learning_rate": 3.262706364304575e-06, + "loss": 0.2753, + "step": 6856 + }, + { + "epoch": 2.2856666666666667, + "grad_norm": 2.907047986984253, + "learning_rate": 3.2598407372781406e-06, + "loss": 0.3125, + "step": 6857 + }, + { + "epoch": 2.286, + "grad_norm": 2.4280457496643066, + "learning_rate": 3.2569761241627694e-06, + "loss": 0.3211, + "step": 6858 + }, + { + "epoch": 2.2863333333333333, + "grad_norm": 2.3351261615753174, + "learning_rate": 3.2541125253893746e-06, + "loss": 0.3086, + "step": 6859 + }, + { + "epoch": 2.2866666666666666, + "grad_norm": 2.3746354579925537, + "learning_rate": 3.2512499413887255e-06, + "loss": 0.2655, + "step": 6860 + }, + { + "epoch": 2.287, + "grad_norm": 2.6818039417266846, + "learning_rate": 3.24838837259144e-06, + "loss": 0.3176, + "step": 6861 + }, + { + "epoch": 2.287333333333333, + "grad_norm": 2.4004108905792236, + "learning_rate": 3.2455278194279718e-06, + "loss": 0.3078, + "step": 6862 + }, + { + "epoch": 2.2876666666666665, + "grad_norm": 3.397630214691162, + "learning_rate": 3.2426682823286338e-06, + "loss": 0.3184, + "step": 6863 + }, + { + "epoch": 2.288, + "grad_norm": 4.159147262573242, + "learning_rate": 3.239809761723579e-06, + "loss": 0.2981, + "step": 6864 + }, + { + "epoch": 2.288333333333333, + "grad_norm": 3.225677728652954, + "learning_rate": 3.2369522580428157e-06, + "loss": 0.3175, + "step": 6865 + }, + { + "epoch": 2.288666666666667, + "grad_norm": 2.3308305740356445, + "learning_rate": 3.23409577171619e-06, + "loss": 0.3004, + "step": 6866 + }, + { + "epoch": 2.289, + "grad_norm": 2.848614454269409, + "learning_rate": 3.2312403031733943e-06, + "loss": 0.3345, + "step": 6867 + }, + { + "epoch": 2.2893333333333334, + "grad_norm": 2.830826997756958, + "learning_rate": 3.2283858528439783e-06, + "loss": 0.3178, + "step": 6868 + }, + { + "epoch": 2.2896666666666667, + "grad_norm": 2.6296017169952393, + "learning_rate": 3.225532421157326e-06, + "loss": 0.316, + "step": 6869 + }, + { + "epoch": 2.29, + "grad_norm": 3.3206212520599365, + "learning_rate": 3.222680008542678e-06, + "loss": 0.2731, + "step": 6870 + }, + { + "epoch": 2.2903333333333333, + "grad_norm": 2.4796102046966553, + "learning_rate": 3.219828615429118e-06, + "loss": 0.2688, + "step": 6871 + }, + { + "epoch": 2.2906666666666666, + "grad_norm": 2.65812349319458, + "learning_rate": 3.2169782422455798e-06, + "loss": 0.3369, + "step": 6872 + }, + { + "epoch": 2.291, + "grad_norm": 2.8637261390686035, + "learning_rate": 3.2141288894208334e-06, + "loss": 0.2945, + "step": 6873 + }, + { + "epoch": 2.291333333333333, + "grad_norm": 2.139503002166748, + "learning_rate": 3.211280557383505e-06, + "loss": 0.2521, + "step": 6874 + }, + { + "epoch": 2.2916666666666665, + "grad_norm": 2.737610101699829, + "learning_rate": 3.2084332465620692e-06, + "loss": 0.3053, + "step": 6875 + }, + { + "epoch": 2.292, + "grad_norm": 2.5544679164886475, + "learning_rate": 3.2055869573848374e-06, + "loss": 0.3163, + "step": 6876 + }, + { + "epoch": 2.2923333333333336, + "grad_norm": 2.521758556365967, + "learning_rate": 3.2027416902799703e-06, + "loss": 0.3093, + "step": 6877 + }, + { + "epoch": 2.292666666666667, + "grad_norm": 2.3860630989074707, + "learning_rate": 3.1998974456754796e-06, + "loss": 0.3008, + "step": 6878 + }, + { + "epoch": 2.293, + "grad_norm": 3.0502893924713135, + "learning_rate": 3.1970542239992244e-06, + "loss": 0.2956, + "step": 6879 + }, + { + "epoch": 2.2933333333333334, + "grad_norm": 2.4822258949279785, + "learning_rate": 3.1942120256788966e-06, + "loss": 0.2705, + "step": 6880 + }, + { + "epoch": 2.2936666666666667, + "grad_norm": 3.3118841648101807, + "learning_rate": 3.1913708511420494e-06, + "loss": 0.3367, + "step": 6881 + }, + { + "epoch": 2.294, + "grad_norm": 2.413350820541382, + "learning_rate": 3.188530700816078e-06, + "loss": 0.3158, + "step": 6882 + }, + { + "epoch": 2.2943333333333333, + "grad_norm": 2.3158397674560547, + "learning_rate": 3.1856915751282157e-06, + "loss": 0.3162, + "step": 6883 + }, + { + "epoch": 2.2946666666666666, + "grad_norm": 4.365043640136719, + "learning_rate": 3.1828534745055504e-06, + "loss": 0.3225, + "step": 6884 + }, + { + "epoch": 2.295, + "grad_norm": 2.5120856761932373, + "learning_rate": 3.1800163993750166e-06, + "loss": 0.3129, + "step": 6885 + }, + { + "epoch": 2.2953333333333332, + "grad_norm": 2.4657318592071533, + "learning_rate": 3.177180350163387e-06, + "loss": 0.3363, + "step": 6886 + }, + { + "epoch": 2.2956666666666665, + "grad_norm": 2.8968122005462646, + "learning_rate": 3.1743453272972802e-06, + "loss": 0.3207, + "step": 6887 + }, + { + "epoch": 2.296, + "grad_norm": 3.5952649116516113, + "learning_rate": 3.1715113312031674e-06, + "loss": 0.3269, + "step": 6888 + }, + { + "epoch": 2.296333333333333, + "grad_norm": 2.8532211780548096, + "learning_rate": 3.1686783623073636e-06, + "loss": 0.3053, + "step": 6889 + }, + { + "epoch": 2.296666666666667, + "grad_norm": 2.9649903774261475, + "learning_rate": 3.1658464210360285e-06, + "loss": 0.3059, + "step": 6890 + }, + { + "epoch": 2.297, + "grad_norm": 2.5795485973358154, + "learning_rate": 3.1630155078151626e-06, + "loss": 0.3083, + "step": 6891 + }, + { + "epoch": 2.2973333333333334, + "grad_norm": 3.2571935653686523, + "learning_rate": 3.160185623070616e-06, + "loss": 0.3378, + "step": 6892 + }, + { + "epoch": 2.2976666666666667, + "grad_norm": 2.244967460632324, + "learning_rate": 3.157356767228088e-06, + "loss": 0.2857, + "step": 6893 + }, + { + "epoch": 2.298, + "grad_norm": 4.009808540344238, + "learning_rate": 3.1545289407131128e-06, + "loss": 0.297, + "step": 6894 + }, + { + "epoch": 2.2983333333333333, + "grad_norm": 2.4451117515563965, + "learning_rate": 3.151702143951082e-06, + "loss": 0.3005, + "step": 6895 + }, + { + "epoch": 2.2986666666666666, + "grad_norm": 2.529841899871826, + "learning_rate": 3.1488763773672182e-06, + "loss": 0.3122, + "step": 6896 + }, + { + "epoch": 2.299, + "grad_norm": 3.4300012588500977, + "learning_rate": 3.146051641386605e-06, + "loss": 0.3126, + "step": 6897 + }, + { + "epoch": 2.2993333333333332, + "grad_norm": 3.7080392837524414, + "learning_rate": 3.1432279364341556e-06, + "loss": 0.3282, + "step": 6898 + }, + { + "epoch": 2.2996666666666665, + "grad_norm": 3.356011152267456, + "learning_rate": 3.140405262934638e-06, + "loss": 0.306, + "step": 6899 + }, + { + "epoch": 2.3, + "grad_norm": 2.5845823287963867, + "learning_rate": 3.1375836213126653e-06, + "loss": 0.3217, + "step": 6900 + }, + { + "epoch": 2.3003333333333336, + "grad_norm": 2.4755091667175293, + "learning_rate": 3.1347630119926885e-06, + "loss": 0.3, + "step": 6901 + }, + { + "epoch": 2.300666666666667, + "grad_norm": 2.554642677307129, + "learning_rate": 3.1319434353990073e-06, + "loss": 0.3379, + "step": 6902 + }, + { + "epoch": 2.301, + "grad_norm": 2.6383919715881348, + "learning_rate": 3.1291248919557717e-06, + "loss": 0.3341, + "step": 6903 + }, + { + "epoch": 2.3013333333333335, + "grad_norm": 2.4850571155548096, + "learning_rate": 3.1263073820869614e-06, + "loss": 0.3318, + "step": 6904 + }, + { + "epoch": 2.3016666666666667, + "grad_norm": 2.6201577186584473, + "learning_rate": 3.1234909062164187e-06, + "loss": 0.2593, + "step": 6905 + }, + { + "epoch": 2.302, + "grad_norm": 3.4612877368927, + "learning_rate": 3.1206754647678137e-06, + "loss": 0.2937, + "step": 6906 + }, + { + "epoch": 2.3023333333333333, + "grad_norm": 3.3667445182800293, + "learning_rate": 3.117861058164676e-06, + "loss": 0.3445, + "step": 6907 + }, + { + "epoch": 2.3026666666666666, + "grad_norm": 2.3198397159576416, + "learning_rate": 3.115047686830365e-06, + "loss": 0.317, + "step": 6908 + }, + { + "epoch": 2.303, + "grad_norm": 2.3976964950561523, + "learning_rate": 3.1122353511880943e-06, + "loss": 0.2415, + "step": 6909 + }, + { + "epoch": 2.3033333333333332, + "grad_norm": 3.0523228645324707, + "learning_rate": 3.10942405166092e-06, + "loss": 0.3105, + "step": 6910 + }, + { + "epoch": 2.3036666666666665, + "grad_norm": 3.3714916706085205, + "learning_rate": 3.106613788671743e-06, + "loss": 0.3136, + "step": 6911 + }, + { + "epoch": 2.304, + "grad_norm": 2.616513729095459, + "learning_rate": 3.103804562643302e-06, + "loss": 0.3021, + "step": 6912 + }, + { + "epoch": 2.304333333333333, + "grad_norm": 3.1974258422851562, + "learning_rate": 3.1009963739981884e-06, + "loss": 0.3278, + "step": 6913 + }, + { + "epoch": 2.304666666666667, + "grad_norm": 2.466256618499756, + "learning_rate": 3.098189223158833e-06, + "loss": 0.3199, + "step": 6914 + }, + { + "epoch": 2.305, + "grad_norm": 3.883256673812866, + "learning_rate": 3.0953831105475064e-06, + "loss": 0.2772, + "step": 6915 + }, + { + "epoch": 2.3053333333333335, + "grad_norm": 2.501699447631836, + "learning_rate": 3.092578036586329e-06, + "loss": 0.3098, + "step": 6916 + }, + { + "epoch": 2.3056666666666668, + "grad_norm": 2.443871259689331, + "learning_rate": 3.0897740016972653e-06, + "loss": 0.3151, + "step": 6917 + }, + { + "epoch": 2.306, + "grad_norm": 2.6518959999084473, + "learning_rate": 3.086971006302125e-06, + "loss": 0.2868, + "step": 6918 + }, + { + "epoch": 2.3063333333333333, + "grad_norm": 2.1978132724761963, + "learning_rate": 3.084169050822551e-06, + "loss": 0.2817, + "step": 6919 + }, + { + "epoch": 2.3066666666666666, + "grad_norm": 2.8731696605682373, + "learning_rate": 3.081368135680041e-06, + "loss": 0.3382, + "step": 6920 + }, + { + "epoch": 2.307, + "grad_norm": 2.508331537246704, + "learning_rate": 3.0785682612959334e-06, + "loss": 0.2533, + "step": 6921 + }, + { + "epoch": 2.3073333333333332, + "grad_norm": 2.5841879844665527, + "learning_rate": 3.075769428091403e-06, + "loss": 0.3053, + "step": 6922 + }, + { + "epoch": 2.3076666666666665, + "grad_norm": 2.817939519882202, + "learning_rate": 3.072971636487482e-06, + "loss": 0.3532, + "step": 6923 + }, + { + "epoch": 2.308, + "grad_norm": 2.8299567699432373, + "learning_rate": 3.0701748869050285e-06, + "loss": 0.3083, + "step": 6924 + }, + { + "epoch": 2.3083333333333336, + "grad_norm": 2.388416290283203, + "learning_rate": 3.0673791797647602e-06, + "loss": 0.2801, + "step": 6925 + }, + { + "epoch": 2.3086666666666664, + "grad_norm": 2.2634236812591553, + "learning_rate": 3.0645845154872245e-06, + "loss": 0.2934, + "step": 6926 + }, + { + "epoch": 2.309, + "grad_norm": 3.5662200450897217, + "learning_rate": 3.0617908944928223e-06, + "loss": 0.3106, + "step": 6927 + }, + { + "epoch": 2.3093333333333335, + "grad_norm": 2.2848622798919678, + "learning_rate": 3.0589983172017954e-06, + "loss": 0.3481, + "step": 6928 + }, + { + "epoch": 2.3096666666666668, + "grad_norm": 2.5648131370544434, + "learning_rate": 3.0562067840342202e-06, + "loss": 0.3168, + "step": 6929 + }, + { + "epoch": 2.31, + "grad_norm": 2.432100534439087, + "learning_rate": 3.0534162954100264e-06, + "loss": 0.3015, + "step": 6930 + }, + { + "epoch": 2.3103333333333333, + "grad_norm": 2.5909132957458496, + "learning_rate": 3.0506268517489823e-06, + "loss": 0.3065, + "step": 6931 + }, + { + "epoch": 2.3106666666666666, + "grad_norm": 2.5086257457733154, + "learning_rate": 3.0478384534707016e-06, + "loss": 0.2928, + "step": 6932 + }, + { + "epoch": 2.311, + "grad_norm": 2.52023983001709, + "learning_rate": 3.0450511009946373e-06, + "loss": 0.3102, + "step": 6933 + }, + { + "epoch": 2.3113333333333332, + "grad_norm": 2.1481661796569824, + "learning_rate": 3.0422647947400807e-06, + "loss": 0.2914, + "step": 6934 + }, + { + "epoch": 2.3116666666666665, + "grad_norm": 2.586413860321045, + "learning_rate": 3.03947953512618e-06, + "loss": 0.3464, + "step": 6935 + }, + { + "epoch": 2.312, + "grad_norm": 2.70509934425354, + "learning_rate": 3.0366953225719076e-06, + "loss": 0.3126, + "step": 6936 + }, + { + "epoch": 2.312333333333333, + "grad_norm": 2.4773757457733154, + "learning_rate": 3.033912157496095e-06, + "loss": 0.2643, + "step": 6937 + }, + { + "epoch": 2.312666666666667, + "grad_norm": 2.436375141143799, + "learning_rate": 3.031130040317406e-06, + "loss": 0.3203, + "step": 6938 + }, + { + "epoch": 2.313, + "grad_norm": 3.083599090576172, + "learning_rate": 3.028348971454356e-06, + "loss": 0.3204, + "step": 6939 + }, + { + "epoch": 2.3133333333333335, + "grad_norm": 2.2388877868652344, + "learning_rate": 3.0255689513252873e-06, + "loss": 0.2959, + "step": 6940 + }, + { + "epoch": 2.3136666666666668, + "grad_norm": 2.9548981189727783, + "learning_rate": 3.0227899803483984e-06, + "loss": 0.3203, + "step": 6941 + }, + { + "epoch": 2.314, + "grad_norm": 2.6259536743164062, + "learning_rate": 3.0200120589417293e-06, + "loss": 0.3411, + "step": 6942 + }, + { + "epoch": 2.3143333333333334, + "grad_norm": 2.440157413482666, + "learning_rate": 3.0172351875231533e-06, + "loss": 0.2973, + "step": 6943 + }, + { + "epoch": 2.3146666666666667, + "grad_norm": 2.8167598247528076, + "learning_rate": 3.0144593665103885e-06, + "loss": 0.2922, + "step": 6944 + }, + { + "epoch": 2.315, + "grad_norm": 2.607630968093872, + "learning_rate": 3.0116845963209996e-06, + "loss": 0.3064, + "step": 6945 + }, + { + "epoch": 2.3153333333333332, + "grad_norm": 3.233583688735962, + "learning_rate": 3.008910877372395e-06, + "loss": 0.2983, + "step": 6946 + }, + { + "epoch": 2.3156666666666665, + "grad_norm": 2.4617326259613037, + "learning_rate": 3.0061382100818126e-06, + "loss": 0.2559, + "step": 6947 + }, + { + "epoch": 2.316, + "grad_norm": 3.3474810123443604, + "learning_rate": 3.003366594866345e-06, + "loss": 0.294, + "step": 6948 + }, + { + "epoch": 2.3163333333333336, + "grad_norm": 2.9585494995117188, + "learning_rate": 3.000596032142924e-06, + "loss": 0.2774, + "step": 6949 + }, + { + "epoch": 2.3166666666666664, + "grad_norm": 3.339731454849243, + "learning_rate": 2.9978265223283152e-06, + "loss": 0.3325, + "step": 6950 + }, + { + "epoch": 2.317, + "grad_norm": 2.8689427375793457, + "learning_rate": 2.995058065839136e-06, + "loss": 0.3228, + "step": 6951 + }, + { + "epoch": 2.3173333333333335, + "grad_norm": 3.3707120418548584, + "learning_rate": 2.992290663091837e-06, + "loss": 0.3018, + "step": 6952 + }, + { + "epoch": 2.3176666666666668, + "grad_norm": 2.7263782024383545, + "learning_rate": 2.9895243145027177e-06, + "loss": 0.3067, + "step": 6953 + }, + { + "epoch": 2.318, + "grad_norm": 3.5826966762542725, + "learning_rate": 2.9867590204879117e-06, + "loss": 0.3163, + "step": 6954 + }, + { + "epoch": 2.3183333333333334, + "grad_norm": 3.611495018005371, + "learning_rate": 2.9839947814633975e-06, + "loss": 0.3101, + "step": 6955 + }, + { + "epoch": 2.3186666666666667, + "grad_norm": 2.965139389038086, + "learning_rate": 2.9812315978450014e-06, + "loss": 0.3191, + "step": 6956 + }, + { + "epoch": 2.319, + "grad_norm": 2.8494620323181152, + "learning_rate": 2.978469470048376e-06, + "loss": 0.3252, + "step": 6957 + }, + { + "epoch": 2.3193333333333332, + "grad_norm": 3.3255326747894287, + "learning_rate": 2.975708398489029e-06, + "loss": 0.2924, + "step": 6958 + }, + { + "epoch": 2.3196666666666665, + "grad_norm": 2.6619040966033936, + "learning_rate": 2.9729483835823023e-06, + "loss": 0.3222, + "step": 6959 + }, + { + "epoch": 2.32, + "grad_norm": 2.5788841247558594, + "learning_rate": 2.970189425743383e-06, + "loss": 0.3057, + "step": 6960 + }, + { + "epoch": 2.320333333333333, + "grad_norm": 2.6829235553741455, + "learning_rate": 2.9674315253872953e-06, + "loss": 0.3122, + "step": 6961 + }, + { + "epoch": 2.320666666666667, + "grad_norm": 3.865774631500244, + "learning_rate": 2.964674682928901e-06, + "loss": 0.3209, + "step": 6962 + }, + { + "epoch": 2.321, + "grad_norm": 4.617473602294922, + "learning_rate": 2.961918898782914e-06, + "loss": 0.2964, + "step": 6963 + }, + { + "epoch": 2.3213333333333335, + "grad_norm": 3.0480356216430664, + "learning_rate": 2.9591641733638755e-06, + "loss": 0.2548, + "step": 6964 + }, + { + "epoch": 2.3216666666666668, + "grad_norm": 3.5345394611358643, + "learning_rate": 2.956410507086179e-06, + "loss": 0.3386, + "step": 6965 + }, + { + "epoch": 2.322, + "grad_norm": 3.0868122577667236, + "learning_rate": 2.953657900364053e-06, + "loss": 0.29, + "step": 6966 + }, + { + "epoch": 2.3223333333333334, + "grad_norm": 2.8451783657073975, + "learning_rate": 2.95090635361157e-06, + "loss": 0.2905, + "step": 6967 + }, + { + "epoch": 2.3226666666666667, + "grad_norm": 2.6706087589263916, + "learning_rate": 2.9481558672426357e-06, + "loss": 0.3055, + "step": 6968 + }, + { + "epoch": 2.323, + "grad_norm": 3.089456796646118, + "learning_rate": 2.945406441671005e-06, + "loss": 0.2682, + "step": 6969 + }, + { + "epoch": 2.3233333333333333, + "grad_norm": 2.8561649322509766, + "learning_rate": 2.94265807731027e-06, + "loss": 0.2882, + "step": 6970 + }, + { + "epoch": 2.3236666666666665, + "grad_norm": 3.101252317428589, + "learning_rate": 2.9399107745738618e-06, + "loss": 0.3162, + "step": 6971 + }, + { + "epoch": 2.324, + "grad_norm": 2.3395400047302246, + "learning_rate": 2.9371645338750477e-06, + "loss": 0.2657, + "step": 6972 + }, + { + "epoch": 2.324333333333333, + "grad_norm": 2.968208074569702, + "learning_rate": 2.9344193556269452e-06, + "loss": 0.3304, + "step": 6973 + }, + { + "epoch": 2.3246666666666664, + "grad_norm": 3.0284972190856934, + "learning_rate": 2.9316752402425087e-06, + "loss": 0.2997, + "step": 6974 + }, + { + "epoch": 2.325, + "grad_norm": 3.039580821990967, + "learning_rate": 2.9289321881345257e-06, + "loss": 0.2481, + "step": 6975 + }, + { + "epoch": 2.3253333333333335, + "grad_norm": 2.565239191055298, + "learning_rate": 2.9261901997156316e-06, + "loss": 0.2791, + "step": 6976 + }, + { + "epoch": 2.3256666666666668, + "grad_norm": 2.8499579429626465, + "learning_rate": 2.923449275398301e-06, + "loss": 0.3243, + "step": 6977 + }, + { + "epoch": 2.326, + "grad_norm": 3.126342535018921, + "learning_rate": 2.9207094155948435e-06, + "loss": 0.3068, + "step": 6978 + }, + { + "epoch": 2.3263333333333334, + "grad_norm": 2.9374396800994873, + "learning_rate": 2.917970620717412e-06, + "loss": 0.2586, + "step": 6979 + }, + { + "epoch": 2.3266666666666667, + "grad_norm": 2.9289662837982178, + "learning_rate": 2.9152328911780027e-06, + "loss": 0.2764, + "step": 6980 + }, + { + "epoch": 2.327, + "grad_norm": 2.4564356803894043, + "learning_rate": 2.912496227388446e-06, + "loss": 0.3241, + "step": 6981 + }, + { + "epoch": 2.3273333333333333, + "grad_norm": 2.8455450534820557, + "learning_rate": 2.9097606297604085e-06, + "loss": 0.3385, + "step": 6982 + }, + { + "epoch": 2.3276666666666666, + "grad_norm": 3.1326472759246826, + "learning_rate": 2.907026098705407e-06, + "loss": 0.3321, + "step": 6983 + }, + { + "epoch": 2.328, + "grad_norm": 2.5239384174346924, + "learning_rate": 2.9042926346347932e-06, + "loss": 0.2934, + "step": 6984 + }, + { + "epoch": 2.328333333333333, + "grad_norm": 2.5926766395568848, + "learning_rate": 2.901560237959753e-06, + "loss": 0.3227, + "step": 6985 + }, + { + "epoch": 2.328666666666667, + "grad_norm": 3.242730140686035, + "learning_rate": 2.8988289090913193e-06, + "loss": 0.2984, + "step": 6986 + }, + { + "epoch": 2.329, + "grad_norm": 2.6281797885894775, + "learning_rate": 2.896098648440362e-06, + "loss": 0.3202, + "step": 6987 + }, + { + "epoch": 2.3293333333333335, + "grad_norm": 2.585160970687866, + "learning_rate": 2.893369456417591e-06, + "loss": 0.3001, + "step": 6988 + }, + { + "epoch": 2.3296666666666668, + "grad_norm": 2.4126124382019043, + "learning_rate": 2.8906413334335494e-06, + "loss": 0.3037, + "step": 6989 + }, + { + "epoch": 2.33, + "grad_norm": 2.558471918106079, + "learning_rate": 2.8879142798986293e-06, + "loss": 0.3374, + "step": 6990 + }, + { + "epoch": 2.3303333333333334, + "grad_norm": 2.761241912841797, + "learning_rate": 2.885188296223055e-06, + "loss": 0.3214, + "step": 6991 + }, + { + "epoch": 2.3306666666666667, + "grad_norm": 3.6639699935913086, + "learning_rate": 2.882463382816888e-06, + "loss": 0.3067, + "step": 6992 + }, + { + "epoch": 2.331, + "grad_norm": 5.796244144439697, + "learning_rate": 2.8797395400900362e-06, + "loss": 0.3119, + "step": 6993 + }, + { + "epoch": 2.3313333333333333, + "grad_norm": 3.796786308288574, + "learning_rate": 2.877016768452242e-06, + "loss": 0.3316, + "step": 6994 + }, + { + "epoch": 2.3316666666666666, + "grad_norm": 2.7846195697784424, + "learning_rate": 2.874295068313091e-06, + "loss": 0.3279, + "step": 6995 + }, + { + "epoch": 2.332, + "grad_norm": 2.7076377868652344, + "learning_rate": 2.8715744400819976e-06, + "loss": 0.3057, + "step": 6996 + }, + { + "epoch": 2.332333333333333, + "grad_norm": 2.608649492263794, + "learning_rate": 2.868854884168224e-06, + "loss": 0.2732, + "step": 6997 + }, + { + "epoch": 2.3326666666666664, + "grad_norm": 2.8557772636413574, + "learning_rate": 2.8661364009808733e-06, + "loss": 0.3241, + "step": 6998 + }, + { + "epoch": 2.333, + "grad_norm": 3.2420451641082764, + "learning_rate": 2.863418990928876e-06, + "loss": 0.2794, + "step": 6999 + }, + { + "epoch": 2.3333333333333335, + "grad_norm": 4.098542213439941, + "learning_rate": 2.8607026544210115e-06, + "loss": 0.323, + "step": 7000 + }, + { + "epoch": 2.333666666666667, + "grad_norm": 3.028869390487671, + "learning_rate": 2.8579873918658897e-06, + "loss": 0.3193, + "step": 7001 + }, + { + "epoch": 2.334, + "grad_norm": 2.7839953899383545, + "learning_rate": 2.855273203671969e-06, + "loss": 0.3033, + "step": 7002 + }, + { + "epoch": 2.3343333333333334, + "grad_norm": 2.529395818710327, + "learning_rate": 2.852560090247534e-06, + "loss": 0.3106, + "step": 7003 + }, + { + "epoch": 2.3346666666666667, + "grad_norm": 2.346578359603882, + "learning_rate": 2.8498480520007154e-06, + "loss": 0.2704, + "step": 7004 + }, + { + "epoch": 2.335, + "grad_norm": 2.7991607189178467, + "learning_rate": 2.8471370893394866e-06, + "loss": 0.3045, + "step": 7005 + }, + { + "epoch": 2.3353333333333333, + "grad_norm": 3.684208869934082, + "learning_rate": 2.844427202671646e-06, + "loss": 0.313, + "step": 7006 + }, + { + "epoch": 2.3356666666666666, + "grad_norm": 3.138253688812256, + "learning_rate": 2.8417183924048386e-06, + "loss": 0.3221, + "step": 7007 + }, + { + "epoch": 2.336, + "grad_norm": 3.272111654281616, + "learning_rate": 2.8390106589465514e-06, + "loss": 0.2891, + "step": 7008 + }, + { + "epoch": 2.336333333333333, + "grad_norm": 2.564790725708008, + "learning_rate": 2.836304002704101e-06, + "loss": 0.3174, + "step": 7009 + }, + { + "epoch": 2.336666666666667, + "grad_norm": 2.4252350330352783, + "learning_rate": 2.8335984240846424e-06, + "loss": 0.2748, + "step": 7010 + }, + { + "epoch": 2.337, + "grad_norm": 2.5481138229370117, + "learning_rate": 2.830893923495173e-06, + "loss": 0.3004, + "step": 7011 + }, + { + "epoch": 2.3373333333333335, + "grad_norm": 2.113537549972534, + "learning_rate": 2.8281905013425304e-06, + "loss": 0.3115, + "step": 7012 + }, + { + "epoch": 2.337666666666667, + "grad_norm": 2.7126219272613525, + "learning_rate": 2.82548815803338e-06, + "loss": 0.2905, + "step": 7013 + }, + { + "epoch": 2.338, + "grad_norm": 2.4368584156036377, + "learning_rate": 2.8227868939742333e-06, + "loss": 0.3276, + "step": 7014 + }, + { + "epoch": 2.3383333333333334, + "grad_norm": 3.1532435417175293, + "learning_rate": 2.820086709571438e-06, + "loss": 0.2906, + "step": 7015 + }, + { + "epoch": 2.3386666666666667, + "grad_norm": 2.6041338443756104, + "learning_rate": 2.81738760523118e-06, + "loss": 0.3321, + "step": 7016 + }, + { + "epoch": 2.339, + "grad_norm": 2.5073437690734863, + "learning_rate": 2.8146895813594754e-06, + "loss": 0.3184, + "step": 7017 + }, + { + "epoch": 2.3393333333333333, + "grad_norm": 3.095491886138916, + "learning_rate": 2.811992638362191e-06, + "loss": 0.2878, + "step": 7018 + }, + { + "epoch": 2.3396666666666666, + "grad_norm": 2.69838285446167, + "learning_rate": 2.8092967766450187e-06, + "loss": 0.3272, + "step": 7019 + }, + { + "epoch": 2.34, + "grad_norm": 2.682349920272827, + "learning_rate": 2.8066019966134907e-06, + "loss": 0.2865, + "step": 7020 + }, + { + "epoch": 2.340333333333333, + "grad_norm": 2.4442007541656494, + "learning_rate": 2.8039082986729806e-06, + "loss": 0.3084, + "step": 7021 + }, + { + "epoch": 2.3406666666666665, + "grad_norm": 3.1262431144714355, + "learning_rate": 2.8012156832286974e-06, + "loss": 0.2974, + "step": 7022 + }, + { + "epoch": 2.341, + "grad_norm": 2.661864757537842, + "learning_rate": 2.79852415068569e-06, + "loss": 0.2846, + "step": 7023 + }, + { + "epoch": 2.3413333333333335, + "grad_norm": 2.206928014755249, + "learning_rate": 2.7958337014488344e-06, + "loss": 0.2933, + "step": 7024 + }, + { + "epoch": 2.341666666666667, + "grad_norm": 2.291693925857544, + "learning_rate": 2.793144335922854e-06, + "loss": 0.2964, + "step": 7025 + }, + { + "epoch": 2.342, + "grad_norm": 2.8012518882751465, + "learning_rate": 2.7904560545123082e-06, + "loss": 0.3148, + "step": 7026 + }, + { + "epoch": 2.3423333333333334, + "grad_norm": 2.316598415374756, + "learning_rate": 2.7877688576215856e-06, + "loss": 0.3144, + "step": 7027 + }, + { + "epoch": 2.3426666666666667, + "grad_norm": 3.087052583694458, + "learning_rate": 2.785082745654921e-06, + "loss": 0.321, + "step": 7028 + }, + { + "epoch": 2.343, + "grad_norm": 2.6582157611846924, + "learning_rate": 2.7823977190163788e-06, + "loss": 0.2668, + "step": 7029 + }, + { + "epoch": 2.3433333333333333, + "grad_norm": 2.470142126083374, + "learning_rate": 2.779713778109867e-06, + "loss": 0.2883, + "step": 7030 + }, + { + "epoch": 2.3436666666666666, + "grad_norm": 2.7500898838043213, + "learning_rate": 2.77703092333912e-06, + "loss": 0.2799, + "step": 7031 + }, + { + "epoch": 2.344, + "grad_norm": 3.243502616882324, + "learning_rate": 2.7743491551077197e-06, + "loss": 0.3195, + "step": 7032 + }, + { + "epoch": 2.344333333333333, + "grad_norm": 3.971062660217285, + "learning_rate": 2.7716684738190825e-06, + "loss": 0.329, + "step": 7033 + }, + { + "epoch": 2.344666666666667, + "grad_norm": 2.8213918209075928, + "learning_rate": 2.7689888798764518e-06, + "loss": 0.3051, + "step": 7034 + }, + { + "epoch": 2.3449999999999998, + "grad_norm": 3.638998508453369, + "learning_rate": 2.76631037368292e-06, + "loss": 0.2869, + "step": 7035 + }, + { + "epoch": 2.3453333333333335, + "grad_norm": 2.840176582336426, + "learning_rate": 2.7636329556414076e-06, + "loss": 0.2997, + "step": 7036 + }, + { + "epoch": 2.345666666666667, + "grad_norm": 2.068112850189209, + "learning_rate": 2.7609566261546796e-06, + "loss": 0.325, + "step": 7037 + }, + { + "epoch": 2.346, + "grad_norm": 3.526184558868408, + "learning_rate": 2.7582813856253276e-06, + "loss": 0.3265, + "step": 7038 + }, + { + "epoch": 2.3463333333333334, + "grad_norm": 2.9452829360961914, + "learning_rate": 2.7556072344557792e-06, + "loss": 0.3244, + "step": 7039 + }, + { + "epoch": 2.3466666666666667, + "grad_norm": 2.2053613662719727, + "learning_rate": 2.7529341730483115e-06, + "loss": 0.3048, + "step": 7040 + }, + { + "epoch": 2.347, + "grad_norm": 3.111375093460083, + "learning_rate": 2.750262201805022e-06, + "loss": 0.3317, + "step": 7041 + }, + { + "epoch": 2.3473333333333333, + "grad_norm": 2.2073044776916504, + "learning_rate": 2.7475913211278515e-06, + "loss": 0.2713, + "step": 7042 + }, + { + "epoch": 2.3476666666666666, + "grad_norm": 3.0490405559539795, + "learning_rate": 2.7449215314185783e-06, + "loss": 0.2979, + "step": 7043 + }, + { + "epoch": 2.348, + "grad_norm": 3.7788150310516357, + "learning_rate": 2.742252833078818e-06, + "loss": 0.3177, + "step": 7044 + }, + { + "epoch": 2.348333333333333, + "grad_norm": 2.9705588817596436, + "learning_rate": 2.739585226510011e-06, + "loss": 0.3122, + "step": 7045 + }, + { + "epoch": 2.3486666666666665, + "grad_norm": 2.689835786819458, + "learning_rate": 2.736918712113448e-06, + "loss": 0.2626, + "step": 7046 + }, + { + "epoch": 2.349, + "grad_norm": 2.6932735443115234, + "learning_rate": 2.7342532902902418e-06, + "loss": 0.3057, + "step": 7047 + }, + { + "epoch": 2.3493333333333335, + "grad_norm": 2.601367473602295, + "learning_rate": 2.7315889614413528e-06, + "loss": 0.2769, + "step": 7048 + }, + { + "epoch": 2.349666666666667, + "grad_norm": 2.5997581481933594, + "learning_rate": 2.7289257259675673e-06, + "loss": 0.2925, + "step": 7049 + }, + { + "epoch": 2.35, + "grad_norm": 2.758462905883789, + "learning_rate": 2.726263584269513e-06, + "loss": 0.3259, + "step": 7050 + }, + { + "epoch": 2.3503333333333334, + "grad_norm": 2.3252272605895996, + "learning_rate": 2.7236025367476548e-06, + "loss": 0.3053, + "step": 7051 + }, + { + "epoch": 2.3506666666666667, + "grad_norm": 2.594114065170288, + "learning_rate": 2.720942583802285e-06, + "loss": 0.2784, + "step": 7052 + }, + { + "epoch": 2.351, + "grad_norm": 2.5840327739715576, + "learning_rate": 2.718283725833537e-06, + "loss": 0.3015, + "step": 7053 + }, + { + "epoch": 2.3513333333333333, + "grad_norm": 3.6565163135528564, + "learning_rate": 2.7156259632413817e-06, + "loss": 0.3266, + "step": 7054 + }, + { + "epoch": 2.3516666666666666, + "grad_norm": 2.578655958175659, + "learning_rate": 2.7129692964256172e-06, + "loss": 0.3004, + "step": 7055 + }, + { + "epoch": 2.352, + "grad_norm": 2.985089063644409, + "learning_rate": 2.7103137257858867e-06, + "loss": 0.2994, + "step": 7056 + }, + { + "epoch": 2.352333333333333, + "grad_norm": 4.4290876388549805, + "learning_rate": 2.7076592517216573e-06, + "loss": 0.3091, + "step": 7057 + }, + { + "epoch": 2.352666666666667, + "grad_norm": 2.858790159225464, + "learning_rate": 2.705005874632244e-06, + "loss": 0.342, + "step": 7058 + }, + { + "epoch": 2.3529999999999998, + "grad_norm": 3.365795612335205, + "learning_rate": 2.7023535949167825e-06, + "loss": 0.3348, + "step": 7059 + }, + { + "epoch": 2.3533333333333335, + "grad_norm": 2.818418025970459, + "learning_rate": 2.6997024129742544e-06, + "loss": 0.3115, + "step": 7060 + }, + { + "epoch": 2.353666666666667, + "grad_norm": 2.570826530456543, + "learning_rate": 2.6970523292034765e-06, + "loss": 0.2693, + "step": 7061 + }, + { + "epoch": 2.354, + "grad_norm": 2.458930492401123, + "learning_rate": 2.6944033440030894e-06, + "loss": 0.3001, + "step": 7062 + }, + { + "epoch": 2.3543333333333334, + "grad_norm": 3.4618027210235596, + "learning_rate": 2.69175545777158e-06, + "loss": 0.3102, + "step": 7063 + }, + { + "epoch": 2.3546666666666667, + "grad_norm": 2.629751443862915, + "learning_rate": 2.6891086709072635e-06, + "loss": 0.298, + "step": 7064 + }, + { + "epoch": 2.355, + "grad_norm": 3.229904890060425, + "learning_rate": 2.6864629838082957e-06, + "loss": 0.3252, + "step": 7065 + }, + { + "epoch": 2.3553333333333333, + "grad_norm": 2.4711081981658936, + "learning_rate": 2.6838183968726606e-06, + "loss": 0.2851, + "step": 7066 + }, + { + "epoch": 2.3556666666666666, + "grad_norm": 2.180884599685669, + "learning_rate": 2.6811749104981745e-06, + "loss": 0.2666, + "step": 7067 + }, + { + "epoch": 2.356, + "grad_norm": 3.067017078399658, + "learning_rate": 2.678532525082498e-06, + "loss": 0.3101, + "step": 7068 + }, + { + "epoch": 2.356333333333333, + "grad_norm": 2.1712493896484375, + "learning_rate": 2.675891241023121e-06, + "loss": 0.3021, + "step": 7069 + }, + { + "epoch": 2.3566666666666665, + "grad_norm": 3.005570888519287, + "learning_rate": 2.6732510587173645e-06, + "loss": 0.3198, + "step": 7070 + }, + { + "epoch": 2.357, + "grad_norm": 2.920266628265381, + "learning_rate": 2.670611978562386e-06, + "loss": 0.3062, + "step": 7071 + }, + { + "epoch": 2.3573333333333335, + "grad_norm": 2.78281569480896, + "learning_rate": 2.6679740009551858e-06, + "loss": 0.3172, + "step": 7072 + }, + { + "epoch": 2.357666666666667, + "grad_norm": 3.527970314025879, + "learning_rate": 2.66533712629258e-06, + "loss": 0.2953, + "step": 7073 + }, + { + "epoch": 2.358, + "grad_norm": 3.0607223510742188, + "learning_rate": 2.6627013549712355e-06, + "loss": 0.2841, + "step": 7074 + }, + { + "epoch": 2.3583333333333334, + "grad_norm": 3.1211655139923096, + "learning_rate": 2.660066687387648e-06, + "loss": 0.3289, + "step": 7075 + }, + { + "epoch": 2.3586666666666667, + "grad_norm": 2.9265010356903076, + "learning_rate": 2.6574331239381446e-06, + "loss": 0.2812, + "step": 7076 + }, + { + "epoch": 2.359, + "grad_norm": 2.0132009983062744, + "learning_rate": 2.654800665018884e-06, + "loss": 0.2206, + "step": 7077 + }, + { + "epoch": 2.3593333333333333, + "grad_norm": 2.5768675804138184, + "learning_rate": 2.652169311025865e-06, + "loss": 0.3239, + "step": 7078 + }, + { + "epoch": 2.3596666666666666, + "grad_norm": 2.2979650497436523, + "learning_rate": 2.649539062354923e-06, + "loss": 0.3143, + "step": 7079 + }, + { + "epoch": 2.36, + "grad_norm": 2.8934521675109863, + "learning_rate": 2.6469099194017144e-06, + "loss": 0.3255, + "step": 7080 + }, + { + "epoch": 2.360333333333333, + "grad_norm": 2.4565157890319824, + "learning_rate": 2.64428188256174e-06, + "loss": 0.3233, + "step": 7081 + }, + { + "epoch": 2.360666666666667, + "grad_norm": 2.8589086532592773, + "learning_rate": 2.6416549522303325e-06, + "loss": 0.2775, + "step": 7082 + }, + { + "epoch": 2.3609999999999998, + "grad_norm": 2.1831398010253906, + "learning_rate": 2.639029128802657e-06, + "loss": 0.3249, + "step": 7083 + }, + { + "epoch": 2.3613333333333335, + "grad_norm": 3.281899929046631, + "learning_rate": 2.6364044126737078e-06, + "loss": 0.295, + "step": 7084 + }, + { + "epoch": 2.361666666666667, + "grad_norm": 2.318155527114868, + "learning_rate": 2.633780804238323e-06, + "loss": 0.264, + "step": 7085 + }, + { + "epoch": 2.362, + "grad_norm": 3.2216455936431885, + "learning_rate": 2.6311583038911625e-06, + "loss": 0.316, + "step": 7086 + }, + { + "epoch": 2.3623333333333334, + "grad_norm": 3.2409987449645996, + "learning_rate": 2.6285369120267234e-06, + "loss": 0.2891, + "step": 7087 + }, + { + "epoch": 2.3626666666666667, + "grad_norm": 2.0675101280212402, + "learning_rate": 2.6259166290393402e-06, + "loss": 0.2684, + "step": 7088 + }, + { + "epoch": 2.363, + "grad_norm": 3.058917760848999, + "learning_rate": 2.623297455323177e-06, + "loss": 0.334, + "step": 7089 + }, + { + "epoch": 2.3633333333333333, + "grad_norm": 2.9440927505493164, + "learning_rate": 2.620679391272236e-06, + "loss": 0.3069, + "step": 7090 + }, + { + "epoch": 2.3636666666666666, + "grad_norm": 3.2672197818756104, + "learning_rate": 2.618062437280342e-06, + "loss": 0.2825, + "step": 7091 + }, + { + "epoch": 2.364, + "grad_norm": 2.323634147644043, + "learning_rate": 2.615446593741161e-06, + "loss": 0.2757, + "step": 7092 + }, + { + "epoch": 2.364333333333333, + "grad_norm": 2.6274681091308594, + "learning_rate": 2.612831861048194e-06, + "loss": 0.3245, + "step": 7093 + }, + { + "epoch": 2.3646666666666665, + "grad_norm": 3.223745584487915, + "learning_rate": 2.610218239594764e-06, + "loss": 0.2967, + "step": 7094 + }, + { + "epoch": 2.365, + "grad_norm": 2.499011516571045, + "learning_rate": 2.607605729774041e-06, + "loss": 0.3098, + "step": 7095 + }, + { + "epoch": 2.3653333333333335, + "grad_norm": 2.698788642883301, + "learning_rate": 2.6049943319790137e-06, + "loss": 0.3309, + "step": 7096 + }, + { + "epoch": 2.365666666666667, + "grad_norm": 2.5406413078308105, + "learning_rate": 2.6023840466025163e-06, + "loss": 0.3093, + "step": 7097 + }, + { + "epoch": 2.366, + "grad_norm": 3.3667359352111816, + "learning_rate": 2.5997748740372053e-06, + "loss": 0.3344, + "step": 7098 + }, + { + "epoch": 2.3663333333333334, + "grad_norm": 2.522556781768799, + "learning_rate": 2.597166814675575e-06, + "loss": 0.2796, + "step": 7099 + }, + { + "epoch": 2.3666666666666667, + "grad_norm": 2.859372615814209, + "learning_rate": 2.594559868909956e-06, + "loss": 0.2916, + "step": 7100 + }, + { + "epoch": 2.367, + "grad_norm": 2.1660244464874268, + "learning_rate": 2.5919540371325005e-06, + "loss": 0.3131, + "step": 7101 + }, + { + "epoch": 2.3673333333333333, + "grad_norm": 3.8161208629608154, + "learning_rate": 2.5893493197352015e-06, + "loss": 0.327, + "step": 7102 + }, + { + "epoch": 2.3676666666666666, + "grad_norm": 3.8001012802124023, + "learning_rate": 2.5867457171098863e-06, + "loss": 0.2926, + "step": 7103 + }, + { + "epoch": 2.368, + "grad_norm": 2.941291093826294, + "learning_rate": 2.584143229648207e-06, + "loss": 0.2967, + "step": 7104 + }, + { + "epoch": 2.368333333333333, + "grad_norm": 2.536086082458496, + "learning_rate": 2.5815418577416505e-06, + "loss": 0.2862, + "step": 7105 + }, + { + "epoch": 2.3686666666666665, + "grad_norm": 2.6304543018341064, + "learning_rate": 2.578941601781537e-06, + "loss": 0.2912, + "step": 7106 + }, + { + "epoch": 2.3689999999999998, + "grad_norm": 3.301116466522217, + "learning_rate": 2.576342462159024e-06, + "loss": 0.2942, + "step": 7107 + }, + { + "epoch": 2.3693333333333335, + "grad_norm": 3.466665029525757, + "learning_rate": 2.573744439265088e-06, + "loss": 0.2833, + "step": 7108 + }, + { + "epoch": 2.369666666666667, + "grad_norm": 3.7441372871398926, + "learning_rate": 2.57114753349055e-06, + "loss": 0.2835, + "step": 7109 + }, + { + "epoch": 2.37, + "grad_norm": 2.266385555267334, + "learning_rate": 2.5685517452260566e-06, + "loss": 0.2591, + "step": 7110 + }, + { + "epoch": 2.3703333333333334, + "grad_norm": 2.84891414642334, + "learning_rate": 2.565957074862092e-06, + "loss": 0.3139, + "step": 7111 + }, + { + "epoch": 2.3706666666666667, + "grad_norm": 2.63565731048584, + "learning_rate": 2.563363522788962e-06, + "loss": 0.2845, + "step": 7112 + }, + { + "epoch": 2.371, + "grad_norm": 2.4121127128601074, + "learning_rate": 2.5607710893968165e-06, + "loss": 0.3262, + "step": 7113 + }, + { + "epoch": 2.3713333333333333, + "grad_norm": 3.203521966934204, + "learning_rate": 2.5581797750756277e-06, + "loss": 0.3289, + "step": 7114 + }, + { + "epoch": 2.3716666666666666, + "grad_norm": 3.310600996017456, + "learning_rate": 2.5555895802151998e-06, + "loss": 0.285, + "step": 7115 + }, + { + "epoch": 2.372, + "grad_norm": 2.4511654376983643, + "learning_rate": 2.5530005052051742e-06, + "loss": 0.2777, + "step": 7116 + }, + { + "epoch": 2.372333333333333, + "grad_norm": 3.1477224826812744, + "learning_rate": 2.550412550435022e-06, + "loss": 0.2922, + "step": 7117 + }, + { + "epoch": 2.3726666666666665, + "grad_norm": 2.4488942623138428, + "learning_rate": 2.547825716294048e-06, + "loss": 0.3109, + "step": 7118 + }, + { + "epoch": 2.373, + "grad_norm": 2.9452764987945557, + "learning_rate": 2.5452400031713786e-06, + "loss": 0.3148, + "step": 7119 + }, + { + "epoch": 2.3733333333333335, + "grad_norm": 2.3401284217834473, + "learning_rate": 2.542655411455982e-06, + "loss": 0.2806, + "step": 7120 + }, + { + "epoch": 2.373666666666667, + "grad_norm": 2.4771413803100586, + "learning_rate": 2.5400719415366557e-06, + "loss": 0.2805, + "step": 7121 + }, + { + "epoch": 2.374, + "grad_norm": 2.47989821434021, + "learning_rate": 2.5374895938020226e-06, + "loss": 0.249, + "step": 7122 + }, + { + "epoch": 2.3743333333333334, + "grad_norm": 3.1743290424346924, + "learning_rate": 2.5349083686405474e-06, + "loss": 0.2995, + "step": 7123 + }, + { + "epoch": 2.3746666666666667, + "grad_norm": 2.0569989681243896, + "learning_rate": 2.5323282664405115e-06, + "loss": 0.2505, + "step": 7124 + }, + { + "epoch": 2.375, + "grad_norm": 2.7813515663146973, + "learning_rate": 2.529749287590042e-06, + "loss": 0.2964, + "step": 7125 + }, + { + "epoch": 2.3753333333333333, + "grad_norm": 2.44150447845459, + "learning_rate": 2.5271714324770856e-06, + "loss": 0.3429, + "step": 7126 + }, + { + "epoch": 2.3756666666666666, + "grad_norm": 2.8892617225646973, + "learning_rate": 2.524594701489428e-06, + "loss": 0.2665, + "step": 7127 + }, + { + "epoch": 2.376, + "grad_norm": 2.735934257507324, + "learning_rate": 2.522019095014683e-06, + "loss": 0.2893, + "step": 7128 + }, + { + "epoch": 2.376333333333333, + "grad_norm": 3.1037955284118652, + "learning_rate": 2.519444613440292e-06, + "loss": 0.3116, + "step": 7129 + }, + { + "epoch": 2.3766666666666665, + "grad_norm": 3.3824245929718018, + "learning_rate": 2.5168712571535305e-06, + "loss": 0.3102, + "step": 7130 + }, + { + "epoch": 2.377, + "grad_norm": 2.751040458679199, + "learning_rate": 2.514299026541508e-06, + "loss": 0.3442, + "step": 7131 + }, + { + "epoch": 2.3773333333333335, + "grad_norm": 2.670257329940796, + "learning_rate": 2.511727921991156e-06, + "loss": 0.2915, + "step": 7132 + }, + { + "epoch": 2.377666666666667, + "grad_norm": 2.356731653213501, + "learning_rate": 2.5091579438892453e-06, + "loss": 0.2968, + "step": 7133 + }, + { + "epoch": 2.378, + "grad_norm": 2.4614527225494385, + "learning_rate": 2.506589092622371e-06, + "loss": 0.309, + "step": 7134 + }, + { + "epoch": 2.3783333333333334, + "grad_norm": 2.7510950565338135, + "learning_rate": 2.504021368576964e-06, + "loss": 0.3069, + "step": 7135 + }, + { + "epoch": 2.3786666666666667, + "grad_norm": 2.547051191329956, + "learning_rate": 2.501454772139278e-06, + "loss": 0.3193, + "step": 7136 + }, + { + "epoch": 2.379, + "grad_norm": 3.2365121841430664, + "learning_rate": 2.4988893036954045e-06, + "loss": 0.2873, + "step": 7137 + }, + { + "epoch": 2.3793333333333333, + "grad_norm": 3.2105588912963867, + "learning_rate": 2.4963249636312638e-06, + "loss": 0.328, + "step": 7138 + }, + { + "epoch": 2.3796666666666666, + "grad_norm": 2.7665016651153564, + "learning_rate": 2.4937617523326065e-06, + "loss": 0.3069, + "step": 7139 + }, + { + "epoch": 2.38, + "grad_norm": 2.516023874282837, + "learning_rate": 2.4911996701850083e-06, + "loss": 0.289, + "step": 7140 + }, + { + "epoch": 2.380333333333333, + "grad_norm": 2.530240535736084, + "learning_rate": 2.4886387175738825e-06, + "loss": 0.328, + "step": 7141 + }, + { + "epoch": 2.3806666666666665, + "grad_norm": 2.6790547370910645, + "learning_rate": 2.486078894884466e-06, + "loss": 0.273, + "step": 7142 + }, + { + "epoch": 2.3810000000000002, + "grad_norm": 3.2912518978118896, + "learning_rate": 2.4835202025018325e-06, + "loss": 0.2818, + "step": 7143 + }, + { + "epoch": 2.3813333333333335, + "grad_norm": 2.518925905227661, + "learning_rate": 2.4809626408108765e-06, + "loss": 0.3001, + "step": 7144 + }, + { + "epoch": 2.381666666666667, + "grad_norm": 3.395097255706787, + "learning_rate": 2.47840621019633e-06, + "loss": 0.2588, + "step": 7145 + }, + { + "epoch": 2.382, + "grad_norm": 2.43558931350708, + "learning_rate": 2.4758509110427576e-06, + "loss": 0.2989, + "step": 7146 + }, + { + "epoch": 2.3823333333333334, + "grad_norm": 2.5202226638793945, + "learning_rate": 2.4732967437345413e-06, + "loss": 0.3016, + "step": 7147 + }, + { + "epoch": 2.3826666666666667, + "grad_norm": 3.4066529273986816, + "learning_rate": 2.470743708655904e-06, + "loss": 0.3206, + "step": 7148 + }, + { + "epoch": 2.383, + "grad_norm": 2.71431565284729, + "learning_rate": 2.468191806190897e-06, + "loss": 0.2873, + "step": 7149 + }, + { + "epoch": 2.3833333333333333, + "grad_norm": 3.11814546585083, + "learning_rate": 2.4656410367233928e-06, + "loss": 0.2675, + "step": 7150 + }, + { + "epoch": 2.3836666666666666, + "grad_norm": 2.285327434539795, + "learning_rate": 2.4630914006371055e-06, + "loss": 0.3026, + "step": 7151 + }, + { + "epoch": 2.384, + "grad_norm": 2.4830777645111084, + "learning_rate": 2.4605428983155667e-06, + "loss": 0.3276, + "step": 7152 + }, + { + "epoch": 2.384333333333333, + "grad_norm": 2.808631181716919, + "learning_rate": 2.45799553014215e-06, + "loss": 0.3358, + "step": 7153 + }, + { + "epoch": 2.3846666666666665, + "grad_norm": 2.8352437019348145, + "learning_rate": 2.455449296500044e-06, + "loss": 0.2701, + "step": 7154 + }, + { + "epoch": 2.385, + "grad_norm": 2.3749828338623047, + "learning_rate": 2.45290419777228e-06, + "loss": 0.3226, + "step": 7155 + }, + { + "epoch": 2.3853333333333335, + "grad_norm": 2.639422655105591, + "learning_rate": 2.4503602343417145e-06, + "loss": 0.3031, + "step": 7156 + }, + { + "epoch": 2.385666666666667, + "grad_norm": 3.286510467529297, + "learning_rate": 2.447817406591025e-06, + "loss": 0.3187, + "step": 7157 + }, + { + "epoch": 2.386, + "grad_norm": 3.141603946685791, + "learning_rate": 2.4452757149027308e-06, + "loss": 0.3189, + "step": 7158 + }, + { + "epoch": 2.3863333333333334, + "grad_norm": 2.194103240966797, + "learning_rate": 2.442735159659171e-06, + "loss": 0.2515, + "step": 7159 + }, + { + "epoch": 2.3866666666666667, + "grad_norm": 3.1722946166992188, + "learning_rate": 2.4401957412425213e-06, + "loss": 0.3308, + "step": 7160 + }, + { + "epoch": 2.387, + "grad_norm": 2.823155164718628, + "learning_rate": 2.4376574600347803e-06, + "loss": 0.3121, + "step": 7161 + }, + { + "epoch": 2.3873333333333333, + "grad_norm": 2.5317986011505127, + "learning_rate": 2.435120316417774e-06, + "loss": 0.2509, + "step": 7162 + }, + { + "epoch": 2.3876666666666666, + "grad_norm": 2.6369261741638184, + "learning_rate": 2.432584310773165e-06, + "loss": 0.3178, + "step": 7163 + }, + { + "epoch": 2.388, + "grad_norm": 4.163784980773926, + "learning_rate": 2.4300494434824373e-06, + "loss": 0.2997, + "step": 7164 + }, + { + "epoch": 2.388333333333333, + "grad_norm": 3.808035373687744, + "learning_rate": 2.427515714926908e-06, + "loss": 0.3227, + "step": 7165 + }, + { + "epoch": 2.3886666666666665, + "grad_norm": 3.97178316116333, + "learning_rate": 2.424983125487722e-06, + "loss": 0.3233, + "step": 7166 + }, + { + "epoch": 2.3890000000000002, + "grad_norm": 2.626030206680298, + "learning_rate": 2.422451675545855e-06, + "loss": 0.2989, + "step": 7167 + }, + { + "epoch": 2.389333333333333, + "grad_norm": 3.111065626144409, + "learning_rate": 2.4199213654821043e-06, + "loss": 0.2866, + "step": 7168 + }, + { + "epoch": 2.389666666666667, + "grad_norm": 4.832404136657715, + "learning_rate": 2.417392195677103e-06, + "loss": 0.2945, + "step": 7169 + }, + { + "epoch": 2.39, + "grad_norm": 2.8116917610168457, + "learning_rate": 2.4148641665113116e-06, + "loss": 0.2906, + "step": 7170 + }, + { + "epoch": 2.3903333333333334, + "grad_norm": 2.384880781173706, + "learning_rate": 2.4123372783650145e-06, + "loss": 0.261, + "step": 7171 + }, + { + "epoch": 2.3906666666666667, + "grad_norm": 2.476303815841675, + "learning_rate": 2.409811531618326e-06, + "loss": 0.3186, + "step": 7172 + }, + { + "epoch": 2.391, + "grad_norm": 2.075578212738037, + "learning_rate": 2.407286926651192e-06, + "loss": 0.2895, + "step": 7173 + }, + { + "epoch": 2.3913333333333333, + "grad_norm": 2.2478787899017334, + "learning_rate": 2.404763463843387e-06, + "loss": 0.305, + "step": 7174 + }, + { + "epoch": 2.3916666666666666, + "grad_norm": 2.6798582077026367, + "learning_rate": 2.4022411435745076e-06, + "loss": 0.3005, + "step": 7175 + }, + { + "epoch": 2.392, + "grad_norm": 2.784327507019043, + "learning_rate": 2.3997199662239825e-06, + "loss": 0.299, + "step": 7176 + }, + { + "epoch": 2.392333333333333, + "grad_norm": 3.5687124729156494, + "learning_rate": 2.3971999321710726e-06, + "loss": 0.2808, + "step": 7177 + }, + { + "epoch": 2.3926666666666665, + "grad_norm": 3.155942916870117, + "learning_rate": 2.3946810417948564e-06, + "loss": 0.303, + "step": 7178 + }, + { + "epoch": 2.393, + "grad_norm": 3.700751304626465, + "learning_rate": 2.39216329547425e-06, + "loss": 0.3132, + "step": 7179 + }, + { + "epoch": 2.3933333333333335, + "grad_norm": 2.4967222213745117, + "learning_rate": 2.3896466935879957e-06, + "loss": 0.3188, + "step": 7180 + }, + { + "epoch": 2.393666666666667, + "grad_norm": 2.9350104331970215, + "learning_rate": 2.387131236514659e-06, + "loss": 0.2773, + "step": 7181 + }, + { + "epoch": 2.394, + "grad_norm": 2.6352379322052, + "learning_rate": 2.3846169246326345e-06, + "loss": 0.309, + "step": 7182 + }, + { + "epoch": 2.3943333333333334, + "grad_norm": 2.610579490661621, + "learning_rate": 2.3821037583201466e-06, + "loss": 0.3052, + "step": 7183 + }, + { + "epoch": 2.3946666666666667, + "grad_norm": 3.8792648315429688, + "learning_rate": 2.379591737955251e-06, + "loss": 0.2929, + "step": 7184 + }, + { + "epoch": 2.395, + "grad_norm": 3.354741334915161, + "learning_rate": 2.3770808639158216e-06, + "loss": 0.2742, + "step": 7185 + }, + { + "epoch": 2.3953333333333333, + "grad_norm": 2.735137462615967, + "learning_rate": 2.3745711365795666e-06, + "loss": 0.3183, + "step": 7186 + }, + { + "epoch": 2.3956666666666666, + "grad_norm": 2.1340689659118652, + "learning_rate": 2.372062556324021e-06, + "loss": 0.2769, + "step": 7187 + }, + { + "epoch": 2.396, + "grad_norm": 3.311321973800659, + "learning_rate": 2.3695551235265492e-06, + "loss": 0.2948, + "step": 7188 + }, + { + "epoch": 2.396333333333333, + "grad_norm": 3.0048625469207764, + "learning_rate": 2.3670488385643364e-06, + "loss": 0.3211, + "step": 7189 + }, + { + "epoch": 2.3966666666666665, + "grad_norm": 2.6487934589385986, + "learning_rate": 2.364543701814398e-06, + "loss": 0.2736, + "step": 7190 + }, + { + "epoch": 2.3970000000000002, + "grad_norm": 2.6501944065093994, + "learning_rate": 2.362039713653581e-06, + "loss": 0.3069, + "step": 7191 + }, + { + "epoch": 2.397333333333333, + "grad_norm": 3.3963353633880615, + "learning_rate": 2.3595368744585525e-06, + "loss": 0.3049, + "step": 7192 + }, + { + "epoch": 2.397666666666667, + "grad_norm": 3.1539111137390137, + "learning_rate": 2.3570351846058113e-06, + "loss": 0.3121, + "step": 7193 + }, + { + "epoch": 2.398, + "grad_norm": 3.019906997680664, + "learning_rate": 2.3545346444716842e-06, + "loss": 0.2837, + "step": 7194 + }, + { + "epoch": 2.3983333333333334, + "grad_norm": 3.2206943035125732, + "learning_rate": 2.3520352544323255e-06, + "loss": 0.2932, + "step": 7195 + }, + { + "epoch": 2.3986666666666667, + "grad_norm": 2.5814554691314697, + "learning_rate": 2.3495370148637097e-06, + "loss": 0.291, + "step": 7196 + }, + { + "epoch": 2.399, + "grad_norm": 3.4505081176757812, + "learning_rate": 2.347039926141644e-06, + "loss": 0.3233, + "step": 7197 + }, + { + "epoch": 2.3993333333333333, + "grad_norm": 2.420337200164795, + "learning_rate": 2.3445439886417643e-06, + "loss": 0.2988, + "step": 7198 + }, + { + "epoch": 2.3996666666666666, + "grad_norm": 2.6010477542877197, + "learning_rate": 2.3420492027395294e-06, + "loss": 0.2903, + "step": 7199 + }, + { + "epoch": 2.4, + "grad_norm": 3.4776113033294678, + "learning_rate": 2.339555568810221e-06, + "loss": 0.3075, + "step": 7200 + }, + { + "epoch": 2.400333333333333, + "grad_norm": 2.8335328102111816, + "learning_rate": 2.3370630872289556e-06, + "loss": 0.3083, + "step": 7201 + }, + { + "epoch": 2.4006666666666665, + "grad_norm": 2.4426052570343018, + "learning_rate": 2.334571758370677e-06, + "loss": 0.2923, + "step": 7202 + }, + { + "epoch": 2.401, + "grad_norm": 2.7309556007385254, + "learning_rate": 2.332081582610146e-06, + "loss": 0.27, + "step": 7203 + }, + { + "epoch": 2.4013333333333335, + "grad_norm": 2.4740517139434814, + "learning_rate": 2.329592560321957e-06, + "loss": 0.3003, + "step": 7204 + }, + { + "epoch": 2.401666666666667, + "grad_norm": 2.4257559776306152, + "learning_rate": 2.327104691880533e-06, + "loss": 0.248, + "step": 7205 + }, + { + "epoch": 2.402, + "grad_norm": 2.4801368713378906, + "learning_rate": 2.324617977660114e-06, + "loss": 0.2868, + "step": 7206 + }, + { + "epoch": 2.4023333333333334, + "grad_norm": 3.8637731075286865, + "learning_rate": 2.322132418034776e-06, + "loss": 0.3163, + "step": 7207 + }, + { + "epoch": 2.4026666666666667, + "grad_norm": 2.7973811626434326, + "learning_rate": 2.3196480133784206e-06, + "loss": 0.2662, + "step": 7208 + }, + { + "epoch": 2.403, + "grad_norm": 2.8951363563537598, + "learning_rate": 2.317164764064769e-06, + "loss": 0.3041, + "step": 7209 + }, + { + "epoch": 2.4033333333333333, + "grad_norm": 2.8806838989257812, + "learning_rate": 2.3146826704673696e-06, + "loss": 0.3237, + "step": 7210 + }, + { + "epoch": 2.4036666666666666, + "grad_norm": 2.646822929382324, + "learning_rate": 2.3122017329596036e-06, + "loss": 0.2999, + "step": 7211 + }, + { + "epoch": 2.404, + "grad_norm": 2.8374626636505127, + "learning_rate": 2.309721951914675e-06, + "loss": 0.2645, + "step": 7212 + }, + { + "epoch": 2.404333333333333, + "grad_norm": 2.4537055492401123, + "learning_rate": 2.3072433277056096e-06, + "loss": 0.3367, + "step": 7213 + }, + { + "epoch": 2.4046666666666665, + "grad_norm": 3.0185744762420654, + "learning_rate": 2.304765860705265e-06, + "loss": 0.3165, + "step": 7214 + }, + { + "epoch": 2.4050000000000002, + "grad_norm": 2.698152542114258, + "learning_rate": 2.3022895512863207e-06, + "loss": 0.2767, + "step": 7215 + }, + { + "epoch": 2.405333333333333, + "grad_norm": 3.4583852291107178, + "learning_rate": 2.2998143998212897e-06, + "loss": 0.3054, + "step": 7216 + }, + { + "epoch": 2.405666666666667, + "grad_norm": 2.6933987140655518, + "learning_rate": 2.297340406682498e-06, + "loss": 0.2921, + "step": 7217 + }, + { + "epoch": 2.406, + "grad_norm": 2.726011037826538, + "learning_rate": 2.2948675722421086e-06, + "loss": 0.3248, + "step": 7218 + }, + { + "epoch": 2.4063333333333334, + "grad_norm": 2.5240275859832764, + "learning_rate": 2.292395896872105e-06, + "loss": 0.2858, + "step": 7219 + }, + { + "epoch": 2.4066666666666667, + "grad_norm": 2.5917303562164307, + "learning_rate": 2.2899253809442944e-06, + "loss": 0.3135, + "step": 7220 + }, + { + "epoch": 2.407, + "grad_norm": 3.036437511444092, + "learning_rate": 2.2874560248303136e-06, + "loss": 0.284, + "step": 7221 + }, + { + "epoch": 2.4073333333333333, + "grad_norm": 2.91733717918396, + "learning_rate": 2.284987828901626e-06, + "loss": 0.3311, + "step": 7222 + }, + { + "epoch": 2.4076666666666666, + "grad_norm": 2.8448901176452637, + "learning_rate": 2.282520793529518e-06, + "loss": 0.2904, + "step": 7223 + }, + { + "epoch": 2.408, + "grad_norm": 2.8797008991241455, + "learning_rate": 2.2800549190850997e-06, + "loss": 0.2741, + "step": 7224 + }, + { + "epoch": 2.408333333333333, + "grad_norm": 2.916515827178955, + "learning_rate": 2.2775902059393087e-06, + "loss": 0.298, + "step": 7225 + }, + { + "epoch": 2.4086666666666665, + "grad_norm": 2.6020255088806152, + "learning_rate": 2.2751266544629115e-06, + "loss": 0.3109, + "step": 7226 + }, + { + "epoch": 2.409, + "grad_norm": 3.3977744579315186, + "learning_rate": 2.27266426502649e-06, + "loss": 0.295, + "step": 7227 + }, + { + "epoch": 2.4093333333333335, + "grad_norm": 2.4537878036499023, + "learning_rate": 2.2702030380004634e-06, + "loss": 0.2839, + "step": 7228 + }, + { + "epoch": 2.409666666666667, + "grad_norm": 2.813225030899048, + "learning_rate": 2.267742973755065e-06, + "loss": 0.3245, + "step": 7229 + }, + { + "epoch": 2.41, + "grad_norm": 3.1588187217712402, + "learning_rate": 2.265284072660362e-06, + "loss": 0.2951, + "step": 7230 + }, + { + "epoch": 2.4103333333333334, + "grad_norm": 2.09277606010437, + "learning_rate": 2.26282633508624e-06, + "loss": 0.269, + "step": 7231 + }, + { + "epoch": 2.4106666666666667, + "grad_norm": 3.0752274990081787, + "learning_rate": 2.260369761402412e-06, + "loss": 0.3167, + "step": 7232 + }, + { + "epoch": 2.411, + "grad_norm": 3.608771324157715, + "learning_rate": 2.257914351978422e-06, + "loss": 0.3346, + "step": 7233 + }, + { + "epoch": 2.4113333333333333, + "grad_norm": 2.353536367416382, + "learning_rate": 2.255460107183626e-06, + "loss": 0.2733, + "step": 7234 + }, + { + "epoch": 2.4116666666666666, + "grad_norm": 2.6872811317443848, + "learning_rate": 2.2530070273872152e-06, + "loss": 0.3137, + "step": 7235 + }, + { + "epoch": 2.412, + "grad_norm": 2.5348258018493652, + "learning_rate": 2.2505551129582047e-06, + "loss": 0.3067, + "step": 7236 + }, + { + "epoch": 2.412333333333333, + "grad_norm": 3.075601100921631, + "learning_rate": 2.248104364265428e-06, + "loss": 0.2973, + "step": 7237 + }, + { + "epoch": 2.4126666666666665, + "grad_norm": 3.0936546325683594, + "learning_rate": 2.245654781677551e-06, + "loss": 0.3034, + "step": 7238 + }, + { + "epoch": 2.413, + "grad_norm": 2.847402334213257, + "learning_rate": 2.2432063655630555e-06, + "loss": 0.3183, + "step": 7239 + }, + { + "epoch": 2.413333333333333, + "grad_norm": 2.597684144973755, + "learning_rate": 2.2407591162902576e-06, + "loss": 0.2835, + "step": 7240 + }, + { + "epoch": 2.413666666666667, + "grad_norm": 3.1966774463653564, + "learning_rate": 2.2383130342272885e-06, + "loss": 0.3023, + "step": 7241 + }, + { + "epoch": 2.414, + "grad_norm": 2.859802007675171, + "learning_rate": 2.2358681197421094e-06, + "loss": 0.3034, + "step": 7242 + }, + { + "epoch": 2.4143333333333334, + "grad_norm": 3.214012622833252, + "learning_rate": 2.2334243732025072e-06, + "loss": 0.2606, + "step": 7243 + }, + { + "epoch": 2.4146666666666667, + "grad_norm": 2.7207932472229004, + "learning_rate": 2.2309817949760913e-06, + "loss": 0.3152, + "step": 7244 + }, + { + "epoch": 2.415, + "grad_norm": 2.769484281539917, + "learning_rate": 2.2285403854302912e-06, + "loss": 0.3206, + "step": 7245 + }, + { + "epoch": 2.4153333333333333, + "grad_norm": 2.1837685108184814, + "learning_rate": 2.226100144932367e-06, + "loss": 0.2882, + "step": 7246 + }, + { + "epoch": 2.4156666666666666, + "grad_norm": 3.144054412841797, + "learning_rate": 2.2236610738494e-06, + "loss": 0.2777, + "step": 7247 + }, + { + "epoch": 2.416, + "grad_norm": 2.703704595565796, + "learning_rate": 2.2212231725482914e-06, + "loss": 0.2801, + "step": 7248 + }, + { + "epoch": 2.416333333333333, + "grad_norm": 2.6534664630889893, + "learning_rate": 2.2187864413957737e-06, + "loss": 0.3019, + "step": 7249 + }, + { + "epoch": 2.4166666666666665, + "grad_norm": 3.807685375213623, + "learning_rate": 2.2163508807584e-06, + "loss": 0.2693, + "step": 7250 + }, + { + "epoch": 2.417, + "grad_norm": 2.367309093475342, + "learning_rate": 2.213916491002551e-06, + "loss": 0.2943, + "step": 7251 + }, + { + "epoch": 2.4173333333333336, + "grad_norm": 4.10254430770874, + "learning_rate": 2.2114832724944222e-06, + "loss": 0.3199, + "step": 7252 + }, + { + "epoch": 2.417666666666667, + "grad_norm": 2.7902109622955322, + "learning_rate": 2.209051225600041e-06, + "loss": 0.3371, + "step": 7253 + }, + { + "epoch": 2.418, + "grad_norm": 2.682985782623291, + "learning_rate": 2.206620350685257e-06, + "loss": 0.3136, + "step": 7254 + }, + { + "epoch": 2.4183333333333334, + "grad_norm": 2.626624584197998, + "learning_rate": 2.204190648115745e-06, + "loss": 0.3235, + "step": 7255 + }, + { + "epoch": 2.4186666666666667, + "grad_norm": 3.0706939697265625, + "learning_rate": 2.2017621182569994e-06, + "loss": 0.3191, + "step": 7256 + }, + { + "epoch": 2.419, + "grad_norm": 2.958723545074463, + "learning_rate": 2.1993347614743355e-06, + "loss": 0.2714, + "step": 7257 + }, + { + "epoch": 2.4193333333333333, + "grad_norm": 2.9116599559783936, + "learning_rate": 2.1969085781329025e-06, + "loss": 0.3012, + "step": 7258 + }, + { + "epoch": 2.4196666666666666, + "grad_norm": 2.486243963241577, + "learning_rate": 2.194483568597663e-06, + "loss": 0.2593, + "step": 7259 + }, + { + "epoch": 2.42, + "grad_norm": 2.71213436126709, + "learning_rate": 2.192059733233408e-06, + "loss": 0.3038, + "step": 7260 + }, + { + "epoch": 2.4203333333333332, + "grad_norm": 2.533473491668701, + "learning_rate": 2.189637072404752e-06, + "loss": 0.3299, + "step": 7261 + }, + { + "epoch": 2.4206666666666665, + "grad_norm": 2.703916549682617, + "learning_rate": 2.187215586476136e-06, + "loss": 0.2957, + "step": 7262 + }, + { + "epoch": 2.421, + "grad_norm": 3.1464595794677734, + "learning_rate": 2.1847952758118118e-06, + "loss": 0.2773, + "step": 7263 + }, + { + "epoch": 2.421333333333333, + "grad_norm": 2.947481870651245, + "learning_rate": 2.182376140775868e-06, + "loss": 0.3121, + "step": 7264 + }, + { + "epoch": 2.421666666666667, + "grad_norm": 2.8817203044891357, + "learning_rate": 2.1799581817322122e-06, + "loss": 0.3299, + "step": 7265 + }, + { + "epoch": 2.422, + "grad_norm": 3.1938836574554443, + "learning_rate": 2.177541399044573e-06, + "loss": 0.3017, + "step": 7266 + }, + { + "epoch": 2.4223333333333334, + "grad_norm": 3.5968146324157715, + "learning_rate": 2.175125793076499e-06, + "loss": 0.3098, + "step": 7267 + }, + { + "epoch": 2.4226666666666667, + "grad_norm": 2.4812402725219727, + "learning_rate": 2.1727113641913677e-06, + "loss": 0.3444, + "step": 7268 + }, + { + "epoch": 2.423, + "grad_norm": 2.939417839050293, + "learning_rate": 2.1702981127523827e-06, + "loss": 0.3219, + "step": 7269 + }, + { + "epoch": 2.4233333333333333, + "grad_norm": 3.677833080291748, + "learning_rate": 2.1678860391225588e-06, + "loss": 0.3373, + "step": 7270 + }, + { + "epoch": 2.4236666666666666, + "grad_norm": 2.32536244392395, + "learning_rate": 2.1654751436647413e-06, + "loss": 0.2693, + "step": 7271 + }, + { + "epoch": 2.424, + "grad_norm": 2.6664891242980957, + "learning_rate": 2.163065426741603e-06, + "loss": 0.2998, + "step": 7272 + }, + { + "epoch": 2.4243333333333332, + "grad_norm": 2.872523069381714, + "learning_rate": 2.1606568887156266e-06, + "loss": 0.2986, + "step": 7273 + }, + { + "epoch": 2.4246666666666665, + "grad_norm": 3.659282684326172, + "learning_rate": 2.158249529949128e-06, + "loss": 0.3056, + "step": 7274 + }, + { + "epoch": 2.425, + "grad_norm": 2.6312737464904785, + "learning_rate": 2.155843350804243e-06, + "loss": 0.3053, + "step": 7275 + }, + { + "epoch": 2.4253333333333336, + "grad_norm": 3.066748857498169, + "learning_rate": 2.1534383516429292e-06, + "loss": 0.3395, + "step": 7276 + }, + { + "epoch": 2.425666666666667, + "grad_norm": 3.2865328788757324, + "learning_rate": 2.1510345328269622e-06, + "loss": 0.3064, + "step": 7277 + }, + { + "epoch": 2.426, + "grad_norm": 2.7941579818725586, + "learning_rate": 2.1486318947179476e-06, + "loss": 0.3074, + "step": 7278 + }, + { + "epoch": 2.4263333333333335, + "grad_norm": 2.7714242935180664, + "learning_rate": 2.1462304376773126e-06, + "loss": 0.2608, + "step": 7279 + }, + { + "epoch": 2.4266666666666667, + "grad_norm": 2.9921061992645264, + "learning_rate": 2.1438301620662994e-06, + "loss": 0.3055, + "step": 7280 + }, + { + "epoch": 2.427, + "grad_norm": 2.3780527114868164, + "learning_rate": 2.1414310682459805e-06, + "loss": 0.2747, + "step": 7281 + }, + { + "epoch": 2.4273333333333333, + "grad_norm": 2.8056108951568604, + "learning_rate": 2.139033156577248e-06, + "loss": 0.3196, + "step": 7282 + }, + { + "epoch": 2.4276666666666666, + "grad_norm": 2.8550174236297607, + "learning_rate": 2.1366364274208175e-06, + "loss": 0.2863, + "step": 7283 + }, + { + "epoch": 2.428, + "grad_norm": 2.65433669090271, + "learning_rate": 2.1342408811372217e-06, + "loss": 0.3075, + "step": 7284 + }, + { + "epoch": 2.4283333333333332, + "grad_norm": 2.7227063179016113, + "learning_rate": 2.131846518086819e-06, + "loss": 0.285, + "step": 7285 + }, + { + "epoch": 2.4286666666666665, + "grad_norm": 2.4950923919677734, + "learning_rate": 2.129453338629791e-06, + "loss": 0.3511, + "step": 7286 + }, + { + "epoch": 2.429, + "grad_norm": 2.3921403884887695, + "learning_rate": 2.1270613431261367e-06, + "loss": 0.3019, + "step": 7287 + }, + { + "epoch": 2.429333333333333, + "grad_norm": 2.238983631134033, + "learning_rate": 2.124670531935683e-06, + "loss": 0.2941, + "step": 7288 + }, + { + "epoch": 2.429666666666667, + "grad_norm": 2.9735782146453857, + "learning_rate": 2.122280905418074e-06, + "loss": 0.3119, + "step": 7289 + }, + { + "epoch": 2.43, + "grad_norm": 2.600041151046753, + "learning_rate": 2.119892463932781e-06, + "loss": 0.3209, + "step": 7290 + }, + { + "epoch": 2.4303333333333335, + "grad_norm": 2.7843635082244873, + "learning_rate": 2.117505207839089e-06, + "loss": 0.2619, + "step": 7291 + }, + { + "epoch": 2.4306666666666668, + "grad_norm": 3.039130210876465, + "learning_rate": 2.11511913749611e-06, + "loss": 0.3242, + "step": 7292 + }, + { + "epoch": 2.431, + "grad_norm": 2.594546318054199, + "learning_rate": 2.1127342532627794e-06, + "loss": 0.2983, + "step": 7293 + }, + { + "epoch": 2.4313333333333333, + "grad_norm": 4.259345531463623, + "learning_rate": 2.11035055549785e-06, + "loss": 0.3149, + "step": 7294 + }, + { + "epoch": 2.4316666666666666, + "grad_norm": 3.2399039268493652, + "learning_rate": 2.1079680445598927e-06, + "loss": 0.3114, + "step": 7295 + }, + { + "epoch": 2.432, + "grad_norm": 3.1057846546173096, + "learning_rate": 2.10558672080731e-06, + "loss": 0.3219, + "step": 7296 + }, + { + "epoch": 2.4323333333333332, + "grad_norm": 3.0431265830993652, + "learning_rate": 2.103206584598322e-06, + "loss": 0.313, + "step": 7297 + }, + { + "epoch": 2.4326666666666665, + "grad_norm": 3.2289774417877197, + "learning_rate": 2.100827636290962e-06, + "loss": 0.3089, + "step": 7298 + }, + { + "epoch": 2.433, + "grad_norm": 2.809534788131714, + "learning_rate": 2.098449876243096e-06, + "loss": 0.3283, + "step": 7299 + }, + { + "epoch": 2.4333333333333336, + "grad_norm": 2.636012315750122, + "learning_rate": 2.0960733048124082e-06, + "loss": 0.3161, + "step": 7300 + }, + { + "epoch": 2.4336666666666664, + "grad_norm": 3.4619665145874023, + "learning_rate": 2.093697922356398e-06, + "loss": 0.2958, + "step": 7301 + }, + { + "epoch": 2.434, + "grad_norm": 2.927351236343384, + "learning_rate": 2.091323729232391e-06, + "loss": 0.2979, + "step": 7302 + }, + { + "epoch": 2.4343333333333335, + "grad_norm": 3.9345264434814453, + "learning_rate": 2.088950725797537e-06, + "loss": 0.3197, + "step": 7303 + }, + { + "epoch": 2.4346666666666668, + "grad_norm": 2.801462411880493, + "learning_rate": 2.0865789124088008e-06, + "loss": 0.2772, + "step": 7304 + }, + { + "epoch": 2.435, + "grad_norm": 2.364384889602661, + "learning_rate": 2.084208289422968e-06, + "loss": 0.3182, + "step": 7305 + }, + { + "epoch": 2.4353333333333333, + "grad_norm": 2.726172924041748, + "learning_rate": 2.0818388571966475e-06, + "loss": 0.3217, + "step": 7306 + }, + { + "epoch": 2.4356666666666666, + "grad_norm": 2.532719612121582, + "learning_rate": 2.0794706160862753e-06, + "loss": 0.3079, + "step": 7307 + }, + { + "epoch": 2.436, + "grad_norm": 2.3838138580322266, + "learning_rate": 2.0771035664480944e-06, + "loss": 0.3082, + "step": 7308 + }, + { + "epoch": 2.4363333333333332, + "grad_norm": 2.9430456161499023, + "learning_rate": 2.0747377086381794e-06, + "loss": 0.268, + "step": 7309 + }, + { + "epoch": 2.4366666666666665, + "grad_norm": 2.89615535736084, + "learning_rate": 2.072373043012422e-06, + "loss": 0.2795, + "step": 7310 + }, + { + "epoch": 2.437, + "grad_norm": 3.0264511108398438, + "learning_rate": 2.070009569926539e-06, + "loss": 0.2894, + "step": 7311 + }, + { + "epoch": 2.437333333333333, + "grad_norm": 3.3427557945251465, + "learning_rate": 2.0676472897360566e-06, + "loss": 0.3181, + "step": 7312 + }, + { + "epoch": 2.437666666666667, + "grad_norm": 3.138129711151123, + "learning_rate": 2.065286202796335e-06, + "loss": 0.2973, + "step": 7313 + }, + { + "epoch": 2.438, + "grad_norm": 2.731382131576538, + "learning_rate": 2.0629263094625476e-06, + "loss": 0.3067, + "step": 7314 + }, + { + "epoch": 2.4383333333333335, + "grad_norm": 2.6436715126037598, + "learning_rate": 2.0605676100896833e-06, + "loss": 0.2877, + "step": 7315 + }, + { + "epoch": 2.4386666666666668, + "grad_norm": 3.3919413089752197, + "learning_rate": 2.058210105032562e-06, + "loss": 0.3298, + "step": 7316 + }, + { + "epoch": 2.439, + "grad_norm": 2.6825127601623535, + "learning_rate": 2.0558537946458177e-06, + "loss": 0.3074, + "step": 7317 + }, + { + "epoch": 2.4393333333333334, + "grad_norm": 2.678011417388916, + "learning_rate": 2.0534986792839118e-06, + "loss": 0.2992, + "step": 7318 + }, + { + "epoch": 2.4396666666666667, + "grad_norm": 2.6682822704315186, + "learning_rate": 2.0511447593011134e-06, + "loss": 0.3267, + "step": 7319 + }, + { + "epoch": 2.44, + "grad_norm": 2.8922672271728516, + "learning_rate": 2.048792035051521e-06, + "loss": 0.3357, + "step": 7320 + }, + { + "epoch": 2.4403333333333332, + "grad_norm": 2.331206798553467, + "learning_rate": 2.046440506889055e-06, + "loss": 0.311, + "step": 7321 + }, + { + "epoch": 2.4406666666666665, + "grad_norm": 2.592134475708008, + "learning_rate": 2.044090175167446e-06, + "loss": 0.3344, + "step": 7322 + }, + { + "epoch": 2.441, + "grad_norm": 2.3125243186950684, + "learning_rate": 2.041741040240255e-06, + "loss": 0.3092, + "step": 7323 + }, + { + "epoch": 2.4413333333333336, + "grad_norm": 4.212915420532227, + "learning_rate": 2.0393931024608538e-06, + "loss": 0.3011, + "step": 7324 + }, + { + "epoch": 2.4416666666666664, + "grad_norm": 3.478038787841797, + "learning_rate": 2.0370463621824445e-06, + "loss": 0.2698, + "step": 7325 + }, + { + "epoch": 2.442, + "grad_norm": 3.2080273628234863, + "learning_rate": 2.0347008197580376e-06, + "loss": 0.3025, + "step": 7326 + }, + { + "epoch": 2.4423333333333335, + "grad_norm": 2.899885416030884, + "learning_rate": 2.0323564755404722e-06, + "loss": 0.2697, + "step": 7327 + }, + { + "epoch": 2.4426666666666668, + "grad_norm": 2.1701560020446777, + "learning_rate": 2.0300133298824076e-06, + "loss": 0.2733, + "step": 7328 + }, + { + "epoch": 2.443, + "grad_norm": 2.9527509212493896, + "learning_rate": 2.0276713831363115e-06, + "loss": 0.272, + "step": 7329 + }, + { + "epoch": 2.4433333333333334, + "grad_norm": 3.707146644592285, + "learning_rate": 2.0253306356544843e-06, + "loss": 0.2629, + "step": 7330 + }, + { + "epoch": 2.4436666666666667, + "grad_norm": 2.381448984146118, + "learning_rate": 2.0229910877890424e-06, + "loss": 0.3284, + "step": 7331 + }, + { + "epoch": 2.444, + "grad_norm": 4.964235782623291, + "learning_rate": 2.020652739891914e-06, + "loss": 0.3302, + "step": 7332 + }, + { + "epoch": 2.4443333333333332, + "grad_norm": 3.673957109451294, + "learning_rate": 2.01831559231486e-06, + "loss": 0.2379, + "step": 7333 + }, + { + "epoch": 2.4446666666666665, + "grad_norm": 4.934240818023682, + "learning_rate": 2.0159796454094473e-06, + "loss": 0.2901, + "step": 7334 + }, + { + "epoch": 2.445, + "grad_norm": 2.4997243881225586, + "learning_rate": 2.013644899527074e-06, + "loss": 0.2664, + "step": 7335 + }, + { + "epoch": 2.445333333333333, + "grad_norm": 2.4161384105682373, + "learning_rate": 2.0113113550189468e-06, + "loss": 0.2604, + "step": 7336 + }, + { + "epoch": 2.445666666666667, + "grad_norm": 2.4897000789642334, + "learning_rate": 2.0089790122360984e-06, + "loss": 0.3295, + "step": 7337 + }, + { + "epoch": 2.446, + "grad_norm": 2.4399359226226807, + "learning_rate": 2.0066478715293826e-06, + "loss": 0.2714, + "step": 7338 + }, + { + "epoch": 2.4463333333333335, + "grad_norm": 2.8267159461975098, + "learning_rate": 2.004317933249468e-06, + "loss": 0.3212, + "step": 7339 + }, + { + "epoch": 2.4466666666666668, + "grad_norm": 2.8686881065368652, + "learning_rate": 2.001989197746841e-06, + "loss": 0.2915, + "step": 7340 + }, + { + "epoch": 2.447, + "grad_norm": 3.495464324951172, + "learning_rate": 1.9996616653718126e-06, + "loss": 0.2907, + "step": 7341 + }, + { + "epoch": 2.4473333333333334, + "grad_norm": 3.225327730178833, + "learning_rate": 1.997335336474507e-06, + "loss": 0.3296, + "step": 7342 + }, + { + "epoch": 2.4476666666666667, + "grad_norm": 2.6183700561523438, + "learning_rate": 1.9950102114048697e-06, + "loss": 0.2863, + "step": 7343 + }, + { + "epoch": 2.448, + "grad_norm": 2.3525333404541016, + "learning_rate": 1.9926862905126663e-06, + "loss": 0.2967, + "step": 7344 + }, + { + "epoch": 2.4483333333333333, + "grad_norm": 2.6848318576812744, + "learning_rate": 1.99036357414748e-06, + "loss": 0.2925, + "step": 7345 + }, + { + "epoch": 2.4486666666666665, + "grad_norm": 3.9721310138702393, + "learning_rate": 1.988042062658717e-06, + "loss": 0.281, + "step": 7346 + }, + { + "epoch": 2.449, + "grad_norm": 3.714787244796753, + "learning_rate": 1.9857217563955932e-06, + "loss": 0.3124, + "step": 7347 + }, + { + "epoch": 2.449333333333333, + "grad_norm": 2.041552782058716, + "learning_rate": 1.9834026557071496e-06, + "loss": 0.3063, + "step": 7348 + }, + { + "epoch": 2.4496666666666664, + "grad_norm": 2.033034086227417, + "learning_rate": 1.981084760942249e-06, + "loss": 0.2757, + "step": 7349 + }, + { + "epoch": 2.45, + "grad_norm": 3.281817674636841, + "learning_rate": 1.9787680724495617e-06, + "loss": 0.3364, + "step": 7350 + }, + { + "epoch": 2.4503333333333335, + "grad_norm": 3.365591526031494, + "learning_rate": 1.97645259057759e-06, + "loss": 0.3126, + "step": 7351 + }, + { + "epoch": 2.4506666666666668, + "grad_norm": 2.3549225330352783, + "learning_rate": 1.974138315674643e-06, + "loss": 0.3153, + "step": 7352 + }, + { + "epoch": 2.451, + "grad_norm": 2.805263042449951, + "learning_rate": 1.9718252480888567e-06, + "loss": 0.2978, + "step": 7353 + }, + { + "epoch": 2.4513333333333334, + "grad_norm": 3.013880968093872, + "learning_rate": 1.969513388168178e-06, + "loss": 0.2858, + "step": 7354 + }, + { + "epoch": 2.4516666666666667, + "grad_norm": 3.078777313232422, + "learning_rate": 1.96720273626038e-06, + "loss": 0.2998, + "step": 7355 + }, + { + "epoch": 2.452, + "grad_norm": 3.115241527557373, + "learning_rate": 1.964893292713049e-06, + "loss": 0.3239, + "step": 7356 + }, + { + "epoch": 2.4523333333333333, + "grad_norm": 2.431058645248413, + "learning_rate": 1.9625850578735895e-06, + "loss": 0.304, + "step": 7357 + }, + { + "epoch": 2.4526666666666666, + "grad_norm": 2.9819812774658203, + "learning_rate": 1.960278032089227e-06, + "loss": 0.3183, + "step": 7358 + }, + { + "epoch": 2.453, + "grad_norm": 3.724032402038574, + "learning_rate": 1.9579722157070026e-06, + "loss": 0.3229, + "step": 7359 + }, + { + "epoch": 2.453333333333333, + "grad_norm": 2.1397314071655273, + "learning_rate": 1.9556676090737803e-06, + "loss": 0.3023, + "step": 7360 + }, + { + "epoch": 2.453666666666667, + "grad_norm": 2.835476875305176, + "learning_rate": 1.953364212536234e-06, + "loss": 0.2942, + "step": 7361 + }, + { + "epoch": 2.454, + "grad_norm": 2.759303569793701, + "learning_rate": 1.95106202644086e-06, + "loss": 0.3098, + "step": 7362 + }, + { + "epoch": 2.4543333333333335, + "grad_norm": 2.9353535175323486, + "learning_rate": 1.948761051133975e-06, + "loss": 0.311, + "step": 7363 + }, + { + "epoch": 2.4546666666666668, + "grad_norm": 2.7929131984710693, + "learning_rate": 1.9464612869617063e-06, + "loss": 0.2811, + "step": 7364 + }, + { + "epoch": 2.455, + "grad_norm": 2.4095873832702637, + "learning_rate": 1.9441627342700067e-06, + "loss": 0.2902, + "step": 7365 + }, + { + "epoch": 2.4553333333333334, + "grad_norm": 2.4307773113250732, + "learning_rate": 1.941865393404644e-06, + "loss": 0.3029, + "step": 7366 + }, + { + "epoch": 2.4556666666666667, + "grad_norm": 2.312849760055542, + "learning_rate": 1.939569264711205e-06, + "loss": 0.3127, + "step": 7367 + }, + { + "epoch": 2.456, + "grad_norm": 2.6249020099639893, + "learning_rate": 1.9372743485350887e-06, + "loss": 0.3111, + "step": 7368 + }, + { + "epoch": 2.4563333333333333, + "grad_norm": 2.442824602127075, + "learning_rate": 1.934980645221517e-06, + "loss": 0.2705, + "step": 7369 + }, + { + "epoch": 2.4566666666666666, + "grad_norm": 3.911240577697754, + "learning_rate": 1.9326881551155307e-06, + "loss": 0.2948, + "step": 7370 + }, + { + "epoch": 2.457, + "grad_norm": 2.6046454906463623, + "learning_rate": 1.930396878561983e-06, + "loss": 0.3084, + "step": 7371 + }, + { + "epoch": 2.457333333333333, + "grad_norm": 2.5104382038116455, + "learning_rate": 1.928106815905544e-06, + "loss": 0.2839, + "step": 7372 + }, + { + "epoch": 2.4576666666666664, + "grad_norm": 2.200408697128296, + "learning_rate": 1.9258179674907073e-06, + "loss": 0.2868, + "step": 7373 + }, + { + "epoch": 2.458, + "grad_norm": 2.4048287868499756, + "learning_rate": 1.9235303336617827e-06, + "loss": 0.2863, + "step": 7374 + }, + { + "epoch": 2.4583333333333335, + "grad_norm": 3.404822587966919, + "learning_rate": 1.9212439147628893e-06, + "loss": 0.3045, + "step": 7375 + }, + { + "epoch": 2.458666666666667, + "grad_norm": 2.6213865280151367, + "learning_rate": 1.9189587111379736e-06, + "loss": 0.2662, + "step": 7376 + }, + { + "epoch": 2.459, + "grad_norm": 2.81974458694458, + "learning_rate": 1.916674723130796e-06, + "loss": 0.3158, + "step": 7377 + }, + { + "epoch": 2.4593333333333334, + "grad_norm": 3.382305860519409, + "learning_rate": 1.9143919510849286e-06, + "loss": 0.2714, + "step": 7378 + }, + { + "epoch": 2.4596666666666667, + "grad_norm": 3.7135214805603027, + "learning_rate": 1.9121103953437704e-06, + "loss": 0.3246, + "step": 7379 + }, + { + "epoch": 2.46, + "grad_norm": 2.7320363521575928, + "learning_rate": 1.9098300562505266e-06, + "loss": 0.3028, + "step": 7380 + }, + { + "epoch": 2.4603333333333333, + "grad_norm": 2.742896556854248, + "learning_rate": 1.90755093414823e-06, + "loss": 0.2658, + "step": 7381 + }, + { + "epoch": 2.4606666666666666, + "grad_norm": 2.892254114151001, + "learning_rate": 1.9052730293797205e-06, + "loss": 0.277, + "step": 7382 + }, + { + "epoch": 2.461, + "grad_norm": 2.8538689613342285, + "learning_rate": 1.9029963422876608e-06, + "loss": 0.3126, + "step": 7383 + }, + { + "epoch": 2.461333333333333, + "grad_norm": 2.9144930839538574, + "learning_rate": 1.9007208732145332e-06, + "loss": 0.3279, + "step": 7384 + }, + { + "epoch": 2.461666666666667, + "grad_norm": 2.507556438446045, + "learning_rate": 1.8984466225026277e-06, + "loss": 0.2784, + "step": 7385 + }, + { + "epoch": 2.462, + "grad_norm": 2.489651918411255, + "learning_rate": 1.896173590494057e-06, + "loss": 0.2653, + "step": 7386 + }, + { + "epoch": 2.4623333333333335, + "grad_norm": 2.9978487491607666, + "learning_rate": 1.8939017775307523e-06, + "loss": 0.3505, + "step": 7387 + }, + { + "epoch": 2.462666666666667, + "grad_norm": 2.8830208778381348, + "learning_rate": 1.8916311839544576e-06, + "loss": 0.2912, + "step": 7388 + }, + { + "epoch": 2.463, + "grad_norm": 2.6874587535858154, + "learning_rate": 1.8893618101067357e-06, + "loss": 0.2837, + "step": 7389 + }, + { + "epoch": 2.4633333333333334, + "grad_norm": 2.7285499572753906, + "learning_rate": 1.8870936563289598e-06, + "loss": 0.3005, + "step": 7390 + }, + { + "epoch": 2.4636666666666667, + "grad_norm": 2.5447473526000977, + "learning_rate": 1.8848267229623297e-06, + "loss": 0.3034, + "step": 7391 + }, + { + "epoch": 2.464, + "grad_norm": 2.9925944805145264, + "learning_rate": 1.8825610103478531e-06, + "loss": 0.2763, + "step": 7392 + }, + { + "epoch": 2.4643333333333333, + "grad_norm": 3.142911672592163, + "learning_rate": 1.8802965188263578e-06, + "loss": 0.2989, + "step": 7393 + }, + { + "epoch": 2.4646666666666666, + "grad_norm": 2.156649112701416, + "learning_rate": 1.87803324873849e-06, + "loss": 0.304, + "step": 7394 + }, + { + "epoch": 2.465, + "grad_norm": 2.782987356185913, + "learning_rate": 1.8757712004247098e-06, + "loss": 0.3237, + "step": 7395 + }, + { + "epoch": 2.465333333333333, + "grad_norm": 2.855100631713867, + "learning_rate": 1.873510374225289e-06, + "loss": 0.2848, + "step": 7396 + }, + { + "epoch": 2.4656666666666665, + "grad_norm": 3.1256697177886963, + "learning_rate": 1.871250770480324e-06, + "loss": 0.3241, + "step": 7397 + }, + { + "epoch": 2.466, + "grad_norm": 3.503434896469116, + "learning_rate": 1.8689923895297247e-06, + "loss": 0.2941, + "step": 7398 + }, + { + "epoch": 2.4663333333333335, + "grad_norm": 2.5431454181671143, + "learning_rate": 1.8667352317132126e-06, + "loss": 0.2805, + "step": 7399 + }, + { + "epoch": 2.466666666666667, + "grad_norm": 3.0099997520446777, + "learning_rate": 1.8644792973703252e-06, + "loss": 0.325, + "step": 7400 + }, + { + "epoch": 2.467, + "grad_norm": 2.9574995040893555, + "learning_rate": 1.8622245868404244e-06, + "loss": 0.3104, + "step": 7401 + }, + { + "epoch": 2.4673333333333334, + "grad_norm": 3.340526819229126, + "learning_rate": 1.859971100462682e-06, + "loss": 0.2903, + "step": 7402 + }, + { + "epoch": 2.4676666666666667, + "grad_norm": 2.7523107528686523, + "learning_rate": 1.8577188385760825e-06, + "loss": 0.3202, + "step": 7403 + }, + { + "epoch": 2.468, + "grad_norm": 2.7132468223571777, + "learning_rate": 1.8554678015194316e-06, + "loss": 0.3075, + "step": 7404 + }, + { + "epoch": 2.4683333333333333, + "grad_norm": 2.7879979610443115, + "learning_rate": 1.853217989631354e-06, + "loss": 0.3109, + "step": 7405 + }, + { + "epoch": 2.4686666666666666, + "grad_norm": 3.4957048892974854, + "learning_rate": 1.850969403250278e-06, + "loss": 0.3201, + "step": 7406 + }, + { + "epoch": 2.469, + "grad_norm": 3.146224021911621, + "learning_rate": 1.848722042714457e-06, + "loss": 0.3114, + "step": 7407 + }, + { + "epoch": 2.469333333333333, + "grad_norm": 2.7141151428222656, + "learning_rate": 1.846475908361962e-06, + "loss": 0.2892, + "step": 7408 + }, + { + "epoch": 2.469666666666667, + "grad_norm": 2.882035255432129, + "learning_rate": 1.844231000530672e-06, + "loss": 0.3058, + "step": 7409 + }, + { + "epoch": 2.4699999999999998, + "grad_norm": 2.5640065670013428, + "learning_rate": 1.8419873195582815e-06, + "loss": 0.3167, + "step": 7410 + }, + { + "epoch": 2.4703333333333335, + "grad_norm": 2.8590874671936035, + "learning_rate": 1.8397448657823069e-06, + "loss": 0.3251, + "step": 7411 + }, + { + "epoch": 2.470666666666667, + "grad_norm": 3.0119149684906006, + "learning_rate": 1.8375036395400792e-06, + "loss": 0.3296, + "step": 7412 + }, + { + "epoch": 2.471, + "grad_norm": 2.9289252758026123, + "learning_rate": 1.8352636411687374e-06, + "loss": 0.281, + "step": 7413 + }, + { + "epoch": 2.4713333333333334, + "grad_norm": 2.505774974822998, + "learning_rate": 1.8330248710052446e-06, + "loss": 0.3061, + "step": 7414 + }, + { + "epoch": 2.4716666666666667, + "grad_norm": 2.6620631217956543, + "learning_rate": 1.830787329386372e-06, + "loss": 0.3134, + "step": 7415 + }, + { + "epoch": 2.472, + "grad_norm": 2.747887134552002, + "learning_rate": 1.8285510166487154e-06, + "loss": 0.2954, + "step": 7416 + }, + { + "epoch": 2.4723333333333333, + "grad_norm": 2.89931321144104, + "learning_rate": 1.8263159331286729e-06, + "loss": 0.314, + "step": 7417 + }, + { + "epoch": 2.4726666666666666, + "grad_norm": 3.500314712524414, + "learning_rate": 1.8240820791624691e-06, + "loss": 0.2887, + "step": 7418 + }, + { + "epoch": 2.473, + "grad_norm": 3.301457643508911, + "learning_rate": 1.8218494550861375e-06, + "loss": 0.3142, + "step": 7419 + }, + { + "epoch": 2.473333333333333, + "grad_norm": 3.165440797805786, + "learning_rate": 1.8196180612355252e-06, + "loss": 0.3179, + "step": 7420 + }, + { + "epoch": 2.4736666666666665, + "grad_norm": 3.1596803665161133, + "learning_rate": 1.8173878979462988e-06, + "loss": 0.3072, + "step": 7421 + }, + { + "epoch": 2.474, + "grad_norm": 2.9107000827789307, + "learning_rate": 1.8151589655539391e-06, + "loss": 0.3097, + "step": 7422 + }, + { + "epoch": 2.4743333333333335, + "grad_norm": 2.6037213802337646, + "learning_rate": 1.8129312643937436e-06, + "loss": 0.2702, + "step": 7423 + }, + { + "epoch": 2.474666666666667, + "grad_norm": 5.306561470031738, + "learning_rate": 1.810704794800815e-06, + "loss": 0.2885, + "step": 7424 + }, + { + "epoch": 2.475, + "grad_norm": 2.4994053840637207, + "learning_rate": 1.808479557110081e-06, + "loss": 0.2902, + "step": 7425 + }, + { + "epoch": 2.4753333333333334, + "grad_norm": 2.256744384765625, + "learning_rate": 1.806255551656284e-06, + "loss": 0.2934, + "step": 7426 + }, + { + "epoch": 2.4756666666666667, + "grad_norm": 2.5408172607421875, + "learning_rate": 1.804032778773971e-06, + "loss": 0.2749, + "step": 7427 + }, + { + "epoch": 2.476, + "grad_norm": 2.2113802433013916, + "learning_rate": 1.8018112387975139e-06, + "loss": 0.2561, + "step": 7428 + }, + { + "epoch": 2.4763333333333333, + "grad_norm": 2.759995698928833, + "learning_rate": 1.7995909320610938e-06, + "loss": 0.313, + "step": 7429 + }, + { + "epoch": 2.4766666666666666, + "grad_norm": 2.319744348526001, + "learning_rate": 1.79737185889871e-06, + "loss": 0.3067, + "step": 7430 + }, + { + "epoch": 2.477, + "grad_norm": 2.9502949714660645, + "learning_rate": 1.7951540196441698e-06, + "loss": 0.2761, + "step": 7431 + }, + { + "epoch": 2.477333333333333, + "grad_norm": 4.621431350708008, + "learning_rate": 1.7929374146311018e-06, + "loss": 0.2889, + "step": 7432 + }, + { + "epoch": 2.477666666666667, + "grad_norm": 2.4216866493225098, + "learning_rate": 1.7907220441929486e-06, + "loss": 0.3072, + "step": 7433 + }, + { + "epoch": 2.4779999999999998, + "grad_norm": 2.336599826812744, + "learning_rate": 1.7885079086629598e-06, + "loss": 0.2742, + "step": 7434 + }, + { + "epoch": 2.4783333333333335, + "grad_norm": 2.6180596351623535, + "learning_rate": 1.786295008374207e-06, + "loss": 0.2636, + "step": 7435 + }, + { + "epoch": 2.478666666666667, + "grad_norm": 2.7863550186157227, + "learning_rate": 1.784083343659575e-06, + "loss": 0.3525, + "step": 7436 + }, + { + "epoch": 2.479, + "grad_norm": 2.8816802501678467, + "learning_rate": 1.7818729148517588e-06, + "loss": 0.2822, + "step": 7437 + }, + { + "epoch": 2.4793333333333334, + "grad_norm": 2.8065497875213623, + "learning_rate": 1.7796637222832658e-06, + "loss": 0.3138, + "step": 7438 + }, + { + "epoch": 2.4796666666666667, + "grad_norm": 4.420965194702148, + "learning_rate": 1.7774557662864256e-06, + "loss": 0.2898, + "step": 7439 + }, + { + "epoch": 2.48, + "grad_norm": 3.536608934402466, + "learning_rate": 1.7752490471933769e-06, + "loss": 0.3278, + "step": 7440 + }, + { + "epoch": 2.4803333333333333, + "grad_norm": 3.3855960369110107, + "learning_rate": 1.7730435653360745e-06, + "loss": 0.3074, + "step": 7441 + }, + { + "epoch": 2.4806666666666666, + "grad_norm": 2.452148199081421, + "learning_rate": 1.7708393210462815e-06, + "loss": 0.3178, + "step": 7442 + }, + { + "epoch": 2.481, + "grad_norm": 3.4270195960998535, + "learning_rate": 1.7686363146555807e-06, + "loss": 0.3017, + "step": 7443 + }, + { + "epoch": 2.481333333333333, + "grad_norm": 2.5406172275543213, + "learning_rate": 1.766434546495368e-06, + "loss": 0.2966, + "step": 7444 + }, + { + "epoch": 2.4816666666666665, + "grad_norm": 2.647055149078369, + "learning_rate": 1.7642340168968496e-06, + "loss": 0.2742, + "step": 7445 + }, + { + "epoch": 2.482, + "grad_norm": 3.565432071685791, + "learning_rate": 1.7620347261910498e-06, + "loss": 0.3011, + "step": 7446 + }, + { + "epoch": 2.4823333333333335, + "grad_norm": 2.3273818492889404, + "learning_rate": 1.7598366747088003e-06, + "loss": 0.2509, + "step": 7447 + }, + { + "epoch": 2.482666666666667, + "grad_norm": 2.813174247741699, + "learning_rate": 1.7576398627807557e-06, + "loss": 0.3153, + "step": 7448 + }, + { + "epoch": 2.483, + "grad_norm": 3.0450854301452637, + "learning_rate": 1.7554442907373736e-06, + "loss": 0.3077, + "step": 7449 + }, + { + "epoch": 2.4833333333333334, + "grad_norm": 2.8583052158355713, + "learning_rate": 1.7532499589089324e-06, + "loss": 0.3237, + "step": 7450 + }, + { + "epoch": 2.4836666666666667, + "grad_norm": 2.9382503032684326, + "learning_rate": 1.7510568676255247e-06, + "loss": 0.2934, + "step": 7451 + }, + { + "epoch": 2.484, + "grad_norm": 2.808800220489502, + "learning_rate": 1.7488650172170496e-06, + "loss": 0.2935, + "step": 7452 + }, + { + "epoch": 2.4843333333333333, + "grad_norm": 2.3345248699188232, + "learning_rate": 1.7466744080132237e-06, + "loss": 0.2776, + "step": 7453 + }, + { + "epoch": 2.4846666666666666, + "grad_norm": 3.021794557571411, + "learning_rate": 1.7444850403435787e-06, + "loss": 0.249, + "step": 7454 + }, + { + "epoch": 2.485, + "grad_norm": 2.836205244064331, + "learning_rate": 1.742296914537459e-06, + "loss": 0.2852, + "step": 7455 + }, + { + "epoch": 2.485333333333333, + "grad_norm": 3.205829381942749, + "learning_rate": 1.7401100309240181e-06, + "loss": 0.3221, + "step": 7456 + }, + { + "epoch": 2.485666666666667, + "grad_norm": 2.4070444107055664, + "learning_rate": 1.737924389832225e-06, + "loss": 0.2955, + "step": 7457 + }, + { + "epoch": 2.4859999999999998, + "grad_norm": 3.0840492248535156, + "learning_rate": 1.7357399915908646e-06, + "loss": 0.3161, + "step": 7458 + }, + { + "epoch": 2.4863333333333335, + "grad_norm": 2.7492377758026123, + "learning_rate": 1.7335568365285282e-06, + "loss": 0.276, + "step": 7459 + }, + { + "epoch": 2.486666666666667, + "grad_norm": 3.0989131927490234, + "learning_rate": 1.7313749249736266e-06, + "loss": 0.3074, + "step": 7460 + }, + { + "epoch": 2.487, + "grad_norm": 3.188478469848633, + "learning_rate": 1.7291942572543806e-06, + "loss": 0.2866, + "step": 7461 + }, + { + "epoch": 2.4873333333333334, + "grad_norm": 3.437845468521118, + "learning_rate": 1.7270148336988291e-06, + "loss": 0.3003, + "step": 7462 + }, + { + "epoch": 2.4876666666666667, + "grad_norm": 2.3643386363983154, + "learning_rate": 1.7248366546348116e-06, + "loss": 0.2853, + "step": 7463 + }, + { + "epoch": 2.488, + "grad_norm": 2.925191640853882, + "learning_rate": 1.7226597203899941e-06, + "loss": 0.308, + "step": 7464 + }, + { + "epoch": 2.4883333333333333, + "grad_norm": 2.4499800205230713, + "learning_rate": 1.7204840312918446e-06, + "loss": 0.2683, + "step": 7465 + }, + { + "epoch": 2.4886666666666666, + "grad_norm": 2.2260048389434814, + "learning_rate": 1.7183095876676537e-06, + "loss": 0.2898, + "step": 7466 + }, + { + "epoch": 2.489, + "grad_norm": 2.634348154067993, + "learning_rate": 1.7161363898445138e-06, + "loss": 0.3154, + "step": 7467 + }, + { + "epoch": 2.489333333333333, + "grad_norm": 3.1046736240386963, + "learning_rate": 1.713964438149337e-06, + "loss": 0.311, + "step": 7468 + }, + { + "epoch": 2.4896666666666665, + "grad_norm": 2.6937127113342285, + "learning_rate": 1.7117937329088496e-06, + "loss": 0.2814, + "step": 7469 + }, + { + "epoch": 2.49, + "grad_norm": 2.806619882583618, + "learning_rate": 1.709624274449584e-06, + "loss": 0.2798, + "step": 7470 + }, + { + "epoch": 2.4903333333333335, + "grad_norm": 2.8392844200134277, + "learning_rate": 1.7074560630978875e-06, + "loss": 0.3223, + "step": 7471 + }, + { + "epoch": 2.490666666666667, + "grad_norm": 2.9206418991088867, + "learning_rate": 1.7052890991799254e-06, + "loss": 0.2885, + "step": 7472 + }, + { + "epoch": 2.491, + "grad_norm": 3.405830144882202, + "learning_rate": 1.7031233830216653e-06, + "loss": 0.3025, + "step": 7473 + }, + { + "epoch": 2.4913333333333334, + "grad_norm": 2.232421398162842, + "learning_rate": 1.700958914948897e-06, + "loss": 0.3193, + "step": 7474 + }, + { + "epoch": 2.4916666666666667, + "grad_norm": 3.310753107070923, + "learning_rate": 1.698795695287212e-06, + "loss": 0.312, + "step": 7475 + }, + { + "epoch": 2.492, + "grad_norm": 2.6960411071777344, + "learning_rate": 1.6966337243620267e-06, + "loss": 0.3181, + "step": 7476 + }, + { + "epoch": 2.4923333333333333, + "grad_norm": 2.6235809326171875, + "learning_rate": 1.6944730024985557e-06, + "loss": 0.3047, + "step": 7477 + }, + { + "epoch": 2.4926666666666666, + "grad_norm": 2.460399866104126, + "learning_rate": 1.6923135300218374e-06, + "loss": 0.2929, + "step": 7478 + }, + { + "epoch": 2.493, + "grad_norm": 2.420064926147461, + "learning_rate": 1.6901553072567189e-06, + "loss": 0.3084, + "step": 7479 + }, + { + "epoch": 2.493333333333333, + "grad_norm": 2.9659030437469482, + "learning_rate": 1.6879983345278528e-06, + "loss": 0.2992, + "step": 7480 + }, + { + "epoch": 2.4936666666666665, + "grad_norm": 4.371343612670898, + "learning_rate": 1.6858426121597127e-06, + "loss": 0.2917, + "step": 7481 + }, + { + "epoch": 2.4939999999999998, + "grad_norm": 2.7147443294525146, + "learning_rate": 1.6836881404765793e-06, + "loss": 0.3019, + "step": 7482 + }, + { + "epoch": 2.4943333333333335, + "grad_norm": 2.4643540382385254, + "learning_rate": 1.68153491980255e-06, + "loss": 0.317, + "step": 7483 + }, + { + "epoch": 2.494666666666667, + "grad_norm": 2.8038249015808105, + "learning_rate": 1.6793829504615266e-06, + "loss": 0.3001, + "step": 7484 + }, + { + "epoch": 2.495, + "grad_norm": 2.737630844116211, + "learning_rate": 1.677232232777224e-06, + "loss": 0.2759, + "step": 7485 + }, + { + "epoch": 2.4953333333333334, + "grad_norm": 3.3320391178131104, + "learning_rate": 1.675082767073175e-06, + "loss": 0.2838, + "step": 7486 + }, + { + "epoch": 2.4956666666666667, + "grad_norm": 2.4116697311401367, + "learning_rate": 1.6729345536727182e-06, + "loss": 0.2914, + "step": 7487 + }, + { + "epoch": 2.496, + "grad_norm": 2.859489679336548, + "learning_rate": 1.6707875928990059e-06, + "loss": 0.3036, + "step": 7488 + }, + { + "epoch": 2.4963333333333333, + "grad_norm": 2.9535369873046875, + "learning_rate": 1.668641885075002e-06, + "loss": 0.2971, + "step": 7489 + }, + { + "epoch": 2.4966666666666666, + "grad_norm": 2.89005708694458, + "learning_rate": 1.6664974305234848e-06, + "loss": 0.2762, + "step": 7490 + }, + { + "epoch": 2.497, + "grad_norm": 2.831688642501831, + "learning_rate": 1.6643542295670367e-06, + "loss": 0.2939, + "step": 7491 + }, + { + "epoch": 2.497333333333333, + "grad_norm": 2.7341761589050293, + "learning_rate": 1.6622122825280573e-06, + "loss": 0.2957, + "step": 7492 + }, + { + "epoch": 2.4976666666666665, + "grad_norm": 2.3564910888671875, + "learning_rate": 1.660071589728759e-06, + "loss": 0.3013, + "step": 7493 + }, + { + "epoch": 2.498, + "grad_norm": 2.5628931522369385, + "learning_rate": 1.6579321514911606e-06, + "loss": 0.271, + "step": 7494 + }, + { + "epoch": 2.4983333333333335, + "grad_norm": 3.0737509727478027, + "learning_rate": 1.6557939681370917e-06, + "loss": 0.3398, + "step": 7495 + }, + { + "epoch": 2.498666666666667, + "grad_norm": 2.439171075820923, + "learning_rate": 1.653657039988198e-06, + "loss": 0.3097, + "step": 7496 + }, + { + "epoch": 2.499, + "grad_norm": 2.88142466545105, + "learning_rate": 1.651521367365936e-06, + "loss": 0.3164, + "step": 7497 + }, + { + "epoch": 2.4993333333333334, + "grad_norm": 2.6114025115966797, + "learning_rate": 1.649386950591567e-06, + "loss": 0.3015, + "step": 7498 + }, + { + "epoch": 2.4996666666666667, + "grad_norm": 2.2824699878692627, + "learning_rate": 1.6472537899861707e-06, + "loss": 0.263, + "step": 7499 + }, + { + "epoch": 2.5, + "grad_norm": 2.438488245010376, + "learning_rate": 1.6451218858706374e-06, + "loss": 0.2949, + "step": 7500 + }, + { + "epoch": 2.5003333333333333, + "grad_norm": 2.9876651763916016, + "learning_rate": 1.64299123856566e-06, + "loss": 0.3137, + "step": 7501 + }, + { + "epoch": 2.5006666666666666, + "grad_norm": 3.003549098968506, + "learning_rate": 1.6408618483917505e-06, + "loss": 0.2835, + "step": 7502 + }, + { + "epoch": 2.501, + "grad_norm": 3.516364812850952, + "learning_rate": 1.638733715669234e-06, + "loss": 0.2924, + "step": 7503 + }, + { + "epoch": 2.501333333333333, + "grad_norm": 3.0934956073760986, + "learning_rate": 1.6366068407182377e-06, + "loss": 0.2947, + "step": 7504 + }, + { + "epoch": 2.501666666666667, + "grad_norm": 2.718108654022217, + "learning_rate": 1.6344812238587027e-06, + "loss": 0.2757, + "step": 7505 + }, + { + "epoch": 2.502, + "grad_norm": 2.329038619995117, + "learning_rate": 1.6323568654103838e-06, + "loss": 0.2854, + "step": 7506 + }, + { + "epoch": 2.5023333333333335, + "grad_norm": 2.6776175498962402, + "learning_rate": 1.630233765692847e-06, + "loss": 0.2542, + "step": 7507 + }, + { + "epoch": 2.502666666666667, + "grad_norm": 2.6490097045898438, + "learning_rate": 1.6281119250254617e-06, + "loss": 0.2869, + "step": 7508 + }, + { + "epoch": 2.503, + "grad_norm": 3.5962860584259033, + "learning_rate": 1.6259913437274167e-06, + "loss": 0.2952, + "step": 7509 + }, + { + "epoch": 2.5033333333333334, + "grad_norm": 2.505333662033081, + "learning_rate": 1.6238720221177062e-06, + "loss": 0.2814, + "step": 7510 + }, + { + "epoch": 2.5036666666666667, + "grad_norm": 2.7229692935943604, + "learning_rate": 1.621753960515139e-06, + "loss": 0.2982, + "step": 7511 + }, + { + "epoch": 2.504, + "grad_norm": 2.342390775680542, + "learning_rate": 1.6196371592383264e-06, + "loss": 0.3183, + "step": 7512 + }, + { + "epoch": 2.5043333333333333, + "grad_norm": 3.003654718399048, + "learning_rate": 1.6175216186057019e-06, + "loss": 0.336, + "step": 7513 + }, + { + "epoch": 2.5046666666666666, + "grad_norm": 2.7104058265686035, + "learning_rate": 1.6154073389354975e-06, + "loss": 0.3007, + "step": 7514 + }, + { + "epoch": 2.505, + "grad_norm": 3.474459409713745, + "learning_rate": 1.6132943205457607e-06, + "loss": 0.2963, + "step": 7515 + }, + { + "epoch": 2.505333333333333, + "grad_norm": 3.1219472885131836, + "learning_rate": 1.6111825637543522e-06, + "loss": 0.2733, + "step": 7516 + }, + { + "epoch": 2.5056666666666665, + "grad_norm": 3.2000226974487305, + "learning_rate": 1.6090720688789374e-06, + "loss": 0.279, + "step": 7517 + }, + { + "epoch": 2.5060000000000002, + "grad_norm": 2.825284957885742, + "learning_rate": 1.6069628362369993e-06, + "loss": 0.3058, + "step": 7518 + }, + { + "epoch": 2.506333333333333, + "grad_norm": 3.558326244354248, + "learning_rate": 1.6048548661458208e-06, + "loss": 0.2914, + "step": 7519 + }, + { + "epoch": 2.506666666666667, + "grad_norm": 3.055861711502075, + "learning_rate": 1.6027481589225024e-06, + "loss": 0.3142, + "step": 7520 + }, + { + "epoch": 2.507, + "grad_norm": 2.9150686264038086, + "learning_rate": 1.6006427148839554e-06, + "loss": 0.2827, + "step": 7521 + }, + { + "epoch": 2.5073333333333334, + "grad_norm": 2.3808350563049316, + "learning_rate": 1.5985385343468963e-06, + "loss": 0.3004, + "step": 7522 + }, + { + "epoch": 2.5076666666666667, + "grad_norm": 2.584216594696045, + "learning_rate": 1.5964356176278494e-06, + "loss": 0.2779, + "step": 7523 + }, + { + "epoch": 2.508, + "grad_norm": 2.1314399242401123, + "learning_rate": 1.5943339650431578e-06, + "loss": 0.256, + "step": 7524 + }, + { + "epoch": 2.5083333333333333, + "grad_norm": 3.1278533935546875, + "learning_rate": 1.5922335769089703e-06, + "loss": 0.2611, + "step": 7525 + }, + { + "epoch": 2.5086666666666666, + "grad_norm": 2.309805393218994, + "learning_rate": 1.590134453541241e-06, + "loss": 0.2679, + "step": 7526 + }, + { + "epoch": 2.509, + "grad_norm": 4.214395046234131, + "learning_rate": 1.5880365952557387e-06, + "loss": 0.3337, + "step": 7527 + }, + { + "epoch": 2.509333333333333, + "grad_norm": 2.479384660720825, + "learning_rate": 1.585940002368045e-06, + "loss": 0.3075, + "step": 7528 + }, + { + "epoch": 2.509666666666667, + "grad_norm": 2.377089500427246, + "learning_rate": 1.583844675193541e-06, + "loss": 0.3194, + "step": 7529 + }, + { + "epoch": 2.51, + "grad_norm": 3.2215781211853027, + "learning_rate": 1.5817506140474248e-06, + "loss": 0.3353, + "step": 7530 + }, + { + "epoch": 2.5103333333333335, + "grad_norm": 2.8572516441345215, + "learning_rate": 1.5796578192447077e-06, + "loss": 0.2801, + "step": 7531 + }, + { + "epoch": 2.510666666666667, + "grad_norm": 2.1440248489379883, + "learning_rate": 1.5775662911002e-06, + "loss": 0.2856, + "step": 7532 + }, + { + "epoch": 2.511, + "grad_norm": 3.3272862434387207, + "learning_rate": 1.5754760299285255e-06, + "loss": 0.3008, + "step": 7533 + }, + { + "epoch": 2.5113333333333334, + "grad_norm": 2.726762056350708, + "learning_rate": 1.5733870360441228e-06, + "loss": 0.2866, + "step": 7534 + }, + { + "epoch": 2.5116666666666667, + "grad_norm": 3.087095260620117, + "learning_rate": 1.5712993097612362e-06, + "loss": 0.3275, + "step": 7535 + }, + { + "epoch": 2.512, + "grad_norm": 2.7676339149475098, + "learning_rate": 1.5692128513939142e-06, + "loss": 0.2822, + "step": 7536 + }, + { + "epoch": 2.5123333333333333, + "grad_norm": 2.3451311588287354, + "learning_rate": 1.5671276612560228e-06, + "loss": 0.288, + "step": 7537 + }, + { + "epoch": 2.5126666666666666, + "grad_norm": 3.193934202194214, + "learning_rate": 1.5650437396612329e-06, + "loss": 0.3038, + "step": 7538 + }, + { + "epoch": 2.513, + "grad_norm": 2.116558074951172, + "learning_rate": 1.5629610869230272e-06, + "loss": 0.2822, + "step": 7539 + }, + { + "epoch": 2.513333333333333, + "grad_norm": 3.6081230640411377, + "learning_rate": 1.560879703354693e-06, + "loss": 0.302, + "step": 7540 + }, + { + "epoch": 2.5136666666666665, + "grad_norm": 2.2865631580352783, + "learning_rate": 1.558799589269332e-06, + "loss": 0.2362, + "step": 7541 + }, + { + "epoch": 2.5140000000000002, + "grad_norm": 2.361433982849121, + "learning_rate": 1.5567207449798517e-06, + "loss": 0.288, + "step": 7542 + }, + { + "epoch": 2.514333333333333, + "grad_norm": 3.5775418281555176, + "learning_rate": 1.5546431707989662e-06, + "loss": 0.3261, + "step": 7543 + }, + { + "epoch": 2.514666666666667, + "grad_norm": 2.4546866416931152, + "learning_rate": 1.5525668670392025e-06, + "loss": 0.2943, + "step": 7544 + }, + { + "epoch": 2.515, + "grad_norm": 3.5866153240203857, + "learning_rate": 1.5504918340128982e-06, + "loss": 0.2802, + "step": 7545 + }, + { + "epoch": 2.5153333333333334, + "grad_norm": 3.6816954612731934, + "learning_rate": 1.5484180720321972e-06, + "loss": 0.2921, + "step": 7546 + }, + { + "epoch": 2.5156666666666667, + "grad_norm": 2.5864334106445312, + "learning_rate": 1.546345581409049e-06, + "loss": 0.265, + "step": 7547 + }, + { + "epoch": 2.516, + "grad_norm": 2.394838809967041, + "learning_rate": 1.544274362455216e-06, + "loss": 0.2795, + "step": 7548 + }, + { + "epoch": 2.5163333333333333, + "grad_norm": 3.7924492359161377, + "learning_rate": 1.5422044154822712e-06, + "loss": 0.2948, + "step": 7549 + }, + { + "epoch": 2.5166666666666666, + "grad_norm": 2.8681771755218506, + "learning_rate": 1.5401357408015893e-06, + "loss": 0.3139, + "step": 7550 + }, + { + "epoch": 2.517, + "grad_norm": 2.654428243637085, + "learning_rate": 1.538068338724361e-06, + "loss": 0.2859, + "step": 7551 + }, + { + "epoch": 2.517333333333333, + "grad_norm": 3.263608932495117, + "learning_rate": 1.5360022095615789e-06, + "loss": 0.3051, + "step": 7552 + }, + { + "epoch": 2.517666666666667, + "grad_norm": 2.9942362308502197, + "learning_rate": 1.533937353624051e-06, + "loss": 0.2998, + "step": 7553 + }, + { + "epoch": 2.518, + "grad_norm": 2.2440099716186523, + "learning_rate": 1.5318737712223853e-06, + "loss": 0.2589, + "step": 7554 + }, + { + "epoch": 2.5183333333333335, + "grad_norm": 2.7262113094329834, + "learning_rate": 1.5298114626670059e-06, + "loss": 0.299, + "step": 7555 + }, + { + "epoch": 2.518666666666667, + "grad_norm": 2.1750195026397705, + "learning_rate": 1.5277504282681454e-06, + "loss": 0.2828, + "step": 7556 + }, + { + "epoch": 2.519, + "grad_norm": 2.7797372341156006, + "learning_rate": 1.5256906683358364e-06, + "loss": 0.3152, + "step": 7557 + }, + { + "epoch": 2.5193333333333334, + "grad_norm": 3.0045740604400635, + "learning_rate": 1.5236321831799283e-06, + "loss": 0.2555, + "step": 7558 + }, + { + "epoch": 2.5196666666666667, + "grad_norm": 2.749695301055908, + "learning_rate": 1.5215749731100759e-06, + "loss": 0.2867, + "step": 7559 + }, + { + "epoch": 2.52, + "grad_norm": 3.231891632080078, + "learning_rate": 1.5195190384357405e-06, + "loss": 0.2742, + "step": 7560 + }, + { + "epoch": 2.5203333333333333, + "grad_norm": 2.5651142597198486, + "learning_rate": 1.5174643794661948e-06, + "loss": 0.3051, + "step": 7561 + }, + { + "epoch": 2.5206666666666666, + "grad_norm": 2.7616500854492188, + "learning_rate": 1.5154109965105146e-06, + "loss": 0.2264, + "step": 7562 + }, + { + "epoch": 2.521, + "grad_norm": 2.8365964889526367, + "learning_rate": 1.513358889877592e-06, + "loss": 0.2834, + "step": 7563 + }, + { + "epoch": 2.521333333333333, + "grad_norm": 3.749256134033203, + "learning_rate": 1.5113080598761153e-06, + "loss": 0.3101, + "step": 7564 + }, + { + "epoch": 2.5216666666666665, + "grad_norm": 2.433476686477661, + "learning_rate": 1.5092585068145915e-06, + "loss": 0.2895, + "step": 7565 + }, + { + "epoch": 2.5220000000000002, + "grad_norm": 2.9071412086486816, + "learning_rate": 1.5072102310013314e-06, + "loss": 0.2945, + "step": 7566 + }, + { + "epoch": 2.522333333333333, + "grad_norm": 2.6344316005706787, + "learning_rate": 1.5051632327444554e-06, + "loss": 0.2981, + "step": 7567 + }, + { + "epoch": 2.522666666666667, + "grad_norm": 2.992142915725708, + "learning_rate": 1.503117512351886e-06, + "loss": 0.2735, + "step": 7568 + }, + { + "epoch": 2.523, + "grad_norm": 2.2556614875793457, + "learning_rate": 1.5010730701313626e-06, + "loss": 0.2723, + "step": 7569 + }, + { + "epoch": 2.5233333333333334, + "grad_norm": 2.655505895614624, + "learning_rate": 1.4990299063904202e-06, + "loss": 0.2795, + "step": 7570 + }, + { + "epoch": 2.5236666666666667, + "grad_norm": 4.061888217926025, + "learning_rate": 1.4969880214364162e-06, + "loss": 0.2906, + "step": 7571 + }, + { + "epoch": 2.524, + "grad_norm": 2.479121446609497, + "learning_rate": 1.494947415576502e-06, + "loss": 0.3164, + "step": 7572 + }, + { + "epoch": 2.5243333333333333, + "grad_norm": 3.33154296875, + "learning_rate": 1.492908089117645e-06, + "loss": 0.3077, + "step": 7573 + }, + { + "epoch": 2.5246666666666666, + "grad_norm": 3.399118423461914, + "learning_rate": 1.4908700423666212e-06, + "loss": 0.2621, + "step": 7574 + }, + { + "epoch": 2.525, + "grad_norm": 2.6605913639068604, + "learning_rate": 1.4888332756300027e-06, + "loss": 0.3426, + "step": 7575 + }, + { + "epoch": 2.525333333333333, + "grad_norm": 3.0387871265411377, + "learning_rate": 1.4867977892141827e-06, + "loss": 0.2832, + "step": 7576 + }, + { + "epoch": 2.5256666666666665, + "grad_norm": 2.8037679195404053, + "learning_rate": 1.4847635834253572e-06, + "loss": 0.3056, + "step": 7577 + }, + { + "epoch": 2.526, + "grad_norm": 3.1568846702575684, + "learning_rate": 1.4827306585695234e-06, + "loss": 0.2945, + "step": 7578 + }, + { + "epoch": 2.5263333333333335, + "grad_norm": 2.7609355449676514, + "learning_rate": 1.480699014952497e-06, + "loss": 0.2902, + "step": 7579 + }, + { + "epoch": 2.5266666666666664, + "grad_norm": 2.404301643371582, + "learning_rate": 1.4786686528798878e-06, + "loss": 0.2869, + "step": 7580 + }, + { + "epoch": 2.527, + "grad_norm": 3.2755377292633057, + "learning_rate": 1.4766395726571258e-06, + "loss": 0.3008, + "step": 7581 + }, + { + "epoch": 2.5273333333333334, + "grad_norm": 2.37939453125, + "learning_rate": 1.4746117745894373e-06, + "loss": 0.3168, + "step": 7582 + }, + { + "epoch": 2.5276666666666667, + "grad_norm": 2.4441945552825928, + "learning_rate": 1.4725852589818634e-06, + "loss": 0.2936, + "step": 7583 + }, + { + "epoch": 2.528, + "grad_norm": 2.5889501571655273, + "learning_rate": 1.4705600261392505e-06, + "loss": 0.3025, + "step": 7584 + }, + { + "epoch": 2.5283333333333333, + "grad_norm": 2.3305344581604004, + "learning_rate": 1.4685360763662482e-06, + "loss": 0.2949, + "step": 7585 + }, + { + "epoch": 2.5286666666666666, + "grad_norm": 3.477499485015869, + "learning_rate": 1.4665134099673172e-06, + "loss": 0.2909, + "step": 7586 + }, + { + "epoch": 2.529, + "grad_norm": 2.7558906078338623, + "learning_rate": 1.4644920272467245e-06, + "loss": 0.3109, + "step": 7587 + }, + { + "epoch": 2.529333333333333, + "grad_norm": 2.403623580932617, + "learning_rate": 1.4624719285085455e-06, + "loss": 0.3073, + "step": 7588 + }, + { + "epoch": 2.5296666666666665, + "grad_norm": 3.165252208709717, + "learning_rate": 1.460453114056657e-06, + "loss": 0.3026, + "step": 7589 + }, + { + "epoch": 2.5300000000000002, + "grad_norm": 2.152492046356201, + "learning_rate": 1.4584355841947452e-06, + "loss": 0.2695, + "step": 7590 + }, + { + "epoch": 2.530333333333333, + "grad_norm": 3.381622314453125, + "learning_rate": 1.456419339226307e-06, + "loss": 0.2857, + "step": 7591 + }, + { + "epoch": 2.530666666666667, + "grad_norm": 2.5539228916168213, + "learning_rate": 1.4544043794546391e-06, + "loss": 0.2855, + "step": 7592 + }, + { + "epoch": 2.531, + "grad_norm": 3.532883882522583, + "learning_rate": 1.4523907051828502e-06, + "loss": 0.2984, + "step": 7593 + }, + { + "epoch": 2.5313333333333334, + "grad_norm": 3.2919743061065674, + "learning_rate": 1.4503783167138553e-06, + "loss": 0.3157, + "step": 7594 + }, + { + "epoch": 2.5316666666666667, + "grad_norm": 2.43896746635437, + "learning_rate": 1.4483672143503757e-06, + "loss": 0.2913, + "step": 7595 + }, + { + "epoch": 2.532, + "grad_norm": 3.1652724742889404, + "learning_rate": 1.446357398394934e-06, + "loss": 0.306, + "step": 7596 + }, + { + "epoch": 2.5323333333333333, + "grad_norm": 3.189689874649048, + "learning_rate": 1.4443488691498653e-06, + "loss": 0.2888, + "step": 7597 + }, + { + "epoch": 2.5326666666666666, + "grad_norm": 3.7007012367248535, + "learning_rate": 1.442341626917313e-06, + "loss": 0.2754, + "step": 7598 + }, + { + "epoch": 2.533, + "grad_norm": 3.6963305473327637, + "learning_rate": 1.4403356719992201e-06, + "loss": 0.2927, + "step": 7599 + }, + { + "epoch": 2.533333333333333, + "grad_norm": 3.222442626953125, + "learning_rate": 1.4383310046973365e-06, + "loss": 0.2771, + "step": 7600 + }, + { + "epoch": 2.5336666666666665, + "grad_norm": 3.2765915393829346, + "learning_rate": 1.4363276253132231e-06, + "loss": 0.2946, + "step": 7601 + }, + { + "epoch": 2.534, + "grad_norm": 2.5456249713897705, + "learning_rate": 1.4343255341482486e-06, + "loss": 0.2719, + "step": 7602 + }, + { + "epoch": 2.5343333333333335, + "grad_norm": 2.4321680068969727, + "learning_rate": 1.4323247315035794e-06, + "loss": 0.2897, + "step": 7603 + }, + { + "epoch": 2.5346666666666664, + "grad_norm": 2.6080658435821533, + "learning_rate": 1.4303252176801929e-06, + "loss": 0.293, + "step": 7604 + }, + { + "epoch": 2.535, + "grad_norm": 2.354440927505493, + "learning_rate": 1.4283269929788779e-06, + "loss": 0.2892, + "step": 7605 + }, + { + "epoch": 2.5353333333333334, + "grad_norm": 3.0502867698669434, + "learning_rate": 1.426330057700218e-06, + "loss": 0.2851, + "step": 7606 + }, + { + "epoch": 2.5356666666666667, + "grad_norm": 2.6640095710754395, + "learning_rate": 1.4243344121446124e-06, + "loss": 0.3089, + "step": 7607 + }, + { + "epoch": 2.536, + "grad_norm": 3.257962465286255, + "learning_rate": 1.4223400566122635e-06, + "loss": 0.2511, + "step": 7608 + }, + { + "epoch": 2.5363333333333333, + "grad_norm": 3.338174343109131, + "learning_rate": 1.4203469914031776e-06, + "loss": 0.3432, + "step": 7609 + }, + { + "epoch": 2.5366666666666666, + "grad_norm": 4.692502498626709, + "learning_rate": 1.4183552168171655e-06, + "loss": 0.3138, + "step": 7610 + }, + { + "epoch": 2.537, + "grad_norm": 3.1668097972869873, + "learning_rate": 1.416364733153849e-06, + "loss": 0.3164, + "step": 7611 + }, + { + "epoch": 2.537333333333333, + "grad_norm": 2.4008116722106934, + "learning_rate": 1.4143755407126558e-06, + "loss": 0.2753, + "step": 7612 + }, + { + "epoch": 2.5376666666666665, + "grad_norm": 2.47976016998291, + "learning_rate": 1.4123876397928116e-06, + "loss": 0.2592, + "step": 7613 + }, + { + "epoch": 2.5380000000000003, + "grad_norm": 2.9966912269592285, + "learning_rate": 1.4104010306933558e-06, + "loss": 0.3131, + "step": 7614 + }, + { + "epoch": 2.538333333333333, + "grad_norm": 2.424589157104492, + "learning_rate": 1.4084157137131315e-06, + "loss": 0.3018, + "step": 7615 + }, + { + "epoch": 2.538666666666667, + "grad_norm": 3.26900315284729, + "learning_rate": 1.4064316891507868e-06, + "loss": 0.3039, + "step": 7616 + }, + { + "epoch": 2.539, + "grad_norm": 4.3919806480407715, + "learning_rate": 1.4044489573047759e-06, + "loss": 0.2848, + "step": 7617 + }, + { + "epoch": 2.5393333333333334, + "grad_norm": 2.348020315170288, + "learning_rate": 1.4024675184733527e-06, + "loss": 0.2767, + "step": 7618 + }, + { + "epoch": 2.5396666666666667, + "grad_norm": 2.3360252380371094, + "learning_rate": 1.4004873729545887e-06, + "loss": 0.2879, + "step": 7619 + }, + { + "epoch": 2.54, + "grad_norm": 3.1388018131256104, + "learning_rate": 1.3985085210463479e-06, + "loss": 0.281, + "step": 7620 + }, + { + "epoch": 2.5403333333333333, + "grad_norm": 3.1846978664398193, + "learning_rate": 1.3965309630463086e-06, + "loss": 0.2846, + "step": 7621 + }, + { + "epoch": 2.5406666666666666, + "grad_norm": 2.404775857925415, + "learning_rate": 1.394554699251951e-06, + "loss": 0.3393, + "step": 7622 + }, + { + "epoch": 2.541, + "grad_norm": 2.4636614322662354, + "learning_rate": 1.3925797299605649e-06, + "loss": 0.2873, + "step": 7623 + }, + { + "epoch": 2.541333333333333, + "grad_norm": 3.436798334121704, + "learning_rate": 1.3906060554692358e-06, + "loss": 0.27, + "step": 7624 + }, + { + "epoch": 2.5416666666666665, + "grad_norm": 2.484792947769165, + "learning_rate": 1.388633676074862e-06, + "loss": 0.2741, + "step": 7625 + }, + { + "epoch": 2.542, + "grad_norm": 3.027975082397461, + "learning_rate": 1.3866625920741495e-06, + "loss": 0.3178, + "step": 7626 + }, + { + "epoch": 2.5423333333333336, + "grad_norm": 2.70737624168396, + "learning_rate": 1.384692803763602e-06, + "loss": 0.3105, + "step": 7627 + }, + { + "epoch": 2.5426666666666664, + "grad_norm": 2.337726354598999, + "learning_rate": 1.3827243114395295e-06, + "loss": 0.2798, + "step": 7628 + }, + { + "epoch": 2.543, + "grad_norm": 2.8567240238189697, + "learning_rate": 1.3807571153980504e-06, + "loss": 0.3269, + "step": 7629 + }, + { + "epoch": 2.5433333333333334, + "grad_norm": 2.461121082305908, + "learning_rate": 1.3787912159350903e-06, + "loss": 0.2738, + "step": 7630 + }, + { + "epoch": 2.5436666666666667, + "grad_norm": 2.4368045330047607, + "learning_rate": 1.3768266133463704e-06, + "loss": 0.279, + "step": 7631 + }, + { + "epoch": 2.544, + "grad_norm": 2.893181085586548, + "learning_rate": 1.3748633079274254e-06, + "loss": 0.2804, + "step": 7632 + }, + { + "epoch": 2.5443333333333333, + "grad_norm": 2.5406131744384766, + "learning_rate": 1.3729012999735926e-06, + "loss": 0.3078, + "step": 7633 + }, + { + "epoch": 2.5446666666666666, + "grad_norm": 2.518601655960083, + "learning_rate": 1.3709405897800155e-06, + "loss": 0.2998, + "step": 7634 + }, + { + "epoch": 2.545, + "grad_norm": 2.6756560802459717, + "learning_rate": 1.368981177641636e-06, + "loss": 0.2916, + "step": 7635 + }, + { + "epoch": 2.5453333333333332, + "grad_norm": 2.0285556316375732, + "learning_rate": 1.36702306385321e-06, + "loss": 0.2607, + "step": 7636 + }, + { + "epoch": 2.5456666666666665, + "grad_norm": 2.410465717315674, + "learning_rate": 1.3650662487092902e-06, + "loss": 0.2741, + "step": 7637 + }, + { + "epoch": 2.5460000000000003, + "grad_norm": 2.4751505851745605, + "learning_rate": 1.363110732504237e-06, + "loss": 0.3181, + "step": 7638 + }, + { + "epoch": 2.546333333333333, + "grad_norm": 2.931241989135742, + "learning_rate": 1.3611565155322148e-06, + "loss": 0.2838, + "step": 7639 + }, + { + "epoch": 2.546666666666667, + "grad_norm": 2.7743775844573975, + "learning_rate": 1.3592035980871954e-06, + "loss": 0.3003, + "step": 7640 + }, + { + "epoch": 2.547, + "grad_norm": 2.875983715057373, + "learning_rate": 1.3572519804629537e-06, + "loss": 0.2579, + "step": 7641 + }, + { + "epoch": 2.5473333333333334, + "grad_norm": 2.3258116245269775, + "learning_rate": 1.3553016629530657e-06, + "loss": 0.2731, + "step": 7642 + }, + { + "epoch": 2.5476666666666667, + "grad_norm": 2.6615397930145264, + "learning_rate": 1.353352645850915e-06, + "loss": 0.305, + "step": 7643 + }, + { + "epoch": 2.548, + "grad_norm": 2.9277143478393555, + "learning_rate": 1.3514049294496911e-06, + "loss": 0.2656, + "step": 7644 + }, + { + "epoch": 2.5483333333333333, + "grad_norm": 3.3267464637756348, + "learning_rate": 1.3494585140423832e-06, + "loss": 0.2915, + "step": 7645 + }, + { + "epoch": 2.5486666666666666, + "grad_norm": 2.6687119007110596, + "learning_rate": 1.3475133999217904e-06, + "loss": 0.2944, + "step": 7646 + }, + { + "epoch": 2.549, + "grad_norm": 3.3744680881500244, + "learning_rate": 1.3455695873805086e-06, + "loss": 0.2809, + "step": 7647 + }, + { + "epoch": 2.5493333333333332, + "grad_norm": 2.760787010192871, + "learning_rate": 1.3436270767109473e-06, + "loss": 0.2882, + "step": 7648 + }, + { + "epoch": 2.5496666666666665, + "grad_norm": 3.4657034873962402, + "learning_rate": 1.3416858682053112e-06, + "loss": 0.2819, + "step": 7649 + }, + { + "epoch": 2.55, + "grad_norm": 2.826751708984375, + "learning_rate": 1.339745962155613e-06, + "loss": 0.3057, + "step": 7650 + }, + { + "epoch": 2.5503333333333336, + "grad_norm": 2.4455044269561768, + "learning_rate": 1.3378073588536745e-06, + "loss": 0.2932, + "step": 7651 + }, + { + "epoch": 2.5506666666666664, + "grad_norm": 2.190653085708618, + "learning_rate": 1.335870058591111e-06, + "loss": 0.3157, + "step": 7652 + }, + { + "epoch": 2.551, + "grad_norm": 2.756134510040283, + "learning_rate": 1.3339340616593487e-06, + "loss": 0.2931, + "step": 7653 + }, + { + "epoch": 2.5513333333333335, + "grad_norm": 2.47198486328125, + "learning_rate": 1.3319993683496213e-06, + "loss": 0.3283, + "step": 7654 + }, + { + "epoch": 2.5516666666666667, + "grad_norm": 3.3683223724365234, + "learning_rate": 1.3300659789529536e-06, + "loss": 0.3032, + "step": 7655 + }, + { + "epoch": 2.552, + "grad_norm": 2.729390859603882, + "learning_rate": 1.3281338937601895e-06, + "loss": 0.2909, + "step": 7656 + }, + { + "epoch": 2.5523333333333333, + "grad_norm": 2.9624979496002197, + "learning_rate": 1.3262031130619635e-06, + "loss": 0.3107, + "step": 7657 + }, + { + "epoch": 2.5526666666666666, + "grad_norm": 2.3590710163116455, + "learning_rate": 1.3242736371487252e-06, + "loss": 0.2981, + "step": 7658 + }, + { + "epoch": 2.553, + "grad_norm": 3.71771240234375, + "learning_rate": 1.322345466310717e-06, + "loss": 0.3159, + "step": 7659 + }, + { + "epoch": 2.5533333333333332, + "grad_norm": 2.2469818592071533, + "learning_rate": 1.3204186008379926e-06, + "loss": 0.2762, + "step": 7660 + }, + { + "epoch": 2.5536666666666665, + "grad_norm": 2.8828859329223633, + "learning_rate": 1.3184930410204078e-06, + "loss": 0.2919, + "step": 7661 + }, + { + "epoch": 2.5540000000000003, + "grad_norm": 2.732987880706787, + "learning_rate": 1.316568787147624e-06, + "loss": 0.3593, + "step": 7662 + }, + { + "epoch": 2.554333333333333, + "grad_norm": 2.8016281127929688, + "learning_rate": 1.3146458395090988e-06, + "loss": 0.2888, + "step": 7663 + }, + { + "epoch": 2.554666666666667, + "grad_norm": 3.518786668777466, + "learning_rate": 1.3127241983941018e-06, + "loss": 0.3222, + "step": 7664 + }, + { + "epoch": 2.555, + "grad_norm": 3.3817384243011475, + "learning_rate": 1.3108038640916988e-06, + "loss": 0.2998, + "step": 7665 + }, + { + "epoch": 2.5553333333333335, + "grad_norm": 3.298736810684204, + "learning_rate": 1.3088848368907658e-06, + "loss": 0.28, + "step": 7666 + }, + { + "epoch": 2.5556666666666668, + "grad_norm": 2.4905214309692383, + "learning_rate": 1.3069671170799758e-06, + "loss": 0.2946, + "step": 7667 + }, + { + "epoch": 2.556, + "grad_norm": 2.656951904296875, + "learning_rate": 1.30505070494781e-06, + "loss": 0.2934, + "step": 7668 + }, + { + "epoch": 2.5563333333333333, + "grad_norm": 2.3621628284454346, + "learning_rate": 1.3031356007825524e-06, + "loss": 0.2566, + "step": 7669 + }, + { + "epoch": 2.5566666666666666, + "grad_norm": 2.5969772338867188, + "learning_rate": 1.3012218048722858e-06, + "loss": 0.2902, + "step": 7670 + }, + { + "epoch": 2.557, + "grad_norm": 3.2278661727905273, + "learning_rate": 1.2993093175049022e-06, + "loss": 0.3229, + "step": 7671 + }, + { + "epoch": 2.5573333333333332, + "grad_norm": 2.77213191986084, + "learning_rate": 1.2973981389680933e-06, + "loss": 0.3082, + "step": 7672 + }, + { + "epoch": 2.5576666666666665, + "grad_norm": 2.864454984664917, + "learning_rate": 1.2954882695493532e-06, + "loss": 0.2947, + "step": 7673 + }, + { + "epoch": 2.558, + "grad_norm": 3.2214391231536865, + "learning_rate": 1.2935797095359825e-06, + "loss": 0.299, + "step": 7674 + }, + { + "epoch": 2.5583333333333336, + "grad_norm": 2.3727097511291504, + "learning_rate": 1.2916724592150799e-06, + "loss": 0.2934, + "step": 7675 + }, + { + "epoch": 2.5586666666666664, + "grad_norm": 3.5929183959960938, + "learning_rate": 1.2897665188735531e-06, + "loss": 0.3048, + "step": 7676 + }, + { + "epoch": 2.559, + "grad_norm": 2.8572475910186768, + "learning_rate": 1.2878618887981064e-06, + "loss": 0.2841, + "step": 7677 + }, + { + "epoch": 2.5593333333333335, + "grad_norm": 2.295408010482788, + "learning_rate": 1.2859585692752518e-06, + "loss": 0.29, + "step": 7678 + }, + { + "epoch": 2.5596666666666668, + "grad_norm": 2.6395132541656494, + "learning_rate": 1.2840565605913047e-06, + "loss": 0.3172, + "step": 7679 + }, + { + "epoch": 2.56, + "grad_norm": 3.1945102214813232, + "learning_rate": 1.282155863032377e-06, + "loss": 0.2937, + "step": 7680 + }, + { + "epoch": 2.5603333333333333, + "grad_norm": 2.486575126647949, + "learning_rate": 1.2802564768843896e-06, + "loss": 0.3087, + "step": 7681 + }, + { + "epoch": 2.5606666666666666, + "grad_norm": 2.7475156784057617, + "learning_rate": 1.2783584024330632e-06, + "loss": 0.2861, + "step": 7682 + }, + { + "epoch": 2.561, + "grad_norm": 2.705315113067627, + "learning_rate": 1.2764616399639252e-06, + "loss": 0.2996, + "step": 7683 + }, + { + "epoch": 2.5613333333333332, + "grad_norm": 2.5201306343078613, + "learning_rate": 1.2745661897622997e-06, + "loss": 0.2276, + "step": 7684 + }, + { + "epoch": 2.5616666666666665, + "grad_norm": 2.5784788131713867, + "learning_rate": 1.2726720521133141e-06, + "loss": 0.3041, + "step": 7685 + }, + { + "epoch": 2.5620000000000003, + "grad_norm": 2.5306451320648193, + "learning_rate": 1.2707792273019049e-06, + "loss": 0.2892, + "step": 7686 + }, + { + "epoch": 2.562333333333333, + "grad_norm": 3.585679769515991, + "learning_rate": 1.2688877156128032e-06, + "loss": 0.3108, + "step": 7687 + }, + { + "epoch": 2.562666666666667, + "grad_norm": 3.0233728885650635, + "learning_rate": 1.266997517330546e-06, + "loss": 0.3125, + "step": 7688 + }, + { + "epoch": 2.5629999999999997, + "grad_norm": 2.871957302093506, + "learning_rate": 1.2651086327394745e-06, + "loss": 0.2472, + "step": 7689 + }, + { + "epoch": 2.5633333333333335, + "grad_norm": 2.6412925720214844, + "learning_rate": 1.2632210621237329e-06, + "loss": 0.2986, + "step": 7690 + }, + { + "epoch": 2.5636666666666668, + "grad_norm": 2.75136137008667, + "learning_rate": 1.2613348057672592e-06, + "loss": 0.3049, + "step": 7691 + }, + { + "epoch": 2.564, + "grad_norm": 2.4757766723632812, + "learning_rate": 1.2594498639538032e-06, + "loss": 0.2954, + "step": 7692 + }, + { + "epoch": 2.5643333333333334, + "grad_norm": 3.3992435932159424, + "learning_rate": 1.2575662369669162e-06, + "loss": 0.3109, + "step": 7693 + }, + { + "epoch": 2.5646666666666667, + "grad_norm": 2.6673965454101562, + "learning_rate": 1.2556839250899455e-06, + "loss": 0.2947, + "step": 7694 + }, + { + "epoch": 2.565, + "grad_norm": 2.8628811836242676, + "learning_rate": 1.2538029286060428e-06, + "loss": 0.3206, + "step": 7695 + }, + { + "epoch": 2.5653333333333332, + "grad_norm": 3.580720901489258, + "learning_rate": 1.2519232477981657e-06, + "loss": 0.265, + "step": 7696 + }, + { + "epoch": 2.5656666666666665, + "grad_norm": 2.4323365688323975, + "learning_rate": 1.250044882949074e-06, + "loss": 0.2959, + "step": 7697 + }, + { + "epoch": 2.566, + "grad_norm": 2.6552393436431885, + "learning_rate": 1.2481678343413216e-06, + "loss": 0.2772, + "step": 7698 + }, + { + "epoch": 2.5663333333333336, + "grad_norm": 2.4574248790740967, + "learning_rate": 1.2462921022572727e-06, + "loss": 0.2753, + "step": 7699 + }, + { + "epoch": 2.5666666666666664, + "grad_norm": 2.7031948566436768, + "learning_rate": 1.2444176869790925e-06, + "loss": 0.279, + "step": 7700 + }, + { + "epoch": 2.567, + "grad_norm": 3.425593614578247, + "learning_rate": 1.2425445887887422e-06, + "loss": 0.2888, + "step": 7701 + }, + { + "epoch": 2.5673333333333335, + "grad_norm": 2.8685173988342285, + "learning_rate": 1.240672807967993e-06, + "loss": 0.308, + "step": 7702 + }, + { + "epoch": 2.5676666666666668, + "grad_norm": 2.417104959487915, + "learning_rate": 1.2388023447984087e-06, + "loss": 0.297, + "step": 7703 + }, + { + "epoch": 2.568, + "grad_norm": 2.5269219875335693, + "learning_rate": 1.2369331995613664e-06, + "loss": 0.291, + "step": 7704 + }, + { + "epoch": 2.5683333333333334, + "grad_norm": 2.427731513977051, + "learning_rate": 1.2350653725380324e-06, + "loss": 0.3131, + "step": 7705 + }, + { + "epoch": 2.5686666666666667, + "grad_norm": 2.8447954654693604, + "learning_rate": 1.2331988640093828e-06, + "loss": 0.292, + "step": 7706 + }, + { + "epoch": 2.569, + "grad_norm": 2.55076003074646, + "learning_rate": 1.2313336742561965e-06, + "loss": 0.3094, + "step": 7707 + }, + { + "epoch": 2.5693333333333332, + "grad_norm": 2.427455425262451, + "learning_rate": 1.229469803559047e-06, + "loss": 0.2931, + "step": 7708 + }, + { + "epoch": 2.5696666666666665, + "grad_norm": 2.5285773277282715, + "learning_rate": 1.227607252198314e-06, + "loss": 0.3015, + "step": 7709 + }, + { + "epoch": 2.57, + "grad_norm": 2.653846502304077, + "learning_rate": 1.2257460204541793e-06, + "loss": 0.2526, + "step": 7710 + }, + { + "epoch": 2.570333333333333, + "grad_norm": 2.8905200958251953, + "learning_rate": 1.223886108606628e-06, + "loss": 0.3005, + "step": 7711 + }, + { + "epoch": 2.570666666666667, + "grad_norm": 2.236391067504883, + "learning_rate": 1.222027516935438e-06, + "loss": 0.3079, + "step": 7712 + }, + { + "epoch": 2.5709999999999997, + "grad_norm": 2.5238828659057617, + "learning_rate": 1.2201702457201948e-06, + "loss": 0.2888, + "step": 7713 + }, + { + "epoch": 2.5713333333333335, + "grad_norm": 2.854789972305298, + "learning_rate": 1.2183142952402881e-06, + "loss": 0.2997, + "step": 7714 + }, + { + "epoch": 2.5716666666666668, + "grad_norm": 2.562145471572876, + "learning_rate": 1.2164596657749018e-06, + "loss": 0.3355, + "step": 7715 + }, + { + "epoch": 2.572, + "grad_norm": 2.768786907196045, + "learning_rate": 1.2146063576030265e-06, + "loss": 0.3007, + "step": 7716 + }, + { + "epoch": 2.5723333333333334, + "grad_norm": 3.7235517501831055, + "learning_rate": 1.2127543710034517e-06, + "loss": 0.2913, + "step": 7717 + }, + { + "epoch": 2.5726666666666667, + "grad_norm": 2.6846437454223633, + "learning_rate": 1.2109037062547723e-06, + "loss": 0.308, + "step": 7718 + }, + { + "epoch": 2.573, + "grad_norm": 2.3755106925964355, + "learning_rate": 1.2090543636353746e-06, + "loss": 0.3064, + "step": 7719 + }, + { + "epoch": 2.5733333333333333, + "grad_norm": 3.29241681098938, + "learning_rate": 1.207206343423456e-06, + "loss": 0.3079, + "step": 7720 + }, + { + "epoch": 2.5736666666666665, + "grad_norm": 2.728071928024292, + "learning_rate": 1.2053596458970119e-06, + "loss": 0.2738, + "step": 7721 + }, + { + "epoch": 2.574, + "grad_norm": 2.867316722869873, + "learning_rate": 1.2035142713338366e-06, + "loss": 0.3115, + "step": 7722 + }, + { + "epoch": 2.5743333333333336, + "grad_norm": 2.9067935943603516, + "learning_rate": 1.201670220011525e-06, + "loss": 0.2758, + "step": 7723 + }, + { + "epoch": 2.5746666666666664, + "grad_norm": 2.7677924633026123, + "learning_rate": 1.199827492207476e-06, + "loss": 0.2967, + "step": 7724 + }, + { + "epoch": 2.575, + "grad_norm": 2.5792782306671143, + "learning_rate": 1.1979860881988903e-06, + "loss": 0.3061, + "step": 7725 + }, + { + "epoch": 2.5753333333333335, + "grad_norm": 2.9243459701538086, + "learning_rate": 1.1961460082627629e-06, + "loss": 0.3013, + "step": 7726 + }, + { + "epoch": 2.5756666666666668, + "grad_norm": 2.2417333126068115, + "learning_rate": 1.194307252675897e-06, + "loss": 0.2586, + "step": 7727 + }, + { + "epoch": 2.576, + "grad_norm": 3.2463412284851074, + "learning_rate": 1.1924698217148955e-06, + "loss": 0.2943, + "step": 7728 + }, + { + "epoch": 2.5763333333333334, + "grad_norm": 2.3192594051361084, + "learning_rate": 1.1906337156561554e-06, + "loss": 0.2663, + "step": 7729 + }, + { + "epoch": 2.5766666666666667, + "grad_norm": 2.300661563873291, + "learning_rate": 1.188798934775881e-06, + "loss": 0.302, + "step": 7730 + }, + { + "epoch": 2.577, + "grad_norm": 2.5998260974884033, + "learning_rate": 1.1869654793500784e-06, + "loss": 0.2606, + "step": 7731 + }, + { + "epoch": 2.5773333333333333, + "grad_norm": 3.1710567474365234, + "learning_rate": 1.1851333496545481e-06, + "loss": 0.2894, + "step": 7732 + }, + { + "epoch": 2.5776666666666666, + "grad_norm": 2.976457118988037, + "learning_rate": 1.183302545964894e-06, + "loss": 0.2821, + "step": 7733 + }, + { + "epoch": 2.578, + "grad_norm": 2.934839963912964, + "learning_rate": 1.18147306855652e-06, + "loss": 0.3251, + "step": 7734 + }, + { + "epoch": 2.578333333333333, + "grad_norm": 2.3439509868621826, + "learning_rate": 1.1796449177046364e-06, + "loss": 0.3155, + "step": 7735 + }, + { + "epoch": 2.578666666666667, + "grad_norm": 2.332442283630371, + "learning_rate": 1.1778180936842432e-06, + "loss": 0.2775, + "step": 7736 + }, + { + "epoch": 2.5789999999999997, + "grad_norm": 2.6721415519714355, + "learning_rate": 1.1759925967701491e-06, + "loss": 0.2743, + "step": 7737 + }, + { + "epoch": 2.5793333333333335, + "grad_norm": 2.636671304702759, + "learning_rate": 1.1741684272369613e-06, + "loss": 0.2613, + "step": 7738 + }, + { + "epoch": 2.5796666666666668, + "grad_norm": 2.8385021686553955, + "learning_rate": 1.172345585359087e-06, + "loss": 0.2869, + "step": 7739 + }, + { + "epoch": 2.58, + "grad_norm": 2.612285614013672, + "learning_rate": 1.1705240714107301e-06, + "loss": 0.3306, + "step": 7740 + }, + { + "epoch": 2.5803333333333334, + "grad_norm": 2.4180829524993896, + "learning_rate": 1.1687038856659027e-06, + "loss": 0.2766, + "step": 7741 + }, + { + "epoch": 2.5806666666666667, + "grad_norm": 2.613036870956421, + "learning_rate": 1.166885028398409e-06, + "loss": 0.2684, + "step": 7742 + }, + { + "epoch": 2.581, + "grad_norm": 2.9533064365386963, + "learning_rate": 1.1650674998818556e-06, + "loss": 0.3107, + "step": 7743 + }, + { + "epoch": 2.5813333333333333, + "grad_norm": 2.3441665172576904, + "learning_rate": 1.1632513003896518e-06, + "loss": 0.2802, + "step": 7744 + }, + { + "epoch": 2.5816666666666666, + "grad_norm": 2.8357529640197754, + "learning_rate": 1.1614364301950054e-06, + "loss": 0.2918, + "step": 7745 + }, + { + "epoch": 2.582, + "grad_norm": 2.5306949615478516, + "learning_rate": 1.159622889570927e-06, + "loss": 0.2627, + "step": 7746 + }, + { + "epoch": 2.5823333333333336, + "grad_norm": 2.1005711555480957, + "learning_rate": 1.1578106787902198e-06, + "loss": 0.2502, + "step": 7747 + }, + { + "epoch": 2.5826666666666664, + "grad_norm": 3.9616878032684326, + "learning_rate": 1.1559997981254955e-06, + "loss": 0.2753, + "step": 7748 + }, + { + "epoch": 2.583, + "grad_norm": 2.2775681018829346, + "learning_rate": 1.1541902478491607e-06, + "loss": 0.265, + "step": 7749 + }, + { + "epoch": 2.5833333333333335, + "grad_norm": 2.763643741607666, + "learning_rate": 1.152382028233422e-06, + "loss": 0.2798, + "step": 7750 + }, + { + "epoch": 2.583666666666667, + "grad_norm": 2.526620388031006, + "learning_rate": 1.1505751395502895e-06, + "loss": 0.2824, + "step": 7751 + }, + { + "epoch": 2.584, + "grad_norm": 2.854163646697998, + "learning_rate": 1.1487695820715672e-06, + "loss": 0.2911, + "step": 7752 + }, + { + "epoch": 2.5843333333333334, + "grad_norm": 3.0252552032470703, + "learning_rate": 1.1469653560688654e-06, + "loss": 0.3238, + "step": 7753 + }, + { + "epoch": 2.5846666666666667, + "grad_norm": 3.1238150596618652, + "learning_rate": 1.145162461813587e-06, + "loss": 0.2722, + "step": 7754 + }, + { + "epoch": 2.585, + "grad_norm": 2.704733371734619, + "learning_rate": 1.1433608995769396e-06, + "loss": 0.3033, + "step": 7755 + }, + { + "epoch": 2.5853333333333333, + "grad_norm": 2.7911500930786133, + "learning_rate": 1.141560669629933e-06, + "loss": 0.2692, + "step": 7756 + }, + { + "epoch": 2.5856666666666666, + "grad_norm": 3.919131278991699, + "learning_rate": 1.1397617722433686e-06, + "loss": 0.2611, + "step": 7757 + }, + { + "epoch": 2.586, + "grad_norm": 2.68719482421875, + "learning_rate": 1.1379642076878528e-06, + "loss": 0.3006, + "step": 7758 + }, + { + "epoch": 2.586333333333333, + "grad_norm": 2.6864988803863525, + "learning_rate": 1.1361679762337918e-06, + "loss": 0.2765, + "step": 7759 + }, + { + "epoch": 2.586666666666667, + "grad_norm": 2.7896759510040283, + "learning_rate": 1.1343730781513896e-06, + "loss": 0.3079, + "step": 7760 + }, + { + "epoch": 2.5869999999999997, + "grad_norm": 2.935793876647949, + "learning_rate": 1.1325795137106455e-06, + "loss": 0.278, + "step": 7761 + }, + { + "epoch": 2.5873333333333335, + "grad_norm": 2.6499907970428467, + "learning_rate": 1.130787283181365e-06, + "loss": 0.273, + "step": 7762 + }, + { + "epoch": 2.587666666666667, + "grad_norm": 2.8781588077545166, + "learning_rate": 1.1289963868331544e-06, + "loss": 0.2859, + "step": 7763 + }, + { + "epoch": 2.588, + "grad_norm": 3.092653274536133, + "learning_rate": 1.1272068249354085e-06, + "loss": 0.3264, + "step": 7764 + }, + { + "epoch": 2.5883333333333334, + "grad_norm": 3.5249640941619873, + "learning_rate": 1.1254185977573318e-06, + "loss": 0.2741, + "step": 7765 + }, + { + "epoch": 2.5886666666666667, + "grad_norm": 2.8581247329711914, + "learning_rate": 1.1236317055679246e-06, + "loss": 0.3027, + "step": 7766 + }, + { + "epoch": 2.589, + "grad_norm": 2.954998016357422, + "learning_rate": 1.1218461486359878e-06, + "loss": 0.2928, + "step": 7767 + }, + { + "epoch": 2.5893333333333333, + "grad_norm": 3.5122883319854736, + "learning_rate": 1.120061927230115e-06, + "loss": 0.3126, + "step": 7768 + }, + { + "epoch": 2.5896666666666666, + "grad_norm": 3.3495049476623535, + "learning_rate": 1.1182790416187072e-06, + "loss": 0.2857, + "step": 7769 + }, + { + "epoch": 2.59, + "grad_norm": 2.6256279945373535, + "learning_rate": 1.1164974920699611e-06, + "loss": 0.2706, + "step": 7770 + }, + { + "epoch": 2.5903333333333336, + "grad_norm": 2.93045711517334, + "learning_rate": 1.114717278851869e-06, + "loss": 0.3192, + "step": 7771 + }, + { + "epoch": 2.5906666666666665, + "grad_norm": 3.3348119258880615, + "learning_rate": 1.1129384022322276e-06, + "loss": 0.2714, + "step": 7772 + }, + { + "epoch": 2.591, + "grad_norm": 2.4522552490234375, + "learning_rate": 1.1111608624786307e-06, + "loss": 0.301, + "step": 7773 + }, + { + "epoch": 2.5913333333333335, + "grad_norm": 3.1601526737213135, + "learning_rate": 1.1093846598584724e-06, + "loss": 0.2573, + "step": 7774 + }, + { + "epoch": 2.591666666666667, + "grad_norm": 2.683466672897339, + "learning_rate": 1.1076097946389398e-06, + "loss": 0.3309, + "step": 7775 + }, + { + "epoch": 2.592, + "grad_norm": 2.5594232082366943, + "learning_rate": 1.1058362670870248e-06, + "loss": 0.2562, + "step": 7776 + }, + { + "epoch": 2.5923333333333334, + "grad_norm": 3.094381093978882, + "learning_rate": 1.1040640774695177e-06, + "loss": 0.3013, + "step": 7777 + }, + { + "epoch": 2.5926666666666667, + "grad_norm": 3.0584664344787598, + "learning_rate": 1.102293226053004e-06, + "loss": 0.2671, + "step": 7778 + }, + { + "epoch": 2.593, + "grad_norm": 3.4287381172180176, + "learning_rate": 1.1005237131038725e-06, + "loss": 0.3424, + "step": 7779 + }, + { + "epoch": 2.5933333333333333, + "grad_norm": 2.716312885284424, + "learning_rate": 1.0987555388883042e-06, + "loss": 0.2791, + "step": 7780 + }, + { + "epoch": 2.5936666666666666, + "grad_norm": 3.1827785968780518, + "learning_rate": 1.0969887036722871e-06, + "loss": 0.2899, + "step": 7781 + }, + { + "epoch": 2.594, + "grad_norm": 3.027702569961548, + "learning_rate": 1.0952232077215985e-06, + "loss": 0.2831, + "step": 7782 + }, + { + "epoch": 2.594333333333333, + "grad_norm": 4.793591499328613, + "learning_rate": 1.0934590513018228e-06, + "loss": 0.3135, + "step": 7783 + }, + { + "epoch": 2.594666666666667, + "grad_norm": 3.400628089904785, + "learning_rate": 1.0916962346783389e-06, + "loss": 0.2651, + "step": 7784 + }, + { + "epoch": 2.5949999999999998, + "grad_norm": 3.698305130004883, + "learning_rate": 1.0899347581163222e-06, + "loss": 0.3059, + "step": 7785 + }, + { + "epoch": 2.5953333333333335, + "grad_norm": 2.8900864124298096, + "learning_rate": 1.08817462188075e-06, + "loss": 0.2588, + "step": 7786 + }, + { + "epoch": 2.595666666666667, + "grad_norm": 2.2967114448547363, + "learning_rate": 1.0864158262363956e-06, + "loss": 0.2734, + "step": 7787 + }, + { + "epoch": 2.596, + "grad_norm": 3.5335521697998047, + "learning_rate": 1.0846583714478355e-06, + "loss": 0.2809, + "step": 7788 + }, + { + "epoch": 2.5963333333333334, + "grad_norm": 2.574917793273926, + "learning_rate": 1.0829022577794379e-06, + "loss": 0.2968, + "step": 7789 + }, + { + "epoch": 2.5966666666666667, + "grad_norm": 2.518972158432007, + "learning_rate": 1.0811474854953708e-06, + "loss": 0.2833, + "step": 7790 + }, + { + "epoch": 2.597, + "grad_norm": 2.654956340789795, + "learning_rate": 1.0793940548596048e-06, + "loss": 0.2743, + "step": 7791 + }, + { + "epoch": 2.5973333333333333, + "grad_norm": 2.3561878204345703, + "learning_rate": 1.0776419661359016e-06, + "loss": 0.2885, + "step": 7792 + }, + { + "epoch": 2.5976666666666666, + "grad_norm": 2.772552490234375, + "learning_rate": 1.075891219587828e-06, + "loss": 0.314, + "step": 7793 + }, + { + "epoch": 2.598, + "grad_norm": 2.5789859294891357, + "learning_rate": 1.0741418154787443e-06, + "loss": 0.3134, + "step": 7794 + }, + { + "epoch": 2.5983333333333336, + "grad_norm": 2.8702950477600098, + "learning_rate": 1.0723937540718143e-06, + "loss": 0.2328, + "step": 7795 + }, + { + "epoch": 2.5986666666666665, + "grad_norm": 4.174161911010742, + "learning_rate": 1.0706470356299914e-06, + "loss": 0.2958, + "step": 7796 + }, + { + "epoch": 2.599, + "grad_norm": 2.4403676986694336, + "learning_rate": 1.0689016604160341e-06, + "loss": 0.3061, + "step": 7797 + }, + { + "epoch": 2.5993333333333335, + "grad_norm": 4.770160675048828, + "learning_rate": 1.0671576286924945e-06, + "loss": 0.283, + "step": 7798 + }, + { + "epoch": 2.599666666666667, + "grad_norm": 2.608494520187378, + "learning_rate": 1.0654149407217273e-06, + "loss": 0.2815, + "step": 7799 + }, + { + "epoch": 2.6, + "grad_norm": 3.4968106746673584, + "learning_rate": 1.0636735967658785e-06, + "loss": 0.3195, + "step": 7800 + }, + { + "epoch": 2.6003333333333334, + "grad_norm": 2.5876924991607666, + "learning_rate": 1.061933597086897e-06, + "loss": 0.3247, + "step": 7801 + }, + { + "epoch": 2.6006666666666667, + "grad_norm": 3.02807879447937, + "learning_rate": 1.0601949419465307e-06, + "loss": 0.3112, + "step": 7802 + }, + { + "epoch": 2.601, + "grad_norm": 2.689680576324463, + "learning_rate": 1.058457631606319e-06, + "loss": 0.2828, + "step": 7803 + }, + { + "epoch": 2.6013333333333333, + "grad_norm": 2.9111881256103516, + "learning_rate": 1.0567216663276036e-06, + "loss": 0.2756, + "step": 7804 + }, + { + "epoch": 2.6016666666666666, + "grad_norm": 2.6013739109039307, + "learning_rate": 1.054987046371523e-06, + "loss": 0.2956, + "step": 7805 + }, + { + "epoch": 2.602, + "grad_norm": 2.340409517288208, + "learning_rate": 1.0532537719990166e-06, + "loss": 0.2898, + "step": 7806 + }, + { + "epoch": 2.602333333333333, + "grad_norm": 2.7028701305389404, + "learning_rate": 1.051521843470814e-06, + "loss": 0.3024, + "step": 7807 + }, + { + "epoch": 2.602666666666667, + "grad_norm": 2.8223674297332764, + "learning_rate": 1.049791261047446e-06, + "loss": 0.2731, + "step": 7808 + }, + { + "epoch": 2.6029999999999998, + "grad_norm": 2.41530442237854, + "learning_rate": 1.0480620249892448e-06, + "loss": 0.2705, + "step": 7809 + }, + { + "epoch": 2.6033333333333335, + "grad_norm": 4.427567958831787, + "learning_rate": 1.0463341355563318e-06, + "loss": 0.3034, + "step": 7810 + }, + { + "epoch": 2.603666666666667, + "grad_norm": 2.5253710746765137, + "learning_rate": 1.044607593008634e-06, + "loss": 0.2799, + "step": 7811 + }, + { + "epoch": 2.604, + "grad_norm": 3.2370378971099854, + "learning_rate": 1.042882397605871e-06, + "loss": 0.2591, + "step": 7812 + }, + { + "epoch": 2.6043333333333334, + "grad_norm": 2.734379768371582, + "learning_rate": 1.0411585496075638e-06, + "loss": 0.302, + "step": 7813 + }, + { + "epoch": 2.6046666666666667, + "grad_norm": 3.1721575260162354, + "learning_rate": 1.0394360492730239e-06, + "loss": 0.2507, + "step": 7814 + }, + { + "epoch": 2.605, + "grad_norm": 3.3204994201660156, + "learning_rate": 1.0377148968613659e-06, + "loss": 0.2953, + "step": 7815 + }, + { + "epoch": 2.6053333333333333, + "grad_norm": 2.9465508460998535, + "learning_rate": 1.0359950926315021e-06, + "loss": 0.2906, + "step": 7816 + }, + { + "epoch": 2.6056666666666666, + "grad_norm": 2.787815570831299, + "learning_rate": 1.0342766368421375e-06, + "loss": 0.3065, + "step": 7817 + }, + { + "epoch": 2.606, + "grad_norm": 3.2645177841186523, + "learning_rate": 1.0325595297517753e-06, + "loss": 0.3054, + "step": 7818 + }, + { + "epoch": 2.606333333333333, + "grad_norm": 3.0643248558044434, + "learning_rate": 1.0308437716187192e-06, + "loss": 0.2943, + "step": 7819 + }, + { + "epoch": 2.6066666666666665, + "grad_norm": 4.48061990737915, + "learning_rate": 1.0291293627010678e-06, + "loss": 0.2799, + "step": 7820 + }, + { + "epoch": 2.607, + "grad_norm": 3.308910846710205, + "learning_rate": 1.0274163032567165e-06, + "loss": 0.3216, + "step": 7821 + }, + { + "epoch": 2.607333333333333, + "grad_norm": 2.9528825283050537, + "learning_rate": 1.0257045935433562e-06, + "loss": 0.3005, + "step": 7822 + }, + { + "epoch": 2.607666666666667, + "grad_norm": 2.520998001098633, + "learning_rate": 1.0239942338184816e-06, + "loss": 0.2905, + "step": 7823 + }, + { + "epoch": 2.608, + "grad_norm": 4.973930835723877, + "learning_rate": 1.0222852243393732e-06, + "loss": 0.3131, + "step": 7824 + }, + { + "epoch": 2.6083333333333334, + "grad_norm": 3.068180561065674, + "learning_rate": 1.0205775653631178e-06, + "loss": 0.2991, + "step": 7825 + }, + { + "epoch": 2.6086666666666667, + "grad_norm": 3.0730361938476562, + "learning_rate": 1.0188712571465963e-06, + "loss": 0.2996, + "step": 7826 + }, + { + "epoch": 2.609, + "grad_norm": 3.4949772357940674, + "learning_rate": 1.017166299946486e-06, + "loss": 0.3002, + "step": 7827 + }, + { + "epoch": 2.6093333333333333, + "grad_norm": 3.0253329277038574, + "learning_rate": 1.015462694019257e-06, + "loss": 0.2581, + "step": 7828 + }, + { + "epoch": 2.6096666666666666, + "grad_norm": 3.1421396732330322, + "learning_rate": 1.0137604396211819e-06, + "loss": 0.3056, + "step": 7829 + }, + { + "epoch": 2.61, + "grad_norm": 3.036174774169922, + "learning_rate": 1.012059537008332e-06, + "loss": 0.3151, + "step": 7830 + }, + { + "epoch": 2.610333333333333, + "grad_norm": 3.854926586151123, + "learning_rate": 1.0103599864365644e-06, + "loss": 0.2822, + "step": 7831 + }, + { + "epoch": 2.610666666666667, + "grad_norm": 3.0595664978027344, + "learning_rate": 1.0086617881615434e-06, + "loss": 0.2763, + "step": 7832 + }, + { + "epoch": 2.6109999999999998, + "grad_norm": 2.832935333251953, + "learning_rate": 1.0069649424387274e-06, + "loss": 0.3064, + "step": 7833 + }, + { + "epoch": 2.6113333333333335, + "grad_norm": 2.484344959259033, + "learning_rate": 1.0052694495233695e-06, + "loss": 0.2795, + "step": 7834 + }, + { + "epoch": 2.611666666666667, + "grad_norm": 2.604543924331665, + "learning_rate": 1.003575309670517e-06, + "loss": 0.2908, + "step": 7835 + }, + { + "epoch": 2.612, + "grad_norm": 2.2743754386901855, + "learning_rate": 1.0018825231350203e-06, + "loss": 0.3041, + "step": 7836 + }, + { + "epoch": 2.6123333333333334, + "grad_norm": 3.1418581008911133, + "learning_rate": 1.0001910901715217e-06, + "loss": 0.2858, + "step": 7837 + }, + { + "epoch": 2.6126666666666667, + "grad_norm": 2.9482204914093018, + "learning_rate": 9.985010110344573e-07, + "loss": 0.3003, + "step": 7838 + }, + { + "epoch": 2.613, + "grad_norm": 2.6574981212615967, + "learning_rate": 9.968122859780648e-07, + "loss": 0.2645, + "step": 7839 + }, + { + "epoch": 2.6133333333333333, + "grad_norm": 2.616323471069336, + "learning_rate": 9.95124915256378e-07, + "loss": 0.2864, + "step": 7840 + }, + { + "epoch": 2.6136666666666666, + "grad_norm": 2.5495452880859375, + "learning_rate": 9.934388991232258e-07, + "loss": 0.2673, + "step": 7841 + }, + { + "epoch": 2.614, + "grad_norm": 2.5334744453430176, + "learning_rate": 9.917542378322299e-07, + "loss": 0.3266, + "step": 7842 + }, + { + "epoch": 2.614333333333333, + "grad_norm": 3.3217546939849854, + "learning_rate": 9.900709316368118e-07, + "loss": 0.2829, + "step": 7843 + }, + { + "epoch": 2.6146666666666665, + "grad_norm": 3.2069077491760254, + "learning_rate": 9.883889807901915e-07, + "loss": 0.2937, + "step": 7844 + }, + { + "epoch": 2.615, + "grad_norm": 2.676090955734253, + "learning_rate": 9.867083855453775e-07, + "loss": 0.2677, + "step": 7845 + }, + { + "epoch": 2.615333333333333, + "grad_norm": 3.1839988231658936, + "learning_rate": 9.850291461551832e-07, + "loss": 0.301, + "step": 7846 + }, + { + "epoch": 2.615666666666667, + "grad_norm": 2.317126512527466, + "learning_rate": 9.833512628722108e-07, + "loss": 0.315, + "step": 7847 + }, + { + "epoch": 2.616, + "grad_norm": 3.296854257583618, + "learning_rate": 9.816747359488632e-07, + "loss": 0.2956, + "step": 7848 + }, + { + "epoch": 2.6163333333333334, + "grad_norm": 3.532747983932495, + "learning_rate": 9.799995656373361e-07, + "loss": 0.3161, + "step": 7849 + }, + { + "epoch": 2.6166666666666667, + "grad_norm": 3.3355531692504883, + "learning_rate": 9.783257521896228e-07, + "loss": 0.303, + "step": 7850 + }, + { + "epoch": 2.617, + "grad_norm": 3.5525100231170654, + "learning_rate": 9.766532958575158e-07, + "loss": 0.2868, + "step": 7851 + }, + { + "epoch": 2.6173333333333333, + "grad_norm": 2.3692522048950195, + "learning_rate": 9.749821968925944e-07, + "loss": 0.3058, + "step": 7852 + }, + { + "epoch": 2.6176666666666666, + "grad_norm": 2.6080069541931152, + "learning_rate": 9.733124555462425e-07, + "loss": 0.3085, + "step": 7853 + }, + { + "epoch": 2.618, + "grad_norm": 2.225297212600708, + "learning_rate": 9.716440720696375e-07, + "loss": 0.2835, + "step": 7854 + }, + { + "epoch": 2.618333333333333, + "grad_norm": 2.360689163208008, + "learning_rate": 9.699770467137504e-07, + "loss": 0.2393, + "step": 7855 + }, + { + "epoch": 2.618666666666667, + "grad_norm": 2.553684711456299, + "learning_rate": 9.683113797293464e-07, + "loss": 0.2684, + "step": 7856 + }, + { + "epoch": 2.6189999999999998, + "grad_norm": 3.229279041290283, + "learning_rate": 9.666470713669918e-07, + "loss": 0.2828, + "step": 7857 + }, + { + "epoch": 2.6193333333333335, + "grad_norm": 2.948660135269165, + "learning_rate": 9.649841218770484e-07, + "loss": 0.2909, + "step": 7858 + }, + { + "epoch": 2.619666666666667, + "grad_norm": 3.2256553173065186, + "learning_rate": 9.63322531509665e-07, + "loss": 0.3241, + "step": 7859 + }, + { + "epoch": 2.62, + "grad_norm": 3.0730321407318115, + "learning_rate": 9.616623005147952e-07, + "loss": 0.3304, + "step": 7860 + }, + { + "epoch": 2.6203333333333334, + "grad_norm": 2.571718692779541, + "learning_rate": 9.600034291421833e-07, + "loss": 0.2687, + "step": 7861 + }, + { + "epoch": 2.6206666666666667, + "grad_norm": 2.8324337005615234, + "learning_rate": 9.583459176413757e-07, + "loss": 0.3085, + "step": 7862 + }, + { + "epoch": 2.621, + "grad_norm": 3.4036104679107666, + "learning_rate": 9.566897662617014e-07, + "loss": 0.3127, + "step": 7863 + }, + { + "epoch": 2.6213333333333333, + "grad_norm": 2.669243812561035, + "learning_rate": 9.550349752522992e-07, + "loss": 0.2862, + "step": 7864 + }, + { + "epoch": 2.6216666666666666, + "grad_norm": 3.026312828063965, + "learning_rate": 9.533815448620943e-07, + "loss": 0.289, + "step": 7865 + }, + { + "epoch": 2.622, + "grad_norm": 2.9548237323760986, + "learning_rate": 9.517294753398066e-07, + "loss": 0.304, + "step": 7866 + }, + { + "epoch": 2.622333333333333, + "grad_norm": 2.8225045204162598, + "learning_rate": 9.500787669339562e-07, + "loss": 0.3219, + "step": 7867 + }, + { + "epoch": 2.6226666666666665, + "grad_norm": 2.7573540210723877, + "learning_rate": 9.484294198928568e-07, + "loss": 0.2539, + "step": 7868 + }, + { + "epoch": 2.623, + "grad_norm": 2.41284441947937, + "learning_rate": 9.467814344646187e-07, + "loss": 0.3038, + "step": 7869 + }, + { + "epoch": 2.623333333333333, + "grad_norm": 2.95981764793396, + "learning_rate": 9.451348108971425e-07, + "loss": 0.2847, + "step": 7870 + }, + { + "epoch": 2.623666666666667, + "grad_norm": 2.4731104373931885, + "learning_rate": 9.434895494381279e-07, + "loss": 0.2655, + "step": 7871 + }, + { + "epoch": 2.624, + "grad_norm": 2.8105416297912598, + "learning_rate": 9.418456503350714e-07, + "loss": 0.3011, + "step": 7872 + }, + { + "epoch": 2.6243333333333334, + "grad_norm": 2.4859094619750977, + "learning_rate": 9.402031138352585e-07, + "loss": 0.3003, + "step": 7873 + }, + { + "epoch": 2.6246666666666667, + "grad_norm": 3.221104145050049, + "learning_rate": 9.385619401857759e-07, + "loss": 0.2905, + "step": 7874 + }, + { + "epoch": 2.625, + "grad_norm": 3.114262104034424, + "learning_rate": 9.369221296335007e-07, + "loss": 0.2936, + "step": 7875 + }, + { + "epoch": 2.6253333333333333, + "grad_norm": 2.580780029296875, + "learning_rate": 9.352836824251089e-07, + "loss": 0.2843, + "step": 7876 + }, + { + "epoch": 2.6256666666666666, + "grad_norm": 2.987912178039551, + "learning_rate": 9.336465988070675e-07, + "loss": 0.31, + "step": 7877 + }, + { + "epoch": 2.626, + "grad_norm": 2.595102548599243, + "learning_rate": 9.320108790256399e-07, + "loss": 0.2815, + "step": 7878 + }, + { + "epoch": 2.626333333333333, + "grad_norm": 3.1431736946105957, + "learning_rate": 9.30376523326888e-07, + "loss": 0.271, + "step": 7879 + }, + { + "epoch": 2.626666666666667, + "grad_norm": 2.7394936084747314, + "learning_rate": 9.287435319566618e-07, + "loss": 0.2951, + "step": 7880 + }, + { + "epoch": 2.627, + "grad_norm": 3.191117763519287, + "learning_rate": 9.271119051606103e-07, + "loss": 0.2886, + "step": 7881 + }, + { + "epoch": 2.6273333333333335, + "grad_norm": 3.722203254699707, + "learning_rate": 9.254816431841773e-07, + "loss": 0.3051, + "step": 7882 + }, + { + "epoch": 2.627666666666667, + "grad_norm": 2.7562553882598877, + "learning_rate": 9.238527462726022e-07, + "loss": 0.3135, + "step": 7883 + }, + { + "epoch": 2.628, + "grad_norm": 2.5712130069732666, + "learning_rate": 9.222252146709143e-07, + "loss": 0.2977, + "step": 7884 + }, + { + "epoch": 2.6283333333333334, + "grad_norm": 3.3154232501983643, + "learning_rate": 9.205990486239402e-07, + "loss": 0.3205, + "step": 7885 + }, + { + "epoch": 2.6286666666666667, + "grad_norm": 3.963366746902466, + "learning_rate": 9.189742483763042e-07, + "loss": 0.2744, + "step": 7886 + }, + { + "epoch": 2.629, + "grad_norm": 2.840317487716675, + "learning_rate": 9.173508141724197e-07, + "loss": 0.3023, + "step": 7887 + }, + { + "epoch": 2.6293333333333333, + "grad_norm": 2.4493062496185303, + "learning_rate": 9.157287462564968e-07, + "loss": 0.2952, + "step": 7888 + }, + { + "epoch": 2.6296666666666666, + "grad_norm": 2.777540683746338, + "learning_rate": 9.141080448725425e-07, + "loss": 0.3301, + "step": 7889 + }, + { + "epoch": 2.63, + "grad_norm": 2.5694968700408936, + "learning_rate": 9.124887102643576e-07, + "loss": 0.2758, + "step": 7890 + }, + { + "epoch": 2.630333333333333, + "grad_norm": 3.5670413970947266, + "learning_rate": 9.108707426755326e-07, + "loss": 0.2857, + "step": 7891 + }, + { + "epoch": 2.6306666666666665, + "grad_norm": 3.0002386569976807, + "learning_rate": 9.092541423494583e-07, + "loss": 0.3043, + "step": 7892 + }, + { + "epoch": 2.6310000000000002, + "grad_norm": 2.723546266555786, + "learning_rate": 9.076389095293148e-07, + "loss": 0.284, + "step": 7893 + }, + { + "epoch": 2.631333333333333, + "grad_norm": 5.921991348266602, + "learning_rate": 9.060250444580821e-07, + "loss": 0.2979, + "step": 7894 + }, + { + "epoch": 2.631666666666667, + "grad_norm": 2.700873613357544, + "learning_rate": 9.04412547378527e-07, + "loss": 0.2628, + "step": 7895 + }, + { + "epoch": 2.632, + "grad_norm": 3.2424778938293457, + "learning_rate": 9.028014185332168e-07, + "loss": 0.293, + "step": 7896 + }, + { + "epoch": 2.6323333333333334, + "grad_norm": 3.307832717895508, + "learning_rate": 9.01191658164513e-07, + "loss": 0.3118, + "step": 7897 + }, + { + "epoch": 2.6326666666666667, + "grad_norm": 2.7368922233581543, + "learning_rate": 8.995832665145665e-07, + "loss": 0.2578, + "step": 7898 + }, + { + "epoch": 2.633, + "grad_norm": 2.2548229694366455, + "learning_rate": 8.979762438253259e-07, + "loss": 0.2774, + "step": 7899 + }, + { + "epoch": 2.6333333333333333, + "grad_norm": 2.9348855018615723, + "learning_rate": 8.963705903385344e-07, + "loss": 0.2923, + "step": 7900 + }, + { + "epoch": 2.6336666666666666, + "grad_norm": 2.936077833175659, + "learning_rate": 8.947663062957246e-07, + "loss": 0.2906, + "step": 7901 + }, + { + "epoch": 2.634, + "grad_norm": 2.877096176147461, + "learning_rate": 8.931633919382299e-07, + "loss": 0.2927, + "step": 7902 + }, + { + "epoch": 2.634333333333333, + "grad_norm": 3.2230167388916016, + "learning_rate": 8.915618475071708e-07, + "loss": 0.2948, + "step": 7903 + }, + { + "epoch": 2.634666666666667, + "grad_norm": 2.2057318687438965, + "learning_rate": 8.899616732434679e-07, + "loss": 0.3092, + "step": 7904 + }, + { + "epoch": 2.635, + "grad_norm": 2.920811176300049, + "learning_rate": 8.883628693878299e-07, + "loss": 0.3183, + "step": 7905 + }, + { + "epoch": 2.6353333333333335, + "grad_norm": 3.192018747329712, + "learning_rate": 8.867654361807642e-07, + "loss": 0.2829, + "step": 7906 + }, + { + "epoch": 2.635666666666667, + "grad_norm": 3.2456676959991455, + "learning_rate": 8.851693738625711e-07, + "loss": 0.2772, + "step": 7907 + }, + { + "epoch": 2.636, + "grad_norm": 2.7324488162994385, + "learning_rate": 8.835746826733404e-07, + "loss": 0.2875, + "step": 7908 + }, + { + "epoch": 2.6363333333333334, + "grad_norm": 2.557786703109741, + "learning_rate": 8.819813628529605e-07, + "loss": 0.3118, + "step": 7909 + }, + { + "epoch": 2.6366666666666667, + "grad_norm": 2.692068576812744, + "learning_rate": 8.803894146411118e-07, + "loss": 0.3253, + "step": 7910 + }, + { + "epoch": 2.637, + "grad_norm": 2.2659225463867188, + "learning_rate": 8.787988382772705e-07, + "loss": 0.2761, + "step": 7911 + }, + { + "epoch": 2.6373333333333333, + "grad_norm": 2.4685802459716797, + "learning_rate": 8.772096340007019e-07, + "loss": 0.2899, + "step": 7912 + }, + { + "epoch": 2.6376666666666666, + "grad_norm": 2.1791133880615234, + "learning_rate": 8.75621802050467e-07, + "loss": 0.2924, + "step": 7913 + }, + { + "epoch": 2.638, + "grad_norm": 3.1243226528167725, + "learning_rate": 8.740353426654236e-07, + "loss": 0.2951, + "step": 7914 + }, + { + "epoch": 2.638333333333333, + "grad_norm": 3.3426427841186523, + "learning_rate": 8.724502560842152e-07, + "loss": 0.2857, + "step": 7915 + }, + { + "epoch": 2.6386666666666665, + "grad_norm": 3.2895541191101074, + "learning_rate": 8.708665425452878e-07, + "loss": 0.3236, + "step": 7916 + }, + { + "epoch": 2.6390000000000002, + "grad_norm": 3.7899842262268066, + "learning_rate": 8.692842022868764e-07, + "loss": 0.2679, + "step": 7917 + }, + { + "epoch": 2.639333333333333, + "grad_norm": 2.4008235931396484, + "learning_rate": 8.677032355470105e-07, + "loss": 0.271, + "step": 7918 + }, + { + "epoch": 2.639666666666667, + "grad_norm": 2.552074909210205, + "learning_rate": 8.661236425635088e-07, + "loss": 0.3023, + "step": 7919 + }, + { + "epoch": 2.64, + "grad_norm": 2.6755754947662354, + "learning_rate": 8.645454235739903e-07, + "loss": 0.2762, + "step": 7920 + }, + { + "epoch": 2.6403333333333334, + "grad_norm": 2.577805519104004, + "learning_rate": 8.629685788158637e-07, + "loss": 0.277, + "step": 7921 + }, + { + "epoch": 2.6406666666666667, + "grad_norm": 2.265946388244629, + "learning_rate": 8.613931085263317e-07, + "loss": 0.2759, + "step": 7922 + }, + { + "epoch": 2.641, + "grad_norm": 3.6004958152770996, + "learning_rate": 8.598190129423844e-07, + "loss": 0.3068, + "step": 7923 + }, + { + "epoch": 2.6413333333333333, + "grad_norm": 3.5666022300720215, + "learning_rate": 8.582462923008161e-07, + "loss": 0.2895, + "step": 7924 + }, + { + "epoch": 2.6416666666666666, + "grad_norm": 3.5685782432556152, + "learning_rate": 8.566749468382074e-07, + "loss": 0.2679, + "step": 7925 + }, + { + "epoch": 2.642, + "grad_norm": 2.965179443359375, + "learning_rate": 8.551049767909314e-07, + "loss": 0.2851, + "step": 7926 + }, + { + "epoch": 2.642333333333333, + "grad_norm": 3.427018404006958, + "learning_rate": 8.53536382395157e-07, + "loss": 0.3197, + "step": 7927 + }, + { + "epoch": 2.642666666666667, + "grad_norm": 3.5267698764801025, + "learning_rate": 8.519691638868466e-07, + "loss": 0.2926, + "step": 7928 + }, + { + "epoch": 2.643, + "grad_norm": 2.3407108783721924, + "learning_rate": 8.504033215017527e-07, + "loss": 0.2769, + "step": 7929 + }, + { + "epoch": 2.6433333333333335, + "grad_norm": 2.750122308731079, + "learning_rate": 8.488388554754223e-07, + "loss": 0.2808, + "step": 7930 + }, + { + "epoch": 2.643666666666667, + "grad_norm": 3.4185566902160645, + "learning_rate": 8.472757660431974e-07, + "loss": 0.2939, + "step": 7931 + }, + { + "epoch": 2.644, + "grad_norm": 3.0794312953948975, + "learning_rate": 8.457140534402098e-07, + "loss": 0.3174, + "step": 7932 + }, + { + "epoch": 2.6443333333333334, + "grad_norm": 2.9342403411865234, + "learning_rate": 8.441537179013848e-07, + "loss": 0.2713, + "step": 7933 + }, + { + "epoch": 2.6446666666666667, + "grad_norm": 3.4946937561035156, + "learning_rate": 8.425947596614403e-07, + "loss": 0.3062, + "step": 7934 + }, + { + "epoch": 2.645, + "grad_norm": 3.0123140811920166, + "learning_rate": 8.41037178954891e-07, + "loss": 0.3056, + "step": 7935 + }, + { + "epoch": 2.6453333333333333, + "grad_norm": 2.5406010150909424, + "learning_rate": 8.394809760160372e-07, + "loss": 0.3033, + "step": 7936 + }, + { + "epoch": 2.6456666666666666, + "grad_norm": 2.287569999694824, + "learning_rate": 8.379261510789783e-07, + "loss": 0.2837, + "step": 7937 + }, + { + "epoch": 2.646, + "grad_norm": 4.246318340301514, + "learning_rate": 8.363727043776037e-07, + "loss": 0.2898, + "step": 7938 + }, + { + "epoch": 2.646333333333333, + "grad_norm": 2.511523485183716, + "learning_rate": 8.348206361455968e-07, + "loss": 0.2965, + "step": 7939 + }, + { + "epoch": 2.6466666666666665, + "grad_norm": 2.8277230262756348, + "learning_rate": 8.332699466164307e-07, + "loss": 0.3024, + "step": 7940 + }, + { + "epoch": 2.6470000000000002, + "grad_norm": 2.9182465076446533, + "learning_rate": 8.317206360233765e-07, + "loss": 0.2693, + "step": 7941 + }, + { + "epoch": 2.647333333333333, + "grad_norm": 3.194309711456299, + "learning_rate": 8.301727045994912e-07, + "loss": 0.3199, + "step": 7942 + }, + { + "epoch": 2.647666666666667, + "grad_norm": 2.953249931335449, + "learning_rate": 8.286261525776273e-07, + "loss": 0.3153, + "step": 7943 + }, + { + "epoch": 2.648, + "grad_norm": 3.1743757724761963, + "learning_rate": 8.270809801904301e-07, + "loss": 0.2941, + "step": 7944 + }, + { + "epoch": 2.6483333333333334, + "grad_norm": 2.6455655097961426, + "learning_rate": 8.255371876703389e-07, + "loss": 0.3237, + "step": 7945 + }, + { + "epoch": 2.6486666666666667, + "grad_norm": 2.4867265224456787, + "learning_rate": 8.239947752495858e-07, + "loss": 0.3009, + "step": 7946 + }, + { + "epoch": 2.649, + "grad_norm": 2.252866506576538, + "learning_rate": 8.224537431601886e-07, + "loss": 0.2588, + "step": 7947 + }, + { + "epoch": 2.6493333333333333, + "grad_norm": 2.616615056991577, + "learning_rate": 8.209140916339653e-07, + "loss": 0.2886, + "step": 7948 + }, + { + "epoch": 2.6496666666666666, + "grad_norm": 2.1526601314544678, + "learning_rate": 8.193758209025226e-07, + "loss": 0.2862, + "step": 7949 + }, + { + "epoch": 2.65, + "grad_norm": 2.5619492530822754, + "learning_rate": 8.178389311972612e-07, + "loss": 0.2832, + "step": 7950 + }, + { + "epoch": 2.650333333333333, + "grad_norm": 2.413572311401367, + "learning_rate": 8.163034227493694e-07, + "loss": 0.3016, + "step": 7951 + }, + { + "epoch": 2.6506666666666665, + "grad_norm": 2.5092456340789795, + "learning_rate": 8.147692957898335e-07, + "loss": 0.2775, + "step": 7952 + }, + { + "epoch": 2.651, + "grad_norm": 2.5366051197052, + "learning_rate": 8.13236550549431e-07, + "loss": 0.3086, + "step": 7953 + }, + { + "epoch": 2.6513333333333335, + "grad_norm": 2.2332611083984375, + "learning_rate": 8.117051872587279e-07, + "loss": 0.2627, + "step": 7954 + }, + { + "epoch": 2.6516666666666664, + "grad_norm": 2.438918352127075, + "learning_rate": 8.10175206148085e-07, + "loss": 0.3268, + "step": 7955 + }, + { + "epoch": 2.652, + "grad_norm": 3.1947667598724365, + "learning_rate": 8.086466074476562e-07, + "loss": 0.2924, + "step": 7956 + }, + { + "epoch": 2.6523333333333334, + "grad_norm": 3.056612730026245, + "learning_rate": 8.071193913873853e-07, + "loss": 0.2949, + "step": 7957 + }, + { + "epoch": 2.6526666666666667, + "grad_norm": 2.744744300842285, + "learning_rate": 8.055935581970076e-07, + "loss": 0.2672, + "step": 7958 + }, + { + "epoch": 2.653, + "grad_norm": 2.121406316757202, + "learning_rate": 8.040691081060548e-07, + "loss": 0.3056, + "step": 7959 + }, + { + "epoch": 2.6533333333333333, + "grad_norm": 4.319448471069336, + "learning_rate": 8.025460413438457e-07, + "loss": 0.2966, + "step": 7960 + }, + { + "epoch": 2.6536666666666666, + "grad_norm": 2.4616808891296387, + "learning_rate": 8.010243581394905e-07, + "loss": 0.2616, + "step": 7961 + }, + { + "epoch": 2.654, + "grad_norm": 2.4888741970062256, + "learning_rate": 7.99504058721896e-07, + "loss": 0.2994, + "step": 7962 + }, + { + "epoch": 2.654333333333333, + "grad_norm": 2.7245829105377197, + "learning_rate": 7.979851433197605e-07, + "loss": 0.3076, + "step": 7963 + }, + { + "epoch": 2.6546666666666665, + "grad_norm": 2.597423791885376, + "learning_rate": 7.964676121615666e-07, + "loss": 0.3254, + "step": 7964 + }, + { + "epoch": 2.6550000000000002, + "grad_norm": 2.526106119155884, + "learning_rate": 7.949514654755963e-07, + "loss": 0.2917, + "step": 7965 + }, + { + "epoch": 2.655333333333333, + "grad_norm": 2.7606849670410156, + "learning_rate": 7.934367034899226e-07, + "loss": 0.3011, + "step": 7966 + }, + { + "epoch": 2.655666666666667, + "grad_norm": 2.8581933975219727, + "learning_rate": 7.919233264324088e-07, + "loss": 0.263, + "step": 7967 + }, + { + "epoch": 2.656, + "grad_norm": 2.8971405029296875, + "learning_rate": 7.904113345307073e-07, + "loss": 0.288, + "step": 7968 + }, + { + "epoch": 2.6563333333333334, + "grad_norm": 3.2502756118774414, + "learning_rate": 7.889007280122673e-07, + "loss": 0.2939, + "step": 7969 + }, + { + "epoch": 2.6566666666666667, + "grad_norm": 2.024228572845459, + "learning_rate": 7.873915071043248e-07, + "loss": 0.2949, + "step": 7970 + }, + { + "epoch": 2.657, + "grad_norm": 2.725252389907837, + "learning_rate": 7.85883672033908e-07, + "loss": 0.2636, + "step": 7971 + }, + { + "epoch": 2.6573333333333333, + "grad_norm": 2.3168373107910156, + "learning_rate": 7.843772230278413e-07, + "loss": 0.2798, + "step": 7972 + }, + { + "epoch": 2.6576666666666666, + "grad_norm": 2.393939971923828, + "learning_rate": 7.828721603127343e-07, + "loss": 0.3048, + "step": 7973 + }, + { + "epoch": 2.658, + "grad_norm": 2.6163830757141113, + "learning_rate": 7.81368484114996e-07, + "loss": 0.2733, + "step": 7974 + }, + { + "epoch": 2.658333333333333, + "grad_norm": 2.5375897884368896, + "learning_rate": 7.798661946608166e-07, + "loss": 0.2874, + "step": 7975 + }, + { + "epoch": 2.6586666666666665, + "grad_norm": 3.0902819633483887, + "learning_rate": 7.783652921761841e-07, + "loss": 0.2978, + "step": 7976 + }, + { + "epoch": 2.659, + "grad_norm": 2.570409059524536, + "learning_rate": 7.768657768868803e-07, + "loss": 0.3007, + "step": 7977 + }, + { + "epoch": 2.6593333333333335, + "grad_norm": 2.643612861633301, + "learning_rate": 7.753676490184714e-07, + "loss": 0.2791, + "step": 7978 + }, + { + "epoch": 2.6596666666666664, + "grad_norm": 2.940955877304077, + "learning_rate": 7.738709087963203e-07, + "loss": 0.3154, + "step": 7979 + }, + { + "epoch": 2.66, + "grad_norm": 2.7141470909118652, + "learning_rate": 7.723755564455771e-07, + "loss": 0.2754, + "step": 7980 + }, + { + "epoch": 2.6603333333333334, + "grad_norm": 2.5051958560943604, + "learning_rate": 7.708815921911872e-07, + "loss": 0.2729, + "step": 7981 + }, + { + "epoch": 2.6606666666666667, + "grad_norm": 2.3151209354400635, + "learning_rate": 7.693890162578832e-07, + "loss": 0.2686, + "step": 7982 + }, + { + "epoch": 2.661, + "grad_norm": 2.7592618465423584, + "learning_rate": 7.678978288701911e-07, + "loss": 0.3136, + "step": 7983 + }, + { + "epoch": 2.6613333333333333, + "grad_norm": 2.542621612548828, + "learning_rate": 7.664080302524301e-07, + "loss": 0.2467, + "step": 7984 + }, + { + "epoch": 2.6616666666666666, + "grad_norm": 2.938387870788574, + "learning_rate": 7.649196206287058e-07, + "loss": 0.2868, + "step": 7985 + }, + { + "epoch": 2.662, + "grad_norm": 2.5220892429351807, + "learning_rate": 7.634326002229175e-07, + "loss": 0.2733, + "step": 7986 + }, + { + "epoch": 2.662333333333333, + "grad_norm": 3.2958967685699463, + "learning_rate": 7.619469692587577e-07, + "loss": 0.3448, + "step": 7987 + }, + { + "epoch": 2.6626666666666665, + "grad_norm": 2.4169232845306396, + "learning_rate": 7.604627279597032e-07, + "loss": 0.2915, + "step": 7988 + }, + { + "epoch": 2.6630000000000003, + "grad_norm": 2.9934334754943848, + "learning_rate": 7.589798765490308e-07, + "loss": 0.3203, + "step": 7989 + }, + { + "epoch": 2.663333333333333, + "grad_norm": 2.4257428646087646, + "learning_rate": 7.574984152497988e-07, + "loss": 0.2681, + "step": 7990 + }, + { + "epoch": 2.663666666666667, + "grad_norm": 2.459242105484009, + "learning_rate": 7.560183442848624e-07, + "loss": 0.2938, + "step": 7991 + }, + { + "epoch": 2.664, + "grad_norm": 3.1551530361175537, + "learning_rate": 7.545396638768698e-07, + "loss": 0.2845, + "step": 7992 + }, + { + "epoch": 2.6643333333333334, + "grad_norm": 2.920494794845581, + "learning_rate": 7.530623742482512e-07, + "loss": 0.3235, + "step": 7993 + }, + { + "epoch": 2.6646666666666667, + "grad_norm": 2.9259328842163086, + "learning_rate": 7.515864756212343e-07, + "loss": 0.3341, + "step": 7994 + }, + { + "epoch": 2.665, + "grad_norm": 3.5271739959716797, + "learning_rate": 7.501119682178392e-07, + "loss": 0.2963, + "step": 7995 + }, + { + "epoch": 2.6653333333333333, + "grad_norm": 3.022096633911133, + "learning_rate": 7.486388522598697e-07, + "loss": 0.2748, + "step": 7996 + }, + { + "epoch": 2.6656666666666666, + "grad_norm": 3.5370736122131348, + "learning_rate": 7.471671279689285e-07, + "loss": 0.2969, + "step": 7997 + }, + { + "epoch": 2.666, + "grad_norm": 3.2972331047058105, + "learning_rate": 7.456967955663996e-07, + "loss": 0.289, + "step": 7998 + }, + { + "epoch": 2.666333333333333, + "grad_norm": 2.9641451835632324, + "learning_rate": 7.442278552734661e-07, + "loss": 0.2965, + "step": 7999 + }, + { + "epoch": 2.6666666666666665, + "grad_norm": 2.317978620529175, + "learning_rate": 7.427603073110967e-07, + "loss": 0.2736, + "step": 8000 + }, + { + "epoch": 2.667, + "grad_norm": 2.7062456607818604, + "learning_rate": 7.412941519000527e-07, + "loss": 0.2914, + "step": 8001 + }, + { + "epoch": 2.6673333333333336, + "grad_norm": 2.495617628097534, + "learning_rate": 7.398293892608866e-07, + "loss": 0.2808, + "step": 8002 + }, + { + "epoch": 2.6676666666666664, + "grad_norm": 2.6176416873931885, + "learning_rate": 7.383660196139387e-07, + "loss": 0.2651, + "step": 8003 + }, + { + "epoch": 2.668, + "grad_norm": 3.0973801612854004, + "learning_rate": 7.369040431793406e-07, + "loss": 0.3048, + "step": 8004 + }, + { + "epoch": 2.6683333333333334, + "grad_norm": 2.3867318630218506, + "learning_rate": 7.354434601770166e-07, + "loss": 0.2922, + "step": 8005 + }, + { + "epoch": 2.6686666666666667, + "grad_norm": 2.6488444805145264, + "learning_rate": 7.339842708266809e-07, + "loss": 0.2786, + "step": 8006 + }, + { + "epoch": 2.669, + "grad_norm": 3.2505340576171875, + "learning_rate": 7.325264753478356e-07, + "loss": 0.2799, + "step": 8007 + }, + { + "epoch": 2.6693333333333333, + "grad_norm": 3.169722080230713, + "learning_rate": 7.31070073959772e-07, + "loss": 0.2837, + "step": 8008 + }, + { + "epoch": 2.6696666666666666, + "grad_norm": 2.599670886993408, + "learning_rate": 7.296150668815794e-07, + "loss": 0.3097, + "step": 8009 + }, + { + "epoch": 2.67, + "grad_norm": 2.515232563018799, + "learning_rate": 7.281614543321269e-07, + "loss": 0.2619, + "step": 8010 + }, + { + "epoch": 2.6703333333333332, + "grad_norm": 2.8797667026519775, + "learning_rate": 7.26709236530081e-07, + "loss": 0.2696, + "step": 8011 + }, + { + "epoch": 2.6706666666666665, + "grad_norm": 3.1497790813446045, + "learning_rate": 7.252584136938978e-07, + "loss": 0.2969, + "step": 8012 + }, + { + "epoch": 2.6710000000000003, + "grad_norm": 3.278698682785034, + "learning_rate": 7.238089860418218e-07, + "loss": 0.2947, + "step": 8013 + }, + { + "epoch": 2.671333333333333, + "grad_norm": 2.6279778480529785, + "learning_rate": 7.223609537918863e-07, + "loss": 0.2868, + "step": 8014 + }, + { + "epoch": 2.671666666666667, + "grad_norm": 2.8256893157958984, + "learning_rate": 7.20914317161917e-07, + "loss": 0.285, + "step": 8015 + }, + { + "epoch": 2.672, + "grad_norm": 3.08843994140625, + "learning_rate": 7.194690763695312e-07, + "loss": 0.2728, + "step": 8016 + }, + { + "epoch": 2.6723333333333334, + "grad_norm": 2.4702117443084717, + "learning_rate": 7.180252316321335e-07, + "loss": 0.2861, + "step": 8017 + }, + { + "epoch": 2.6726666666666667, + "grad_norm": 2.7128124237060547, + "learning_rate": 7.165827831669148e-07, + "loss": 0.2645, + "step": 8018 + }, + { + "epoch": 2.673, + "grad_norm": 3.0651330947875977, + "learning_rate": 7.151417311908648e-07, + "loss": 0.3053, + "step": 8019 + }, + { + "epoch": 2.6733333333333333, + "grad_norm": 3.1061673164367676, + "learning_rate": 7.13702075920758e-07, + "loss": 0.3201, + "step": 8020 + }, + { + "epoch": 2.6736666666666666, + "grad_norm": 3.099729537963867, + "learning_rate": 7.122638175731577e-07, + "loss": 0.3047, + "step": 8021 + }, + { + "epoch": 2.674, + "grad_norm": 3.47462797164917, + "learning_rate": 7.108269563644188e-07, + "loss": 0.2849, + "step": 8022 + }, + { + "epoch": 2.6743333333333332, + "grad_norm": 2.9895131587982178, + "learning_rate": 7.093914925106893e-07, + "loss": 0.3051, + "step": 8023 + }, + { + "epoch": 2.6746666666666665, + "grad_norm": 2.467071056365967, + "learning_rate": 7.079574262278987e-07, + "loss": 0.2932, + "step": 8024 + }, + { + "epoch": 2.675, + "grad_norm": 2.6194217205047607, + "learning_rate": 7.065247577317747e-07, + "loss": 0.3038, + "step": 8025 + }, + { + "epoch": 2.6753333333333336, + "grad_norm": 3.088073968887329, + "learning_rate": 7.050934872378312e-07, + "loss": 0.2899, + "step": 8026 + }, + { + "epoch": 2.6756666666666664, + "grad_norm": 3.023054599761963, + "learning_rate": 7.036636149613718e-07, + "loss": 0.2737, + "step": 8027 + }, + { + "epoch": 2.676, + "grad_norm": 2.6340932846069336, + "learning_rate": 7.022351411174866e-07, + "loss": 0.283, + "step": 8028 + }, + { + "epoch": 2.6763333333333335, + "grad_norm": 3.808915615081787, + "learning_rate": 7.008080659210615e-07, + "loss": 0.2849, + "step": 8029 + }, + { + "epoch": 2.6766666666666667, + "grad_norm": 2.756784439086914, + "learning_rate": 6.99382389586769e-07, + "loss": 0.309, + "step": 8030 + }, + { + "epoch": 2.677, + "grad_norm": 2.975337266921997, + "learning_rate": 6.979581123290702e-07, + "loss": 0.304, + "step": 8031 + }, + { + "epoch": 2.6773333333333333, + "grad_norm": 2.619255781173706, + "learning_rate": 6.965352343622178e-07, + "loss": 0.279, + "step": 8032 + }, + { + "epoch": 2.6776666666666666, + "grad_norm": 3.88834810256958, + "learning_rate": 6.951137559002519e-07, + "loss": 0.3279, + "step": 8033 + }, + { + "epoch": 2.678, + "grad_norm": 2.7895596027374268, + "learning_rate": 6.936936771570046e-07, + "loss": 0.3311, + "step": 8034 + }, + { + "epoch": 2.6783333333333332, + "grad_norm": 3.0124709606170654, + "learning_rate": 6.922749983460964e-07, + "loss": 0.3149, + "step": 8035 + }, + { + "epoch": 2.6786666666666665, + "grad_norm": 2.3664257526397705, + "learning_rate": 6.908577196809341e-07, + "loss": 0.2948, + "step": 8036 + }, + { + "epoch": 2.6790000000000003, + "grad_norm": 4.95714807510376, + "learning_rate": 6.894418413747183e-07, + "loss": 0.2826, + "step": 8037 + }, + { + "epoch": 2.679333333333333, + "grad_norm": 3.0150389671325684, + "learning_rate": 6.880273636404366e-07, + "loss": 0.3186, + "step": 8038 + }, + { + "epoch": 2.679666666666667, + "grad_norm": 3.2520055770874023, + "learning_rate": 6.866142866908665e-07, + "loss": 0.2834, + "step": 8039 + }, + { + "epoch": 2.68, + "grad_norm": 2.7727625370025635, + "learning_rate": 6.852026107385756e-07, + "loss": 0.2836, + "step": 8040 + }, + { + "epoch": 2.6803333333333335, + "grad_norm": 2.7034528255462646, + "learning_rate": 6.83792335995922e-07, + "loss": 0.3181, + "step": 8041 + }, + { + "epoch": 2.6806666666666668, + "grad_norm": 2.4652047157287598, + "learning_rate": 6.82383462675047e-07, + "loss": 0.322, + "step": 8042 + }, + { + "epoch": 2.681, + "grad_norm": 3.7572343349456787, + "learning_rate": 6.809759909878855e-07, + "loss": 0.2881, + "step": 8043 + }, + { + "epoch": 2.6813333333333333, + "grad_norm": 5.312226295471191, + "learning_rate": 6.79569921146166e-07, + "loss": 0.311, + "step": 8044 + }, + { + "epoch": 2.6816666666666666, + "grad_norm": 2.4860072135925293, + "learning_rate": 6.78165253361397e-07, + "loss": 0.2713, + "step": 8045 + }, + { + "epoch": 2.682, + "grad_norm": 2.6886072158813477, + "learning_rate": 6.767619878448783e-07, + "loss": 0.2758, + "step": 8046 + }, + { + "epoch": 2.6823333333333332, + "grad_norm": 3.1110990047454834, + "learning_rate": 6.753601248077046e-07, + "loss": 0.2404, + "step": 8047 + }, + { + "epoch": 2.6826666666666665, + "grad_norm": 2.936660051345825, + "learning_rate": 6.739596644607572e-07, + "loss": 0.3107, + "step": 8048 + }, + { + "epoch": 2.683, + "grad_norm": 3.3197672367095947, + "learning_rate": 6.725606070147006e-07, + "loss": 0.2945, + "step": 8049 + }, + { + "epoch": 2.6833333333333336, + "grad_norm": 2.931934118270874, + "learning_rate": 6.711629526799946e-07, + "loss": 0.3049, + "step": 8050 + }, + { + "epoch": 2.6836666666666664, + "grad_norm": 2.4981026649475098, + "learning_rate": 6.697667016668885e-07, + "loss": 0.2937, + "step": 8051 + }, + { + "epoch": 2.684, + "grad_norm": 2.3756513595581055, + "learning_rate": 6.683718541854134e-07, + "loss": 0.2637, + "step": 8052 + }, + { + "epoch": 2.6843333333333335, + "grad_norm": 2.757161855697632, + "learning_rate": 6.669784104453969e-07, + "loss": 0.3399, + "step": 8053 + }, + { + "epoch": 2.6846666666666668, + "grad_norm": 5.9362969398498535, + "learning_rate": 6.655863706564536e-07, + "loss": 0.2643, + "step": 8054 + }, + { + "epoch": 2.685, + "grad_norm": 2.3124589920043945, + "learning_rate": 6.641957350279838e-07, + "loss": 0.2709, + "step": 8055 + }, + { + "epoch": 2.6853333333333333, + "grad_norm": 2.5949532985687256, + "learning_rate": 6.628065037691778e-07, + "loss": 0.2851, + "step": 8056 + }, + { + "epoch": 2.6856666666666666, + "grad_norm": 2.718888759613037, + "learning_rate": 6.614186770890152e-07, + "loss": 0.2992, + "step": 8057 + }, + { + "epoch": 2.686, + "grad_norm": 2.473707914352417, + "learning_rate": 6.60032255196268e-07, + "loss": 0.2609, + "step": 8058 + }, + { + "epoch": 2.6863333333333332, + "grad_norm": 2.621225595474243, + "learning_rate": 6.586472382994891e-07, + "loss": 0.3122, + "step": 8059 + }, + { + "epoch": 2.6866666666666665, + "grad_norm": 2.5799474716186523, + "learning_rate": 6.572636266070265e-07, + "loss": 0.292, + "step": 8060 + }, + { + "epoch": 2.6870000000000003, + "grad_norm": 2.68801212310791, + "learning_rate": 6.558814203270147e-07, + "loss": 0.235, + "step": 8061 + }, + { + "epoch": 2.687333333333333, + "grad_norm": 2.8810768127441406, + "learning_rate": 6.545006196673775e-07, + "loss": 0.3125, + "step": 8062 + }, + { + "epoch": 2.687666666666667, + "grad_norm": 2.6494827270507812, + "learning_rate": 6.531212248358232e-07, + "loss": 0.2891, + "step": 8063 + }, + { + "epoch": 2.6879999999999997, + "grad_norm": 2.3927714824676514, + "learning_rate": 6.517432360398556e-07, + "loss": 0.271, + "step": 8064 + }, + { + "epoch": 2.6883333333333335, + "grad_norm": 3.1112377643585205, + "learning_rate": 6.503666534867625e-07, + "loss": 0.2953, + "step": 8065 + }, + { + "epoch": 2.6886666666666668, + "grad_norm": 2.439601182937622, + "learning_rate": 6.489914773836181e-07, + "loss": 0.2831, + "step": 8066 + }, + { + "epoch": 2.689, + "grad_norm": 2.703061819076538, + "learning_rate": 6.476177079372903e-07, + "loss": 0.3377, + "step": 8067 + }, + { + "epoch": 2.6893333333333334, + "grad_norm": 2.5866384506225586, + "learning_rate": 6.462453453544326e-07, + "loss": 0.2702, + "step": 8068 + }, + { + "epoch": 2.6896666666666667, + "grad_norm": 4.04400110244751, + "learning_rate": 6.448743898414889e-07, + "loss": 0.3131, + "step": 8069 + }, + { + "epoch": 2.69, + "grad_norm": 2.171093702316284, + "learning_rate": 6.435048416046863e-07, + "loss": 0.2883, + "step": 8070 + }, + { + "epoch": 2.6903333333333332, + "grad_norm": 2.386676073074341, + "learning_rate": 6.421367008500446e-07, + "loss": 0.255, + "step": 8071 + }, + { + "epoch": 2.6906666666666665, + "grad_norm": 2.8065197467803955, + "learning_rate": 6.407699677833745e-07, + "loss": 0.2624, + "step": 8072 + }, + { + "epoch": 2.691, + "grad_norm": 2.704284191131592, + "learning_rate": 6.394046426102673e-07, + "loss": 0.2654, + "step": 8073 + }, + { + "epoch": 2.6913333333333336, + "grad_norm": 2.3286499977111816, + "learning_rate": 6.380407255361087e-07, + "loss": 0.2867, + "step": 8074 + }, + { + "epoch": 2.6916666666666664, + "grad_norm": 2.743469715118408, + "learning_rate": 6.36678216766069e-07, + "loss": 0.3014, + "step": 8075 + }, + { + "epoch": 2.692, + "grad_norm": 3.2456037998199463, + "learning_rate": 6.353171165051109e-07, + "loss": 0.2643, + "step": 8076 + }, + { + "epoch": 2.6923333333333335, + "grad_norm": 2.4170992374420166, + "learning_rate": 6.339574249579794e-07, + "loss": 0.2659, + "step": 8077 + }, + { + "epoch": 2.6926666666666668, + "grad_norm": 2.8254897594451904, + "learning_rate": 6.32599142329211e-07, + "loss": 0.2867, + "step": 8078 + }, + { + "epoch": 2.693, + "grad_norm": 2.8862757682800293, + "learning_rate": 6.312422688231323e-07, + "loss": 0.2998, + "step": 8079 + }, + { + "epoch": 2.6933333333333334, + "grad_norm": 2.956007480621338, + "learning_rate": 6.298868046438533e-07, + "loss": 0.2941, + "step": 8080 + }, + { + "epoch": 2.6936666666666667, + "grad_norm": 2.6919424533843994, + "learning_rate": 6.285327499952743e-07, + "loss": 0.3271, + "step": 8081 + }, + { + "epoch": 2.694, + "grad_norm": 5.813856601715088, + "learning_rate": 6.271801050810856e-07, + "loss": 0.2743, + "step": 8082 + }, + { + "epoch": 2.6943333333333332, + "grad_norm": 2.833360433578491, + "learning_rate": 6.25828870104761e-07, + "loss": 0.3045, + "step": 8083 + }, + { + "epoch": 2.6946666666666665, + "grad_norm": 2.576897144317627, + "learning_rate": 6.244790452695671e-07, + "loss": 0.2519, + "step": 8084 + }, + { + "epoch": 2.695, + "grad_norm": 2.6817898750305176, + "learning_rate": 6.231306307785523e-07, + "loss": 0.3059, + "step": 8085 + }, + { + "epoch": 2.695333333333333, + "grad_norm": 2.7671895027160645, + "learning_rate": 6.217836268345589e-07, + "loss": 0.2931, + "step": 8086 + }, + { + "epoch": 2.695666666666667, + "grad_norm": 3.1971027851104736, + "learning_rate": 6.204380336402138e-07, + "loss": 0.2906, + "step": 8087 + }, + { + "epoch": 2.6959999999999997, + "grad_norm": 2.7344563007354736, + "learning_rate": 6.190938513979317e-07, + "loss": 0.2853, + "step": 8088 + }, + { + "epoch": 2.6963333333333335, + "grad_norm": 2.8844099044799805, + "learning_rate": 6.177510803099173e-07, + "loss": 0.2859, + "step": 8089 + }, + { + "epoch": 2.6966666666666668, + "grad_norm": 2.467151641845703, + "learning_rate": 6.164097205781616e-07, + "loss": 0.2598, + "step": 8090 + }, + { + "epoch": 2.697, + "grad_norm": 3.033132791519165, + "learning_rate": 6.150697724044407e-07, + "loss": 0.2686, + "step": 8091 + }, + { + "epoch": 2.6973333333333334, + "grad_norm": 3.1855309009552, + "learning_rate": 6.137312359903236e-07, + "loss": 0.2662, + "step": 8092 + }, + { + "epoch": 2.6976666666666667, + "grad_norm": 4.2837300300598145, + "learning_rate": 6.123941115371634e-07, + "loss": 0.2973, + "step": 8093 + }, + { + "epoch": 2.698, + "grad_norm": 3.427680253982544, + "learning_rate": 6.110583992460984e-07, + "loss": 0.3237, + "step": 8094 + }, + { + "epoch": 2.6983333333333333, + "grad_norm": 2.78481388092041, + "learning_rate": 6.097240993180609e-07, + "loss": 0.2954, + "step": 8095 + }, + { + "epoch": 2.6986666666666665, + "grad_norm": 2.406728744506836, + "learning_rate": 6.08391211953766e-07, + "loss": 0.2566, + "step": 8096 + }, + { + "epoch": 2.699, + "grad_norm": 2.606947422027588, + "learning_rate": 6.070597373537201e-07, + "loss": 0.2735, + "step": 8097 + }, + { + "epoch": 2.6993333333333336, + "grad_norm": 2.7610466480255127, + "learning_rate": 6.057296757182119e-07, + "loss": 0.2403, + "step": 8098 + }, + { + "epoch": 2.6996666666666664, + "grad_norm": 3.1632742881774902, + "learning_rate": 6.044010272473211e-07, + "loss": 0.2957, + "step": 8099 + }, + { + "epoch": 2.7, + "grad_norm": 2.8418898582458496, + "learning_rate": 6.030737921409169e-07, + "loss": 0.2784, + "step": 8100 + }, + { + "epoch": 2.7003333333333335, + "grad_norm": 2.90604567527771, + "learning_rate": 6.017479705986484e-07, + "loss": 0.2819, + "step": 8101 + }, + { + "epoch": 2.7006666666666668, + "grad_norm": 2.266342878341675, + "learning_rate": 6.004235628199606e-07, + "loss": 0.296, + "step": 8102 + }, + { + "epoch": 2.701, + "grad_norm": 3.345339298248291, + "learning_rate": 5.991005690040797e-07, + "loss": 0.2888, + "step": 8103 + }, + { + "epoch": 2.7013333333333334, + "grad_norm": 2.3354055881500244, + "learning_rate": 5.97778989350023e-07, + "loss": 0.276, + "step": 8104 + }, + { + "epoch": 2.7016666666666667, + "grad_norm": 2.9275906085968018, + "learning_rate": 5.964588240565916e-07, + "loss": 0.2949, + "step": 8105 + }, + { + "epoch": 2.702, + "grad_norm": 3.308002471923828, + "learning_rate": 5.951400733223766e-07, + "loss": 0.2797, + "step": 8106 + }, + { + "epoch": 2.7023333333333333, + "grad_norm": 2.4143576622009277, + "learning_rate": 5.938227373457572e-07, + "loss": 0.296, + "step": 8107 + }, + { + "epoch": 2.7026666666666666, + "grad_norm": 2.4076452255249023, + "learning_rate": 5.925068163248959e-07, + "loss": 0.2868, + "step": 8108 + }, + { + "epoch": 2.703, + "grad_norm": 3.5640738010406494, + "learning_rate": 5.911923104577455e-07, + "loss": 0.2667, + "step": 8109 + }, + { + "epoch": 2.703333333333333, + "grad_norm": 2.906230926513672, + "learning_rate": 5.898792199420445e-07, + "loss": 0.2861, + "step": 8110 + }, + { + "epoch": 2.703666666666667, + "grad_norm": 2.529390811920166, + "learning_rate": 5.885675449753203e-07, + "loss": 0.2661, + "step": 8111 + }, + { + "epoch": 2.7039999999999997, + "grad_norm": 2.7467503547668457, + "learning_rate": 5.872572857548853e-07, + "loss": 0.321, + "step": 8112 + }, + { + "epoch": 2.7043333333333335, + "grad_norm": 2.741156578063965, + "learning_rate": 5.859484424778383e-07, + "loss": 0.2864, + "step": 8113 + }, + { + "epoch": 2.7046666666666668, + "grad_norm": 2.7503082752227783, + "learning_rate": 5.846410153410686e-07, + "loss": 0.2869, + "step": 8114 + }, + { + "epoch": 2.705, + "grad_norm": 3.6231515407562256, + "learning_rate": 5.833350045412478e-07, + "loss": 0.3013, + "step": 8115 + }, + { + "epoch": 2.7053333333333334, + "grad_norm": 3.5827908515930176, + "learning_rate": 5.820304102748387e-07, + "loss": 0.3055, + "step": 8116 + }, + { + "epoch": 2.7056666666666667, + "grad_norm": 2.7289466857910156, + "learning_rate": 5.807272327380875e-07, + "loss": 0.2852, + "step": 8117 + }, + { + "epoch": 2.706, + "grad_norm": 2.995553493499756, + "learning_rate": 5.794254721270331e-07, + "loss": 0.3406, + "step": 8118 + }, + { + "epoch": 2.7063333333333333, + "grad_norm": 3.1052167415618896, + "learning_rate": 5.781251286374934e-07, + "loss": 0.2687, + "step": 8119 + }, + { + "epoch": 2.7066666666666666, + "grad_norm": 2.752525806427002, + "learning_rate": 5.768262024650773e-07, + "loss": 0.2879, + "step": 8120 + }, + { + "epoch": 2.707, + "grad_norm": 2.6436920166015625, + "learning_rate": 5.75528693805183e-07, + "loss": 0.3119, + "step": 8121 + }, + { + "epoch": 2.7073333333333336, + "grad_norm": 2.92834210395813, + "learning_rate": 5.742326028529899e-07, + "loss": 0.3067, + "step": 8122 + }, + { + "epoch": 2.7076666666666664, + "grad_norm": 4.428025722503662, + "learning_rate": 5.729379298034665e-07, + "loss": 0.2969, + "step": 8123 + }, + { + "epoch": 2.708, + "grad_norm": 2.7248072624206543, + "learning_rate": 5.716446748513682e-07, + "loss": 0.3096, + "step": 8124 + }, + { + "epoch": 2.7083333333333335, + "grad_norm": 2.9412412643432617, + "learning_rate": 5.703528381912415e-07, + "loss": 0.2882, + "step": 8125 + }, + { + "epoch": 2.708666666666667, + "grad_norm": 2.5059690475463867, + "learning_rate": 5.690624200174089e-07, + "loss": 0.2742, + "step": 8126 + }, + { + "epoch": 2.709, + "grad_norm": 2.589437484741211, + "learning_rate": 5.677734205239904e-07, + "loss": 0.3138, + "step": 8127 + }, + { + "epoch": 2.7093333333333334, + "grad_norm": 2.8509864807128906, + "learning_rate": 5.664858399048867e-07, + "loss": 0.2949, + "step": 8128 + }, + { + "epoch": 2.7096666666666667, + "grad_norm": 2.9260993003845215, + "learning_rate": 5.651996783537861e-07, + "loss": 0.2878, + "step": 8129 + }, + { + "epoch": 2.71, + "grad_norm": 2.8541975021362305, + "learning_rate": 5.63914936064165e-07, + "loss": 0.2942, + "step": 8130 + }, + { + "epoch": 2.7103333333333333, + "grad_norm": 3.0832436084747314, + "learning_rate": 5.626316132292831e-07, + "loss": 0.2707, + "step": 8131 + }, + { + "epoch": 2.7106666666666666, + "grad_norm": 2.648529529571533, + "learning_rate": 5.613497100421916e-07, + "loss": 0.2758, + "step": 8132 + }, + { + "epoch": 2.711, + "grad_norm": 2.6636571884155273, + "learning_rate": 5.600692266957208e-07, + "loss": 0.3044, + "step": 8133 + }, + { + "epoch": 2.711333333333333, + "grad_norm": 2.896296977996826, + "learning_rate": 5.587901633824944e-07, + "loss": 0.3094, + "step": 8134 + }, + { + "epoch": 2.711666666666667, + "grad_norm": 2.781886577606201, + "learning_rate": 5.575125202949205e-07, + "loss": 0.2723, + "step": 8135 + }, + { + "epoch": 2.7119999999999997, + "grad_norm": 3.6738739013671875, + "learning_rate": 5.562362976251901e-07, + "loss": 0.264, + "step": 8136 + }, + { + "epoch": 2.7123333333333335, + "grad_norm": 2.7685649394989014, + "learning_rate": 5.549614955652849e-07, + "loss": 0.313, + "step": 8137 + }, + { + "epoch": 2.712666666666667, + "grad_norm": 2.7178525924682617, + "learning_rate": 5.536881143069717e-07, + "loss": 0.2371, + "step": 8138 + }, + { + "epoch": 2.713, + "grad_norm": 2.6969189643859863, + "learning_rate": 5.524161540418039e-07, + "loss": 0.2851, + "step": 8139 + }, + { + "epoch": 2.7133333333333334, + "grad_norm": 3.561340570449829, + "learning_rate": 5.511456149611194e-07, + "loss": 0.2907, + "step": 8140 + }, + { + "epoch": 2.7136666666666667, + "grad_norm": 2.7143056392669678, + "learning_rate": 5.498764972560411e-07, + "loss": 0.3203, + "step": 8141 + }, + { + "epoch": 2.714, + "grad_norm": 2.8436503410339355, + "learning_rate": 5.48608801117485e-07, + "loss": 0.2631, + "step": 8142 + }, + { + "epoch": 2.7143333333333333, + "grad_norm": 2.9860684871673584, + "learning_rate": 5.473425267361432e-07, + "loss": 0.2781, + "step": 8143 + }, + { + "epoch": 2.7146666666666666, + "grad_norm": 2.562709331512451, + "learning_rate": 5.46077674302502e-07, + "loss": 0.2664, + "step": 8144 + }, + { + "epoch": 2.715, + "grad_norm": 2.778010368347168, + "learning_rate": 5.448142440068316e-07, + "loss": 0.2712, + "step": 8145 + }, + { + "epoch": 2.7153333333333336, + "grad_norm": 2.8555397987365723, + "learning_rate": 5.435522360391888e-07, + "loss": 0.3121, + "step": 8146 + }, + { + "epoch": 2.7156666666666665, + "grad_norm": 2.3286070823669434, + "learning_rate": 5.422916505894116e-07, + "loss": 0.2722, + "step": 8147 + }, + { + "epoch": 2.716, + "grad_norm": 3.2023565769195557, + "learning_rate": 5.410324878471296e-07, + "loss": 0.3218, + "step": 8148 + }, + { + "epoch": 2.7163333333333335, + "grad_norm": 2.7799575328826904, + "learning_rate": 5.39774748001759e-07, + "loss": 0.2676, + "step": 8149 + }, + { + "epoch": 2.716666666666667, + "grad_norm": 2.2755014896392822, + "learning_rate": 5.385184312424973e-07, + "loss": 0.2708, + "step": 8150 + }, + { + "epoch": 2.717, + "grad_norm": 2.5976617336273193, + "learning_rate": 5.37263537758328e-07, + "loss": 0.3024, + "step": 8151 + }, + { + "epoch": 2.7173333333333334, + "grad_norm": 2.9026801586151123, + "learning_rate": 5.360100677380264e-07, + "loss": 0.2693, + "step": 8152 + }, + { + "epoch": 2.7176666666666667, + "grad_norm": 2.6958651542663574, + "learning_rate": 5.347580213701487e-07, + "loss": 0.2731, + "step": 8153 + }, + { + "epoch": 2.718, + "grad_norm": 3.3037586212158203, + "learning_rate": 5.335073988430373e-07, + "loss": 0.2612, + "step": 8154 + }, + { + "epoch": 2.7183333333333333, + "grad_norm": 2.609511613845825, + "learning_rate": 5.322582003448207e-07, + "loss": 0.2647, + "step": 8155 + }, + { + "epoch": 2.7186666666666666, + "grad_norm": 3.3498127460479736, + "learning_rate": 5.310104260634175e-07, + "loss": 0.2923, + "step": 8156 + }, + { + "epoch": 2.719, + "grad_norm": 3.6064248085021973, + "learning_rate": 5.297640761865242e-07, + "loss": 0.2814, + "step": 8157 + }, + { + "epoch": 2.719333333333333, + "grad_norm": 2.7585549354553223, + "learning_rate": 5.285191509016286e-07, + "loss": 0.3201, + "step": 8158 + }, + { + "epoch": 2.719666666666667, + "grad_norm": 2.8734922409057617, + "learning_rate": 5.272756503960053e-07, + "loss": 0.3038, + "step": 8159 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 3.1108546257019043, + "learning_rate": 5.26033574856708e-07, + "loss": 0.2691, + "step": 8160 + }, + { + "epoch": 2.7203333333333335, + "grad_norm": 4.812491416931152, + "learning_rate": 5.247929244705819e-07, + "loss": 0.3377, + "step": 8161 + }, + { + "epoch": 2.720666666666667, + "grad_norm": 3.1074414253234863, + "learning_rate": 5.235536994242551e-07, + "loss": 0.2919, + "step": 8162 + }, + { + "epoch": 2.721, + "grad_norm": 3.7312471866607666, + "learning_rate": 5.223158999041444e-07, + "loss": 0.2803, + "step": 8163 + }, + { + "epoch": 2.7213333333333334, + "grad_norm": 3.1724867820739746, + "learning_rate": 5.210795260964474e-07, + "loss": 0.2952, + "step": 8164 + }, + { + "epoch": 2.7216666666666667, + "grad_norm": 2.8068900108337402, + "learning_rate": 5.198445781871497e-07, + "loss": 0.2628, + "step": 8165 + }, + { + "epoch": 2.722, + "grad_norm": 2.7933881282806396, + "learning_rate": 5.18611056362025e-07, + "loss": 0.282, + "step": 8166 + }, + { + "epoch": 2.7223333333333333, + "grad_norm": 2.5652828216552734, + "learning_rate": 5.173789608066293e-07, + "loss": 0.2867, + "step": 8167 + }, + { + "epoch": 2.7226666666666666, + "grad_norm": 2.87735915184021, + "learning_rate": 5.161482917063032e-07, + "loss": 0.2871, + "step": 8168 + }, + { + "epoch": 2.723, + "grad_norm": 2.839130163192749, + "learning_rate": 5.149190492461753e-07, + "loss": 0.2993, + "step": 8169 + }, + { + "epoch": 2.7233333333333336, + "grad_norm": 2.1825642585754395, + "learning_rate": 5.136912336111599e-07, + "loss": 0.2809, + "step": 8170 + }, + { + "epoch": 2.7236666666666665, + "grad_norm": 3.2428596019744873, + "learning_rate": 5.124648449859504e-07, + "loss": 0.2807, + "step": 8171 + }, + { + "epoch": 2.724, + "grad_norm": 2.962338447570801, + "learning_rate": 5.112398835550348e-07, + "loss": 0.2835, + "step": 8172 + }, + { + "epoch": 2.7243333333333335, + "grad_norm": 2.5663371086120605, + "learning_rate": 5.100163495026811e-07, + "loss": 0.2913, + "step": 8173 + }, + { + "epoch": 2.724666666666667, + "grad_norm": 4.058217525482178, + "learning_rate": 5.087942430129444e-07, + "loss": 0.3164, + "step": 8174 + }, + { + "epoch": 2.725, + "grad_norm": 2.2977871894836426, + "learning_rate": 5.075735642696611e-07, + "loss": 0.2551, + "step": 8175 + }, + { + "epoch": 2.7253333333333334, + "grad_norm": 3.193894624710083, + "learning_rate": 5.063543134564585e-07, + "loss": 0.3027, + "step": 8176 + }, + { + "epoch": 2.7256666666666667, + "grad_norm": 2.884296417236328, + "learning_rate": 5.051364907567469e-07, + "loss": 0.2767, + "step": 8177 + }, + { + "epoch": 2.726, + "grad_norm": 3.169909715652466, + "learning_rate": 5.039200963537194e-07, + "loss": 0.2803, + "step": 8178 + }, + { + "epoch": 2.7263333333333333, + "grad_norm": 3.562605857849121, + "learning_rate": 5.027051304303576e-07, + "loss": 0.2683, + "step": 8179 + }, + { + "epoch": 2.7266666666666666, + "grad_norm": 2.885401725769043, + "learning_rate": 5.014915931694253e-07, + "loss": 0.3206, + "step": 8180 + }, + { + "epoch": 2.727, + "grad_norm": 2.932124376296997, + "learning_rate": 5.002794847534765e-07, + "loss": 0.2921, + "step": 8181 + }, + { + "epoch": 2.727333333333333, + "grad_norm": 3.318258285522461, + "learning_rate": 4.990688053648407e-07, + "loss": 0.3243, + "step": 8182 + }, + { + "epoch": 2.727666666666667, + "grad_norm": 3.0043084621429443, + "learning_rate": 4.978595551856435e-07, + "loss": 0.2627, + "step": 8183 + }, + { + "epoch": 2.7279999999999998, + "grad_norm": 2.6818530559539795, + "learning_rate": 4.966517343977884e-07, + "loss": 0.2932, + "step": 8184 + }, + { + "epoch": 2.7283333333333335, + "grad_norm": 3.1020348072052, + "learning_rate": 4.954453431829676e-07, + "loss": 0.2913, + "step": 8185 + }, + { + "epoch": 2.728666666666667, + "grad_norm": 2.678964138031006, + "learning_rate": 4.942403817226538e-07, + "loss": 0.2894, + "step": 8186 + }, + { + "epoch": 2.729, + "grad_norm": 2.8396105766296387, + "learning_rate": 4.930368501981097e-07, + "loss": 0.2923, + "step": 8187 + }, + { + "epoch": 2.7293333333333334, + "grad_norm": 3.090949058532715, + "learning_rate": 4.918347487903796e-07, + "loss": 0.305, + "step": 8188 + }, + { + "epoch": 2.7296666666666667, + "grad_norm": 2.8010752201080322, + "learning_rate": 4.90634077680292e-07, + "loss": 0.2936, + "step": 8189 + }, + { + "epoch": 2.73, + "grad_norm": 2.4435834884643555, + "learning_rate": 4.894348370484648e-07, + "loss": 0.2741, + "step": 8190 + }, + { + "epoch": 2.7303333333333333, + "grad_norm": 3.0332305431365967, + "learning_rate": 4.882370270752956e-07, + "loss": 0.2928, + "step": 8191 + }, + { + "epoch": 2.7306666666666666, + "grad_norm": 3.3391661643981934, + "learning_rate": 4.870406479409717e-07, + "loss": 0.2891, + "step": 8192 + }, + { + "epoch": 2.731, + "grad_norm": 2.639899969100952, + "learning_rate": 4.858456998254591e-07, + "loss": 0.3289, + "step": 8193 + }, + { + "epoch": 2.731333333333333, + "grad_norm": 2.5315754413604736, + "learning_rate": 4.846521829085137e-07, + "loss": 0.2995, + "step": 8194 + }, + { + "epoch": 2.7316666666666665, + "grad_norm": 2.8827576637268066, + "learning_rate": 4.834600973696746e-07, + "loss": 0.2829, + "step": 8195 + }, + { + "epoch": 2.732, + "grad_norm": 3.058138370513916, + "learning_rate": 4.822694433882635e-07, + "loss": 0.2801, + "step": 8196 + }, + { + "epoch": 2.732333333333333, + "grad_norm": 3.1319587230682373, + "learning_rate": 4.810802211433919e-07, + "loss": 0.2827, + "step": 8197 + }, + { + "epoch": 2.732666666666667, + "grad_norm": 2.656076669692993, + "learning_rate": 4.798924308139485e-07, + "loss": 0.2629, + "step": 8198 + }, + { + "epoch": 2.733, + "grad_norm": 3.0955915451049805, + "learning_rate": 4.787060725786141e-07, + "loss": 0.2914, + "step": 8199 + }, + { + "epoch": 2.7333333333333334, + "grad_norm": 2.704190492630005, + "learning_rate": 4.775211466158469e-07, + "loss": 0.3098, + "step": 8200 + }, + { + "epoch": 2.7336666666666667, + "grad_norm": 2.669894218444824, + "learning_rate": 4.763376531038966e-07, + "loss": 0.2885, + "step": 8201 + }, + { + "epoch": 2.734, + "grad_norm": 4.303991794586182, + "learning_rate": 4.75155592220794e-07, + "loss": 0.2879, + "step": 8202 + }, + { + "epoch": 2.7343333333333333, + "grad_norm": 3.656367301940918, + "learning_rate": 4.739749641443514e-07, + "loss": 0.3098, + "step": 8203 + }, + { + "epoch": 2.7346666666666666, + "grad_norm": 3.2324678897857666, + "learning_rate": 4.727957690521712e-07, + "loss": 0.2629, + "step": 8204 + }, + { + "epoch": 2.735, + "grad_norm": 3.540238618850708, + "learning_rate": 4.7161800712163807e-07, + "loss": 0.2679, + "step": 8205 + }, + { + "epoch": 2.735333333333333, + "grad_norm": 2.424093723297119, + "learning_rate": 4.704416785299215e-07, + "loss": 0.2733, + "step": 8206 + }, + { + "epoch": 2.735666666666667, + "grad_norm": 2.6857786178588867, + "learning_rate": 4.6926678345397323e-07, + "loss": 0.2856, + "step": 8207 + }, + { + "epoch": 2.7359999999999998, + "grad_norm": 2.275736093521118, + "learning_rate": 4.6809332207053083e-07, + "loss": 0.2541, + "step": 8208 + }, + { + "epoch": 2.7363333333333335, + "grad_norm": 2.8482348918914795, + "learning_rate": 4.6692129455611634e-07, + "loss": 0.2797, + "step": 8209 + }, + { + "epoch": 2.736666666666667, + "grad_norm": 2.612337350845337, + "learning_rate": 4.6575070108703433e-07, + "loss": 0.2989, + "step": 8210 + }, + { + "epoch": 2.737, + "grad_norm": 3.513686418533325, + "learning_rate": 4.6458154183937733e-07, + "loss": 0.3034, + "step": 8211 + }, + { + "epoch": 2.7373333333333334, + "grad_norm": 2.7993502616882324, + "learning_rate": 4.634138169890201e-07, + "loss": 0.2526, + "step": 8212 + }, + { + "epoch": 2.7376666666666667, + "grad_norm": 2.9213268756866455, + "learning_rate": 4.622475267116222e-07, + "loss": 0.293, + "step": 8213 + }, + { + "epoch": 2.738, + "grad_norm": 4.09928560256958, + "learning_rate": 4.6108267118262327e-07, + "loss": 0.2891, + "step": 8214 + }, + { + "epoch": 2.7383333333333333, + "grad_norm": 2.7296643257141113, + "learning_rate": 4.5991925057725315e-07, + "loss": 0.2764, + "step": 8215 + }, + { + "epoch": 2.7386666666666666, + "grad_norm": 2.8817291259765625, + "learning_rate": 4.587572650705252e-07, + "loss": 0.303, + "step": 8216 + }, + { + "epoch": 2.739, + "grad_norm": 3.027303695678711, + "learning_rate": 4.575967148372318e-07, + "loss": 0.3149, + "step": 8217 + }, + { + "epoch": 2.739333333333333, + "grad_norm": 2.760770082473755, + "learning_rate": 4.5643760005195325e-07, + "loss": 0.3135, + "step": 8218 + }, + { + "epoch": 2.7396666666666665, + "grad_norm": 2.893425703048706, + "learning_rate": 4.5527992088905347e-07, + "loss": 0.2654, + "step": 8219 + }, + { + "epoch": 2.74, + "grad_norm": 2.7863118648529053, + "learning_rate": 4.5412367752268094e-07, + "loss": 0.2507, + "step": 8220 + }, + { + "epoch": 2.740333333333333, + "grad_norm": 3.479896068572998, + "learning_rate": 4.529688701267665e-07, + "loss": 0.3013, + "step": 8221 + }, + { + "epoch": 2.740666666666667, + "grad_norm": 2.6018197536468506, + "learning_rate": 4.5181549887502565e-07, + "loss": 0.2811, + "step": 8222 + }, + { + "epoch": 2.741, + "grad_norm": 2.9542720317840576, + "learning_rate": 4.506635639409607e-07, + "loss": 0.2898, + "step": 8223 + }, + { + "epoch": 2.7413333333333334, + "grad_norm": 2.4582488536834717, + "learning_rate": 4.495130654978519e-07, + "loss": 0.2677, + "step": 8224 + }, + { + "epoch": 2.7416666666666667, + "grad_norm": 3.0032622814178467, + "learning_rate": 4.4836400371876975e-07, + "loss": 0.2919, + "step": 8225 + }, + { + "epoch": 2.742, + "grad_norm": 2.7459893226623535, + "learning_rate": 4.4721637877656377e-07, + "loss": 0.314, + "step": 8226 + }, + { + "epoch": 2.7423333333333333, + "grad_norm": 2.5096497535705566, + "learning_rate": 4.4607019084387026e-07, + "loss": 0.2929, + "step": 8227 + }, + { + "epoch": 2.7426666666666666, + "grad_norm": 2.569204330444336, + "learning_rate": 4.449254400931069e-07, + "loss": 0.2774, + "step": 8228 + }, + { + "epoch": 2.743, + "grad_norm": 2.6355929374694824, + "learning_rate": 4.4378212669647814e-07, + "loss": 0.3172, + "step": 8229 + }, + { + "epoch": 2.743333333333333, + "grad_norm": 2.9104645252227783, + "learning_rate": 4.4264025082597084e-07, + "loss": 0.2757, + "step": 8230 + }, + { + "epoch": 2.743666666666667, + "grad_norm": 3.407271385192871, + "learning_rate": 4.414998126533543e-07, + "loss": 0.2911, + "step": 8231 + }, + { + "epoch": 2.7439999999999998, + "grad_norm": 2.4043073654174805, + "learning_rate": 4.4036081235018347e-07, + "loss": 0.3103, + "step": 8232 + }, + { + "epoch": 2.7443333333333335, + "grad_norm": 3.119615077972412, + "learning_rate": 4.392232500877969e-07, + "loss": 0.2832, + "step": 8233 + }, + { + "epoch": 2.744666666666667, + "grad_norm": 3.1768205165863037, + "learning_rate": 4.380871260373165e-07, + "loss": 0.3002, + "step": 8234 + }, + { + "epoch": 2.745, + "grad_norm": 3.053187847137451, + "learning_rate": 4.3695244036964567e-07, + "loss": 0.3039, + "step": 8235 + }, + { + "epoch": 2.7453333333333334, + "grad_norm": 2.8954148292541504, + "learning_rate": 4.358191932554745e-07, + "loss": 0.2987, + "step": 8236 + }, + { + "epoch": 2.7456666666666667, + "grad_norm": 3.972426652908325, + "learning_rate": 4.346873848652755e-07, + "loss": 0.319, + "step": 8237 + }, + { + "epoch": 2.746, + "grad_norm": 2.7532029151916504, + "learning_rate": 4.335570153693036e-07, + "loss": 0.2993, + "step": 8238 + }, + { + "epoch": 2.7463333333333333, + "grad_norm": 4.300678730010986, + "learning_rate": 4.3242808493759946e-07, + "loss": 0.2699, + "step": 8239 + }, + { + "epoch": 2.7466666666666666, + "grad_norm": 3.726842164993286, + "learning_rate": 4.313005937399861e-07, + "loss": 0.3211, + "step": 8240 + }, + { + "epoch": 2.747, + "grad_norm": 2.9419164657592773, + "learning_rate": 4.301745419460712e-07, + "loss": 0.289, + "step": 8241 + }, + { + "epoch": 2.747333333333333, + "grad_norm": 3.2858188152313232, + "learning_rate": 4.2904992972524263e-07, + "loss": 0.2937, + "step": 8242 + }, + { + "epoch": 2.7476666666666665, + "grad_norm": 3.460175037384033, + "learning_rate": 4.279267572466761e-07, + "loss": 0.2922, + "step": 8243 + }, + { + "epoch": 2.748, + "grad_norm": 2.640324115753174, + "learning_rate": 4.268050246793276e-07, + "loss": 0.2957, + "step": 8244 + }, + { + "epoch": 2.748333333333333, + "grad_norm": 3.0779740810394287, + "learning_rate": 4.256847321919377e-07, + "loss": 0.2789, + "step": 8245 + }, + { + "epoch": 2.748666666666667, + "grad_norm": 2.6613733768463135, + "learning_rate": 4.2456587995302946e-07, + "loss": 0.2848, + "step": 8246 + }, + { + "epoch": 2.749, + "grad_norm": 2.501960515975952, + "learning_rate": 4.234484681309103e-07, + "loss": 0.2577, + "step": 8247 + }, + { + "epoch": 2.7493333333333334, + "grad_norm": 3.4142940044403076, + "learning_rate": 4.223324968936726e-07, + "loss": 0.2798, + "step": 8248 + }, + { + "epoch": 2.7496666666666667, + "grad_norm": 2.6245505809783936, + "learning_rate": 4.2121796640918647e-07, + "loss": 0.2872, + "step": 8249 + }, + { + "epoch": 2.75, + "grad_norm": 3.144728660583496, + "learning_rate": 4.2010487684511105e-07, + "loss": 0.3126, + "step": 8250 + }, + { + "epoch": 2.7503333333333333, + "grad_norm": 2.992037296295166, + "learning_rate": 4.18993228368888e-07, + "loss": 0.2663, + "step": 8251 + }, + { + "epoch": 2.7506666666666666, + "grad_norm": 2.7898473739624023, + "learning_rate": 4.178830211477369e-07, + "loss": 0.2947, + "step": 8252 + }, + { + "epoch": 2.751, + "grad_norm": 3.1812782287597656, + "learning_rate": 4.167742553486676e-07, + "loss": 0.2757, + "step": 8253 + }, + { + "epoch": 2.751333333333333, + "grad_norm": 2.4108684062957764, + "learning_rate": 4.1566693113846977e-07, + "loss": 0.3115, + "step": 8254 + }, + { + "epoch": 2.751666666666667, + "grad_norm": 2.8463587760925293, + "learning_rate": 4.1456104868371485e-07, + "loss": 0.2846, + "step": 8255 + }, + { + "epoch": 2.752, + "grad_norm": 2.9270060062408447, + "learning_rate": 4.134566081507585e-07, + "loss": 0.2563, + "step": 8256 + }, + { + "epoch": 2.7523333333333335, + "grad_norm": 4.852255344390869, + "learning_rate": 4.123536097057423e-07, + "loss": 0.2664, + "step": 8257 + }, + { + "epoch": 2.752666666666667, + "grad_norm": 2.681750774383545, + "learning_rate": 4.11252053514587e-07, + "loss": 0.2878, + "step": 8258 + }, + { + "epoch": 2.753, + "grad_norm": 3.9287922382354736, + "learning_rate": 4.101519397429976e-07, + "loss": 0.3083, + "step": 8259 + }, + { + "epoch": 2.7533333333333334, + "grad_norm": 2.602975606918335, + "learning_rate": 4.0905326855646186e-07, + "loss": 0.2892, + "step": 8260 + }, + { + "epoch": 2.7536666666666667, + "grad_norm": 3.2666029930114746, + "learning_rate": 4.0795604012025315e-07, + "loss": 0.2878, + "step": 8261 + }, + { + "epoch": 2.754, + "grad_norm": 3.2088170051574707, + "learning_rate": 4.068602545994249e-07, + "loss": 0.302, + "step": 8262 + }, + { + "epoch": 2.7543333333333333, + "grad_norm": 2.932034969329834, + "learning_rate": 4.057659121588131e-07, + "loss": 0.3004, + "step": 8263 + }, + { + "epoch": 2.7546666666666666, + "grad_norm": 2.349742889404297, + "learning_rate": 4.046730129630405e-07, + "loss": 0.2545, + "step": 8264 + }, + { + "epoch": 2.755, + "grad_norm": 3.1407721042633057, + "learning_rate": 4.035815571765089e-07, + "loss": 0.265, + "step": 8265 + }, + { + "epoch": 2.755333333333333, + "grad_norm": 2.444340944290161, + "learning_rate": 4.024915449634015e-07, + "loss": 0.2738, + "step": 8266 + }, + { + "epoch": 2.7556666666666665, + "grad_norm": 2.7407593727111816, + "learning_rate": 4.014029764876892e-07, + "loss": 0.31, + "step": 8267 + }, + { + "epoch": 2.7560000000000002, + "grad_norm": 2.7417469024658203, + "learning_rate": 4.003158519131245e-07, + "loss": 0.2719, + "step": 8268 + }, + { + "epoch": 2.756333333333333, + "grad_norm": 2.633418083190918, + "learning_rate": 3.9923017140324205e-07, + "loss": 0.3313, + "step": 8269 + }, + { + "epoch": 2.756666666666667, + "grad_norm": 2.318181037902832, + "learning_rate": 3.981459351213568e-07, + "loss": 0.3141, + "step": 8270 + }, + { + "epoch": 2.757, + "grad_norm": 2.9161200523376465, + "learning_rate": 3.9706314323056936e-07, + "loss": 0.2803, + "step": 8271 + }, + { + "epoch": 2.7573333333333334, + "grad_norm": 2.9562814235687256, + "learning_rate": 3.9598179589376394e-07, + "loss": 0.2978, + "step": 8272 + }, + { + "epoch": 2.7576666666666667, + "grad_norm": 2.6770455837249756, + "learning_rate": 3.949018932736026e-07, + "loss": 0.3051, + "step": 8273 + }, + { + "epoch": 2.758, + "grad_norm": 2.551750898361206, + "learning_rate": 3.9382343553253764e-07, + "loss": 0.2789, + "step": 8274 + }, + { + "epoch": 2.7583333333333333, + "grad_norm": 2.6886515617370605, + "learning_rate": 3.9274642283279486e-07, + "loss": 0.3319, + "step": 8275 + }, + { + "epoch": 2.7586666666666666, + "grad_norm": 2.6076862812042236, + "learning_rate": 3.9167085533639235e-07, + "loss": 0.2812, + "step": 8276 + }, + { + "epoch": 2.759, + "grad_norm": 2.740692377090454, + "learning_rate": 3.905967332051219e-07, + "loss": 0.2779, + "step": 8277 + }, + { + "epoch": 2.759333333333333, + "grad_norm": 2.9046261310577393, + "learning_rate": 3.8952405660056426e-07, + "loss": 0.2974, + "step": 8278 + }, + { + "epoch": 2.759666666666667, + "grad_norm": 3.0075533390045166, + "learning_rate": 3.8845282568408026e-07, + "loss": 0.2884, + "step": 8279 + }, + { + "epoch": 2.76, + "grad_norm": 2.4122958183288574, + "learning_rate": 3.8738304061681107e-07, + "loss": 0.2862, + "step": 8280 + }, + { + "epoch": 2.7603333333333335, + "grad_norm": 2.7210488319396973, + "learning_rate": 3.8631470155968573e-07, + "loss": 0.2796, + "step": 8281 + }, + { + "epoch": 2.760666666666667, + "grad_norm": 2.898036479949951, + "learning_rate": 3.852478086734124e-07, + "loss": 0.2681, + "step": 8282 + }, + { + "epoch": 2.761, + "grad_norm": 2.3101954460144043, + "learning_rate": 3.8418236211848147e-07, + "loss": 0.3077, + "step": 8283 + }, + { + "epoch": 2.7613333333333334, + "grad_norm": 2.18481183052063, + "learning_rate": 3.8311836205516375e-07, + "loss": 0.3171, + "step": 8284 + }, + { + "epoch": 2.7616666666666667, + "grad_norm": 2.6932859420776367, + "learning_rate": 3.820558086435178e-07, + "loss": 0.2662, + "step": 8285 + }, + { + "epoch": 2.762, + "grad_norm": 4.331463813781738, + "learning_rate": 3.809947020433824e-07, + "loss": 0.2716, + "step": 8286 + }, + { + "epoch": 2.7623333333333333, + "grad_norm": 3.12318754196167, + "learning_rate": 3.799350424143755e-07, + "loss": 0.2631, + "step": 8287 + }, + { + "epoch": 2.7626666666666666, + "grad_norm": 2.332709312438965, + "learning_rate": 3.788768299159018e-07, + "loss": 0.2901, + "step": 8288 + }, + { + "epoch": 2.763, + "grad_norm": 2.485495090484619, + "learning_rate": 3.7782006470714614e-07, + "loss": 0.2673, + "step": 8289 + }, + { + "epoch": 2.763333333333333, + "grad_norm": 2.9975481033325195, + "learning_rate": 3.7676474694707697e-07, + "loss": 0.3096, + "step": 8290 + }, + { + "epoch": 2.7636666666666665, + "grad_norm": 2.5842647552490234, + "learning_rate": 3.7571087679444175e-07, + "loss": 0.3238, + "step": 8291 + }, + { + "epoch": 2.7640000000000002, + "grad_norm": 2.6800312995910645, + "learning_rate": 3.746584544077736e-07, + "loss": 0.287, + "step": 8292 + }, + { + "epoch": 2.764333333333333, + "grad_norm": 3.7209300994873047, + "learning_rate": 3.7360747994538817e-07, + "loss": 0.3002, + "step": 8293 + }, + { + "epoch": 2.764666666666667, + "grad_norm": 2.969743013381958, + "learning_rate": 3.7255795356537785e-07, + "loss": 0.2962, + "step": 8294 + }, + { + "epoch": 2.765, + "grad_norm": 2.6447927951812744, + "learning_rate": 3.715098754256241e-07, + "loss": 0.2998, + "step": 8295 + }, + { + "epoch": 2.7653333333333334, + "grad_norm": 2.3308377265930176, + "learning_rate": 3.7046324568378753e-07, + "loss": 0.2766, + "step": 8296 + }, + { + "epoch": 2.7656666666666667, + "grad_norm": 2.1100735664367676, + "learning_rate": 3.694180644973111e-07, + "loss": 0.2415, + "step": 8297 + }, + { + "epoch": 2.766, + "grad_norm": 2.3802237510681152, + "learning_rate": 3.68374332023419e-07, + "loss": 0.3094, + "step": 8298 + }, + { + "epoch": 2.7663333333333333, + "grad_norm": 2.500188112258911, + "learning_rate": 3.6733204841911673e-07, + "loss": 0.2828, + "step": 8299 + }, + { + "epoch": 2.7666666666666666, + "grad_norm": 2.9888691902160645, + "learning_rate": 3.662912138411967e-07, + "loss": 0.3038, + "step": 8300 + }, + { + "epoch": 2.767, + "grad_norm": 2.7287168502807617, + "learning_rate": 3.65251828446227e-07, + "loss": 0.2819, + "step": 8301 + }, + { + "epoch": 2.767333333333333, + "grad_norm": 2.282538890838623, + "learning_rate": 3.642138923905636e-07, + "loss": 0.2804, + "step": 8302 + }, + { + "epoch": 2.767666666666667, + "grad_norm": 2.8950889110565186, + "learning_rate": 3.6317740583033725e-07, + "loss": 0.2734, + "step": 8303 + }, + { + "epoch": 2.768, + "grad_norm": 2.331665515899658, + "learning_rate": 3.6214236892146983e-07, + "loss": 0.3017, + "step": 8304 + }, + { + "epoch": 2.7683333333333335, + "grad_norm": 2.856309175491333, + "learning_rate": 3.611087818196557e-07, + "loss": 0.2947, + "step": 8305 + }, + { + "epoch": 2.768666666666667, + "grad_norm": 3.5441088676452637, + "learning_rate": 3.600766446803772e-07, + "loss": 0.3122, + "step": 8306 + }, + { + "epoch": 2.769, + "grad_norm": 2.2566158771514893, + "learning_rate": 3.590459576589e-07, + "loss": 0.2864, + "step": 8307 + }, + { + "epoch": 2.7693333333333334, + "grad_norm": 2.7907137870788574, + "learning_rate": 3.580167209102636e-07, + "loss": 0.3145, + "step": 8308 + }, + { + "epoch": 2.7696666666666667, + "grad_norm": 2.545116424560547, + "learning_rate": 3.569889345892974e-07, + "loss": 0.2789, + "step": 8309 + }, + { + "epoch": 2.77, + "grad_norm": 2.6652028560638428, + "learning_rate": 3.55962598850611e-07, + "loss": 0.2911, + "step": 8310 + }, + { + "epoch": 2.7703333333333333, + "grad_norm": 3.396650552749634, + "learning_rate": 3.54937713848591e-07, + "loss": 0.3049, + "step": 8311 + }, + { + "epoch": 2.7706666666666666, + "grad_norm": 2.510657787322998, + "learning_rate": 3.539142797374118e-07, + "loss": 0.2775, + "step": 8312 + }, + { + "epoch": 2.771, + "grad_norm": 2.973170280456543, + "learning_rate": 3.5289229667102463e-07, + "loss": 0.2867, + "step": 8313 + }, + { + "epoch": 2.771333333333333, + "grad_norm": 2.588359832763672, + "learning_rate": 3.5187176480316774e-07, + "loss": 0.2785, + "step": 8314 + }, + { + "epoch": 2.7716666666666665, + "grad_norm": 2.760294198989868, + "learning_rate": 3.5085268428735496e-07, + "loss": 0.2841, + "step": 8315 + }, + { + "epoch": 2.7720000000000002, + "grad_norm": 4.128082275390625, + "learning_rate": 3.498350552768859e-07, + "loss": 0.2965, + "step": 8316 + }, + { + "epoch": 2.772333333333333, + "grad_norm": 2.902878522872925, + "learning_rate": 3.4881887792484025e-07, + "loss": 0.29, + "step": 8317 + }, + { + "epoch": 2.772666666666667, + "grad_norm": 3.160085439682007, + "learning_rate": 3.478041523840836e-07, + "loss": 0.305, + "step": 8318 + }, + { + "epoch": 2.773, + "grad_norm": 2.994489908218384, + "learning_rate": 3.467908788072538e-07, + "loss": 0.3021, + "step": 8319 + }, + { + "epoch": 2.7733333333333334, + "grad_norm": 2.608375072479248, + "learning_rate": 3.457790573467812e-07, + "loss": 0.2715, + "step": 8320 + }, + { + "epoch": 2.7736666666666667, + "grad_norm": 3.680436372756958, + "learning_rate": 3.447686881548684e-07, + "loss": 0.2808, + "step": 8321 + }, + { + "epoch": 2.774, + "grad_norm": 3.0870473384857178, + "learning_rate": 3.4375977138350615e-07, + "loss": 0.2544, + "step": 8322 + }, + { + "epoch": 2.7743333333333333, + "grad_norm": 3.942054271697998, + "learning_rate": 3.4275230718446183e-07, + "loss": 0.2968, + "step": 8323 + }, + { + "epoch": 2.7746666666666666, + "grad_norm": 2.8740293979644775, + "learning_rate": 3.417462957092876e-07, + "loss": 0.3116, + "step": 8324 + }, + { + "epoch": 2.775, + "grad_norm": 2.8450169563293457, + "learning_rate": 3.4074173710931804e-07, + "loss": 0.2699, + "step": 8325 + }, + { + "epoch": 2.775333333333333, + "grad_norm": 3.3770201206207275, + "learning_rate": 3.3973863153566433e-07, + "loss": 0.2706, + "step": 8326 + }, + { + "epoch": 2.7756666666666665, + "grad_norm": 2.660689115524292, + "learning_rate": 3.3873697913922366e-07, + "loss": 0.316, + "step": 8327 + }, + { + "epoch": 2.776, + "grad_norm": 2.431788206100464, + "learning_rate": 3.377367800706732e-07, + "loss": 0.2858, + "step": 8328 + }, + { + "epoch": 2.7763333333333335, + "grad_norm": 2.437127113342285, + "learning_rate": 3.367380344804694e-07, + "loss": 0.2734, + "step": 8329 + }, + { + "epoch": 2.7766666666666664, + "grad_norm": 2.8788132667541504, + "learning_rate": 3.357407425188541e-07, + "loss": 0.2697, + "step": 8330 + }, + { + "epoch": 2.777, + "grad_norm": 3.278536081314087, + "learning_rate": 3.347449043358475e-07, + "loss": 0.2731, + "step": 8331 + }, + { + "epoch": 2.7773333333333334, + "grad_norm": 2.6594839096069336, + "learning_rate": 3.3375052008125186e-07, + "loss": 0.2865, + "step": 8332 + }, + { + "epoch": 2.7776666666666667, + "grad_norm": 3.3717551231384277, + "learning_rate": 3.3275758990464867e-07, + "loss": 0.292, + "step": 8333 + }, + { + "epoch": 2.778, + "grad_norm": 3.3321738243103027, + "learning_rate": 3.3176611395540625e-07, + "loss": 0.2833, + "step": 8334 + }, + { + "epoch": 2.7783333333333333, + "grad_norm": 2.4653139114379883, + "learning_rate": 3.307760923826697e-07, + "loss": 0.2663, + "step": 8335 + }, + { + "epoch": 2.7786666666666666, + "grad_norm": 2.817575454711914, + "learning_rate": 3.297875253353644e-07, + "loss": 0.3231, + "step": 8336 + }, + { + "epoch": 2.779, + "grad_norm": 3.1358635425567627, + "learning_rate": 3.288004129622013e-07, + "loss": 0.3248, + "step": 8337 + }, + { + "epoch": 2.779333333333333, + "grad_norm": 3.234344005584717, + "learning_rate": 3.278147554116684e-07, + "loss": 0.3167, + "step": 8338 + }, + { + "epoch": 2.7796666666666665, + "grad_norm": 2.5493152141571045, + "learning_rate": 3.2683055283203815e-07, + "loss": 0.3077, + "step": 8339 + }, + { + "epoch": 2.7800000000000002, + "grad_norm": 2.9313910007476807, + "learning_rate": 3.2584780537136206e-07, + "loss": 0.311, + "step": 8340 + }, + { + "epoch": 2.780333333333333, + "grad_norm": 2.8644235134124756, + "learning_rate": 3.2486651317747085e-07, + "loss": 0.2973, + "step": 8341 + }, + { + "epoch": 2.780666666666667, + "grad_norm": 2.598295211791992, + "learning_rate": 3.23886676397982e-07, + "loss": 0.2879, + "step": 8342 + }, + { + "epoch": 2.781, + "grad_norm": 3.976288080215454, + "learning_rate": 3.2290829518028867e-07, + "loss": 0.2884, + "step": 8343 + }, + { + "epoch": 2.7813333333333334, + "grad_norm": 2.7721927165985107, + "learning_rate": 3.219313696715676e-07, + "loss": 0.2921, + "step": 8344 + }, + { + "epoch": 2.7816666666666667, + "grad_norm": 2.715937376022339, + "learning_rate": 3.2095590001877564e-07, + "loss": 0.2405, + "step": 8345 + }, + { + "epoch": 2.782, + "grad_norm": 3.539644479751587, + "learning_rate": 3.1998188636865325e-07, + "loss": 0.2848, + "step": 8346 + }, + { + "epoch": 2.7823333333333333, + "grad_norm": 2.649953603744507, + "learning_rate": 3.1900932886771764e-07, + "loss": 0.2805, + "step": 8347 + }, + { + "epoch": 2.7826666666666666, + "grad_norm": 2.951448440551758, + "learning_rate": 3.180382276622684e-07, + "loss": 0.2813, + "step": 8348 + }, + { + "epoch": 2.783, + "grad_norm": 3.040776252746582, + "learning_rate": 3.1706858289838994e-07, + "loss": 0.3, + "step": 8349 + }, + { + "epoch": 2.783333333333333, + "grad_norm": 2.4763333797454834, + "learning_rate": 3.161003947219421e-07, + "loss": 0.2895, + "step": 8350 + }, + { + "epoch": 2.7836666666666665, + "grad_norm": 2.5979883670806885, + "learning_rate": 3.151336632785673e-07, + "loss": 0.2816, + "step": 8351 + }, + { + "epoch": 2.784, + "grad_norm": 3.443901300430298, + "learning_rate": 3.1416838871368925e-07, + "loss": 0.312, + "step": 8352 + }, + { + "epoch": 2.7843333333333335, + "grad_norm": 2.418480157852173, + "learning_rate": 3.13204571172514e-07, + "loss": 0.278, + "step": 8353 + }, + { + "epoch": 2.7846666666666664, + "grad_norm": 2.5125505924224854, + "learning_rate": 3.122422108000267e-07, + "loss": 0.2655, + "step": 8354 + }, + { + "epoch": 2.785, + "grad_norm": 3.0965936183929443, + "learning_rate": 3.112813077409926e-07, + "loss": 0.3324, + "step": 8355 + }, + { + "epoch": 2.7853333333333334, + "grad_norm": 3.1326746940612793, + "learning_rate": 3.103218621399595e-07, + "loss": 0.2816, + "step": 8356 + }, + { + "epoch": 2.7856666666666667, + "grad_norm": 2.745272397994995, + "learning_rate": 3.0936387414125633e-07, + "loss": 0.3076, + "step": 8357 + }, + { + "epoch": 2.786, + "grad_norm": 3.288262128829956, + "learning_rate": 3.0840734388898897e-07, + "loss": 0.3326, + "step": 8358 + }, + { + "epoch": 2.7863333333333333, + "grad_norm": 2.8471245765686035, + "learning_rate": 3.0745227152705005e-07, + "loss": 0.2885, + "step": 8359 + }, + { + "epoch": 2.7866666666666666, + "grad_norm": 2.851456642150879, + "learning_rate": 3.06498657199108e-07, + "loss": 0.2975, + "step": 8360 + }, + { + "epoch": 2.787, + "grad_norm": 2.5998659133911133, + "learning_rate": 3.0554650104861137e-07, + "loss": 0.2643, + "step": 8361 + }, + { + "epoch": 2.787333333333333, + "grad_norm": 3.817035436630249, + "learning_rate": 3.045958032187946e-07, + "loss": 0.3005, + "step": 8362 + }, + { + "epoch": 2.7876666666666665, + "grad_norm": 2.9516615867614746, + "learning_rate": 3.0364656385266754e-07, + "loss": 0.3055, + "step": 8363 + }, + { + "epoch": 2.7880000000000003, + "grad_norm": 2.5929133892059326, + "learning_rate": 3.026987830930239e-07, + "loss": 0.2484, + "step": 8364 + }, + { + "epoch": 2.788333333333333, + "grad_norm": 3.3542673587799072, + "learning_rate": 3.0175246108243626e-07, + "loss": 0.2664, + "step": 8365 + }, + { + "epoch": 2.788666666666667, + "grad_norm": 2.6222829818725586, + "learning_rate": 3.0080759796325743e-07, + "loss": 0.3191, + "step": 8366 + }, + { + "epoch": 2.789, + "grad_norm": 2.5384199619293213, + "learning_rate": 2.9986419387762365e-07, + "loss": 0.2904, + "step": 8367 + }, + { + "epoch": 2.7893333333333334, + "grad_norm": 3.448272466659546, + "learning_rate": 2.9892224896744925e-07, + "loss": 0.3087, + "step": 8368 + }, + { + "epoch": 2.7896666666666667, + "grad_norm": 2.823786735534668, + "learning_rate": 2.9798176337442754e-07, + "loss": 0.3211, + "step": 8369 + }, + { + "epoch": 2.79, + "grad_norm": 3.022573471069336, + "learning_rate": 2.970427372400353e-07, + "loss": 0.2635, + "step": 8370 + }, + { + "epoch": 2.7903333333333333, + "grad_norm": 2.6387434005737305, + "learning_rate": 2.9610517070552955e-07, + "loss": 0.2914, + "step": 8371 + }, + { + "epoch": 2.7906666666666666, + "grad_norm": 2.8093576431274414, + "learning_rate": 2.951690639119453e-07, + "loss": 0.3007, + "step": 8372 + }, + { + "epoch": 2.791, + "grad_norm": 2.8747739791870117, + "learning_rate": 2.94234417000101e-07, + "loss": 0.2976, + "step": 8373 + }, + { + "epoch": 2.791333333333333, + "grad_norm": 2.706172466278076, + "learning_rate": 2.933012301105942e-07, + "loss": 0.261, + "step": 8374 + }, + { + "epoch": 2.7916666666666665, + "grad_norm": 3.0327141284942627, + "learning_rate": 2.9236950338380033e-07, + "loss": 0.2751, + "step": 8375 + }, + { + "epoch": 2.792, + "grad_norm": 2.5305159091949463, + "learning_rate": 2.9143923695987955e-07, + "loss": 0.2836, + "step": 8376 + }, + { + "epoch": 2.7923333333333336, + "grad_norm": 2.8407046794891357, + "learning_rate": 2.9051043097876986e-07, + "loss": 0.3002, + "step": 8377 + }, + { + "epoch": 2.7926666666666664, + "grad_norm": 2.3326306343078613, + "learning_rate": 2.895830855801918e-07, + "loss": 0.3004, + "step": 8378 + }, + { + "epoch": 2.793, + "grad_norm": 2.712982416152954, + "learning_rate": 2.8865720090364037e-07, + "loss": 0.2605, + "step": 8379 + }, + { + "epoch": 2.7933333333333334, + "grad_norm": 2.3632571697235107, + "learning_rate": 2.877327770883964e-07, + "loss": 0.2748, + "step": 8380 + }, + { + "epoch": 2.7936666666666667, + "grad_norm": 2.4094154834747314, + "learning_rate": 2.8680981427352316e-07, + "loss": 0.2993, + "step": 8381 + }, + { + "epoch": 2.794, + "grad_norm": 3.1774280071258545, + "learning_rate": 2.858883125978551e-07, + "loss": 0.2871, + "step": 8382 + }, + { + "epoch": 2.7943333333333333, + "grad_norm": 2.8914592266082764, + "learning_rate": 2.849682722000147e-07, + "loss": 0.2714, + "step": 8383 + }, + { + "epoch": 2.7946666666666666, + "grad_norm": 2.341986894607544, + "learning_rate": 2.8404969321840115e-07, + "loss": 0.2797, + "step": 8384 + }, + { + "epoch": 2.795, + "grad_norm": 2.994255304336548, + "learning_rate": 2.831325757911985e-07, + "loss": 0.2919, + "step": 8385 + }, + { + "epoch": 2.7953333333333332, + "grad_norm": 4.448974609375, + "learning_rate": 2.8221692005636183e-07, + "loss": 0.2951, + "step": 8386 + }, + { + "epoch": 2.7956666666666665, + "grad_norm": 2.8788137435913086, + "learning_rate": 2.8130272615163547e-07, + "loss": 0.2657, + "step": 8387 + }, + { + "epoch": 2.7960000000000003, + "grad_norm": 3.8139407634735107, + "learning_rate": 2.8038999421453827e-07, + "loss": 0.2838, + "step": 8388 + }, + { + "epoch": 2.796333333333333, + "grad_norm": 3.071338653564453, + "learning_rate": 2.7947872438237157e-07, + "loss": 0.2962, + "step": 8389 + }, + { + "epoch": 2.796666666666667, + "grad_norm": 3.1540286540985107, + "learning_rate": 2.7856891679221565e-07, + "loss": 0.3035, + "step": 8390 + }, + { + "epoch": 2.797, + "grad_norm": 2.699110269546509, + "learning_rate": 2.7766057158093217e-07, + "loss": 0.3148, + "step": 8391 + }, + { + "epoch": 2.7973333333333334, + "grad_norm": 2.532961130142212, + "learning_rate": 2.7675368888516184e-07, + "loss": 0.2941, + "step": 8392 + }, + { + "epoch": 2.7976666666666667, + "grad_norm": 3.1456587314605713, + "learning_rate": 2.758482688413255e-07, + "loss": 0.2665, + "step": 8393 + }, + { + "epoch": 2.798, + "grad_norm": 3.1405959129333496, + "learning_rate": 2.749443115856232e-07, + "loss": 0.2683, + "step": 8394 + }, + { + "epoch": 2.7983333333333333, + "grad_norm": 2.95401930809021, + "learning_rate": 2.740418172540371e-07, + "loss": 0.2926, + "step": 8395 + }, + { + "epoch": 2.7986666666666666, + "grad_norm": 2.611203908920288, + "learning_rate": 2.731407859823276e-07, + "loss": 0.307, + "step": 8396 + }, + { + "epoch": 2.799, + "grad_norm": 2.1524250507354736, + "learning_rate": 2.7224121790603517e-07, + "loss": 0.2698, + "step": 8397 + }, + { + "epoch": 2.7993333333333332, + "grad_norm": 4.488427639007568, + "learning_rate": 2.7134311316047935e-07, + "loss": 0.3147, + "step": 8398 + }, + { + "epoch": 2.7996666666666665, + "grad_norm": 2.905827045440674, + "learning_rate": 2.70446471880762e-07, + "loss": 0.2759, + "step": 8399 + }, + { + "epoch": 2.8, + "grad_norm": 2.860366106033325, + "learning_rate": 2.6955129420176193e-07, + "loss": 0.3001, + "step": 8400 + }, + { + "epoch": 2.8003333333333336, + "grad_norm": 3.0491132736206055, + "learning_rate": 2.6865758025814037e-07, + "loss": 0.3206, + "step": 8401 + }, + { + "epoch": 2.8006666666666664, + "grad_norm": 3.2939507961273193, + "learning_rate": 2.6776533018433747e-07, + "loss": 0.2844, + "step": 8402 + }, + { + "epoch": 2.801, + "grad_norm": 2.425539493560791, + "learning_rate": 2.6687454411457256e-07, + "loss": 0.2808, + "step": 8403 + }, + { + "epoch": 2.8013333333333335, + "grad_norm": 5.012125015258789, + "learning_rate": 2.6598522218284407e-07, + "loss": 0.2927, + "step": 8404 + }, + { + "epoch": 2.8016666666666667, + "grad_norm": 2.699690103530884, + "learning_rate": 2.6509736452293377e-07, + "loss": 0.296, + "step": 8405 + }, + { + "epoch": 2.802, + "grad_norm": 2.456812858581543, + "learning_rate": 2.6421097126839714e-07, + "loss": 0.2745, + "step": 8406 + }, + { + "epoch": 2.8023333333333333, + "grad_norm": 3.752807140350342, + "learning_rate": 2.6332604255257635e-07, + "loss": 0.2782, + "step": 8407 + }, + { + "epoch": 2.8026666666666666, + "grad_norm": 2.7810094356536865, + "learning_rate": 2.624425785085871e-07, + "loss": 0.3028, + "step": 8408 + }, + { + "epoch": 2.803, + "grad_norm": 2.681950807571411, + "learning_rate": 2.6156057926932985e-07, + "loss": 0.2921, + "step": 8409 + }, + { + "epoch": 2.8033333333333332, + "grad_norm": 2.2608962059020996, + "learning_rate": 2.606800449674796e-07, + "loss": 0.2947, + "step": 8410 + }, + { + "epoch": 2.8036666666666665, + "grad_norm": 2.8029303550720215, + "learning_rate": 2.5980097573549467e-07, + "loss": 0.3095, + "step": 8411 + }, + { + "epoch": 2.8040000000000003, + "grad_norm": 2.9607086181640625, + "learning_rate": 2.589233717056128e-07, + "loss": 0.313, + "step": 8412 + }, + { + "epoch": 2.804333333333333, + "grad_norm": 2.906371593475342, + "learning_rate": 2.5804723300985155e-07, + "loss": 0.2987, + "step": 8413 + }, + { + "epoch": 2.804666666666667, + "grad_norm": 2.915825605392456, + "learning_rate": 2.5717255978000346e-07, + "loss": 0.2449, + "step": 8414 + }, + { + "epoch": 2.805, + "grad_norm": 2.648829221725464, + "learning_rate": 2.5629935214764866e-07, + "loss": 0.3116, + "step": 8415 + }, + { + "epoch": 2.8053333333333335, + "grad_norm": 3.0232741832733154, + "learning_rate": 2.554276102441378e-07, + "loss": 0.2972, + "step": 8416 + }, + { + "epoch": 2.8056666666666668, + "grad_norm": 2.4777352809906006, + "learning_rate": 2.5455733420060915e-07, + "loss": 0.3173, + "step": 8417 + }, + { + "epoch": 2.806, + "grad_norm": 2.656214714050293, + "learning_rate": 2.536885241479736e-07, + "loss": 0.2953, + "step": 8418 + }, + { + "epoch": 2.8063333333333333, + "grad_norm": 2.530681610107422, + "learning_rate": 2.528211802169278e-07, + "loss": 0.2837, + "step": 8419 + }, + { + "epoch": 2.8066666666666666, + "grad_norm": 2.0758183002471924, + "learning_rate": 2.51955302537944e-07, + "loss": 0.2553, + "step": 8420 + }, + { + "epoch": 2.807, + "grad_norm": 3.539945125579834, + "learning_rate": 2.510908912412746e-07, + "loss": 0.3032, + "step": 8421 + }, + { + "epoch": 2.8073333333333332, + "grad_norm": 3.508857250213623, + "learning_rate": 2.5022794645695013e-07, + "loss": 0.295, + "step": 8422 + }, + { + "epoch": 2.8076666666666665, + "grad_norm": 2.223451614379883, + "learning_rate": 2.493664683147856e-07, + "loss": 0.2637, + "step": 8423 + }, + { + "epoch": 2.808, + "grad_norm": 2.953603982925415, + "learning_rate": 2.4850645694436736e-07, + "loss": 0.318, + "step": 8424 + }, + { + "epoch": 2.8083333333333336, + "grad_norm": 4.312937259674072, + "learning_rate": 2.4764791247506967e-07, + "loss": 0.2722, + "step": 8425 + }, + { + "epoch": 2.8086666666666664, + "grad_norm": 2.402523994445801, + "learning_rate": 2.467908350360382e-07, + "loss": 0.277, + "step": 8426 + }, + { + "epoch": 2.809, + "grad_norm": 3.911569356918335, + "learning_rate": 2.4593522475620415e-07, + "loss": 0.2786, + "step": 8427 + }, + { + "epoch": 2.8093333333333335, + "grad_norm": 2.9819140434265137, + "learning_rate": 2.4508108176427457e-07, + "loss": 0.3134, + "step": 8428 + }, + { + "epoch": 2.8096666666666668, + "grad_norm": 3.08777117729187, + "learning_rate": 2.4422840618873567e-07, + "loss": 0.2979, + "step": 8429 + }, + { + "epoch": 2.81, + "grad_norm": 3.422130823135376, + "learning_rate": 2.433771981578581e-07, + "loss": 0.2619, + "step": 8430 + }, + { + "epoch": 2.8103333333333333, + "grad_norm": 3.185152292251587, + "learning_rate": 2.425274577996828e-07, + "loss": 0.282, + "step": 8431 + }, + { + "epoch": 2.8106666666666666, + "grad_norm": 3.0830440521240234, + "learning_rate": 2.416791852420375e-07, + "loss": 0.305, + "step": 8432 + }, + { + "epoch": 2.811, + "grad_norm": 2.2484328746795654, + "learning_rate": 2.4083238061252565e-07, + "loss": 0.2607, + "step": 8433 + }, + { + "epoch": 2.8113333333333332, + "grad_norm": 2.3600494861602783, + "learning_rate": 2.399870440385321e-07, + "loss": 0.2738, + "step": 8434 + }, + { + "epoch": 2.8116666666666665, + "grad_norm": 3.782472848892212, + "learning_rate": 2.3914317564721844e-07, + "loss": 0.3165, + "step": 8435 + }, + { + "epoch": 2.8120000000000003, + "grad_norm": 3.3818156719207764, + "learning_rate": 2.3830077556552424e-07, + "loss": 0.2796, + "step": 8436 + }, + { + "epoch": 2.812333333333333, + "grad_norm": 3.0425972938537598, + "learning_rate": 2.3745984392017474e-07, + "loss": 0.2791, + "step": 8437 + }, + { + "epoch": 2.812666666666667, + "grad_norm": 2.509596586227417, + "learning_rate": 2.3662038083766546e-07, + "loss": 0.2795, + "step": 8438 + }, + { + "epoch": 2.8129999999999997, + "grad_norm": 2.6219322681427, + "learning_rate": 2.3578238644427763e-07, + "loss": 0.3135, + "step": 8439 + }, + { + "epoch": 2.8133333333333335, + "grad_norm": 2.8753087520599365, + "learning_rate": 2.349458608660704e-07, + "loss": 0.2853, + "step": 8440 + }, + { + "epoch": 2.8136666666666668, + "grad_norm": 2.8073949813842773, + "learning_rate": 2.3411080422887977e-07, + "loss": 0.2813, + "step": 8441 + }, + { + "epoch": 2.814, + "grad_norm": 3.280215263366699, + "learning_rate": 2.332772166583208e-07, + "loss": 0.2909, + "step": 8442 + }, + { + "epoch": 2.8143333333333334, + "grad_norm": 2.90751576423645, + "learning_rate": 2.3244509827978988e-07, + "loss": 0.2888, + "step": 8443 + }, + { + "epoch": 2.8146666666666667, + "grad_norm": 2.7478692531585693, + "learning_rate": 2.3161444921846355e-07, + "loss": 0.2755, + "step": 8444 + }, + { + "epoch": 2.815, + "grad_norm": 2.4054925441741943, + "learning_rate": 2.307852695992907e-07, + "loss": 0.2768, + "step": 8445 + }, + { + "epoch": 2.8153333333333332, + "grad_norm": 2.7683300971984863, + "learning_rate": 2.2995755954700606e-07, + "loss": 0.2894, + "step": 8446 + }, + { + "epoch": 2.8156666666666665, + "grad_norm": 3.000392198562622, + "learning_rate": 2.2913131918611885e-07, + "loss": 0.2987, + "step": 8447 + }, + { + "epoch": 2.816, + "grad_norm": 2.1608238220214844, + "learning_rate": 2.2830654864092083e-07, + "loss": 0.2489, + "step": 8448 + }, + { + "epoch": 2.8163333333333336, + "grad_norm": 2.704861640930176, + "learning_rate": 2.274832480354805e-07, + "loss": 0.3068, + "step": 8449 + }, + { + "epoch": 2.8166666666666664, + "grad_norm": 2.8382112979888916, + "learning_rate": 2.2666141749364434e-07, + "loss": 0.2876, + "step": 8450 + }, + { + "epoch": 2.817, + "grad_norm": 2.3914103507995605, + "learning_rate": 2.2584105713904126e-07, + "loss": 0.3297, + "step": 8451 + }, + { + "epoch": 2.8173333333333335, + "grad_norm": 3.6517393589019775, + "learning_rate": 2.2502216709507475e-07, + "loss": 0.3024, + "step": 8452 + }, + { + "epoch": 2.8176666666666668, + "grad_norm": 2.358386278152466, + "learning_rate": 2.242047474849296e-07, + "loss": 0.2805, + "step": 8453 + }, + { + "epoch": 2.818, + "grad_norm": 2.3645098209381104, + "learning_rate": 2.233887984315697e-07, + "loss": 0.2519, + "step": 8454 + }, + { + "epoch": 2.8183333333333334, + "grad_norm": 3.2705883979797363, + "learning_rate": 2.2257432005773682e-07, + "loss": 0.28, + "step": 8455 + }, + { + "epoch": 2.8186666666666667, + "grad_norm": 2.872833490371704, + "learning_rate": 2.2176131248594967e-07, + "loss": 0.2585, + "step": 8456 + }, + { + "epoch": 2.819, + "grad_norm": 2.457120180130005, + "learning_rate": 2.209497758385104e-07, + "loss": 0.3296, + "step": 8457 + }, + { + "epoch": 2.8193333333333332, + "grad_norm": 3.1402790546417236, + "learning_rate": 2.201397102374947e-07, + "loss": 0.2772, + "step": 8458 + }, + { + "epoch": 2.8196666666666665, + "grad_norm": 2.6197307109832764, + "learning_rate": 2.1933111580476062e-07, + "loss": 0.2888, + "step": 8459 + }, + { + "epoch": 2.82, + "grad_norm": 2.627915382385254, + "learning_rate": 2.1852399266194312e-07, + "loss": 0.3093, + "step": 8460 + }, + { + "epoch": 2.820333333333333, + "grad_norm": 2.363823413848877, + "learning_rate": 2.1771834093045728e-07, + "loss": 0.2774, + "step": 8461 + }, + { + "epoch": 2.820666666666667, + "grad_norm": 2.478853702545166, + "learning_rate": 2.1691416073149617e-07, + "loss": 0.2858, + "step": 8462 + }, + { + "epoch": 2.8209999999999997, + "grad_norm": 2.5034079551696777, + "learning_rate": 2.161114521860308e-07, + "loss": 0.302, + "step": 8463 + }, + { + "epoch": 2.8213333333333335, + "grad_norm": 2.9135031700134277, + "learning_rate": 2.153102154148101e-07, + "loss": 0.2957, + "step": 8464 + }, + { + "epoch": 2.8216666666666668, + "grad_norm": 2.8313584327697754, + "learning_rate": 2.145104505383655e-07, + "loss": 0.2834, + "step": 8465 + }, + { + "epoch": 2.822, + "grad_norm": 2.791099786758423, + "learning_rate": 2.137121576770007e-07, + "loss": 0.2933, + "step": 8466 + }, + { + "epoch": 2.8223333333333334, + "grad_norm": 3.119708299636841, + "learning_rate": 2.1291533695080412e-07, + "loss": 0.3324, + "step": 8467 + }, + { + "epoch": 2.8226666666666667, + "grad_norm": 3.24271821975708, + "learning_rate": 2.1211998847963876e-07, + "loss": 0.2883, + "step": 8468 + }, + { + "epoch": 2.823, + "grad_norm": 2.8883538246154785, + "learning_rate": 2.1132611238315004e-07, + "loss": 0.3032, + "step": 8469 + }, + { + "epoch": 2.8233333333333333, + "grad_norm": 2.7810299396514893, + "learning_rate": 2.1053370878075685e-07, + "loss": 0.3261, + "step": 8470 + }, + { + "epoch": 2.8236666666666665, + "grad_norm": 3.9223506450653076, + "learning_rate": 2.0974277779166054e-07, + "loss": 0.3296, + "step": 8471 + }, + { + "epoch": 2.824, + "grad_norm": 2.3617172241210938, + "learning_rate": 2.089533195348392e-07, + "loss": 0.3021, + "step": 8472 + }, + { + "epoch": 2.8243333333333336, + "grad_norm": 2.8661937713623047, + "learning_rate": 2.0816533412905016e-07, + "loss": 0.2999, + "step": 8473 + }, + { + "epoch": 2.8246666666666664, + "grad_norm": 2.608950614929199, + "learning_rate": 2.073788216928274e-07, + "loss": 0.3011, + "step": 8474 + }, + { + "epoch": 2.825, + "grad_norm": 2.713059186935425, + "learning_rate": 2.0659378234448524e-07, + "loss": 0.289, + "step": 8475 + }, + { + "epoch": 2.8253333333333335, + "grad_norm": 3.3453612327575684, + "learning_rate": 2.0581021620211694e-07, + "loss": 0.284, + "step": 8476 + }, + { + "epoch": 2.8256666666666668, + "grad_norm": 2.5697922706604004, + "learning_rate": 2.0502812338359157e-07, + "loss": 0.2835, + "step": 8477 + }, + { + "epoch": 2.826, + "grad_norm": 2.98109769821167, + "learning_rate": 2.0424750400655947e-07, + "loss": 0.3014, + "step": 8478 + }, + { + "epoch": 2.8263333333333334, + "grad_norm": 2.8311524391174316, + "learning_rate": 2.034683581884478e-07, + "loss": 0.2729, + "step": 8479 + }, + { + "epoch": 2.8266666666666667, + "grad_norm": 3.1724915504455566, + "learning_rate": 2.0269068604646058e-07, + "loss": 0.2817, + "step": 8480 + }, + { + "epoch": 2.827, + "grad_norm": 3.736510992050171, + "learning_rate": 2.0191448769758315e-07, + "loss": 0.3222, + "step": 8481 + }, + { + "epoch": 2.8273333333333333, + "grad_norm": 2.757519006729126, + "learning_rate": 2.0113976325857764e-07, + "loss": 0.3098, + "step": 8482 + }, + { + "epoch": 2.8276666666666666, + "grad_norm": 2.486894130706787, + "learning_rate": 2.0036651284598417e-07, + "loss": 0.2662, + "step": 8483 + }, + { + "epoch": 2.828, + "grad_norm": 2.6784121990203857, + "learning_rate": 1.9959473657612193e-07, + "loss": 0.294, + "step": 8484 + }, + { + "epoch": 2.828333333333333, + "grad_norm": 2.648362159729004, + "learning_rate": 1.9882443456508693e-07, + "loss": 0.2469, + "step": 8485 + }, + { + "epoch": 2.828666666666667, + "grad_norm": 2.2542364597320557, + "learning_rate": 1.9805560692875647e-07, + "loss": 0.2825, + "step": 8486 + }, + { + "epoch": 2.8289999999999997, + "grad_norm": 2.3619558811187744, + "learning_rate": 1.9728825378278248e-07, + "loss": 0.3024, + "step": 8487 + }, + { + "epoch": 2.8293333333333335, + "grad_norm": 3.103562831878662, + "learning_rate": 1.9652237524259598e-07, + "loss": 0.2686, + "step": 8488 + }, + { + "epoch": 2.8296666666666668, + "grad_norm": 3.172369956970215, + "learning_rate": 1.9575797142340813e-07, + "loss": 0.2751, + "step": 8489 + }, + { + "epoch": 2.83, + "grad_norm": 2.4482405185699463, + "learning_rate": 1.9499504244020694e-07, + "loss": 0.2269, + "step": 8490 + }, + { + "epoch": 2.8303333333333334, + "grad_norm": 2.7619004249572754, + "learning_rate": 1.942335884077584e-07, + "loss": 0.2765, + "step": 8491 + }, + { + "epoch": 2.8306666666666667, + "grad_norm": 2.269702434539795, + "learning_rate": 1.9347360944060644e-07, + "loss": 0.2762, + "step": 8492 + }, + { + "epoch": 2.831, + "grad_norm": 2.3082826137542725, + "learning_rate": 1.9271510565307405e-07, + "loss": 0.2891, + "step": 8493 + }, + { + "epoch": 2.8313333333333333, + "grad_norm": 3.228372573852539, + "learning_rate": 1.9195807715925995e-07, + "loss": 0.2703, + "step": 8494 + }, + { + "epoch": 2.8316666666666666, + "grad_norm": 2.672389030456543, + "learning_rate": 1.912025240730453e-07, + "loss": 0.2172, + "step": 8495 + }, + { + "epoch": 2.832, + "grad_norm": 2.6006531715393066, + "learning_rate": 1.9044844650808468e-07, + "loss": 0.2689, + "step": 8496 + }, + { + "epoch": 2.8323333333333336, + "grad_norm": 3.3203585147857666, + "learning_rate": 1.8969584457781408e-07, + "loss": 0.3243, + "step": 8497 + }, + { + "epoch": 2.8326666666666664, + "grad_norm": 3.0694737434387207, + "learning_rate": 1.8894471839544404e-07, + "loss": 0.2636, + "step": 8498 + }, + { + "epoch": 2.833, + "grad_norm": 2.698992967605591, + "learning_rate": 1.8819506807396748e-07, + "loss": 0.2758, + "step": 8499 + }, + { + "epoch": 2.8333333333333335, + "grad_norm": 3.0152175426483154, + "learning_rate": 1.874468937261531e-07, + "loss": 0.2604, + "step": 8500 + }, + { + "epoch": 2.833666666666667, + "grad_norm": 2.3380043506622314, + "learning_rate": 1.8670019546454642e-07, + "loss": 0.2695, + "step": 8501 + }, + { + "epoch": 2.834, + "grad_norm": 2.711803674697876, + "learning_rate": 1.8595497340147316e-07, + "loss": 0.2756, + "step": 8502 + }, + { + "epoch": 2.8343333333333334, + "grad_norm": 2.7590878009796143, + "learning_rate": 1.8521122764903366e-07, + "loss": 0.2765, + "step": 8503 + }, + { + "epoch": 2.8346666666666667, + "grad_norm": 3.684164524078369, + "learning_rate": 1.844689583191106e-07, + "loss": 0.2876, + "step": 8504 + }, + { + "epoch": 2.835, + "grad_norm": 3.112046957015991, + "learning_rate": 1.8372816552336025e-07, + "loss": 0.3146, + "step": 8505 + }, + { + "epoch": 2.8353333333333333, + "grad_norm": 2.813977003097534, + "learning_rate": 1.8298884937322125e-07, + "loss": 0.2902, + "step": 8506 + }, + { + "epoch": 2.8356666666666666, + "grad_norm": 3.0428693294525146, + "learning_rate": 1.8225100997990686e-07, + "loss": 0.2673, + "step": 8507 + }, + { + "epoch": 2.836, + "grad_norm": 2.5091631412506104, + "learning_rate": 1.8151464745440828e-07, + "loss": 0.2724, + "step": 8508 + }, + { + "epoch": 2.836333333333333, + "grad_norm": 2.6484665870666504, + "learning_rate": 1.8077976190749468e-07, + "loss": 0.2814, + "step": 8509 + }, + { + "epoch": 2.836666666666667, + "grad_norm": 3.3117446899414062, + "learning_rate": 1.8004635344971656e-07, + "loss": 0.295, + "step": 8510 + }, + { + "epoch": 2.8369999999999997, + "grad_norm": 3.0556540489196777, + "learning_rate": 1.793144221913967e-07, + "loss": 0.2869, + "step": 8511 + }, + { + "epoch": 2.8373333333333335, + "grad_norm": 2.703782320022583, + "learning_rate": 1.7858396824263936e-07, + "loss": 0.3164, + "step": 8512 + }, + { + "epoch": 2.837666666666667, + "grad_norm": 3.283433675765991, + "learning_rate": 1.7785499171332543e-07, + "loss": 0.2749, + "step": 8513 + }, + { + "epoch": 2.838, + "grad_norm": 2.753570795059204, + "learning_rate": 1.7712749271311392e-07, + "loss": 0.2875, + "step": 8514 + }, + { + "epoch": 2.8383333333333334, + "grad_norm": 2.2979373931884766, + "learning_rate": 1.764014713514406e-07, + "loss": 0.2848, + "step": 8515 + }, + { + "epoch": 2.8386666666666667, + "grad_norm": 3.252068281173706, + "learning_rate": 1.756769277375192e-07, + "loss": 0.2538, + "step": 8516 + }, + { + "epoch": 2.839, + "grad_norm": 2.3271217346191406, + "learning_rate": 1.7495386198034258e-07, + "loss": 0.3027, + "step": 8517 + }, + { + "epoch": 2.8393333333333333, + "grad_norm": 3.358750343322754, + "learning_rate": 1.742322741886815e-07, + "loss": 0.2574, + "step": 8518 + }, + { + "epoch": 2.8396666666666666, + "grad_norm": 2.2151944637298584, + "learning_rate": 1.7351216447108133e-07, + "loss": 0.2609, + "step": 8519 + }, + { + "epoch": 2.84, + "grad_norm": 3.010938882827759, + "learning_rate": 1.7279353293586765e-07, + "loss": 0.2776, + "step": 8520 + }, + { + "epoch": 2.8403333333333336, + "grad_norm": 2.812903881072998, + "learning_rate": 1.7207637969114287e-07, + "loss": 0.2636, + "step": 8521 + }, + { + "epoch": 2.8406666666666665, + "grad_norm": 2.3950698375701904, + "learning_rate": 1.713607048447874e-07, + "loss": 0.3133, + "step": 8522 + }, + { + "epoch": 2.841, + "grad_norm": 2.5339038372039795, + "learning_rate": 1.706465085044584e-07, + "loss": 0.2543, + "step": 8523 + }, + { + "epoch": 2.8413333333333335, + "grad_norm": 2.9434051513671875, + "learning_rate": 1.699337907775911e-07, + "loss": 0.2737, + "step": 8524 + }, + { + "epoch": 2.841666666666667, + "grad_norm": 3.3173794746398926, + "learning_rate": 1.6922255177140078e-07, + "loss": 0.263, + "step": 8525 + }, + { + "epoch": 2.842, + "grad_norm": 3.9074652194976807, + "learning_rate": 1.6851279159287526e-07, + "loss": 0.3157, + "step": 8526 + }, + { + "epoch": 2.8423333333333334, + "grad_norm": 2.7345125675201416, + "learning_rate": 1.6780451034878242e-07, + "loss": 0.2833, + "step": 8527 + }, + { + "epoch": 2.8426666666666667, + "grad_norm": 2.685469388961792, + "learning_rate": 1.670977081456715e-07, + "loss": 0.2921, + "step": 8528 + }, + { + "epoch": 2.843, + "grad_norm": 2.3565609455108643, + "learning_rate": 1.6639238508986188e-07, + "loss": 0.2495, + "step": 8529 + }, + { + "epoch": 2.8433333333333333, + "grad_norm": 2.86283802986145, + "learning_rate": 1.6568854128745537e-07, + "loss": 0.2843, + "step": 8530 + }, + { + "epoch": 2.8436666666666666, + "grad_norm": 2.883310317993164, + "learning_rate": 1.649861768443295e-07, + "loss": 0.2813, + "step": 8531 + }, + { + "epoch": 2.844, + "grad_norm": 3.3201358318328857, + "learning_rate": 1.6428529186614195e-07, + "loss": 0.2881, + "step": 8532 + }, + { + "epoch": 2.844333333333333, + "grad_norm": 2.5310287475585938, + "learning_rate": 1.6358588645832286e-07, + "loss": 0.2723, + "step": 8533 + }, + { + "epoch": 2.844666666666667, + "grad_norm": 2.7296600341796875, + "learning_rate": 1.628879607260836e-07, + "loss": 0.2657, + "step": 8534 + }, + { + "epoch": 2.8449999999999998, + "grad_norm": 2.5368003845214844, + "learning_rate": 1.6219151477441243e-07, + "loss": 0.2696, + "step": 8535 + }, + { + "epoch": 2.8453333333333335, + "grad_norm": 2.6569907665252686, + "learning_rate": 1.614965487080744e-07, + "loss": 0.2731, + "step": 8536 + }, + { + "epoch": 2.845666666666667, + "grad_norm": 2.967137336730957, + "learning_rate": 1.6080306263161262e-07, + "loss": 0.2899, + "step": 8537 + }, + { + "epoch": 2.846, + "grad_norm": 2.837069511413574, + "learning_rate": 1.601110566493458e-07, + "loss": 0.2687, + "step": 8538 + }, + { + "epoch": 2.8463333333333334, + "grad_norm": 2.973479747772217, + "learning_rate": 1.594205308653729e-07, + "loss": 0.2897, + "step": 8539 + }, + { + "epoch": 2.8466666666666667, + "grad_norm": 2.749483823776245, + "learning_rate": 1.5873148538356752e-07, + "loss": 0.3098, + "step": 8540 + }, + { + "epoch": 2.847, + "grad_norm": 3.7464888095855713, + "learning_rate": 1.580439203075812e-07, + "loss": 0.2996, + "step": 8541 + }, + { + "epoch": 2.8473333333333333, + "grad_norm": 2.921483039855957, + "learning_rate": 1.573578357408434e-07, + "loss": 0.2802, + "step": 8542 + }, + { + "epoch": 2.8476666666666666, + "grad_norm": 3.1894638538360596, + "learning_rate": 1.566732317865627e-07, + "loss": 0.3002, + "step": 8543 + }, + { + "epoch": 2.848, + "grad_norm": 2.5340383052825928, + "learning_rate": 1.5599010854772002e-07, + "loss": 0.2404, + "step": 8544 + }, + { + "epoch": 2.8483333333333336, + "grad_norm": 3.830690383911133, + "learning_rate": 1.5530846612707763e-07, + "loss": 0.2697, + "step": 8545 + }, + { + "epoch": 2.8486666666666665, + "grad_norm": 2.644911289215088, + "learning_rate": 1.546283046271746e-07, + "loss": 0.2961, + "step": 8546 + }, + { + "epoch": 2.849, + "grad_norm": 2.1910223960876465, + "learning_rate": 1.5394962415032578e-07, + "loss": 0.2632, + "step": 8547 + }, + { + "epoch": 2.8493333333333335, + "grad_norm": 2.679380416870117, + "learning_rate": 1.5327242479862504e-07, + "loss": 0.2821, + "step": 8548 + }, + { + "epoch": 2.849666666666667, + "grad_norm": 3.0758249759674072, + "learning_rate": 1.5259670667393977e-07, + "loss": 0.2727, + "step": 8549 + }, + { + "epoch": 2.85, + "grad_norm": 2.958756446838379, + "learning_rate": 1.519224698779198e-07, + "loss": 0.2993, + "step": 8550 + }, + { + "epoch": 2.8503333333333334, + "grad_norm": 2.622465133666992, + "learning_rate": 1.5124971451198843e-07, + "loss": 0.2762, + "step": 8551 + }, + { + "epoch": 2.8506666666666667, + "grad_norm": 3.394974946975708, + "learning_rate": 1.5057844067734694e-07, + "loss": 0.2432, + "step": 8552 + }, + { + "epoch": 2.851, + "grad_norm": 2.9089713096618652, + "learning_rate": 1.4990864847497456e-07, + "loss": 0.2973, + "step": 8553 + }, + { + "epoch": 2.8513333333333333, + "grad_norm": 2.5407602787017822, + "learning_rate": 1.4924033800562622e-07, + "loss": 0.3046, + "step": 8554 + }, + { + "epoch": 2.8516666666666666, + "grad_norm": 2.6311750411987305, + "learning_rate": 1.4857350936983484e-07, + "loss": 0.2929, + "step": 8555 + }, + { + "epoch": 2.852, + "grad_norm": 2.5765271186828613, + "learning_rate": 1.4790816266791018e-07, + "loss": 0.283, + "step": 8556 + }, + { + "epoch": 2.852333333333333, + "grad_norm": 3.7187862396240234, + "learning_rate": 1.4724429799994112e-07, + "loss": 0.2641, + "step": 8557 + }, + { + "epoch": 2.852666666666667, + "grad_norm": 2.308349370956421, + "learning_rate": 1.4658191546579103e-07, + "loss": 0.279, + "step": 8558 + }, + { + "epoch": 2.8529999999999998, + "grad_norm": 2.6314029693603516, + "learning_rate": 1.4592101516509916e-07, + "loss": 0.2939, + "step": 8559 + }, + { + "epoch": 2.8533333333333335, + "grad_norm": 3.081660270690918, + "learning_rate": 1.4526159719728595e-07, + "loss": 0.3147, + "step": 8560 + }, + { + "epoch": 2.853666666666667, + "grad_norm": 3.1490097045898438, + "learning_rate": 1.4460366166154428e-07, + "loss": 0.3253, + "step": 8561 + }, + { + "epoch": 2.854, + "grad_norm": 2.228541851043701, + "learning_rate": 1.4394720865684718e-07, + "loss": 0.2863, + "step": 8562 + }, + { + "epoch": 2.8543333333333334, + "grad_norm": 2.9330060482025146, + "learning_rate": 1.432922382819446e-07, + "loss": 0.3038, + "step": 8563 + }, + { + "epoch": 2.8546666666666667, + "grad_norm": 2.6426005363464355, + "learning_rate": 1.4263875063536326e-07, + "loss": 0.2999, + "step": 8564 + }, + { + "epoch": 2.855, + "grad_norm": 3.000373601913452, + "learning_rate": 1.419867458154034e-07, + "loss": 0.2847, + "step": 8565 + }, + { + "epoch": 2.8553333333333333, + "grad_norm": 2.588479995727539, + "learning_rate": 1.4133622392014767e-07, + "loss": 0.3009, + "step": 8566 + }, + { + "epoch": 2.8556666666666666, + "grad_norm": 2.515491008758545, + "learning_rate": 1.4068718504745227e-07, + "loss": 0.2847, + "step": 8567 + }, + { + "epoch": 2.856, + "grad_norm": 3.3895888328552246, + "learning_rate": 1.400396292949513e-07, + "loss": 0.3056, + "step": 8568 + }, + { + "epoch": 2.856333333333333, + "grad_norm": 2.396423578262329, + "learning_rate": 1.3939355676005462e-07, + "loss": 0.3173, + "step": 8569 + }, + { + "epoch": 2.8566666666666665, + "grad_norm": 2.9205594062805176, + "learning_rate": 1.3874896753995005e-07, + "loss": 0.3138, + "step": 8570 + }, + { + "epoch": 2.857, + "grad_norm": 2.431055784225464, + "learning_rate": 1.3810586173160224e-07, + "loss": 0.2541, + "step": 8571 + }, + { + "epoch": 2.857333333333333, + "grad_norm": 2.777193546295166, + "learning_rate": 1.374642394317527e-07, + "loss": 0.2995, + "step": 8572 + }, + { + "epoch": 2.857666666666667, + "grad_norm": 2.688917875289917, + "learning_rate": 1.3682410073691975e-07, + "loss": 0.2983, + "step": 8573 + }, + { + "epoch": 2.858, + "grad_norm": 2.7495930194854736, + "learning_rate": 1.3618544574339976e-07, + "loss": 0.2593, + "step": 8574 + }, + { + "epoch": 2.8583333333333334, + "grad_norm": 2.9353652000427246, + "learning_rate": 1.3554827454726137e-07, + "loss": 0.2838, + "step": 8575 + }, + { + "epoch": 2.8586666666666667, + "grad_norm": 2.637629270553589, + "learning_rate": 1.3491258724435463e-07, + "loss": 0.3, + "step": 8576 + }, + { + "epoch": 2.859, + "grad_norm": 3.0940937995910645, + "learning_rate": 1.3427838393030634e-07, + "loss": 0.3165, + "step": 8577 + }, + { + "epoch": 2.8593333333333333, + "grad_norm": 2.792898654937744, + "learning_rate": 1.3364566470051687e-07, + "loss": 0.2666, + "step": 8578 + }, + { + "epoch": 2.8596666666666666, + "grad_norm": 2.9466781616210938, + "learning_rate": 1.3301442965016565e-07, + "loss": 0.2916, + "step": 8579 + }, + { + "epoch": 2.86, + "grad_norm": 2.9730241298675537, + "learning_rate": 1.323846788742078e-07, + "loss": 0.3183, + "step": 8580 + }, + { + "epoch": 2.860333333333333, + "grad_norm": 3.0455360412597656, + "learning_rate": 1.3175641246737758e-07, + "loss": 0.2659, + "step": 8581 + }, + { + "epoch": 2.860666666666667, + "grad_norm": 2.9992494583129883, + "learning_rate": 1.311296305241827e-07, + "loss": 0.2937, + "step": 8582 + }, + { + "epoch": 2.8609999999999998, + "grad_norm": 3.180490493774414, + "learning_rate": 1.3050433313890774e-07, + "loss": 0.282, + "step": 8583 + }, + { + "epoch": 2.8613333333333335, + "grad_norm": 2.379277467727661, + "learning_rate": 1.298805204056175e-07, + "loss": 0.2687, + "step": 8584 + }, + { + "epoch": 2.861666666666667, + "grad_norm": 2.8777103424072266, + "learning_rate": 1.292581924181502e-07, + "loss": 0.2892, + "step": 8585 + }, + { + "epoch": 2.862, + "grad_norm": 2.534475564956665, + "learning_rate": 1.2863734927012094e-07, + "loss": 0.2732, + "step": 8586 + }, + { + "epoch": 2.8623333333333334, + "grad_norm": 2.5848443508148193, + "learning_rate": 1.2801799105492286e-07, + "loss": 0.2728, + "step": 8587 + }, + { + "epoch": 2.8626666666666667, + "grad_norm": 2.463024139404297, + "learning_rate": 1.2740011786572582e-07, + "loss": 0.2943, + "step": 8588 + }, + { + "epoch": 2.863, + "grad_norm": 2.9870657920837402, + "learning_rate": 1.2678372979547326e-07, + "loss": 0.2884, + "step": 8589 + }, + { + "epoch": 2.8633333333333333, + "grad_norm": 2.8964221477508545, + "learning_rate": 1.261688269368877e-07, + "loss": 0.2981, + "step": 8590 + }, + { + "epoch": 2.8636666666666666, + "grad_norm": 2.9635372161865234, + "learning_rate": 1.2555540938246956e-07, + "loss": 0.2758, + "step": 8591 + }, + { + "epoch": 2.864, + "grad_norm": 2.5816407203674316, + "learning_rate": 1.2494347722449506e-07, + "loss": 0.2847, + "step": 8592 + }, + { + "epoch": 2.864333333333333, + "grad_norm": 2.6957786083221436, + "learning_rate": 1.243330305550128e-07, + "loss": 0.2878, + "step": 8593 + }, + { + "epoch": 2.8646666666666665, + "grad_norm": 2.51493501663208, + "learning_rate": 1.2372406946585368e-07, + "loss": 0.3107, + "step": 8594 + }, + { + "epoch": 2.865, + "grad_norm": 2.604076623916626, + "learning_rate": 1.231165940486234e-07, + "loss": 0.2541, + "step": 8595 + }, + { + "epoch": 2.865333333333333, + "grad_norm": 3.4970085620880127, + "learning_rate": 1.2251060439469996e-07, + "loss": 0.2821, + "step": 8596 + }, + { + "epoch": 2.865666666666667, + "grad_norm": 2.5994515419006348, + "learning_rate": 1.21906100595246e-07, + "loss": 0.2919, + "step": 8597 + }, + { + "epoch": 2.866, + "grad_norm": 2.7311511039733887, + "learning_rate": 1.2130308274119207e-07, + "loss": 0.2709, + "step": 8598 + }, + { + "epoch": 2.8663333333333334, + "grad_norm": 3.2737510204315186, + "learning_rate": 1.207015509232512e-07, + "loss": 0.2913, + "step": 8599 + }, + { + "epoch": 2.8666666666666667, + "grad_norm": 2.9339077472686768, + "learning_rate": 1.201015052319099e-07, + "loss": 0.2786, + "step": 8600 + }, + { + "epoch": 2.867, + "grad_norm": 3.3256022930145264, + "learning_rate": 1.1950294575743372e-07, + "loss": 0.2883, + "step": 8601 + }, + { + "epoch": 2.8673333333333333, + "grad_norm": 2.86430287361145, + "learning_rate": 1.1890587258986063e-07, + "loss": 0.3163, + "step": 8602 + }, + { + "epoch": 2.8676666666666666, + "grad_norm": 2.835360527038574, + "learning_rate": 1.1831028581900883e-07, + "loss": 0.3062, + "step": 8603 + }, + { + "epoch": 2.868, + "grad_norm": 2.2867603302001953, + "learning_rate": 1.1771618553447217e-07, + "loss": 0.2567, + "step": 8604 + }, + { + "epoch": 2.868333333333333, + "grad_norm": 2.808540105819702, + "learning_rate": 1.1712357182561806e-07, + "loss": 0.3175, + "step": 8605 + }, + { + "epoch": 2.868666666666667, + "grad_norm": 2.8501803874969482, + "learning_rate": 1.1653244478159409e-07, + "loss": 0.2975, + "step": 8606 + }, + { + "epoch": 2.8689999999999998, + "grad_norm": 2.7435030937194824, + "learning_rate": 1.1594280449132245e-07, + "loss": 0.2968, + "step": 8607 + }, + { + "epoch": 2.8693333333333335, + "grad_norm": 2.929011106491089, + "learning_rate": 1.1535465104349997e-07, + "loss": 0.2931, + "step": 8608 + }, + { + "epoch": 2.869666666666667, + "grad_norm": 2.618600368499756, + "learning_rate": 1.1476798452660365e-07, + "loss": 0.2588, + "step": 8609 + }, + { + "epoch": 2.87, + "grad_norm": 2.8008804321289062, + "learning_rate": 1.1418280502888401e-07, + "loss": 0.2738, + "step": 8610 + }, + { + "epoch": 2.8703333333333334, + "grad_norm": 2.572878122329712, + "learning_rate": 1.1359911263836731e-07, + "loss": 0.2917, + "step": 8611 + }, + { + "epoch": 2.8706666666666667, + "grad_norm": 2.9795801639556885, + "learning_rate": 1.1301690744285999e-07, + "loss": 0.2837, + "step": 8612 + }, + { + "epoch": 2.871, + "grad_norm": 2.5878429412841797, + "learning_rate": 1.1243618952994195e-07, + "loss": 0.3098, + "step": 8613 + }, + { + "epoch": 2.8713333333333333, + "grad_norm": 2.4171504974365234, + "learning_rate": 1.118569589869667e-07, + "loss": 0.308, + "step": 8614 + }, + { + "epoch": 2.8716666666666666, + "grad_norm": 4.084155559539795, + "learning_rate": 1.1127921590107116e-07, + "loss": 0.2871, + "step": 8615 + }, + { + "epoch": 2.872, + "grad_norm": 3.252408266067505, + "learning_rate": 1.1070296035916028e-07, + "loss": 0.2799, + "step": 8616 + }, + { + "epoch": 2.872333333333333, + "grad_norm": 2.4763107299804688, + "learning_rate": 1.1012819244792139e-07, + "loss": 0.2622, + "step": 8617 + }, + { + "epoch": 2.8726666666666665, + "grad_norm": 2.6447033882141113, + "learning_rate": 1.0955491225381532e-07, + "loss": 0.2709, + "step": 8618 + }, + { + "epoch": 2.873, + "grad_norm": 2.57774019241333, + "learning_rate": 1.0898311986307975e-07, + "loss": 0.2814, + "step": 8619 + }, + { + "epoch": 2.873333333333333, + "grad_norm": 2.626086711883545, + "learning_rate": 1.084128153617292e-07, + "loss": 0.2822, + "step": 8620 + }, + { + "epoch": 2.873666666666667, + "grad_norm": 2.822120189666748, + "learning_rate": 1.0784399883555286e-07, + "loss": 0.2772, + "step": 8621 + }, + { + "epoch": 2.874, + "grad_norm": 2.3211913108825684, + "learning_rate": 1.0727667037011668e-07, + "loss": 0.2705, + "step": 8622 + }, + { + "epoch": 2.8743333333333334, + "grad_norm": 2.6747591495513916, + "learning_rate": 1.0671083005076355e-07, + "loss": 0.2783, + "step": 8623 + }, + { + "epoch": 2.8746666666666667, + "grad_norm": 2.312924861907959, + "learning_rate": 1.0614647796261091e-07, + "loss": 0.2862, + "step": 8624 + }, + { + "epoch": 2.875, + "grad_norm": 2.885512351989746, + "learning_rate": 1.055836141905553e-07, + "loss": 0.2855, + "step": 8625 + }, + { + "epoch": 2.8753333333333333, + "grad_norm": 2.5062198638916016, + "learning_rate": 1.0502223881926455e-07, + "loss": 0.2846, + "step": 8626 + }, + { + "epoch": 2.8756666666666666, + "grad_norm": 2.5081191062927246, + "learning_rate": 1.0446235193318888e-07, + "loss": 0.2646, + "step": 8627 + }, + { + "epoch": 2.876, + "grad_norm": 3.0488548278808594, + "learning_rate": 1.039039536165476e-07, + "loss": 0.2366, + "step": 8628 + }, + { + "epoch": 2.876333333333333, + "grad_norm": 2.926452398300171, + "learning_rate": 1.0334704395334128e-07, + "loss": 0.3012, + "step": 8629 + }, + { + "epoch": 2.876666666666667, + "grad_norm": 2.5537853240966797, + "learning_rate": 1.0279162302734624e-07, + "loss": 0.2843, + "step": 8630 + }, + { + "epoch": 2.877, + "grad_norm": 2.5672736167907715, + "learning_rate": 1.0223769092211012e-07, + "loss": 0.2954, + "step": 8631 + }, + { + "epoch": 2.8773333333333335, + "grad_norm": 3.199566125869751, + "learning_rate": 1.01685247720964e-07, + "loss": 0.2681, + "step": 8632 + }, + { + "epoch": 2.877666666666667, + "grad_norm": 3.187988519668579, + "learning_rate": 1.011342935070081e-07, + "loss": 0.278, + "step": 8633 + }, + { + "epoch": 2.878, + "grad_norm": 3.052889108657837, + "learning_rate": 1.0058482836312278e-07, + "loss": 0.2688, + "step": 8634 + }, + { + "epoch": 2.8783333333333334, + "grad_norm": 3.350341558456421, + "learning_rate": 1.0003685237196415e-07, + "loss": 0.2877, + "step": 8635 + }, + { + "epoch": 2.8786666666666667, + "grad_norm": 2.588665008544922, + "learning_rate": 9.94903656159607e-08, + "loss": 0.2842, + "step": 8636 + }, + { + "epoch": 2.879, + "grad_norm": 2.5513756275177, + "learning_rate": 9.894536817732226e-08, + "loss": 0.314, + "step": 8637 + }, + { + "epoch": 2.8793333333333333, + "grad_norm": 2.8403027057647705, + "learning_rate": 9.840186013802989e-08, + "loss": 0.2797, + "step": 8638 + }, + { + "epoch": 2.8796666666666666, + "grad_norm": 3.5188074111938477, + "learning_rate": 9.785984157984263e-08, + "loss": 0.2546, + "step": 8639 + }, + { + "epoch": 2.88, + "grad_norm": 2.9582231044769287, + "learning_rate": 9.731931258429638e-08, + "loss": 0.2977, + "step": 8640 + }, + { + "epoch": 2.880333333333333, + "grad_norm": 2.9949629306793213, + "learning_rate": 9.678027323270278e-08, + "loss": 0.3079, + "step": 8641 + }, + { + "epoch": 2.8806666666666665, + "grad_norm": 2.568183660507202, + "learning_rate": 9.624272360614695e-08, + "loss": 0.3122, + "step": 8642 + }, + { + "epoch": 2.8810000000000002, + "grad_norm": 3.9623780250549316, + "learning_rate": 9.57066637854931e-08, + "loss": 0.3027, + "step": 8643 + }, + { + "epoch": 2.881333333333333, + "grad_norm": 2.8063290119171143, + "learning_rate": 9.517209385137893e-08, + "loss": 0.3017, + "step": 8644 + }, + { + "epoch": 2.881666666666667, + "grad_norm": 3.093501329421997, + "learning_rate": 9.463901388421792e-08, + "loss": 0.3118, + "step": 8645 + }, + { + "epoch": 2.882, + "grad_norm": 2.3434338569641113, + "learning_rate": 9.410742396420259e-08, + "loss": 0.2975, + "step": 8646 + }, + { + "epoch": 2.8823333333333334, + "grad_norm": 4.060275077819824, + "learning_rate": 9.357732417129783e-08, + "loss": 0.2986, + "step": 8647 + }, + { + "epoch": 2.8826666666666667, + "grad_norm": 2.4547958374023438, + "learning_rate": 9.304871458524545e-08, + "loss": 0.2738, + "step": 8648 + }, + { + "epoch": 2.883, + "grad_norm": 3.056788206100464, + "learning_rate": 9.252159528556404e-08, + "loss": 0.2595, + "step": 8649 + }, + { + "epoch": 2.8833333333333333, + "grad_norm": 2.6070902347564697, + "learning_rate": 9.199596635154684e-08, + "loss": 0.3009, + "step": 8650 + }, + { + "epoch": 2.8836666666666666, + "grad_norm": 2.5117597579956055, + "learning_rate": 9.147182786226394e-08, + "loss": 0.2907, + "step": 8651 + }, + { + "epoch": 2.884, + "grad_norm": 2.9919381141662598, + "learning_rate": 9.094917989656005e-08, + "loss": 0.292, + "step": 8652 + }, + { + "epoch": 2.884333333333333, + "grad_norm": 2.8909149169921875, + "learning_rate": 9.042802253305671e-08, + "loss": 0.3017, + "step": 8653 + }, + { + "epoch": 2.884666666666667, + "grad_norm": 2.456644296646118, + "learning_rate": 8.990835585015013e-08, + "loss": 0.3121, + "step": 8654 + }, + { + "epoch": 2.885, + "grad_norm": 2.683159351348877, + "learning_rate": 8.939017992601329e-08, + "loss": 0.2733, + "step": 8655 + }, + { + "epoch": 2.8853333333333335, + "grad_norm": 3.0864675045013428, + "learning_rate": 8.887349483859386e-08, + "loss": 0.2872, + "step": 8656 + }, + { + "epoch": 2.885666666666667, + "grad_norm": 3.1093039512634277, + "learning_rate": 8.835830066561746e-08, + "loss": 0.2746, + "step": 8657 + }, + { + "epoch": 2.886, + "grad_norm": 2.663114309310913, + "learning_rate": 8.784459748458318e-08, + "loss": 0.308, + "step": 8658 + }, + { + "epoch": 2.8863333333333334, + "grad_norm": 2.219338893890381, + "learning_rate": 8.73323853727659e-08, + "loss": 0.2603, + "step": 8659 + }, + { + "epoch": 2.8866666666666667, + "grad_norm": 2.3714027404785156, + "learning_rate": 8.682166440721729e-08, + "loss": 0.3054, + "step": 8660 + }, + { + "epoch": 2.887, + "grad_norm": 3.459012269973755, + "learning_rate": 8.631243466476368e-08, + "loss": 0.2936, + "step": 8661 + }, + { + "epoch": 2.8873333333333333, + "grad_norm": 2.820995569229126, + "learning_rate": 8.580469622200938e-08, + "loss": 0.277, + "step": 8662 + }, + { + "epoch": 2.8876666666666666, + "grad_norm": 2.5826923847198486, + "learning_rate": 8.529844915533215e-08, + "loss": 0.2758, + "step": 8663 + }, + { + "epoch": 2.888, + "grad_norm": 3.038926362991333, + "learning_rate": 8.479369354088329e-08, + "loss": 0.2899, + "step": 8664 + }, + { + "epoch": 2.888333333333333, + "grad_norm": 2.8542802333831787, + "learning_rate": 8.429042945459654e-08, + "loss": 0.2943, + "step": 8665 + }, + { + "epoch": 2.8886666666666665, + "grad_norm": 3.249519109725952, + "learning_rate": 8.378865697217242e-08, + "loss": 0.2998, + "step": 8666 + }, + { + "epoch": 2.8890000000000002, + "grad_norm": 2.632782220840454, + "learning_rate": 8.328837616909612e-08, + "loss": 0.2837, + "step": 8667 + }, + { + "epoch": 2.889333333333333, + "grad_norm": 2.7474493980407715, + "learning_rate": 8.27895871206208e-08, + "loss": 0.2783, + "step": 8668 + }, + { + "epoch": 2.889666666666667, + "grad_norm": 2.579765796661377, + "learning_rate": 8.229228990178084e-08, + "loss": 0.2771, + "step": 8669 + }, + { + "epoch": 2.89, + "grad_norm": 4.0948615074157715, + "learning_rate": 8.179648458738309e-08, + "loss": 0.285, + "step": 8670 + }, + { + "epoch": 2.8903333333333334, + "grad_norm": 2.941701650619507, + "learning_rate": 8.130217125201012e-08, + "loss": 0.2728, + "step": 8671 + }, + { + "epoch": 2.8906666666666667, + "grad_norm": 2.8783516883850098, + "learning_rate": 8.080934997002021e-08, + "loss": 0.2951, + "step": 8672 + }, + { + "epoch": 2.891, + "grad_norm": 2.2977285385131836, + "learning_rate": 8.031802081554963e-08, + "loss": 0.2616, + "step": 8673 + }, + { + "epoch": 2.8913333333333333, + "grad_norm": 2.577298164367676, + "learning_rate": 7.982818386250702e-08, + "loss": 0.2628, + "step": 8674 + }, + { + "epoch": 2.8916666666666666, + "grad_norm": 2.2673115730285645, + "learning_rate": 7.933983918457677e-08, + "loss": 0.2601, + "step": 8675 + }, + { + "epoch": 2.892, + "grad_norm": 2.7792129516601562, + "learning_rate": 7.885298685522235e-08, + "loss": 0.2938, + "step": 8676 + }, + { + "epoch": 2.892333333333333, + "grad_norm": 2.1456246376037598, + "learning_rate": 7.836762694767741e-08, + "loss": 0.2436, + "step": 8677 + }, + { + "epoch": 2.892666666666667, + "grad_norm": 2.5631468296051025, + "learning_rate": 7.788375953495464e-08, + "loss": 0.2519, + "step": 8678 + }, + { + "epoch": 2.893, + "grad_norm": 2.4714083671569824, + "learning_rate": 7.740138468984249e-08, + "loss": 0.2811, + "step": 8679 + }, + { + "epoch": 2.8933333333333335, + "grad_norm": 2.8304383754730225, + "learning_rate": 7.692050248490291e-08, + "loss": 0.2634, + "step": 8680 + }, + { + "epoch": 2.893666666666667, + "grad_norm": 2.771399974822998, + "learning_rate": 7.64411129924747e-08, + "loss": 0.2859, + "step": 8681 + }, + { + "epoch": 2.894, + "grad_norm": 2.435558319091797, + "learning_rate": 7.596321628467129e-08, + "loss": 0.3097, + "step": 8682 + }, + { + "epoch": 2.8943333333333334, + "grad_norm": 2.764704942703247, + "learning_rate": 7.548681243338296e-08, + "loss": 0.2944, + "step": 8683 + }, + { + "epoch": 2.8946666666666667, + "grad_norm": 2.3178088665008545, + "learning_rate": 7.501190151027126e-08, + "loss": 0.2625, + "step": 8684 + }, + { + "epoch": 2.895, + "grad_norm": 2.8557047843933105, + "learning_rate": 7.453848358678018e-08, + "loss": 0.3188, + "step": 8685 + }, + { + "epoch": 2.8953333333333333, + "grad_norm": 3.3933494091033936, + "learning_rate": 7.406655873412272e-08, + "loss": 0.2962, + "step": 8686 + }, + { + "epoch": 2.8956666666666666, + "grad_norm": 2.018097400665283, + "learning_rate": 7.359612702328989e-08, + "loss": 0.2621, + "step": 8687 + }, + { + "epoch": 2.896, + "grad_norm": 2.3590970039367676, + "learning_rate": 7.31271885250484e-08, + "loss": 0.29, + "step": 8688 + }, + { + "epoch": 2.896333333333333, + "grad_norm": 2.8347654342651367, + "learning_rate": 7.265974330994075e-08, + "loss": 0.2811, + "step": 8689 + }, + { + "epoch": 2.8966666666666665, + "grad_norm": 2.3130717277526855, + "learning_rate": 7.219379144828287e-08, + "loss": 0.2826, + "step": 8690 + }, + { + "epoch": 2.8970000000000002, + "grad_norm": 3.1367485523223877, + "learning_rate": 7.17293330101676e-08, + "loss": 0.313, + "step": 8691 + }, + { + "epoch": 2.897333333333333, + "grad_norm": 2.4173033237457275, + "learning_rate": 7.126636806546238e-08, + "loss": 0.2939, + "step": 8692 + }, + { + "epoch": 2.897666666666667, + "grad_norm": 2.5935049057006836, + "learning_rate": 7.080489668381152e-08, + "loss": 0.2688, + "step": 8693 + }, + { + "epoch": 2.898, + "grad_norm": 2.9548282623291016, + "learning_rate": 7.034491893463059e-08, + "loss": 0.2569, + "step": 8694 + }, + { + "epoch": 2.8983333333333334, + "grad_norm": 2.4330408573150635, + "learning_rate": 6.988643488711533e-08, + "loss": 0.2571, + "step": 8695 + }, + { + "epoch": 2.8986666666666667, + "grad_norm": 2.433934211730957, + "learning_rate": 6.942944461023504e-08, + "loss": 0.2768, + "step": 8696 + }, + { + "epoch": 2.899, + "grad_norm": 2.9151954650878906, + "learning_rate": 6.897394817273251e-08, + "loss": 0.3007, + "step": 8697 + }, + { + "epoch": 2.8993333333333333, + "grad_norm": 2.8167974948883057, + "learning_rate": 6.851994564312847e-08, + "loss": 0.3001, + "step": 8698 + }, + { + "epoch": 2.8996666666666666, + "grad_norm": 3.5096216201782227, + "learning_rate": 6.80674370897172e-08, + "loss": 0.2541, + "step": 8699 + }, + { + "epoch": 2.9, + "grad_norm": 3.1323959827423096, + "learning_rate": 6.761642258056977e-08, + "loss": 0.3108, + "step": 8700 + }, + { + "epoch": 2.900333333333333, + "grad_norm": 2.5154380798339844, + "learning_rate": 6.716690218353195e-08, + "loss": 0.2934, + "step": 8701 + }, + { + "epoch": 2.9006666666666665, + "grad_norm": 3.3961808681488037, + "learning_rate": 6.671887596622073e-08, + "loss": 0.2822, + "step": 8702 + }, + { + "epoch": 2.901, + "grad_norm": 2.6347084045410156, + "learning_rate": 6.627234399603554e-08, + "loss": 0.2811, + "step": 8703 + }, + { + "epoch": 2.9013333333333335, + "grad_norm": 2.823207139968872, + "learning_rate": 6.58273063401471e-08, + "loss": 0.2892, + "step": 8704 + }, + { + "epoch": 2.9016666666666664, + "grad_norm": 2.211367607116699, + "learning_rate": 6.538376306550077e-08, + "loss": 0.2641, + "step": 8705 + }, + { + "epoch": 2.902, + "grad_norm": 2.711620569229126, + "learning_rate": 6.494171423881756e-08, + "loss": 0.2971, + "step": 8706 + }, + { + "epoch": 2.9023333333333334, + "grad_norm": 2.645296335220337, + "learning_rate": 6.450115992659545e-08, + "loss": 0.306, + "step": 8707 + }, + { + "epoch": 2.9026666666666667, + "grad_norm": 2.6276307106018066, + "learning_rate": 6.406210019510472e-08, + "loss": 0.2747, + "step": 8708 + }, + { + "epoch": 2.903, + "grad_norm": 3.259868860244751, + "learning_rate": 6.362453511039368e-08, + "loss": 0.3207, + "step": 8709 + }, + { + "epoch": 2.9033333333333333, + "grad_norm": 2.2093374729156494, + "learning_rate": 6.318846473828522e-08, + "loss": 0.2516, + "step": 8710 + }, + { + "epoch": 2.9036666666666666, + "grad_norm": 2.797450304031372, + "learning_rate": 6.275388914437575e-08, + "loss": 0.3128, + "step": 8711 + }, + { + "epoch": 2.904, + "grad_norm": 2.223053216934204, + "learning_rate": 6.232080839403631e-08, + "loss": 0.2574, + "step": 8712 + }, + { + "epoch": 2.904333333333333, + "grad_norm": 2.7993133068084717, + "learning_rate": 6.188922255241702e-08, + "loss": 0.2893, + "step": 8713 + }, + { + "epoch": 2.9046666666666665, + "grad_norm": 2.213064670562744, + "learning_rate": 6.145913168443929e-08, + "loss": 0.2647, + "step": 8714 + }, + { + "epoch": 2.9050000000000002, + "grad_norm": 2.6254260540008545, + "learning_rate": 6.103053585480023e-08, + "loss": 0.2943, + "step": 8715 + }, + { + "epoch": 2.905333333333333, + "grad_norm": 2.5482828617095947, + "learning_rate": 6.060343512797496e-08, + "loss": 0.2726, + "step": 8716 + }, + { + "epoch": 2.905666666666667, + "grad_norm": 2.579836845397949, + "learning_rate": 6.017782956820983e-08, + "loss": 0.2849, + "step": 8717 + }, + { + "epoch": 2.906, + "grad_norm": 3.4337985515594482, + "learning_rate": 5.975371923952921e-08, + "loss": 0.2756, + "step": 8718 + }, + { + "epoch": 2.9063333333333334, + "grad_norm": 2.3815255165100098, + "learning_rate": 5.933110420572985e-08, + "loss": 0.2453, + "step": 8719 + }, + { + "epoch": 2.9066666666666667, + "grad_norm": 2.2529091835021973, + "learning_rate": 5.890998453038643e-08, + "loss": 0.2784, + "step": 8720 + }, + { + "epoch": 2.907, + "grad_norm": 3.2191708087921143, + "learning_rate": 5.849036027684607e-08, + "loss": 0.2964, + "step": 8721 + }, + { + "epoch": 2.9073333333333333, + "grad_norm": 2.830925703048706, + "learning_rate": 5.807223150823382e-08, + "loss": 0.3201, + "step": 8722 + }, + { + "epoch": 2.9076666666666666, + "grad_norm": 4.152172565460205, + "learning_rate": 5.7655598287446045e-08, + "loss": 0.2951, + "step": 8723 + }, + { + "epoch": 2.908, + "grad_norm": 3.089667558670044, + "learning_rate": 5.724046067715705e-08, + "loss": 0.2629, + "step": 8724 + }, + { + "epoch": 2.908333333333333, + "grad_norm": 3.940415143966675, + "learning_rate": 5.682681873981577e-08, + "loss": 0.2824, + "step": 8725 + }, + { + "epoch": 2.9086666666666665, + "grad_norm": 2.4523167610168457, + "learning_rate": 5.6414672537645766e-08, + "loss": 0.279, + "step": 8726 + }, + { + "epoch": 2.909, + "grad_norm": 2.475099802017212, + "learning_rate": 5.600402213264411e-08, + "loss": 0.3172, + "step": 8727 + }, + { + "epoch": 2.9093333333333335, + "grad_norm": 2.4840118885040283, + "learning_rate": 5.559486758658583e-08, + "loss": 0.2907, + "step": 8728 + }, + { + "epoch": 2.9096666666666664, + "grad_norm": 2.2306032180786133, + "learning_rate": 5.518720896101948e-08, + "loss": 0.2858, + "step": 8729 + }, + { + "epoch": 2.91, + "grad_norm": 2.5923538208007812, + "learning_rate": 5.4781046317267103e-08, + "loss": 0.2644, + "step": 8730 + }, + { + "epoch": 2.9103333333333334, + "grad_norm": 2.6732447147369385, + "learning_rate": 5.4376379716427615e-08, + "loss": 0.2798, + "step": 8731 + }, + { + "epoch": 2.9106666666666667, + "grad_norm": 2.654398202896118, + "learning_rate": 5.3973209219374545e-08, + "loss": 0.2617, + "step": 8732 + }, + { + "epoch": 2.911, + "grad_norm": 2.7435035705566406, + "learning_rate": 5.3571534886756035e-08, + "loss": 0.2763, + "step": 8733 + }, + { + "epoch": 2.9113333333333333, + "grad_norm": 3.2718257904052734, + "learning_rate": 5.3171356778995986e-08, + "loss": 0.2827, + "step": 8734 + }, + { + "epoch": 2.9116666666666666, + "grad_norm": 3.0780375003814697, + "learning_rate": 5.277267495629068e-08, + "loss": 0.2682, + "step": 8735 + }, + { + "epoch": 2.912, + "grad_norm": 3.5847854614257812, + "learning_rate": 5.2375489478616593e-08, + "loss": 0.284, + "step": 8736 + }, + { + "epoch": 2.912333333333333, + "grad_norm": 2.686004638671875, + "learning_rate": 5.197980040571704e-08, + "loss": 0.2593, + "step": 8737 + }, + { + "epoch": 2.9126666666666665, + "grad_norm": 2.9662938117980957, + "learning_rate": 5.158560779711885e-08, + "loss": 0.2646, + "step": 8738 + }, + { + "epoch": 2.9130000000000003, + "grad_norm": 2.9581308364868164, + "learning_rate": 5.119291171211793e-08, + "loss": 0.2856, + "step": 8739 + }, + { + "epoch": 2.913333333333333, + "grad_norm": 2.6465611457824707, + "learning_rate": 5.080171220978813e-08, + "loss": 0.2786, + "step": 8740 + }, + { + "epoch": 2.913666666666667, + "grad_norm": 2.579058885574341, + "learning_rate": 5.041200934897461e-08, + "loss": 0.2961, + "step": 8741 + }, + { + "epoch": 2.914, + "grad_norm": 2.862941265106201, + "learning_rate": 5.002380318830158e-08, + "loss": 0.2665, + "step": 8742 + }, + { + "epoch": 2.9143333333333334, + "grad_norm": 3.193519115447998, + "learning_rate": 4.963709378616566e-08, + "loss": 0.2756, + "step": 8743 + }, + { + "epoch": 2.9146666666666667, + "grad_norm": 2.583465576171875, + "learning_rate": 4.925188120073921e-08, + "loss": 0.2914, + "step": 8744 + }, + { + "epoch": 2.915, + "grad_norm": 2.9718692302703857, + "learning_rate": 4.88681654899692e-08, + "loss": 0.3123, + "step": 8745 + }, + { + "epoch": 2.9153333333333333, + "grad_norm": 2.5775790214538574, + "learning_rate": 4.848594671157725e-08, + "loss": 0.2824, + "step": 8746 + }, + { + "epoch": 2.9156666666666666, + "grad_norm": 3.336226463317871, + "learning_rate": 4.810522492305958e-08, + "loss": 0.2712, + "step": 8747 + }, + { + "epoch": 2.916, + "grad_norm": 2.254230499267578, + "learning_rate": 4.772600018168816e-08, + "loss": 0.2676, + "step": 8748 + }, + { + "epoch": 2.916333333333333, + "grad_norm": 2.9934539794921875, + "learning_rate": 4.734827254450847e-08, + "loss": 0.2638, + "step": 8749 + }, + { + "epoch": 2.9166666666666665, + "grad_norm": 2.529346466064453, + "learning_rate": 4.6972042068341714e-08, + "loss": 0.282, + "step": 8750 + }, + { + "epoch": 2.917, + "grad_norm": 3.417599678039551, + "learning_rate": 4.659730880978375e-08, + "loss": 0.2578, + "step": 8751 + }, + { + "epoch": 2.9173333333333336, + "grad_norm": 2.7847142219543457, + "learning_rate": 4.622407282520502e-08, + "loss": 0.2844, + "step": 8752 + }, + { + "epoch": 2.9176666666666664, + "grad_norm": 3.2504172325134277, + "learning_rate": 4.585233417075063e-08, + "loss": 0.2982, + "step": 8753 + }, + { + "epoch": 2.918, + "grad_norm": 2.972770929336548, + "learning_rate": 4.54820929023414e-08, + "loss": 0.3093, + "step": 8754 + }, + { + "epoch": 2.9183333333333334, + "grad_norm": 3.161870002746582, + "learning_rate": 4.511334907567055e-08, + "loss": 0.2863, + "step": 8755 + }, + { + "epoch": 2.9186666666666667, + "grad_norm": 2.561755895614624, + "learning_rate": 4.474610274620816e-08, + "loss": 0.2744, + "step": 8756 + }, + { + "epoch": 2.919, + "grad_norm": 3.2696373462677, + "learning_rate": 4.438035396920004e-08, + "loss": 0.3154, + "step": 8757 + }, + { + "epoch": 2.9193333333333333, + "grad_norm": 3.0520951747894287, + "learning_rate": 4.4016102799663286e-08, + "loss": 0.2659, + "step": 8758 + }, + { + "epoch": 2.9196666666666666, + "grad_norm": 2.9163260459899902, + "learning_rate": 4.365334929239296e-08, + "loss": 0.3134, + "step": 8759 + }, + { + "epoch": 2.92, + "grad_norm": 3.022108554840088, + "learning_rate": 4.329209350195651e-08, + "loss": 0.2665, + "step": 8760 + }, + { + "epoch": 2.9203333333333332, + "grad_norm": 3.180701732635498, + "learning_rate": 4.293233548269715e-08, + "loss": 0.3091, + "step": 8761 + }, + { + "epoch": 2.9206666666666665, + "grad_norm": 2.8335492610931396, + "learning_rate": 4.2574075288732695e-08, + "loss": 0.2853, + "step": 8762 + }, + { + "epoch": 2.9210000000000003, + "grad_norm": 2.3235230445861816, + "learning_rate": 4.2217312973955594e-08, + "loss": 0.2538, + "step": 8763 + }, + { + "epoch": 2.921333333333333, + "grad_norm": 3.0265040397644043, + "learning_rate": 4.186204859203402e-08, + "loss": 0.2802, + "step": 8764 + }, + { + "epoch": 2.921666666666667, + "grad_norm": 2.692091226577759, + "learning_rate": 4.1508282196408565e-08, + "loss": 0.2981, + "step": 8765 + }, + { + "epoch": 2.922, + "grad_norm": 2.9412105083465576, + "learning_rate": 4.115601384029666e-08, + "loss": 0.2751, + "step": 8766 + }, + { + "epoch": 2.9223333333333334, + "grad_norm": 3.0869879722595215, + "learning_rate": 4.0805243576688137e-08, + "loss": 0.2657, + "step": 8767 + }, + { + "epoch": 2.9226666666666667, + "grad_norm": 2.243602752685547, + "learning_rate": 4.0455971458350785e-08, + "loss": 0.2775, + "step": 8768 + }, + { + "epoch": 2.923, + "grad_norm": 2.489879608154297, + "learning_rate": 4.010819753782369e-08, + "loss": 0.2646, + "step": 8769 + }, + { + "epoch": 2.9233333333333333, + "grad_norm": 2.572216033935547, + "learning_rate": 3.976192186742167e-08, + "loss": 0.302, + "step": 8770 + }, + { + "epoch": 2.9236666666666666, + "grad_norm": 2.6971819400787354, + "learning_rate": 3.9417144499235284e-08, + "loss": 0.2817, + "step": 8771 + }, + { + "epoch": 2.924, + "grad_norm": 2.5727109909057617, + "learning_rate": 3.907386548512748e-08, + "loss": 0.2813, + "step": 8772 + }, + { + "epoch": 2.9243333333333332, + "grad_norm": 2.8778440952301025, + "learning_rate": 3.8732084876738074e-08, + "loss": 0.3042, + "step": 8773 + }, + { + "epoch": 2.9246666666666665, + "grad_norm": 2.5741162300109863, + "learning_rate": 3.839180272548148e-08, + "loss": 0.2999, + "step": 8774 + }, + { + "epoch": 2.925, + "grad_norm": 3.396064519882202, + "learning_rate": 3.805301908254455e-08, + "loss": 0.2713, + "step": 8775 + }, + { + "epoch": 2.9253333333333336, + "grad_norm": 3.2409653663635254, + "learning_rate": 3.771573399888984e-08, + "loss": 0.3003, + "step": 8776 + }, + { + "epoch": 2.9256666666666664, + "grad_norm": 2.7642130851745605, + "learning_rate": 3.7379947525255647e-08, + "loss": 0.2752, + "step": 8777 + }, + { + "epoch": 2.926, + "grad_norm": 3.3985610008239746, + "learning_rate": 3.704565971215379e-08, + "loss": 0.2668, + "step": 8778 + }, + { + "epoch": 2.9263333333333335, + "grad_norm": 3.264233112335205, + "learning_rate": 3.67128706098685e-08, + "loss": 0.3252, + "step": 8779 + }, + { + "epoch": 2.9266666666666667, + "grad_norm": 3.0166070461273193, + "learning_rate": 3.6381580268463056e-08, + "loss": 0.2828, + "step": 8780 + }, + { + "epoch": 2.927, + "grad_norm": 2.9065961837768555, + "learning_rate": 3.605178873777204e-08, + "loss": 0.2941, + "step": 8781 + }, + { + "epoch": 2.9273333333333333, + "grad_norm": 2.82804799079895, + "learning_rate": 3.572349606740466e-08, + "loss": 0.2415, + "step": 8782 + }, + { + "epoch": 2.9276666666666666, + "grad_norm": 2.63553786277771, + "learning_rate": 3.539670230674697e-08, + "loss": 0.2872, + "step": 8783 + }, + { + "epoch": 2.928, + "grad_norm": 2.5893568992614746, + "learning_rate": 3.50714075049563e-08, + "loss": 0.3009, + "step": 8784 + }, + { + "epoch": 2.9283333333333332, + "grad_norm": 2.66629695892334, + "learning_rate": 3.474761171096796e-08, + "loss": 0.3355, + "step": 8785 + }, + { + "epoch": 2.9286666666666665, + "grad_norm": 2.2407281398773193, + "learning_rate": 3.4425314973489665e-08, + "loss": 0.3102, + "step": 8786 + }, + { + "epoch": 2.9290000000000003, + "grad_norm": 2.858229160308838, + "learning_rate": 3.410451734100262e-08, + "loss": 0.2884, + "step": 8787 + }, + { + "epoch": 2.929333333333333, + "grad_norm": 3.0378124713897705, + "learning_rate": 3.3785218861766e-08, + "loss": 0.2755, + "step": 8788 + }, + { + "epoch": 2.929666666666667, + "grad_norm": 2.704277276992798, + "learning_rate": 3.346741958380917e-08, + "loss": 0.2624, + "step": 8789 + }, + { + "epoch": 2.93, + "grad_norm": 2.506983757019043, + "learning_rate": 3.315111955493944e-08, + "loss": 0.2755, + "step": 8790 + }, + { + "epoch": 2.9303333333333335, + "grad_norm": 2.647427797317505, + "learning_rate": 3.283631882273652e-08, + "loss": 0.2836, + "step": 8791 + }, + { + "epoch": 2.9306666666666668, + "grad_norm": 2.4448671340942383, + "learning_rate": 3.2523017434556994e-08, + "loss": 0.2941, + "step": 8792 + }, + { + "epoch": 2.931, + "grad_norm": 2.5930871963500977, + "learning_rate": 3.22112154375287e-08, + "loss": 0.3206, + "step": 8793 + }, + { + "epoch": 2.9313333333333333, + "grad_norm": 2.7853593826293945, + "learning_rate": 3.190091287855523e-08, + "loss": 0.2931, + "step": 8794 + }, + { + "epoch": 2.9316666666666666, + "grad_norm": 2.471060276031494, + "learning_rate": 3.159210980431593e-08, + "loss": 0.2969, + "step": 8795 + }, + { + "epoch": 2.932, + "grad_norm": 2.3829121589660645, + "learning_rate": 3.1284806261264735e-08, + "loss": 0.2588, + "step": 8796 + }, + { + "epoch": 2.9323333333333332, + "grad_norm": 2.4202351570129395, + "learning_rate": 3.0979002295625784e-08, + "loss": 0.3011, + "step": 8797 + }, + { + "epoch": 2.9326666666666665, + "grad_norm": 2.7784998416900635, + "learning_rate": 3.0674697953402274e-08, + "loss": 0.2689, + "step": 8798 + }, + { + "epoch": 2.933, + "grad_norm": 2.941844940185547, + "learning_rate": 3.037189328036982e-08, + "loss": 0.2625, + "step": 8799 + }, + { + "epoch": 2.9333333333333336, + "grad_norm": 3.1589627265930176, + "learning_rate": 3.0070588322079765e-08, + "loss": 0.293, + "step": 8800 + }, + { + "epoch": 2.9336666666666664, + "grad_norm": 3.4796125888824463, + "learning_rate": 2.977078312385584e-08, + "loss": 0.2607, + "step": 8801 + }, + { + "epoch": 2.934, + "grad_norm": 3.3186113834381104, + "learning_rate": 2.947247773079753e-08, + "loss": 0.3206, + "step": 8802 + }, + { + "epoch": 2.9343333333333335, + "grad_norm": 4.450552463531494, + "learning_rate": 2.9175672187778946e-08, + "loss": 0.2621, + "step": 8803 + }, + { + "epoch": 2.9346666666666668, + "grad_norm": 2.775857448577881, + "learning_rate": 2.88803665394477e-08, + "loss": 0.2972, + "step": 8804 + }, + { + "epoch": 2.935, + "grad_norm": 3.283463716506958, + "learning_rate": 2.858656083022604e-08, + "loss": 0.281, + "step": 8805 + }, + { + "epoch": 2.9353333333333333, + "grad_norm": 2.474742889404297, + "learning_rate": 2.829425510431083e-08, + "loss": 0.2536, + "step": 8806 + }, + { + "epoch": 2.9356666666666666, + "grad_norm": 2.8042945861816406, + "learning_rate": 2.8003449405672458e-08, + "loss": 0.2712, + "step": 8807 + }, + { + "epoch": 2.936, + "grad_norm": 2.6917357444763184, + "learning_rate": 2.7714143778058146e-08, + "loss": 0.2737, + "step": 8808 + }, + { + "epoch": 2.9363333333333332, + "grad_norm": 2.4291574954986572, + "learning_rate": 2.742633826498531e-08, + "loss": 0.2657, + "step": 8809 + }, + { + "epoch": 2.9366666666666665, + "grad_norm": 2.866091012954712, + "learning_rate": 2.7140032909749315e-08, + "loss": 0.2802, + "step": 8810 + }, + { + "epoch": 2.9370000000000003, + "grad_norm": 2.4283194541931152, + "learning_rate": 2.6855227755419046e-08, + "loss": 0.3465, + "step": 8811 + }, + { + "epoch": 2.937333333333333, + "grad_norm": 2.8568625450134277, + "learning_rate": 2.6571922844835783e-08, + "loss": 0.2679, + "step": 8812 + }, + { + "epoch": 2.937666666666667, + "grad_norm": 2.929699659347534, + "learning_rate": 2.6290118220618778e-08, + "loss": 0.2962, + "step": 8813 + }, + { + "epoch": 2.9379999999999997, + "grad_norm": 2.8102803230285645, + "learning_rate": 2.6009813925157446e-08, + "loss": 0.2914, + "step": 8814 + }, + { + "epoch": 2.9383333333333335, + "grad_norm": 3.2309963703155518, + "learning_rate": 2.573101000061917e-08, + "loss": 0.2689, + "step": 8815 + }, + { + "epoch": 2.9386666666666668, + "grad_norm": 2.7661852836608887, + "learning_rate": 2.545370648894263e-08, + "loss": 0.2973, + "step": 8816 + }, + { + "epoch": 2.939, + "grad_norm": 2.7786664962768555, + "learning_rate": 2.5177903431842233e-08, + "loss": 0.3057, + "step": 8817 + }, + { + "epoch": 2.9393333333333334, + "grad_norm": 2.7024149894714355, + "learning_rate": 2.490360087080701e-08, + "loss": 0.2977, + "step": 8818 + }, + { + "epoch": 2.9396666666666667, + "grad_norm": 3.231914758682251, + "learning_rate": 2.4630798847099515e-08, + "loss": 0.2621, + "step": 8819 + }, + { + "epoch": 2.94, + "grad_norm": 2.3871700763702393, + "learning_rate": 2.4359497401758026e-08, + "loss": 0.2808, + "step": 8820 + }, + { + "epoch": 2.9403333333333332, + "grad_norm": 2.7489867210388184, + "learning_rate": 2.4089696575592125e-08, + "loss": 0.2952, + "step": 8821 + }, + { + "epoch": 2.9406666666666665, + "grad_norm": 3.195674180984497, + "learning_rate": 2.3821396409188236e-08, + "loss": 0.2797, + "step": 8822 + }, + { + "epoch": 2.941, + "grad_norm": 4.3281073570251465, + "learning_rate": 2.3554596942907404e-08, + "loss": 0.2589, + "step": 8823 + }, + { + "epoch": 2.9413333333333336, + "grad_norm": 2.6051855087280273, + "learning_rate": 2.3289298216883084e-08, + "loss": 0.3005, + "step": 8824 + }, + { + "epoch": 2.9416666666666664, + "grad_norm": 3.024935483932495, + "learning_rate": 2.302550027102335e-08, + "loss": 0.2852, + "step": 8825 + }, + { + "epoch": 2.942, + "grad_norm": 2.41211199760437, + "learning_rate": 2.2763203145010904e-08, + "loss": 0.3205, + "step": 8826 + }, + { + "epoch": 2.9423333333333335, + "grad_norm": 2.9102654457092285, + "learning_rate": 2.2502406878303073e-08, + "loss": 0.2795, + "step": 8827 + }, + { + "epoch": 2.9426666666666668, + "grad_norm": 2.5675880908966064, + "learning_rate": 2.22431115101307e-08, + "loss": 0.2732, + "step": 8828 + }, + { + "epoch": 2.943, + "grad_norm": 2.518281936645508, + "learning_rate": 2.1985317079500358e-08, + "loss": 0.271, + "step": 8829 + }, + { + "epoch": 2.9433333333333334, + "grad_norm": 3.171485662460327, + "learning_rate": 2.1729023625189916e-08, + "loss": 0.2942, + "step": 8830 + }, + { + "epoch": 2.9436666666666667, + "grad_norm": 3.5915727615356445, + "learning_rate": 2.147423118575298e-08, + "loss": 0.2642, + "step": 8831 + }, + { + "epoch": 2.944, + "grad_norm": 2.457726240158081, + "learning_rate": 2.1220939799520003e-08, + "loss": 0.3209, + "step": 8832 + }, + { + "epoch": 2.9443333333333332, + "grad_norm": 2.735922336578369, + "learning_rate": 2.0969149504590502e-08, + "loss": 0.3101, + "step": 8833 + }, + { + "epoch": 2.9446666666666665, + "grad_norm": 2.3944036960601807, + "learning_rate": 2.071886033884196e-08, + "loss": 0.2734, + "step": 8834 + }, + { + "epoch": 2.945, + "grad_norm": 3.4252655506134033, + "learning_rate": 2.0470072339926482e-08, + "loss": 0.3101, + "step": 8835 + }, + { + "epoch": 2.945333333333333, + "grad_norm": 2.878242254257202, + "learning_rate": 2.0222785545265243e-08, + "loss": 0.3213, + "step": 8836 + }, + { + "epoch": 2.945666666666667, + "grad_norm": 2.3861372470855713, + "learning_rate": 1.9976999992060708e-08, + "loss": 0.2721, + "step": 8837 + }, + { + "epoch": 2.9459999999999997, + "grad_norm": 2.663137197494507, + "learning_rate": 1.973271571728441e-08, + "loss": 0.3085, + "step": 8838 + }, + { + "epoch": 2.9463333333333335, + "grad_norm": 3.4429750442504883, + "learning_rate": 1.9489932757683627e-08, + "loss": 0.2984, + "step": 8839 + }, + { + "epoch": 2.9466666666666668, + "grad_norm": 2.8472707271575928, + "learning_rate": 1.924865114978025e-08, + "loss": 0.3031, + "step": 8840 + }, + { + "epoch": 2.947, + "grad_norm": 2.4982800483703613, + "learning_rate": 1.9008870929869692e-08, + "loss": 0.2934, + "step": 8841 + }, + { + "epoch": 2.9473333333333334, + "grad_norm": 2.4274327754974365, + "learning_rate": 1.877059213402088e-08, + "loss": 0.2689, + "step": 8842 + }, + { + "epoch": 2.9476666666666667, + "grad_norm": 2.837003231048584, + "learning_rate": 1.8533814798079587e-08, + "loss": 0.2516, + "step": 8843 + }, + { + "epoch": 2.948, + "grad_norm": 3.1296074390411377, + "learning_rate": 1.829853895766176e-08, + "loss": 0.273, + "step": 8844 + }, + { + "epoch": 2.9483333333333333, + "grad_norm": 3.437930107116699, + "learning_rate": 1.8064764648160203e-08, + "loss": 0.3061, + "step": 8845 + }, + { + "epoch": 2.9486666666666665, + "grad_norm": 3.261267900466919, + "learning_rate": 1.7832491904742342e-08, + "loss": 0.2867, + "step": 8846 + }, + { + "epoch": 2.949, + "grad_norm": 2.397674798965454, + "learning_rate": 1.7601720762346895e-08, + "loss": 0.3029, + "step": 8847 + }, + { + "epoch": 2.9493333333333336, + "grad_norm": 2.654078483581543, + "learning_rate": 1.7372451255690537e-08, + "loss": 0.2687, + "step": 8848 + }, + { + "epoch": 2.9496666666666664, + "grad_norm": 2.8793342113494873, + "learning_rate": 1.7144683419259012e-08, + "loss": 0.2922, + "step": 8849 + }, + { + "epoch": 2.95, + "grad_norm": 2.7748007774353027, + "learning_rate": 1.6918417287318245e-08, + "loss": 0.3039, + "step": 8850 + }, + { + "epoch": 2.9503333333333335, + "grad_norm": 2.31146240234375, + "learning_rate": 1.6693652893902124e-08, + "loss": 0.2417, + "step": 8851 + }, + { + "epoch": 2.9506666666666668, + "grad_norm": 3.0326826572418213, + "learning_rate": 1.64703902728236e-08, + "loss": 0.3117, + "step": 8852 + }, + { + "epoch": 2.951, + "grad_norm": 2.6084189414978027, + "learning_rate": 1.624862945766692e-08, + "loss": 0.2844, + "step": 8853 + }, + { + "epoch": 2.9513333333333334, + "grad_norm": 2.9113714694976807, + "learning_rate": 1.6028370481790956e-08, + "loss": 0.304, + "step": 8854 + }, + { + "epoch": 2.9516666666666667, + "grad_norm": 2.759969472885132, + "learning_rate": 1.5809613378330313e-08, + "loss": 0.2729, + "step": 8855 + }, + { + "epoch": 2.952, + "grad_norm": 2.4822583198547363, + "learning_rate": 1.5592358180189782e-08, + "loss": 0.2942, + "step": 8856 + }, + { + "epoch": 2.9523333333333333, + "grad_norm": 2.79122257232666, + "learning_rate": 1.5376604920053218e-08, + "loss": 0.2652, + "step": 8857 + }, + { + "epoch": 2.9526666666666666, + "grad_norm": 2.5479581356048584, + "learning_rate": 1.5162353630374658e-08, + "loss": 0.2976, + "step": 8858 + }, + { + "epoch": 2.953, + "grad_norm": 2.751365900039673, + "learning_rate": 1.4949604343383882e-08, + "loss": 0.2891, + "step": 8859 + }, + { + "epoch": 2.953333333333333, + "grad_norm": 2.6232657432556152, + "learning_rate": 1.4738357091084177e-08, + "loss": 0.3119, + "step": 8860 + }, + { + "epoch": 2.953666666666667, + "grad_norm": 3.1536614894866943, + "learning_rate": 1.4528611905252343e-08, + "loss": 0.2886, + "step": 8861 + }, + { + "epoch": 2.9539999999999997, + "grad_norm": 3.200559616088867, + "learning_rate": 1.4320368817443142e-08, + "loss": 0.2706, + "step": 8862 + }, + { + "epoch": 2.9543333333333335, + "grad_norm": 2.559936285018921, + "learning_rate": 1.4113627858978185e-08, + "loss": 0.2772, + "step": 8863 + }, + { + "epoch": 2.9546666666666668, + "grad_norm": 2.522646188735962, + "learning_rate": 1.390838906096037e-08, + "loss": 0.2473, + "step": 8864 + }, + { + "epoch": 2.955, + "grad_norm": 3.2070045471191406, + "learning_rate": 1.370465245426167e-08, + "loss": 0.2718, + "step": 8865 + }, + { + "epoch": 2.9553333333333334, + "grad_norm": 2.79119610786438, + "learning_rate": 1.3502418069529788e-08, + "loss": 0.2734, + "step": 8866 + }, + { + "epoch": 2.9556666666666667, + "grad_norm": 2.9469611644744873, + "learning_rate": 1.3301685937187059e-08, + "loss": 0.2851, + "step": 8867 + }, + { + "epoch": 2.956, + "grad_norm": 2.522521734237671, + "learning_rate": 1.3102456087430437e-08, + "loss": 0.2718, + "step": 8868 + }, + { + "epoch": 2.9563333333333333, + "grad_norm": 3.1588730812072754, + "learning_rate": 1.2904728550227063e-08, + "loss": 0.2931, + "step": 8869 + }, + { + "epoch": 2.9566666666666666, + "grad_norm": 3.855165481567383, + "learning_rate": 1.2708503355323143e-08, + "loss": 0.2566, + "step": 8870 + }, + { + "epoch": 2.957, + "grad_norm": 2.6898324489593506, + "learning_rate": 1.2513780532236175e-08, + "loss": 0.3057, + "step": 8871 + }, + { + "epoch": 2.9573333333333336, + "grad_norm": 3.1755104064941406, + "learning_rate": 1.2320560110256064e-08, + "loss": 0.2652, + "step": 8872 + }, + { + "epoch": 2.9576666666666664, + "grad_norm": 2.9274656772613525, + "learning_rate": 1.2128842118451777e-08, + "loss": 0.3087, + "step": 8873 + }, + { + "epoch": 2.958, + "grad_norm": 2.385362148284912, + "learning_rate": 1.1938626585660252e-08, + "loss": 0.2502, + "step": 8874 + }, + { + "epoch": 2.9583333333333335, + "grad_norm": 2.6086251735687256, + "learning_rate": 1.1749913540496372e-08, + "loss": 0.2968, + "step": 8875 + }, + { + "epoch": 2.958666666666667, + "grad_norm": 2.782853841781616, + "learning_rate": 1.1562703011347431e-08, + "loss": 0.2965, + "step": 8876 + }, + { + "epoch": 2.959, + "grad_norm": 2.461993932723999, + "learning_rate": 1.1376995026376459e-08, + "loss": 0.2733, + "step": 8877 + }, + { + "epoch": 2.9593333333333334, + "grad_norm": 2.6650891304016113, + "learning_rate": 1.1192789613518885e-08, + "loss": 0.2665, + "step": 8878 + }, + { + "epoch": 2.9596666666666667, + "grad_norm": 3.9393441677093506, + "learning_rate": 1.1010086800483654e-08, + "loss": 0.2921, + "step": 8879 + }, + { + "epoch": 2.96, + "grad_norm": 2.4975881576538086, + "learning_rate": 1.0828886614754342e-08, + "loss": 0.3024, + "step": 8880 + }, + { + "epoch": 2.9603333333333333, + "grad_norm": 3.9231061935424805, + "learning_rate": 1.064918908359025e-08, + "loss": 0.2637, + "step": 8881 + }, + { + "epoch": 2.9606666666666666, + "grad_norm": 3.9010467529296875, + "learning_rate": 1.047099423402087e-08, + "loss": 0.3238, + "step": 8882 + }, + { + "epoch": 2.961, + "grad_norm": 2.276367664337158, + "learning_rate": 1.0294302092853647e-08, + "loss": 0.3044, + "step": 8883 + }, + { + "epoch": 2.961333333333333, + "grad_norm": 2.5993893146514893, + "learning_rate": 1.011911268666621e-08, + "loss": 0.3176, + "step": 8884 + }, + { + "epoch": 2.961666666666667, + "grad_norm": 2.2738356590270996, + "learning_rate": 9.945426041813033e-09, + "loss": 0.289, + "step": 8885 + }, + { + "epoch": 2.9619999999999997, + "grad_norm": 2.6553537845611572, + "learning_rate": 9.773242184422105e-09, + "loss": 0.3252, + "step": 8886 + }, + { + "epoch": 2.9623333333333335, + "grad_norm": 3.0266149044036865, + "learning_rate": 9.602561140392707e-09, + "loss": 0.3202, + "step": 8887 + }, + { + "epoch": 2.962666666666667, + "grad_norm": 2.6626222133636475, + "learning_rate": 9.43338293540319e-09, + "loss": 0.2938, + "step": 8888 + }, + { + "epoch": 2.963, + "grad_norm": 2.998103380203247, + "learning_rate": 9.265707594899864e-09, + "loss": 0.2711, + "step": 8889 + }, + { + "epoch": 2.9633333333333334, + "grad_norm": 2.5330536365509033, + "learning_rate": 9.099535144108107e-09, + "loss": 0.2977, + "step": 8890 + }, + { + "epoch": 2.9636666666666667, + "grad_norm": 2.795412302017212, + "learning_rate": 8.93486560802348e-09, + "loss": 0.2998, + "step": 8891 + }, + { + "epoch": 2.964, + "grad_norm": 2.3846960067749023, + "learning_rate": 8.771699011416169e-09, + "loss": 0.26, + "step": 8892 + }, + { + "epoch": 2.9643333333333333, + "grad_norm": 2.4885759353637695, + "learning_rate": 8.610035378834315e-09, + "loss": 0.2976, + "step": 8893 + }, + { + "epoch": 2.9646666666666666, + "grad_norm": 3.1964805126190186, + "learning_rate": 8.449874734592911e-09, + "loss": 0.2814, + "step": 8894 + }, + { + "epoch": 2.965, + "grad_norm": 3.0799484252929688, + "learning_rate": 8.29121710278713e-09, + "loss": 0.2843, + "step": 8895 + }, + { + "epoch": 2.9653333333333336, + "grad_norm": 2.47049617767334, + "learning_rate": 8.134062507282325e-09, + "loss": 0.2783, + "step": 8896 + }, + { + "epoch": 2.9656666666666665, + "grad_norm": 2.791684150695801, + "learning_rate": 7.978410971720696e-09, + "loss": 0.2659, + "step": 8897 + }, + { + "epoch": 2.966, + "grad_norm": 2.8459582328796387, + "learning_rate": 7.824262519514625e-09, + "loss": 0.3138, + "step": 8898 + }, + { + "epoch": 2.9663333333333335, + "grad_norm": 2.905606508255005, + "learning_rate": 7.671617173853342e-09, + "loss": 0.2964, + "step": 8899 + }, + { + "epoch": 2.966666666666667, + "grad_norm": 2.8241305351257324, + "learning_rate": 7.520474957699586e-09, + "loss": 0.2862, + "step": 8900 + }, + { + "epoch": 2.967, + "grad_norm": 2.9655168056488037, + "learning_rate": 7.370835893788508e-09, + "loss": 0.2734, + "step": 8901 + }, + { + "epoch": 2.9673333333333334, + "grad_norm": 2.6931378841400146, + "learning_rate": 7.222700004629879e-09, + "loss": 0.2774, + "step": 8902 + }, + { + "epoch": 2.9676666666666667, + "grad_norm": 2.349241256713867, + "learning_rate": 7.076067312508095e-09, + "loss": 0.2494, + "step": 8903 + }, + { + "epoch": 2.968, + "grad_norm": 2.342022180557251, + "learning_rate": 6.930937839481067e-09, + "loss": 0.2921, + "step": 8904 + }, + { + "epoch": 2.9683333333333333, + "grad_norm": 2.623952627182007, + "learning_rate": 6.78731160738022e-09, + "loss": 0.2603, + "step": 8905 + }, + { + "epoch": 2.9686666666666666, + "grad_norm": 3.3460211753845215, + "learning_rate": 6.645188637810496e-09, + "loss": 0.2664, + "step": 8906 + }, + { + "epoch": 2.969, + "grad_norm": 3.1493172645568848, + "learning_rate": 6.504568952152568e-09, + "loss": 0.2839, + "step": 8907 + }, + { + "epoch": 2.969333333333333, + "grad_norm": 4.228903293609619, + "learning_rate": 6.365452571557296e-09, + "loss": 0.3293, + "step": 8908 + }, + { + "epoch": 2.969666666666667, + "grad_norm": 2.522197961807251, + "learning_rate": 6.227839516954603e-09, + "loss": 0.2875, + "step": 8909 + }, + { + "epoch": 2.9699999999999998, + "grad_norm": 3.0093445777893066, + "learning_rate": 6.091729809042379e-09, + "loss": 0.2875, + "step": 8910 + }, + { + "epoch": 2.9703333333333335, + "grad_norm": 2.496445417404175, + "learning_rate": 5.9571234682986865e-09, + "loss": 0.2694, + "step": 8911 + }, + { + "epoch": 2.970666666666667, + "grad_norm": 2.8381736278533936, + "learning_rate": 5.8240205149684425e-09, + "loss": 0.2849, + "step": 8912 + }, + { + "epoch": 2.971, + "grad_norm": 3.6021435260772705, + "learning_rate": 5.6924209690767395e-09, + "loss": 0.3105, + "step": 8913 + }, + { + "epoch": 2.9713333333333334, + "grad_norm": 2.7306084632873535, + "learning_rate": 5.562324850419964e-09, + "loss": 0.2775, + "step": 8914 + }, + { + "epoch": 2.9716666666666667, + "grad_norm": 2.7637147903442383, + "learning_rate": 5.433732178566908e-09, + "loss": 0.2823, + "step": 8915 + }, + { + "epoch": 2.972, + "grad_norm": 2.674549102783203, + "learning_rate": 5.306642972862097e-09, + "loss": 0.2898, + "step": 8916 + }, + { + "epoch": 2.9723333333333333, + "grad_norm": 2.948591947555542, + "learning_rate": 5.181057252423572e-09, + "loss": 0.2839, + "step": 8917 + }, + { + "epoch": 2.9726666666666666, + "grad_norm": 2.808859348297119, + "learning_rate": 5.0569750361417756e-09, + "loss": 0.2757, + "step": 8918 + }, + { + "epoch": 2.973, + "grad_norm": 3.442488193511963, + "learning_rate": 4.9343963426840006e-09, + "loss": 0.3167, + "step": 8919 + }, + { + "epoch": 2.9733333333333336, + "grad_norm": 3.1572489738464355, + "learning_rate": 4.813321190488829e-09, + "loss": 0.3027, + "step": 8920 + }, + { + "epoch": 2.9736666666666665, + "grad_norm": 2.6883466243743896, + "learning_rate": 4.69374959776947e-09, + "loss": 0.2756, + "step": 8921 + }, + { + "epoch": 2.974, + "grad_norm": 2.9057698249816895, + "learning_rate": 4.575681582512648e-09, + "loss": 0.3128, + "step": 8922 + }, + { + "epoch": 2.9743333333333335, + "grad_norm": 3.025264263153076, + "learning_rate": 4.459117162478599e-09, + "loss": 0.3089, + "step": 8923 + }, + { + "epoch": 2.974666666666667, + "grad_norm": 2.6246628761291504, + "learning_rate": 4.3440563552032966e-09, + "loss": 0.2443, + "step": 8924 + }, + { + "epoch": 2.975, + "grad_norm": 3.31408429145813, + "learning_rate": 4.230499177994007e-09, + "loss": 0.2951, + "step": 8925 + }, + { + "epoch": 2.9753333333333334, + "grad_norm": 2.6302502155303955, + "learning_rate": 4.118445647933733e-09, + "loss": 0.2875, + "step": 8926 + }, + { + "epoch": 2.9756666666666667, + "grad_norm": 2.6697728633880615, + "learning_rate": 4.00789578187788e-09, + "loss": 0.2878, + "step": 8927 + }, + { + "epoch": 2.976, + "grad_norm": 3.1018121242523193, + "learning_rate": 3.898849596456477e-09, + "loss": 0.2975, + "step": 8928 + }, + { + "epoch": 2.9763333333333333, + "grad_norm": 2.2324814796447754, + "learning_rate": 3.791307108073072e-09, + "loss": 0.2765, + "step": 8929 + }, + { + "epoch": 2.9766666666666666, + "grad_norm": 2.4368484020233154, + "learning_rate": 3.6852683329058336e-09, + "loss": 0.2766, + "step": 8930 + }, + { + "epoch": 2.977, + "grad_norm": 2.7341885566711426, + "learning_rate": 3.5807332869042256e-09, + "loss": 0.3114, + "step": 8931 + }, + { + "epoch": 2.977333333333333, + "grad_norm": 2.7942795753479004, + "learning_rate": 3.4777019857956673e-09, + "loss": 0.3087, + "step": 8932 + }, + { + "epoch": 2.977666666666667, + "grad_norm": 2.433323621749878, + "learning_rate": 3.376174445076652e-09, + "loss": 0.2629, + "step": 8933 + }, + { + "epoch": 2.9779999999999998, + "grad_norm": 2.955286979675293, + "learning_rate": 3.276150680021628e-09, + "loss": 0.2536, + "step": 8934 + }, + { + "epoch": 2.9783333333333335, + "grad_norm": 2.6128506660461426, + "learning_rate": 3.1776307056763377e-09, + "loss": 0.2775, + "step": 8935 + }, + { + "epoch": 2.978666666666667, + "grad_norm": 2.509894847869873, + "learning_rate": 3.0806145368600382e-09, + "loss": 0.2979, + "step": 8936 + }, + { + "epoch": 2.979, + "grad_norm": 2.4434146881103516, + "learning_rate": 2.9851021881688314e-09, + "loss": 0.2919, + "step": 8937 + }, + { + "epoch": 2.9793333333333334, + "grad_norm": 2.941469669342041, + "learning_rate": 2.891093673969003e-09, + "loss": 0.2764, + "step": 8938 + }, + { + "epoch": 2.9796666666666667, + "grad_norm": 3.115144729614258, + "learning_rate": 2.7985890084014642e-09, + "loss": 0.3089, + "step": 8939 + }, + { + "epoch": 2.98, + "grad_norm": 2.6896135807037354, + "learning_rate": 2.7075882053828605e-09, + "loss": 0.2673, + "step": 8940 + }, + { + "epoch": 2.9803333333333333, + "grad_norm": 2.709883689880371, + "learning_rate": 2.6180912786022417e-09, + "loss": 0.2962, + "step": 8941 + }, + { + "epoch": 2.9806666666666666, + "grad_norm": 3.6445395946502686, + "learning_rate": 2.530098241522172e-09, + "loss": 0.2974, + "step": 8942 + }, + { + "epoch": 2.981, + "grad_norm": 2.7211830615997314, + "learning_rate": 2.4436091073787304e-09, + "loss": 0.2744, + "step": 8943 + }, + { + "epoch": 2.981333333333333, + "grad_norm": 3.26794695854187, + "learning_rate": 2.358623889183731e-09, + "loss": 0.3033, + "step": 8944 + }, + { + "epoch": 2.9816666666666665, + "grad_norm": 2.5109708309173584, + "learning_rate": 2.275142599719171e-09, + "loss": 0.2935, + "step": 8945 + }, + { + "epoch": 2.982, + "grad_norm": 2.9378714561462402, + "learning_rate": 2.193165251545004e-09, + "loss": 0.2845, + "step": 8946 + }, + { + "epoch": 2.982333333333333, + "grad_norm": 2.8605775833129883, + "learning_rate": 2.112691856992477e-09, + "loss": 0.3267, + "step": 8947 + }, + { + "epoch": 2.982666666666667, + "grad_norm": 2.4447317123413086, + "learning_rate": 2.0337224281663513e-09, + "loss": 0.2842, + "step": 8948 + }, + { + "epoch": 2.983, + "grad_norm": 2.830991744995117, + "learning_rate": 1.956256976947124e-09, + "loss": 0.2863, + "step": 8949 + }, + { + "epoch": 2.9833333333333334, + "grad_norm": 2.756805181503296, + "learning_rate": 1.8802955149865854e-09, + "loss": 0.2685, + "step": 8950 + }, + { + "epoch": 2.9836666666666667, + "grad_norm": 2.4384047985076904, + "learning_rate": 1.8058380537111508e-09, + "loss": 0.2574, + "step": 8951 + }, + { + "epoch": 2.984, + "grad_norm": 2.951902389526367, + "learning_rate": 1.7328846043229707e-09, + "loss": 0.2911, + "step": 8952 + }, + { + "epoch": 2.9843333333333333, + "grad_norm": 2.308881998062134, + "learning_rate": 1.6614351777954897e-09, + "loss": 0.3056, + "step": 8953 + }, + { + "epoch": 2.9846666666666666, + "grad_norm": 2.558119297027588, + "learning_rate": 1.591489784875666e-09, + "loss": 0.3095, + "step": 8954 + }, + { + "epoch": 2.985, + "grad_norm": 2.842233657836914, + "learning_rate": 1.5230484360873043e-09, + "loss": 0.2791, + "step": 8955 + }, + { + "epoch": 2.985333333333333, + "grad_norm": 2.9193780422210693, + "learning_rate": 1.4561111417255024e-09, + "loss": 0.2897, + "step": 8956 + }, + { + "epoch": 2.985666666666667, + "grad_norm": 3.5237655639648438, + "learning_rate": 1.3906779118577629e-09, + "loss": 0.3124, + "step": 8957 + }, + { + "epoch": 2.9859999999999998, + "grad_norm": 2.5139548778533936, + "learning_rate": 1.3267487563284332e-09, + "loss": 0.3149, + "step": 8958 + }, + { + "epoch": 2.9863333333333335, + "grad_norm": 2.702016830444336, + "learning_rate": 1.2643236847542651e-09, + "loss": 0.2731, + "step": 8959 + }, + { + "epoch": 2.986666666666667, + "grad_norm": 3.1258480548858643, + "learning_rate": 1.203402706525525e-09, + "loss": 0.2759, + "step": 8960 + }, + { + "epoch": 2.987, + "grad_norm": 2.6991403102874756, + "learning_rate": 1.1439858308071038e-09, + "loss": 0.2904, + "step": 8961 + }, + { + "epoch": 2.9873333333333334, + "grad_norm": 3.03519606590271, + "learning_rate": 1.0860730665362974e-09, + "loss": 0.2742, + "step": 8962 + }, + { + "epoch": 2.9876666666666667, + "grad_norm": 2.721802234649658, + "learning_rate": 1.0296644224250251e-09, + "loss": 0.3163, + "step": 8963 + }, + { + "epoch": 2.988, + "grad_norm": 2.404799222946167, + "learning_rate": 9.74759906957612e-10, + "loss": 0.2419, + "step": 8964 + }, + { + "epoch": 2.9883333333333333, + "grad_norm": 3.1391725540161133, + "learning_rate": 9.21359528395227e-10, + "loss": 0.2997, + "step": 8965 + }, + { + "epoch": 2.9886666666666666, + "grad_norm": 2.79765248298645, + "learning_rate": 8.69463294770334e-10, + "loss": 0.3074, + "step": 8966 + }, + { + "epoch": 2.989, + "grad_norm": 3.0155506134033203, + "learning_rate": 8.19071213887801e-10, + "loss": 0.3102, + "step": 8967 + }, + { + "epoch": 2.989333333333333, + "grad_norm": 4.02616548538208, + "learning_rate": 7.701832933304509e-10, + "loss": 0.3333, + "step": 8968 + }, + { + "epoch": 2.9896666666666665, + "grad_norm": 2.4935452938079834, + "learning_rate": 7.227995404512911e-10, + "loss": 0.2845, + "step": 8969 + }, + { + "epoch": 2.99, + "grad_norm": 2.7578625679016113, + "learning_rate": 6.769199623779532e-10, + "loss": 0.3078, + "step": 8970 + }, + { + "epoch": 2.990333333333333, + "grad_norm": 2.7171835899353027, + "learning_rate": 6.325445660115836e-10, + "loss": 0.266, + "step": 8971 + }, + { + "epoch": 2.990666666666667, + "grad_norm": 2.696808338165283, + "learning_rate": 5.896733580290637e-10, + "loss": 0.2768, + "step": 8972 + }, + { + "epoch": 2.991, + "grad_norm": 2.5952298641204834, + "learning_rate": 5.483063448785686e-10, + "loss": 0.2654, + "step": 8973 + }, + { + "epoch": 2.9913333333333334, + "grad_norm": 2.4489963054656982, + "learning_rate": 5.084435327828985e-10, + "loss": 0.2679, + "step": 8974 + }, + { + "epoch": 2.9916666666666667, + "grad_norm": 2.8265292644500732, + "learning_rate": 4.700849277383679e-10, + "loss": 0.2911, + "step": 8975 + }, + { + "epoch": 2.992, + "grad_norm": 2.450324058532715, + "learning_rate": 4.332305355159161e-10, + "loss": 0.2824, + "step": 8976 + }, + { + "epoch": 2.9923333333333333, + "grad_norm": 3.007295846939087, + "learning_rate": 3.978803616577764e-10, + "loss": 0.3109, + "step": 8977 + }, + { + "epoch": 2.9926666666666666, + "grad_norm": 3.0237977504730225, + "learning_rate": 3.6403441148413767e-10, + "loss": 0.2973, + "step": 8978 + }, + { + "epoch": 2.993, + "grad_norm": 3.277015209197998, + "learning_rate": 3.316926900842621e-10, + "loss": 0.2846, + "step": 8979 + }, + { + "epoch": 2.993333333333333, + "grad_norm": 3.370955228805542, + "learning_rate": 3.008552023242572e-10, + "loss": 0.2923, + "step": 8980 + }, + { + "epoch": 2.993666666666667, + "grad_norm": 2.2583844661712646, + "learning_rate": 2.7152195284263493e-10, + "loss": 0.3092, + "step": 8981 + }, + { + "epoch": 2.9939999999999998, + "grad_norm": 2.421344041824341, + "learning_rate": 2.436929460525317e-10, + "loss": 0.2609, + "step": 8982 + }, + { + "epoch": 2.9943333333333335, + "grad_norm": 2.6891751289367676, + "learning_rate": 2.1736818613837806e-10, + "loss": 0.2741, + "step": 8983 + }, + { + "epoch": 2.994666666666667, + "grad_norm": 2.565328598022461, + "learning_rate": 1.9254767706256005e-10, + "loss": 0.2975, + "step": 8984 + }, + { + "epoch": 2.995, + "grad_norm": 2.990316390991211, + "learning_rate": 1.6923142255764745e-10, + "loss": 0.2762, + "step": 8985 + }, + { + "epoch": 2.9953333333333334, + "grad_norm": 4.841221332550049, + "learning_rate": 1.4741942613194504e-10, + "loss": 0.2819, + "step": 8986 + }, + { + "epoch": 2.9956666666666667, + "grad_norm": 2.6023638248443604, + "learning_rate": 1.2711169106505162e-10, + "loss": 0.2855, + "step": 8987 + }, + { + "epoch": 2.996, + "grad_norm": 2.4182286262512207, + "learning_rate": 1.0830822041230093e-10, + "loss": 0.3069, + "step": 8988 + }, + { + "epoch": 2.9963333333333333, + "grad_norm": 2.6943249702453613, + "learning_rate": 9.100901700254128e-11, + "loss": 0.2891, + "step": 8989 + }, + { + "epoch": 2.9966666666666666, + "grad_norm": 2.745765209197998, + "learning_rate": 7.521408343924564e-11, + "loss": 0.2778, + "step": 8990 + }, + { + "epoch": 2.997, + "grad_norm": 3.3236377239227295, + "learning_rate": 6.092342209607083e-11, + "loss": 0.3248, + "step": 8991 + }, + { + "epoch": 2.997333333333333, + "grad_norm": 2.255974054336548, + "learning_rate": 4.813703512462908e-11, + "loss": 0.3085, + "step": 8992 + }, + { + "epoch": 2.9976666666666665, + "grad_norm": 3.554243803024292, + "learning_rate": 3.685492444671645e-11, + "loss": 0.3102, + "step": 8993 + }, + { + "epoch": 2.998, + "grad_norm": 2.609293222427368, + "learning_rate": 2.7077091762084396e-11, + "loss": 0.2936, + "step": 8994 + }, + { + "epoch": 2.998333333333333, + "grad_norm": 3.143014430999756, + "learning_rate": 1.8803538538447742e-11, + "loss": 0.2903, + "step": 8995 + }, + { + "epoch": 2.998666666666667, + "grad_norm": 2.6035523414611816, + "learning_rate": 1.2034266022586948e-11, + "loss": 0.2608, + "step": 8996 + }, + { + "epoch": 2.999, + "grad_norm": 3.172943115234375, + "learning_rate": 6.7692752314663104e-12, + "loss": 0.2829, + "step": 8997 + }, + { + "epoch": 2.9993333333333334, + "grad_norm": 2.511382818222046, + "learning_rate": 3.008566957785064e-12, + "loss": 0.2946, + "step": 8998 + }, + { + "epoch": 2.9996666666666667, + "grad_norm": 2.7674763202667236, + "learning_rate": 7.521417677569531e-13, + "loss": 0.2524, + "step": 8999 + }, + { + "epoch": 3.0, + "grad_norm": 2.613602638244629, + "learning_rate": 0.0, + "loss": 0.2402, + "step": 9000 + } + ], + "logging_steps": 1.0, + "max_steps": 9000, + "num_input_tokens_seen": 0, + "num_train_epochs": 3, + "save_steps": 5000, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 2.36243460461219e+18, + "train_batch_size": 4, + "trial_name": null, + "trial_params": null +}