diff --git "a/trainer_state.json" "b/trainer_state.json"
--- "a/trainer_state.json"
+++ "b/trainer_state.json"
@@ -10,13612 +10,13612 @@
   "log_history": [
     {
       "epoch": 0.005865102639296188,
-      "grad_norm": 36.851659359587856,
+      "grad_norm": 36.14509413690048,
       "learning_rate": 7.843137254901962e-07,
-      "loss": 2.4374,
-      "mean_token_accuracy": 0.5096197873353958,
+      "loss": 2.5787,
+      "mean_token_accuracy": 0.4923335835337639,
       "step": 1
     },
     {
       "epoch": 0.011730205278592375,
-      "grad_norm": 37.00745341487253,
+      "grad_norm": 36.4475794468042,
       "learning_rate": 1.5686274509803923e-06,
-      "loss": 2.5183,
-      "mean_token_accuracy": 0.5060627236962318,
+      "loss": 2.6539,
+      "mean_token_accuracy": 0.48734448477625847,
       "step": 2
     },
     {
       "epoch": 0.017595307917888565,
-      "grad_norm": 33.06806834510508,
+      "grad_norm": 32.10454485992091,
       "learning_rate": 2.3529411764705885e-06,
-      "loss": 2.3759,
-      "mean_token_accuracy": 0.5072058513760567,
+      "loss": 2.543,
+      "mean_token_accuracy": 0.48166975751519203,
       "step": 3
     },
     {
       "epoch": 0.02346041055718475,
-      "grad_norm": 24.17744815738214,
+      "grad_norm": 26.242796758548412,
       "learning_rate": 3.1372549019607846e-06,
-      "loss": 2.291,
-      "mean_token_accuracy": 0.5175964683294296,
+      "loss": 2.4279,
+      "mean_token_accuracy": 0.5031268112361431,
       "step": 4
     },
     {
       "epoch": 0.02932551319648094,
-      "grad_norm": 15.532179533817953,
+      "grad_norm": 15.599962593546184,
       "learning_rate": 3.92156862745098e-06,
-      "loss": 2.0552,
-      "mean_token_accuracy": 0.5564254969358444,
+      "loss": 2.1324,
+      "mean_token_accuracy": 0.5300704799592495,
       "step": 5
     },
     {
       "epoch": 0.03519061583577713,
-      "grad_norm": 12.400572852662727,
+      "grad_norm": 12.006705982946158,
       "learning_rate": 4.705882352941177e-06,
-      "loss": 1.8973,
-      "mean_token_accuracy": 0.5799022987484932,
+      "loss": 1.8898,
+      "mean_token_accuracy": 0.572486124932766,
       "step": 6
     },
     {
       "epoch": 0.04105571847507331,
-      "grad_norm": 12.714649590022084,
+      "grad_norm": 11.765766521790566,
       "learning_rate": 5.4901960784313735e-06,
-      "loss": 1.8896,
-      "mean_token_accuracy": 0.5862231701612473,
+      "loss": 1.8913,
+      "mean_token_accuracy": 0.5782412365078926,
       "step": 7
     },
     {
       "epoch": 0.0469208211143695,
-      "grad_norm": 15.580490797392397,
+      "grad_norm": 9.957672917685553,
       "learning_rate": 6.274509803921569e-06,
-      "loss": 1.7358,
-      "mean_token_accuracy": 0.5966581851243973,
+      "loss": 1.6377,
+      "mean_token_accuracy": 0.6252397820353508,
       "step": 8
     },
     {
       "epoch": 0.05278592375366569,
-      "grad_norm": 11.702112786205797,
+      "grad_norm": 7.539104060500998,
       "learning_rate": 7.058823529411766e-06,
-      "loss": 1.5665,
-      "mean_token_accuracy": 0.6283580958843231,
+      "loss": 1.5152,
+      "mean_token_accuracy": 0.64116121083498,
       "step": 9
     },
     {
       "epoch": 0.05865102639296188,
-      "grad_norm": 8.70207348765521,
+      "grad_norm": 6.311700758053688,
       "learning_rate": 7.84313725490196e-06,
-      "loss": 1.4954,
-      "mean_token_accuracy": 0.6435549259185791,
+      "loss": 1.4626,
+      "mean_token_accuracy": 0.6572283431887627,
       "step": 10
     },
     {
       "epoch": 0.06451612903225806,
-      "grad_norm": 10.43187874858921,
+      "grad_norm": 6.03423316811303,
       "learning_rate": 8.627450980392157e-06,
-      "loss": 1.3849,
-      "mean_token_accuracy": 0.661979116499424,
+      "loss": 1.32,
+      "mean_token_accuracy": 0.6869097501039505,
       "step": 11
     },
     {
       "epoch": 0.07038123167155426,
-      "grad_norm": 8.446666521329538,
+      "grad_norm": 5.8161864206350735,
       "learning_rate": 9.411764705882354e-06,
-      "loss": 1.3824,
-      "mean_token_accuracy": 0.6618056520819664,
+      "loss": 1.2741,
+      "mean_token_accuracy": 0.6884993687272072,
       "step": 12
     },
     {
       "epoch": 0.07624633431085044,
-      "grad_norm": 8.252951365329222,
+      "grad_norm": 10.50308433461848,
       "learning_rate": 1.0196078431372549e-05,
-      "loss": 1.3473,
-      "mean_token_accuracy": 0.6602734103798866,
+      "loss": 1.2259,
+      "mean_token_accuracy": 0.6989131048321724,
       "step": 13
     },
     {
       "epoch": 0.08211143695014662,
-      "grad_norm": 6.8948482176419015,
+      "grad_norm": 5.059241917511266,
       "learning_rate": 1.0980392156862747e-05,
-      "loss": 1.4417,
-      "mean_token_accuracy": 0.6434540897607803,
+      "loss": 1.3513,
+      "mean_token_accuracy": 0.6826794818043709,
       "step": 14
     },
     {
       "epoch": 0.08797653958944282,
-      "grad_norm": 6.539460909791532,
+      "grad_norm": 5.89298633359988,
       "learning_rate": 1.1764705882352942e-05,
-      "loss": 1.4346,
-      "mean_token_accuracy": 0.6494264975190163,
+      "loss": 1.3141,
+      "mean_token_accuracy": 0.6757656708359718,
       "step": 15
     },
     {
       "epoch": 0.093841642228739,
-      "grad_norm": 5.434354265326855,
+      "grad_norm": 5.168080959685619,
       "learning_rate": 1.2549019607843138e-05,
-      "loss": 1.3035,
-      "mean_token_accuracy": 0.6783203706145287,
+      "loss": 1.2261,
+      "mean_token_accuracy": 0.691883496940136,
       "step": 16
     },
     {
       "epoch": 0.09970674486803519,
-      "grad_norm": 4.7148773508202515,
+      "grad_norm": 4.484141065615124,
       "learning_rate": 1.3333333333333333e-05,
-      "loss": 1.2174,
-      "mean_token_accuracy": 0.6834078431129456,
+      "loss": 1.1443,
+      "mean_token_accuracy": 0.7193374708294868,
       "step": 17
     },
     {
       "epoch": 0.10557184750733138,
-      "grad_norm": 5.873881991004589,
+      "grad_norm": 5.453207713810213,
       "learning_rate": 1.4117647058823532e-05,
-      "loss": 1.1852,
-      "mean_token_accuracy": 0.6986361294984818,
+      "loss": 1.1347,
+      "mean_token_accuracy": 0.7149711772799492,
       "step": 18
     },
     {
       "epoch": 0.11143695014662756,
-      "grad_norm": 25.463977260503608,
+      "grad_norm": 4.536133715127149,
       "learning_rate": 1.4901960784313726e-05,
-      "loss": 1.4844,
-      "mean_token_accuracy": 0.6396931707859039,
+      "loss": 1.2998,
+      "mean_token_accuracy": 0.6797390431165695,
       "step": 19
     },
     {
       "epoch": 0.11730205278592376,
-      "grad_norm": 7.1572160909660125,
+      "grad_norm": 4.246131189412244,
       "learning_rate": 1.568627450980392e-05,
-      "loss": 1.2791,
-      "mean_token_accuracy": 0.6703987568616867,
+      "loss": 1.1751,
+      "mean_token_accuracy": 0.7038690000772476,
       "step": 20
     },
     {
       "epoch": 0.12316715542521994,
-      "grad_norm": 4.095861178832352,
+      "grad_norm": 4.073009596887261,
       "learning_rate": 1.647058823529412e-05,
-      "loss": 1.2234,
-      "mean_token_accuracy": 0.6897248178720474,
+      "loss": 1.1252,
+      "mean_token_accuracy": 0.7140218988060951,
       "step": 21
     },
     {
       "epoch": 0.12903225806451613,
-      "grad_norm": 4.773764142523696,
+      "grad_norm": 3.699907899806749,
       "learning_rate": 1.7254901960784314e-05,
-      "loss": 1.2771,
-      "mean_token_accuracy": 0.6836260929703712,
+      "loss": 1.149,
+      "mean_token_accuracy": 0.714351512491703,
       "step": 22
     },
     {
       "epoch": 0.1348973607038123,
-      "grad_norm": 4.037667101234835,
+      "grad_norm": 3.972868223544853,
       "learning_rate": 1.8039215686274513e-05,
-      "loss": 1.1467,
-      "mean_token_accuracy": 0.7134711667895317,
+      "loss": 1.0669,
+      "mean_token_accuracy": 0.7354029938578606,
       "step": 23
     },
     {
       "epoch": 0.14076246334310852,
-      "grad_norm": 4.935180182733481,
+      "grad_norm": 3.7388993855253982,
       "learning_rate": 1.8823529411764708e-05,
-      "loss": 1.2157,
-      "mean_token_accuracy": 0.6998878344893456,
+      "loss": 1.0795,
+      "mean_token_accuracy": 0.7333876341581345,
       "step": 24
     },
     {
       "epoch": 0.1466275659824047,
-      "grad_norm": 4.721141853747017,
+      "grad_norm": 4.046285000278155,
       "learning_rate": 1.9607843137254903e-05,
-      "loss": 1.1784,
-      "mean_token_accuracy": 0.6964201852679253,
+      "loss": 1.0917,
+      "mean_token_accuracy": 0.7187787368893623,
       "step": 25
     },
     {
       "epoch": 0.15249266862170088,
-      "grad_norm": 5.246228951758431,
+      "grad_norm": 4.194005650841938,
       "learning_rate": 2.0392156862745097e-05,
-      "loss": 1.204,
-      "mean_token_accuracy": 0.7094837054610252,
+      "loss": 1.1695,
+      "mean_token_accuracy": 0.7088376209139824,
       "step": 26
     },
     {
       "epoch": 0.15835777126099707,
-      "grad_norm": 4.682236592289397,
+      "grad_norm": 4.162135874639218,
       "learning_rate": 2.1176470588235296e-05,
-      "loss": 1.2207,
-      "mean_token_accuracy": 0.7027621790766716,
+      "loss": 1.0882,
+      "mean_token_accuracy": 0.7265072241425514,
       "step": 27
     },
     {
       "epoch": 0.16422287390029325,
-      "grad_norm": 3.9239160089159455,
+      "grad_norm": 3.6630230495700165,
       "learning_rate": 2.1960784313725494e-05,
-      "loss": 1.0857,
-      "mean_token_accuracy": 0.7144983857870102,
+      "loss": 0.9752,
+      "mean_token_accuracy": 0.7463881373405457,
       "step": 28
     },
     {
       "epoch": 0.17008797653958943,
-      "grad_norm": 4.527625873838982,
+      "grad_norm": 4.192134812090267,
       "learning_rate": 2.274509803921569e-05,
-      "loss": 1.1507,
-      "mean_token_accuracy": 0.7080343216657639,
+      "loss": 1.0355,
+      "mean_token_accuracy": 0.7389096990227699,
       "step": 29
     },
     {
       "epoch": 0.17595307917888564,
-      "grad_norm": 4.522012886880006,
+      "grad_norm": 4.153201939553374,
       "learning_rate": 2.3529411764705884e-05,
-      "loss": 1.2317,
-      "mean_token_accuracy": 0.6883119121193886,
+      "loss": 1.08,
+      "mean_token_accuracy": 0.723046787083149,
       "step": 30
     },
     {
       "epoch": 0.18181818181818182,
-      "grad_norm": 4.0469531644008505,
+      "grad_norm": 4.158994764338232,
       "learning_rate": 2.431372549019608e-05,
-      "loss": 1.3669,
-      "mean_token_accuracy": 0.6731580421328545,
+      "loss": 1.2401,
+      "mean_token_accuracy": 0.7062453478574753,
       "step": 31
     },
     {
       "epoch": 0.187683284457478,
-      "grad_norm": 3.9549406080521745,
+      "grad_norm": 4.056181311918012,
       "learning_rate": 2.5098039215686277e-05,
-      "loss": 1.113,
-      "mean_token_accuracy": 0.7163452804088593,
+      "loss": 0.967,
+      "mean_token_accuracy": 0.750753328204155,
       "step": 32
     },
     {
       "epoch": 0.1935483870967742,
-      "grad_norm": 4.515614395996245,
+      "grad_norm": 4.093997127140846,
       "learning_rate": 2.5882352941176475e-05,
-      "loss": 1.2258,
-      "mean_token_accuracy": 0.694293312728405,
+      "loss": 1.0725,
+      "mean_token_accuracy": 0.7313473895192146,
       "step": 33
     },
     {
       "epoch": 0.19941348973607037,
-      "grad_norm": 3.7187249983876667,
+      "grad_norm": 3.2432440297693557,
       "learning_rate": 2.6666666666666667e-05,
-      "loss": 1.0837,
-      "mean_token_accuracy": 0.72011748701334,
+      "loss": 0.9912,
+      "mean_token_accuracy": 0.7401512935757637,
       "step": 34
     },
     {
       "epoch": 0.20527859237536658,
-      "grad_norm": 4.216460194700125,
+      "grad_norm": 3.8928776327849253,
       "learning_rate": 2.7450980392156865e-05,
-      "loss": 1.1397,
-      "mean_token_accuracy": 0.7128811702132225,
+      "loss": 1.023,
+      "mean_token_accuracy": 0.7389869540929794,
       "step": 35
     },
     {
       "epoch": 0.21114369501466276,
-      "grad_norm": 5.046740107610314,
+      "grad_norm": 3.8559916286631495,
       "learning_rate": 2.8235294117647063e-05,
-      "loss": 1.1826,
-      "mean_token_accuracy": 0.7074279710650444,
+      "loss": 1.045,
+      "mean_token_accuracy": 0.7432608231902122,
       "step": 36
     },
     {
       "epoch": 0.21700879765395895,
-      "grad_norm": 3.998671819509439,
+      "grad_norm": 3.420716935604122,
       "learning_rate": 2.9019607843137258e-05,
-      "loss": 1.0887,
-      "mean_token_accuracy": 0.7202624008059502,
+      "loss": 0.9842,
+      "mean_token_accuracy": 0.7604367211461067,
       "step": 37
     },
     {
       "epoch": 0.22287390029325513,
-      "grad_norm": 3.82846591040134,
+      "grad_norm": 3.5100168737573747,
       "learning_rate": 2.9803921568627453e-05,
-      "loss": 1.0302,
-      "mean_token_accuracy": 0.7288055121898651,
+      "loss": 0.921,
+      "mean_token_accuracy": 0.7548864558339119,
       "step": 38
     },
     {
       "epoch": 0.2287390029325513,
-      "grad_norm": 4.328947102808582,
+      "grad_norm": 3.7074432289739767,
       "learning_rate": 3.0588235294117644e-05,
-      "loss": 1.3474,
-      "mean_token_accuracy": 0.665394015610218,
+      "loss": 1.1716,
+      "mean_token_accuracy": 0.7088168561458588,
       "step": 39
     },
     {
       "epoch": 0.23460410557184752,
-      "grad_norm": 3.534740245743921,
+      "grad_norm": 3.3102650365950748,
       "learning_rate": 3.137254901960784e-05,
-      "loss": 1.0633,
-      "mean_token_accuracy": 0.7198921740055084,
+      "loss": 0.9172,
+      "mean_token_accuracy": 0.7633765339851379,
       "step": 40
     },
     {
       "epoch": 0.2404692082111437,
-      "grad_norm": 3.392870597157443,
+      "grad_norm": 3.149920605006581,
       "learning_rate": 3.215686274509804e-05,
-      "loss": 1.0412,
-      "mean_token_accuracy": 0.7338574528694153,
+      "loss": 0.9249,
+      "mean_token_accuracy": 0.7586075663566589,
       "step": 41
     },
     {
       "epoch": 0.24633431085043989,
-      "grad_norm": 3.8940128199078816,
+      "grad_norm": 3.2393738963150964,
       "learning_rate": 3.294117647058824e-05,
-      "loss": 1.0445,
-      "mean_token_accuracy": 0.7283758819103241,
+      "loss": 0.8995,
+      "mean_token_accuracy": 0.7706887423992157,
       "step": 42
     },
     {
       "epoch": 0.25219941348973607,
-      "grad_norm": 3.3975334500995986,
+      "grad_norm": 2.952349602555809,
       "learning_rate": 3.372549019607844e-05,
-      "loss": 0.8871,
-      "mean_token_accuracy": 0.7578002512454987,
+      "loss": 0.7726,
+      "mean_token_accuracy": 0.7944382950663567,
       "step": 43
     },
     {
       "epoch": 0.25806451612903225,
-      "grad_norm": 3.4126700803478633,
+      "grad_norm": 3.252665163092252,
       "learning_rate": 3.450980392156863e-05,
-      "loss": 1.0618,
-      "mean_token_accuracy": 0.7234469875693321,
+      "loss": 0.9039,
+      "mean_token_accuracy": 0.7575281262397766,
       "step": 44
     },
     {
       "epoch": 0.26392961876832843,
-      "grad_norm": 3.8586208099678645,
+      "grad_norm": 3.3763731210881596,
       "learning_rate": 3.529411764705883e-05,
-      "loss": 0.9222,
-      "mean_token_accuracy": 0.749978631734848,
+      "loss": 0.8264,
+      "mean_token_accuracy": 0.7781133502721786,
       "step": 45
     },
     {
       "epoch": 0.2697947214076246,
-      "grad_norm": 3.9582516129682803,
+      "grad_norm": 3.30879019930114,
       "learning_rate": 3.6078431372549025e-05,
-      "loss": 1.1156,
-      "mean_token_accuracy": 0.7032267674803734,
+      "loss": 0.9723,
+      "mean_token_accuracy": 0.7479118257761002,
       "step": 46
     },
     {
       "epoch": 0.2756598240469208,
-      "grad_norm": 3.8710398537085586,
+      "grad_norm": 3.464519745062525,
       "learning_rate": 3.686274509803922e-05,
-      "loss": 1.0898,
-      "mean_token_accuracy": 0.7087654024362564,
+      "loss": 0.9331,
+      "mean_token_accuracy": 0.7574068754911423,
       "step": 47
     },
     {
       "epoch": 0.28152492668621704,
-      "grad_norm": 3.689167131330777,
+      "grad_norm": 3.1553239901431693,
       "learning_rate": 3.7647058823529415e-05,
-      "loss": 1.0075,
-      "mean_token_accuracy": 0.7357660159468651,
+      "loss": 0.8816,
+      "mean_token_accuracy": 0.7704252302646637,
       "step": 48
     },
     {
       "epoch": 0.2873900293255132,
-      "grad_norm": 3.514337462533497,
+      "grad_norm": 3.346562743926702,
       "learning_rate": 3.8431372549019614e-05,
-      "loss": 1.0222,
-      "mean_token_accuracy": 0.7442046403884888,
+      "loss": 0.8737,
+      "mean_token_accuracy": 0.7910923138260841,
       "step": 49
     },
     {
       "epoch": 0.2932551319648094,
-      "grad_norm": 3.8762873582868718,
+      "grad_norm": 3.3482663437109106,
       "learning_rate": 3.9215686274509805e-05,
-      "loss": 1.23,
-      "mean_token_accuracy": 0.6920453310012817,
+      "loss": 1.0582,
+      "mean_token_accuracy": 0.7400793433189392,
       "step": 50
     },
     {
       "epoch": 0.2991202346041056,
-      "grad_norm": 3.0719439332779332,
+      "grad_norm": 2.808453690268802,
       "learning_rate": 4e-05,
-      "loss": 0.9398,
-      "mean_token_accuracy": 0.7474829107522964,
+      "loss": 0.8091,
+      "mean_token_accuracy": 0.7851236239075661,
       "step": 51
     },
     {
       "epoch": 0.30498533724340177,
-      "grad_norm": 3.5924564436025497,
+      "grad_norm": 3.3563707690930378,
       "learning_rate": 3.999996733363487e-05,
-      "loss": 1.0803,
-      "mean_token_accuracy": 0.7261487022042274,
+      "loss": 0.9554,
+      "mean_token_accuracy": 0.759026862680912,
       "step": 52
     },
     {
       "epoch": 0.31085043988269795,
-      "grad_norm": 3.416094380030762,
+      "grad_norm": 3.177868427473436,
       "learning_rate": 3.9999869334658026e-05,
-      "loss": 1.0064,
-      "mean_token_accuracy": 0.7352629378437996,
+      "loss": 0.8829,
+      "mean_token_accuracy": 0.7689605951309204,
       "step": 53
     },
     {
       "epoch": 0.31671554252199413,
-      "grad_norm": 3.391864669571874,
+      "grad_norm": 3.155245803816592,
       "learning_rate": 3.9999706003425177e-05,
-      "loss": 1.0714,
-      "mean_token_accuracy": 0.7223077043890953,
+      "loss": 0.9032,
+      "mean_token_accuracy": 0.7667737677693367,
       "step": 54
     },
     {
       "epoch": 0.3225806451612903,
-      "grad_norm": 3.706914591081663,
+      "grad_norm": 3.178614863392828,
       "learning_rate": 3.999947734052915e-05,
-      "loss": 1.1963,
-      "mean_token_accuracy": 0.704016849398613,
+      "loss": 1.0082,
+      "mean_token_accuracy": 0.746660441160202,
       "step": 55
     },
     {
       "epoch": 0.3284457478005865,
-      "grad_norm": 3.372340432488623,
+      "grad_norm": 2.8354174033280786,
       "learning_rate": 3.999918334679989e-05,
-      "loss": 1.0763,
-      "mean_token_accuracy": 0.7157147005200386,
+      "loss": 0.9165,
+      "mean_token_accuracy": 0.7646413072943687,
       "step": 56
     },
     {
       "epoch": 0.3343108504398827,
-      "grad_norm": 3.36158570045305,
+      "grad_norm": 3.050044566712993,
       "learning_rate": 3.999882402330448e-05,
-      "loss": 1.0139,
-      "mean_token_accuracy": 0.7262187004089355,
+      "loss": 0.8559,
+      "mean_token_accuracy": 0.7663176953792572,
       "step": 57
     },
     {
       "epoch": 0.34017595307917886,
-      "grad_norm": 3.451164603835625,
+      "grad_norm": 2.766027156435859,
       "learning_rate": 3.999839937134712e-05,
-      "loss": 0.9333,
-      "mean_token_accuracy": 0.7455613538622856,
+      "loss": 0.8021,
+      "mean_token_accuracy": 0.7877992242574692,
       "step": 58
     },
     {
       "epoch": 0.3460410557184751,
-      "grad_norm": 3.9810759690964876,
+      "grad_norm": 3.1089150664448253,
       "learning_rate": 3.999790939246912e-05,
-      "loss": 1.2167,
-      "mean_token_accuracy": 0.6962130814790726,
+      "loss": 1.0441,
+      "mean_token_accuracy": 0.7402208596467972,
       "step": 59
     },
     {
       "epoch": 0.3519061583577713,
-      "grad_norm": 3.519609525609912,
+      "grad_norm": 3.070052989823742,
       "learning_rate": 3.999735408844892e-05,
-      "loss": 0.9685,
-      "mean_token_accuracy": 0.7478121444582939,
+      "loss": 0.8303,
+      "mean_token_accuracy": 0.7838614583015442,
       "step": 60
     },
     {
       "epoch": 0.35777126099706746,
-      "grad_norm": 3.1213934449857277,
+      "grad_norm": 2.996347966135584,
       "learning_rate": 3.999673346130203e-05,
-      "loss": 1.0734,
-      "mean_token_accuracy": 0.7303350269794464,
+      "loss": 0.9312,
+      "mean_token_accuracy": 0.7652290537953377,
       "step": 61
     },
     {
       "epoch": 0.36363636363636365,
-      "grad_norm": 3.4796741528734656,
+      "grad_norm": 2.690721520008225,
       "learning_rate": 3.999604751328109e-05,
-      "loss": 0.9029,
-      "mean_token_accuracy": 0.7691665366292,
+      "loss": 0.7596,
+      "mean_token_accuracy": 0.8071479573845863,
       "step": 62
     },
     {
       "epoch": 0.36950146627565983,
-      "grad_norm": 3.452794361053103,
+      "grad_norm": 2.773174553879102,
       "learning_rate": 3.999529624687581e-05,
-      "loss": 0.8333,
-      "mean_token_accuracy": 0.7859309017658234,
+      "loss": 0.7103,
+      "mean_token_accuracy": 0.8112666308879852,
       "step": 63
     },
     {
       "epoch": 0.375366568914956,
-      "grad_norm": 3.388415827235031,
+      "grad_norm": 2.93779834083201,
       "learning_rate": 3.999447966481298e-05,
-      "loss": 1.0312,
-      "mean_token_accuracy": 0.7555889338254929,
+      "loss": 0.8697,
+      "mean_token_accuracy": 0.7921107411384583,
       "step": 64
     },
     {
       "epoch": 0.3812316715542522,
-      "grad_norm": 3.573995994060177,
+      "grad_norm": 3.1672195550770197,
       "learning_rate": 3.999359777005647e-05,
-      "loss": 1.1018,
-      "mean_token_accuracy": 0.711833767592907,
+      "loss": 0.9436,
+      "mean_token_accuracy": 0.7524725720286369,
       "step": 65
     },
     {
       "epoch": 0.3870967741935484,
-      "grad_norm": 3.3622463956437576,
+      "grad_norm": 2.8351133608014525,
       "learning_rate": 3.999265056580719e-05,
-      "loss": 0.8182,
-      "mean_token_accuracy": 0.7698798477649689,
+      "loss": 0.7133,
+      "mean_token_accuracy": 0.8027519956231117,
       "step": 66
     },
     {
       "epoch": 0.39296187683284456,
-      "grad_norm": 3.8430356274770063,
+      "grad_norm": 3.3754028291704237,
       "learning_rate": 3.999163805550313e-05,
-      "loss": 1.2049,
-      "mean_token_accuracy": 0.7203006744384766,
+      "loss": 1.0152,
+      "mean_token_accuracy": 0.763345830142498,
       "step": 67
     },
     {
       "epoch": 0.39882697947214074,
-      "grad_norm": 3.3760389403116977,
+      "grad_norm": 3.0381916656684504,
       "learning_rate": 3.9990560242819274e-05,
-      "loss": 1.0742,
-      "mean_token_accuracy": 0.7316281497478485,
+      "loss": 0.8966,
+      "mean_token_accuracy": 0.7718857899308205,
       "step": 68
     },
     {
       "epoch": 0.4046920821114369,
-      "grad_norm": 3.0177034229887947,
+      "grad_norm": 2.5365722428064412,
       "learning_rate": 3.9989417131667647e-05,
-      "loss": 0.8724,
-      "mean_token_accuracy": 0.7838785424828529,
+      "loss": 0.7638,
+      "mean_token_accuracy": 0.8163110539317131,
       "step": 69
     },
     {
       "epoch": 0.41055718475073316,
-      "grad_norm": 2.9210681589288323,
+      "grad_norm": 2.7915162380323855,
       "learning_rate": 3.9988208726197293e-05,
-      "loss": 0.8838,
-      "mean_token_accuracy": 0.7562002912163734,
+      "loss": 0.7726,
+      "mean_token_accuracy": 0.7922361120581627,
       "step": 70
     },
     {
       "epoch": 0.41642228739002934,
-      "grad_norm": 4.12729120204305,
+      "grad_norm": 2.978173227270339,
       "learning_rate": 3.998693503079423e-05,
-      "loss": 1.1041,
-      "mean_token_accuracy": 0.7364362850785255,
+      "loss": 0.927,
+      "mean_token_accuracy": 0.7751563489437103,
       "step": 71
     },
     {
       "epoch": 0.4222873900293255,
-      "grad_norm": 3.6965716329786513,
+      "grad_norm": 2.8448079415335235,
       "learning_rate": 3.998559605008146e-05,
-      "loss": 0.9396,
-      "mean_token_accuracy": 0.7411833629012108,
+      "loss": 0.801,
+      "mean_token_accuracy": 0.779315672814846,
       "step": 72
     },
     {
       "epoch": 0.4281524926686217,
-      "grad_norm": 3.515036685731384,
+      "grad_norm": 2.8387570831780815,
       "learning_rate": 3.9984191788918936e-05,
-      "loss": 1.0019,
-      "mean_token_accuracy": 0.7481007277965546,
+      "loss": 0.8389,
+      "mean_token_accuracy": 0.7829952985048294,
       "step": 73
     },
     {
       "epoch": 0.4340175953079179,
-      "grad_norm": 3.2827315115719475,
+      "grad_norm": 2.5878507908913915,
       "learning_rate": 3.998272225240356e-05,
-      "loss": 1.0716,
-      "mean_token_accuracy": 0.7445208355784416,
+      "loss": 0.9174,
+      "mean_token_accuracy": 0.7716861665248871,
       "step": 74
     },
     {
       "epoch": 0.4398826979472141,
-      "grad_norm": 3.4002738542391864,
+      "grad_norm": 2.6510951948539994,
       "learning_rate": 3.9981187445869165e-05,
-      "loss": 0.9189,
-      "mean_token_accuracy": 0.7811929360032082,
+      "loss": 0.7813,
+      "mean_token_accuracy": 0.8107101172208786,
       "step": 75
     },
     {
       "epoch": 0.44574780058651026,
-      "grad_norm": 3.189019628719659,
+      "grad_norm": 2.697548713971357,
       "learning_rate": 3.9979587374886466e-05,
-      "loss": 1.0077,
-      "mean_token_accuracy": 0.7385336235165596,
+      "loss": 0.8972,
+      "mean_token_accuracy": 0.7646167501807213,
       "step": 76
     },
     {
       "epoch": 0.45161290322580644,
-      "grad_norm": 3.567260269970604,
+      "grad_norm": 2.8139069796203504,
       "learning_rate": 3.997792204526309e-05,
-      "loss": 0.9266,
-      "mean_token_accuracy": 0.7527733370661736,
+      "loss": 0.8033,
+      "mean_token_accuracy": 0.7897998914122581,
       "step": 77
     },
     {
       "epoch": 0.4574780058651026,
-      "grad_norm": 2.8177642527128977,
+      "grad_norm": 2.3436223362656476,
       "learning_rate": 3.99761914630435e-05,
-      "loss": 0.8658,
-      "mean_token_accuracy": 0.7683205679059029,
+      "loss": 0.7414,
+      "mean_token_accuracy": 0.7999845147132874,
       "step": 78
     },
     {
       "epoch": 0.4633431085043988,
-      "grad_norm": 2.977084955813338,
+      "grad_norm": 2.594588586928223,
       "learning_rate": 3.997439563450901e-05,
-      "loss": 0.8314,
-      "mean_token_accuracy": 0.7646985054016113,
+      "loss": 0.7127,
+      "mean_token_accuracy": 0.8027607202529907,
       "step": 79
     },
     {
       "epoch": 0.46920821114369504,
-      "grad_norm": 3.326612634601017,
+      "grad_norm": 2.8704349406315517,
       "learning_rate": 3.997253456617775e-05,
-      "loss": 0.9131,
-      "mean_token_accuracy": 0.7705802395939827,
+      "loss": 0.7686,
+      "mean_token_accuracy": 0.8007281050086021,
       "step": 80
     },
     {
       "epoch": 0.4750733137829912,
-      "grad_norm": 2.8536925285281827,
+      "grad_norm": 2.5510137739446686,
       "learning_rate": 3.997060826480465e-05,
-      "loss": 0.8028,
-      "mean_token_accuracy": 0.7799694091081619,
+      "loss": 0.6935,
+      "mean_token_accuracy": 0.8144687339663506,
       "step": 81
     },
     {
       "epoch": 0.4809384164222874,
-      "grad_norm": 2.7871810127043863,
+      "grad_norm": 2.360869808267721,
       "learning_rate": 3.9968616737381414e-05,
-      "loss": 0.9226,
-      "mean_token_accuracy": 0.7754707932472229,
+      "loss": 0.7855,
+      "mean_token_accuracy": 0.8035428002476692,
       "step": 82
     },
     {
       "epoch": 0.4868035190615836,
-      "grad_norm": 2.7373917465082354,
+      "grad_norm": 2.2447686355133514,
       "learning_rate": 3.996655999113647e-05,
-      "loss": 0.7868,
-      "mean_token_accuracy": 0.7968426421284676,
+      "loss": 0.6925,
+      "mean_token_accuracy": 0.8235335797071457,
       "step": 83
     },
     {
       "epoch": 0.49266862170087977,
-      "grad_norm": 2.6733857555268847,
+      "grad_norm": 2.2547861026647382,
       "learning_rate": 3.9964438033534994e-05,
-      "loss": 0.6813,
-      "mean_token_accuracy": 0.806500993669033,
+      "loss": 0.5884,
+      "mean_token_accuracy": 0.8370934575796127,
       "step": 84
     },
     {
       "epoch": 0.49853372434017595,
-      "grad_norm": 2.710796729205208,
+      "grad_norm": 2.309713135086869,
       "learning_rate": 3.996225087227881e-05,
-      "loss": 0.8327,
-      "mean_token_accuracy": 0.7808489948511124,
+      "loss": 0.736,
+      "mean_token_accuracy": 0.8138050213456154,
       "step": 85
     },
     {
       "epoch": 0.5043988269794721,
-      "grad_norm": 2.767538588379973,
+      "grad_norm": 2.344634268841188,
       "learning_rate": 3.995999851530645e-05,
-      "loss": 0.8104,
-      "mean_token_accuracy": 0.8030309081077576,
+      "loss": 0.6836,
+      "mean_token_accuracy": 0.8341879695653915,
       "step": 86
     },
     {
       "epoch": 0.5102639296187683,
-      "grad_norm": 2.791748527828644,
+      "grad_norm": 2.5276817825702507,
       "learning_rate": 3.995768097079305e-05,
-      "loss": 0.8377,
-      "mean_token_accuracy": 0.7796871438622475,
+      "loss": 0.7201,
+      "mean_token_accuracy": 0.8180172145366669,
       "step": 87
     },
     {
       "epoch": 0.5161290322580645,
-      "grad_norm": 17.10160874448148,
+      "grad_norm": 2.930450810837515,
       "learning_rate": 3.9955298247150365e-05,
-      "loss": 1.0538,
-      "mean_token_accuracy": 0.7283467650413513,
+      "loss": 0.8532,
+      "mean_token_accuracy": 0.7764740958809853,
       "step": 88
     },
     {
       "epoch": 0.5219941348973607,
-      "grad_norm": 2.9697344797921774,
+      "grad_norm": 2.635872197106337,
       "learning_rate": 3.9952850353026715e-05,
-      "loss": 0.8371,
-      "mean_token_accuracy": 0.7595526427030563,
+      "loss": 0.7202,
+      "mean_token_accuracy": 0.7964513823390007,
       "step": 89
     },
     {
       "epoch": 0.5278592375366569,
-      "grad_norm": 3.063089786027371,
+      "grad_norm": 2.6560892710983475,
       "learning_rate": 3.9950337297306976e-05,
-      "loss": 0.9252,
-      "mean_token_accuracy": 0.765510194003582,
+      "loss": 0.7718,
+      "mean_token_accuracy": 0.8056656494736671,
       "step": 90
     },
     {
       "epoch": 0.533724340175953,
-      "grad_norm": 3.2593335067842117,
+      "grad_norm": 2.9785297087153233,
       "learning_rate": 3.994775908911251e-05,
-      "loss": 0.9852,
-      "mean_token_accuracy": 0.7499447464942932,
+      "loss": 0.8443,
+      "mean_token_accuracy": 0.7823826372623444,
       "step": 91
     },
     {
       "epoch": 0.5395894428152492,
-      "grad_norm": 2.755070128063194,
+      "grad_norm": 2.6848005659586094,
       "learning_rate": 3.9945115737801183e-05,
-      "loss": 0.805,
-      "mean_token_accuracy": 0.779099851846695,
+      "loss": 0.6993,
+      "mean_token_accuracy": 0.8107479214668274,
       "step": 92
     },
     {
       "epoch": 0.5454545454545454,
-      "grad_norm": 3.0713510061837743,
+      "grad_norm": 2.6298393012226247,
       "learning_rate": 3.99424072529673e-05,
-      "loss": 0.9714,
-      "mean_token_accuracy": 0.7578205242753029,
+      "loss": 0.8409,
+      "mean_token_accuracy": 0.7889999225735664,
       "step": 93
     },
     {
       "epoch": 0.5513196480938416,
-      "grad_norm": 5.577700081592657,
+      "grad_norm": 2.579937157375281,
       "learning_rate": 3.993963364444155e-05,
-      "loss": 0.8266,
-      "mean_token_accuracy": 0.7803476750850677,
+      "loss": 0.7234,
+      "mean_token_accuracy": 0.8055694922804832,
       "step": 94
     },
     {
       "epoch": 0.5571847507331378,
-      "grad_norm": 3.0701912646852225,
+      "grad_norm": 2.955654530084866,
       "learning_rate": 3.9936794922291015e-05,
-      "loss": 0.9948,
-      "mean_token_accuracy": 0.7452556863427162,
+      "loss": 0.8405,
+      "mean_token_accuracy": 0.7774112895131111,
       "step": 95
     },
     {
       "epoch": 0.5630498533724341,
-      "grad_norm": 17.60337365182807,
+      "grad_norm": 3.0436689004178534,
       "learning_rate": 3.993389109681912e-05,
-      "loss": 1.0502,
-      "mean_token_accuracy": 0.7418598681688309,
+      "loss": 0.7653,
+      "mean_token_accuracy": 0.79569511115551,
       "step": 96
     },
     {
       "epoch": 0.5689149560117303,
-      "grad_norm": 3.5846812500371357,
+      "grad_norm": 2.817659396803083,
       "learning_rate": 3.993092217856557e-05,
-      "loss": 0.8611,
-      "mean_token_accuracy": 0.7773077115416527,
+      "loss": 0.7067,
+      "mean_token_accuracy": 0.8145394548773766,
       "step": 97
     },
     {
       "epoch": 0.5747800586510264,
-      "grad_norm": 6.77146659060288,
+      "grad_norm": 2.7515378637269468,
       "learning_rate": 3.9927888178306346e-05,
-      "loss": 0.9778,
-      "mean_token_accuracy": 0.7604374513030052,
+      "loss": 0.8013,
+      "mean_token_accuracy": 0.791895680129528,
       "step": 98
     },
     {
       "epoch": 0.5806451612903226,
-      "grad_norm": 3.736494622645263,
+      "grad_norm": 2.907537751643136,
       "learning_rate": 3.992478910705364e-05,
-      "loss": 0.9402,
-      "mean_token_accuracy": 0.7550177425146103,
+      "loss": 0.8031,
+      "mean_token_accuracy": 0.7878992408514023,
       "step": 99
     },
     {
       "epoch": 0.5865102639296188,
-      "grad_norm": 2.675434314951168,
+      "grad_norm": 2.979279035766898,
       "learning_rate": 3.992162497605583e-05,
-      "loss": 0.7708,
-      "mean_token_accuracy": 0.8071942776441574,
+      "loss": 0.6806,
+      "mean_token_accuracy": 0.8274494782090187,
       "step": 100
     },
     {
       "epoch": 0.592375366568915,
-      "grad_norm": 3.3217948172570586,
+      "grad_norm": 2.4353950711528043,
       "learning_rate": 3.991839579679742e-05,
-      "loss": 0.8784,
-      "mean_token_accuracy": 0.7734089642763138,
+      "loss": 0.7353,
+      "mean_token_accuracy": 0.806957870721817,
       "step": 101
     },
     {
       "epoch": 0.5982404692082112,
-      "grad_norm": 2.771224155637984,
+      "grad_norm": 2.4572327476853957,
       "learning_rate": 3.991510158099905e-05,
-      "loss": 0.63,
-      "mean_token_accuracy": 0.8300730064511299,
+      "loss": 0.5704,
+      "mean_token_accuracy": 0.846699096262455,
       "step": 102
     },
     {
       "epoch": 0.6041055718475073,
-      "grad_norm": 2.778513902291998,
+      "grad_norm": 2.3286640449972222,
       "learning_rate": 3.991174234061738e-05,
-      "loss": 0.7114,
-      "mean_token_accuracy": 0.8191840052604675,
+      "loss": 0.6006,
+      "mean_token_accuracy": 0.8506223112344742,
       "step": 103
     },
     {
       "epoch": 0.6099706744868035,
-      "grad_norm": 2.9362931569310113,
+      "grad_norm": 2.631876593176074,
       "learning_rate": 3.9908318087845104e-05,
-      "loss": 0.8523,
-      "mean_token_accuracy": 0.7773655205965042,
+      "loss": 0.7379,
+      "mean_token_accuracy": 0.8100381121039391,
       "step": 104
     },
     {
       "epoch": 0.6158357771260997,
-      "grad_norm": 2.9316191976481516,
+      "grad_norm": 2.2789202678122584,
       "learning_rate": 3.990482883511086e-05,
-      "loss": 0.6483,
-      "mean_token_accuracy": 0.8267587870359421,
+      "loss": 0.5341,
+      "mean_token_accuracy": 0.8537792935967445,
       "step": 105
     },
     {
       "epoch": 0.6217008797653959,
-      "grad_norm": 3.0440297107545917,
+      "grad_norm": 2.120418551508169,
       "learning_rate": 3.990127459507924e-05,
-      "loss": 0.7311,
-      "mean_token_accuracy": 0.8009310364723206,
+      "loss": 0.6053,
+      "mean_token_accuracy": 0.8266285732388496,
       "step": 106
     },
     {
       "epoch": 0.6275659824046921,
-      "grad_norm": 2.8590753777344324,
+      "grad_norm": 2.364686651816796,
       "learning_rate": 3.98976553806507e-05,
-      "loss": 0.7072,
-      "mean_token_accuracy": 0.805036373436451,
+      "loss": 0.5868,
+      "mean_token_accuracy": 0.840075246989727,
       "step": 107
     },
     {
       "epoch": 0.6334310850439883,
-      "grad_norm": 2.6771045583267137,
+      "grad_norm": 2.451948661442587,
       "learning_rate": 3.989397120496152e-05,
-      "loss": 0.5646,
-      "mean_token_accuracy": 0.8565261512994766,
+      "loss": 0.5193,
+      "mean_token_accuracy": 0.8647155538201332,
       "step": 108
     },
     {
       "epoch": 0.6392961876832844,
-      "grad_norm": 3.0186022781962074,
+      "grad_norm": 2.355709310543082,
       "learning_rate": 3.989022208138377e-05,
-      "loss": 0.6418,
-      "mean_token_accuracy": 0.83050137758255,
+      "loss": 0.5675,
+      "mean_token_accuracy": 0.8488794639706612,
       "step": 109
     },
     {
       "epoch": 0.6451612903225806,
-      "grad_norm": 3.8525032256000267,
+      "grad_norm": 3.02749013010203,
       "learning_rate": 3.9886408023525256e-05,
-      "loss": 0.9126,
-      "mean_token_accuracy": 0.7831842973828316,
+      "loss": 0.7619,
+      "mean_token_accuracy": 0.8114860579371452,
       "step": 110
     },
     {
       "epoch": 0.6510263929618768,
-      "grad_norm": 3.1696627914446314,
+      "grad_norm": 2.8000919382354432,
       "learning_rate": 3.9882529045229475e-05,
-      "loss": 0.9495,
-      "mean_token_accuracy": 0.7556833699345589,
+      "loss": 0.7982,
+      "mean_token_accuracy": 0.7895509079098701,
       "step": 111
     },
     {
       "epoch": 0.656891495601173,
-      "grad_norm": 3.0391907313935658,
+      "grad_norm": 3.219052282134806,
       "learning_rate": 3.987858516057554e-05,
-      "loss": 0.6691,
-      "mean_token_accuracy": 0.8235155344009399,
+      "loss": 0.5985,
+      "mean_token_accuracy": 0.8427421972155571,
       "step": 112
     },
     {
       "epoch": 0.6627565982404692,
-      "grad_norm": 3.1884729753748267,
+      "grad_norm": 2.433256738390738,
       "learning_rate": 3.9874576383878165e-05,
-      "loss": 0.7276,
-      "mean_token_accuracy": 0.8132852613925934,
+      "loss": 0.6474,
+      "mean_token_accuracy": 0.8321207016706467,
       "step": 113
     },
     {
       "epoch": 0.6686217008797654,
-      "grad_norm": 2.8702285262921188,
+      "grad_norm": 2.3493562113379274,
       "learning_rate": 3.9870502729687594e-05,
-      "loss": 0.7586,
-      "mean_token_accuracy": 0.8025686517357826,
+      "loss": 0.6348,
+      "mean_token_accuracy": 0.8373970687389374,
       "step": 114
     },
     {
       "epoch": 0.6744868035190615,
-      "grad_norm": 3.477327705325461,
+      "grad_norm": 2.331602788927495,
       "learning_rate": 3.986636421278954e-05,
-      "loss": 0.7962,
-      "mean_token_accuracy": 0.801344022154808,
+      "loss": 0.6854,
+      "mean_token_accuracy": 0.8225691393017769,
       "step": 115
     },
     {
       "epoch": 0.6803519061583577,
-      "grad_norm": 2.478525996153529,
+      "grad_norm": 2.142107119555709,
       "learning_rate": 3.986216084820515e-05,
-      "loss": 0.5867,
-      "mean_token_accuracy": 0.8358008116483688,
+      "loss": 0.5011,
+      "mean_token_accuracy": 0.8588138148188591,
       "step": 116
     },
     {
       "epoch": 0.6862170087976539,
-      "grad_norm": 2.954408831168468,
+      "grad_norm": 2.419032052988893,
       "learning_rate": 3.985789265119095e-05,
-      "loss": 0.642,
-      "mean_token_accuracy": 0.8179620429873466,
+      "loss": 0.5726,
+      "mean_token_accuracy": 0.8352588415145874,
       "step": 117
     },
     {
       "epoch": 0.6920821114369502,
-      "grad_norm": 2.448877211660101,
+      "grad_norm": 2.09085744769477,
       "learning_rate": 3.985355963723875e-05,
-      "loss": 0.5627,
-      "mean_token_accuracy": 0.8517102301120758,
+      "loss": 0.4849,
+      "mean_token_accuracy": 0.8706546425819397,
       "step": 118
     },
     {
       "epoch": 0.6979472140762464,
-      "grad_norm": 2.79210837705298,
+      "grad_norm": 2.1422570833131664,
       "learning_rate": 3.9849161822075655e-05,
-      "loss": 0.627,
-      "mean_token_accuracy": 0.824343703687191,
+      "loss": 0.5376,
+      "mean_token_accuracy": 0.8550170734524727,
       "step": 119
     },
     {
       "epoch": 0.7038123167155426,
-      "grad_norm": 3.135497073478835,
+      "grad_norm": 2.388752967701632,
       "learning_rate": 3.984469922166396e-05,
-      "loss": 0.7399,
-      "mean_token_accuracy": 0.8141955435276031,
+      "loss": 0.6278,
+      "mean_token_accuracy": 0.842079646885395,
       "step": 120
     },
     {
       "epoch": 0.7096774193548387,
-      "grad_norm": 3.296087451604132,
+      "grad_norm": 2.518159286077506,
       "learning_rate": 3.984017185220109e-05,
-      "loss": 0.8949,
-      "mean_token_accuracy": 0.7819836810231209,
+      "loss": 0.7772,
+      "mean_token_accuracy": 0.8071364387869835,
       "step": 121
     },
     {
       "epoch": 0.7155425219941349,
-      "grad_norm": 2.7562945396523584,
+      "grad_norm": 2.2531929182116746,
       "learning_rate": 3.9835579730119576e-05,
-      "loss": 0.805,
-      "mean_token_accuracy": 0.7919190227985382,
+      "loss": 0.6705,
+      "mean_token_accuracy": 0.8298157975077629,
       "step": 122
     },
     {
       "epoch": 0.7214076246334311,
-      "grad_norm": 2.667758292238495,
+      "grad_norm": 2.207859071920299,
       "learning_rate": 3.9830922872086974e-05,
-      "loss": 0.8093,
-      "mean_token_accuracy": 0.806427076458931,
+      "loss": 0.6655,
+      "mean_token_accuracy": 0.8434372246265411,
       "step": 123
     },
     {
       "epoch": 0.7272727272727273,
-      "grad_norm": 2.8478048457167584,
+      "grad_norm": 2.2972010787323818,
       "learning_rate": 3.9826201295005784e-05,
-      "loss": 0.8689,
-      "mean_token_accuracy": 0.7796251475811005,
+      "loss": 0.7564,
+      "mean_token_accuracy": 0.8130914643406868,
       "step": 124
     },
     {
       "epoch": 0.7331378299120235,
-      "grad_norm": 2.88793329176012,
+      "grad_norm": 2.6764034052539807,
       "learning_rate": 3.982141501601343e-05,
-      "loss": 0.8385,
-      "mean_token_accuracy": 0.779462069272995,
+      "loss": 0.7236,
+      "mean_token_accuracy": 0.8133985474705696,
       "step": 125
     },
     {
       "epoch": 0.7390029325513197,
-      "grad_norm": 2.6368519953403418,
+      "grad_norm": 2.2683967522097817,
       "learning_rate": 3.9816564052482164e-05,
-      "loss": 0.741,
-      "mean_token_accuracy": 0.7980659455060959,
+      "loss": 0.646,
+      "mean_token_accuracy": 0.825585164129734,
       "step": 126
     },
     {
       "epoch": 0.7448680351906158,
-      "grad_norm": 2.6609506778610172,
+      "grad_norm": 2.2683787938151263,
       "learning_rate": 3.981164842201904e-05,
-      "loss": 0.81,
-      "mean_token_accuracy": 0.8032805398106575,
+      "loss": 0.6917,
+      "mean_token_accuracy": 0.8327226713299751,
       "step": 127
     },
     {
       "epoch": 0.750733137829912,
-      "grad_norm": 2.6663223208590776,
+      "grad_norm": 2.3009219430061982,
       "learning_rate": 3.9806668142465804e-05,
-      "loss": 0.8363,
-      "mean_token_accuracy": 0.8015436008572578,
+      "loss": 0.7333,
+      "mean_token_accuracy": 0.8195018395781517,
       "step": 128
     },
     {
       "epoch": 0.7565982404692082,
-      "grad_norm": 2.7057881563332487,
+      "grad_norm": 2.045832816656146,
       "learning_rate": 3.9801623231898856e-05,
-      "loss": 0.6372,
-      "mean_token_accuracy": 0.8209338411688805,
+      "loss": 0.5323,
+      "mean_token_accuracy": 0.8589048609137535,
       "step": 129
     },
     {
       "epoch": 0.7624633431085044,
-      "grad_norm": 2.5687358685227664,
+      "grad_norm": 2.0363179289257833,
       "learning_rate": 3.9796513708629186e-05,
-      "loss": 0.6557,
-      "mean_token_accuracy": 0.82688008248806,
+      "loss": 0.5484,
+      "mean_token_accuracy": 0.8502952381968498,
       "step": 130
     },
     {
       "epoch": 0.7683284457478006,
-      "grad_norm": 2.6773701427099668,
+      "grad_norm": 2.1787352594889122,
       "learning_rate": 3.979133959120229e-05,
-      "loss": 0.626,
-      "mean_token_accuracy": 0.8373893424868584,
+      "loss": 0.535,
+      "mean_token_accuracy": 0.857828326523304,
       "step": 131
     },
     {
       "epoch": 0.7741935483870968,
-      "grad_norm": 2.587857152937776,
+      "grad_norm": 2.077917146910636,
       "learning_rate": 3.9786100898398145e-05,
-      "loss": 0.662,
-      "mean_token_accuracy": 0.8253741338849068,
+      "loss": 0.5617,
+      "mean_token_accuracy": 0.8493303209543228,
       "step": 132
     },
     {
       "epoch": 0.7800586510263929,
-      "grad_norm": 2.5567903495608557,
+      "grad_norm": 2.097361535539421,
       "learning_rate": 3.9780797649231085e-05,
-      "loss": 0.7087,
-      "mean_token_accuracy": 0.8196479603648186,
+      "loss": 0.5901,
+      "mean_token_accuracy": 0.8467446342110634,
       "step": 133
     },
     {
       "epoch": 0.7859237536656891,
-      "grad_norm": 2.8459978973895055,
+      "grad_norm": 2.3198793806949154,
       "learning_rate": 3.9775429862949745e-05,
-      "loss": 0.8041,
-      "mean_token_accuracy": 0.7983852028846741,
+      "loss": 0.6641,
+      "mean_token_accuracy": 0.8338883817195892,
       "step": 134
     },
     {
       "epoch": 0.7917888563049853,
-      "grad_norm": 2.687549165432222,
+      "grad_norm": 2.260193065434171,
       "learning_rate": 3.976999755903704e-05,
-      "loss": 0.7966,
-      "mean_token_accuracy": 0.7903356328606606,
+      "loss": 0.6673,
+      "mean_token_accuracy": 0.827575221657753,
       "step": 135
     },
     {
       "epoch": 0.7976539589442815,
-      "grad_norm": 2.3804933775980297,
+      "grad_norm": 2.1386712402376036,
       "learning_rate": 3.976450075721003e-05,
-      "loss": 0.6608,
-      "mean_token_accuracy": 0.8316953554749489,
+      "loss": 0.5606,
+      "mean_token_accuracy": 0.8533760160207748,
       "step": 136
     },
     {
       "epoch": 0.8035190615835777,
-      "grad_norm": 2.670873668569676,
+      "grad_norm": 2.145352123969171,
       "learning_rate": 3.975893947741989e-05,
-      "loss": 0.6061,
-      "mean_token_accuracy": 0.8426604494452477,
+      "loss": 0.5056,
+      "mean_token_accuracy": 0.8680669069290161,
       "step": 137
     },
     {
       "epoch": 0.8093841642228738,
-      "grad_norm": 2.5007269896547784,
+      "grad_norm": 2.1768056211172295,
       "learning_rate": 3.9753313739851824e-05,
-      "loss": 0.7976,
-      "mean_token_accuracy": 0.796313926577568,
+      "loss": 0.6832,
+      "mean_token_accuracy": 0.8207377269864082,
       "step": 138
     },
     {
       "epoch": 0.8152492668621701,
-      "grad_norm": 2.9023488126536483,
+      "grad_norm": 2.3681293407151314,
       "learning_rate": 3.974762356492498e-05,
-      "loss": 0.9283,
-      "mean_token_accuracy": 0.7767031267285347,
+      "loss": 0.7659,
+      "mean_token_accuracy": 0.8131817951798439,
       "step": 139
     },
     {
       "epoch": 0.8211143695014663,
-      "grad_norm": 2.3838468185396082,
+      "grad_norm": 2.379227773317173,
       "learning_rate": 3.974186897329239e-05,
-      "loss": 0.6223,
-      "mean_token_accuracy": 0.8510593101382256,
+      "loss": 0.5398,
+      "mean_token_accuracy": 0.8676523044705391,
       "step": 140
     },
     {
       "epoch": 0.8269794721407625,
-      "grad_norm": 2.707549081974321,
+      "grad_norm": 2.1423522624381,
       "learning_rate": 3.97360499858409e-05,
-      "loss": 0.6268,
-      "mean_token_accuracy": 0.8382851779460907,
+      "loss": 0.5587,
+      "mean_token_accuracy": 0.8550106212496758,
       "step": 141
     },
     {
       "epoch": 0.8328445747800587,
-      "grad_norm": 3.7838908615103692,
+      "grad_norm": 2.3739550490799304,
       "learning_rate": 3.9730166623691096e-05,
-      "loss": 0.8547,
-      "mean_token_accuracy": 0.7846512198448181,
+      "loss": 0.7078,
+      "mean_token_accuracy": 0.8150490075349808,
       "step": 142
     },
     {
       "epoch": 0.8387096774193549,
-      "grad_norm": 2.5548687454598604,
+      "grad_norm": 2.280723224876568,
       "learning_rate": 3.9724218908197194e-05,
-      "loss": 0.5932,
-      "mean_token_accuracy": 0.83430977165699,
+      "loss": 0.5059,
+      "mean_token_accuracy": 0.853252723813057,
       "step": 143
     },
     {
       "epoch": 0.844574780058651,
-      "grad_norm": 3.199919744808126,
+      "grad_norm": 2.7177341329057483,
       "learning_rate": 3.971820686094701e-05,
-      "loss": 0.9231,
-      "mean_token_accuracy": 0.7737978771328926,
+      "loss": 0.7745,
+      "mean_token_accuracy": 0.8030019998550415,
       "step": 144
     },
     {
       "epoch": 0.8504398826979472,
-      "grad_norm": 2.8910753925453934,
+      "grad_norm": 2.2866660183054055,
       "learning_rate": 3.971213050376183e-05,
-      "loss": 0.8144,
-      "mean_token_accuracy": 0.7877362817525864,
+      "loss": 0.6888,
+      "mean_token_accuracy": 0.8160409331321716,
       "step": 145
     },
     {
       "epoch": 0.8563049853372434,
-      "grad_norm": 2.3603427477860395,
+      "grad_norm": 1.7729411173268295,
       "learning_rate": 3.9705989858696387e-05,
-      "loss": 0.5849,
-      "mean_token_accuracy": 0.8466823399066925,
+      "loss": 0.5162,
+      "mean_token_accuracy": 0.8643370196223259,
       "step": 146
     },
     {
       "epoch": 0.8621700879765396,
-      "grad_norm": 2.304209736108249,
+      "grad_norm": 1.9544676092787794,
       "learning_rate": 3.969978494803876e-05,
-      "loss": 0.5765,
-      "mean_token_accuracy": 0.841646671295166,
+      "loss": 0.5033,
+      "mean_token_accuracy": 0.8608671575784683,
       "step": 147
     },
     {
       "epoch": 0.8680351906158358,
-      "grad_norm": 2.6376352843496926,
+      "grad_norm": 2.0416284223126797,
       "learning_rate": 3.969351579431024e-05,
-      "loss": 0.6115,
-      "mean_token_accuracy": 0.8385377004742622,
+      "loss": 0.5282,
+      "mean_token_accuracy": 0.8565196245908737,
       "step": 148
     },
     {
       "epoch": 0.873900293255132,
-      "grad_norm": 2.7296649476772807,
+      "grad_norm": 1.9202190012827038,
       "learning_rate": 3.968718242026533e-05,
-      "loss": 0.6022,
-      "mean_token_accuracy": 0.8428103923797607,
+      "loss": 0.4962,
+      "mean_token_accuracy": 0.8656453415751457,
       "step": 149
     },
     {
       "epoch": 0.8797653958944281,
-      "grad_norm": 2.2084195177668,
+      "grad_norm": 1.7711919486309162,
       "learning_rate": 3.968078484889163e-05,
-      "loss": 0.4707,
-      "mean_token_accuracy": 0.8667677119374275,
+      "loss": 0.3981,
+      "mean_token_accuracy": 0.8840658068656921,
       "step": 150
     },
     {
       "epoch": 0.8856304985337243,
-      "grad_norm": 2.7078580526227976,
+      "grad_norm": 2.103353063920332,
       "learning_rate": 3.9674323103409736e-05,
-      "loss": 0.6618,
-      "mean_token_accuracy": 0.8220425173640251,
+      "loss": 0.5512,
+      "mean_token_accuracy": 0.8531129956245422,
       "step": 151
     },
     {
       "epoch": 0.8914956011730205,
-      "grad_norm": 2.840612532292078,
+      "grad_norm": 2.441157781778918,
       "learning_rate": 3.966779720727317e-05,
-      "loss": 0.8325,
-      "mean_token_accuracy": 0.7944880649447441,
+      "loss": 0.6903,
+      "mean_token_accuracy": 0.8275642022490501,
       "step": 152
     },
     {
       "epoch": 0.8973607038123167,
-      "grad_norm": 2.567048273653788,
+      "grad_norm": 2.1644819233748693,
       "learning_rate": 3.9661207184168305e-05,
-      "loss": 0.6274,
-      "mean_token_accuracy": 0.8346653878688812,
+      "loss": 0.535,
+      "mean_token_accuracy": 0.8525630459189415,
       "step": 153
     },
     {
       "epoch": 0.9032258064516129,
-      "grad_norm": 2.4868154973678545,
+      "grad_norm": 2.2864455907051577,
       "learning_rate": 3.9654553058014265e-05,
-      "loss": 0.7639,
-      "mean_token_accuracy": 0.8028886467218399,
+      "loss": 0.6607,
+      "mean_token_accuracy": 0.8330980539321899,
       "step": 154
     },
     {
       "epoch": 0.9090909090909091,
-      "grad_norm": 2.347709315999483,
+      "grad_norm": 2.0226335451161654,
       "learning_rate": 3.9647834852962825e-05,
-      "loss": 0.6179,
-      "mean_token_accuracy": 0.8445746973156929,
+      "loss": 0.542,
+      "mean_token_accuracy": 0.8625759854912758,
       "step": 155
     },
     {
       "epoch": 0.9149560117302052,
-      "grad_norm": 2.7197025616507804,
+      "grad_norm": 2.420244762324832,
       "learning_rate": 3.964105259339838e-05,
-      "loss": 0.8655,
-      "mean_token_accuracy": 0.7824793308973312,
+      "loss": 0.7424,
+      "mean_token_accuracy": 0.8057239204645157,
       "step": 156
     },
     {
       "epoch": 0.9208211143695014,
-      "grad_norm": 2.2237444753974063,
+      "grad_norm": 1.8979120793832391,
       "learning_rate": 3.9634206303937773e-05,
-      "loss": 0.5044,
-      "mean_token_accuracy": 0.8604275360703468,
+      "loss": 0.4512,
+      "mean_token_accuracy": 0.875034749507904,
       "step": 157
     },
     {
       "epoch": 0.9266862170087976,
-      "grad_norm": 2.0464596548682663,
+      "grad_norm": 1.7284509709305393,
       "learning_rate": 3.962729600943028e-05,
-      "loss": 0.5075,
-      "mean_token_accuracy": 0.8705720156431198,
+      "loss": 0.448,
+      "mean_token_accuracy": 0.8827922642230988,
       "step": 158
     },
     {
       "epoch": 0.9325513196480938,
-      "grad_norm": 2.8654977822500167,
+      "grad_norm": 2.3569337927624945,
       "learning_rate": 3.962032173495748e-05,
-      "loss": 0.5989,
-      "mean_token_accuracy": 0.8563590124249458,
+      "loss": 0.4919,
+      "mean_token_accuracy": 0.8744383007287979,
       "step": 159
     },
     {
       "epoch": 0.9384164222873901,
-      "grad_norm": 2.095493932904228,
+      "grad_norm": 1.9017225299582532,
       "learning_rate": 3.961328350583316e-05,
-      "loss": 0.5158,
-      "mean_token_accuracy": 0.8581189513206482,
+      "loss": 0.4726,
+      "mean_token_accuracy": 0.871865801513195,
       "step": 160
     },
     {
       "epoch": 0.9442815249266863,
-      "grad_norm": 2.4110117754062923,
+      "grad_norm": 2.1065821737511614,
       "learning_rate": 3.960618134760327e-05,
-      "loss": 0.6664,
-      "mean_token_accuracy": 0.8309664577245712,
+      "loss": 0.5991,
+      "mean_token_accuracy": 0.8471841290593147,
       "step": 161
     },
     {
       "epoch": 0.9501466275659824,
-      "grad_norm": 2.130310237043839,
+      "grad_norm": 1.7468566820440716,
       "learning_rate": 3.959901528604575e-05,
-      "loss": 0.438,
-      "mean_token_accuracy": 0.8650497943162918,
+      "loss": 0.3703,
+      "mean_token_accuracy": 0.8899563401937485,
       "step": 162
     },
     {
       "epoch": 0.9560117302052786,
-      "grad_norm": 2.7110395857688534,
+      "grad_norm": 2.0026819483535525,
       "learning_rate": 3.959178534717053e-05,
-      "loss": 0.7384,
-      "mean_token_accuracy": 0.8108371719717979,
+      "loss": 0.6124,
+      "mean_token_accuracy": 0.844733901321888,
       "step": 163
     },
     {
       "epoch": 0.9618768328445748,
-      "grad_norm": 2.3266814167894356,
+      "grad_norm": 1.8429810966574525,
       "learning_rate": 3.9584491557219366e-05,
-      "loss": 0.692,
-      "mean_token_accuracy": 0.8317501842975616,
+      "loss": 0.6114,
+      "mean_token_accuracy": 0.8512536585330963,
       "step": 164
     },
     {
       "epoch": 0.967741935483871,
-      "grad_norm": 2.227229660768314,
+      "grad_norm": 1.9068504240620572,
       "learning_rate": 3.957713394266576e-05,
-      "loss": 0.5823,
-      "mean_token_accuracy": 0.8335886374115944,
+      "loss": 0.5225,
+      "mean_token_accuracy": 0.8591367825865746,
       "step": 165
     },
     {
       "epoch": 0.9736070381231672,
-      "grad_norm": 2.5029650929135907,
+      "grad_norm": 2.03904846981795,
       "learning_rate": 3.956971253021489e-05,
-      "loss": 0.5433,
-      "mean_token_accuracy": 0.8478502333164215,
+      "loss": 0.4543,
+      "mean_token_accuracy": 0.8774362131953239,
       "step": 166
     },
     {
       "epoch": 0.9794721407624634,
-      "grad_norm": 2.5935021305346884,
+      "grad_norm": 1.9730559274041801,
       "learning_rate": 3.956222734680348e-05,
-      "loss": 0.6178,
-      "mean_token_accuracy": 0.839194655418396,
+      "loss": 0.5391,
+      "mean_token_accuracy": 0.8570215106010437,
       "step": 167
     },
     {
       "epoch": 0.9853372434017595,
-      "grad_norm": 2.4490076558704454,
+      "grad_norm": 1.9611601962690912,
       "learning_rate": 3.955467841959972e-05,
-      "loss": 0.6454,
-      "mean_token_accuracy": 0.8422679975628853,
+      "loss": 0.5588,
+      "mean_token_accuracy": 0.8605179488658905,
       "step": 168
     },
     {
       "epoch": 0.9912023460410557,
-      "grad_norm": 2.3280083402193092,
+      "grad_norm": 1.8542913981304092,
       "learning_rate": 3.954706577600318e-05,
-      "loss": 0.6046,
-      "mean_token_accuracy": 0.8274341821670532,
+      "loss": 0.5001,
+      "mean_token_accuracy": 0.8608422949910164,
       "step": 169
     },
     {
       "epoch": 0.9970674486803519,
-      "grad_norm": 2.1986709980959795,
+      "grad_norm": 2.0514447581437483,
       "learning_rate": 3.953938944364467e-05,
-      "loss": 0.7424,
-      "mean_token_accuracy": 0.8125108182430267,
+      "loss": 0.6395,
+      "mean_token_accuracy": 0.8432887569069862,
       "step": 170
     },
     {
       "epoch": 1.0,
-      "grad_norm": 2.1986709980959795,
+      "grad_norm": 2.0514447581437483,
       "learning_rate": 3.953164945038618e-05,
-      "loss": 0.6563,
-      "mean_token_accuracy": 0.8526751548051834,
+      "loss": 0.56,
+      "mean_token_accuracy": 0.8685450553894043,
       "step": 171
     },
     {
       "epoch": 1.0058651026392962,
-      "grad_norm": 3.2772084342860626,
+      "grad_norm": 2.798511260901564,
       "learning_rate": 3.952384582432076e-05,
-      "loss": 0.4182,
-      "mean_token_accuracy": 0.8776650503277779,
+      "loss": 0.3523,
+      "mean_token_accuracy": 0.8961983993649483,
       "step": 172
     },
     {
       "epoch": 1.0117302052785924,
-      "grad_norm": 2.5235581743376145,
+      "grad_norm": 1.6143327247401649,
       "learning_rate": 3.9515978593772426e-05,
-      "loss": 0.3567,
-      "mean_token_accuracy": 0.8968701064586639,
+      "loss": 0.2906,
+      "mean_token_accuracy": 0.9175504371523857,
       "step": 173
     },
     {
       "epoch": 1.0175953079178885,
-      "grad_norm": 2.297685151844413,
+      "grad_norm": 1.5392085231630535,
       "learning_rate": 3.9508047787296034e-05,
-      "loss": 0.2678,
-      "mean_token_accuracy": 0.9174044728279114,
+      "loss": 0.2327,
+      "mean_token_accuracy": 0.9279068484902382,
       "step": 174
     },
     {
       "epoch": 1.0234604105571847,
-      "grad_norm": 2.2108090381629717,
+      "grad_norm": 1.4196610216082999,
       "learning_rate": 3.9500053433677226e-05,
-      "loss": 0.3188,
-      "mean_token_accuracy": 0.9073121473193169,
+      "loss": 0.238,
+      "mean_token_accuracy": 0.9234108552336693,
       "step": 175
     },
     {
       "epoch": 1.029325513196481,
-      "grad_norm": 2.0055668794708144,
+      "grad_norm": 1.739223331966883,
       "learning_rate": 3.949199556193226e-05,
-      "loss": 0.3792,
-      "mean_token_accuracy": 0.8863450139760971,
+      "loss": 0.3358,
+      "mean_token_accuracy": 0.8978307694196701,
       "step": 176
     },
     {
       "epoch": 1.035190615835777,
-      "grad_norm": 2.1578927026914116,
+      "grad_norm": 1.6733699048918613,
       "learning_rate": 3.948387420130796e-05,
-      "loss": 0.268,
-      "mean_token_accuracy": 0.926617331802845,
+      "loss": 0.2404,
+      "mean_token_accuracy": 0.9289108365774155,
       "step": 177
     },
     {
       "epoch": 1.0410557184750733,
-      "grad_norm": 2.107269518420395,
+      "grad_norm": 1.6691732023766321,
       "learning_rate": 3.94756893812816e-05,
-      "loss": 0.3907,
-      "mean_token_accuracy": 0.8920909613370895,
+      "loss": 0.317,
+      "mean_token_accuracy": 0.9076567217707634,
       "step": 178
     },
     {
       "epoch": 1.0469208211143695,
-      "grad_norm": 2.528904479053577,
+      "grad_norm": 1.8180580779574043,
       "learning_rate": 3.946744113156075e-05,
-      "loss": 0.3055,
-      "mean_token_accuracy": 0.8956907019019127,
+      "loss": 0.2832,
+      "mean_token_accuracy": 0.9121890664100647,
       "step": 179
     },
     {
       "epoch": 1.0527859237536656,
-      "grad_norm": 2.3965215093079557,
+      "grad_norm": 2.060502078131102,
       "learning_rate": 3.945912948208324e-05,
-      "loss": 0.4794,
-      "mean_token_accuracy": 0.8625766634941101,
+      "loss": 0.391,
+      "mean_token_accuracy": 0.893414668738842,
       "step": 180
     },
     {
       "epoch": 1.0586510263929618,
-      "grad_norm": 2.4900117595217726,
+      "grad_norm": 1.8802598380610254,
       "learning_rate": 3.9450754463016994e-05,
-      "loss": 0.4096,
-      "mean_token_accuracy": 0.8826896324753761,
+      "loss": 0.3546,
+      "mean_token_accuracy": 0.8969884589314461,
       "step": 181
     },
     {
       "epoch": 1.064516129032258,
-      "grad_norm": 2.4103564653720153,
+      "grad_norm": 1.9657434071689015,
       "learning_rate": 3.9442316104759955e-05,
-      "loss": 0.3678,
-      "mean_token_accuracy": 0.9017849788069725,
+      "loss": 0.3342,
+      "mean_token_accuracy": 0.906390093266964,
       "step": 182
     },
     {
       "epoch": 1.0703812316715542,
-      "grad_norm": 1.861075597205315,
+      "grad_norm": 1.488874908366716,
       "learning_rate": 3.943381443793994e-05,
-      "loss": 0.4068,
-      "mean_token_accuracy": 0.8929754197597504,
+      "loss": 0.3531,
+      "mean_token_accuracy": 0.904318280518055,
       "step": 183
     },
     {
       "epoch": 1.0762463343108504,
-      "grad_norm": 2.4115954465623477,
+      "grad_norm": 1.8571080458413325,
       "learning_rate": 3.9425249493414585e-05,
-      "loss": 0.6112,
-      "mean_token_accuracy": 0.8370330631732941,
+      "loss": 0.4322,
+      "mean_token_accuracy": 0.8704885244369507,
       "step": 184
     },
     {
       "epoch": 1.0821114369501466,
-      "grad_norm": 4.567207793686968,
+      "grad_norm": 1.7341671914679213,
       "learning_rate": 3.941662130227118e-05,
-      "loss": 0.4997,
-      "mean_token_accuracy": 0.8561821803450584,
+      "loss": 0.4563,
+      "mean_token_accuracy": 0.868084505200386,
       "step": 185
     },
     {
       "epoch": 1.0879765395894427,
-      "grad_norm": 2.4183931239021184,
+      "grad_norm": 1.9301135643943996,
       "learning_rate": 3.940792989582654e-05,
-      "loss": 0.4121,
-      "mean_token_accuracy": 0.8887381628155708,
+      "loss": 0.3557,
+      "mean_token_accuracy": 0.8965374007821083,
       "step": 186
     },
     {
       "epoch": 1.093841642228739,
-      "grad_norm": 1.970433465247901,
+      "grad_norm": 1.9752759214040492,
       "learning_rate": 3.939917530562701e-05,
-      "loss": 0.3054,
-      "mean_token_accuracy": 0.9093934372067451,
+      "loss": 0.2913,
+      "mean_token_accuracy": 0.9181935787200928,
       "step": 187
     },
     {
       "epoch": 1.099706744868035,
-      "grad_norm": 2.0703604995218243,
+      "grad_norm": 1.80853857916468,
       "learning_rate": 3.939035756344818e-05,
-      "loss": 0.3744,
-      "mean_token_accuracy": 0.9033533856272697,
+      "loss": 0.3053,
+      "mean_token_accuracy": 0.9187766760587692,
       "step": 188
     },
     {
       "epoch": 1.1055718475073313,
-      "grad_norm": 2.101467735227217,
+      "grad_norm": 1.7923257882566426,
       "learning_rate": 3.93814767012949e-05,
-      "loss": 0.4006,
-      "mean_token_accuracy": 0.8802796825766563,
+      "loss": 0.3427,
+      "mean_token_accuracy": 0.8995430916547775,
       "step": 189
     },
     {
       "epoch": 1.1114369501466275,
-      "grad_norm": 2.455916126917878,
+      "grad_norm": 1.5136850309097942,
       "learning_rate": 3.937253275140113e-05,
-      "loss": 0.2646,
-      "mean_token_accuracy": 0.923853725194931,
+      "loss": 0.253,
+      "mean_token_accuracy": 0.9268705397844315,
       "step": 190
     },
     {
       "epoch": 1.1173020527859236,
-      "grad_norm": 2.1535792407926446,
+      "grad_norm": 1.6967629405583817,
       "learning_rate": 3.936352574622978e-05,
-      "loss": 0.2866,
-      "mean_token_accuracy": 0.9053800255060196,
+      "loss": 0.2441,
+      "mean_token_accuracy": 0.9279790148139,
       "step": 191
     },
     {
       "epoch": 1.1231671554252198,
-      "grad_norm": 1.775502805179243,
+      "grad_norm": 1.3723631113386732,
       "learning_rate": 3.9354455718472646e-05,
-      "loss": 0.396,
-      "mean_token_accuracy": 0.8891168534755707,
+      "loss": 0.3622,
+      "mean_token_accuracy": 0.9010487943887711,
       "step": 192
     },
     {
       "epoch": 1.129032258064516,
-      "grad_norm": 2.5487239609300123,
+      "grad_norm": 2.033274073582061,
       "learning_rate": 3.934532270105026e-05,
-      "loss": 0.4241,
-      "mean_token_accuracy": 0.8907202184200287,
+      "loss": 0.4103,
+      "mean_token_accuracy": 0.8935407474637032,
       "step": 193
     },
     {
       "epoch": 1.1348973607038122,
-      "grad_norm": 2.7940170270563534,
+      "grad_norm": 2.155900058898323,
       "learning_rate": 3.933612672711179e-05,
-      "loss": 0.4029,
-      "mean_token_accuracy": 0.8868995606899261,
+      "loss": 0.3699,
+      "mean_token_accuracy": 0.8951970860362053,
       "step": 194
     },
     {
       "epoch": 1.1407624633431086,
-      "grad_norm": 2.2167275228202854,
+      "grad_norm": 1.6616746411097532,
       "learning_rate": 3.9326867830034915e-05,
-      "loss": 0.4188,
-      "mean_token_accuracy": 0.8792544528841972,
+      "loss": 0.3785,
+      "mean_token_accuracy": 0.8921806812286377,
       "step": 195
     },
     {
       "epoch": 1.1466275659824048,
-      "grad_norm": 2.304107316447215,
+      "grad_norm": 1.702931865108539,
       "learning_rate": 3.931754604342568e-05,
-      "loss": 0.3405,
-      "mean_token_accuracy": 0.8975262865424156,
+      "loss": 0.2909,
+      "mean_token_accuracy": 0.9116301015019417,
       "step": 196
     },
     {
       "epoch": 1.152492668621701,
-      "grad_norm": 1.9938659279661923,
+      "grad_norm": 1.7232592227816033,
       "learning_rate": 3.930816140111842e-05,
-      "loss": 0.2866,
-      "mean_token_accuracy": 0.909386046230793,
+      "loss": 0.2667,
+      "mean_token_accuracy": 0.9185249134898186,
       "step": 197
     },
     {
       "epoch": 1.1583577712609971,
-      "grad_norm": 2.1198141801508283,
+      "grad_norm": 1.840797018145673,
       "learning_rate": 3.929871393717558e-05,
-      "loss": 0.3839,
-      "mean_token_accuracy": 0.9004511907696724,
+      "loss": 0.336,
+      "mean_token_accuracy": 0.9130111038684845,
       "step": 198
     },
     {
       "epoch": 1.1642228739002933,
-      "grad_norm": 2.7406704106077573,
+      "grad_norm": 1.917246893078202,
       "learning_rate": 3.9289203685887644e-05,
-      "loss": 0.4047,
-      "mean_token_accuracy": 0.8865419179201126,
+      "loss": 0.3626,
+      "mean_token_accuracy": 0.8997843265533447,
       "step": 199
     },
     {
       "epoch": 1.1700879765395895,
-      "grad_norm": 2.5501983405080817,
+      "grad_norm": 1.734990074144959,
       "learning_rate": 3.927963068177299e-05,
-      "loss": 0.4452,
-      "mean_token_accuracy": 0.8658623695373535,
+      "loss": 0.3718,
+      "mean_token_accuracy": 0.8979229480028152,
       "step": 200
     },
     {
       "epoch": 1.1759530791788857,
-      "grad_norm": 2.5615420993615925,
+      "grad_norm": 1.8303417823422754,
       "learning_rate": 3.926999495957775e-05,
-      "loss": 0.5242,
-      "mean_token_accuracy": 0.8514630421996117,
+      "loss": 0.4617,
+      "mean_token_accuracy": 0.8707368224859238,
       "step": 201
     },
     {
       "epoch": 1.1818181818181819,
-      "grad_norm": 2.2053976497237104,
+      "grad_norm": 1.820508589510773,
       "learning_rate": 3.9260296554275704e-05,
-      "loss": 0.5312,
-      "mean_token_accuracy": 0.8589539080858231,
+      "loss": 0.4704,
+      "mean_token_accuracy": 0.8739859238266945,
       "step": 202
     },
     {
       "epoch": 1.187683284457478,
-      "grad_norm": 2.112972722429536,
+      "grad_norm": 1.9745656184822862,
       "learning_rate": 3.925053550106815e-05,
-      "loss": 0.3756,
-      "mean_token_accuracy": 0.8889518976211548,
+      "loss": 0.3245,
+      "mean_token_accuracy": 0.9014926105737686,
       "step": 203
     },
     {
       "epoch": 1.1935483870967742,
-      "grad_norm": 1.9377609554676252,
+      "grad_norm": 1.6927826737387262,
       "learning_rate": 3.9240711835383766e-05,
-      "loss": 0.3399,
-      "mean_token_accuracy": 0.8915588706731796,
+      "loss": 0.2987,
+      "mean_token_accuracy": 0.9058414027094841,
       "step": 204
     },
     {
       "epoch": 1.1994134897360704,
-      "grad_norm": 2.21970803239968,
+      "grad_norm": 1.5770657862401005,
       "learning_rate": 3.9230825592878494e-05,
-      "loss": 0.3734,
-      "mean_token_accuracy": 0.8954818993806839,
+      "loss": 0.313,
+      "mean_token_accuracy": 0.9111779928207397,
       "step": 205
     },
     {
       "epoch": 1.2052785923753666,
-      "grad_norm": 2.4553958141146444,
+      "grad_norm": 1.675854486117753,
       "learning_rate": 3.92208768094354e-05,
-      "loss": 0.3015,
-      "mean_token_accuracy": 0.9162927344441414,
+      "loss": 0.2895,
+      "mean_token_accuracy": 0.9199853986501694,
       "step": 206
     },
     {
       "epoch": 1.2111436950146628,
-      "grad_norm": 1.9800319673267526,
+      "grad_norm": 1.6015878865124002,
       "learning_rate": 3.921086552116455e-05,
-      "loss": 0.3349,
-      "mean_token_accuracy": 0.9030973836779594,
+      "loss": 0.2811,
+      "mean_token_accuracy": 0.9138716906309128,
       "step": 207
     },
     {
       "epoch": 1.217008797653959,
-      "grad_norm": 2.1007218191930335,
+      "grad_norm": 1.718206784339055,
       "learning_rate": 3.920079176440288e-05,
-      "loss": 0.3028,
-      "mean_token_accuracy": 0.916605718433857,
+      "loss": 0.2725,
+      "mean_token_accuracy": 0.9215174838900566,
       "step": 208
     },
     {
       "epoch": 1.2228739002932552,
-      "grad_norm": 2.547001474595905,
+      "grad_norm": 1.7698754302048199,
       "learning_rate": 3.9190655575714045e-05,
-      "loss": 0.5017,
-      "mean_token_accuracy": 0.8750176280736923,
+      "loss": 0.4332,
+      "mean_token_accuracy": 0.8880220949649811,
       "step": 209
     },
     {
       "epoch": 1.2287390029325513,
-      "grad_norm": 2.4821613370193045,
+      "grad_norm": 1.9266880843929173,
       "learning_rate": 3.918045699188833e-05,
-      "loss": 0.3779,
-      "mean_token_accuracy": 0.8920472636818886,
+      "loss": 0.3224,
+      "mean_token_accuracy": 0.9085577055811882,
       "step": 210
     },
     {
       "epoch": 1.2346041055718475,
-      "grad_norm": 1.9926481632824355,
+      "grad_norm": 1.6249028390550062,
       "learning_rate": 3.9170196049942474e-05,
-      "loss": 0.3206,
-      "mean_token_accuracy": 0.9034112691879272,
+      "loss": 0.2676,
+      "mean_token_accuracy": 0.9211436435580254,
       "step": 211
     },
     {
       "epoch": 1.2404692082111437,
-      "grad_norm": 1.8149346899691008,
+      "grad_norm": 1.533372145565326,
       "learning_rate": 3.915987278711954e-05,
-      "loss": 0.2996,
-      "mean_token_accuracy": 0.9074381738901138,
+      "loss": 0.2888,
+      "mean_token_accuracy": 0.9172268733382225,
       "step": 212
     },
     {
       "epoch": 1.2463343108504399,
-      "grad_norm": 1.690371089487332,
+      "grad_norm": 1.4691488921950937,
       "learning_rate": 3.914948724088883e-05,
-      "loss": 0.4503,
-      "mean_token_accuracy": 0.8817943632602692,
+      "loss": 0.3936,
+      "mean_token_accuracy": 0.8931452110409737,
       "step": 213
     },
     {
       "epoch": 1.252199413489736,
-      "grad_norm": 2.3425310839455933,
+      "grad_norm": 1.8993586750719262,
       "learning_rate": 3.913903944894565e-05,
-      "loss": 0.3848,
-      "mean_token_accuracy": 0.8884705975651741,
+      "loss": 0.3314,
+      "mean_token_accuracy": 0.9030940681695938,
       "step": 214
     },
     {
       "epoch": 1.2580645161290323,
-      "grad_norm": 1.8082230444778677,
+      "grad_norm": 1.61898052839045,
       "learning_rate": 3.912852944921129e-05,
-      "loss": 0.3576,
-      "mean_token_accuracy": 0.8995041996240616,
+      "loss": 0.2963,
+      "mean_token_accuracy": 0.9144224375486374,
       "step": 215
     },
     {
       "epoch": 1.2639296187683284,
-      "grad_norm": 2.156095363781735,
+      "grad_norm": 1.949574828408539,
       "learning_rate": 3.911795727983279e-05,
-      "loss": 0.3768,
-      "mean_token_accuracy": 0.9000616893172264,
+      "loss": 0.3361,
+      "mean_token_accuracy": 0.9106857255101204,
       "step": 216
     },
     {
       "epoch": 1.2697947214076246,
-      "grad_norm": 2.056525651901662,
+      "grad_norm": 1.8205919307098928,
       "learning_rate": 3.910732297918285e-05,
-      "loss": 0.4354,
-      "mean_token_accuracy": 0.8829119503498077,
+      "loss": 0.3859,
+      "mean_token_accuracy": 0.9019497409462929,
       "step": 217
     },
     {
       "epoch": 1.2756598240469208,
-      "grad_norm": 2.569771491183553,
+      "grad_norm": 2.1271420763487634,
       "learning_rate": 3.90966265858597e-05,
-      "loss": 0.4653,
-      "mean_token_accuracy": 0.8823570907115936,
+      "loss": 0.3987,
+      "mean_token_accuracy": 0.8942231386899948,
       "step": 218
     },
     {
       "epoch": 1.281524926686217,
-      "grad_norm": 2.132704573151928,
+      "grad_norm": 1.8506277761965328,
       "learning_rate": 3.908586813868693e-05,
-      "loss": 0.4343,
-      "mean_token_accuracy": 0.884559653699398,
+      "loss": 0.3845,
+      "mean_token_accuracy": 0.8941864669322968,
       "step": 219
     },
     {
       "epoch": 1.2873900293255132,
-      "grad_norm": 2.4720965949429736,
+      "grad_norm": 1.8340544441465951,
       "learning_rate": 3.9075047676713354e-05,
-      "loss": 0.4649,
-      "mean_token_accuracy": 0.874346137046814,
+      "loss": 0.3838,
+      "mean_token_accuracy": 0.8961951732635498,
       "step": 220
     },
     {
       "epoch": 1.2932551319648093,
-      "grad_norm": 2.0429710071111704,
+      "grad_norm": 1.7279379977091884,
       "learning_rate": 3.9064165239212874e-05,
-      "loss": 0.4416,
-      "mean_token_accuracy": 0.8792015537619591,
+      "loss": 0.3649,
+      "mean_token_accuracy": 0.8994920030236244,
       "step": 221
     },
     {
       "epoch": 1.2991202346041055,
-      "grad_norm": 2.0216506902906413,
+      "grad_norm": 1.7761193410253977,
       "learning_rate": 3.905322086568434e-05,
-      "loss": 0.4349,
-      "mean_token_accuracy": 0.8829491958022118,
+      "loss": 0.3971,
+      "mean_token_accuracy": 0.8978786915540695,
       "step": 222
     },
     {
       "epoch": 1.3049853372434017,
-      "grad_norm": 2.7526271970057388,
+      "grad_norm": 2.1577492725825773,
       "learning_rate": 3.904221459585142e-05,
-      "loss": 0.3743,
-      "mean_token_accuracy": 0.887954942882061,
+      "loss": 0.3386,
+      "mean_token_accuracy": 0.9025338441133499,
       "step": 223
     },
     {
       "epoch": 1.310850439882698,
-      "grad_norm": 2.0368517762814884,
+      "grad_norm": 2.0991144733466127,
       "learning_rate": 3.903114646966242e-05,
-      "loss": 0.4253,
-      "mean_token_accuracy": 0.8919025957584381,
+      "loss": 0.394,
+      "mean_token_accuracy": 0.8991600722074509,
       "step": 224
     },
     {
       "epoch": 1.316715542521994,
-      "grad_norm": 1.9783869883280967,
+      "grad_norm": 1.5430466222950896,
       "learning_rate": 3.9020016527290166e-05,
-      "loss": 0.3979,
-      "mean_token_accuracy": 0.8797405809164047,
+      "loss": 0.3554,
+      "mean_token_accuracy": 0.8956394866108894,
       "step": 225
     },
     {
       "epoch": 1.3225806451612903,
-      "grad_norm": 1.7298586661221587,
+      "grad_norm": 1.5321878304784884,
       "learning_rate": 3.900882480913185e-05,
-      "loss": 0.2768,
-      "mean_token_accuracy": 0.9170741513371468,
+      "loss": 0.2586,
+      "mean_token_accuracy": 0.9249091520905495,
       "step": 226
     },
     {
       "epoch": 1.3284457478005864,
-      "grad_norm": 1.9723648447844537,
+      "grad_norm": 1.7052024839790294,
       "learning_rate": 3.899757135580891e-05,
-      "loss": 0.6138,
-      "mean_token_accuracy": 0.8599758371710777,
+      "loss": 0.4302,
+      "mean_token_accuracy": 0.8868528082966805,
       "step": 227
     },
     {
       "epoch": 1.3343108504398826,
-      "grad_norm": 3.9254570692519297,
+      "grad_norm": 1.8879042217654005,
       "learning_rate": 3.898625620816681e-05,
-      "loss": 0.3718,
-      "mean_token_accuracy": 0.887211762368679,
+      "loss": 0.3146,
+      "mean_token_accuracy": 0.9062324613332748,
       "step": 228
     },
     {
       "epoch": 1.3401759530791788,
-      "grad_norm": 2.399705196668241,
+      "grad_norm": 1.895441937578749,
       "learning_rate": 3.8974879407275e-05,
-      "loss": 0.5152,
-      "mean_token_accuracy": 0.858745202422142,
+      "loss": 0.4562,
+      "mean_token_accuracy": 0.8757164552807808,
       "step": 229
     },
     {
       "epoch": 1.3460410557184752,
-      "grad_norm": 2.5271848770288563,
+      "grad_norm": 2.1290916797705077,
       "learning_rate": 3.896344099442663e-05,
-      "loss": 0.3902,
-      "mean_token_accuracy": 0.8907849490642548,
+      "loss": 0.3177,
+      "mean_token_accuracy": 0.904730461537838,
       "step": 230
     },
     {
       "epoch": 1.3519061583577714,
-      "grad_norm": 1.9404506617545383,
+      "grad_norm": 1.5925408878888774,
       "learning_rate": 3.895194101113855e-05,
-      "loss": 0.3174,
-      "mean_token_accuracy": 0.8844568431377411,
+      "loss": 0.2663,
+      "mean_token_accuracy": 0.9067297652363777,
       "step": 231
     },
     {
       "epoch": 1.3577712609970676,
-      "grad_norm": 2.0665741764137984,
+      "grad_norm": 1.6755193524016967,
       "learning_rate": 3.894037949915104e-05,
-      "loss": 0.361,
-      "mean_token_accuracy": 0.9073267132043839,
+      "loss": 0.3058,
+      "mean_token_accuracy": 0.9183206856250763,
       "step": 232
     },
     {
       "epoch": 1.3636363636363638,
-      "grad_norm": 1.7521385020924563,
+      "grad_norm": 1.4261041380447086,
       "learning_rate": 3.8928756500427735e-05,
-      "loss": 0.3729,
-      "mean_token_accuracy": 0.8856314644217491,
+      "loss": 0.3274,
+      "mean_token_accuracy": 0.9030020982027054,
       "step": 233
     },
     {
       "epoch": 1.36950146627566,
-      "grad_norm": 4.272339166861924,
+      "grad_norm": 1.7424232651440439,
       "learning_rate": 3.89170720571554e-05,
-      "loss": 0.3891,
-      "mean_token_accuracy": 0.8926250636577606,
+      "loss": 0.2836,
+      "mean_token_accuracy": 0.9171391725540161,
       "step": 234
     },
     {
       "epoch": 1.3753665689149561,
-      "grad_norm": 2.0844003036828957,
+      "grad_norm": 1.5473986942703324,
       "learning_rate": 3.890532621174387e-05,
-      "loss": 0.3451,
-      "mean_token_accuracy": 0.8915408626198769,
+      "loss": 0.311,
+      "mean_token_accuracy": 0.9047387689352036,
       "step": 235
     },
     {
       "epoch": 1.3812316715542523,
-      "grad_norm": 1.9289770077407407,
+      "grad_norm": 1.4904609752021027,
       "learning_rate": 3.8893519006825806e-05,
-      "loss": 0.3459,
-      "mean_token_accuracy": 0.8924594298005104,
+      "loss": 0.2811,
+      "mean_token_accuracy": 0.9175030738115311,
       "step": 236
     },
     {
       "epoch": 1.3870967741935485,
-      "grad_norm": 2.2301290012638133,
+      "grad_norm": 1.6614527615879586,
       "learning_rate": 3.88816504852566e-05,
-      "loss": 0.3396,
-      "mean_token_accuracy": 0.9005770832300186,
+      "loss": 0.2803,
+      "mean_token_accuracy": 0.9204106256365776,
       "step": 237
     },
     {
       "epoch": 1.3929618768328447,
-      "grad_norm": 2.171361614601455,
+      "grad_norm": 1.660701923358152,
       "learning_rate": 3.886972069011419e-05,
-      "loss": 0.5869,
-      "mean_token_accuracy": 0.8503864109516144,
+      "loss": 0.4732,
+      "mean_token_accuracy": 0.878779798746109,
       "step": 238
     },
     {
       "epoch": 1.3988269794721409,
-      "grad_norm": 2.6775249334268616,
+      "grad_norm": 1.8193960520526216,
       "learning_rate": 3.885772966469891e-05,
-      "loss": 0.366,
-      "mean_token_accuracy": 0.8903994932770729,
+      "loss": 0.3177,
+      "mean_token_accuracy": 0.9024636000394821,
       "step": 239
     },
     {
       "epoch": 1.404692082111437,
-      "grad_norm": 4.079621344494869,
+      "grad_norm": 1.6110661415608767,
       "learning_rate": 3.884567745253335e-05,
-      "loss": 0.2753,
-      "mean_token_accuracy": 0.9139163419604301,
+      "loss": 0.2395,
+      "mean_token_accuracy": 0.9258132427930832,
       "step": 240
     },
     {
       "epoch": 1.4105571847507332,
-      "grad_norm": 1.776096950687329,
+      "grad_norm": 1.4342539536793646,
       "learning_rate": 3.8833564097362157e-05,
-      "loss": 0.4289,
-      "mean_token_accuracy": 0.8798037841916084,
+      "loss": 0.3794,
+      "mean_token_accuracy": 0.8934561610221863,
       "step": 241
     },
     {
       "epoch": 1.4164222873900294,
-      "grad_norm": 1.834917253645093,
+      "grad_norm": 1.5191845667740436,
       "learning_rate": 3.8821389643151924e-05,
-      "loss": 0.2886,
-      "mean_token_accuracy": 0.9188757091760635,
+      "loss": 0.2483,
+      "mean_token_accuracy": 0.9304336309432983,
       "step": 242
     },
     {
       "epoch": 1.4222873900293256,
-      "grad_norm": 1.902514045474563,
+      "grad_norm": 1.5906029983066425,
       "learning_rate": 3.880915413409102e-05,
-      "loss": 0.3386,
-      "mean_token_accuracy": 0.9072437360882759,
+      "loss": 0.289,
+      "mean_token_accuracy": 0.9240436926484108,
       "step": 243
     },
     {
       "epoch": 1.4281524926686218,
-      "grad_norm": 1.6924480184967565,
+      "grad_norm": 1.5750449999867253,
       "learning_rate": 3.879685761458938e-05,
-      "loss": 0.4339,
-      "mean_token_accuracy": 0.8632926791906357,
+      "loss": 0.4022,
+      "mean_token_accuracy": 0.8791051730513573,
       "step": 244
     },
     {
       "epoch": 1.434017595307918,
-      "grad_norm": 1.911568055017853,
+      "grad_norm": 1.6746780717366057,
       "learning_rate": 3.8784500129278405e-05,
-      "loss": 0.2714,
-      "mean_token_accuracy": 0.9203036949038506,
+      "loss": 0.2427,
+      "mean_token_accuracy": 0.9278705045580864,
       "step": 245
     },
     {
       "epoch": 1.4398826979472141,
-      "grad_norm": 1.9969412513036282,
+      "grad_norm": 1.70626429733012,
       "learning_rate": 3.877208172301079e-05,
-      "loss": 0.4284,
-      "mean_token_accuracy": 0.8679738715291023,
+      "loss": 0.4178,
+      "mean_token_accuracy": 0.8769783824682236,
       "step": 246
     },
     {
       "epoch": 1.4457478005865103,
-      "grad_norm": 1.787789982945381,
+      "grad_norm": 1.5645704363193036,
       "learning_rate": 3.875960244086032e-05,
-      "loss": 0.345,
-      "mean_token_accuracy": 0.9001687616109848,
+      "loss": 0.3022,
+      "mean_token_accuracy": 0.9060285091400146,
       "step": 247
     },
     {
       "epoch": 1.4516129032258065,
-      "grad_norm": 2.1914713980298757,
+      "grad_norm": 1.5927324346376226,
       "learning_rate": 3.8747062328121756e-05,
-      "loss": 0.3879,
-      "mean_token_accuracy": 0.8989882245659828,
+      "loss": 0.3328,
+      "mean_token_accuracy": 0.9143104031682014,
       "step": 248
     },
     {
       "epoch": 1.4574780058651027,
-      "grad_norm": 1.7197818602016577,
+      "grad_norm": 1.3295756265415142,
       "learning_rate": 3.873446143031064e-05,
-      "loss": 0.2785,
-      "mean_token_accuracy": 0.9228793308138847,
+      "loss": 0.2642,
+      "mean_token_accuracy": 0.9250845462083817,
       "step": 249
     },
     {
       "epoch": 1.4633431085043989,
-      "grad_norm": 1.9165780404977792,
+      "grad_norm": 1.6451577919637062,
       "learning_rate": 3.872179979316314e-05,
-      "loss": 0.3064,
-      "mean_token_accuracy": 0.908599853515625,
+      "loss": 0.2576,
+      "mean_token_accuracy": 0.9231655597686768,
       "step": 250
     },
     {
       "epoch": 1.469208211143695,
-      "grad_norm": 1.6704715586382999,
+      "grad_norm": 1.374617140630625,
       "learning_rate": 3.870907746263589e-05,
-      "loss": 0.2689,
-      "mean_token_accuracy": 0.9201952144503593,
+      "loss": 0.2344,
+      "mean_token_accuracy": 0.9281893447041512,
       "step": 251
     },
     {
       "epoch": 1.4750733137829912,
-      "grad_norm": 1.6995923765648426,
+      "grad_norm": 1.5385521582071795,
       "learning_rate": 3.869629448490582e-05,
-      "loss": 0.3333,
-      "mean_token_accuracy": 0.9088203087449074,
+      "loss": 0.3019,
+      "mean_token_accuracy": 0.9170176237821579,
       "step": 252
     },
     {
       "epoch": 1.4809384164222874,
-      "grad_norm": 1.564555577131926,
+      "grad_norm": 1.4332428265169206,
       "learning_rate": 3.868345090636995e-05,
-      "loss": 0.3582,
-      "mean_token_accuracy": 0.9006411507725716,
+      "loss": 0.32,
+      "mean_token_accuracy": 0.9136760458350182,
       "step": 253
     },
     {
       "epoch": 1.4868035190615836,
-      "grad_norm": 1.944612250081467,
+      "grad_norm": 1.8145070360131068,
       "learning_rate": 3.867054677364531e-05,
-      "loss": 0.347,
-      "mean_token_accuracy": 0.8948578387498856,
+      "loss": 0.3077,
+      "mean_token_accuracy": 0.9085892364382744,
       "step": 254
     },
     {
       "epoch": 1.4926686217008798,
-      "grad_norm": 1.9767571384054532,
+      "grad_norm": 1.4540625255590833,
       "learning_rate": 3.865758213356868e-05,
-      "loss": 0.3588,
-      "mean_token_accuracy": 0.892326109111309,
+      "loss": 0.3122,
+      "mean_token_accuracy": 0.9093359783291817,
       "step": 255
     },
     {
       "epoch": 1.498533724340176,
-      "grad_norm": 2.1786507345414625,
+      "grad_norm": 1.6678383017411527,
       "learning_rate": 3.8644557033196456e-05,
-      "loss": 0.3443,
-      "mean_token_accuracy": 0.900772362947464,
+      "loss": 0.3175,
+      "mean_token_accuracy": 0.9082972332835197,
       "step": 256
     },
     {
       "epoch": 1.5043988269794721,
-      "grad_norm": 1.727787016452984,
+      "grad_norm": 1.5866601580017656,
       "learning_rate": 3.8631471519804514e-05,
-      "loss": 0.3939,
-      "mean_token_accuracy": 0.899748906493187,
+      "loss": 0.3432,
+      "mean_token_accuracy": 0.9088873639702797,
       "step": 257
     },
     {
       "epoch": 1.5102639296187683,
-      "grad_norm": 2.2435616485276584,
+      "grad_norm": 1.6958942000186437,
       "learning_rate": 3.861832564088797e-05,
-      "loss": 0.4526,
-      "mean_token_accuracy": 0.8786605149507523,
+      "loss": 0.3633,
+      "mean_token_accuracy": 0.8945498690009117,
       "step": 258
     },
     {
       "epoch": 1.5161290322580645,
-      "grad_norm": 2.1226358626723485,
+      "grad_norm": 1.6901057610483312,
       "learning_rate": 3.860511944416105e-05,
-      "loss": 0.2974,
-      "mean_token_accuracy": 0.911198802292347,
+      "loss": 0.2474,
+      "mean_token_accuracy": 0.9269101545214653,
       "step": 259
     },
     {
       "epoch": 1.5219941348973607,
-      "grad_norm": 1.9277458511435361,
+      "grad_norm": 1.4062959541358844,
       "learning_rate": 3.859185297755693e-05,
-      "loss": 0.3021,
-      "mean_token_accuracy": 0.9092141538858414,
+      "loss": 0.2571,
+      "mean_token_accuracy": 0.9234707877039909,
       "step": 260
     },
     {
       "epoch": 1.5278592375366569,
-      "grad_norm": 1.5812796708802024,
+      "grad_norm": 1.293753749817753,
       "learning_rate": 3.857852628922751e-05,
-      "loss": 0.2656,
-      "mean_token_accuracy": 0.9256365522742271,
+      "loss": 0.224,
+      "mean_token_accuracy": 0.9362157136201859,
       "step": 261
     },
     {
       "epoch": 1.533724340175953,
-      "grad_norm": 2.037937113721398,
+      "grad_norm": 1.7768770225023713,
       "learning_rate": 3.856513942754329e-05,
-      "loss": 0.3173,
-      "mean_token_accuracy": 0.904233492910862,
+      "loss": 0.2784,
+      "mean_token_accuracy": 0.9158712923526764,
       "step": 262
     },
     {
       "epoch": 1.5395894428152492,
-      "grad_norm": 1.6287239034648493,
+      "grad_norm": 1.5368924710192076,
       "learning_rate": 3.8551692441093183e-05,
-      "loss": 0.2402,
-      "mean_token_accuracy": 0.927992507815361,
+      "loss": 0.2147,
+      "mean_token_accuracy": 0.9343990013003349,
       "step": 263
     },
     {
       "epoch": 1.5454545454545454,
-      "grad_norm": 1.7234547040810766,
+      "grad_norm": 1.5208867150448775,
       "learning_rate": 3.85381853786843e-05,
-      "loss": 0.4069,
-      "mean_token_accuracy": 0.8724810630083084,
+      "loss": 0.3668,
+      "mean_token_accuracy": 0.8892128467559814,
       "step": 264
     },
     {
       "epoch": 1.5513196480938416,
-      "grad_norm": 1.9738399030452272,
+      "grad_norm": 1.615170986550086,
       "learning_rate": 3.852461828934184e-05,
-      "loss": 0.3796,
-      "mean_token_accuracy": 0.8994789123535156,
+      "loss": 0.3435,
+      "mean_token_accuracy": 0.907134085893631,
       "step": 265
     },
     {
       "epoch": 1.5571847507331378,
-      "grad_norm": 1.7419666030613636,
+      "grad_norm": 1.5028390308172306,
       "learning_rate": 3.851099122230885e-05,
-      "loss": 0.2919,
-      "mean_token_accuracy": 0.9129809066653252,
+      "loss": 0.2613,
+      "mean_token_accuracy": 0.9213738068938255,
       "step": 266
     },
     {
       "epoch": 1.563049853372434,
-      "grad_norm": 1.628062291876651,
+      "grad_norm": 1.5527776825198953,
       "learning_rate": 3.849730422704608e-05,
-      "loss": 0.4191,
-      "mean_token_accuracy": 0.8906111344695091,
+      "loss": 0.3699,
+      "mean_token_accuracy": 0.9007752239704132,
       "step": 267
     },
     {
       "epoch": 1.5689149560117301,
-      "grad_norm": 2.0803530282960305,
+      "grad_norm": 1.68946384944025,
       "learning_rate": 3.84835573532318e-05,
-      "loss": 0.2656,
-      "mean_token_accuracy": 0.9183074086904526,
+      "loss": 0.2226,
+      "mean_token_accuracy": 0.9297270327806473,
       "step": 268
     },
     {
       "epoch": 1.5747800586510263,
-      "grad_norm": 1.8607789222018924,
+      "grad_norm": 1.8568160263580067,
       "learning_rate": 3.84697506507616e-05,
-      "loss": 0.3953,
-      "mean_token_accuracy": 0.8888256177306175,
+      "loss": 0.3495,
+      "mean_token_accuracy": 0.8976611867547035,
       "step": 269
     },
     {
       "epoch": 1.5806451612903225,
-      "grad_norm": 2.130794994174186,
+      "grad_norm": 1.9946826389284182,
       "learning_rate": 3.845588416974824e-05,
-      "loss": 0.3848,
-      "mean_token_accuracy": 0.9071919843554497,
+      "loss": 0.3764,
+      "mean_token_accuracy": 0.9064979031682014,
       "step": 270
     },
     {
       "epoch": 1.5865102639296187,
-      "grad_norm": 1.9020220222823165,
+      "grad_norm": 1.6656738473748323,
       "learning_rate": 3.844195796052144e-05,
-      "loss": 0.3578,
-      "mean_token_accuracy": 0.9020521864295006,
+      "loss": 0.3061,
+      "mean_token_accuracy": 0.9155899211764336,
       "step": 271
     },
     {
       "epoch": 1.5923753665689149,
-      "grad_norm": 1.8658553019399349,
+      "grad_norm": 1.4699049383173204,
       "learning_rate": 3.8427972073627724e-05,
-      "loss": 0.5285,
-      "mean_token_accuracy": 0.8661686107516289,
+      "loss": 0.4471,
+      "mean_token_accuracy": 0.8815479129552841,
       "step": 272
     },
     {
       "epoch": 1.598240469208211,
-      "grad_norm": 2.0730360398150642,
+      "grad_norm": 1.7825727959157462,
       "learning_rate": 3.841392655983021e-05,
-      "loss": 0.2402,
-      "mean_token_accuracy": 0.9231050238013268,
+      "loss": 0.2179,
+      "mean_token_accuracy": 0.9388237595558167,
       "step": 273
     },
     {
       "epoch": 1.6041055718475072,
-      "grad_norm": 1.34555292540441,
+      "grad_norm": 1.2309725165752188,
       "learning_rate": 3.8399821470108444e-05,
-      "loss": 0.2042,
-      "mean_token_accuracy": 0.9374109655618668,
+      "loss": 0.1733,
+      "mean_token_accuracy": 0.9496222510933876,
       "step": 274
     },
     {
       "epoch": 1.6099706744868034,
-      "grad_norm": 1.9527205991987846,
+      "grad_norm": 1.7497475431193252,
       "learning_rate": 3.838565685565819e-05,
-      "loss": 0.4687,
-      "mean_token_accuracy": 0.8773292899131775,
+      "loss": 0.41,
+      "mean_token_accuracy": 0.892163947224617,
       "step": 275
     },
     {
       "epoch": 1.6158357771260996,
-      "grad_norm": 1.8883224403836536,
+      "grad_norm": 1.6032760832968165,
       "learning_rate": 3.8371432767891295e-05,
-      "loss": 0.3526,
-      "mean_token_accuracy": 0.903610423207283,
+      "loss": 0.3103,
+      "mean_token_accuracy": 0.9191496223211288,
       "step": 276
     },
     {
       "epoch": 1.6217008797653958,
-      "grad_norm": 1.7546704899486176,
+      "grad_norm": 1.475523533191468,
       "learning_rate": 3.8357149258435444e-05,
-      "loss": 0.2904,
-      "mean_token_accuracy": 0.9173143953084946,
+      "loss": 0.2458,
+      "mean_token_accuracy": 0.9312805011868477,
       "step": 277
     },
     {
       "epoch": 1.627565982404692,
-      "grad_norm": 2.0511854336671473,
+      "grad_norm": 1.4874016779495678,
       "learning_rate": 3.8342806379134005e-05,
-      "loss": 0.4361,
-      "mean_token_accuracy": 0.8790148869156837,
+      "loss": 0.3746,
+      "mean_token_accuracy": 0.8982912823557854,
       "step": 278
     },
     {
       "epoch": 1.6334310850439882,
-      "grad_norm": 2.0568091503722035,
+      "grad_norm": 1.5396252294388457,
       "learning_rate": 3.8328404182045854e-05,
-      "loss": 0.3654,
-      "mean_token_accuracy": 0.9027048945426941,
+      "loss": 0.3274,
+      "mean_token_accuracy": 0.9162414520978928,
       "step": 279
     },
     {
       "epoch": 1.6392961876832843,
-      "grad_norm": 2.0230684624428235,
+      "grad_norm": 1.9220523269412597,
       "learning_rate": 3.831394271944512e-05,
-      "loss": 0.358,
-      "mean_token_accuracy": 0.9075604230165482,
+      "loss": 0.3118,
+      "mean_token_accuracy": 0.9187277778983116,
       "step": 280
     },
     {
       "epoch": 1.6451612903225805,
-      "grad_norm": 1.894319774470119,
+      "grad_norm": 1.5408962396890666,
       "learning_rate": 3.82994220438211e-05,
-      "loss": 0.3609,
-      "mean_token_accuracy": 0.8942530304193497,
+      "loss": 0.2972,
+      "mean_token_accuracy": 0.9149600267410278,
       "step": 281
     },
     {
       "epoch": 1.6510263929618767,
-      "grad_norm": 1.8981276803059295,
+      "grad_norm": 1.6552152776718903,
       "learning_rate": 3.828484220787797e-05,
-      "loss": 0.3854,
-      "mean_token_accuracy": 0.89190324395895,
+      "loss": 0.3117,
+      "mean_token_accuracy": 0.9124673455953598,
       "step": 282
     },
     {
       "epoch": 1.6568914956011729,
-      "grad_norm": 2.2732377477966326,
+      "grad_norm": 1.9823703515758113,
       "learning_rate": 3.8270203264534644e-05,
-      "loss": 0.4659,
-      "mean_token_accuracy": 0.8762017115950584,
+      "loss": 0.3958,
+      "mean_token_accuracy": 0.8929010257124901,
       "step": 283
     },
     {
       "epoch": 1.662756598240469,
-      "grad_norm": 1.836975254349824,
+      "grad_norm": 1.477782103664971,
       "learning_rate": 3.8255505266924585e-05,
-      "loss": 0.3508,
-      "mean_token_accuracy": 0.897898942232132,
+      "loss": 0.3019,
+      "mean_token_accuracy": 0.9156582951545715,
       "step": 284
     },
     {
       "epoch": 1.6686217008797652,
-      "grad_norm": 1.8958858575917799,
+      "grad_norm": 1.3242833914955063,
       "learning_rate": 3.824074826839557e-05,
-      "loss": 0.2678,
-      "mean_token_accuracy": 0.9237991869449615,
+      "loss": 0.2404,
+      "mean_token_accuracy": 0.93580362200737,
       "step": 285
     },
     {
       "epoch": 1.6744868035190614,
-      "grad_norm": 2.4908800796256765,
+      "grad_norm": 2.0670290487108134,
       "learning_rate": 3.822593232250956e-05,
-      "loss": 0.4807,
-      "mean_token_accuracy": 0.8728378862142563,
+      "loss": 0.4481,
+      "mean_token_accuracy": 0.8762071877717972,
       "step": 286
     },
     {
       "epoch": 1.6803519061583576,
-      "grad_norm": 2.449596026859127,
+      "grad_norm": 1.8797288846958915,
       "learning_rate": 3.8211057483042446e-05,
-      "loss": 0.5197,
-      "mean_token_accuracy": 0.8701219037175179,
+      "loss": 0.4279,
+      "mean_token_accuracy": 0.8910372480750084,
       "step": 287
     },
     {
       "epoch": 1.6862170087976538,
-      "grad_norm": 2.126362403478398,
+      "grad_norm": 1.5498598053807129,
       "learning_rate": 3.8196123803983895e-05,
-      "loss": 0.3782,
-      "mean_token_accuracy": 0.8976033478975296,
+      "loss": 0.3023,
+      "mean_token_accuracy": 0.917064480483532,
       "step": 288
     },
     {
       "epoch": 1.6920821114369502,
-      "grad_norm": 1.9552263402442664,
+      "grad_norm": 1.6259661356334203,
       "learning_rate": 3.818113133953712e-05,
-      "loss": 0.3354,
-      "mean_token_accuracy": 0.9046521782875061,
+      "loss": 0.2943,
+      "mean_token_accuracy": 0.9172269403934479,
       "step": 289
     },
     {
       "epoch": 1.6979472140762464,
-      "grad_norm": 1.559218994516208,
+      "grad_norm": 1.3857325306672972,
       "learning_rate": 3.816608014411872e-05,
-      "loss": 0.2451,
-      "mean_token_accuracy": 0.9280602782964706,
+      "loss": 0.2045,
+      "mean_token_accuracy": 0.9397373795509338,
       "step": 290
     },
     {
       "epoch": 1.7038123167155426,
-      "grad_norm": 1.5955884312797561,
+      "grad_norm": 1.3545393801192716,
       "learning_rate": 3.815097027235845e-05,
-      "loss": 0.3444,
-      "mean_token_accuracy": 0.8998289778828621,
+      "loss": 0.3132,
+      "mean_token_accuracy": 0.9108520373702049,
       "step": 291
     },
     {
       "epoch": 1.7096774193548387,
-      "grad_norm": 1.923537625514968,
+      "grad_norm": 1.6993235166452834,
       "learning_rate": 3.813580177909906e-05,
-      "loss": 0.2937,
-      "mean_token_accuracy": 0.9103951752185822,
+      "loss": 0.242,
+      "mean_token_accuracy": 0.9247912764549255,
       "step": 292
     },
     {
       "epoch": 1.715542521994135,
-      "grad_norm": 1.627753503508524,
+      "grad_norm": 1.062509305690891,
       "learning_rate": 3.8120574719396023e-05,
-      "loss": 0.3034,
-      "mean_token_accuracy": 0.918914794921875,
+      "loss": 0.2618,
+      "mean_token_accuracy": 0.9303434118628502,
       "step": 293
     },
     {
       "epoch": 1.721407624633431,
-      "grad_norm": 2.3014152350526924,
+      "grad_norm": 1.7701722344281323,
       "learning_rate": 3.810528914851745e-05,
-      "loss": 0.4585,
-      "mean_token_accuracy": 0.878827765583992,
+      "loss": 0.3753,
+      "mean_token_accuracy": 0.900924563407898,
       "step": 294
     },
     {
       "epoch": 1.7272727272727273,
-      "grad_norm": 1.9488757659462697,
+      "grad_norm": 1.5877419428096278,
       "learning_rate": 3.808994512194376e-05,
-      "loss": 0.3841,
-      "mean_token_accuracy": 0.8855108916759491,
+      "loss": 0.3402,
+      "mean_token_accuracy": 0.8950434923171997,
       "step": 295
     },
     {
       "epoch": 1.7331378299120235,
-      "grad_norm": 1.8510675195890514,
+      "grad_norm": 1.6610643623647858,
       "learning_rate": 3.807454269536758e-05,
-      "loss": 0.4001,
-      "mean_token_accuracy": 0.8860180526971817,
+      "loss": 0.34,
+      "mean_token_accuracy": 0.9047321453690529,
       "step": 296
     },
     {
       "epoch": 1.7390029325513197,
-      "grad_norm": 1.9187885250043828,
+      "grad_norm": 1.4505169368504018,
       "learning_rate": 3.805908192469351e-05,
-      "loss": 0.2789,
-      "mean_token_accuracy": 0.9083529412746429,
+      "loss": 0.224,
+      "mean_token_accuracy": 0.9305636957287788,
       "step": 297
     },
     {
       "epoch": 1.7448680351906158,
-      "grad_norm": 1.9174627349215367,
+      "grad_norm": 1.4096184186739809,
       "learning_rate": 3.80435628660379e-05,
-      "loss": 0.3674,
-      "mean_token_accuracy": 0.8953339979052544,
+      "loss": 0.3201,
+      "mean_token_accuracy": 0.9103965312242508,
       "step": 298
     },
     {
       "epoch": 1.750733137829912,
-      "grad_norm": 2.0113269897331416,
+      "grad_norm": 1.1931765360526814,
       "learning_rate": 3.802798557572867e-05,
-      "loss": 0.3684,
-      "mean_token_accuracy": 0.8994771614670753,
+      "loss": 0.311,
+      "mean_token_accuracy": 0.9164270684123039,
       "step": 299
     },
     {
       "epoch": 1.7565982404692082,
-      "grad_norm": 2.2118619867672207,
+      "grad_norm": 1.6327117487156346,
       "learning_rate": 3.801235011030506e-05,
-      "loss": 0.3636,
-      "mean_token_accuracy": 0.896511547267437,
+      "loss": 0.3023,
+      "mean_token_accuracy": 0.9153658151626587,
       "step": 300
     },
     {
       "epoch": 1.7624633431085044,
-      "grad_norm": 1.7539387925625358,
+      "grad_norm": 1.3440051164242026,
       "learning_rate": 3.799665652651754e-05,
-      "loss": 0.2227,
-      "mean_token_accuracy": 0.9379914700984955,
+      "loss": 0.1817,
+      "mean_token_accuracy": 0.951392151415348,
       "step": 301
     },
     {
       "epoch": 1.7683284457478006,
-      "grad_norm": 1.6438481796571975,
+      "grad_norm": 1.2516019247625034,
       "learning_rate": 3.7980904881327446e-05,
-      "loss": 0.3014,
-      "mean_token_accuracy": 0.9185338690876961,
+      "loss": 0.2478,
+      "mean_token_accuracy": 0.9341270625591278,
       "step": 302
     },
     {
       "epoch": 1.7741935483870968,
-      "grad_norm": 1.9612873325388276,
+      "grad_norm": 1.5459031897179347,
       "learning_rate": 3.796509523190691e-05,
-      "loss": 0.3237,
-      "mean_token_accuracy": 0.9047940298914909,
+      "loss": 0.2693,
+      "mean_token_accuracy": 0.918998509645462,
       "step": 303
     },
     {
       "epoch": 1.780058651026393,
-      "grad_norm": 1.7622576932704024,
+      "grad_norm": 1.3298611087881873,
       "learning_rate": 3.794922763563857e-05,
-      "loss": 0.2483,
-      "mean_token_accuracy": 0.9288651943206787,
+      "loss": 0.2135,
+      "mean_token_accuracy": 0.9386330172419548,
       "step": 304
     },
     {
       "epoch": 1.7859237536656891,
-      "grad_norm": 2.176660314874238,
+      "grad_norm": 1.7138314899426605,
       "learning_rate": 3.793330215011538e-05,
-      "loss": 0.3704,
-      "mean_token_accuracy": 0.9133122861385345,
+      "loss": 0.3072,
+      "mean_token_accuracy": 0.9276101067662239,
       "step": 305
     },
     {
       "epoch": 1.7917888563049853,
-      "grad_norm": 1.8647037847416894,
+      "grad_norm": 1.4545273510274497,
       "learning_rate": 3.791731883314043e-05,
-      "loss": 0.3288,
-      "mean_token_accuracy": 0.9017655923962593,
+      "loss": 0.2681,
+      "mean_token_accuracy": 0.922805443406105,
       "step": 306
     },
     {
       "epoch": 1.7976539589442815,
-      "grad_norm": 2.0287011162165647,
+      "grad_norm": 1.557251488291821,
       "learning_rate": 3.790127774272671e-05,
-      "loss": 0.2683,
-      "mean_token_accuracy": 0.9209354743361473,
+      "loss": 0.233,
+      "mean_token_accuracy": 0.9324622675776482,
       "step": 307
     },
     {
       "epoch": 1.8035190615835777,
-      "grad_norm": 1.5719010823135073,
+      "grad_norm": 1.4492526540365742,
       "learning_rate": 3.7885178937096884e-05,
-      "loss": 0.4283,
-      "mean_token_accuracy": 0.8839877769351006,
+      "loss": 0.3703,
+      "mean_token_accuracy": 0.90493393689394,
       "step": 308
     },
     {
       "epoch": 1.8093841642228738,
-      "grad_norm": 2.060543329624031,
+      "grad_norm": 1.5281139962268382,
       "learning_rate": 3.7869022474683125e-05,
-      "loss": 0.4768,
-      "mean_token_accuracy": 0.8875997290015221,
+      "loss": 0.4118,
+      "mean_token_accuracy": 0.9041909128427505,
       "step": 309
     },
     {
       "epoch": 1.8152492668621703,
-      "grad_norm": 2.350189411212048,
+      "grad_norm": 1.93639219005886,
       "learning_rate": 3.7852808414126876e-05,
-      "loss": 0.4034,
-      "mean_token_accuracy": 0.8856799080967903,
+      "loss": 0.3565,
+      "mean_token_accuracy": 0.9011876359581947,
       "step": 310
     },
     {
       "epoch": 1.8211143695014664,
-      "grad_norm": 1.5440198943153403,
+      "grad_norm": 1.4288238334885668,
       "learning_rate": 3.783653681427861e-05,
-      "loss": 0.2551,
-      "mean_token_accuracy": 0.9266308322548866,
+      "loss": 0.2322,
+      "mean_token_accuracy": 0.9318009614944458,
       "step": 311
     },
     {
       "epoch": 1.8269794721407626,
-      "grad_norm": 2.8616037129091634,
+      "grad_norm": 1.5419872027394301,
       "learning_rate": 3.7820207734197676e-05,
-      "loss": 0.3565,
-      "mean_token_accuracy": 0.8989051878452301,
+      "loss": 0.3153,
+      "mean_token_accuracy": 0.915338508784771,
       "step": 312
     },
     {
       "epoch": 1.8328445747800588,
-      "grad_norm": 1.655020538470568,
+      "grad_norm": 1.4488167015309188,
       "learning_rate": 3.780382123315203e-05,
-      "loss": 0.2381,
-      "mean_token_accuracy": 0.932477205991745,
+      "loss": 0.1989,
+      "mean_token_accuracy": 0.9429738447070122,
       "step": 313
     },
     {
       "epoch": 1.838709677419355,
-      "grad_norm": 1.634046108030118,
+      "grad_norm": 1.3031287573895856,
       "learning_rate": 3.778737737061807e-05,
-      "loss": 0.3528,
-      "mean_token_accuracy": 0.901824451982975,
+      "loss": 0.3113,
+      "mean_token_accuracy": 0.9149032607674599,
       "step": 314
     },
     {
       "epoch": 1.8445747800586512,
-      "grad_norm": 1.8055968405353495,
+      "grad_norm": 1.4920076612556301,
       "learning_rate": 3.777087620628035e-05,
-      "loss": 0.2607,
-      "mean_token_accuracy": 0.9298326820135117,
+      "loss": 0.2359,
+      "mean_token_accuracy": 0.9325834512710571,
       "step": 315
     },
     {
       "epoch": 1.8504398826979473,
-      "grad_norm": 1.565331504140896,
+      "grad_norm": 1.385078335478815,
       "learning_rate": 3.775431780003145e-05,
-      "loss": 0.2588,
-      "mean_token_accuracy": 0.9298610910773277,
+      "loss": 0.2044,
+      "mean_token_accuracy": 0.9399889931082726,
       "step": 316
     },
     {
       "epoch": 1.8563049853372435,
-      "grad_norm": 2.4969352173136725,
+      "grad_norm": 1.269824397497335,
       "learning_rate": 3.7737702211971684e-05,
-      "loss": 0.2831,
-      "mean_token_accuracy": 0.9310391396284103,
+      "loss": 0.2496,
+      "mean_token_accuracy": 0.9346247911453247,
       "step": 317
     },
     {
       "epoch": 1.8621700879765397,
-      "grad_norm": 1.6415395253616827,
+      "grad_norm": 1.4411880057880286,
       "learning_rate": 3.772102950240895e-05,
-      "loss": 0.2813,
-      "mean_token_accuracy": 0.9285251498222351,
+      "loss": 0.2563,
+      "mean_token_accuracy": 0.9334022998809814,
       "step": 318
     },
     {
       "epoch": 1.868035190615836,
-      "grad_norm": 1.9305348853876765,
+      "grad_norm": 1.532918693941707,
       "learning_rate": 3.770429973185842e-05,
-      "loss": 0.3427,
-      "mean_token_accuracy": 0.9079779386520386,
+      "loss": 0.2856,
+      "mean_token_accuracy": 0.9228765368461609,
       "step": 319
     },
     {
       "epoch": 1.873900293255132,
-      "grad_norm": 1.9953718686593638,
+      "grad_norm": 1.508327365783947,
       "learning_rate": 3.768751296104243e-05,
-      "loss": 0.2254,
-      "mean_token_accuracy": 0.9326372891664505,
+      "loss": 0.1919,
+      "mean_token_accuracy": 0.9403479546308517,
       "step": 320
     },
     {
       "epoch": 1.8797653958944283,
-      "grad_norm": 1.320578324916696,
+      "grad_norm": 1.2191592802013955,
       "learning_rate": 3.767066925089017e-05,
-      "loss": 0.3231,
-      "mean_token_accuracy": 0.9050979241728783,
+      "loss": 0.2863,
+      "mean_token_accuracy": 0.9149582833051682,
       "step": 321
     },
     {
       "epoch": 1.8856304985337244,
-      "grad_norm": 1.630307723589402,
+      "grad_norm": 1.4714233419752547,
       "learning_rate": 3.765376866253749e-05,
-      "loss": 0.2295,
-      "mean_token_accuracy": 0.9237135499715805,
+      "loss": 0.199,
+      "mean_token_accuracy": 0.9367243573069572,
       "step": 322
     },
     {
       "epoch": 1.8914956011730206,
-      "grad_norm": 1.8687730597426178,
+      "grad_norm": 1.3785113383476932,
       "learning_rate": 3.763681125732672e-05,
-      "loss": 0.2979,
-      "mean_token_accuracy": 0.9019790291786194,
+      "loss": 0.2652,
+      "mean_token_accuracy": 0.9183213263750076,
       "step": 323
     },
     {
       "epoch": 1.8973607038123168,
-      "grad_norm": 1.9421616274693134,
+      "grad_norm": 1.5448358403304276,
       "learning_rate": 3.7619797096806386e-05,
-      "loss": 0.3197,
-      "mean_token_accuracy": 0.9111294597387314,
+      "loss": 0.2859,
+      "mean_token_accuracy": 0.9174121469259262,
       "step": 324
     },
     {
       "epoch": 1.903225806451613,
-      "grad_norm": 1.7208098178259272,
+      "grad_norm": 1.4396711929830184,
       "learning_rate": 3.7602726242731016e-05,
-      "loss": 0.366,
-      "mean_token_accuracy": 0.9027081355452538,
+      "loss": 0.3124,
+      "mean_token_accuracy": 0.9157911166548729,
       "step": 325
     },
     {
       "epoch": 1.9090909090909092,
-      "grad_norm": 2.006658041095116,
+      "grad_norm": 1.437625652493676,
       "learning_rate": 3.758559875706092e-05,
-      "loss": 0.2679,
-      "mean_token_accuracy": 0.9249737039208412,
+      "loss": 0.2302,
+      "mean_token_accuracy": 0.9349333196878433,
       "step": 326
     },
     {
       "epoch": 1.9149560117302054,
-      "grad_norm": 1.4026289668561007,
+      "grad_norm": 1.2452960419013337,
       "learning_rate": 3.756841470196195e-05,
-      "loss": 0.3585,
-      "mean_token_accuracy": 0.9043615832924843,
+      "loss": 0.3109,
+      "mean_token_accuracy": 0.9157072603702545,
       "step": 327
     },
     {
       "epoch": 1.9208211143695015,
-      "grad_norm": 1.694343333897619,
+      "grad_norm": 1.3037538478148276,
       "learning_rate": 3.7551174139805284e-05,
-      "loss": 0.3979,
-      "mean_token_accuracy": 0.8909201622009277,
+      "loss": 0.3212,
+      "mean_token_accuracy": 0.9096843525767326,
       "step": 328
     },
     {
       "epoch": 1.9266862170087977,
-      "grad_norm": 1.8540786148822945,
+      "grad_norm": 1.625979083841291,
       "learning_rate": 3.75338771331672e-05,
-      "loss": 0.369,
-      "mean_token_accuracy": 0.8931919634342194,
+      "loss": 0.3253,
+      "mean_token_accuracy": 0.9081972911953926,
       "step": 329
     },
     {
       "epoch": 1.932551319648094,
-      "grad_norm": 1.8043389433770838,
+      "grad_norm": 1.5169434445509558,
       "learning_rate": 3.7516523744828856e-05,
-      "loss": 0.4165,
-      "mean_token_accuracy": 0.8895757496356964,
+      "loss": 0.3588,
+      "mean_token_accuracy": 0.9001770913600922,
       "step": 330
     },
     {
       "epoch": 1.93841642228739,
-      "grad_norm": 1.7007383330359485,
+      "grad_norm": 1.530352955863984,
       "learning_rate": 3.7499114037776036e-05,
-      "loss": 0.3277,
-      "mean_token_accuracy": 0.8950676620006561,
+      "loss": 0.2789,
+      "mean_token_accuracy": 0.9110410585999489,
       "step": 331
     },
     {
       "epoch": 1.9442815249266863,
-      "grad_norm": 1.8371484503426208,
+      "grad_norm": 1.6088019528257314,
       "learning_rate": 3.748164807519894e-05,
-      "loss": 0.4762,
-      "mean_token_accuracy": 0.8785777390003204,
+      "loss": 0.4174,
+      "mean_token_accuracy": 0.8930394127964973,
       "step": 332
     },
     {
       "epoch": 1.9501466275659824,
-      "grad_norm": 1.9576933523351108,
+      "grad_norm": 1.8565709071738816,
       "learning_rate": 3.746412592049197e-05,
-      "loss": 0.3305,
-      "mean_token_accuracy": 0.9062154516577721,
+      "loss": 0.3197,
+      "mean_token_accuracy": 0.9104765355587006,
       "step": 333
     },
     {
       "epoch": 1.9560117302052786,
-      "grad_norm": 1.4572901805688738,
+      "grad_norm": 1.33049768118604,
       "learning_rate": 3.7446547637253464e-05,
-      "loss": 0.2221,
-      "mean_token_accuracy": 0.9385078474879265,
+      "loss": 0.1996,
+      "mean_token_accuracy": 0.9462396278977394,
       "step": 334
     },
     {
       "epoch": 1.9618768328445748,
-      "grad_norm": 1.7468272756441137,
+      "grad_norm": 1.4386241294013715,
       "learning_rate": 3.742891328928549e-05,
-      "loss": 0.3222,
-      "mean_token_accuracy": 0.9129680246114731,
+      "loss": 0.284,
+      "mean_token_accuracy": 0.9256806001067162,
       "step": 335
     },
     {
       "epoch": 1.967741935483871,
-      "grad_norm": 1.273850432393817,
+      "grad_norm": 1.1259642533453769,
       "learning_rate": 3.74112229405936e-05,
-      "loss": 0.2864,
-      "mean_token_accuracy": 0.9150940924882889,
+      "loss": 0.2623,
+      "mean_token_accuracy": 0.9194123968482018,
       "step": 336
     },
     {
       "epoch": 1.9736070381231672,
-      "grad_norm": 1.6128401848475018,
+      "grad_norm": 1.2580114294563631,
       "learning_rate": 3.739347665538664e-05,
-      "loss": 0.3245,
-      "mean_token_accuracy": 0.9111495912075043,
+      "loss": 0.2717,
+      "mean_token_accuracy": 0.9298633262515068,
       "step": 337
     },
     {
       "epoch": 1.9794721407624634,
-      "grad_norm": 1.8812573264821617,
+      "grad_norm": 1.5397240772403886,
       "learning_rate": 3.7375674498076445e-05,
-      "loss": 0.4184,
-      "mean_token_accuracy": 0.8886971697211266,
+      "loss": 0.3439,
+      "mean_token_accuracy": 0.9038892313838005,
       "step": 338
     },
     {
       "epoch": 1.9853372434017595,
-      "grad_norm": 2.12365255006061,
+      "grad_norm": 1.6069200337143423,
       "learning_rate": 3.7357816533277646e-05,
-      "loss": 0.3149,
-      "mean_token_accuracy": 0.9159363061189651,
+      "loss": 0.2785,
+      "mean_token_accuracy": 0.9279282689094543,
       "step": 339
     },
     {
       "epoch": 1.9912023460410557,
-      "grad_norm": 1.6503920768703404,
+      "grad_norm": 1.3029156392114332,
       "learning_rate": 3.733990282580745e-05,
-      "loss": 0.3169,
-      "mean_token_accuracy": 0.9083178415894508,
+      "loss": 0.2791,
+      "mean_token_accuracy": 0.9194482937455177,
       "step": 340
     },
     {
       "epoch": 1.997067448680352,
-      "grad_norm": 1.7743070899939994,
+      "grad_norm": 1.559895084315268,
       "learning_rate": 3.732193344068539e-05,
-      "loss": 0.3129,
-      "mean_token_accuracy": 0.9127020239830017,
+      "loss": 0.2702,
+      "mean_token_accuracy": 0.9247054308652878,
       "step": 341
     },
     {
       "epoch": 2.0,
-      "grad_norm": 2.5233914351994167,
+      "grad_norm": 1.9400108632625268,
       "learning_rate": 3.7303908443133054e-05,
-      "loss": 0.2022,
-      "mean_token_accuracy": 0.9405500143766403,
+      "loss": 0.1662,
+      "mean_token_accuracy": 0.9493132084608078,
       "step": 342
     },
     {
       "epoch": 2.005865102639296,
-      "grad_norm": 1.6693513338029358,
+      "grad_norm": 1.2407168217525242,
       "learning_rate": 3.728582789857393e-05,
-      "loss": 0.2042,
-      "mean_token_accuracy": 0.9472683444619179,
+      "loss": 0.1643,
+      "mean_token_accuracy": 0.9579492285847664,
       "step": 343
     },
     {
       "epoch": 2.0117302052785924,
-      "grad_norm": 1.6340282087097624,
+      "grad_norm": 1.3093362788237175,
       "learning_rate": 3.726769187263308e-05,
-      "loss": 0.2367,
-      "mean_token_accuracy": 0.9289553239941597,
+      "loss": 0.1865,
+      "mean_token_accuracy": 0.9434748664498329,
       "step": 344
     },
     {
       "epoch": 2.0175953079178885,
-      "grad_norm": 1.2768152185347872,
+      "grad_norm": 1.1648794190467764,
       "learning_rate": 3.724950043113695e-05,
-      "loss": 0.1532,
-      "mean_token_accuracy": 0.9543287456035614,
+      "loss": 0.1359,
+      "mean_token_accuracy": 0.9601836279034615,
       "step": 345
     },
     {
       "epoch": 2.0234604105571847,
-      "grad_norm": 1.4037689102542255,
+      "grad_norm": 1.1333150827756964,
       "learning_rate": 3.723125364011313e-05,
-      "loss": 0.1561,
-      "mean_token_accuracy": 0.9580844938755035,
+      "loss": 0.1379,
+      "mean_token_accuracy": 0.95941511541605,
       "step": 346
     },
     {
       "epoch": 2.029325513196481,
-      "grad_norm": 1.4427756644988328,
+      "grad_norm": 1.1964853813194998,
       "learning_rate": 3.7212951565790094e-05,
-      "loss": 0.1636,
-      "mean_token_accuracy": 0.9480728134512901,
+      "loss": 0.1448,
+      "mean_token_accuracy": 0.9546831250190735,
       "step": 347
     },
     {
       "epoch": 2.035190615835777,
-      "grad_norm": 1.7720364579189496,
+      "grad_norm": 1.2734515348322968,
       "learning_rate": 3.7194594274597e-05,
-      "loss": 0.1859,
-      "mean_token_accuracy": 0.940785750746727,
+      "loss": 0.1495,
+      "mean_token_accuracy": 0.9548632949590683,
       "step": 348
     },
     {
       "epoch": 2.0410557184750733,
-      "grad_norm": 1.6271299438235751,
+      "grad_norm": 1.2877766399858757,
       "learning_rate": 3.7176181833163385e-05,
-      "loss": 0.1929,
-      "mean_token_accuracy": 0.9450634941458702,
+      "loss": 0.1739,
+      "mean_token_accuracy": 0.9461784809827805,
       "step": 349
     },
     {
       "epoch": 2.0469208211143695,
-      "grad_norm": 1.7097076323820675,
+      "grad_norm": 1.413810988292415,
       "learning_rate": 3.7157714308318966e-05,
-      "loss": 0.1878,
-      "mean_token_accuracy": 0.948820598423481,
+      "loss": 0.1596,
+      "mean_token_accuracy": 0.9559041485190392,
       "step": 350
     },
     {
       "epoch": 2.0527859237536656,
-      "grad_norm": 2.0125156134083753,
+      "grad_norm": 1.5026104069307236,
       "learning_rate": 3.713919176709343e-05,
-      "loss": 0.217,
-      "mean_token_accuracy": 0.9398675486445427,
+      "loss": 0.1985,
+      "mean_token_accuracy": 0.9448290690779686,
       "step": 351
     },
     {
       "epoch": 2.058651026392962,
-      "grad_norm": 1.513801237369741,
+      "grad_norm": 1.2187901250703708,
       "learning_rate": 3.712061427671609e-05,
-      "loss": 0.1608,
-      "mean_token_accuracy": 0.9536798968911171,
+      "loss": 0.1305,
+      "mean_token_accuracy": 0.9609132781624794,
       "step": 352
     },
     {
       "epoch": 2.064516129032258,
-      "grad_norm": 1.7205171569969244,
+      "grad_norm": 1.2188630469947228,
       "learning_rate": 3.710198190461575e-05,
-      "loss": 0.1991,
-      "mean_token_accuracy": 0.9481086954474449,
+      "loss": 0.1763,
+      "mean_token_accuracy": 0.955159068107605,
       "step": 353
     },
     {
       "epoch": 2.070381231671554,
-      "grad_norm": 1.6612412428232648,
+      "grad_norm": 1.2160320840757712,
       "learning_rate": 3.7083294718420394e-05,
-      "loss": 0.1958,
-      "mean_token_accuracy": 0.94148388504982,
+      "loss": 0.1674,
+      "mean_token_accuracy": 0.9511153474450111,
       "step": 354
     },
     {
       "epoch": 2.0762463343108504,
-      "grad_norm": 1.6267501719327955,
+      "grad_norm": 1.4125365150094613,
       "learning_rate": 3.706455278595696e-05,
-      "loss": 0.1845,
-      "mean_token_accuracy": 0.9427782371640205,
+      "loss": 0.1646,
+      "mean_token_accuracy": 0.9504409730434418,
       "step": 355
     },
     {
       "epoch": 2.0821114369501466,
-      "grad_norm": 1.5866786415809722,
+      "grad_norm": 1.2271156324554804,
       "learning_rate": 3.7045756175251086e-05,
-      "loss": 0.1861,
-      "mean_token_accuracy": 0.942706435918808,
+      "loss": 0.1575,
+      "mean_token_accuracy": 0.9546771794557571,
       "step": 356
     },
     {
       "epoch": 2.0879765395894427,
-      "grad_norm": 1.5012592202625572,
+      "grad_norm": 1.2028870317780662,
       "learning_rate": 3.7026904954526884e-05,
-      "loss": 0.161,
-      "mean_token_accuracy": 0.9514438956975937,
+      "loss": 0.1424,
+      "mean_token_accuracy": 0.9531672671437263,
       "step": 357
     },
     {
       "epoch": 2.093841642228739,
-      "grad_norm": 1.341766760682961,
+      "grad_norm": 1.3273793231793187,
       "learning_rate": 3.7007999192206676e-05,
-      "loss": 0.1527,
-      "mean_token_accuracy": 0.9533711373806,
+      "loss": 0.1488,
+      "mean_token_accuracy": 0.9596338272094727,
       "step": 358
     },
     {
       "epoch": 2.099706744868035,
-      "grad_norm": 1.320127310766138,
+      "grad_norm": 1.1844630480638296,
       "learning_rate": 3.698903895691073e-05,
-      "loss": 0.1811,
-      "mean_token_accuracy": 0.9414249658584595,
+      "loss": 0.17,
+      "mean_token_accuracy": 0.9442361816763878,
       "step": 359
     },
     {
       "epoch": 2.1055718475073313,
-      "grad_norm": 1.6248661841477403,
+      "grad_norm": 1.2591299685961057,
       "learning_rate": 3.697002431745706e-05,
-      "loss": 0.1874,
-      "mean_token_accuracy": 0.9447718486189842,
+      "loss": 0.1597,
+      "mean_token_accuracy": 0.9520756751298904,
       "step": 360
     },
     {
       "epoch": 2.1114369501466275,
-      "grad_norm": 1.6590729632222045,
+      "grad_norm": 1.1925719447582808,
       "learning_rate": 3.695095534286111e-05,
-      "loss": 0.201,
-      "mean_token_accuracy": 0.945906400680542,
+      "loss": 0.1782,
+      "mean_token_accuracy": 0.9533992558717728,
       "step": 361
     },
     {
       "epoch": 2.1173020527859236,
-      "grad_norm": 1.5275030906913138,
+      "grad_norm": 1.2744217950123338,
       "learning_rate": 3.693183210233557e-05,
-      "loss": 0.1859,
-      "mean_token_accuracy": 0.9475782960653305,
+      "loss": 0.1712,
+      "mean_token_accuracy": 0.9536459594964981,
       "step": 362
     },
     {
       "epoch": 2.12316715542522,
-      "grad_norm": 1.982158053574525,
+      "grad_norm": 1.306131992732695,
       "learning_rate": 3.691265466529007e-05,
-      "loss": 0.1766,
-      "mean_token_accuracy": 0.9372566938400269,
+      "loss": 0.1806,
+      "mean_token_accuracy": 0.9424840211868286,
       "step": 363
     },
     {
       "epoch": 2.129032258064516,
-      "grad_norm": 1.9819879546520034,
+      "grad_norm": 1.1582207478757602,
       "learning_rate": 3.689342310133097e-05,
-      "loss": 0.1494,
-      "mean_token_accuracy": 0.9539884477853775,
+      "loss": 0.1433,
+      "mean_token_accuracy": 0.9588482677936554,
       "step": 364
     },
     {
       "epoch": 2.134897360703812,
-      "grad_norm": 1.5751039070401411,
+      "grad_norm": 1.0936038450708818,
       "learning_rate": 3.687413748026108e-05,
-      "loss": 0.1735,
-      "mean_token_accuracy": 0.9495319053530693,
+      "loss": 0.1545,
+      "mean_token_accuracy": 0.9539923518896103,
       "step": 365
     },
     {
       "epoch": 2.1407624633431084,
-      "grad_norm": 1.4585998236912616,
+      "grad_norm": 1.1150867305503824,
       "learning_rate": 3.68547978720794e-05,
-      "loss": 0.1734,
-      "mean_token_accuracy": 0.9489102214574814,
+      "loss": 0.1487,
+      "mean_token_accuracy": 0.9566026851534843,
       "step": 366
     },
     {
       "epoch": 2.1466275659824046,
-      "grad_norm": 1.5221638866423055,
+      "grad_norm": 1.2512990373026573,
       "learning_rate": 3.683540434698093e-05,
-      "loss": 0.1723,
-      "mean_token_accuracy": 0.9449229016900063,
+      "loss": 0.1438,
+      "mean_token_accuracy": 0.9571522250771523,
       "step": 367
     },
     {
       "epoch": 2.1524926686217007,
-      "grad_norm": 1.481044246133322,
+      "grad_norm": 1.1303528659447613,
       "learning_rate": 3.681595697535629e-05,
-      "loss": 0.1545,
-      "mean_token_accuracy": 0.9535570293664932,
+      "loss": 0.1417,
+      "mean_token_accuracy": 0.9597708955407143,
       "step": 368
     },
     {
       "epoch": 2.158357771260997,
-      "grad_norm": 1.5478884613470323,
+      "grad_norm": 1.1288199363197544,
       "learning_rate": 3.6796455827791614e-05,
-      "loss": 0.16,
-      "mean_token_accuracy": 0.9515524953603745,
+      "loss": 0.1367,
+      "mean_token_accuracy": 0.9587919190526009,
       "step": 369
     },
     {
       "epoch": 2.164222873900293,
-      "grad_norm": 1.5557336850213985,
+      "grad_norm": 1.3375789572979553,
       "learning_rate": 3.677690097506819e-05,
-      "loss": 0.1896,
-      "mean_token_accuracy": 0.9467919543385506,
+      "loss": 0.1657,
+      "mean_token_accuracy": 0.952460877597332,
       "step": 370
     },
     {
       "epoch": 2.1700879765395893,
-      "grad_norm": 1.361152442880772,
+      "grad_norm": 1.409154566117624,
       "learning_rate": 3.6757292488162224e-05,
-      "loss": 0.1785,
-      "mean_token_accuracy": 0.9459036141633987,
+      "loss": 0.1692,
+      "mean_token_accuracy": 0.9513570293784142,
       "step": 371
     },
     {
       "epoch": 2.1759530791788855,
-      "grad_norm": 1.6123633223927731,
+      "grad_norm": 1.2987241443422721,
       "learning_rate": 3.673763043824461e-05,
-      "loss": 0.2162,
-      "mean_token_accuracy": 0.9359398260712624,
+      "loss": 0.1854,
+      "mean_token_accuracy": 0.9414068311452866,
       "step": 372
     },
     {
       "epoch": 2.1818181818181817,
-      "grad_norm": 1.812017533620379,
+      "grad_norm": 1.3236180598652694,
       "learning_rate": 3.671791489668065e-05,
-      "loss": 0.2023,
-      "mean_token_accuracy": 0.9429754018783569,
+      "loss": 0.1627,
+      "mean_token_accuracy": 0.9539598226547241,
       "step": 373
     },
     {
       "epoch": 2.187683284457478,
-      "grad_norm": 1.6502036792084445,
+      "grad_norm": 1.2943073517775734,
       "learning_rate": 3.6698145935029794e-05,
-      "loss": 0.1845,
-      "mean_token_accuracy": 0.9518390074372292,
+      "loss": 0.1418,
+      "mean_token_accuracy": 0.9585407078266144,
       "step": 374
     },
     {
       "epoch": 2.193548387096774,
-      "grad_norm": 1.545266807845691,
+      "grad_norm": 1.1789057411236086,
       "learning_rate": 3.66783236250454e-05,
-      "loss": 0.1823,
-      "mean_token_accuracy": 0.9467039182782173,
+      "loss": 0.1518,
+      "mean_token_accuracy": 0.953452080488205,
       "step": 375
     },
     {
       "epoch": 2.19941348973607,
-      "grad_norm": 1.6477618113035692,
+      "grad_norm": 1.389218125126014,
       "learning_rate": 3.665844803867443e-05,
-      "loss": 0.2145,
-      "mean_token_accuracy": 0.9425032809376717,
+      "loss": 0.1719,
+      "mean_token_accuracy": 0.9476408511400223,
       "step": 376
     },
     {
       "epoch": 2.2052785923753664,
-      "grad_norm": 1.5604687026013282,
+      "grad_norm": 1.3030670440092282,
       "learning_rate": 3.663851924805725e-05,
-      "loss": 0.1997,
-      "mean_token_accuracy": 0.9416602700948715,
+      "loss": 0.1798,
+      "mean_token_accuracy": 0.9471158385276794,
       "step": 377
     },
     {
       "epoch": 2.2111436950146626,
-      "grad_norm": 1.550988527543912,
+      "grad_norm": 1.2566016948623684,
       "learning_rate": 3.66185373255273e-05,
-      "loss": 0.1757,
-      "mean_token_accuracy": 0.9436255395412445,
+      "loss": 0.166,
+      "mean_token_accuracy": 0.9486287534236908,
       "step": 378
     },
     {
       "epoch": 2.2170087976539588,
-      "grad_norm": 1.2327976923264585,
+      "grad_norm": 1.0379347645872854,
       "learning_rate": 3.6598502343610906e-05,
-      "loss": 0.1482,
-      "mean_token_accuracy": 0.9562384858727455,
+      "loss": 0.1297,
+      "mean_token_accuracy": 0.9611979499459267,
       "step": 379
     },
     {
       "epoch": 2.222873900293255,
-      "grad_norm": 1.6237415577928969,
+      "grad_norm": 1.3188761964469562,
       "learning_rate": 3.657841437502697e-05,
-      "loss": 0.2253,
-      "mean_token_accuracy": 0.9289913475513458,
+      "loss": 0.2066,
+      "mean_token_accuracy": 0.9354860931634903,
       "step": 380
     },
     {
       "epoch": 2.228739002932551,
-      "grad_norm": 1.8607660215120763,
+      "grad_norm": 1.43705231218096,
       "learning_rate": 3.6558273492686686e-05,
-      "loss": 0.2089,
-      "mean_token_accuracy": 0.9374095126986504,
+      "loss": 0.1769,
+      "mean_token_accuracy": 0.946281909942627,
       "step": 381
     },
     {
       "epoch": 2.2346041055718473,
-      "grad_norm": 1.360745609090226,
+      "grad_norm": 1.1828401594348896,
       "learning_rate": 3.6538079769693334e-05,
-      "loss": 0.1671,
-      "mean_token_accuracy": 0.9510230720043182,
+      "loss": 0.1548,
+      "mean_token_accuracy": 0.9557049721479416,
       "step": 382
     },
     {
       "epoch": 2.2404692082111435,
-      "grad_norm": 1.257785870906961,
+      "grad_norm": 1.1169926579410214,
       "learning_rate": 3.6517833279341954e-05,
-      "loss": 0.1522,
-      "mean_token_accuracy": 0.9563170224428177,
+      "loss": 0.1304,
+      "mean_token_accuracy": 0.9621347039937973,
       "step": 383
     },
     {
       "epoch": 2.2463343108504397,
-      "grad_norm": 1.3172632320528042,
+      "grad_norm": 1.1389674170183997,
       "learning_rate": 3.649753409511916e-05,
-      "loss": 0.1561,
-      "mean_token_accuracy": 0.9573013335466385,
+      "loss": 0.1398,
+      "mean_token_accuracy": 0.9618229940533638,
       "step": 384
     },
     {
       "epoch": 2.252199413489736,
-      "grad_norm": 1.5928604842461005,
+      "grad_norm": 1.2539839985656354,
       "learning_rate": 3.6477182290702766e-05,
-      "loss": 0.1973,
-      "mean_token_accuracy": 0.9359570667147636,
+      "loss": 0.1722,
+      "mean_token_accuracy": 0.9477048069238663,
       "step": 385
     },
     {
       "epoch": 2.258064516129032,
-      "grad_norm": 1.6603723493729567,
+      "grad_norm": 1.180531998527333,
       "learning_rate": 3.645677793996161e-05,
-      "loss": 0.1963,
-      "mean_token_accuracy": 0.9404471442103386,
+      "loss": 0.1736,
+      "mean_token_accuracy": 0.9495566114783287,
       "step": 386
     },
     {
       "epoch": 2.263929618768328,
-      "grad_norm": 1.6206060274389453,
+      "grad_norm": 1.2558424458444957,
       "learning_rate": 3.643632111695525e-05,
-      "loss": 0.1939,
-      "mean_token_accuracy": 0.9425263479351997,
+      "loss": 0.1739,
+      "mean_token_accuracy": 0.9519843608140945,
       "step": 387
     },
     {
       "epoch": 2.2697947214076244,
-      "grad_norm": 1.6657671791715885,
+      "grad_norm": 1.178692770955397,
       "learning_rate": 3.6415811895933685e-05,
-      "loss": 0.1856,
-      "mean_token_accuracy": 0.9430495277047157,
+      "loss": 0.1586,
+      "mean_token_accuracy": 0.9524863511323929,
       "step": 388
     },
     {
       "epoch": 2.2756598240469206,
-      "grad_norm": 1.2712705911697364,
+      "grad_norm": 1.0834395414342137,
       "learning_rate": 3.639525035133712e-05,
-      "loss": 0.1552,
-      "mean_token_accuracy": 0.9557842835783958,
+      "loss": 0.1353,
+      "mean_token_accuracy": 0.9634513407945633,
       "step": 389
     },
     {
       "epoch": 2.281524926686217,
-      "grad_norm": 1.5205774866081296,
+      "grad_norm": 1.2781183197507804,
       "learning_rate": 3.637463655779563e-05,
-      "loss": 0.1895,
-      "mean_token_accuracy": 0.9432679936289787,
+      "loss": 0.1813,
+      "mean_token_accuracy": 0.9502886831760406,
       "step": 390
     },
     {
       "epoch": 2.2873900293255134,
-      "grad_norm": 1.4033621614345595,
+      "grad_norm": 1.1027963255369508,
       "learning_rate": 3.6353970590128975e-05,
-      "loss": 0.1686,
-      "mean_token_accuracy": 0.9537108987569809,
+      "loss": 0.1387,
+      "mean_token_accuracy": 0.9600658416748047,
       "step": 391
     },
     {
       "epoch": 2.2932551319648096,
-      "grad_norm": 1.5519352504831416,
+      "grad_norm": 1.0503905361604666,
       "learning_rate": 3.633325252334628e-05,
-      "loss": 0.1778,
-      "mean_token_accuracy": 0.9453356117010117,
+      "loss": 0.1462,
+      "mean_token_accuracy": 0.9516377374529839,
       "step": 392
     },
     {
       "epoch": 2.2991202346041058,
-      "grad_norm": 1.5128374434884113,
+      "grad_norm": 1.3599511368264618,
       "learning_rate": 3.6312482432645746e-05,
       "loss": 0.1947,
-      "mean_token_accuracy": 0.9424128010869026,
+      "mean_token_accuracy": 0.9380109906196594,
       "step": 393
     },
     {
       "epoch": 2.304985337243402,
-      "grad_norm": 1.390174798784679,
+      "grad_norm": 1.2159860550424557,
       "learning_rate": 3.6291660393414414e-05,
-      "loss": 0.1598,
-      "mean_token_accuracy": 0.9516776651144028,
+      "loss": 0.1361,
+      "mean_token_accuracy": 0.9593810513615608,
       "step": 394
     },
     {
       "epoch": 2.310850439882698,
-      "grad_norm": 1.5333512021648155,
+      "grad_norm": 1.199526169764911,
       "learning_rate": 3.6270786481227885e-05,
-      "loss": 0.1986,
-      "mean_token_accuracy": 0.9424618110060692,
+      "loss": 0.1561,
+      "mean_token_accuracy": 0.9567776471376419,
       "step": 395
     },
     {
       "epoch": 2.3167155425219943,
-      "grad_norm": 1.3874329069918987,
+      "grad_norm": 1.2570141761370908,
       "learning_rate": 3.624986077185003e-05,
-      "loss": 0.1862,
-      "mean_token_accuracy": 0.9473976641893387,
+      "loss": 0.1582,
+      "mean_token_accuracy": 0.9552087634801865,
       "step": 396
     },
     {
       "epoch": 2.3225806451612905,
-      "grad_norm": 1.483625628532948,
+      "grad_norm": 1.1242395760244872,
       "learning_rate": 3.622888334123272e-05,
-      "loss": 0.1714,
-      "mean_token_accuracy": 0.9534925371408463,
+      "loss": 0.1484,
+      "mean_token_accuracy": 0.9601116627454758,
       "step": 397
     },
     {
       "epoch": 2.3284457478005867,
-      "grad_norm": 1.4383158878361242,
+      "grad_norm": 1.0414112129082755,
       "learning_rate": 3.620785426551555e-05,
-      "loss": 0.1634,
-      "mean_token_accuracy": 0.9539240747690201,
+      "loss": 0.1372,
+      "mean_token_accuracy": 0.9608481675386429,
       "step": 398
     },
     {
       "epoch": 2.334310850439883,
-      "grad_norm": 1.1273627628727119,
+      "grad_norm": 1.1917239913966557,
       "learning_rate": 3.618677362102558e-05,
-      "loss": 0.1316,
-      "mean_token_accuracy": 0.961469940841198,
+      "loss": 0.1343,
+      "mean_token_accuracy": 0.9602387845516205,
       "step": 399
     },
     {
       "epoch": 2.340175953079179,
-      "grad_norm": 1.5220516996155353,
+      "grad_norm": 1.4226312444436942,
       "learning_rate": 3.616564148427703e-05,
-      "loss": 0.1792,
-      "mean_token_accuracy": 0.9433942660689354,
+      "loss": 0.1568,
+      "mean_token_accuracy": 0.9512313082814217,
       "step": 400
     },
     {
       "epoch": 2.346041055718475,
-      "grad_norm": 1.4608955929711822,
+      "grad_norm": 1.2485026183547716,
       "learning_rate": 3.614445793197103e-05,
-      "loss": 0.1638,
-      "mean_token_accuracy": 0.9492457285523415,
+      "loss": 0.1535,
+      "mean_token_accuracy": 0.9574841260910034,
       "step": 401
     },
     {
       "epoch": 2.3519061583577714,
-      "grad_norm": 1.5063014900643235,
+      "grad_norm": 1.166319971957769,
       "learning_rate": 3.61232230409953e-05,
-      "loss": 0.1816,
-      "mean_token_accuracy": 0.9452838078141212,
+      "loss": 0.1503,
+      "mean_token_accuracy": 0.9557152092456818,
       "step": 402
     },
     {
       "epoch": 2.3577712609970676,
-      "grad_norm": 1.5879916738204585,
+      "grad_norm": 1.2712176223501275,
       "learning_rate": 3.6101936888423936e-05,
-      "loss": 0.199,
-      "mean_token_accuracy": 0.9505869597196579,
+      "loss": 0.1664,
+      "mean_token_accuracy": 0.9563668668270111,
       "step": 403
     },
     {
       "epoch": 2.3636363636363638,
-      "grad_norm": 1.6190060093628065,
+      "grad_norm": 1.2891487616197648,
       "learning_rate": 3.6080599551517076e-05,
-      "loss": 0.1829,
-      "mean_token_accuracy": 0.9452532529830933,
+      "loss": 0.1767,
+      "mean_token_accuracy": 0.9508347064256668,
       "step": 404
     },
     {
       "epoch": 2.36950146627566,
-      "grad_norm": 1.591052066609119,
+      "grad_norm": 1.3686551265636433,
       "learning_rate": 3.605921110772063e-05,
-      "loss": 0.1952,
-      "mean_token_accuracy": 0.9436501488089561,
+      "loss": 0.1799,
+      "mean_token_accuracy": 0.9483750611543655,
       "step": 405
     },
     {
       "epoch": 2.375366568914956,
-      "grad_norm": 1.4651530670386483,
+      "grad_norm": 1.2386733512977435,
       "learning_rate": 3.603777163466601e-05,
-      "loss": 0.1626,
-      "mean_token_accuracy": 0.949164867401123,
+      "loss": 0.1483,
+      "mean_token_accuracy": 0.9566259980201721,
       "step": 406
     },
     {
       "epoch": 2.3812316715542523,
-      "grad_norm": 1.5197490454848215,
+      "grad_norm": 1.224756896302551,
       "learning_rate": 3.6016281210169844e-05,
-      "loss": 0.1892,
-      "mean_token_accuracy": 0.9424419403076172,
+      "loss": 0.1653,
+      "mean_token_accuracy": 0.9489512741565704,
       "step": 407
     },
     {
       "epoch": 2.3870967741935485,
-      "grad_norm": 1.5088850567602756,
+      "grad_norm": 1.230326595109465,
       "learning_rate": 3.599473991223369e-05,
-      "loss": 0.1816,
-      "mean_token_accuracy": 0.9471491128206253,
+      "loss": 0.1672,
+      "mean_token_accuracy": 0.9534252062439919,
       "step": 408
     },
     {
       "epoch": 2.3929618768328447,
-      "grad_norm": 1.6258161225406804,
+      "grad_norm": 1.2204737382987605,
       "learning_rate": 3.5973147819043765e-05,
-      "loss": 0.2049,
-      "mean_token_accuracy": 0.9332642704248428,
+      "loss": 0.1725,
+      "mean_token_accuracy": 0.9434708282351494,
       "step": 409
     },
     {
       "epoch": 2.398826979472141,
-      "grad_norm": 1.4444906258969137,
+      "grad_norm": 1.3957014903180014,
       "learning_rate": 3.595150500897065e-05,
-      "loss": 0.1983,
-      "mean_token_accuracy": 0.9415558204054832,
+      "loss": 0.1932,
+      "mean_token_accuracy": 0.939488522708416,
       "step": 410
     },
     {
       "epoch": 2.404692082111437,
-      "grad_norm": 1.6160102435014505,
+      "grad_norm": 1.1384701654699962,
       "learning_rate": 3.5929811560569e-05,
-      "loss": 0.2069,
-      "mean_token_accuracy": 0.9475803673267365,
+      "loss": 0.1584,
+      "mean_token_accuracy": 0.9575295448303223,
       "step": 411
     },
     {
       "epoch": 2.410557184750733,
-      "grad_norm": 1.3447926697756785,
+      "grad_norm": 0.9579104530696713,
       "learning_rate": 3.590806755257726e-05,
-      "loss": 0.1654,
-      "mean_token_accuracy": 0.94842179864645,
+      "loss": 0.1333,
+      "mean_token_accuracy": 0.9575985744595528,
       "step": 412
     },
     {
       "epoch": 2.4164222873900294,
-      "grad_norm": 1.4798870575264065,
+      "grad_norm": 1.1734333582678909,
       "learning_rate": 3.5886273063917426e-05,
-      "loss": 0.178,
-      "mean_token_accuracy": 0.9414676427841187,
+      "loss": 0.1621,
+      "mean_token_accuracy": 0.9481822401285172,
       "step": 413
     },
     {
       "epoch": 2.4222873900293256,
-      "grad_norm": 1.519064400272912,
+      "grad_norm": 1.1544037143542194,
       "learning_rate": 3.586442817369467e-05,
-      "loss": 0.1913,
-      "mean_token_accuracy": 0.9318802356719971,
+      "loss": 0.1548,
+      "mean_token_accuracy": 0.9499908536672592,
       "step": 414
     },
     {
       "epoch": 2.4281524926686218,
-      "grad_norm": 1.3625628764482547,
+      "grad_norm": 1.128417594334492,
       "learning_rate": 3.5842532961197114e-05,
-      "loss": 0.1462,
-      "mean_token_accuracy": 0.9540624096989632,
+      "loss": 0.1466,
+      "mean_token_accuracy": 0.955817773938179,
       "step": 415
     },
     {
       "epoch": 2.434017595307918,
-      "grad_norm": 1.7373315854675837,
+      "grad_norm": 1.2635081826287935,
       "learning_rate": 3.582058750589555e-05,
-      "loss": 0.2119,
-      "mean_token_accuracy": 0.9377310499548912,
+      "loss": 0.1821,
+      "mean_token_accuracy": 0.9489640519022942,
       "step": 416
     },
     {
       "epoch": 2.439882697947214,
-      "grad_norm": 1.830130965645857,
+      "grad_norm": 1.3902977463993567,
       "learning_rate": 3.579859188744311e-05,
-      "loss": 0.2505,
-      "mean_token_accuracy": 0.9223317727446556,
+      "loss": 0.2305,
+      "mean_token_accuracy": 0.9296863749623299,
       "step": 417
     },
     {
       "epoch": 2.4457478005865103,
-      "grad_norm": 1.5168358594406,
+      "grad_norm": 1.3034135953208241,
       "learning_rate": 3.5776546185675014e-05,
-      "loss": 0.1973,
-      "mean_token_accuracy": 0.9436168894171715,
+      "loss": 0.1831,
+      "mean_token_accuracy": 0.9438828676939011,
       "step": 418
     },
     {
       "epoch": 2.4516129032258065,
-      "grad_norm": 1.7875580792704173,
+      "grad_norm": 1.2546254507595782,
       "learning_rate": 3.5754450480608244e-05,
-      "loss": 0.2109,
-      "mean_token_accuracy": 0.9373271837830544,
+      "loss": 0.1882,
+      "mean_token_accuracy": 0.9402789622545242,
       "step": 419
     },
     {
       "epoch": 2.4574780058651027,
-      "grad_norm": 1.5883528874075437,
+      "grad_norm": 1.1880320034830234,
       "learning_rate": 3.5732304852441294e-05,
-      "loss": 0.2147,
-      "mean_token_accuracy": 0.936000183224678,
+      "loss": 0.187,
+      "mean_token_accuracy": 0.9429607689380646,
       "step": 420
     },
     {
       "epoch": 2.463343108504399,
-      "grad_norm": 1.8065099011242889,
+      "grad_norm": 1.3907667610919618,
       "learning_rate": 3.571010938155386e-05,
-      "loss": 0.2619,
-      "mean_token_accuracy": 0.9260461702942848,
+      "loss": 0.2268,
+      "mean_token_accuracy": 0.9306723326444626,
       "step": 421
     },
     {
       "epoch": 2.469208211143695,
-      "grad_norm": 1.6418092211911852,
+      "grad_norm": 1.3355415014834187,
       "learning_rate": 3.5687864148506515e-05,
-      "loss": 0.1867,
-      "mean_token_accuracy": 0.9402009174227715,
+      "loss": 0.1807,
+      "mean_token_accuracy": 0.9420250505208969,
       "step": 422
     },
     {
       "epoch": 2.4750733137829912,
-      "grad_norm": 1.381906338016382,
+      "grad_norm": 1.1013453172706291,
       "learning_rate": 3.566556923404048e-05,
-      "loss": 0.1505,
-      "mean_token_accuracy": 0.955479122698307,
+      "loss": 0.1451,
+      "mean_token_accuracy": 0.9562686085700989,
       "step": 423
     },
     {
       "epoch": 2.4809384164222874,
-      "grad_norm": 1.213287645392281,
+      "grad_norm": 1.070627821312052,
       "learning_rate": 3.5643224719077294e-05,
-      "loss": 0.1565,
-      "mean_token_accuracy": 0.9560166001319885,
+      "loss": 0.1409,
+      "mean_token_accuracy": 0.9597943052649498,
       "step": 424
     },
     {
       "epoch": 2.4868035190615836,
-      "grad_norm": 1.375404431939761,
+      "grad_norm": 1.051505185810034,
       "learning_rate": 3.5620830684718515e-05,
-      "loss": 0.1706,
-      "mean_token_accuracy": 0.9489535689353943,
+      "loss": 0.1443,
+      "mean_token_accuracy": 0.956302635371685,
       "step": 425
     },
     {
       "epoch": 2.4926686217008798,
-      "grad_norm": 1.2465742978161383,
+      "grad_norm": 1.154259044158569,
       "learning_rate": 3.5598387212245456e-05,
-      "loss": 0.1606,
-      "mean_token_accuracy": 0.9529033079743385,
+      "loss": 0.1595,
+      "mean_token_accuracy": 0.9494320005178452,
       "step": 426
     },
     {
       "epoch": 2.498533724340176,
-      "grad_norm": 1.4045133580111415,
+      "grad_norm": 1.2471720681070686,
       "learning_rate": 3.5575894383118846e-05,
-      "loss": 0.1873,
-      "mean_token_accuracy": 0.9499105364084244,
+      "loss": 0.1666,
+      "mean_token_accuracy": 0.9528159871697426,
       "step": 427
     },
     {
       "epoch": 2.504398826979472,
-      "grad_norm": 1.372490625148224,
+      "grad_norm": 1.1939193991897141,
       "learning_rate": 3.5553352278978574e-05,
-      "loss": 0.1816,
-      "mean_token_accuracy": 0.9412456303834915,
+      "loss": 0.152,
+      "mean_token_accuracy": 0.9526803568005562,
       "step": 428
     },
     {
       "epoch": 2.5102639296187683,
-      "grad_norm": 1.5354559639804668,
+      "grad_norm": 1.2727638707528373,
       "learning_rate": 3.553076098164337e-05,
-      "loss": 0.1774,
-      "mean_token_accuracy": 0.9477965086698532,
+      "loss": 0.1536,
+      "mean_token_accuracy": 0.9583421349525452,
       "step": 429
     },
     {
       "epoch": 2.5161290322580645,
-      "grad_norm": 1.4778203902809248,
+      "grad_norm": 1.2422536760050964,
       "learning_rate": 3.5508120573110516e-05,
-      "loss": 0.1958,
-      "mean_token_accuracy": 0.9413925185799599,
+      "loss": 0.1731,
+      "mean_token_accuracy": 0.9483218640089035,
       "step": 430
     },
     {
       "epoch": 2.5219941348973607,
-      "grad_norm": 1.2514914338303438,
+      "grad_norm": 1.2403912167108455,
       "learning_rate": 3.548543113555557e-05,
-      "loss": 0.1433,
-      "mean_token_accuracy": 0.9577402174472809,
+      "loss": 0.1267,
+      "mean_token_accuracy": 0.9638039022684097,
       "step": 431
     },
     {
       "epoch": 2.527859237536657,
-      "grad_norm": 1.3305108203635878,
+      "grad_norm": 1.3152817380517734,
       "learning_rate": 3.5462692751332014e-05,
-      "loss": 0.1778,
-      "mean_token_accuracy": 0.9476026743650436,
+      "loss": 0.1791,
+      "mean_token_accuracy": 0.948051743209362,
       "step": 432
     },
     {
       "epoch": 2.533724340175953,
-      "grad_norm": 1.1742572503020614,
+      "grad_norm": 1.085975867278954,
       "learning_rate": 3.5439905502970996e-05,
-      "loss": 0.1366,
-      "mean_token_accuracy": 0.9584061652421951,
+      "loss": 0.1229,
+      "mean_token_accuracy": 0.9650994911789894,
       "step": 433
     },
     {
       "epoch": 2.5395894428152492,
-      "grad_norm": 1.230197597142779,
+      "grad_norm": 1.149985648209585,
       "learning_rate": 3.541706947318103e-05,
-      "loss": 0.157,
-      "mean_token_accuracy": 0.9515904188156128,
+      "loss": 0.1543,
+      "mean_token_accuracy": 0.9525493830442429,
       "step": 434
     },
     {
       "epoch": 2.5454545454545454,
-      "grad_norm": 1.5660487728940458,
+      "grad_norm": 1.470381191104711,
       "learning_rate": 3.539418474484768e-05,
-      "loss": 0.2105,
-      "mean_token_accuracy": 0.9401791095733643,
+      "loss": 0.2024,
+      "mean_token_accuracy": 0.9437252059578896,
       "step": 435
     },
     {
       "epoch": 2.5513196480938416,
-      "grad_norm": 1.553521419511032,
+      "grad_norm": 1.12497151321389,
       "learning_rate": 3.537125140103327e-05,
-      "loss": 0.1949,
-      "mean_token_accuracy": 0.9433295205235481,
+      "loss": 0.1568,
+      "mean_token_accuracy": 0.9551517963409424,
       "step": 436
     },
     {
       "epoch": 2.557184750733138,
-      "grad_norm": 1.2711027329016076,
+      "grad_norm": 1.1347803729002162,
       "learning_rate": 3.534826952497657e-05,
-      "loss": 0.1594,
-      "mean_token_accuracy": 0.9537053257226944,
+      "loss": 0.1281,
+      "mean_token_accuracy": 0.9624199569225311,
       "step": 437
     },
     {
       "epoch": 2.563049853372434,
-      "grad_norm": 1.5314862483881024,
+      "grad_norm": 1.1951246836206368,
       "learning_rate": 3.5325239200092505e-05,
-      "loss": 0.1896,
-      "mean_token_accuracy": 0.9418998286128044,
+      "loss": 0.1647,
+      "mean_token_accuracy": 0.9496383666992188,
       "step": 438
     },
     {
       "epoch": 2.56891495601173,
-      "grad_norm": 1.5637934300785588,
+      "grad_norm": 1.1809247397642806,
       "learning_rate": 3.5302160509971866e-05,
-      "loss": 0.2203,
-      "mean_token_accuracy": 0.9355995953083038,
+      "loss": 0.172,
+      "mean_token_accuracy": 0.9477546736598015,
       "step": 439
     },
     {
       "epoch": 2.5747800586510263,
-      "grad_norm": 1.4714637306784724,
+      "grad_norm": 1.1596906219556977,
       "learning_rate": 3.5279033538380974e-05,
-      "loss": 0.1911,
-      "mean_token_accuracy": 0.9404008537530899,
+      "loss": 0.1639,
+      "mean_token_accuracy": 0.9496021196246147,
       "step": 440
     },
     {
       "epoch": 2.5806451612903225,
-      "grad_norm": 1.2122932740008598,
+      "grad_norm": 0.9920483376297324,
       "learning_rate": 3.5255858369261385e-05,
-      "loss": 0.1289,
-      "mean_token_accuracy": 0.9619543105363846,
+      "loss": 0.1189,
+      "mean_token_accuracy": 0.9629802703857422,
       "step": 441
     },
     {
       "epoch": 2.5865102639296187,
-      "grad_norm": 1.505105430019669,
+      "grad_norm": 1.367720649975484,
       "learning_rate": 3.523263508672961e-05,
-      "loss": 0.203,
-      "mean_token_accuracy": 0.939716748893261,
+      "loss": 0.1885,
+      "mean_token_accuracy": 0.9483638033270836,
       "step": 442
     },
     {
       "epoch": 2.592375366568915,
-      "grad_norm": 1.4166574253102397,
+      "grad_norm": 1.1849168973571333,
       "learning_rate": 3.520936377507679e-05,
-      "loss": 0.1776,
-      "mean_token_accuracy": 0.9428360909223557,
+      "loss": 0.1537,
+      "mean_token_accuracy": 0.9526606574654579,
       "step": 443
     },
     {
       "epoch": 2.598240469208211,
-      "grad_norm": 1.6648203766423546,
+      "grad_norm": 1.3702847278864858,
       "learning_rate": 3.5186044518768376e-05,
-      "loss": 0.2281,
-      "mean_token_accuracy": 0.9257840067148209,
+      "loss": 0.2026,
+      "mean_token_accuracy": 0.9368810132145882,
       "step": 444
     },
     {
       "epoch": 2.6041055718475072,
-      "grad_norm": 1.5336110988003941,
+      "grad_norm": 1.4593973761132104,
       "learning_rate": 3.5162677402443864e-05,
-      "loss": 0.1976,
-      "mean_token_accuracy": 0.938742958009243,
+      "loss": 0.1669,
+      "mean_token_accuracy": 0.9492918252944946,
       "step": 445
     },
     {
       "epoch": 2.6099706744868034,
-      "grad_norm": 1.4379546067534612,
+      "grad_norm": 1.1882833288447554,
       "learning_rate": 3.513926251091644e-05,
-      "loss": 0.1971,
-      "mean_token_accuracy": 0.9414190128445625,
+      "loss": 0.1538,
+      "mean_token_accuracy": 0.9531656056642532,
       "step": 446
     },
     {
       "epoch": 2.6158357771260996,
-      "grad_norm": 1.339537757201692,
+      "grad_norm": 1.2494601852431129,
       "learning_rate": 3.51157999291727e-05,
-      "loss": 0.1814,
-      "mean_token_accuracy": 0.9400840774178505,
+      "loss": 0.1726,
+      "mean_token_accuracy": 0.9487390294671059,
       "step": 447
     },
     {
       "epoch": 2.621700879765396,
-      "grad_norm": 1.9285181710925006,
+      "grad_norm": 1.4261144649471686,
       "learning_rate": 3.509228974237235e-05,
-      "loss": 0.2581,
-      "mean_token_accuracy": 0.9255566149950027,
+      "loss": 0.2139,
+      "mean_token_accuracy": 0.9373802468180656,
       "step": 448
     },
     {
       "epoch": 2.627565982404692,
-      "grad_norm": 1.424766252886363,
+      "grad_norm": 1.20200077833905,
       "learning_rate": 3.506873203584787e-05,
-      "loss": 0.1849,
-      "mean_token_accuracy": 0.9422862157225609,
+      "loss": 0.16,
+      "mean_token_accuracy": 0.9530724361538887,
       "step": 449
     },
     {
       "epoch": 2.633431085043988,
-      "grad_norm": 1.203628816210816,
+      "grad_norm": 0.9474239286630374,
       "learning_rate": 3.504512689510422e-05,
-      "loss": 0.1477,
-      "mean_token_accuracy": 0.9604510739445686,
+      "loss": 0.1243,
+      "mean_token_accuracy": 0.9638230577111244,
       "step": 450
     },
     {
       "epoch": 2.6392961876832843,
-      "grad_norm": 1.3126311664229962,
+      "grad_norm": 1.1867300274109467,
       "learning_rate": 3.5021474405818525e-05,
-      "loss": 0.1648,
-      "mean_token_accuracy": 0.9464056417346001,
+      "loss": 0.1468,
+      "mean_token_accuracy": 0.9534016251564026,
       "step": 451
     },
     {
       "epoch": 2.6451612903225805,
-      "grad_norm": 1.5683417522165155,
+      "grad_norm": 1.249095861980521,
       "learning_rate": 3.499777465383977e-05,
-      "loss": 0.2085,
-      "mean_token_accuracy": 0.9423654973506927,
+      "loss": 0.1821,
+      "mean_token_accuracy": 0.9496468231081963,
       "step": 452
     },
     {
       "epoch": 2.6510263929618767,
-      "grad_norm": 1.7124391179299574,
+      "grad_norm": 1.2012362608906981,
       "learning_rate": 3.497402772518848e-05,
-      "loss": 0.2197,
-      "mean_token_accuracy": 0.9286736026406288,
+      "loss": 0.183,
+      "mean_token_accuracy": 0.9402816966176033,
       "step": 453
     },
     {
       "epoch": 2.656891495601173,
-      "grad_norm": 1.2928522615635958,
+      "grad_norm": 1.1225945446252723,
       "learning_rate": 3.4950233706056415e-05,
-      "loss": 0.1646,
-      "mean_token_accuracy": 0.9472004845738411,
+      "loss": 0.1433,
+      "mean_token_accuracy": 0.9563997834920883,
       "step": 454
     },
     {
       "epoch": 2.662756598240469,
-      "grad_norm": 1.6263040380796228,
+      "grad_norm": 1.3042750039691624,
       "learning_rate": 3.4926392682806265e-05,
-      "loss": 0.2055,
-      "mean_token_accuracy": 0.9389370456337929,
+      "loss": 0.1905,
+      "mean_token_accuracy": 0.9459337666630745,
       "step": 455
     },
     {
       "epoch": 2.6686217008797652,
-      "grad_norm": 1.5520555225769765,
+      "grad_norm": 1.232909377449062,
       "learning_rate": 3.490250474197131e-05,
-      "loss": 0.1979,
-      "mean_token_accuracy": 0.9429981112480164,
+      "loss": 0.1782,
+      "mean_token_accuracy": 0.9491490572690964,
       "step": 456
     },
     {
       "epoch": 2.6744868035190614,
-      "grad_norm": 1.520377373848019,
+      "grad_norm": 1.1867787570349237,
       "learning_rate": 3.4878569970255116e-05,
-      "loss": 0.1817,
-      "mean_token_accuracy": 0.9455464854836464,
+      "loss": 0.1541,
+      "mean_token_accuracy": 0.9519700258970261,
       "step": 457
     },
     {
       "epoch": 2.6803519061583576,
-      "grad_norm": 1.6159409423049518,
+      "grad_norm": 1.247851879583845,
       "learning_rate": 3.485458845453125e-05,
-      "loss": 0.1919,
-      "mean_token_accuracy": 0.9442776069045067,
+      "loss": 0.1759,
+      "mean_token_accuracy": 0.9479285329580307,
       "step": 458
     },
     {
       "epoch": 2.686217008797654,
-      "grad_norm": 1.536515683927506,
+      "grad_norm": 1.0354665171969741,
       "learning_rate": 3.483056028184293e-05,
-      "loss": 0.1514,
-      "mean_token_accuracy": 0.9531370028853416,
+      "loss": 0.1247,
+      "mean_token_accuracy": 0.9654245972633362,
       "step": 459
     },
     {
       "epoch": 2.6920821114369504,
-      "grad_norm": 1.5998217769260568,
+      "grad_norm": 1.1760698781621217,
       "learning_rate": 3.4806485539402716e-05,
-      "loss": 0.1886,
-      "mean_token_accuracy": 0.940488263964653,
+      "loss": 0.1507,
+      "mean_token_accuracy": 0.9528908804059029,
       "step": 460
     },
     {
       "epoch": 2.6979472140762466,
-      "grad_norm": 1.2681668634545191,
+      "grad_norm": 1.0691808653279993,
       "learning_rate": 3.4782364314592186e-05,
-      "loss": 0.1491,
-      "mean_token_accuracy": 0.956335611641407,
+      "loss": 0.1437,
+      "mean_token_accuracy": 0.9560307934880257,
       "step": 461
     },
     {
       "epoch": 2.703812316715543,
-      "grad_norm": 1.618911195594093,
+      "grad_norm": 1.17729816637266,
       "learning_rate": 3.475819669496167e-05,
-      "loss": 0.1757,
-      "mean_token_accuracy": 0.9452315121889114,
+      "loss": 0.1363,
+      "mean_token_accuracy": 0.9557816758751869,
       "step": 462
     },
     {
       "epoch": 2.709677419354839,
-      "grad_norm": 1.356819620967187,
+      "grad_norm": 1.0634781787620604,
       "learning_rate": 3.473398276822985e-05,
-      "loss": 0.1736,
-      "mean_token_accuracy": 0.9476948976516724,
+      "loss": 0.1467,
+      "mean_token_accuracy": 0.9533882141113281,
       "step": 463
     },
     {
       "epoch": 2.715542521994135,
-      "grad_norm": 1.6105950634922812,
+      "grad_norm": 1.2950839756637311,
       "learning_rate": 3.47097226222835e-05,
-      "loss": 0.2048,
-      "mean_token_accuracy": 0.9410142675042152,
+      "loss": 0.1824,
+      "mean_token_accuracy": 0.9495379999279976,
       "step": 464
     },
     {
       "epoch": 2.7214076246334313,
-      "grad_norm": 1.441168567633283,
+      "grad_norm": 1.2423471841197542,
       "learning_rate": 3.468541634517716e-05,
-      "loss": 0.1733,
-      "mean_token_accuracy": 0.9470472857356071,
+      "loss": 0.155,
+      "mean_token_accuracy": 0.9580182358622551,
       "step": 465
     },
     {
       "epoch": 2.7272727272727275,
-      "grad_norm": 1.219154125397772,
+      "grad_norm": 1.0744705318053995,
       "learning_rate": 3.4661064025132796e-05,
-      "loss": 0.1407,
-      "mean_token_accuracy": 0.9544103369116783,
+      "loss": 0.1206,
+      "mean_token_accuracy": 0.958877831697464,
       "step": 466
     },
     {
       "epoch": 2.7331378299120237,
-      "grad_norm": 1.735956549135718,
+      "grad_norm": 1.5727806483902393,
       "learning_rate": 3.463666575053949e-05,
-      "loss": 0.2209,
-      "mean_token_accuracy": 0.9372992217540741,
+      "loss": 0.2087,
+      "mean_token_accuracy": 0.9415034204721451,
       "step": 467
     },
     {
       "epoch": 2.73900293255132,
-      "grad_norm": 1.0723058902393905,
+      "grad_norm": 0.950722552564766,
       "learning_rate": 3.4612221609953126e-05,
-      "loss": 0.1465,
-      "mean_token_accuracy": 0.9592811986804008,
+      "loss": 0.1352,
+      "mean_token_accuracy": 0.961692214012146,
       "step": 468
     },
     {
       "epoch": 2.744868035190616,
-      "grad_norm": 1.266106561576398,
+      "grad_norm": 1.1223316535506394,
       "learning_rate": 3.4587731692096065e-05,
-      "loss": 0.1616,
-      "mean_token_accuracy": 0.9548813477158546,
+      "loss": 0.1565,
+      "mean_token_accuracy": 0.9538895487785339,
       "step": 469
     },
     {
       "epoch": 2.7507331378299122,
-      "grad_norm": 1.5709556980717925,
+      "grad_norm": 1.3022612967089928,
       "learning_rate": 3.4563196085856815e-05,
-      "loss": 0.2231,
-      "mean_token_accuracy": 0.9351802319288254,
+      "loss": 0.1817,
+      "mean_token_accuracy": 0.9450778216123581,
       "step": 470
     },
     {
       "epoch": 2.7565982404692084,
-      "grad_norm": 1.6033382298160437,
+      "grad_norm": 1.07230491048182,
       "learning_rate": 3.4538614880289724e-05,
-      "loss": 0.2066,
-      "mean_token_accuracy": 0.9434246122837067,
+      "loss": 0.1615,
+      "mean_token_accuracy": 0.9541483297944069,
       "step": 471
     },
     {
       "epoch": 2.7624633431085046,
-      "grad_norm": 1.2791754585446349,
+      "grad_norm": 0.9956217514306797,
       "learning_rate": 3.4513988164614635e-05,
-      "loss": 0.1566,
-      "mean_token_accuracy": 0.9580570235848427,
+      "loss": 0.1227,
+      "mean_token_accuracy": 0.9635503962635994,
       "step": 472
     },
     {
       "epoch": 2.768328445747801,
-      "grad_norm": 1.1734761099061624,
+      "grad_norm": 1.0071708374540242,
       "learning_rate": 3.4489316028216584e-05,
-      "loss": 0.1465,
-      "mean_token_accuracy": 0.9552415683865547,
+      "loss": 0.1317,
+      "mean_token_accuracy": 0.9630229771137238,
       "step": 473
     },
     {
       "epoch": 2.774193548387097,
-      "grad_norm": 1.2022871722577544,
+      "grad_norm": 0.9934398270519144,
       "learning_rate": 3.446459856064545e-05,
-      "loss": 0.1517,
-      "mean_token_accuracy": 0.9557396098971367,
+      "loss": 0.1364,
+      "mean_token_accuracy": 0.9594153240323067,
       "step": 474
     },
     {
       "epoch": 2.780058651026393,
-      "grad_norm": 1.6434058067923774,
+      "grad_norm": 1.4123399599829125,
       "learning_rate": 3.443983585161568e-05,
-      "loss": 0.2084,
-      "mean_token_accuracy": 0.9364630356431007,
+      "loss": 0.1758,
+      "mean_token_accuracy": 0.9463600069284439,
       "step": 475
     },
     {
       "epoch": 2.7859237536656893,
-      "grad_norm": 1.2827362600117416,
+      "grad_norm": 1.2042742464006473,
       "learning_rate": 3.441502799100588e-05,
-      "loss": 0.1602,
-      "mean_token_accuracy": 0.960084393620491,
+      "loss": 0.1598,
+      "mean_token_accuracy": 0.959763303399086,
       "step": 476
     },
     {
       "epoch": 2.7917888563049855,
-      "grad_norm": 1.4811407319146348,
+      "grad_norm": 1.1516859677521762,
       "learning_rate": 3.439017506885858e-05,
-      "loss": 0.1867,
-      "mean_token_accuracy": 0.948580302298069,
+      "loss": 0.1616,
+      "mean_token_accuracy": 0.9520630687475204,
       "step": 477
     },
     {
       "epoch": 2.7976539589442817,
-      "grad_norm": 1.4737225017755107,
+      "grad_norm": 1.2254942875301806,
       "learning_rate": 3.436527717537985e-05,
-      "loss": 0.1942,
-      "mean_token_accuracy": 0.9491779133677483,
+      "loss": 0.1617,
+      "mean_token_accuracy": 0.9591241255402565,
       "step": 478
     },
     {
       "epoch": 2.803519061583578,
-      "grad_norm": 1.4212779057861695,
+      "grad_norm": 1.1073823095384847,
       "learning_rate": 3.434033440093899e-05,
-      "loss": 0.1898,
-      "mean_token_accuracy": 0.9374239072203636,
+      "loss": 0.1639,
+      "mean_token_accuracy": 0.9487877935171127,
       "step": 479
     },
     {
       "epoch": 2.809384164222874,
-      "grad_norm": 1.4834687519316923,
+      "grad_norm": 1.25742736357608,
       "learning_rate": 3.431534683606818e-05,
-      "loss": 0.2084,
-      "mean_token_accuracy": 0.9470439925789833,
+      "loss": 0.1864,
+      "mean_token_accuracy": 0.948534868657589,
       "step": 480
     },
     {
       "epoch": 2.8152492668621703,
-      "grad_norm": 1.3536053573095326,
+      "grad_norm": 1.0344032720648466,
       "learning_rate": 3.4290314571462214e-05,
-      "loss": 0.1664,
-      "mean_token_accuracy": 0.9505494609475136,
+      "loss": 0.1417,
+      "mean_token_accuracy": 0.9601919278502464,
       "step": 481
     },
     {
       "epoch": 2.8211143695014664,
-      "grad_norm": 1.4654358825691278,
+      "grad_norm": 0.9930463384326542,
       "learning_rate": 3.426523769797808e-05,
-      "loss": 0.1719,
-      "mean_token_accuracy": 0.9511361643671989,
+      "loss": 0.1359,
+      "mean_token_accuracy": 0.9583753347396851,
       "step": 482
     },
     {
       "epoch": 2.8269794721407626,
-      "grad_norm": 1.534865173849534,
+      "grad_norm": 1.2042277956276288,
       "learning_rate": 3.424011630663472e-05,
-      "loss": 0.2035,
-      "mean_token_accuracy": 0.9370648711919785,
+      "loss": 0.1653,
+      "mean_token_accuracy": 0.9464479833841324,
       "step": 483
     },
     {
       "epoch": 2.832844574780059,
-      "grad_norm": 1.5975723094077148,
+      "grad_norm": 1.194262739676029,
       "learning_rate": 3.421495048861262e-05,
-      "loss": 0.1841,
-      "mean_token_accuracy": 0.9466887265443802,
+      "loss": 0.171,
+      "mean_token_accuracy": 0.9502200856804848,
       "step": 484
     },
     {
       "epoch": 2.838709677419355,
-      "grad_norm": 1.380939441601992,
+      "grad_norm": 1.1544939224845419,
       "learning_rate": 3.418974033525355e-05,
-      "loss": 0.1764,
-      "mean_token_accuracy": 0.9512438848614693,
+      "loss": 0.1409,
+      "mean_token_accuracy": 0.9586869552731514,
       "step": 485
     },
     {
       "epoch": 2.844574780058651,
-      "grad_norm": 1.44638081838838,
+      "grad_norm": 1.187689984945221,
       "learning_rate": 3.416448593806019e-05,
-      "loss": 0.2103,
-      "mean_token_accuracy": 0.9422366619110107,
+      "loss": 0.1751,
+      "mean_token_accuracy": 0.9496021121740341,
       "step": 486
     },
     {
       "epoch": 2.8504398826979473,
-      "grad_norm": 1.3027147165778983,
+      "grad_norm": 1.1330699826268225,
       "learning_rate": 3.4139187388695774e-05,
-      "loss": 0.1751,
-      "mean_token_accuracy": 0.9415677487850189,
+      "loss": 0.1551,
+      "mean_token_accuracy": 0.950385794043541,
       "step": 487
     },
     {
       "epoch": 2.8563049853372435,
-      "grad_norm": 1.442286918678071,
+      "grad_norm": 1.307262909941581,
       "learning_rate": 3.411384477898385e-05,
-      "loss": 0.1784,
-      "mean_token_accuracy": 0.9486387521028519,
+      "loss": 0.1655,
+      "mean_token_accuracy": 0.9537685662508011,
       "step": 488
     },
     {
       "epoch": 2.8621700879765397,
-      "grad_norm": 1.1864310979576265,
+      "grad_norm": 1.0577486778486105,
       "learning_rate": 3.408845820090784e-05,
-      "loss": 0.1641,
-      "mean_token_accuracy": 0.9475547969341278,
+      "loss": 0.1544,
+      "mean_token_accuracy": 0.9556203186511993,
       "step": 489
     },
     {
       "epoch": 2.868035190615836,
-      "grad_norm": 1.5938391452894787,
+      "grad_norm": 1.246360384808443,
       "learning_rate": 3.406302774661077e-05,
-      "loss": 0.2135,
-      "mean_token_accuracy": 0.9362959042191505,
+      "loss": 0.1983,
+      "mean_token_accuracy": 0.939469151198864,
       "step": 490
     },
     {
       "epoch": 2.873900293255132,
-      "grad_norm": 1.8187898306480366,
+      "grad_norm": 1.2815397210697366,
       "learning_rate": 3.403755350839492e-05,
-      "loss": 0.2208,
-      "mean_token_accuracy": 0.9381490647792816,
+      "loss": 0.1934,
+      "mean_token_accuracy": 0.945215106010437,
       "step": 491
     },
     {
       "epoch": 2.8797653958944283,
-      "grad_norm": 1.0176203937436277,
+      "grad_norm": 0.9463210261831989,
       "learning_rate": 3.401203557872149e-05,
-      "loss": 0.131,
-      "mean_token_accuracy": 0.963982343673706,
+      "loss": 0.1094,
+      "mean_token_accuracy": 0.9667675942182541,
       "step": 492
     },
     {
       "epoch": 2.8856304985337244,
-      "grad_norm": 1.2944881554086942,
+      "grad_norm": 1.1206820564307887,
       "learning_rate": 3.398647405021026e-05,
-      "loss": 0.1791,
-      "mean_token_accuracy": 0.9504873305559158,
+      "loss": 0.1511,
+      "mean_token_accuracy": 0.9558945000171661,
       "step": 493
     },
     {
       "epoch": 2.8914956011730206,
-      "grad_norm": 1.7979282502116185,
+      "grad_norm": 1.3956556588522069,
       "learning_rate": 3.396086901563925e-05,
-      "loss": 0.2224,
-      "mean_token_accuracy": 0.9352485239505768,
+      "loss": 0.2011,
+      "mean_token_accuracy": 0.9396672174334526,
       "step": 494
     },
     {
       "epoch": 2.897360703812317,
-      "grad_norm": 1.1750005366326866,
+      "grad_norm": 0.9893183505790021,
       "learning_rate": 3.3935220567944395e-05,
-      "loss": 0.1545,
-      "mean_token_accuracy": 0.950984425842762,
+      "loss": 0.1346,
+      "mean_token_accuracy": 0.9598894119262695,
       "step": 495
     },
     {
       "epoch": 2.903225806451613,
-      "grad_norm": 1.5949219047411234,
+      "grad_norm": 1.2616449700071117,
       "learning_rate": 3.39095288002192e-05,
-      "loss": 0.2162,
-      "mean_token_accuracy": 0.9337630718946457,
+      "loss": 0.195,
+      "mean_token_accuracy": 0.9443835839629173,
       "step": 496
     },
     {
       "epoch": 2.909090909090909,
-      "grad_norm": 1.3433147451555392,
+      "grad_norm": 1.0424261885719452,
       "learning_rate": 3.3883793805714406e-05,
-      "loss": 0.1659,
-      "mean_token_accuracy": 0.9481701776385307,
+      "loss": 0.1502,
+      "mean_token_accuracy": 0.9556261077523232,
       "step": 497
     },
     {
       "epoch": 2.9149560117302054,
-      "grad_norm": 1.5996494396127081,
+      "grad_norm": 1.3618750738536685,
       "learning_rate": 3.3858015677837656e-05,
-      "loss": 0.2149,
-      "mean_token_accuracy": 0.9419268667697906,
+      "loss": 0.18,
+      "mean_token_accuracy": 0.9481714516878128,
       "step": 498
     },
     {
       "epoch": 2.9208211143695015,
-      "grad_norm": 1.3050500946865204,
+      "grad_norm": 1.2006128437590662,
       "learning_rate": 3.3832194510153126e-05,
-      "loss": 0.1924,
-      "mean_token_accuracy": 0.9457806721329689,
+      "loss": 0.1718,
+      "mean_token_accuracy": 0.9532595574855804,
       "step": 499
     },
     {
       "epoch": 2.9266862170087977,
-      "grad_norm": 1.3938033327743358,
+      "grad_norm": 1.2296015739991573,
       "learning_rate": 3.380633039638125e-05,
-      "loss": 0.1871,
-      "mean_token_accuracy": 0.9511330723762512,
+      "loss": 0.164,
+      "mean_token_accuracy": 0.9541523456573486,
       "step": 500
     },
     {
       "epoch": 2.932551319648094,
-      "grad_norm": 1.7111259960860905,
+      "grad_norm": 1.2323869227106137,
       "learning_rate": 3.37804234303983e-05,
-      "loss": 0.2148,
-      "mean_token_accuracy": 0.9375216588377953,
+      "loss": 0.1802,
+      "mean_token_accuracy": 0.946508027613163,
       "step": 501
     },
     {
       "epoch": 2.93841642228739,
-      "grad_norm": 1.5676984126616746,
+      "grad_norm": 1.2142191669529525,
       "learning_rate": 3.37544737062361e-05,
-      "loss": 0.2069,
-      "mean_token_accuracy": 0.9395978674292564,
+      "loss": 0.1738,
+      "mean_token_accuracy": 0.9512768238782883,
       "step": 502
     },
     {
       "epoch": 2.9442815249266863,
-      "grad_norm": 1.3024069551411093,
+      "grad_norm": 1.192114759053001,
       "learning_rate": 3.372848131808167e-05,
-      "loss": 0.1775,
-      "mean_token_accuracy": 0.94802475720644,
+      "loss": 0.1685,
+      "mean_token_accuracy": 0.9535468518733978,
       "step": 503
     },
     {
       "epoch": 2.9501466275659824,
-      "grad_norm": 1.6781903083104455,
+      "grad_norm": 1.2900442027550065,
       "learning_rate": 3.370244636027688e-05,
-      "loss": 0.1932,
-      "mean_token_accuracy": 0.9439413473010063,
+      "loss": 0.1652,
+      "mean_token_accuracy": 0.9492153376340866,
       "step": 504
     },
     {
       "epoch": 2.9560117302052786,
-      "grad_norm": 1.2084010552335631,
+      "grad_norm": 1.4383269282382705,
       "learning_rate": 3.367636892731812e-05,
-      "loss": 0.1705,
-      "mean_token_accuracy": 0.9432723671197891,
+      "loss": 0.1692,
+      "mean_token_accuracy": 0.9460426717996597,
       "step": 505
     },
     {
       "epoch": 2.961876832844575,
-      "grad_norm": 1.4876928960475226,
+      "grad_norm": 0.965502377956891,
       "learning_rate": 3.365024911385593e-05,
-      "loss": 0.1669,
-      "mean_token_accuracy": 0.9567491114139557,
+      "loss": 0.1286,
+      "mean_token_accuracy": 0.963849164545536,
       "step": 506
     },
     {
       "epoch": 2.967741935483871,
-      "grad_norm": 1.4129569433402656,
+      "grad_norm": 1.0151333575737922,
       "learning_rate": 3.362408701469469e-05,
-      "loss": 0.1779,
-      "mean_token_accuracy": 0.9438919052481651,
+      "loss": 0.1506,
+      "mean_token_accuracy": 0.9497946873307228,
       "step": 507
     },
     {
       "epoch": 2.973607038123167,
-      "grad_norm": 1.4008768614077696,
+      "grad_norm": 1.2314813082134561,
       "learning_rate": 3.359788272479225e-05,
-      "loss": 0.1988,
-      "mean_token_accuracy": 0.9402952864766121,
+      "loss": 0.1796,
+      "mean_token_accuracy": 0.9487903341650963,
       "step": 508
     },
     {
       "epoch": 2.9794721407624634,
-      "grad_norm": 1.2490328336150844,
+      "grad_norm": 1.2284872298249723,
       "learning_rate": 3.35716363392596e-05,
-      "loss": 0.1846,
-      "mean_token_accuracy": 0.9396477043628693,
+      "loss": 0.1735,
+      "mean_token_accuracy": 0.946588970720768,
       "step": 509
     },
     {
       "epoch": 2.9853372434017595,
-      "grad_norm": 1.8703998203747494,
+      "grad_norm": 1.3942128527138467,
       "learning_rate": 3.354534795336052e-05,
-      "loss": 0.267,
-      "mean_token_accuracy": 0.9222179055213928,
+      "loss": 0.2326,
+      "mean_token_accuracy": 0.9368415027856827,
       "step": 510
     },
     {
       "epoch": 2.9912023460410557,
-      "grad_norm": 1.3688615608986425,
+      "grad_norm": 1.0199724160589165,
       "learning_rate": 3.351901766251123e-05,
-      "loss": 0.189,
-      "mean_token_accuracy": 0.9435115680098534,
+      "loss": 0.1612,
+      "mean_token_accuracy": 0.9494053423404694,
       "step": 511
     },
     {
       "epoch": 2.997067448680352,
-      "grad_norm": 1.7584850077090424,
+      "grad_norm": 1.4236896466420417,
       "learning_rate": 3.349264556228006e-05,
-      "loss": 0.2295,
-      "mean_token_accuracy": 0.9362204223871231,
+      "loss": 0.2099,
+      "mean_token_accuracy": 0.9403877630829811,
       "step": 512
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.7584850077090424,
+      "grad_norm": 1.4236896466420417,
       "learning_rate": 3.3466231748387077e-05,
-      "loss": 0.2552,
-      "mean_token_accuracy": 0.9123900383710861,
+      "loss": 0.2159,
+      "mean_token_accuracy": 0.929660826921463,
       "step": 513
     },
     {
       "epoch": 3.005865102639296,
-      "grad_norm": 2.1995675752841906,
+      "grad_norm": 1.917706001626474,
       "learning_rate": 3.343977631670376e-05,
-      "loss": 0.1173,
-      "mean_token_accuracy": 0.9707249626517296,
+      "loss": 0.0928,
+      "mean_token_accuracy": 0.9745519906282425,
       "step": 514
     },
     {
       "epoch": 3.0117302052785924,
-      "grad_norm": 1.1331312828942772,
+      "grad_norm": 0.9353206453623386,
       "learning_rate": 3.341327936325264e-05,
-      "loss": 0.146,
-      "mean_token_accuracy": 0.9599213600158691,
+      "loss": 0.1087,
+      "mean_token_accuracy": 0.9702077433466911,
       "step": 515
     },
     {
       "epoch": 3.0175953079178885,
-      "grad_norm": 1.066284672763136,
+      "grad_norm": 0.793270262682745,
       "learning_rate": 3.338674098420695e-05,
-      "loss": 0.1109,
-      "mean_token_accuracy": 0.965148963034153,
+      "loss": 0.0927,
+      "mean_token_accuracy": 0.9723505601286888,
       "step": 516
     },
     {
       "epoch": 3.0234604105571847,
-      "grad_norm": 1.0074944736951232,
+      "grad_norm": 0.9442060709437615,
       "learning_rate": 3.33601612758903e-05,
-      "loss": 0.1283,
-      "mean_token_accuracy": 0.9635849222540855,
+      "loss": 0.1154,
+      "mean_token_accuracy": 0.9676948711276054,
       "step": 517
     },
     {
       "epoch": 3.029325513196481,
-      "grad_norm": 1.2258415386092127,
+      "grad_norm": 0.9089470810917948,
       "learning_rate": 3.3333540334776286e-05,
-      "loss": 0.1329,
-      "mean_token_accuracy": 0.9582738950848579,
+      "loss": 0.1085,
+      "mean_token_accuracy": 0.9652741998434067,
       "step": 518
     },
     {
       "epoch": 3.035190615835777,
-      "grad_norm": 1.0778695406875511,
+      "grad_norm": 0.9535344298120216,
       "learning_rate": 3.330687825748818e-05,
-      "loss": 0.118,
-      "mean_token_accuracy": 0.966682031750679,
+      "loss": 0.0966,
+      "mean_token_accuracy": 0.9707278311252594,
       "step": 519
     },
     {
       "epoch": 3.0410557184750733,
-      "grad_norm": 1.0364880624857191,
+      "grad_norm": 1.0173869551440817,
       "learning_rate": 3.328017514079855e-05,
-      "loss": 0.1216,
-      "mean_token_accuracy": 0.9677037075161934,
+      "loss": 0.119,
+      "mean_token_accuracy": 0.9670073837041855,
       "step": 520
     },
     {
       "epoch": 3.0469208211143695,
-      "grad_norm": 1.1236650847876453,
+      "grad_norm": 0.7792951102956577,
       "learning_rate": 3.325343108162893e-05,
-      "loss": 0.1116,
-      "mean_token_accuracy": 0.9645716473460197,
+      "loss": 0.0937,
+      "mean_token_accuracy": 0.9708864092826843,
       "step": 521
     },
     {
       "epoch": 3.0527859237536656,
-      "grad_norm": 1.1551918085779922,
+      "grad_norm": 0.945465442856844,
       "learning_rate": 3.3226646177049446e-05,
-      "loss": 0.1425,
-      "mean_token_accuracy": 0.963393472135067,
+      "loss": 0.115,
+      "mean_token_accuracy": 0.9687144085764885,
       "step": 522
     },
     {
       "epoch": 3.058651026392962,
-      "grad_norm": 1.2648329188721996,
+      "grad_norm": 0.9843530411347534,
       "learning_rate": 3.3199820524278485e-05,
-      "loss": 0.1299,
-      "mean_token_accuracy": 0.9622451663017273,
+      "loss": 0.1165,
+      "mean_token_accuracy": 0.9642806574702263,
       "step": 523
     },
     {
       "epoch": 3.064516129032258,
-      "grad_norm": 1.325697584264539,
+      "grad_norm": 1.084726474246644,
       "learning_rate": 3.317295422068234e-05,
-      "loss": 0.1263,
-      "mean_token_accuracy": 0.9606219977140427,
+      "loss": 0.1176,
+      "mean_token_accuracy": 0.965855173766613,
       "step": 524
     },
     {
       "epoch": 3.070381231671554,
-      "grad_norm": 1.130741369640608,
+      "grad_norm": 0.9445207089649317,
       "learning_rate": 3.314604736377484e-05,
-      "loss": 0.0992,
-      "mean_token_accuracy": 0.9693296328186989,
+      "loss": 0.0873,
+      "mean_token_accuracy": 0.9730576723814011,
       "step": 525
     },
     {
       "epoch": 3.0762463343108504,
-      "grad_norm": 0.8955946893420774,
+      "grad_norm": 0.8091369892946971,
       "learning_rate": 3.3119100051217005e-05,
-      "loss": 0.0895,
-      "mean_token_accuracy": 0.9741750881075859,
+      "loss": 0.0891,
+      "mean_token_accuracy": 0.9751559272408485,
       "step": 526
     },
     {
       "epoch": 3.0821114369501466,
-      "grad_norm": 1.0121677552730586,
+      "grad_norm": 0.94656315451539,
       "learning_rate": 3.3092112380816696e-05,
-      "loss": 0.1324,
-      "mean_token_accuracy": 0.9608965739607811,
+      "loss": 0.104,
+      "mean_token_accuracy": 0.9682408720254898,
       "step": 527
     },
     {
       "epoch": 3.0879765395894427,
-      "grad_norm": 1.060519939355375,
+      "grad_norm": 0.8332801420075987,
       "learning_rate": 3.306508445052826e-05,
-      "loss": 0.1335,
-      "mean_token_accuracy": 0.9608549624681473,
+      "loss": 0.1142,
+      "mean_token_accuracy": 0.9660920351743698,
       "step": 528
     },
     {
       "epoch": 3.093841642228739,
-      "grad_norm": 1.3572690475788862,
+      "grad_norm": 1.2155753046929505,
       "learning_rate": 3.303801635845216e-05,
-      "loss": 0.1198,
-      "mean_token_accuracy": 0.9593236073851585,
+      "loss": 0.11,
+      "mean_token_accuracy": 0.9683258086442947,
       "step": 529
     },
     {
       "epoch": 3.099706744868035,
-      "grad_norm": 1.1464512354729663,
+      "grad_norm": 1.0637098841625154,
       "learning_rate": 3.301090820283465e-05,
-      "loss": 0.1367,
-      "mean_token_accuracy": 0.9591869786381721,
+      "loss": 0.1197,
+      "mean_token_accuracy": 0.9640811383724213,
       "step": 530
     },
     {
       "epoch": 3.1055718475073313,
-      "grad_norm": 1.2823035767765665,
+      "grad_norm": 1.0473569018050832,
       "learning_rate": 3.298376008206739e-05,
-      "loss": 0.113,
-      "mean_token_accuracy": 0.9657314345240593,
+      "loss": 0.111,
+      "mean_token_accuracy": 0.9675813242793083,
       "step": 531
     },
     {
       "epoch": 3.1114369501466275,
-      "grad_norm": 1.0403767904872765,
+      "grad_norm": 0.6922733863108391,
       "learning_rate": 3.295657209468707e-05,
-      "loss": 0.112,
-      "mean_token_accuracy": 0.9685370773077011,
+      "loss": 0.0863,
+      "mean_token_accuracy": 0.9753805994987488,
       "step": 532
     },
     {
       "epoch": 3.1173020527859236,
-      "grad_norm": 1.15498558857311,
+      "grad_norm": 0.922894718374272,
       "learning_rate": 3.2929344339375125e-05,
-      "loss": 0.159,
-      "mean_token_accuracy": 0.9546686410903931,
+      "loss": 0.1141,
+      "mean_token_accuracy": 0.9667019098997116,
       "step": 533
     },
     {
       "epoch": 3.12316715542522,
-      "grad_norm": 1.3853285053067845,
+      "grad_norm": 1.0319575218914387,
       "learning_rate": 3.290207691495731e-05,
-      "loss": 0.1386,
-      "mean_token_accuracy": 0.9635892808437347,
+      "loss": 0.1078,
+      "mean_token_accuracy": 0.969107136130333,
       "step": 534
     },
     {
       "epoch": 3.129032258064516,
-      "grad_norm": 1.0913823383162526,
+      "grad_norm": 0.9278719667767502,
       "learning_rate": 3.2874769920403355e-05,
-      "loss": 0.1264,
-      "mean_token_accuracy": 0.9625230208039284,
+      "loss": 0.1026,
+      "mean_token_accuracy": 0.9660426154732704,
       "step": 535
     },
     {
       "epoch": 3.134897360703812,
-      "grad_norm": 1.0080636135286674,
+      "grad_norm": 0.7507543958848601,
       "learning_rate": 3.2847423454826616e-05,
-      "loss": 0.1255,
-      "mean_token_accuracy": 0.9642705172300339,
+      "loss": 0.0985,
+      "mean_token_accuracy": 0.9724163636565208,
       "step": 536
     },
     {
       "epoch": 3.1407624633431084,
-      "grad_norm": 1.3384707349035834,
+      "grad_norm": 0.9242090726097795,
       "learning_rate": 3.2820037617483734e-05,
-      "loss": 0.1438,
-      "mean_token_accuracy": 0.958034835755825,
+      "loss": 0.1248,
+      "mean_token_accuracy": 0.9671787321567535,
       "step": 537
     },
     {
       "epoch": 3.1466275659824046,
-      "grad_norm": 1.3200934144993954,
+      "grad_norm": 1.0582856339832543,
       "learning_rate": 3.2792612507774224e-05,
-      "loss": 0.1273,
-      "mean_token_accuracy": 0.9666285142302513,
+      "loss": 0.1082,
+      "mean_token_accuracy": 0.9701619669795036,
       "step": 538
     },
     {
       "epoch": 3.1524926686217007,
-      "grad_norm": 1.2829027100001151,
+      "grad_norm": 0.7962224695055707,
       "learning_rate": 3.2765148225240176e-05,
-      "loss": 0.1325,
-      "mean_token_accuracy": 0.9617817550897598,
+      "loss": 0.1022,
+      "mean_token_accuracy": 0.9693987816572189,
       "step": 539
     },
     {
       "epoch": 3.158357771260997,
-      "grad_norm": 1.2749195398082585,
+      "grad_norm": 0.8913562259790775,
       "learning_rate": 3.273764486956583e-05,
-      "loss": 0.1396,
-      "mean_token_accuracy": 0.9613074734807014,
+      "loss": 0.1188,
+      "mean_token_accuracy": 0.9641912281513214,
       "step": 540
     },
     {
       "epoch": 3.164222873900293,
-      "grad_norm": 1.8832759061462432,
+      "grad_norm": 0.9391686716445263,
       "learning_rate": 3.2710102540577256e-05,
-      "loss": 0.1359,
-      "mean_token_accuracy": 0.9631753191351891,
+      "loss": 0.1015,
+      "mean_token_accuracy": 0.9703034535050392,
       "step": 541
     },
     {
       "epoch": 3.1700879765395893,
-      "grad_norm": 1.3360701106894814,
+      "grad_norm": 1.1425921994518553,
       "learning_rate": 3.268252133824198e-05,
-      "loss": 0.1511,
-      "mean_token_accuracy": 0.9591165855526924,
+      "loss": 0.1396,
+      "mean_token_accuracy": 0.9599046036601067,
       "step": 542
     },
     {
       "epoch": 3.1759530791788855,
-      "grad_norm": 1.0402537478170215,
+      "grad_norm": 0.9837980520671072,
       "learning_rate": 3.2654901362668656e-05,
-      "loss": 0.1131,
-      "mean_token_accuracy": 0.9691095277667046,
+      "loss": 0.105,
+      "mean_token_accuracy": 0.9691286087036133,
       "step": 543
     },
     {
       "epoch": 3.1818181818181817,
-      "grad_norm": 0.9125849553677988,
+      "grad_norm": 1.0478243618422738,
       "learning_rate": 3.262724271410661e-05,
-      "loss": 0.1236,
-      "mean_token_accuracy": 0.9633389338850975,
+      "loss": 0.1177,
+      "mean_token_accuracy": 0.964763417840004,
       "step": 544
     },
     {
       "epoch": 3.187683284457478,
-      "grad_norm": 1.3682014683553543,
+      "grad_norm": 1.051440350841896,
       "learning_rate": 3.2599545492945584e-05,
-      "loss": 0.1454,
-      "mean_token_accuracy": 0.9624962136149406,
+      "loss": 0.1281,
+      "mean_token_accuracy": 0.9659412503242493,
       "step": 545
     },
     {
       "epoch": 3.193548387096774,
-      "grad_norm": 1.3325018585193886,
+      "grad_norm": 1.2381984787570743,
       "learning_rate": 3.257180979971529e-05,
-      "loss": 0.1328,
-      "mean_token_accuracy": 0.9589158594608307,
+      "loss": 0.122,
+      "mean_token_accuracy": 0.96320890635252,
       "step": 546
     },
     {
       "epoch": 3.19941348973607,
-      "grad_norm": 1.0097361820340343,
+      "grad_norm": 0.9566730062260478,
       "learning_rate": 3.25440357350851e-05,
-      "loss": 0.144,
-      "mean_token_accuracy": 0.959138460457325,
+      "loss": 0.1227,
+      "mean_token_accuracy": 0.9624106585979462,
       "step": 547
     },
     {
       "epoch": 3.2052785923753664,
-      "grad_norm": 1.323820448706562,
+      "grad_norm": 1.0303596937757689,
       "learning_rate": 3.251622339986366e-05,
-      "loss": 0.1345,
-      "mean_token_accuracy": 0.9602171406149864,
+      "loss": 0.1208,
+      "mean_token_accuracy": 0.9645057767629623,
       "step": 548
     },
     {
       "epoch": 3.2111436950146626,
-      "grad_norm": 1.2388531251498671,
+      "grad_norm": 1.1499267317362676,
       "learning_rate": 3.24883728949985e-05,
-      "loss": 0.1327,
-      "mean_token_accuracy": 0.9595544189214706,
+      "loss": 0.1289,
+      "mean_token_accuracy": 0.9617469310760498,
       "step": 549
     },
     {
       "epoch": 3.2170087976539588,
-      "grad_norm": 1.0310891892624763,
+      "grad_norm": 0.8579142698468588,
       "learning_rate": 3.2460484321575714e-05,
-      "loss": 0.1168,
-      "mean_token_accuracy": 0.9652495458722115,
+      "loss": 0.0921,
+      "mean_token_accuracy": 0.9694699496030807,
       "step": 550
     },
     {
       "epoch": 3.222873900293255,
-      "grad_norm": 1.4715352145558056,
+      "grad_norm": 1.2241087162872863,
       "learning_rate": 3.2432557780819556e-05,
-      "loss": 0.1132,
-      "mean_token_accuracy": 0.9686658978462219,
+      "loss": 0.0932,
+      "mean_token_accuracy": 0.9721159860491753,
       "step": 551
     },
     {
       "epoch": 3.228739002932551,
-      "grad_norm": 1.1419372965685666,
+      "grad_norm": 0.8167439933486885,
       "learning_rate": 3.240459337409209e-05,
-      "loss": 0.1374,
-      "mean_token_accuracy": 0.9581699892878532,
+      "loss": 0.1116,
+      "mean_token_accuracy": 0.9674685597419739,
       "step": 552
     },
     {
       "epoch": 3.2346041055718473,
-      "grad_norm": 1.065263225106119,
+      "grad_norm": 0.7997732243833637,
       "learning_rate": 3.237659120289282e-05,
-      "loss": 0.1221,
-      "mean_token_accuracy": 0.9630059227347374,
+      "loss": 0.1017,
+      "mean_token_accuracy": 0.9701759144663811,
       "step": 553
     },
     {
       "epoch": 3.2404692082111435,
-      "grad_norm": 1.4131885769796437,
+      "grad_norm": 1.1095187159507571,
       "learning_rate": 3.2348551368858315e-05,
-      "loss": 0.1315,
-      "mean_token_accuracy": 0.9611981958150864,
+      "loss": 0.1156,
+      "mean_token_accuracy": 0.9673218578100204,
       "step": 554
     },
     {
       "epoch": 3.2463343108504397,
-      "grad_norm": 1.1809907629919947,
+      "grad_norm": 0.9606996629666116,
       "learning_rate": 3.2320473973761845e-05,
-      "loss": 0.1451,
-      "mean_token_accuracy": 0.9615741968154907,
+      "loss": 0.1153,
+      "mean_token_accuracy": 0.9676761701703072,
       "step": 555
     },
     {
       "epoch": 3.252199413489736,
-      "grad_norm": 1.2393516472369321,
+      "grad_norm": 0.9247316094180343,
       "learning_rate": 3.229235911951303e-05,
-      "loss": 0.1331,
-      "mean_token_accuracy": 0.9634448885917664,
+      "loss": 0.1153,
+      "mean_token_accuracy": 0.9680519327521324,
       "step": 556
     },
     {
       "epoch": 3.258064516129032,
-      "grad_norm": 1.172077426283371,
+      "grad_norm": 1.1072521549049836,
       "learning_rate": 3.2264206908157425e-05,
-      "loss": 0.1116,
-      "mean_token_accuracy": 0.9665073528885841,
+      "loss": 0.101,
+      "mean_token_accuracy": 0.9698139801621437,
       "step": 557
     },
     {
       "epoch": 3.263929618768328,
-      "grad_norm": 0.935534799272401,
+      "grad_norm": 0.8418708276056709,
       "learning_rate": 3.2236017441876185e-05,
-      "loss": 0.133,
-      "mean_token_accuracy": 0.9626928493380547,
+      "loss": 0.1188,
+      "mean_token_accuracy": 0.9673982262611389,
       "step": 558
     },
     {
       "epoch": 3.2697947214076244,
-      "grad_norm": 1.2339532266360087,
+      "grad_norm": 1.0299813252012295,
       "learning_rate": 3.220779082298569e-05,
-      "loss": 0.1448,
-      "mean_token_accuracy": 0.9604134261608124,
+      "loss": 0.109,
+      "mean_token_accuracy": 0.9702173173427582,
       "step": 559
     },
     {
       "epoch": 3.2756598240469206,
-      "grad_norm": 1.329389534253784,
+      "grad_norm": 1.0202554844724807,
       "learning_rate": 3.2179527153937165e-05,
-      "loss": 0.1369,
-      "mean_token_accuracy": 0.9576560631394386,
+      "loss": 0.1288,
+      "mean_token_accuracy": 0.9627135470509529,
       "step": 560
     },
     {
       "epoch": 3.281524926686217,
-      "grad_norm": 1.156112312255903,
+      "grad_norm": 0.9077193846639583,
       "learning_rate": 3.2151226537316315e-05,
-      "loss": 0.1158,
-      "mean_token_accuracy": 0.9680624380707741,
+      "loss": 0.0963,
+      "mean_token_accuracy": 0.9713364169001579,
       "step": 561
     },
     {
       "epoch": 3.2873900293255134,
-      "grad_norm": 1.00465704885852,
+      "grad_norm": 0.8778878752612806,
       "learning_rate": 3.212288907584296e-05,
-      "loss": 0.1212,
-      "mean_token_accuracy": 0.9627675563097,
+      "loss": 0.103,
+      "mean_token_accuracy": 0.9681121036410332,
       "step": 562
     },
     {
       "epoch": 3.2932551319648096,
-      "grad_norm": 1.3728468957769566,
+      "grad_norm": 0.9509437842453761,
       "learning_rate": 3.209451487237062e-05,
-      "loss": 0.1641,
-      "mean_token_accuracy": 0.9527490735054016,
+      "loss": 0.1296,
+      "mean_token_accuracy": 0.9637468382716179,
       "step": 563
     },
     {
       "epoch": 3.2991202346041058,
-      "grad_norm": 1.4900435856401562,
+      "grad_norm": 1.0297542251177307,
       "learning_rate": 3.206610402988621e-05,
-      "loss": 0.1214,
-      "mean_token_accuracy": 0.9644360318779945,
+      "loss": 0.1095,
+      "mean_token_accuracy": 0.9680195823311806,
       "step": 564
     },
     {
       "epoch": 3.304985337243402,
-      "grad_norm": 1.0411190450621626,
+      "grad_norm": 0.927223963783926,
       "learning_rate": 3.20376566515096e-05,
-      "loss": 0.1249,
-      "mean_token_accuracy": 0.9645769596099854,
+      "loss": 0.0991,
+      "mean_token_accuracy": 0.9703445583581924,
       "step": 565
     },
     {
       "epoch": 3.310850439882698,
-      "grad_norm": 1.0952909991789344,
+      "grad_norm": 0.8239448328897864,
       "learning_rate": 3.20091728404933e-05,
-      "loss": 0.1105,
-      "mean_token_accuracy": 0.9669332653284073,
+      "loss": 0.0992,
+      "mean_token_accuracy": 0.9700045213103294,
       "step": 566
     },
     {
       "epoch": 3.3167155425219943,
-      "grad_norm": 0.9567829518623286,
+      "grad_norm": 0.9180503831666103,
       "learning_rate": 3.1980652700222024e-05,
-      "loss": 0.1217,
-      "mean_token_accuracy": 0.9665136188268661,
+      "loss": 0.105,
+      "mean_token_accuracy": 0.9704331159591675,
       "step": 567
     },
     {
       "epoch": 3.3225806451612905,
-      "grad_norm": 1.054550029779028,
+      "grad_norm": 0.8526038871722106,
       "learning_rate": 3.195209633421237e-05,
-      "loss": 0.1319,
-      "mean_token_accuracy": 0.959479384124279,
+      "loss": 0.1126,
+      "mean_token_accuracy": 0.9635952338576317,
       "step": 568
     },
     {
       "epoch": 3.3284457478005867,
-      "grad_norm": 1.3054160354686266,
+      "grad_norm": 0.9429157822338116,
       "learning_rate": 3.192350384611242e-05,
-      "loss": 0.1488,
-      "mean_token_accuracy": 0.9539597705006599,
+      "loss": 0.1249,
+      "mean_token_accuracy": 0.9621228873729706,
       "step": 569
     },
     {
       "epoch": 3.334310850439883,
-      "grad_norm": 1.2721386924556894,
+      "grad_norm": 1.0853666053637696,
       "learning_rate": 3.1894875339701354e-05,
-      "loss": 0.1147,
-      "mean_token_accuracy": 0.9713543429970741,
+      "loss": 0.1161,
+      "mean_token_accuracy": 0.9705541431903839,
       "step": 570
     },
     {
       "epoch": 3.340175953079179,
-      "grad_norm": 1.1485327319472471,
+      "grad_norm": 0.9698729643334536,
       "learning_rate": 3.186621091888909e-05,
-      "loss": 0.1427,
-      "mean_token_accuracy": 0.9585296213626862,
+      "loss": 0.1228,
+      "mean_token_accuracy": 0.9655315577983856,
       "step": 571
     },
     {
       "epoch": 3.346041055718475,
-      "grad_norm": 1.1203261027735305,
+      "grad_norm": 0.9453776118037494,
       "learning_rate": 3.183751068771588e-05,
-      "loss": 0.1331,
-      "mean_token_accuracy": 0.9624553993344307,
+      "loss": 0.1184,
+      "mean_token_accuracy": 0.9671064466238022,
       "step": 572
     },
     {
       "epoch": 3.3519061583577714,
-      "grad_norm": 1.3902351538919793,
+      "grad_norm": 0.9290593976617697,
       "learning_rate": 3.180877475035199e-05,
-      "loss": 0.1117,
-      "mean_token_accuracy": 0.9641240537166595,
+      "loss": 0.1112,
+      "mean_token_accuracy": 0.9667282104492188,
       "step": 573
     },
     {
       "epoch": 3.3577712609970676,
-      "grad_norm": 0.9631311874139538,
+      "grad_norm": 0.8475132554914343,
       "learning_rate": 3.178000321109727e-05,
-      "loss": 0.155,
-      "mean_token_accuracy": 0.9597619101405144,
+      "loss": 0.1171,
+      "mean_token_accuracy": 0.9664184153079987,
       "step": 574
     },
     {
       "epoch": 3.3636363636363638,
-      "grad_norm": 1.1864850108982898,
+      "grad_norm": 0.9901954629417643,
       "learning_rate": 3.175119617438078e-05,
-      "loss": 0.1393,
-      "mean_token_accuracy": 0.9603194743394852,
+      "loss": 0.1193,
+      "mean_token_accuracy": 0.9652402922511101,
       "step": 575
     },
     {
       "epoch": 3.36950146627566,
-      "grad_norm": 1.389013217967289,
+      "grad_norm": 1.0773481785229146,
       "learning_rate": 3.172235374476043e-05,
-      "loss": 0.1252,
-      "mean_token_accuracy": 0.9618887901306152,
+      "loss": 0.1095,
+      "mean_token_accuracy": 0.9663127958774567,
       "step": 576
     },
     {
       "epoch": 3.375366568914956,
-      "grad_norm": 1.1171938023918093,
+      "grad_norm": 0.8410303889573532,
       "learning_rate": 3.169347602692259e-05,
-      "loss": 0.1534,
-      "mean_token_accuracy": 0.9561700448393822,
+      "loss": 0.1155,
+      "mean_token_accuracy": 0.9649907350540161,
       "step": 577
     },
     {
       "epoch": 3.3812316715542523,
-      "grad_norm": 1.7092816964612618,
+      "grad_norm": 0.919889189853559,
       "learning_rate": 3.166456312568171e-05,
-      "loss": 0.1325,
-      "mean_token_accuracy": 0.9581268802285194,
+      "loss": 0.1066,
+      "mean_token_accuracy": 0.9651471823453903,
       "step": 578
     },
     {
       "epoch": 3.3870967741935485,
-      "grad_norm": 1.625258065533391,
+      "grad_norm": 0.9847134009233571,
       "learning_rate": 3.1635615145979955e-05,
-      "loss": 0.1511,
-      "mean_token_accuracy": 0.9582557752728462,
+      "loss": 0.1325,
+      "mean_token_accuracy": 0.9620075672864914,
       "step": 579
     },
     {
       "epoch": 3.3929618768328447,
-      "grad_norm": 1.1331081762433888,
+      "grad_norm": 0.9140552479884303,
       "learning_rate": 3.160663219288679e-05,
-      "loss": 0.1215,
-      "mean_token_accuracy": 0.9631478041410446,
+      "loss": 0.0929,
+      "mean_token_accuracy": 0.9710179567337036,
       "step": 580
     },
     {
       "epoch": 3.398826979472141,
-      "grad_norm": 1.1978807973332801,
+      "grad_norm": 0.8655879512510697,
       "learning_rate": 3.157761437159863e-05,
-      "loss": 0.152,
-      "mean_token_accuracy": 0.9533499404788017,
+      "loss": 0.1227,
+      "mean_token_accuracy": 0.9625556096434593,
       "step": 581
     },
     {
       "epoch": 3.404692082111437,
-      "grad_norm": 1.4814381302951631,
+      "grad_norm": 1.016148263569575,
       "learning_rate": 3.1548561787438445e-05,
-      "loss": 0.1301,
-      "mean_token_accuracy": 0.9643861651420593,
+      "loss": 0.1038,
+      "mean_token_accuracy": 0.970151960849762,
       "step": 582
     },
     {
       "epoch": 3.410557184750733,
-      "grad_norm": 0.8692151588216875,
+      "grad_norm": 0.9990010783150937,
       "learning_rate": 3.15194745458554e-05,
-      "loss": 0.1218,
-      "mean_token_accuracy": 0.9649089276790619,
+      "loss": 0.1094,
+      "mean_token_accuracy": 0.9681411162018776,
       "step": 583
     },
     {
       "epoch": 3.4164222873900294,
-      "grad_norm": 1.0681213749638105,
+      "grad_norm": 0.8982758800759956,
       "learning_rate": 3.149035275242441e-05,
-      "loss": 0.1139,
-      "mean_token_accuracy": 0.9638341292738914,
+      "loss": 0.1008,
+      "mean_token_accuracy": 0.970494419336319,
       "step": 584
     },
     {
       "epoch": 3.4222873900293256,
-      "grad_norm": 1.1840279179274757,
+      "grad_norm": 0.9411992221855227,
       "learning_rate": 3.1461196512845834e-05,
-      "loss": 0.156,
-      "mean_token_accuracy": 0.9580442979931831,
+      "loss": 0.1134,
+      "mean_token_accuracy": 0.9663120433688164,
       "step": 585
     },
     {
       "epoch": 3.4281524926686218,
-      "grad_norm": 1.1755866291718038,
+      "grad_norm": 1.130870863841404,
       "learning_rate": 3.143200593294504e-05,
-      "loss": 0.1299,
-      "mean_token_accuracy": 0.9646251425147057,
+      "loss": 0.1154,
+      "mean_token_accuracy": 0.9686842858791351,
       "step": 586
     },
     {
       "epoch": 3.434017595307918,
-      "grad_norm": 1.2021040143685826,
+      "grad_norm": 1.266553022930829,
       "learning_rate": 3.1402781118672065e-05,
-      "loss": 0.1452,
-      "mean_token_accuracy": 0.960387721657753,
+      "loss": 0.1313,
+      "mean_token_accuracy": 0.9647129997611046,
       "step": 587
     },
     {
       "epoch": 3.439882697947214,
-      "grad_norm": 1.2658177391122667,
+      "grad_norm": 1.0333390497650004,
       "learning_rate": 3.137352217610115e-05,
-      "loss": 0.1318,
-      "mean_token_accuracy": 0.9596589729189873,
+      "loss": 0.1119,
+      "mean_token_accuracy": 0.967375859618187,
       "step": 588
     },
     {
       "epoch": 3.4457478005865103,
-      "grad_norm": 1.161450002460737,
+      "grad_norm": 0.8920677150256165,
       "learning_rate": 3.1344229211430465e-05,
-      "loss": 0.1424,
-      "mean_token_accuracy": 0.9619096294045448,
+      "loss": 0.1126,
+      "mean_token_accuracy": 0.96572595089674,
       "step": 589
     },
     {
       "epoch": 3.4516129032258065,
-      "grad_norm": 1.1764503462466256,
+      "grad_norm": 0.9100521404888532,
       "learning_rate": 3.131490233098164e-05,
-      "loss": 0.1086,
-      "mean_token_accuracy": 0.9722210243344307,
+      "loss": 0.099,
+      "mean_token_accuracy": 0.973532646894455,
       "step": 590
     },
     {
       "epoch": 3.4574780058651027,
-      "grad_norm": 1.0200394197140978,
+      "grad_norm": 1.0560831237985342,
       "learning_rate": 3.1285541641199383e-05,
-      "loss": 0.1298,
-      "mean_token_accuracy": 0.9627177715301514,
+      "loss": 0.119,
+      "mean_token_accuracy": 0.9654569253325462,
       "step": 591
     },
     {
       "epoch": 3.463343108504399,
-      "grad_norm": 1.0891847830733288,
+      "grad_norm": 0.9819382175267215,
       "learning_rate": 3.1256147248651166e-05,
-      "loss": 0.1121,
-      "mean_token_accuracy": 0.9680601879954338,
+      "loss": 0.1105,
+      "mean_token_accuracy": 0.9697766527533531,
       "step": 592
     },
     {
       "epoch": 3.469208211143695,
-      "grad_norm": 1.2405132487377248,
+      "grad_norm": 0.9456952920282133,
       "learning_rate": 3.122671926002675e-05,
-      "loss": 0.1446,
-      "mean_token_accuracy": 0.9562314078211784,
+      "loss": 0.1141,
+      "mean_token_accuracy": 0.962925061583519,
       "step": 593
     },
     {
       "epoch": 3.4750733137829912,
-      "grad_norm": 1.0110802653353386,
+      "grad_norm": 0.8886708651599997,
       "learning_rate": 3.119725778213785e-05,
-      "loss": 0.1387,
-      "mean_token_accuracy": 0.9566402360796928,
+      "loss": 0.119,
+      "mean_token_accuracy": 0.9643419906497002,
       "step": 594
     },
     {
       "epoch": 3.4809384164222874,
-      "grad_norm": 1.1974141187037954,
+      "grad_norm": 1.2042272320453875,
       "learning_rate": 3.116776292191774e-05,
-      "loss": 0.1597,
-      "mean_token_accuracy": 0.9548348411917686,
+      "loss": 0.1284,
+      "mean_token_accuracy": 0.9641223028302193,
       "step": 595
     },
     {
       "epoch": 3.4868035190615836,
-      "grad_norm": 1.1165196094909804,
+      "grad_norm": 0.868426298920179,
       "learning_rate": 3.1138234786420834e-05,
-      "loss": 0.1148,
-      "mean_token_accuracy": 0.9665255323052406,
+      "loss": 0.1075,
+      "mean_token_accuracy": 0.9682093411684036,
       "step": 596
     },
     {
       "epoch": 3.4926686217008798,
-      "grad_norm": 1.0169170518057122,
+      "grad_norm": 0.8636859419474582,
       "learning_rate": 3.110867348282235e-05,
-      "loss": 0.1295,
-      "mean_token_accuracy": 0.9588236883282661,
+      "loss": 0.1231,
+      "mean_token_accuracy": 0.9666341170668602,
       "step": 597
     },
     {
       "epoch": 3.498533724340176,
-      "grad_norm": 1.153587103488231,
+      "grad_norm": 1.0945410380452534,
       "learning_rate": 3.107907911841787e-05,
-      "loss": 0.1223,
-      "mean_token_accuracy": 0.9607840701937675,
+      "loss": 0.1133,
+      "mean_token_accuracy": 0.9635356739163399,
       "step": 598
     },
     {
       "epoch": 3.504398826979472,
-      "grad_norm": 1.087199024371378,
+      "grad_norm": 0.8736645011251645,
       "learning_rate": 3.104945180062301e-05,
-      "loss": 0.1179,
-      "mean_token_accuracy": 0.9659548401832581,
+      "loss": 0.1013,
+      "mean_token_accuracy": 0.9706991836428642,
       "step": 599
     },
     {
       "epoch": 3.5102639296187683,
-      "grad_norm": 1.0293281607388844,
+      "grad_norm": 0.8599394312237839,
       "learning_rate": 3.1019791636972936e-05,
-      "loss": 0.1238,
-      "mean_token_accuracy": 0.9601342305541039,
+      "loss": 0.1088,
+      "mean_token_accuracy": 0.9657791554927826,
       "step": 600
     },
     {
       "epoch": 3.5161290322580645,
-      "grad_norm": 1.031917003106208,
+      "grad_norm": 0.9734042928382984,
       "learning_rate": 3.099009873512208e-05,
-      "loss": 0.1261,
-      "mean_token_accuracy": 0.9628048911690712,
+      "loss": 0.1147,
+      "mean_token_accuracy": 0.9690323546528816,
       "step": 601
     },
     {
       "epoch": 3.5219941348973607,
-      "grad_norm": 0.9953120358900215,
+      "grad_norm": 0.8671838676434842,
       "learning_rate": 3.0960373202843685e-05,
-      "loss": 0.1124,
-      "mean_token_accuracy": 0.9684698581695557,
+      "loss": 0.0987,
+      "mean_token_accuracy": 0.9714084416627884,
       "step": 602
     },
     {
       "epoch": 3.527859237536657,
-      "grad_norm": 1.1759720953251884,
+      "grad_norm": 1.0600541718141812,
       "learning_rate": 3.093061514802943e-05,
-      "loss": 0.1526,
-      "mean_token_accuracy": 0.9586720243096352,
+      "loss": 0.1223,
+      "mean_token_accuracy": 0.9637552127242088,
       "step": 603
     },
     {
       "epoch": 3.533724340175953,
-      "grad_norm": 1.2509364663673235,
+      "grad_norm": 0.9672322618677217,
       "learning_rate": 3.090082467868901e-05,
-      "loss": 0.1153,
-      "mean_token_accuracy": 0.9655359834432602,
+      "loss": 0.1004,
+      "mean_token_accuracy": 0.9703481644392014,
       "step": 604
     },
     {
       "epoch": 3.5395894428152492,
-      "grad_norm": 1.184032879476615,
+      "grad_norm": 0.9215427402997913,
       "learning_rate": 3.087100190294983e-05,
-      "loss": 0.1387,
-      "mean_token_accuracy": 0.9585594981908798,
+      "loss": 0.1118,
+      "mean_token_accuracy": 0.9667570516467094,
       "step": 605
     },
     {
       "epoch": 3.5454545454545454,
-      "grad_norm": 1.2334299730537033,
+      "grad_norm": 1.044225936500776,
       "learning_rate": 3.0841146929056505e-05,
-      "loss": 0.1336,
-      "mean_token_accuracy": 0.9633355215191841,
+      "loss": 0.1282,
+      "mean_token_accuracy": 0.9646147862076759,
       "step": 606
     },
     {
       "epoch": 3.5513196480938416,
-      "grad_norm": 1.3935758743568316,
+      "grad_norm": 1.1406441411754127,
       "learning_rate": 3.0811259865370535e-05,
-      "loss": 0.1196,
-      "mean_token_accuracy": 0.9636550173163414,
+      "loss": 0.1021,
+      "mean_token_accuracy": 0.97073944658041,
       "step": 607
     },
     {
       "epoch": 3.557184750733138,
-      "grad_norm": 1.2490583488517504,
+      "grad_norm": 0.8384047045794155,
       "learning_rate": 3.07813408203699e-05,
-      "loss": 0.1272,
-      "mean_token_accuracy": 0.9602638855576515,
+      "loss": 0.1001,
+      "mean_token_accuracy": 0.9701420590281487,
       "step": 608
     },
     {
       "epoch": 3.563049853372434,
-      "grad_norm": 1.0415243566749401,
+      "grad_norm": 0.7890069517164189,
       "learning_rate": 3.075138990264863e-05,
-      "loss": 0.1651,
-      "mean_token_accuracy": 0.9521684423089027,
+      "loss": 0.1221,
+      "mean_token_accuracy": 0.9611668586730957,
       "step": 609
     },
     {
       "epoch": 3.56891495601173,
-      "grad_norm": 1.3002877876142311,
+      "grad_norm": 0.8128150056909983,
       "learning_rate": 3.072140722091648e-05,
-      "loss": 0.1157,
-      "mean_token_accuracy": 0.9622488170862198,
+      "loss": 0.0897,
+      "mean_token_accuracy": 0.9721631705760956,
       "step": 610
     },
     {
       "epoch": 3.5747800586510263,
-      "grad_norm": 1.1177745433027027,
+      "grad_norm": 0.982204128026469,
       "learning_rate": 3.0691392883998455e-05,
-      "loss": 0.1553,
-      "mean_token_accuracy": 0.9571073427796364,
+      "loss": 0.1357,
+      "mean_token_accuracy": 0.9621530324220657,
       "step": 611
     },
     {
       "epoch": 3.5806451612903225,
-      "grad_norm": 1.097455875690594,
+      "grad_norm": 1.0337495257797795,
       "learning_rate": 3.0661347000834496e-05,
-      "loss": 0.1207,
-      "mean_token_accuracy": 0.966348297894001,
+      "loss": 0.1034,
+      "mean_token_accuracy": 0.9698660597205162,
       "step": 612
     },
     {
       "epoch": 3.5865102639296187,
-      "grad_norm": 0.92337518870407,
+      "grad_norm": 0.8802096358922299,
       "learning_rate": 3.063126968047901e-05,
-      "loss": 0.1241,
-      "mean_token_accuracy": 0.9607681557536125,
+      "loss": 0.1073,
+      "mean_token_accuracy": 0.9643291085958481,
       "step": 613
     },
     {
       "epoch": 3.592375366568915,
-      "grad_norm": 1.1556433274194684,
+      "grad_norm": 0.9070710629182922,
       "learning_rate": 3.060116103210053e-05,
-      "loss": 0.103,
-      "mean_token_accuracy": 0.9667187258601189,
+      "loss": 0.0907,
+      "mean_token_accuracy": 0.9729605987668037,
       "step": 614
     },
     {
       "epoch": 3.598240469208211,
-      "grad_norm": 0.8803863695333437,
+      "grad_norm": 0.7858682826254871,
       "learning_rate": 3.057102116498129e-05,
-      "loss": 0.1184,
-      "mean_token_accuracy": 0.9620434492826462,
+      "loss": 0.1061,
+      "mean_token_accuracy": 0.9679286181926727,
       "step": 615
     },
     {
       "epoch": 3.6041055718475072,
-      "grad_norm": 1.1066441109805365,
+      "grad_norm": 1.116732342857861,
       "learning_rate": 3.0540850188516826e-05,
-      "loss": 0.1278,
-      "mean_token_accuracy": 0.9623741805553436,
+      "loss": 0.1317,
+      "mean_token_accuracy": 0.9623885974287987,
       "step": 616
     },
     {
       "epoch": 3.6099706744868034,
-      "grad_norm": 0.9565613650928324,
+      "grad_norm": 0.9723503508992479,
       "learning_rate": 3.051064821221561e-05,
-      "loss": 0.1007,
-      "mean_token_accuracy": 0.9718799218535423,
+      "loss": 0.095,
+      "mean_token_accuracy": 0.9739877283573151,
       "step": 617
     },
     {
       "epoch": 3.6158357771260996,
-      "grad_norm": 1.1056816724683267,
+      "grad_norm": 0.8932015441700736,
       "learning_rate": 3.0480415345698606e-05,
-      "loss": 0.1548,
-      "mean_token_accuracy": 0.9537332579493523,
+      "loss": 0.136,
+      "mean_token_accuracy": 0.958889864385128,
       "step": 618
     },
     {
       "epoch": 3.621700879765396,
-      "grad_norm": 1.1557201136270507,
+      "grad_norm": 0.978385970902145,
       "learning_rate": 3.045015169869892e-05,
-      "loss": 0.1302,
-      "mean_token_accuracy": 0.9655744209885597,
+      "loss": 0.1021,
+      "mean_token_accuracy": 0.9719918370246887,
       "step": 619
     },
     {
       "epoch": 3.627565982404692,
-      "grad_norm": 1.0673108801225792,
+      "grad_norm": 1.111054861659078,
       "learning_rate": 3.0419857381061355e-05,
-      "loss": 0.1308,
-      "mean_token_accuracy": 0.9608449414372444,
+      "loss": 0.1262,
+      "mean_token_accuracy": 0.9625189378857613,
       "step": 620
     },
     {
       "epoch": 3.633431085043988,
-      "grad_norm": 0.9556116815559285,
+      "grad_norm": 0.7988893400125326,
       "learning_rate": 3.0389532502742066e-05,
-      "loss": 0.1151,
-      "mean_token_accuracy": 0.9625567346811295,
+      "loss": 0.1131,
+      "mean_token_accuracy": 0.9654566794633865,
       "step": 621
     },
     {
       "epoch": 3.6392961876832843,
-      "grad_norm": 1.2310880687685863,
+      "grad_norm": 0.9734473777514459,
       "learning_rate": 3.0359177173808104e-05,
-      "loss": 0.1298,
-      "mean_token_accuracy": 0.9569227620959282,
+      "loss": 0.1251,
+      "mean_token_accuracy": 0.9642170071601868,
       "step": 622
     },
     {
       "epoch": 3.6451612903225805,
-      "grad_norm": 1.2080524487010553,
+      "grad_norm": 0.9400850428078926,
       "learning_rate": 3.032879150443705e-05,
-      "loss": 0.1309,
-      "mean_token_accuracy": 0.9636347144842148,
+      "loss": 0.114,
+      "mean_token_accuracy": 0.9686667993664742,
       "step": 623
     },
     {
       "epoch": 3.6510263929618767,
-      "grad_norm": 1.1297303257876061,
+      "grad_norm": 0.9535498861769731,
       "learning_rate": 3.029837560491662e-05,
-      "loss": 0.1222,
-      "mean_token_accuracy": 0.9660240784287453,
+      "loss": 0.096,
+      "mean_token_accuracy": 0.9681509435176849,
       "step": 624
     },
     {
       "epoch": 3.656891495601173,
-      "grad_norm": 1.1107968747130714,
+      "grad_norm": 0.938181261351189,
       "learning_rate": 3.0267929585644236e-05,
-      "loss": 0.1432,
-      "mean_token_accuracy": 0.9562357887625694,
+      "loss": 0.1285,
+      "mean_token_accuracy": 0.9615221172571182,
       "step": 625
     },
     {
       "epoch": 3.662756598240469,
-      "grad_norm": 1.0536153520517821,
+      "grad_norm": 0.9923272982279318,
       "learning_rate": 3.0237453557126656e-05,
-      "loss": 0.1141,
-      "mean_token_accuracy": 0.9647841155529022,
+      "loss": 0.1001,
+      "mean_token_accuracy": 0.9676861017942429,
       "step": 626
     },
     {
       "epoch": 3.6686217008797652,
-      "grad_norm": 0.9835257570608045,
+      "grad_norm": 0.8665048960994197,
       "learning_rate": 3.020694762997956e-05,
-      "loss": 0.1219,
-      "mean_token_accuracy": 0.9642433151602745,
+      "loss": 0.1054,
+      "mean_token_accuracy": 0.967039056122303,
       "step": 627
     },
     {
       "epoch": 3.6744868035190614,
-      "grad_norm": 0.9339989411565239,
+      "grad_norm": 0.8363872341156405,
       "learning_rate": 3.017641191492714e-05,
-      "loss": 0.1064,
-      "mean_token_accuracy": 0.9676420092582703,
+      "loss": 0.0958,
+      "mean_token_accuracy": 0.9716126248240471,
       "step": 628
     },
     {
       "epoch": 3.6803519061583576,
-      "grad_norm": 0.9153048871411351,
+      "grad_norm": 0.8150922734512929,
       "learning_rate": 3.0145846522801703e-05,
-      "loss": 0.1108,
-      "mean_token_accuracy": 0.9640639424324036,
+      "loss": 0.0956,
+      "mean_token_accuracy": 0.971979595720768,
       "step": 629
     },
     {
       "epoch": 3.686217008797654,
-      "grad_norm": 1.1702691358319068,
+      "grad_norm": 0.9190785469098514,
       "learning_rate": 3.0115251564543287e-05,
-      "loss": 0.1546,
-      "mean_token_accuracy": 0.9555616602301598,
+      "loss": 0.1333,
+      "mean_token_accuracy": 0.9590764716267586,
       "step": 630
     },
     {
       "epoch": 3.6920821114369504,
-      "grad_norm": 1.4176417497299738,
+      "grad_norm": 1.0778968802891915,
       "learning_rate": 3.008462715119922e-05,
-      "loss": 0.1784,
-      "mean_token_accuracy": 0.9492093324661255,
+      "loss": 0.1461,
+      "mean_token_accuracy": 0.9540571868419647,
       "step": 631
     },
     {
       "epoch": 3.6979472140762466,
-      "grad_norm": 1.6185985821173499,
+      "grad_norm": 1.135241704691624,
       "learning_rate": 3.0053973393923768e-05,
-      "loss": 0.1197,
-      "mean_token_accuracy": 0.9643609151244164,
+      "loss": 0.0949,
+      "mean_token_accuracy": 0.9684988856315613,
       "step": 632
     },
     {
       "epoch": 3.703812316715543,
-      "grad_norm": 1.1281455495325605,
+      "grad_norm": 0.8026943444777539,
       "learning_rate": 3.0023290403977694e-05,
-      "loss": 0.1435,
-      "mean_token_accuracy": 0.9565146565437317,
+      "loss": 0.1205,
+      "mean_token_accuracy": 0.9627582207322121,
       "step": 633
     },
     {
       "epoch": 3.709677419354839,
-      "grad_norm": 1.3100047889969146,
+      "grad_norm": 1.060469864983061,
       "learning_rate": 2.9992578292727842e-05,
-      "loss": 0.1398,
-      "mean_token_accuracy": 0.9574306532740593,
+      "loss": 0.1132,
+      "mean_token_accuracy": 0.965522937476635,
       "step": 634
     },
     {
       "epoch": 3.715542521994135,
-      "grad_norm": 0.9544359363476402,
+      "grad_norm": 0.8622809489621395,
       "learning_rate": 2.9961837171646778e-05,
-      "loss": 0.1197,
-      "mean_token_accuracy": 0.9641690477728844,
+      "loss": 0.1159,
+      "mean_token_accuracy": 0.967415414750576,
       "step": 635
     },
     {
       "epoch": 3.7214076246334313,
-      "grad_norm": 1.3561935467580721,
+      "grad_norm": 0.8840405653301492,
       "learning_rate": 2.993106715231237e-05,
-      "loss": 0.1426,
-      "mean_token_accuracy": 0.9598167091608047,
+      "loss": 0.1132,
+      "mean_token_accuracy": 0.9685205817222595,
       "step": 636
     },
     {
       "epoch": 3.7272727272727275,
-      "grad_norm": 1.3660455931780044,
+      "grad_norm": 1.1001761901330231,
       "learning_rate": 2.9900268346407336e-05,
-      "loss": 0.1389,
-      "mean_token_accuracy": 0.9577052295207977,
+      "loss": 0.1206,
+      "mean_token_accuracy": 0.9662887156009674,
       "step": 637
     },
     {
       "epoch": 3.7331378299120237,
-      "grad_norm": 1.2249643635751344,
+      "grad_norm": 0.9880058176105925,
       "learning_rate": 2.986944086571893e-05,
-      "loss": 0.1589,
-      "mean_token_accuracy": 0.9522917121648788,
+      "loss": 0.131,
+      "mean_token_accuracy": 0.9618512764573097,
       "step": 638
     },
     {
       "epoch": 3.73900293255132,
-      "grad_norm": 1.1782525356070939,
+      "grad_norm": 0.9708212836272636,
       "learning_rate": 2.983858482213843e-05,
-      "loss": 0.1173,
-      "mean_token_accuracy": 0.9656160920858383,
+      "loss": 0.0967,
+      "mean_token_accuracy": 0.9714419692754745,
       "step": 639
     },
     {
       "epoch": 3.744868035190616,
-      "grad_norm": 0.9773028695412396,
+      "grad_norm": 0.7569383879074512,
       "learning_rate": 2.9807700327660834e-05,
-      "loss": 0.1376,
-      "mean_token_accuracy": 0.9574134349822998,
+      "loss": 0.1072,
+      "mean_token_accuracy": 0.9683928042650223,
       "step": 640
     },
     {
       "epoch": 3.7507331378299122,
-      "grad_norm": 1.3161873189358173,
+      "grad_norm": 0.9030504868168383,
       "learning_rate": 2.977678749438437e-05,
-      "loss": 0.134,
-      "mean_token_accuracy": 0.9588236212730408,
+      "loss": 0.1194,
+      "mean_token_accuracy": 0.9649059996008873,
       "step": 641
     },
     {
       "epoch": 3.7565982404692084,
-      "grad_norm": 0.9442201655104536,
+      "grad_norm": 1.0884667040903802,
       "learning_rate": 2.9745846434510146e-05,
-      "loss": 0.1181,
-      "mean_token_accuracy": 0.965650200843811,
+      "loss": 0.1105,
+      "mean_token_accuracy": 0.9691413938999176,
       "step": 642
     },
     {
       "epoch": 3.7624633431085046,
-      "grad_norm": 1.1777506571798453,
+      "grad_norm": 0.9753513539536118,
       "learning_rate": 2.9714877260341705e-05,
-      "loss": 0.1451,
-      "mean_token_accuracy": 0.9522349908947945,
+      "loss": 0.1186,
+      "mean_token_accuracy": 0.9606969803571701,
       "step": 643
     },
     {
       "epoch": 3.768328445747801,
-      "grad_norm": 0.8478782526737215,
+      "grad_norm": 0.7492296526886614,
       "learning_rate": 2.9683880084284648e-05,
-      "loss": 0.0946,
-      "mean_token_accuracy": 0.9708394706249237,
+      "loss": 0.077,
+      "mean_token_accuracy": 0.9752858132123947,
       "step": 644
     },
     {
       "epoch": 3.774193548387097,
-      "grad_norm": 1.1002209843660342,
+      "grad_norm": 0.8541278759879399,
       "learning_rate": 2.96528550188462e-05,
-      "loss": 0.1452,
-      "mean_token_accuracy": 0.9609697312116623,
+      "loss": 0.1225,
+      "mean_token_accuracy": 0.9665696918964386,
       "step": 645
     },
     {
       "epoch": 3.780058651026393,
-      "grad_norm": 1.0977670049624841,
+      "grad_norm": 0.8695425380218671,
       "learning_rate": 2.962180217663483e-05,
-      "loss": 0.1444,
-      "mean_token_accuracy": 0.95732332020998,
+      "loss": 0.1141,
+      "mean_token_accuracy": 0.9651920199394226,
       "step": 646
     },
     {
       "epoch": 3.7859237536656893,
-      "grad_norm": 1.2094117212667317,
+      "grad_norm": 0.965732138124322,
       "learning_rate": 2.95907216703598e-05,
-      "loss": 0.131,
-      "mean_token_accuracy": 0.9598681703209877,
+      "loss": 0.1194,
+      "mean_token_accuracy": 0.9652410075068474,
       "step": 647
     },
     {
       "epoch": 3.7917888563049855,
-      "grad_norm": 1.0971502312685675,
+      "grad_norm": 1.0337349786728662,
       "learning_rate": 2.9559613612830797e-05,
-      "loss": 0.1468,
-      "mean_token_accuracy": 0.9556907713413239,
+      "loss": 0.1222,
+      "mean_token_accuracy": 0.9637459143996239,
       "step": 648
     },
     {
       "epoch": 3.7976539589442817,
-      "grad_norm": 1.0613202166159812,
+      "grad_norm": 0.8407085586625942,
       "learning_rate": 2.952847811695751e-05,
-      "loss": 0.1305,
-      "mean_token_accuracy": 0.965257078409195,
+      "loss": 0.1065,
+      "mean_token_accuracy": 0.9705112278461456,
       "step": 649
     },
     {
       "epoch": 3.803519061583578,
-      "grad_norm": 1.0099659020872942,
+      "grad_norm": 0.7987034943568222,
       "learning_rate": 2.9497315295749218e-05,
-      "loss": 0.1319,
-      "mean_token_accuracy": 0.9646901562809944,
+      "loss": 0.1165,
+      "mean_token_accuracy": 0.9658530652523041,
       "step": 650
     },
     {
       "epoch": 3.809384164222874,
-      "grad_norm": 1.2808080436278302,
+      "grad_norm": 0.9905673663074058,
       "learning_rate": 2.9466125262314368e-05,
-      "loss": 0.1712,
-      "mean_token_accuracy": 0.9523722976446152,
+      "loss": 0.1365,
+      "mean_token_accuracy": 0.9607385098934174,
       "step": 651
     },
     {
       "epoch": 3.8152492668621703,
-      "grad_norm": 1.7647260306652934,
+      "grad_norm": 0.8431989173157322,
       "learning_rate": 2.9434908129860193e-05,
-      "loss": 0.1405,
-      "mean_token_accuracy": 0.9618514180183411,
+      "loss": 0.1026,
+      "mean_token_accuracy": 0.9705355390906334,
       "step": 652
     },
     {
       "epoch": 3.8211143695014664,
-      "grad_norm": 1.1534843084754791,
+      "grad_norm": 0.9761533220193974,
       "learning_rate": 2.9403664011692276e-05,
-      "loss": 0.1544,
-      "mean_token_accuracy": 0.954981729388237,
+      "loss": 0.1341,
+      "mean_token_accuracy": 0.9603022783994675,
       "step": 653
     },
     {
       "epoch": 3.8269794721407626,
-      "grad_norm": 1.2939646511087926,
+      "grad_norm": 1.0057652946436697,
       "learning_rate": 2.9372393021214134e-05,
-      "loss": 0.1588,
-      "mean_token_accuracy": 0.9539552256464958,
+      "loss": 0.138,
+      "mean_token_accuracy": 0.9568366184830666,
       "step": 654
     },
     {
       "epoch": 3.832844574780059,
-      "grad_norm": 1.188278943842319,
+      "grad_norm": 1.1193327300180262,
       "learning_rate": 2.9341095271926842e-05,
-      "loss": 0.1359,
-      "mean_token_accuracy": 0.9616807624697685,
+      "loss": 0.1083,
+      "mean_token_accuracy": 0.9681970700621605,
       "step": 655
     },
     {
       "epoch": 3.838709677419355,
-      "grad_norm": 1.0856399855222887,
+      "grad_norm": 1.211332723198081,
       "learning_rate": 2.930977087742859e-05,
-      "loss": 0.1249,
-      "mean_token_accuracy": 0.9609912484884262,
+      "loss": 0.1119,
+      "mean_token_accuracy": 0.9678284898400307,
       "step": 656
     },
     {
       "epoch": 3.844574780058651,
-      "grad_norm": 0.9803813921122001,
+      "grad_norm": 0.9825614982183972,
       "learning_rate": 2.9278419951414277e-05,
-      "loss": 0.144,
-      "mean_token_accuracy": 0.96265958994627,
+      "loss": 0.1261,
+      "mean_token_accuracy": 0.9617257192730904,
       "step": 657
     },
     {
       "epoch": 3.8504398826979473,
-      "grad_norm": 1.0825588438292633,
+      "grad_norm": 0.8315738446465553,
       "learning_rate": 2.9247042607675105e-05,
-      "loss": 0.1355,
-      "mean_token_accuracy": 0.9593116492033005,
+      "loss": 0.1169,
+      "mean_token_accuracy": 0.9657503962516785,
       "step": 658
     },
     {
       "epoch": 3.8563049853372435,
-      "grad_norm": 0.7272092106468886,
+      "grad_norm": 0.8775305493698721,
       "learning_rate": 2.9215638960098164e-05,
-      "loss": 0.0831,
-      "mean_token_accuracy": 0.9734610915184021,
+      "loss": 0.0755,
+      "mean_token_accuracy": 0.9759255200624466,
       "step": 659
     },
     {
       "epoch": 3.8621700879765397,
-      "grad_norm": 0.7981455863455788,
+      "grad_norm": 0.6996032422889692,
       "learning_rate": 2.9184209122665996e-05,
-      "loss": 0.1209,
-      "mean_token_accuracy": 0.9625027552247047,
+      "loss": 0.1072,
+      "mean_token_accuracy": 0.9670997187495232,
       "step": 660
     },
     {
       "epoch": 3.868035190615836,
-      "grad_norm": 1.0644155114590241,
+      "grad_norm": 0.8460534329988707,
       "learning_rate": 2.915275320945623e-05,
-      "loss": 0.1342,
-      "mean_token_accuracy": 0.962261438369751,
+      "loss": 0.122,
+      "mean_token_accuracy": 0.9646456241607666,
       "step": 661
     },
     {
       "epoch": 3.873900293255132,
-      "grad_norm": 1.3058968639705204,
+      "grad_norm": 1.1089879954428397,
       "learning_rate": 2.9121271334641127e-05,
-      "loss": 0.1375,
-      "mean_token_accuracy": 0.9608859419822693,
+      "loss": 0.1148,
+      "mean_token_accuracy": 0.9666710719466209,
       "step": 662
     },
     {
       "epoch": 3.8797653958944283,
-      "grad_norm": 1.1888950650427426,
+      "grad_norm": 0.9487108641230017,
       "learning_rate": 2.908976361248717e-05,
-      "loss": 0.1335,
-      "mean_token_accuracy": 0.9634340405464172,
+      "loss": 0.1017,
+      "mean_token_accuracy": 0.9736130684614182,
       "step": 663
     },
     {
       "epoch": 3.8856304985337244,
-      "grad_norm": 0.9694975031185143,
+      "grad_norm": 0.701535256126763,
       "learning_rate": 2.9058230157354674e-05,
-      "loss": 0.1444,
-      "mean_token_accuracy": 0.9566892609000206,
+      "loss": 0.1162,
+      "mean_token_accuracy": 0.963954895734787,
       "step": 664
     },
     {
       "epoch": 3.8914956011730206,
-      "grad_norm": 1.1575330596885278,
+      "grad_norm": 1.2184520006523096,
       "learning_rate": 2.902667108369734e-05,
-      "loss": 0.1252,
-      "mean_token_accuracy": 0.9613283276557922,
+      "loss": 0.1125,
+      "mean_token_accuracy": 0.9652879014611244,
       "step": 665
     },
     {
       "epoch": 3.897360703812317,
-      "grad_norm": 1.1277073069882797,
+      "grad_norm": 1.050805435187101,
       "learning_rate": 2.8995086506061862e-05,
-      "loss": 0.1279,
-      "mean_token_accuracy": 0.9618002399802208,
+      "loss": 0.1169,
+      "mean_token_accuracy": 0.9657002538442612,
       "step": 666
     },
     {
       "epoch": 3.903225806451613,
-      "grad_norm": 1.121397297414267,
+      "grad_norm": 1.0753573344224259,
       "learning_rate": 2.896347653908749e-05,
-      "loss": 0.1151,
-      "mean_token_accuracy": 0.9665411338210106,
+      "loss": 0.1065,
+      "mean_token_accuracy": 0.9706609547138214,
       "step": 667
     },
     {
       "epoch": 3.909090909090909,
-      "grad_norm": 0.9012462300498526,
+      "grad_norm": 0.6759719386032113,
       "learning_rate": 2.8931841297505657e-05,
-      "loss": 0.1127,
-      "mean_token_accuracy": 0.9637566730380058,
+      "loss": 0.1053,
+      "mean_token_accuracy": 0.9689249470829964,
       "step": 668
     },
     {
       "epoch": 3.9149560117302054,
-      "grad_norm": 0.9109562227585535,
+      "grad_norm": 0.7879426759278125,
       "learning_rate": 2.8900180896139503e-05,
-      "loss": 0.0955,
-      "mean_token_accuracy": 0.969886414706707,
+      "loss": 0.0825,
+      "mean_token_accuracy": 0.9760407134890556,
       "step": 669
     },
     {
       "epoch": 3.9208211143695015,
-      "grad_norm": 1.1687790994100906,
+      "grad_norm": 0.8961566450949507,
       "learning_rate": 2.8868495449903498e-05,
-      "loss": 0.0936,
-      "mean_token_accuracy": 0.9717061296105385,
+      "loss": 0.0891,
+      "mean_token_accuracy": 0.9749082326889038,
       "step": 670
     },
     {
       "epoch": 3.9266862170087977,
-      "grad_norm": 0.7755929180254743,
+      "grad_norm": 0.7145724309301391,
       "learning_rate": 2.8836785073803014e-05,
-      "loss": 0.1094,
-      "mean_token_accuracy": 0.9656796231865883,
+      "loss": 0.0968,
+      "mean_token_accuracy": 0.9699864313006401,
       "step": 671
     },
     {
       "epoch": 3.932551319648094,
-      "grad_norm": 0.9446774901165217,
+      "grad_norm": 0.7112042624615512,
       "learning_rate": 2.880504988293391e-05,
-      "loss": 0.1344,
-      "mean_token_accuracy": 0.9652603045105934,
+      "loss": 0.1009,
+      "mean_token_accuracy": 0.9703424945473671,
       "step": 672
     },
     {
       "epoch": 3.93841642228739,
-      "grad_norm": 1.111729269543401,
+      "grad_norm": 0.8598718711890393,
       "learning_rate": 2.8773289992482115e-05,
-      "loss": 0.1215,
-      "mean_token_accuracy": 0.9619983360171318,
+      "loss": 0.106,
+      "mean_token_accuracy": 0.9680499285459518,
       "step": 673
     },
     {
       "epoch": 3.9442815249266863,
-      "grad_norm": 1.3795999777982066,
+      "grad_norm": 0.9698263823669294,
       "learning_rate": 2.87415055177232e-05,
-      "loss": 0.1157,
-      "mean_token_accuracy": 0.9651115536689758,
+      "loss": 0.1056,
+      "mean_token_accuracy": 0.9698052480816841,
       "step": 674
     },
     {
       "epoch": 3.9501466275659824,
-      "grad_norm": 1.0118979486417967,
+      "grad_norm": 0.8335613687508117,
       "learning_rate": 2.870969657402197e-05,
-      "loss": 0.1345,
-      "mean_token_accuracy": 0.9584571942687035,
+      "loss": 0.1152,
+      "mean_token_accuracy": 0.9647799134254456,
       "step": 675
     },
     {
       "epoch": 3.9560117302052786,
-      "grad_norm": 1.326426843091007,
+      "grad_norm": 1.2113603594671711,
       "learning_rate": 2.867786327683205e-05,
-      "loss": 0.158,
-      "mean_token_accuracy": 0.9536311253905296,
+      "loss": 0.1552,
+      "mean_token_accuracy": 0.9564560130238533,
       "step": 676
     },
     {
       "epoch": 3.961876832844575,
-      "grad_norm": 0.9390313577441797,
+      "grad_norm": 0.9088547489871039,
       "learning_rate": 2.864600574169545e-05,
-      "loss": 0.1238,
-      "mean_token_accuracy": 0.9652499556541443,
+      "loss": 0.1184,
+      "mean_token_accuracy": 0.9664463996887207,
       "step": 677
     },
     {
       "epoch": 3.967741935483871,
-      "grad_norm": 1.0821150137608206,
+      "grad_norm": 1.050048176179559,
       "learning_rate": 2.861412408424216e-05,
-      "loss": 0.1205,
-      "mean_token_accuracy": 0.9640393927693367,
+      "loss": 0.1118,
+      "mean_token_accuracy": 0.966325081884861,
       "step": 678
     },
     {
       "epoch": 3.973607038123167,
-      "grad_norm": 1.1046019376949232,
+      "grad_norm": 0.994917923182441,
       "learning_rate": 2.8582218420189706e-05,
-      "loss": 0.1419,
-      "mean_token_accuracy": 0.9601811021566391,
+      "loss": 0.1158,
+      "mean_token_accuracy": 0.9656457379460335,
       "step": 679
     },
     {
       "epoch": 3.9794721407624634,
-      "grad_norm": 1.3616091121662732,
+      "grad_norm": 1.0408318438711954,
       "learning_rate": 2.855028886534278e-05,
-      "loss": 0.1511,
-      "mean_token_accuracy": 0.9565163180232048,
+      "loss": 0.1272,
+      "mean_token_accuracy": 0.9610341414809227,
       "step": 680
     },
     {
       "epoch": 3.9853372434017595,
-      "grad_norm": 1.2082659273486551,
+      "grad_norm": 0.9371789995160021,
       "learning_rate": 2.851833553559276e-05,
-      "loss": 0.1271,
-      "mean_token_accuracy": 0.9636896699666977,
+      "loss": 0.1091,
+      "mean_token_accuracy": 0.966740570962429,
       "step": 681
     },
     {
       "epoch": 3.9912023460410557,
-      "grad_norm": 1.0850403614399995,
+      "grad_norm": 0.9273694196009427,
       "learning_rate": 2.848635854691733e-05,
-      "loss": 0.1368,
-      "mean_token_accuracy": 0.9602132365107536,
+      "loss": 0.1184,
+      "mean_token_accuracy": 0.9653659835457802,
       "step": 682
     },
     {
       "epoch": 3.997067448680352,
-      "grad_norm": 0.9493712048082743,
+      "grad_norm": 0.7340375512532604,
       "learning_rate": 2.8454358015380046e-05,
-      "loss": 0.0986,
-      "mean_token_accuracy": 0.9702668786048889,
+      "loss": 0.088,
+      "mean_token_accuracy": 0.9720573499798775,
       "step": 683
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.558059945609864,
+      "grad_norm": 1.2796567322551584,
       "learning_rate": 2.8422334057129913e-05,
-      "loss": 0.1191,
-      "mean_token_accuracy": 0.9623651206493378,
+      "loss": 0.1123,
+      "mean_token_accuracy": 0.9657177776098251,
       "step": 684
     },
     {
       "epoch": 4.005865102639296,
-      "grad_norm": 0.842862500749142,
+      "grad_norm": 0.5814062084412526,
       "learning_rate": 2.8390286788400967e-05,
-      "loss": 0.0957,
-      "mean_token_accuracy": 0.9664551466703415,
+      "loss": 0.0807,
+      "mean_token_accuracy": 0.973865695297718,
       "step": 685
     },
     {
       "epoch": 4.011730205278592,
-      "grad_norm": 0.6795835077138793,
+      "grad_norm": 0.6533584141705436,
       "learning_rate": 2.8358216325511847e-05,
-      "loss": 0.0801,
-      "mean_token_accuracy": 0.9761439710855484,
+      "loss": 0.0723,
+      "mean_token_accuracy": 0.9766295105218887,
       "step": 686
     },
     {
       "epoch": 4.0175953079178885,
-      "grad_norm": 1.1456567621753069,
+      "grad_norm": 0.9162087220426504,
       "learning_rate": 2.832612278486538e-05,
-      "loss": 0.1198,
-      "mean_token_accuracy": 0.963876485824585,
+      "loss": 0.1061,
+      "mean_token_accuracy": 0.9709026291966438,
       "step": 687
     },
     {
       "epoch": 4.023460410557185,
-      "grad_norm": 7.8979363537657035,
+      "grad_norm": 0.7375794680352793,
       "learning_rate": 2.8294006282948165e-05,
-      "loss": 0.2698,
-      "mean_token_accuracy": 0.9692637398838997,
+      "loss": 0.0891,
+      "mean_token_accuracy": 0.976003848016262,
       "step": 688
     },
     {
       "epoch": 4.029325513196481,
-      "grad_norm": 1.1045222161731982,
+      "grad_norm": 0.7494579181986135,
       "learning_rate": 2.8261866936330123e-05,
-      "loss": 0.1049,
-      "mean_token_accuracy": 0.965548038482666,
+      "loss": 0.0816,
+      "mean_token_accuracy": 0.9738617315888405,
       "step": 689
     },
     {
       "epoch": 4.035190615835777,
-      "grad_norm": 1.2554508151838817,
+      "grad_norm": 0.6929603989933999,
       "learning_rate": 2.8229704861664113e-05,
-      "loss": 0.1036,
-      "mean_token_accuracy": 0.9706982374191284,
+      "loss": 0.0801,
+      "mean_token_accuracy": 0.9780551716685295,
       "step": 690
     },
     {
       "epoch": 4.041055718475073,
-      "grad_norm": 1.1041277073123883,
+      "grad_norm": 0.7164876946150348,
       "learning_rate": 2.8197520175685462e-05,
-      "loss": 0.0998,
-      "mean_token_accuracy": 0.9741102978587151,
+      "loss": 0.0788,
+      "mean_token_accuracy": 0.9771693646907806,
       "step": 691
     },
     {
       "epoch": 4.0469208211143695,
-      "grad_norm": 0.8006560792352735,
+      "grad_norm": 0.8679669696761695,
       "learning_rate": 2.8165312995211596e-05,
-      "loss": 0.0927,
-      "mean_token_accuracy": 0.9737097099423409,
+      "loss": 0.0799,
+      "mean_token_accuracy": 0.9789220467209816,
       "step": 692
     },
     {
       "epoch": 4.052785923753666,
-      "grad_norm": 0.8655138713705752,
+      "grad_norm": 0.5785509783140412,
       "learning_rate": 2.813308343714156e-05,
-      "loss": 0.084,
-      "mean_token_accuracy": 0.9713312909007072,
+      "loss": 0.0706,
+      "mean_token_accuracy": 0.9771093800663948,
       "step": 693
     },
     {
       "epoch": 4.058651026392962,
-      "grad_norm": 0.9516836003751642,
+      "grad_norm": 0.7587374823959739,
       "learning_rate": 2.810083161845564e-05,
-      "loss": 0.111,
-      "mean_token_accuracy": 0.9674246981739998,
+      "loss": 0.09,
+      "mean_token_accuracy": 0.9711701348423958,
       "step": 694
     },
     {
       "epoch": 4.064516129032258,
-      "grad_norm": 0.8720519712759406,
+      "grad_norm": 0.8604246722345931,
       "learning_rate": 2.8068557656214913e-05,
-      "loss": 0.0866,
-      "mean_token_accuracy": 0.9744721204042435,
+      "loss": 0.0861,
+      "mean_token_accuracy": 0.9758541658520699,
       "step": 695
     },
     {
       "epoch": 4.070381231671554,
-      "grad_norm": 0.6222607867296382,
+      "grad_norm": 0.6621420685564046,
       "learning_rate": 2.8036261667560826e-05,
-      "loss": 0.0932,
-      "mean_token_accuracy": 0.9742299988865852,
+      "loss": 0.0766,
+      "mean_token_accuracy": 0.9776150584220886,
       "step": 696
     },
     {
       "epoch": 4.07624633431085,
-      "grad_norm": 0.7960989210401829,
+      "grad_norm": 0.7637582164149367,
       "learning_rate": 2.8003943769714776e-05,
-      "loss": 0.1093,
-      "mean_token_accuracy": 0.9663450121879578,
+      "loss": 0.0956,
+      "mean_token_accuracy": 0.9732154309749603,
       "step": 697
     },
     {
       "epoch": 4.0821114369501466,
-      "grad_norm": 1.1019502994755033,
+      "grad_norm": 1.0199977041425903,
       "learning_rate": 2.7971604079977673e-05,
-      "loss": 0.1185,
-      "mean_token_accuracy": 0.96397615224123,
+      "loss": 0.1004,
+      "mean_token_accuracy": 0.9695825353264809,
       "step": 698
     },
     {
       "epoch": 4.087976539589443,
-      "grad_norm": 0.7470501123132239,
+      "grad_norm": 0.750195052728083,
       "learning_rate": 2.793924271572954e-05,
-      "loss": 0.0873,
-      "mean_token_accuracy": 0.9746774211525917,
+      "loss": 0.0785,
+      "mean_token_accuracy": 0.975655235350132,
       "step": 699
     },
     {
       "epoch": 4.093841642228739,
-      "grad_norm": 0.8010505075241883,
+      "grad_norm": 0.6454840574121126,
       "learning_rate": 2.7906859794429047e-05,
-      "loss": 0.0995,
-      "mean_token_accuracy": 0.9679571017622948,
+      "loss": 0.0812,
+      "mean_token_accuracy": 0.9726183488965034,
       "step": 700
     },
     {
       "epoch": 4.099706744868035,
-      "grad_norm": 0.8813053810673643,
+      "grad_norm": 0.7783150151101518,
       "learning_rate": 2.787445543361313e-05,
-      "loss": 0.0925,
-      "mean_token_accuracy": 0.9711523503065109,
+      "loss": 0.0801,
+      "mean_token_accuracy": 0.9766353219747543,
       "step": 701
     },
     {
       "epoch": 4.105571847507331,
-      "grad_norm": 1.1338479600606155,
+      "grad_norm": 0.8354381215669707,
       "learning_rate": 2.7842029750896525e-05,
-      "loss": 0.1293,
-      "mean_token_accuracy": 0.9662352055311203,
+      "loss": 0.091,
+      "mean_token_accuracy": 0.9731776043772697,
       "step": 702
     },
     {
       "epoch": 4.1114369501466275,
-      "grad_norm": 1.1524380891393422,
+      "grad_norm": 0.8831663612555645,
       "learning_rate": 2.7809582863971373e-05,
-      "loss": 0.1123,
-      "mean_token_accuracy": 0.9671714976429939,
+      "loss": 0.0903,
+      "mean_token_accuracy": 0.9750881195068359,
       "step": 703
     },
     {
       "epoch": 4.117302052785924,
-      "grad_norm": 0.9880154262384708,
+      "grad_norm": 0.8696118136211701,
       "learning_rate": 2.777711489060676e-05,
-      "loss": 0.1175,
-      "mean_token_accuracy": 0.9668581932783127,
+      "loss": 0.0903,
+      "mean_token_accuracy": 0.971781887114048,
       "step": 704
     },
     {
       "epoch": 4.12316715542522,
-      "grad_norm": 0.8689806304769432,
+      "grad_norm": 0.6913327616601556,
       "learning_rate": 2.7744625948648316e-05,
-      "loss": 0.0974,
-      "mean_token_accuracy": 0.9735423848032951,
+      "loss": 0.0735,
+      "mean_token_accuracy": 0.9773849919438362,
       "step": 705
     },
     {
       "epoch": 4.129032258064516,
-      "grad_norm": 0.941884543587427,
+      "grad_norm": 0.7555233699938674,
       "learning_rate": 2.7712116156017783e-05,
-      "loss": 0.1003,
-      "mean_token_accuracy": 0.9737986624240875,
+      "loss": 0.0843,
+      "mean_token_accuracy": 0.9777982458472252,
       "step": 706
     },
     {
       "epoch": 4.134897360703812,
-      "grad_norm": 0.9450484339416181,
+      "grad_norm": 0.9696476917690434,
       "learning_rate": 2.7679585630712585e-05,
-      "loss": 0.1072,
-      "mean_token_accuracy": 0.9653824865818024,
+      "loss": 0.0975,
+      "mean_token_accuracy": 0.9709056839346886,
       "step": 707
     },
     {
       "epoch": 4.140762463343108,
-      "grad_norm": 0.7072259315634002,
+      "grad_norm": 0.5938696022344896,
       "learning_rate": 2.764703449080538e-05,
-      "loss": 0.0998,
-      "mean_token_accuracy": 0.9729399904608727,
+      "loss": 0.0811,
+      "mean_token_accuracy": 0.9765899106860161,
       "step": 708
     },
     {
       "epoch": 4.146627565982405,
-      "grad_norm": 0.950898645982569,
+      "grad_norm": 0.9067730169164242,
       "learning_rate": 2.761446285444366e-05,
-      "loss": 0.1123,
-      "mean_token_accuracy": 0.9680687040090561,
+      "loss": 0.0987,
+      "mean_token_accuracy": 0.9722139462828636,
       "step": 709
     },
     {
       "epoch": 4.152492668621701,
-      "grad_norm": 0.738092645530511,
+      "grad_norm": 0.639869651782152,
       "learning_rate": 2.758187083984931e-05,
-      "loss": 0.0884,
-      "mean_token_accuracy": 0.9752467274665833,
+      "loss": 0.0679,
+      "mean_token_accuracy": 0.9808940887451172,
       "step": 710
     },
     {
       "epoch": 4.158357771260997,
-      "grad_norm": 1.0204267654285655,
+      "grad_norm": 0.783349736332696,
       "learning_rate": 2.754925856531819e-05,
-      "loss": 0.1179,
-      "mean_token_accuracy": 0.9653342291712761,
+      "loss": 0.1062,
+      "mean_token_accuracy": 0.9705143421888351,
       "step": 711
     },
     {
       "epoch": 4.164222873900293,
-      "grad_norm": 0.9770563801600024,
+      "grad_norm": 1.7638873091647072,
       "learning_rate": 2.7516626149219678e-05,
-      "loss": 0.0976,
-      "mean_token_accuracy": 0.9727638140320778,
+      "loss": 0.0963,
+      "mean_token_accuracy": 0.9750856310129166,
       "step": 712
     },
     {
       "epoch": 4.170087976539589,
-      "grad_norm": 1.0725235604843808,
+      "grad_norm": 0.6835305264635491,
       "learning_rate": 2.7483973709996267e-05,
-      "loss": 0.1082,
-      "mean_token_accuracy": 0.9659662619233131,
+      "loss": 0.0873,
+      "mean_token_accuracy": 0.9742805510759354,
       "step": 713
     },
     {
       "epoch": 4.1759530791788855,
-      "grad_norm": 0.8958740426822329,
+      "grad_norm": 0.7878929380998676,
       "learning_rate": 2.7451301366163116e-05,
-      "loss": 0.1224,
-      "mean_token_accuracy": 0.9643898904323578,
+      "loss": 0.0978,
+      "mean_token_accuracy": 0.9704447388648987,
       "step": 714
     },
     {
       "epoch": 4.181818181818182,
-      "grad_norm": 0.6766982108825446,
+      "grad_norm": 0.6196814435565455,
       "learning_rate": 2.741860923630765e-05,
-      "loss": 0.0815,
-      "mean_token_accuracy": 0.9771873876452446,
+      "loss": 0.0733,
+      "mean_token_accuracy": 0.9794884473085403,
       "step": 715
     },
     {
       "epoch": 4.187683284457478,
-      "grad_norm": 1.048072499756525,
+      "grad_norm": 0.7265891736306469,
       "learning_rate": 2.7385897439089086e-05,
-      "loss": 0.1171,
-      "mean_token_accuracy": 0.9654709845781326,
+      "loss": 0.0862,
+      "mean_token_accuracy": 0.9740516096353531,
       "step": 716
     },
     {
       "epoch": 4.193548387096774,
-      "grad_norm": 0.8912351764553597,
+      "grad_norm": 0.9562760180488723,
       "learning_rate": 2.735316609323804e-05,
-      "loss": 0.1169,
-      "mean_token_accuracy": 0.9646259918808937,
+      "loss": 0.1026,
+      "mean_token_accuracy": 0.9694742858409882,
       "step": 717
     },
     {
       "epoch": 4.19941348973607,
-      "grad_norm": 0.9390469569028205,
+      "grad_norm": 0.7996872026272548,
       "learning_rate": 2.7320415317556085e-05,
-      "loss": 0.1046,
-      "mean_token_accuracy": 0.9704753458499908,
+      "loss": 0.0878,
+      "mean_token_accuracy": 0.9754326492547989,
       "step": 718
     },
     {
       "epoch": 4.205278592375366,
-      "grad_norm": 0.8560329829131477,
+      "grad_norm": 0.6396887850496302,
       "learning_rate": 2.72876452309153e-05,
-      "loss": 0.0841,
-      "mean_token_accuracy": 0.9733430370688438,
+      "loss": 0.071,
+      "mean_token_accuracy": 0.9772866442799568,
       "step": 719
     },
     {
       "epoch": 4.211143695014663,
-      "grad_norm": 0.8933889301548646,
+      "grad_norm": 0.7719783389407485,
       "learning_rate": 2.7254855952257867e-05,
-      "loss": 0.102,
-      "mean_token_accuracy": 0.9689731150865555,
+      "loss": 0.0898,
+      "mean_token_accuracy": 0.9726490750908852,
       "step": 720
     },
     {
       "epoch": 4.217008797653959,
-      "grad_norm": 1.102744978983958,
+      "grad_norm": 1.0644091045972202,
       "learning_rate": 2.7222047600595626e-05,
-      "loss": 0.1391,
-      "mean_token_accuracy": 0.9602887108922005,
+      "loss": 0.1087,
+      "mean_token_accuracy": 0.9672816544771194,
       "step": 721
     },
     {
       "epoch": 4.222873900293255,
-      "grad_norm": 0.7769746447260107,
+      "grad_norm": 0.7154307567634154,
       "learning_rate": 2.718922029500965e-05,
-      "loss": 0.1051,
-      "mean_token_accuracy": 0.9703327119350433,
+      "loss": 0.084,
+      "mean_token_accuracy": 0.974772721529007,
       "step": 722
     },
     {
       "epoch": 4.228739002932551,
-      "grad_norm": 0.8830152108120385,
+      "grad_norm": 0.6908956165564543,
       "learning_rate": 2.7156374154649787e-05,
-      "loss": 0.1,
-      "mean_token_accuracy": 0.9667406901717186,
+      "loss": 0.0815,
+      "mean_token_accuracy": 0.973622277379036,
       "step": 723
     },
     {
       "epoch": 4.234604105571847,
-      "grad_norm": 0.9571228011975423,
+      "grad_norm": 0.7365960380961718,
       "learning_rate": 2.7123509298734267e-05,
-      "loss": 0.1015,
-      "mean_token_accuracy": 0.970310315489769,
+      "loss": 0.0858,
+      "mean_token_accuracy": 0.972634956240654,
       "step": 724
     },
     {
       "epoch": 4.2404692082111435,
-      "grad_norm": 0.9452784130844039,
+      "grad_norm": 0.8876489162788943,
       "learning_rate": 2.7090625846549247e-05,
-      "loss": 0.1046,
-      "mean_token_accuracy": 0.9675817862153053,
+      "loss": 0.0949,
+      "mean_token_accuracy": 0.972042515873909,
       "step": 725
     },
     {
       "epoch": 4.24633431085044,
-      "grad_norm": 1.0691326279227324,
+      "grad_norm": 0.8351301909607796,
       "learning_rate": 2.705772391744837e-05,
-      "loss": 0.123,
-      "mean_token_accuracy": 0.970280796289444,
+      "loss": 0.0912,
+      "mean_token_accuracy": 0.9738112688064575,
       "step": 726
     },
     {
       "epoch": 4.252199413489736,
-      "grad_norm": 0.9002102935983834,
+      "grad_norm": 0.7667250445002752,
       "learning_rate": 2.7024803630852362e-05,
-      "loss": 0.1127,
-      "mean_token_accuracy": 0.9712927043437958,
+      "loss": 0.0872,
+      "mean_token_accuracy": 0.9735923185944557,
       "step": 727
     },
     {
       "epoch": 4.258064516129032,
-      "grad_norm": 1.1839994161421517,
+      "grad_norm": 0.9337786078065189,
       "learning_rate": 2.699186510624856e-05,
-      "loss": 0.1183,
-      "mean_token_accuracy": 0.9680011197924614,
+      "loss": 0.1078,
+      "mean_token_accuracy": 0.969543345272541,
       "step": 728
     },
     {
       "epoch": 4.263929618768328,
-      "grad_norm": 0.9930191904934016,
+      "grad_norm": 0.7401750526879216,
       "learning_rate": 2.6958908463190506e-05,
-      "loss": 0.1281,
-      "mean_token_accuracy": 0.9630226120352745,
+      "loss": 0.0922,
+      "mean_token_accuracy": 0.9721928238868713,
       "step": 729
     },
     {
       "epoch": 4.269794721407624,
-      "grad_norm": 0.9676556571129576,
+      "grad_norm": 0.8159479602529707,
       "learning_rate": 2.6925933821297497e-05,
-      "loss": 0.1171,
-      "mean_token_accuracy": 0.9654005244374275,
+      "loss": 0.0906,
+      "mean_token_accuracy": 0.9723092764616013,
       "step": 730
     },
     {
       "epoch": 4.275659824046921,
-      "grad_norm": 1.1227004079371043,
+      "grad_norm": 0.7863328763793721,
       "learning_rate": 2.6892941300254176e-05,
-      "loss": 0.1151,
-      "mean_token_accuracy": 0.9704194962978363,
+      "loss": 0.0877,
+      "mean_token_accuracy": 0.9762269631028175,
       "step": 731
     },
     {
       "epoch": 4.281524926686217,
-      "grad_norm": 0.938382034990061,
+      "grad_norm": 0.7226575436605356,
       "learning_rate": 2.685993101981007e-05,
-      "loss": 0.1058,
-      "mean_token_accuracy": 0.968720979988575,
+      "loss": 0.0842,
+      "mean_token_accuracy": 0.9757591262459755,
       "step": 732
     },
     {
       "epoch": 4.287390029325513,
-      "grad_norm": 0.9381935165005029,
+      "grad_norm": 0.6717494608206148,
       "learning_rate": 2.6826903099779157e-05,
-      "loss": 0.1034,
-      "mean_token_accuracy": 0.9666604846715927,
+      "loss": 0.0814,
+      "mean_token_accuracy": 0.9769570678472519,
       "step": 733
     },
     {
       "epoch": 4.293255131964809,
-      "grad_norm": 0.9325917617385888,
+      "grad_norm": 0.8798299785191601,
       "learning_rate": 2.679385766003945e-05,
-      "loss": 0.1131,
-      "mean_token_accuracy": 0.9669909775257111,
+      "loss": 0.0998,
+      "mean_token_accuracy": 0.9717613831162453,
       "step": 734
     },
     {
       "epoch": 4.299120234604105,
-      "grad_norm": 0.831981688674269,
+      "grad_norm": 0.6860539528931006,
       "learning_rate": 2.676079482053255e-05,
-      "loss": 0.1094,
-      "mean_token_accuracy": 0.9680541455745697,
+      "loss": 0.0919,
+      "mean_token_accuracy": 0.9732666462659836,
       "step": 735
     },
     {
       "epoch": 4.3049853372434015,
-      "grad_norm": 1.1028897779609337,
+      "grad_norm": 0.7965978126466666,
       "learning_rate": 2.6727714701263212e-05,
-      "loss": 0.1122,
-      "mean_token_accuracy": 0.9693733751773834,
+      "loss": 0.0911,
+      "mean_token_accuracy": 0.9728346392512321,
       "step": 736
     },
     {
       "epoch": 4.310850439882698,
-      "grad_norm": 0.8459161475890958,
+      "grad_norm": 0.6745321116193526,
       "learning_rate": 2.669461742229891e-05,
-      "loss": 0.0998,
-      "mean_token_accuracy": 0.9723160266876221,
+      "loss": 0.0872,
+      "mean_token_accuracy": 0.9757064208388329,
       "step": 737
     },
     {
       "epoch": 4.316715542521994,
-      "grad_norm": 0.8842003257292316,
+      "grad_norm": 0.7052793622815522,
       "learning_rate": 2.6661503103769404e-05,
-      "loss": 0.1023,
-      "mean_token_accuracy": 0.971040166914463,
+      "loss": 0.0773,
+      "mean_token_accuracy": 0.9765629544854164,
       "step": 738
     },
     {
       "epoch": 4.32258064516129,
-      "grad_norm": 0.9346441595866154,
+      "grad_norm": 0.8439535536764042,
       "learning_rate": 2.6628371865866286e-05,
-      "loss": 0.1192,
-      "mean_token_accuracy": 0.9664890840649605,
+      "loss": 0.0976,
+      "mean_token_accuracy": 0.9718929752707481,
       "step": 739
     },
     {
       "epoch": 4.328445747800586,
-      "grad_norm": 0.7353206267430158,
+      "grad_norm": 0.7590924148224023,
       "learning_rate": 2.6595223828842578e-05,
-      "loss": 0.1031,
-      "mean_token_accuracy": 0.9708716943860054,
+      "loss": 0.0942,
+      "mean_token_accuracy": 0.9718786254525185,
       "step": 740
     },
     {
       "epoch": 4.334310850439882,
-      "grad_norm": 0.8150751328388751,
+      "grad_norm": 0.7115452306720939,
       "learning_rate": 2.6562059113012253e-05,
-      "loss": 0.0953,
-      "mean_token_accuracy": 0.9729399308562279,
+      "loss": 0.0842,
+      "mean_token_accuracy": 0.9750241562724113,
       "step": 741
     },
     {
       "epoch": 4.340175953079179,
-      "grad_norm": 0.800064137257197,
+      "grad_norm": 0.5307398800874134,
       "learning_rate": 2.6528877838749853e-05,
-      "loss": 0.0888,
-      "mean_token_accuracy": 0.9730389565229416,
+      "loss": 0.0699,
+      "mean_token_accuracy": 0.9786670580506325,
       "step": 742
     },
     {
       "epoch": 4.346041055718475,
-      "grad_norm": 0.8094750752535848,
+      "grad_norm": 0.7855965606038025,
       "learning_rate": 2.6495680126489984e-05,
-      "loss": 0.099,
-      "mean_token_accuracy": 0.9690711572766304,
+      "loss": 0.0878,
+      "mean_token_accuracy": 0.9722012206912041,
       "step": 743
     },
     {
       "epoch": 4.351906158357771,
-      "grad_norm": 0.7956878136167119,
+      "grad_norm": 0.8072504806635915,
       "learning_rate": 2.6462466096726954e-05,
-      "loss": 0.1071,
-      "mean_token_accuracy": 0.9694640338420868,
+      "loss": 0.1004,
+      "mean_token_accuracy": 0.9716598242521286,
       "step": 744
     },
     {
       "epoch": 4.357771260997067,
-      "grad_norm": 0.9902999973042317,
+      "grad_norm": 0.7450796282399247,
       "learning_rate": 2.6429235870014256e-05,
-      "loss": 0.0993,
-      "mean_token_accuracy": 0.9691943004727364,
+      "loss": 0.0853,
+      "mean_token_accuracy": 0.9746398106217384,
       "step": 745
     },
     {
       "epoch": 4.363636363636363,
-      "grad_norm": 1.138966726928597,
+      "grad_norm": 0.8608235347633818,
       "learning_rate": 2.639598956696421e-05,
-      "loss": 0.1296,
-      "mean_token_accuracy": 0.9653717577457428,
+      "loss": 0.0979,
+      "mean_token_accuracy": 0.9726268425583839,
       "step": 746
     },
     {
       "epoch": 4.3695014662756595,
-      "grad_norm": 0.8390006741125879,
+      "grad_norm": 0.6571077470596837,
       "learning_rate": 2.6362727308247458e-05,
-      "loss": 0.0895,
-      "mean_token_accuracy": 0.9693955853581429,
+      "loss": 0.0809,
+      "mean_token_accuracy": 0.9742465242743492,
       "step": 747
     },
     {
       "epoch": 4.375366568914956,
-      "grad_norm": 0.9486724629738932,
+      "grad_norm": 0.7732181445332282,
       "learning_rate": 2.6329449214592568e-05,
-      "loss": 0.1134,
-      "mean_token_accuracy": 0.9696745052933693,
+      "loss": 0.0977,
+      "mean_token_accuracy": 0.9746908023953438,
       "step": 748
     },
     {
       "epoch": 4.381231671554252,
-      "grad_norm": 1.1974747553210443,
+      "grad_norm": 0.7521486012712132,
       "learning_rate": 2.6296155406785578e-05,
-      "loss": 0.1097,
-      "mean_token_accuracy": 0.9677048176527023,
+      "loss": 0.0979,
+      "mean_token_accuracy": 0.9705567210912704,
       "step": 749
     },
     {
       "epoch": 4.387096774193548,
-      "grad_norm": 0.8717615502118474,
+      "grad_norm": 0.736741257255026,
       "learning_rate": 2.6262846005669572e-05,
-      "loss": 0.0939,
-      "mean_token_accuracy": 0.9716934859752655,
+      "loss": 0.0822,
+      "mean_token_accuracy": 0.9748862311244011,
       "step": 750
     },
     {
       "epoch": 4.392961876832844,
-      "grad_norm": 0.8679886161549661,
+      "grad_norm": 0.7540120050721504,
       "learning_rate": 2.6229521132144212e-05,
-      "loss": 0.0983,
-      "mean_token_accuracy": 0.9671519547700882,
+      "loss": 0.0864,
+      "mean_token_accuracy": 0.9734518304467201,
       "step": 751
     },
     {
       "epoch": 4.39882697947214,
-      "grad_norm": 0.9182101559650703,
+      "grad_norm": 0.6830790352544612,
       "learning_rate": 2.619618090716534e-05,
-      "loss": 0.1026,
-      "mean_token_accuracy": 0.9699187725782394,
+      "loss": 0.0886,
+      "mean_token_accuracy": 0.9746551960706711,
       "step": 752
     },
     {
       "epoch": 4.404692082111437,
-      "grad_norm": 0.7557881709721908,
+      "grad_norm": 0.6953309994974072,
       "learning_rate": 2.61628254517445e-05,
-      "loss": 0.0937,
-      "mean_token_accuracy": 0.9722714796662331,
+      "loss": 0.0784,
+      "mean_token_accuracy": 0.9740583300590515,
       "step": 753
     },
     {
       "epoch": 4.410557184750733,
-      "grad_norm": 0.9753894611598296,
+      "grad_norm": 0.693352579440526,
       "learning_rate": 2.612945488694853e-05,
-      "loss": 0.1196,
-      "mean_token_accuracy": 0.9658621773123741,
+      "loss": 0.0938,
+      "mean_token_accuracy": 0.9734242856502533,
       "step": 754
     },
     {
       "epoch": 4.416422287390029,
-      "grad_norm": 0.8489499216990712,
+      "grad_norm": 0.8207186438354438,
       "learning_rate": 2.6096069333899094e-05,
-      "loss": 0.1004,
-      "mean_token_accuracy": 0.9738951250910759,
+      "loss": 0.0891,
+      "mean_token_accuracy": 0.9744479283690453,
       "step": 755
     },
     {
       "epoch": 4.422287390029325,
-      "grad_norm": 1.0767290195457695,
+      "grad_norm": 0.9881527516230675,
       "learning_rate": 2.6062668913772275e-05,
-      "loss": 0.1339,
-      "mean_token_accuracy": 0.9635637626051903,
+      "loss": 0.113,
+      "mean_token_accuracy": 0.9657848328351974,
       "step": 756
     },
     {
       "epoch": 4.428152492668621,
-      "grad_norm": 2.284013657163814,
+      "grad_norm": 0.8892111964841636,
       "learning_rate": 2.60292537477981e-05,
-      "loss": 0.1072,
-      "mean_token_accuracy": 0.9691743478178978,
+      "loss": 0.097,
+      "mean_token_accuracy": 0.970199853181839,
       "step": 757
     },
     {
       "epoch": 4.4340175953079175,
-      "grad_norm": 0.9671090732833222,
+      "grad_norm": 0.6005235109234973,
       "learning_rate": 2.5995823957260132e-05,
-      "loss": 0.127,
-      "mean_token_accuracy": 0.9612483829259872,
+      "loss": 0.0896,
+      "mean_token_accuracy": 0.970848336815834,
       "step": 758
     },
     {
       "epoch": 4.439882697947214,
-      "grad_norm": 0.7101994331100041,
+      "grad_norm": 0.971010752823258,
       "learning_rate": 2.596237966349501e-05,
-      "loss": 0.0992,
-      "mean_token_accuracy": 0.968992717564106,
+      "loss": 0.0902,
+      "mean_token_accuracy": 0.9717428460717201,
       "step": 759
     },
     {
       "epoch": 4.44574780058651,
-      "grad_norm": 0.7693183821795423,
+      "grad_norm": 0.6147265684629026,
       "learning_rate": 2.592892098789201e-05,
-      "loss": 0.0911,
-      "mean_token_accuracy": 0.9723697900772095,
+      "loss": 0.0732,
+      "mean_token_accuracy": 0.9768884256482124,
       "step": 760
     },
     {
       "epoch": 4.451612903225806,
-      "grad_norm": 1.4733487666954843,
+      "grad_norm": 0.6909027369872971,
       "learning_rate": 2.589544805189261e-05,
-      "loss": 0.0984,
-      "mean_token_accuracy": 0.9718485102057457,
+      "loss": 0.0786,
+      "mean_token_accuracy": 0.9766824841499329,
       "step": 761
     },
     {
       "epoch": 4.457478005865102,
-      "grad_norm": 1.1763193238951348,
+      "grad_norm": 0.8361117235474076,
       "learning_rate": 2.5861960976990056e-05,
-      "loss": 0.0965,
-      "mean_token_accuracy": 0.9736879169940948,
+      "loss": 0.0792,
+      "mean_token_accuracy": 0.9764246940612793,
       "step": 762
     },
     {
       "epoch": 4.463343108504398,
-      "grad_norm": 1.1738256998389192,
+      "grad_norm": 0.8572632181135827,
       "learning_rate": 2.5828459884728898e-05,
-      "loss": 0.1122,
-      "mean_token_accuracy": 0.9685143828392029,
+      "loss": 0.0957,
+      "mean_token_accuracy": 0.9725618660449982,
       "step": 763
     },
     {
       "epoch": 4.469208211143695,
-      "grad_norm": 0.8326366862614876,
+      "grad_norm": 0.7140301153665474,
       "learning_rate": 2.5794944896704572e-05,
-      "loss": 0.0956,
-      "mean_token_accuracy": 0.971512608230114,
+      "loss": 0.0818,
+      "mean_token_accuracy": 0.9770683497190475,
       "step": 764
     },
     {
       "epoch": 4.475073313782991,
-      "grad_norm": 0.6126184789066507,
+      "grad_norm": 0.7204009133906272,
       "learning_rate": 2.5761416134562955e-05,
-      "loss": 0.0904,
-      "mean_token_accuracy": 0.9716848284006119,
+      "loss": 0.0871,
+      "mean_token_accuracy": 0.9739867746829987,
       "step": 765
     },
     {
       "epoch": 4.480938416422287,
-      "grad_norm": 0.9032550905603639,
+      "grad_norm": 0.714625922360012,
       "learning_rate": 2.5727873719999904e-05,
-      "loss": 0.0974,
-      "mean_token_accuracy": 0.9702484384179115,
+      "loss": 0.0821,
+      "mean_token_accuracy": 0.9775990322232246,
       "step": 766
     },
     {
       "epoch": 4.486803519061583,
-      "grad_norm": 0.8188882179465061,
+      "grad_norm": 0.6987722867821043,
       "learning_rate": 2.569431777476084e-05,
-      "loss": 0.1032,
-      "mean_token_accuracy": 0.9705123081803322,
+      "loss": 0.0864,
+      "mean_token_accuracy": 0.9749646931886673,
       "step": 767
     },
     {
       "epoch": 4.492668621700879,
-      "grad_norm": 0.7156230718197097,
+      "grad_norm": 0.5888159677898139,
       "learning_rate": 2.566074842064029e-05,
-      "loss": 0.0836,
-      "mean_token_accuracy": 0.9748258590698242,
+      "loss": 0.0711,
+      "mean_token_accuracy": 0.9794390574097633,
       "step": 768
     },
     {
       "epoch": 4.4985337243401755,
-      "grad_norm": 0.7243676974968629,
+      "grad_norm": 0.5808906320753181,
       "learning_rate": 2.562716577948145e-05,
-      "loss": 0.0913,
-      "mean_token_accuracy": 0.9733809903264046,
+      "loss": 0.0768,
+      "mean_token_accuracy": 0.9758628606796265,
       "step": 769
     },
     {
       "epoch": 4.504398826979472,
-      "grad_norm": 0.956927225584052,
+      "grad_norm": 0.6265757199170996,
       "learning_rate": 2.5593569973175757e-05,
-      "loss": 0.109,
-      "mean_token_accuracy": 0.9674596711993217,
+      "loss": 0.0819,
+      "mean_token_accuracy": 0.9730802923440933,
       "step": 770
     },
     {
       "epoch": 4.510263929618768,
-      "grad_norm": 0.839214059168221,
+      "grad_norm": 0.6979620561688771,
       "learning_rate": 2.5559961123662405e-05,
-      "loss": 0.1025,
-      "mean_token_accuracy": 0.9712679237127304,
+      "loss": 0.0826,
+      "mean_token_accuracy": 0.9771312400698662,
       "step": 771
     },
     {
       "epoch": 4.516129032258064,
-      "grad_norm": 0.9417512208409332,
+      "grad_norm": 0.7445338952150568,
       "learning_rate": 2.5526339352927956e-05,
-      "loss": 0.1198,
-      "mean_token_accuracy": 0.9672188460826874,
+      "loss": 0.0901,
+      "mean_token_accuracy": 0.9738541170954704,
       "step": 772
     },
     {
       "epoch": 4.52199413489736,
-      "grad_norm": 0.9006219316570291,
+      "grad_norm": 0.8162017405595724,
       "learning_rate": 2.5492704783005847e-05,
-      "loss": 0.1067,
-      "mean_token_accuracy": 0.9678135216236115,
+      "loss": 0.0855,
+      "mean_token_accuracy": 0.9749506264925003,
       "step": 773
     },
     {
       "epoch": 4.527859237536656,
-      "grad_norm": 1.5476058537705526,
+      "grad_norm": 0.8311724502956283,
       "learning_rate": 2.5459057535975985e-05,
-      "loss": 0.1365,
-      "mean_token_accuracy": 0.9669143557548523,
+      "loss": 0.0909,
+      "mean_token_accuracy": 0.9752181246876717,
       "step": 774
     },
     {
       "epoch": 4.533724340175953,
-      "grad_norm": 0.956697552558829,
+      "grad_norm": 0.8339294840277889,
       "learning_rate": 2.542539773396429e-05,
-      "loss": 0.1115,
-      "mean_token_accuracy": 0.9633852392435074,
+      "loss": 0.0929,
+      "mean_token_accuracy": 0.9707833006978035,
       "step": 775
     },
     {
       "epoch": 4.539589442815249,
-      "grad_norm": 1.197546908803636,
+      "grad_norm": 0.8200285823098186,
       "learning_rate": 2.5391725499142253e-05,
-      "loss": 0.1357,
-      "mean_token_accuracy": 0.9662409871816635,
+      "loss": 0.0995,
+      "mean_token_accuracy": 0.9717404097318649,
       "step": 776
     },
     {
       "epoch": 4.545454545454545,
-      "grad_norm": 0.7588534732881831,
+      "grad_norm": 0.6868234256963321,
       "learning_rate": 2.535804095372648e-05,
-      "loss": 0.0901,
-      "mean_token_accuracy": 0.9716041162610054,
+      "loss": 0.0848,
+      "mean_token_accuracy": 0.9748669788241386,
       "step": 777
     },
     {
       "epoch": 4.551319648093841,
-      "grad_norm": 0.8780606997286142,
+      "grad_norm": 0.7683932196268053,
       "learning_rate": 2.5324344219978273e-05,
-      "loss": 0.0973,
-      "mean_token_accuracy": 0.9695460423827171,
+      "loss": 0.0909,
+      "mean_token_accuracy": 0.9719524756073952,
       "step": 778
     },
     {
       "epoch": 4.557184750733137,
-      "grad_norm": 0.8045552377061164,
+      "grad_norm": 0.8618259518246234,
       "learning_rate": 2.5290635420203162e-05,
-      "loss": 0.1021,
-      "mean_token_accuracy": 0.9703366085886955,
+      "loss": 0.0941,
+      "mean_token_accuracy": 0.9723029881715775,
       "step": 779
     },
     {
       "epoch": 4.563049853372434,
-      "grad_norm": 0.9358205564032939,
+      "grad_norm": 0.6999101687652451,
       "learning_rate": 2.525691467675048e-05,
-      "loss": 0.1159,
-      "mean_token_accuracy": 0.9681701958179474,
+      "loss": 0.0877,
+      "mean_token_accuracy": 0.9769936203956604,
       "step": 780
     },
     {
       "epoch": 4.568914956011731,
-      "grad_norm": 0.7554713795930256,
+      "grad_norm": 0.6504309188678539,
       "learning_rate": 2.5223182112012897e-05,
-      "loss": 0.101,
-      "mean_token_accuracy": 0.9721342325210571,
+      "loss": 0.085,
+      "mean_token_accuracy": 0.9745290204882622,
       "step": 781
     },
     {
       "epoch": 4.574780058651027,
-      "grad_norm": 0.5804191186796761,
+      "grad_norm": 0.5824157915995132,
       "learning_rate": 2.5189437848426016e-05,
-      "loss": 0.0809,
-      "mean_token_accuracy": 0.9757244363427162,
+      "loss": 0.0671,
+      "mean_token_accuracy": 0.9795333445072174,
       "step": 782
     },
     {
       "epoch": 4.580645161290323,
-      "grad_norm": 1.0167268132012308,
+      "grad_norm": 0.8952614421196792,
       "learning_rate": 2.515568200846787e-05,
-      "loss": 0.1193,
-      "mean_token_accuracy": 0.9649367853999138,
+      "loss": 0.1028,
+      "mean_token_accuracy": 0.9680057391524315,
       "step": 783
     },
     {
       "epoch": 4.586510263929619,
-      "grad_norm": 0.9322914799762485,
+      "grad_norm": 0.715413936449577,
       "learning_rate": 2.5121914714658526e-05,
-      "loss": 0.1034,
-      "mean_token_accuracy": 0.9690342247486115,
+      "loss": 0.0877,
+      "mean_token_accuracy": 0.9725442752242088,
       "step": 784
     },
     {
       "epoch": 4.592375366568915,
-      "grad_norm": 0.7802061746954657,
+      "grad_norm": 0.6999767791173405,
       "learning_rate": 2.5088136089559636e-05,
-      "loss": 0.0898,
-      "mean_token_accuracy": 0.9727255925536156,
+      "loss": 0.0772,
+      "mean_token_accuracy": 0.9761156216263771,
       "step": 785
     },
     {
       "epoch": 4.5982404692082115,
-      "grad_norm": 0.5844702630089805,
+      "grad_norm": 0.7377420435043683,
       "learning_rate": 2.5054346255773952e-05,
-      "loss": 0.0783,
-      "mean_token_accuracy": 0.9748023822903633,
+      "loss": 0.0711,
+      "mean_token_accuracy": 0.9770561680197716,
       "step": 786
     },
     {
       "epoch": 4.604105571847508,
-      "grad_norm": 0.7971317025860829,
+      "grad_norm": 0.8856700189046613,
       "learning_rate": 2.502054533594493e-05,
-      "loss": 0.0911,
-      "mean_token_accuracy": 0.9730968326330185,
+      "loss": 0.0823,
+      "mean_token_accuracy": 0.975522093474865,
       "step": 787
     },
     {
       "epoch": 4.609970674486804,
-      "grad_norm": 0.7592860917285904,
+      "grad_norm": 0.8051438952416194,
       "learning_rate": 2.4986733452756264e-05,
-      "loss": 0.0994,
-      "mean_token_accuracy": 0.9701942130923271,
+      "loss": 0.098,
+      "mean_token_accuracy": 0.974338486790657,
       "step": 788
     },
     {
       "epoch": 4.6158357771261,
-      "grad_norm": 0.8974946786275971,
+      "grad_norm": 0.6892859753641255,
       "learning_rate": 2.495291072893142e-05,
-      "loss": 0.1094,
-      "mean_token_accuracy": 0.9706485345959663,
+      "loss": 0.0865,
+      "mean_token_accuracy": 0.9751565381884575,
       "step": 789
     },
     {
       "epoch": 4.621700879765396,
-      "grad_norm": 0.9918330093432357,
+      "grad_norm": 0.731544286085826,
       "learning_rate": 2.4919077287233237e-05,
-      "loss": 0.1131,
-      "mean_token_accuracy": 0.9685276672244072,
+      "loss": 0.091,
+      "mean_token_accuracy": 0.975447840988636,
       "step": 790
     },
     {
       "epoch": 4.627565982404692,
-      "grad_norm": 0.7579797556002252,
+      "grad_norm": 0.7861172613577541,
       "learning_rate": 2.4885233250463445e-05,
-      "loss": 0.0999,
-      "mean_token_accuracy": 0.9702299237251282,
+      "loss": 0.0939,
+      "mean_token_accuracy": 0.9728690907359123,
       "step": 791
     },
     {
       "epoch": 4.633431085043989,
-      "grad_norm": 0.8102978461438669,
+      "grad_norm": 0.7402637083225126,
       "learning_rate": 2.485137874146222e-05,
-      "loss": 0.1013,
-      "mean_token_accuracy": 0.9672133773565292,
+      "loss": 0.0921,
+      "mean_token_accuracy": 0.9696981385350227,
       "step": 792
     },
     {
       "epoch": 4.639296187683285,
-      "grad_norm": 0.9750006795393742,
+      "grad_norm": 0.8249445529463938,
       "learning_rate": 2.4817513883107762e-05,
-      "loss": 0.1169,
-      "mean_token_accuracy": 0.963016502559185,
+      "loss": 0.1127,
+      "mean_token_accuracy": 0.9655818939208984,
       "step": 793
     },
     {
       "epoch": 4.645161290322581,
-      "grad_norm": 0.6784007500449948,
+      "grad_norm": 0.7805981393705633,
       "learning_rate": 2.4783638798315822e-05,
-      "loss": 0.0879,
-      "mean_token_accuracy": 0.9738304242491722,
+      "loss": 0.0865,
+      "mean_token_accuracy": 0.9749421775341034,
       "step": 794
     },
     {
       "epoch": 4.651026392961877,
-      "grad_norm": 0.9884915387381938,
+      "grad_norm": 0.693516849302169,
       "learning_rate": 2.4749753610039288e-05,
-      "loss": 0.0928,
-      "mean_token_accuracy": 0.9698395952582359,
+      "loss": 0.0767,
+      "mean_token_accuracy": 0.9765638262033463,
       "step": 795
     },
     {
       "epoch": 4.656891495601173,
-      "grad_norm": 0.804556017449245,
+      "grad_norm": 0.6592370960932631,
       "learning_rate": 2.4715858441267706e-05,
-      "loss": 0.0949,
-      "mean_token_accuracy": 0.9707165434956551,
+      "loss": 0.0848,
+      "mean_token_accuracy": 0.9731608182191849,
       "step": 796
     },
     {
       "epoch": 4.6627565982404695,
-      "grad_norm": 1.2020438772374247,
+      "grad_norm": 0.8410351105686258,
       "learning_rate": 2.4681953415026845e-05,
-      "loss": 0.1252,
-      "mean_token_accuracy": 0.9631582796573639,
+      "loss": 0.0947,
+      "mean_token_accuracy": 0.9714157283306122,
       "step": 797
     },
     {
       "epoch": 4.668621700879766,
-      "grad_norm": 0.8366726200311924,
+      "grad_norm": 0.6292824938428746,
       "learning_rate": 2.464803865437826e-05,
-      "loss": 0.0954,
-      "mean_token_accuracy": 0.9677169546484947,
+      "loss": 0.0805,
+      "mean_token_accuracy": 0.9759851396083832,
       "step": 798
     },
     {
       "epoch": 4.674486803519062,
-      "grad_norm": 1.0400561866526332,
+      "grad_norm": 0.8578069940125966,
       "learning_rate": 2.461411428241883e-05,
-      "loss": 0.1256,
-      "mean_token_accuracy": 0.964072935283184,
+      "loss": 0.0975,
+      "mean_token_accuracy": 0.9713935777544975,
       "step": 799
     },
     {
       "epoch": 4.680351906158358,
-      "grad_norm": 0.9623680214082836,
+      "grad_norm": 0.6320034192833647,
       "learning_rate": 2.4580180422280325e-05,
-      "loss": 0.1042,
-      "mean_token_accuracy": 0.9697307646274567,
+      "loss": 0.0824,
+      "mean_token_accuracy": 0.9738278761506081,
       "step": 800
     },
     {
       "epoch": 4.686217008797654,
-      "grad_norm": 0.9936707065124232,
+      "grad_norm": 0.7988988939828763,
       "learning_rate": 2.4546237197128955e-05,
-      "loss": 0.1056,
-      "mean_token_accuracy": 0.9692076668143272,
+      "loss": 0.0945,
+      "mean_token_accuracy": 0.9745538905262947,
       "step": 801
     },
     {
       "epoch": 4.69208211143695,
-      "grad_norm": 0.7547232442792623,
+      "grad_norm": 0.7108652667816605,
       "learning_rate": 2.451228473016492e-05,
-      "loss": 0.1019,
-      "mean_token_accuracy": 0.9720749333500862,
+      "loss": 0.0821,
+      "mean_token_accuracy": 0.9754965752363205,
       "step": 802
     },
     {
       "epoch": 4.697947214076247,
-      "grad_norm": 0.6539188611720734,
+      "grad_norm": 0.7536562662597699,
       "learning_rate": 2.447832314462196e-05,
-      "loss": 0.0988,
-      "mean_token_accuracy": 0.9708434194326401,
+      "loss": 0.0919,
+      "mean_token_accuracy": 0.9743342474102974,
       "step": 803
     },
     {
       "epoch": 4.703812316715543,
-      "grad_norm": 0.787149153305339,
+      "grad_norm": 0.6242244952368606,
       "learning_rate": 2.444435256376692e-05,
-      "loss": 0.0969,
-      "mean_token_accuracy": 0.9698523208498955,
+      "loss": 0.0798,
+      "mean_token_accuracy": 0.976905569434166,
       "step": 804
     },
     {
       "epoch": 4.709677419354839,
-      "grad_norm": 0.9214253887479193,
+      "grad_norm": 0.6397473344753726,
       "learning_rate": 2.4410373110899278e-05,
-      "loss": 0.0831,
-      "mean_token_accuracy": 0.9752322733402252,
+      "loss": 0.0712,
+      "mean_token_accuracy": 0.9791742563247681,
       "step": 805
     },
     {
       "epoch": 4.715542521994135,
-      "grad_norm": 0.96985990470589,
+      "grad_norm": 0.7440219387317061,
       "learning_rate": 2.4376384909350735e-05,
-      "loss": 0.1133,
-      "mean_token_accuracy": 0.9648006334900856,
+      "loss": 0.1014,
+      "mean_token_accuracy": 0.9721665903925896,
       "step": 806
     },
     {
       "epoch": 4.721407624633431,
-      "grad_norm": 0.7705243515793144,
+      "grad_norm": 0.6325421602189405,
       "learning_rate": 2.434238808248472e-05,
-      "loss": 0.0932,
-      "mean_token_accuracy": 0.9724510610103607,
+      "loss": 0.0807,
+      "mean_token_accuracy": 0.9754432812333107,
       "step": 807
     },
     {
       "epoch": 4.7272727272727275,
-      "grad_norm": 0.8385330995599455,
+      "grad_norm": 0.6613651496769305,
       "learning_rate": 2.4308382753696e-05,
-      "loss": 0.101,
-      "mean_token_accuracy": 0.9696679040789604,
+      "loss": 0.0844,
+      "mean_token_accuracy": 0.9745671674609184,
       "step": 808
     },
     {
       "epoch": 4.733137829912024,
-      "grad_norm": 0.9962089643314436,
+      "grad_norm": 0.655517420614535,
       "learning_rate": 2.4274369046410183e-05,
-      "loss": 0.1164,
-      "mean_token_accuracy": 0.9683369919657707,
+      "loss": 0.0873,
+      "mean_token_accuracy": 0.9765310138463974,
       "step": 809
     },
     {
       "epoch": 4.73900293255132,
-      "grad_norm": 0.7772156088138843,
+      "grad_norm": 0.6824568045638673,
       "learning_rate": 2.4240347084083284e-05,
-      "loss": 0.096,
-      "mean_token_accuracy": 0.9717853516340256,
+      "loss": 0.0883,
+      "mean_token_accuracy": 0.9757503718137741,
       "step": 810
     },
     {
       "epoch": 4.744868035190616,
-      "grad_norm": 3.9377209302415968,
+      "grad_norm": 0.7344137920344779,
       "learning_rate": 2.4206316990201288e-05,
-      "loss": 0.1192,
-      "mean_token_accuracy": 0.9630280062556267,
+      "loss": 0.091,
+      "mean_token_accuracy": 0.9691428020596504,
       "step": 811
     },
     {
       "epoch": 4.750733137829912,
-      "grad_norm": 1.052866557087443,
+      "grad_norm": 0.7658530881044803,
       "learning_rate": 2.4172278888279686e-05,
-      "loss": 0.1171,
-      "mean_token_accuracy": 0.9658652395009995,
+      "loss": 0.1013,
+      "mean_token_accuracy": 0.972835585474968,
       "step": 812
     },
     {
       "epoch": 4.756598240469208,
-      "grad_norm": 0.8332989638125091,
+      "grad_norm": 0.682396678860371,
       "learning_rate": 2.4138232901863053e-05,
-      "loss": 0.1067,
-      "mean_token_accuracy": 0.9677643477916718,
+      "loss": 0.0838,
+      "mean_token_accuracy": 0.9742336198687553,
       "step": 813
     },
     {
       "epoch": 4.762463343108505,
-      "grad_norm": 0.7676532634589678,
+      "grad_norm": 0.7462145098935278,
       "learning_rate": 2.4104179154524557e-05,
-      "loss": 0.0861,
-      "mean_token_accuracy": 0.9748517572879791,
+      "loss": 0.0843,
+      "mean_token_accuracy": 0.9767311811447144,
       "step": 814
     },
     {
       "epoch": 4.768328445747801,
-      "grad_norm": 0.7491375439484187,
+      "grad_norm": 0.647595797993278,
       "learning_rate": 2.4070117769865554e-05,
-      "loss": 0.0935,
-      "mean_token_accuracy": 0.9721824452280998,
+      "loss": 0.074,
+      "mean_token_accuracy": 0.9771558046340942,
       "step": 815
     },
     {
       "epoch": 4.774193548387097,
-      "grad_norm": 0.7082397718002087,
+      "grad_norm": 0.6375854586116831,
       "learning_rate": 2.403604887151512e-05,
-      "loss": 0.0986,
-      "mean_token_accuracy": 0.9698486328125,
+      "loss": 0.0825,
+      "mean_token_accuracy": 0.9733422249555588,
       "step": 816
     },
     {
       "epoch": 4.780058651026393,
-      "grad_norm": 0.8602958678227502,
+      "grad_norm": 0.6430806428065273,
       "learning_rate": 2.400197258312959e-05,
-      "loss": 0.0968,
-      "mean_token_accuracy": 0.9724563658237457,
+      "loss": 0.0761,
+      "mean_token_accuracy": 0.9772883579134941,
       "step": 817
     },
     {
       "epoch": 4.785923753665689,
-      "grad_norm": 0.7826309437388894,
+      "grad_norm": 0.7027690903069118,
       "learning_rate": 2.3967889028392115e-05,
-      "loss": 0.0854,
-      "mean_token_accuracy": 0.9723799675703049,
+      "loss": 0.0732,
+      "mean_token_accuracy": 0.9762856140732765,
       "step": 818
     },
     {
       "epoch": 4.7917888563049855,
-      "grad_norm": 0.8084978346561186,
+      "grad_norm": 0.7915351422852497,
       "learning_rate": 2.3933798331012255e-05,
-      "loss": 0.1024,
-      "mean_token_accuracy": 0.9672785773873329,
+      "loss": 0.0941,
+      "mean_token_accuracy": 0.971655435860157,
       "step": 819
     },
     {
       "epoch": 4.797653958944282,
-      "grad_norm": 0.8416916669164977,
+      "grad_norm": 0.8230077673870994,
       "learning_rate": 2.3899700614725458e-05,
-      "loss": 0.1021,
-      "mean_token_accuracy": 0.9661071300506592,
+      "loss": 0.0973,
+      "mean_token_accuracy": 0.9686101600527763,
       "step": 820
     },
     {
       "epoch": 4.803519061583578,
-      "grad_norm": 0.8279382705506013,
+      "grad_norm": 0.8204373001199515,
       "learning_rate": 2.3865596003292674e-05,
-      "loss": 0.101,
-      "mean_token_accuracy": 0.9684831723570824,
+      "loss": 0.097,
+      "mean_token_accuracy": 0.9719519168138504,
       "step": 821
     },
     {
       "epoch": 4.809384164222874,
-      "grad_norm": 0.8786095068042057,
+      "grad_norm": 0.7083813400624878,
       "learning_rate": 2.3831484620499867e-05,
-      "loss": 0.1074,
-      "mean_token_accuracy": 0.9685612991452217,
+      "loss": 0.0842,
+      "mean_token_accuracy": 0.976848654448986,
       "step": 822
     },
     {
       "epoch": 4.81524926686217,
-      "grad_norm": 1.0040505276363547,
+      "grad_norm": 0.7705104881876454,
       "learning_rate": 2.3797366590157565e-05,
-      "loss": 0.1195,
-      "mean_token_accuracy": 0.9612911120057106,
+      "loss": 0.0997,
+      "mean_token_accuracy": 0.9676300510764122,
       "step": 823
     },
     {
       "epoch": 4.821114369501466,
-      "grad_norm": 0.8072349724088913,
+      "grad_norm": 0.726991332245595,
       "learning_rate": 2.3763242036100457e-05,
-      "loss": 0.0987,
-      "mean_token_accuracy": 0.9705159142613411,
+      "loss": 0.0831,
+      "mean_token_accuracy": 0.974996529519558,
       "step": 824
     },
     {
       "epoch": 4.826979472140763,
-      "grad_norm": 0.9064708195199968,
+      "grad_norm": 0.6741623993634527,
       "learning_rate": 2.372911108218688e-05,
-      "loss": 0.1018,
-      "mean_token_accuracy": 0.9692626893520355,
+      "loss": 0.0863,
+      "mean_token_accuracy": 0.9751091077923775,
       "step": 825
     },
     {
       "epoch": 4.832844574780059,
-      "grad_norm": 1.0817212148035031,
+      "grad_norm": 0.899437782138063,
       "learning_rate": 2.3694973852298425e-05,
-      "loss": 0.1185,
-      "mean_token_accuracy": 0.9651465937495232,
+      "loss": 0.1008,
+      "mean_token_accuracy": 0.9714139476418495,
       "step": 826
     },
     {
       "epoch": 4.838709677419355,
-      "grad_norm": 0.8543951865046087,
+      "grad_norm": 0.702151665184058,
       "learning_rate": 2.3660830470339436e-05,
-      "loss": 0.1029,
-      "mean_token_accuracy": 0.9690027311444283,
+      "loss": 0.0814,
+      "mean_token_accuracy": 0.9744185507297516,
       "step": 827
     },
     {
       "epoch": 4.844574780058651,
-      "grad_norm": 0.6162780385937312,
+      "grad_norm": 0.6507730374741707,
       "learning_rate": 2.362668106023661e-05,
-      "loss": 0.0916,
-      "mean_token_accuracy": 0.9742050394415855,
+      "loss": 0.0829,
+      "mean_token_accuracy": 0.9753250107169151,
       "step": 828
     },
     {
       "epoch": 4.850439882697947,
-      "grad_norm": 0.9398325918918323,
+      "grad_norm": 0.9585116172423198,
       "learning_rate": 2.3592525745938515e-05,
-      "loss": 0.1007,
-      "mean_token_accuracy": 0.9716757461428642,
+      "loss": 0.0916,
+      "mean_token_accuracy": 0.974070705473423,
       "step": 829
     },
     {
       "epoch": 4.8563049853372435,
-      "grad_norm": 0.7602257778379286,
+      "grad_norm": 0.6456555295026087,
       "learning_rate": 2.355836465141513e-05,
-      "loss": 0.0794,
-      "mean_token_accuracy": 0.9756976217031479,
+      "loss": 0.0765,
+      "mean_token_accuracy": 0.9768242910504341,
       "step": 830
     },
     {
       "epoch": 4.86217008797654,
-      "grad_norm": 0.9022011629225589,
+      "grad_norm": 0.7629455851838094,
       "learning_rate": 2.3524197900657447e-05,
-      "loss": 0.1169,
-      "mean_token_accuracy": 0.9684564545750618,
+      "loss": 0.1012,
+      "mean_token_accuracy": 0.9716575890779495,
       "step": 831
     },
     {
       "epoch": 4.868035190615836,
-      "grad_norm": 0.650860880701899,
+      "grad_norm": 0.6385751398243038,
       "learning_rate": 2.3490025617676966e-05,
-      "loss": 0.0837,
-      "mean_token_accuracy": 0.975691981613636,
+      "loss": 0.0785,
+      "mean_token_accuracy": 0.978433296084404,
       "step": 832
     },
     {
       "epoch": 4.873900293255132,
-      "grad_norm": 0.8971676331873251,
+      "grad_norm": 0.7762741748913455,
       "learning_rate": 2.3455847926505283e-05,
-      "loss": 0.1129,
-      "mean_token_accuracy": 0.9650413244962692,
+      "loss": 0.0998,
+      "mean_token_accuracy": 0.9690258279442787,
       "step": 833
     },
     {
       "epoch": 4.879765395894428,
-      "grad_norm": 0.937427582210325,
+      "grad_norm": 0.6712371371046408,
       "learning_rate": 2.3421664951193596e-05,
-      "loss": 0.1098,
-      "mean_token_accuracy": 0.9684758335351944,
+      "loss": 0.0875,
+      "mean_token_accuracy": 0.9740894809365273,
       "step": 834
     },
     {
       "epoch": 4.885630498533724,
-      "grad_norm": 0.8814505193033745,
+      "grad_norm": 0.7441124698561299,
       "learning_rate": 2.3387476815812313e-05,
-      "loss": 0.1032,
-      "mean_token_accuracy": 0.9702811613678932,
+      "loss": 0.0927,
+      "mean_token_accuracy": 0.9717249646782875,
       "step": 835
     },
     {
       "epoch": 4.891495601173021,
-      "grad_norm": 0.8136347217934341,
+      "grad_norm": 0.8250944839663914,
       "learning_rate": 2.3353283644450556e-05,
-      "loss": 0.1049,
-      "mean_token_accuracy": 0.9681308940052986,
+      "loss": 0.1051,
+      "mean_token_accuracy": 0.9686624780297279,
       "step": 836
     },
     {
       "epoch": 4.897360703812317,
-      "grad_norm": 1.0361749212065177,
+      "grad_norm": 0.7052455188209211,
       "learning_rate": 2.3319085561215724e-05,
-      "loss": 0.1088,
-      "mean_token_accuracy": 0.9681940153241158,
+      "loss": 0.0904,
+      "mean_token_accuracy": 0.9723523110151291,
       "step": 837
     },
     {
       "epoch": 4.903225806451613,
-      "grad_norm": 0.7246651123258426,
+      "grad_norm": 0.7239462558423183,
       "learning_rate": 2.328488269023305e-05,
-      "loss": 0.0938,
-      "mean_token_accuracy": 0.9740229845046997,
+      "loss": 0.0825,
+      "mean_token_accuracy": 0.9772523939609528,
       "step": 838
     },
     {
       "epoch": 4.909090909090909,
-      "grad_norm": 0.9582355610327213,
+      "grad_norm": 0.7180840126524404,
       "learning_rate": 2.3250675155645136e-05,
-      "loss": 0.0994,
-      "mean_token_accuracy": 0.9708064943552017,
+      "loss": 0.0864,
+      "mean_token_accuracy": 0.9757138639688492,
       "step": 839
     },
     {
       "epoch": 4.914956011730205,
-      "grad_norm": 0.8597667767361529,
+      "grad_norm": 0.6810604724605698,
       "learning_rate": 2.3216463081611525e-05,
-      "loss": 0.0939,
-      "mean_token_accuracy": 0.9721712917089462,
+      "loss": 0.0734,
+      "mean_token_accuracy": 0.9767258539795876,
       "step": 840
     },
     {
       "epoch": 4.9208211143695015,
-      "grad_norm": 0.9203287999724475,
+      "grad_norm": 0.9004959050046102,
       "learning_rate": 2.3182246592308235e-05,
-      "loss": 0.1134,
-      "mean_token_accuracy": 0.9678708836436272,
+      "loss": 0.1048,
+      "mean_token_accuracy": 0.9709803834557533,
       "step": 841
     },
     {
       "epoch": 4.926686217008798,
-      "grad_norm": 0.7731015246866831,
+      "grad_norm": 0.6903589644398147,
       "learning_rate": 2.314802581192728e-05,
-      "loss": 0.0909,
-      "mean_token_accuracy": 0.9706169962882996,
+      "loss": 0.0861,
+      "mean_token_accuracy": 0.9735254496335983,
       "step": 842
     },
     {
       "epoch": 4.932551319648094,
-      "grad_norm": 0.9691449435397647,
+      "grad_norm": 0.9388649809230527,
       "learning_rate": 2.311380086467629e-05,
-      "loss": 0.1138,
-      "mean_token_accuracy": 0.9661426022648811,
+      "loss": 0.1087,
+      "mean_token_accuracy": 0.9675555154681206,
       "step": 843
     },
     {
       "epoch": 4.93841642228739,
-      "grad_norm": 0.72854018802925,
+      "grad_norm": 0.6728193407529811,
       "learning_rate": 2.3079571874778e-05,
-      "loss": 0.1007,
-      "mean_token_accuracy": 0.9667091220617294,
+      "loss": 0.0933,
+      "mean_token_accuracy": 0.9730138704180717,
       "step": 844
     },
     {
       "epoch": 4.944281524926686,
-      "grad_norm": 0.6600580029561475,
+      "grad_norm": 0.6533598028959027,
       "learning_rate": 2.304533896646981e-05,
-      "loss": 0.083,
-      "mean_token_accuracy": 0.9744493290781975,
+      "loss": 0.0847,
+      "mean_token_accuracy": 0.9751003682613373,
       "step": 845
     },
     {
       "epoch": 4.9501466275659824,
-      "grad_norm": 0.8077377461501789,
+      "grad_norm": 0.6164310940206862,
       "learning_rate": 2.3011102264003354e-05,
-      "loss": 0.0992,
-      "mean_token_accuracy": 0.9715530574321747,
+      "loss": 0.0775,
+      "mean_token_accuracy": 0.9751841053366661,
       "step": 846
     },
     {
       "epoch": 4.956011730205279,
-      "grad_norm": 0.8026305302127565,
+      "grad_norm": 0.6639517976692416,
       "learning_rate": 2.2976861891644045e-05,
-      "loss": 0.0941,
-      "mean_token_accuracy": 0.9704462736845016,
+      "loss": 0.0836,
+      "mean_token_accuracy": 0.9767726510763168,
       "step": 847
     },
     {
       "epoch": 4.961876832844575,
-      "grad_norm": 0.839509361357775,
+      "grad_norm": 0.62090714661712,
       "learning_rate": 2.2942617973670596e-05,
-      "loss": 0.0955,
-      "mean_token_accuracy": 0.970968209207058,
+      "loss": 0.0728,
+      "mean_token_accuracy": 0.9758273363113403,
       "step": 848
     },
     {
       "epoch": 4.967741935483871,
-      "grad_norm": 1.0376899814733738,
+      "grad_norm": 0.8452829280392841,
       "learning_rate": 2.2908370634374603e-05,
-      "loss": 0.1387,
-      "mean_token_accuracy": 0.9611359685659409,
+      "loss": 0.1073,
+      "mean_token_accuracy": 0.9687742963433266,
       "step": 849
     },
     {
       "epoch": 4.973607038123167,
-      "grad_norm": 0.9686754058096747,
+      "grad_norm": 0.6759201564046626,
       "learning_rate": 2.287411999806007e-05,
-      "loss": 0.1103,
-      "mean_token_accuracy": 0.9722190052270889,
+      "loss": 0.0801,
+      "mean_token_accuracy": 0.9753365591168404,
       "step": 850
     },
     {
       "epoch": 4.979472140762463,
-      "grad_norm": 0.8862617626596047,
+      "grad_norm": 0.8874012153781123,
       "learning_rate": 2.2839866189042983e-05,
-      "loss": 0.0936,
-      "mean_token_accuracy": 0.9709000736474991,
+      "loss": 0.0851,
+      "mean_token_accuracy": 0.9758308529853821,
       "step": 851
     },
     {
       "epoch": 4.9853372434017595,
-      "grad_norm": 0.8477877839763255,
+      "grad_norm": 0.6394628435704744,
       "learning_rate": 2.2805609331650826e-05,
-      "loss": 0.1113,
-      "mean_token_accuracy": 0.9674248471856117,
+      "loss": 0.0887,
+      "mean_token_accuracy": 0.9720895141363144,
       "step": 852
     },
     {
       "epoch": 4.991202346041056,
-      "grad_norm": 0.8866585241499966,
+      "grad_norm": 0.6712758849886379,
       "learning_rate": 2.2771349550222158e-05,
-      "loss": 0.1004,
-      "mean_token_accuracy": 0.9717306420207024,
+      "loss": 0.0802,
+      "mean_token_accuracy": 0.9771791622042656,
       "step": 853
     },
     {
       "epoch": 4.997067448680352,
-      "grad_norm": 0.6095610289437057,
+      "grad_norm": 0.6076118168062584,
       "learning_rate": 2.273708696910616e-05,
-      "loss": 0.0823,
-      "mean_token_accuracy": 0.9722500741481781,
+      "loss": 0.0766,
+      "mean_token_accuracy": 0.9765864163637161,
       "step": 854
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.6095610289437057,
+      "grad_norm": 0.6076118168062584,
       "learning_rate": 2.2702821712662147e-05,
-      "loss": 0.0798,
-      "mean_token_accuracy": 0.9760673493146896,
+      "loss": 0.073,
+      "mean_token_accuracy": 0.9801962226629257,
       "step": 855
     },
     {
       "epoch": 5.005865102639296,
-      "grad_norm": 0.8433148437880541,
+      "grad_norm": 1.0026765048680202,
       "learning_rate": 2.2668553905259168e-05,
-      "loss": 0.0844,
-      "mean_token_accuracy": 0.9737215414643288,
+      "loss": 0.0693,
+      "mean_token_accuracy": 0.9787380993366241,
       "step": 856
     },
     {
       "epoch": 5.011730205278592,
-      "grad_norm": 0.5159271864203083,
+      "grad_norm": 0.4886645531830975,
       "learning_rate": 2.2634283671275523e-05,
-      "loss": 0.0741,
-      "mean_token_accuracy": 0.977745771408081,
+      "loss": 0.0589,
+      "mean_token_accuracy": 0.9821438789367676,
       "step": 857
     },
     {
       "epoch": 5.0175953079178885,
-      "grad_norm": 0.6773169070419274,
+      "grad_norm": 0.5221300385899804,
       "learning_rate": 2.2600011135098323e-05,
-      "loss": 0.0807,
-      "mean_token_accuracy": 0.9754450246691704,
+      "loss": 0.0647,
+      "mean_token_accuracy": 0.980193242430687,
       "step": 858
     },
     {
       "epoch": 5.023460410557185,
-      "grad_norm": 0.6566845303303651,
+      "grad_norm": 0.506920475477819,
       "learning_rate": 2.2565736421123035e-05,
-      "loss": 0.0987,
-      "mean_token_accuracy": 0.973513200879097,
+      "loss": 0.0759,
+      "mean_token_accuracy": 0.9781730622053146,
       "step": 859
     },
     {
       "epoch": 5.029325513196481,
-      "grad_norm": 1.0725755922059608,
+      "grad_norm": 0.7195873400454875,
       "learning_rate": 2.253145965375302e-05,
-      "loss": 0.1049,
-      "mean_token_accuracy": 0.9684402048587799,
+      "loss": 0.0839,
+      "mean_token_accuracy": 0.974876344203949,
       "step": 860
     },
     {
       "epoch": 5.035190615835777,
-      "grad_norm": 0.7950554728335751,
+      "grad_norm": 0.5533130891308242,
       "learning_rate": 2.2497180957399108e-05,
-      "loss": 0.1012,
-      "mean_token_accuracy": 0.9666916355490685,
+      "loss": 0.0788,
+      "mean_token_accuracy": 0.9747349694371223,
       "step": 861
     },
     {
       "epoch": 5.041055718475073,
-      "grad_norm": 0.8569776292433064,
+      "grad_norm": 0.6804425923592532,
       "learning_rate": 2.246290045647912e-05,
-      "loss": 0.0788,
-      "mean_token_accuracy": 0.97861647605896,
+      "loss": 0.0643,
+      "mean_token_accuracy": 0.9811800122261047,
       "step": 862
     },
     {
       "epoch": 5.0469208211143695,
-      "grad_norm": 0.6247190584519964,
+      "grad_norm": 0.5660705321290153,
       "learning_rate": 2.242861827541742e-05,
-      "loss": 0.0758,
-      "mean_token_accuracy": 0.9780908152461052,
+      "loss": 0.0598,
+      "mean_token_accuracy": 0.9806637167930603,
       "step": 863
     },
     {
       "epoch": 5.052785923753666,
-      "grad_norm": 0.7794311246553162,
+      "grad_norm": 0.4533661141133845,
       "learning_rate": 2.2394334538644494e-05,
-      "loss": 0.08,
-      "mean_token_accuracy": 0.9768287613987923,
+      "loss": 0.0683,
+      "mean_token_accuracy": 0.9784892648458481,
       "step": 864
     },
     {
       "epoch": 5.058651026392962,
-      "grad_norm": 0.8297165299310638,
+      "grad_norm": 0.7256930320993769,
       "learning_rate": 2.2360049370596454e-05,
-      "loss": 0.095,
-      "mean_token_accuracy": 0.9734896495938301,
+      "loss": 0.0753,
+      "mean_token_accuracy": 0.9793033376336098,
       "step": 865
     },
     {
       "epoch": 5.064516129032258,
-      "grad_norm": 0.7979594762098186,
+      "grad_norm": 0.7563840557949948,
       "learning_rate": 2.2325762895714616e-05,
-      "loss": 0.087,
-      "mean_token_accuracy": 0.9727722704410553,
+      "loss": 0.0776,
+      "mean_token_accuracy": 0.9749964252114296,
       "step": 866
     },
     {
       "epoch": 5.070381231671554,
-      "grad_norm": 0.6589844664319869,
+      "grad_norm": 0.6027240259420076,
       "learning_rate": 2.2291475238445033e-05,
-      "loss": 0.0901,
-      "mean_token_accuracy": 0.9736703634262085,
+      "loss": 0.0748,
+      "mean_token_accuracy": 0.977846160531044,
       "step": 867
     },
     {
       "epoch": 5.07624633431085,
-      "grad_norm": 2.042890482434605,
+      "grad_norm": 0.7312019193066984,
       "learning_rate": 2.225718652323805e-05,
-      "loss": 0.0853,
-      "mean_token_accuracy": 0.9707973897457123,
+      "loss": 0.0748,
+      "mean_token_accuracy": 0.9755967482924461,
       "step": 868
     },
     {
       "epoch": 5.0821114369501466,
-      "grad_norm": 0.9022788360958364,
+      "grad_norm": 0.5400054143225983,
       "learning_rate": 2.2222896874547856e-05,
-      "loss": 0.1093,
-      "mean_token_accuracy": 0.97090233117342,
+      "loss": 0.08,
+      "mean_token_accuracy": 0.9775899350643158,
       "step": 869
     },
     {
       "epoch": 5.087976539589443,
-      "grad_norm": 0.773657493300953,
+      "grad_norm": 0.749736952140823,
       "learning_rate": 2.2188606416832035e-05,
-      "loss": 0.0699,
-      "mean_token_accuracy": 0.9799191579222679,
+      "loss": 0.063,
+      "mean_token_accuracy": 0.9818405732512474,
       "step": 870
     },
     {
       "epoch": 5.093841642228739,
-      "grad_norm": 0.5823987344196742,
+      "grad_norm": 0.7238913429587271,
       "learning_rate": 2.2154315274551093e-05,
-      "loss": 0.0934,
-      "mean_token_accuracy": 0.9723178669810295,
+      "loss": 0.0829,
+      "mean_token_accuracy": 0.9755804762244225,
       "step": 871
     },
     {
       "epoch": 5.099706744868035,
-      "grad_norm": 0.6786086304917306,
+      "grad_norm": 0.7005006356881465,
       "learning_rate": 2.2120023572168026e-05,
-      "loss": 0.0817,
-      "mean_token_accuracy": 0.9762729480862617,
+      "loss": 0.0678,
+      "mean_token_accuracy": 0.9808993488550186,
       "step": 872
     },
     {
       "epoch": 5.105571847507331,
-      "grad_norm": 0.7089902588796277,
+      "grad_norm": 0.6109157423351927,
       "learning_rate": 2.208573143414787e-05,
-      "loss": 0.079,
-      "mean_token_accuracy": 0.9801476299762726,
+      "loss": 0.0637,
+      "mean_token_accuracy": 0.9813826605677605,
       "step": 873
     },
     {
       "epoch": 5.1114369501466275,
-      "grad_norm": 0.7326859159400232,
+      "grad_norm": 0.5061420246936063,
       "learning_rate": 2.2051438984957234e-05,
-      "loss": 0.0888,
-      "mean_token_accuracy": 0.9746009409427643,
+      "loss": 0.0657,
+      "mean_token_accuracy": 0.9802054837346077,
       "step": 874
     },
     {
       "epoch": 5.117302052785924,
-      "grad_norm": 0.6965082129251428,
+      "grad_norm": 0.553717575776044,
       "learning_rate": 2.2017146349063855e-05,
-      "loss": 0.0902,
-      "mean_token_accuracy": 0.9732745662331581,
+      "loss": 0.0792,
+      "mean_token_accuracy": 0.9763247072696686,
       "step": 875
     },
     {
       "epoch": 5.12316715542522,
-      "grad_norm": 0.6205158598733057,
+      "grad_norm": 0.6863136450685561,
       "learning_rate": 2.1982853650936154e-05,
-      "loss": 0.0846,
-      "mean_token_accuracy": 0.9761428236961365,
+      "loss": 0.0713,
+      "mean_token_accuracy": 0.9781040996313095,
       "step": 876
     },
     {
       "epoch": 5.129032258064516,
-      "grad_norm": 0.6306034174676098,
+      "grad_norm": 0.5124269447535285,
       "learning_rate": 2.1948561015042772e-05,
-      "loss": 0.089,
-      "mean_token_accuracy": 0.9759569987654686,
+      "loss": 0.0733,
+      "mean_token_accuracy": 0.978808619081974,
       "step": 877
     },
     {
       "epoch": 5.134897360703812,
-      "grad_norm": 0.7374044872193467,
+      "grad_norm": 0.6562503546420304,
       "learning_rate": 2.1914268565852134e-05,
-      "loss": 0.1016,
-      "mean_token_accuracy": 0.9703678116202354,
+      "loss": 0.0768,
+      "mean_token_accuracy": 0.9771819114685059,
       "step": 878
     },
     {
       "epoch": 5.140762463343108,
-      "grad_norm": 0.65191353602101,
+      "grad_norm": 0.5648878023806803,
       "learning_rate": 2.1879976427831983e-05,
-      "loss": 0.0834,
-      "mean_token_accuracy": 0.9758019149303436,
+      "loss": 0.0746,
+      "mean_token_accuracy": 0.9797395169734955,
       "step": 879
     },
     {
       "epoch": 5.146627565982405,
-      "grad_norm": 0.7506644384525571,
+      "grad_norm": 0.5567734178801955,
       "learning_rate": 2.1845684725448916e-05,
-      "loss": 0.0956,
-      "mean_token_accuracy": 0.9727787226438522,
+      "loss": 0.0774,
+      "mean_token_accuracy": 0.9762084037065506,
       "step": 880
     },
     {
       "epoch": 5.152492668621701,
-      "grad_norm": 0.7900929308120329,
+      "grad_norm": 0.604016753073881,
       "learning_rate": 2.181139358316797e-05,
-      "loss": 0.0857,
-      "mean_token_accuracy": 0.9730308651924133,
+      "loss": 0.0799,
+      "mean_token_accuracy": 0.9763386994600296,
       "step": 881
     },
     {
       "epoch": 5.158357771260997,
-      "grad_norm": 0.6620605131204909,
+      "grad_norm": 0.7020291349192862,
       "learning_rate": 2.1777103125452146e-05,
-      "loss": 0.0848,
-      "mean_token_accuracy": 0.9756103083491325,
+      "loss": 0.0716,
+      "mean_token_accuracy": 0.9784782081842422,
       "step": 882
     },
     {
       "epoch": 5.164222873900293,
-      "grad_norm": 0.8667893086755721,
+      "grad_norm": 0.7007843726478299,
       "learning_rate": 2.1742813476761958e-05,
-      "loss": 0.1017,
-      "mean_token_accuracy": 0.9711831659078598,
+      "loss": 0.0827,
+      "mean_token_accuracy": 0.9760249108076096,
       "step": 883
     },
     {
       "epoch": 5.170087976539589,
-      "grad_norm": 1.7675263240094965,
+      "grad_norm": 0.5702016510876317,
       "learning_rate": 2.1708524761554973e-05,
-      "loss": 0.0837,
-      "mean_token_accuracy": 0.9736537113785744,
+      "loss": 0.0754,
+      "mean_token_accuracy": 0.9762247651815414,
       "step": 884
     },
     {
       "epoch": 5.1759530791788855,
-      "grad_norm": 0.5726645519349775,
+      "grad_norm": 0.5730616842732398,
       "learning_rate": 2.1674237104285393e-05,
-      "loss": 0.0827,
-      "mean_token_accuracy": 0.9737741276621819,
+      "loss": 0.0668,
+      "mean_token_accuracy": 0.9794589728116989,
       "step": 885
     },
     {
       "epoch": 5.181818181818182,
-      "grad_norm": 0.7145760041095544,
+      "grad_norm": 0.49051489661277814,
       "learning_rate": 2.1639950629403552e-05,
-      "loss": 0.0766,
-      "mean_token_accuracy": 0.9776047691702843,
+      "loss": 0.0627,
+      "mean_token_accuracy": 0.9801739826798439,
       "step": 886
     },
     {
       "epoch": 5.187683284457478,
-      "grad_norm": 0.8323224710208923,
+      "grad_norm": 0.6147350528773317,
       "learning_rate": 2.1605665461355515e-05,
-      "loss": 0.0865,
-      "mean_token_accuracy": 0.975310780107975,
+      "loss": 0.0748,
+      "mean_token_accuracy": 0.9772293791174889,
       "step": 887
     },
     {
       "epoch": 5.193548387096774,
-      "grad_norm": 0.7231739554172291,
+      "grad_norm": 0.574887287790943,
       "learning_rate": 2.1571381724582588e-05,
-      "loss": 0.0929,
-      "mean_token_accuracy": 0.9715317115187645,
+      "loss": 0.0737,
+      "mean_token_accuracy": 0.9775480031967163,
       "step": 888
     },
     {
       "epoch": 5.19941348973607,
-      "grad_norm": 0.909867276658091,
+      "grad_norm": 0.5802402780421291,
       "learning_rate": 2.153709954352089e-05,
-      "loss": 0.0844,
-      "mean_token_accuracy": 0.9758851453661919,
+      "loss": 0.0707,
+      "mean_token_accuracy": 0.9791269749403,
       "step": 889
     },
     {
       "epoch": 5.205278592375366,
-      "grad_norm": 0.8188932670265725,
+      "grad_norm": 0.5892378515440839,
       "learning_rate": 2.15028190426009e-05,
-      "loss": 0.0918,
-      "mean_token_accuracy": 0.9724317267537117,
+      "loss": 0.0795,
+      "mean_token_accuracy": 0.9762731716036797,
       "step": 890
     },
     {
       "epoch": 5.211143695014663,
-      "grad_norm": 0.5670047382739889,
+      "grad_norm": 0.561441923874465,
       "learning_rate": 2.1468540346246986e-05,
-      "loss": 0.0774,
-      "mean_token_accuracy": 0.9727488458156586,
+      "loss": 0.0825,
+      "mean_token_accuracy": 0.9746378436684608,
       "step": 891
     },
     {
       "epoch": 5.217008797653959,
-      "grad_norm": 0.9745874503233469,
+      "grad_norm": 0.7693860021671447,
       "learning_rate": 2.143426357887697e-05,
-      "loss": 0.0982,
-      "mean_token_accuracy": 0.9717305302619934,
+      "loss": 0.0765,
+      "mean_token_accuracy": 0.9771846383810043,
       "step": 892
     },
     {
       "epoch": 5.222873900293255,
-      "grad_norm": 0.7154601998505632,
+      "grad_norm": 0.5880074332718885,
       "learning_rate": 2.139998886490169e-05,
-      "loss": 0.0682,
-      "mean_token_accuracy": 0.9806524217128754,
+      "loss": 0.0632,
+      "mean_token_accuracy": 0.9813052341341972,
       "step": 893
     },
     {
       "epoch": 5.228739002932551,
-      "grad_norm": 0.5296720463890491,
+      "grad_norm": 0.5589521393363575,
       "learning_rate": 2.136571632872449e-05,
-      "loss": 0.0877,
-      "mean_token_accuracy": 0.9748145341873169,
+      "loss": 0.0783,
+      "mean_token_accuracy": 0.9764862582087517,
       "step": 894
     },
     {
       "epoch": 5.234604105571847,
-      "grad_norm": 0.8692292566562774,
+      "grad_norm": 0.6958118598247672,
       "learning_rate": 2.1331446094740845e-05,
-      "loss": 0.1122,
-      "mean_token_accuracy": 0.9713733717799187,
+      "loss": 0.0813,
+      "mean_token_accuracy": 0.9756343215703964,
       "step": 895
     },
     {
       "epoch": 5.2404692082111435,
-      "grad_norm": 0.9200261999499213,
+      "grad_norm": 0.648605914341562,
       "learning_rate": 2.1297178287337865e-05,
-      "loss": 0.1022,
-      "mean_token_accuracy": 0.9730254113674164,
+      "loss": 0.0736,
+      "mean_token_accuracy": 0.9772472456097603,
       "step": 896
     },
     {
       "epoch": 5.24633431085044,
-      "grad_norm": 0.8792886399633073,
+      "grad_norm": 0.6859493516947144,
       "learning_rate": 2.1262913030893855e-05,
-      "loss": 0.103,
-      "mean_token_accuracy": 0.9704674929380417,
+      "loss": 0.0773,
+      "mean_token_accuracy": 0.9786031097173691,
       "step": 897
     },
     {
       "epoch": 5.252199413489736,
-      "grad_norm": 0.9771077901678256,
+      "grad_norm": 0.6803915454335052,
       "learning_rate": 2.1228650449777848e-05,
-      "loss": 0.0925,
-      "mean_token_accuracy": 0.972001887857914,
+      "loss": 0.0798,
+      "mean_token_accuracy": 0.9753960222005844,
       "step": 898
     },
     {
       "epoch": 5.258064516129032,
-      "grad_norm": 0.7113805154464254,
+      "grad_norm": 0.5949700617476797,
       "learning_rate": 2.1194390668349186e-05,
-      "loss": 0.0945,
-      "mean_token_accuracy": 0.9730637967586517,
+      "loss": 0.0771,
+      "mean_token_accuracy": 0.9780300334095955,
       "step": 899
     },
     {
       "epoch": 5.263929618768328,
-      "grad_norm": 0.7719540492961735,
+      "grad_norm": 0.7410245541650864,
       "learning_rate": 2.116013381095703e-05,
-      "loss": 0.0844,
-      "mean_token_accuracy": 0.9765499979257584,
+      "loss": 0.0697,
+      "mean_token_accuracy": 0.9797634407877922,
       "step": 900
     },
     {
       "epoch": 5.269794721407624,
-      "grad_norm": 0.5930886595639958,
+      "grad_norm": 0.4455821502764853,
       "learning_rate": 2.112588000193994e-05,
-      "loss": 0.0775,
-      "mean_token_accuracy": 0.9765195026993752,
+      "loss": 0.0712,
+      "mean_token_accuracy": 0.9782530590891838,
       "step": 901
     },
     {
       "epoch": 5.275659824046921,
-      "grad_norm": 0.823286226023431,
+      "grad_norm": 0.6951534941196735,
       "learning_rate": 2.1091629365625403e-05,
-      "loss": 0.0806,
-      "mean_token_accuracy": 0.9732163697481155,
+      "loss": 0.067,
+      "mean_token_accuracy": 0.979590117931366,
       "step": 902
     },
     {
       "epoch": 5.281524926686217,
-      "grad_norm": 0.9117273368025238,
+      "grad_norm": 0.5693519513539006,
       "learning_rate": 2.105738202632941e-05,
-      "loss": 0.0965,
-      "mean_token_accuracy": 0.973268635571003,
+      "loss": 0.0795,
+      "mean_token_accuracy": 0.97862908244133,
       "step": 903
     },
     {
       "epoch": 5.287390029325513,
-      "grad_norm": 0.6499800912484074,
+      "grad_norm": 0.6074837432744669,
       "learning_rate": 2.1023138108355957e-05,
-      "loss": 0.0761,
-      "mean_token_accuracy": 0.9788585156202316,
+      "loss": 0.0611,
+      "mean_token_accuracy": 0.9821363985538483,
       "step": 904
     },
     {
       "epoch": 5.293255131964809,
-      "grad_norm": 0.8350311296266436,
+      "grad_norm": 0.49778279285216703,
       "learning_rate": 2.098889773599665e-05,
-      "loss": 0.1091,
-      "mean_token_accuracy": 0.9673629701137543,
+      "loss": 0.0843,
+      "mean_token_accuracy": 0.9768336862325668,
       "step": 905
     },
     {
       "epoch": 5.299120234604105,
-      "grad_norm": 0.8758013377718885,
+      "grad_norm": 0.7254806511844373,
       "learning_rate": 2.0954661033530193e-05,
-      "loss": 0.0832,
-      "mean_token_accuracy": 0.9746165573596954,
+      "loss": 0.0663,
+      "mean_token_accuracy": 0.9805325642228127,
       "step": 906
     },
     {
       "epoch": 5.3049853372434015,
-      "grad_norm": 0.7318638597492443,
+      "grad_norm": 0.4628049857510997,
       "learning_rate": 2.0920428125222004e-05,
-      "loss": 0.0881,
-      "mean_token_accuracy": 0.9729284644126892,
+      "loss": 0.0717,
+      "mean_token_accuracy": 0.9796890690922737,
       "step": 907
     },
     {
       "epoch": 5.310850439882698,
-      "grad_norm": 0.5207542607039044,
+      "grad_norm": 0.48912434388430215,
       "learning_rate": 2.0886199135323712e-05,
-      "loss": 0.0907,
-      "mean_token_accuracy": 0.9727116152644157,
+      "loss": 0.0773,
+      "mean_token_accuracy": 0.9784531816840172,
       "step": 908
     },
     {
       "epoch": 5.316715542521994,
-      "grad_norm": 0.8002194745455268,
+      "grad_norm": 0.6523411765325368,
       "learning_rate": 2.085197418807272e-05,
-      "loss": 0.0903,
-      "mean_token_accuracy": 0.9738972410559654,
+      "loss": 0.0677,
+      "mean_token_accuracy": 0.9798686727881432,
       "step": 909
     },
     {
       "epoch": 5.32258064516129,
-      "grad_norm": 0.7003191473454057,
+      "grad_norm": 0.6280379928431413,
       "learning_rate": 2.0817753407691774e-05,
-      "loss": 0.0904,
-      "mean_token_accuracy": 0.9728701040148735,
+      "loss": 0.0765,
+      "mean_token_accuracy": 0.9757416620850563,
       "step": 910
     },
     {
       "epoch": 5.328445747800586,
-      "grad_norm": 0.6997923911492139,
+      "grad_norm": 0.6506838547506919,
       "learning_rate": 2.0783536918388477e-05,
-      "loss": 0.1048,
-      "mean_token_accuracy": 0.9690842255949974,
+      "loss": 0.0823,
+      "mean_token_accuracy": 0.9750187322497368,
       "step": 911
     },
     {
       "epoch": 5.334310850439882,
-      "grad_norm": 1.573742684312648,
+      "grad_norm": 0.5740998141514729,
       "learning_rate": 2.0749324844354867e-05,
-      "loss": 0.091,
-      "mean_token_accuracy": 0.9728436172008514,
+      "loss": 0.0721,
+      "mean_token_accuracy": 0.9790320321917534,
       "step": 912
     },
     {
       "epoch": 5.340175953079179,
-      "grad_norm": 0.6744667083171827,
+      "grad_norm": 0.6100250700673111,
       "learning_rate": 2.0715117309766953e-05,
-      "loss": 0.0798,
-      "mean_token_accuracy": 0.9753686562180519,
+      "loss": 0.0801,
+      "mean_token_accuracy": 0.9779443517327309,
       "step": 913
     },
     {
       "epoch": 5.346041055718475,
-      "grad_norm": 0.5591477289746339,
+      "grad_norm": 0.6254016260556631,
       "learning_rate": 2.068091443878428e-05,
-      "loss": 0.0939,
-      "mean_token_accuracy": 0.9701094627380371,
+      "loss": 0.0806,
+      "mean_token_accuracy": 0.9745582416653633,
       "step": 914
     },
     {
       "epoch": 5.351906158357771,
-      "grad_norm": 0.8062620386979885,
+      "grad_norm": 0.6948395876064227,
       "learning_rate": 2.064671635554945e-05,
-      "loss": 0.104,
-      "mean_token_accuracy": 0.9726444035768509,
+      "loss": 0.0972,
+      "mean_token_accuracy": 0.9737641960382462,
       "step": 915
     },
     {
       "epoch": 5.357771260997067,
-      "grad_norm": 0.7825370740045777,
+      "grad_norm": 0.7081713644165885,
       "learning_rate": 2.0612523184187693e-05,
-      "loss": 0.0815,
-      "mean_token_accuracy": 0.9739454016089439,
+      "loss": 0.066,
+      "mean_token_accuracy": 0.9779355525970459,
       "step": 916
     },
     {
       "epoch": 5.363636363636363,
-      "grad_norm": 0.5988992551643588,
+      "grad_norm": 0.5471530801482298,
       "learning_rate": 2.057833504880641e-05,
-      "loss": 0.0945,
-      "mean_token_accuracy": 0.9690568298101425,
+      "loss": 0.0723,
+      "mean_token_accuracy": 0.9762101992964745,
       "step": 917
     },
     {
       "epoch": 5.3695014662756595,
-      "grad_norm": 0.8655470524535265,
+      "grad_norm": 0.5378564258248137,
       "learning_rate": 2.054415207349473e-05,
-      "loss": 0.1016,
-      "mean_token_accuracy": 0.9704934805631638,
+      "loss": 0.0774,
+      "mean_token_accuracy": 0.976969949901104,
       "step": 918
     },
     {
       "epoch": 5.375366568914956,
-      "grad_norm": 0.6363959385625477,
+      "grad_norm": 0.5600324469227966,
       "learning_rate": 2.0509974382323043e-05,
-      "loss": 0.0866,
-      "mean_token_accuracy": 0.9745766744017601,
+      "loss": 0.0712,
+      "mean_token_accuracy": 0.9783627018332481,
       "step": 919
     },
     {
       "epoch": 5.381231671554252,
-      "grad_norm": 0.6258477209760515,
+      "grad_norm": 0.5079271037640322,
       "learning_rate": 2.047580209934256e-05,
-      "loss": 0.0846,
-      "mean_token_accuracy": 0.9737055748701096,
+      "loss": 0.078,
+      "mean_token_accuracy": 0.9777331501245499,
       "step": 920
     },
     {
       "epoch": 5.387096774193548,
-      "grad_norm": 0.6613535414703848,
+      "grad_norm": 0.6585224453075607,
       "learning_rate": 2.0441635348584876e-05,
-      "loss": 0.0881,
-      "mean_token_accuracy": 0.9749500304460526,
+      "loss": 0.0773,
+      "mean_token_accuracy": 0.9772825464606285,
       "step": 921
     },
     {
       "epoch": 5.392961876832844,
-      "grad_norm": 0.7602735845477481,
+      "grad_norm": 0.6247906925375318,
       "learning_rate": 2.0407474254061498e-05,
-      "loss": 0.1114,
-      "mean_token_accuracy": 0.9694864973425865,
+      "loss": 0.0831,
+      "mean_token_accuracy": 0.9741897881031036,
       "step": 922
     },
     {
       "epoch": 5.39882697947214,
-      "grad_norm": 0.626037285164579,
+      "grad_norm": 0.5472561096522515,
       "learning_rate": 2.0373318939763397e-05,
-      "loss": 0.0877,
-      "mean_token_accuracy": 0.972472071647644,
+      "loss": 0.0785,
+      "mean_token_accuracy": 0.976148895919323,
       "step": 923
     },
     {
       "epoch": 5.404692082111437,
-      "grad_norm": 0.9112477803463636,
+      "grad_norm": 0.6294772303187749,
       "learning_rate": 2.033916952966057e-05,
-      "loss": 0.0858,
-      "mean_token_accuracy": 0.9744387790560722,
+      "loss": 0.0683,
+      "mean_token_accuracy": 0.9790761917829514,
       "step": 924
     },
     {
       "epoch": 5.410557184750733,
-      "grad_norm": 0.7421628592141191,
+      "grad_norm": 0.47662725471278244,
       "learning_rate": 2.0305026147701584e-05,
-      "loss": 0.0863,
-      "mean_token_accuracy": 0.9712925776839256,
+      "loss": 0.0747,
+      "mean_token_accuracy": 0.9755368903279305,
       "step": 925
     },
     {
       "epoch": 5.416422287390029,
-      "grad_norm": 0.6515695297727665,
+      "grad_norm": 0.6610622738741952,
       "learning_rate": 2.0270888917813124e-05,
-      "loss": 0.0776,
-      "mean_token_accuracy": 0.9756393432617188,
+      "loss": 0.0671,
+      "mean_token_accuracy": 0.9788747951388359,
       "step": 926
     },
     {
       "epoch": 5.422287390029325,
-      "grad_norm": 0.8628434185290488,
+      "grad_norm": 0.5589675836077449,
       "learning_rate": 2.0236757963899548e-05,
-      "loss": 0.0984,
-      "mean_token_accuracy": 0.973811186850071,
+      "loss": 0.0738,
+      "mean_token_accuracy": 0.9767239764332771,
       "step": 927
     },
     {
       "epoch": 5.428152492668621,
-      "grad_norm": 1.1299749301147368,
+      "grad_norm": 0.6019998421138993,
       "learning_rate": 2.020263340984244e-05,
-      "loss": 0.0918,
-      "mean_token_accuracy": 0.9751879572868347,
+      "loss": 0.0742,
+      "mean_token_accuracy": 0.9795248135924339,
       "step": 928
     },
     {
       "epoch": 5.4340175953079175,
-      "grad_norm": 0.6428804437106626,
+      "grad_norm": 0.5166261136130894,
       "learning_rate": 2.0168515379500145e-05,
-      "loss": 0.0828,
-      "mean_token_accuracy": 0.9709775000810623,
+      "loss": 0.0701,
+      "mean_token_accuracy": 0.9759251549839973,
       "step": 929
     },
     {
       "epoch": 5.439882697947214,
-      "grad_norm": 0.7470209883447461,
+      "grad_norm": 0.6006084519966477,
       "learning_rate": 2.0134403996707338e-05,
-      "loss": 0.0806,
-      "mean_token_accuracy": 0.9749180600047112,
+      "loss": 0.065,
+      "mean_token_accuracy": 0.9794113636016846,
       "step": 930
     },
     {
       "epoch": 5.44574780058651,
-      "grad_norm": 0.4642855476533981,
+      "grad_norm": 0.45582821622973035,
       "learning_rate": 2.0100299385274547e-05,
-      "loss": 0.0902,
-      "mean_token_accuracy": 0.9726503938436508,
+      "loss": 0.0713,
+      "mean_token_accuracy": 0.9784344360232353,
       "step": 931
     },
     {
       "epoch": 5.451612903225806,
-      "grad_norm": 0.7606298055914933,
+      "grad_norm": 0.652447127156715,
       "learning_rate": 2.0066201668987757e-05,
-      "loss": 0.0923,
-      "mean_token_accuracy": 0.9702809303998947,
+      "loss": 0.0875,
+      "mean_token_accuracy": 0.9729999005794525,
       "step": 932
     },
     {
       "epoch": 5.457478005865102,
-      "grad_norm": 0.6008762056162931,
+      "grad_norm": 0.5812504477926977,
       "learning_rate": 2.0032110971607894e-05,
-      "loss": 0.0887,
-      "mean_token_accuracy": 0.9757914617657661,
+      "loss": 0.0688,
+      "mean_token_accuracy": 0.980715274810791,
       "step": 933
     },
     {
       "epoch": 5.463343108504398,
-      "grad_norm": 0.6078060941097535,
+      "grad_norm": 0.5882443082261385,
       "learning_rate": 1.999802741687042e-05,
-      "loss": 0.0931,
-      "mean_token_accuracy": 0.9730753004550934,
+      "loss": 0.0768,
+      "mean_token_accuracy": 0.9780777394771576,
       "step": 934
     },
     {
       "epoch": 5.469208211143695,
-      "grad_norm": 0.5758717205478393,
+      "grad_norm": 0.48843000233363765,
       "learning_rate": 1.9963951128484886e-05,
-      "loss": 0.0677,
-      "mean_token_accuracy": 0.9766752049326897,
+      "loss": 0.0613,
+      "mean_token_accuracy": 0.980921059846878,
       "step": 935
     },
     {
       "epoch": 5.475073313782991,
-      "grad_norm": 0.6785426496703266,
+      "grad_norm": 0.578207102400483,
       "learning_rate": 1.9929882230134452e-05,
-      "loss": 0.0877,
-      "mean_token_accuracy": 0.9692973420023918,
+      "loss": 0.0716,
+      "mean_token_accuracy": 0.9766323640942574,
       "step": 936
     },
     {
       "epoch": 5.480938416422287,
-      "grad_norm": 0.728290541857711,
+      "grad_norm": 0.5585603420730529,
       "learning_rate": 1.9895820845475445e-05,
-      "loss": 0.0969,
-      "mean_token_accuracy": 0.9711208865046501,
+      "loss": 0.074,
+      "mean_token_accuracy": 0.9760611280798912,
       "step": 937
     },
     {
       "epoch": 5.486803519061583,
-      "grad_norm": 0.6533361112946945,
+      "grad_norm": 0.5630265678683493,
       "learning_rate": 1.9861767098136956e-05,
-      "loss": 0.0804,
-      "mean_token_accuracy": 0.9775801599025726,
+      "loss": 0.0668,
+      "mean_token_accuracy": 0.9797999039292336,
       "step": 938
     },
     {
       "epoch": 5.492668621700879,
-      "grad_norm": 0.8201669009430897,
+      "grad_norm": 0.4600091835994956,
       "learning_rate": 1.982772111172032e-05,
-      "loss": 0.0874,
-      "mean_token_accuracy": 0.9733827859163284,
+      "loss": 0.0723,
+      "mean_token_accuracy": 0.979090228676796,
       "step": 939
     },
     {
       "epoch": 5.4985337243401755,
-      "grad_norm": 0.5158612094205587,
+      "grad_norm": 0.6002054250965584,
       "learning_rate": 1.9793683009798718e-05,
-      "loss": 0.0747,
-      "mean_token_accuracy": 0.9773239716887474,
+      "loss": 0.0679,
+      "mean_token_accuracy": 0.9809942319989204,
       "step": 940
     },
     {
       "epoch": 5.504398826979472,
-      "grad_norm": 0.6241066832474991,
+      "grad_norm": 0.6319575155464214,
       "learning_rate": 1.975965291591672e-05,
-      "loss": 0.0978,
-      "mean_token_accuracy": 0.9694525748491287,
+      "loss": 0.0921,
+      "mean_token_accuracy": 0.9735964983701706,
       "step": 941
     },
     {
       "epoch": 5.510263929618768,
-      "grad_norm": 0.7158903642944286,
+      "grad_norm": 0.7814944840670485,
       "learning_rate": 1.9725630953589823e-05,
-      "loss": 0.0896,
-      "mean_token_accuracy": 0.9751381054520607,
+      "loss": 0.0766,
+      "mean_token_accuracy": 0.9783463180065155,
       "step": 942
     },
     {
       "epoch": 5.516129032258064,
-      "grad_norm": 0.6500428056572851,
+      "grad_norm": 0.4898867119107616,
       "learning_rate": 1.9691617246304007e-05,
-      "loss": 0.0906,
-      "mean_token_accuracy": 0.9697719290852547,
+      "loss": 0.0705,
+      "mean_token_accuracy": 0.9760597050189972,
       "step": 943
     },
     {
       "epoch": 5.52199413489736,
-      "grad_norm": 0.6757819265845151,
+      "grad_norm": 0.6544194466244087,
       "learning_rate": 1.9657611917515287e-05,
-      "loss": 0.0946,
-      "mean_token_accuracy": 0.9740458875894547,
+      "loss": 0.0774,
+      "mean_token_accuracy": 0.9778344482183456,
       "step": 944
     },
     {
       "epoch": 5.527859237536656,
-      "grad_norm": 0.6467851667757466,
+      "grad_norm": 0.5424147306490898,
       "learning_rate": 1.962361509064928e-05,
-      "loss": 0.0779,
-      "mean_token_accuracy": 0.9767004624009132,
+      "loss": 0.0651,
+      "mean_token_accuracy": 0.9800689145922661,
       "step": 945
     },
     {
       "epoch": 5.533724340175953,
-      "grad_norm": 0.6929353877478521,
+      "grad_norm": 0.42614971645103156,
       "learning_rate": 1.958962688910073e-05,
-      "loss": 0.0772,
-      "mean_token_accuracy": 0.9737014174461365,
+      "loss": 0.0621,
+      "mean_token_accuracy": 0.980566717684269,
       "step": 946
     },
     {
       "epoch": 5.539589442815249,
-      "grad_norm": 0.554178700724065,
+      "grad_norm": 0.4885883014556131,
       "learning_rate": 1.9555647436233093e-05,
-      "loss": 0.0833,
-      "mean_token_accuracy": 0.9781376793980598,
+      "loss": 0.071,
+      "mean_token_accuracy": 0.9800935760140419,
       "step": 947
     },
     {
       "epoch": 5.545454545454545,
-      "grad_norm": 0.731670261601833,
+      "grad_norm": 0.5623124965585408,
       "learning_rate": 1.9521676855378045e-05,
-      "loss": 0.0813,
-      "mean_token_accuracy": 0.977122388780117,
+      "loss": 0.0704,
+      "mean_token_accuracy": 0.9787362143397331,
       "step": 948
     },
     {
       "epoch": 5.551319648093841,
-      "grad_norm": 0.7428121682204718,
+      "grad_norm": 0.5876377449692796,
       "learning_rate": 1.9487715269835082e-05,
-      "loss": 0.0821,
-      "mean_token_accuracy": 0.9735124111175537,
+      "loss": 0.0651,
+      "mean_token_accuracy": 0.9789851978421211,
       "step": 949
     },
     {
       "epoch": 5.557184750733137,
-      "grad_norm": 0.5862393003846442,
+      "grad_norm": 0.5720532607343585,
       "learning_rate": 1.945376280287105e-05,
-      "loss": 0.0907,
-      "mean_token_accuracy": 0.9709196835756302,
+      "loss": 0.0793,
+      "mean_token_accuracy": 0.9742227792739868,
       "step": 950
     },
     {
       "epoch": 5.563049853372434,
-      "grad_norm": 0.7517377301766143,
+      "grad_norm": 0.6241120555707173,
       "learning_rate": 1.9419819577719684e-05,
-      "loss": 0.0864,
-      "mean_token_accuracy": 0.9729499071836472,
+      "loss": 0.0703,
+      "mean_token_accuracy": 0.979230061173439,
       "step": 951
     },
     {
       "epoch": 5.568914956011731,
-      "grad_norm": 0.7630913812828717,
+      "grad_norm": 0.6436812121385808,
       "learning_rate": 1.9385885717581182e-05,
-      "loss": 0.094,
-      "mean_token_accuracy": 0.9722026437520981,
+      "loss": 0.0865,
+      "mean_token_accuracy": 0.973546139895916,
       "step": 952
     },
     {
       "epoch": 5.574780058651027,
-      "grad_norm": 0.5631421776070452,
+      "grad_norm": 0.5147412146073209,
       "learning_rate": 1.935196134562175e-05,
-      "loss": 0.0836,
-      "mean_token_accuracy": 0.9755956828594208,
+      "loss": 0.0669,
+      "mean_token_accuracy": 0.9807008281350136,
       "step": 953
     },
     {
       "epoch": 5.580645161290323,
-      "grad_norm": 0.6601421450613268,
+      "grad_norm": 0.5922549441597481,
       "learning_rate": 1.931804658497316e-05,
-      "loss": 0.086,
-      "mean_token_accuracy": 0.9734816625714302,
+      "loss": 0.0686,
+      "mean_token_accuracy": 0.9795825853943825,
       "step": 954
     },
     {
       "epoch": 5.586510263929619,
-      "grad_norm": 0.7963802408293887,
+      "grad_norm": 0.6564154522631755,
       "learning_rate": 1.9284141558732296e-05,
-      "loss": 0.0892,
-      "mean_token_accuracy": 0.9736581519246101,
+      "loss": 0.0764,
+      "mean_token_accuracy": 0.9765199050307274,
       "step": 955
     },
     {
       "epoch": 5.592375366568915,
-      "grad_norm": 0.6925565662697808,
+      "grad_norm": 0.6294040843192674,
       "learning_rate": 1.925024638996071e-05,
-      "loss": 0.0906,
-      "mean_token_accuracy": 0.9748614057898521,
+      "loss": 0.0696,
+      "mean_token_accuracy": 0.9779465198516846,
       "step": 956
     },
     {
       "epoch": 5.5982404692082115,
-      "grad_norm": 0.4469096595424996,
+      "grad_norm": 0.46897658325826863,
       "learning_rate": 1.9216361201684174e-05,
-      "loss": 0.0767,
-      "mean_token_accuracy": 0.9786844179034233,
+      "loss": 0.0753,
+      "mean_token_accuracy": 0.9799123182892799,
       "step": 957
     },
     {
       "epoch": 5.604105571847508,
-      "grad_norm": 0.6688127687388462,
+      "grad_norm": 0.6226020057368947,
       "learning_rate": 1.918248611689224e-05,
-      "loss": 0.0805,
-      "mean_token_accuracy": 0.9765229448676109,
+      "loss": 0.0669,
+      "mean_token_accuracy": 0.9796951934695244,
       "step": 958
     },
     {
       "epoch": 5.609970674486804,
-      "grad_norm": 0.6855039450437475,
+      "grad_norm": 0.5494371989177863,
       "learning_rate": 1.9148621258537782e-05,
-      "loss": 0.0889,
-      "mean_token_accuracy": 0.9715561494231224,
+      "loss": 0.0755,
+      "mean_token_accuracy": 0.9753241837024689,
       "step": 959
     },
     {
       "epoch": 5.6158357771261,
-      "grad_norm": 0.8037823314037765,
+      "grad_norm": 0.6032363669586224,
       "learning_rate": 1.911476674953656e-05,
-      "loss": 0.0699,
-      "mean_token_accuracy": 0.9763055369257927,
+      "loss": 0.0579,
+      "mean_token_accuracy": 0.980271153151989,
       "step": 960
     },
     {
       "epoch": 5.621700879765396,
-      "grad_norm": 0.5073819720734495,
+      "grad_norm": 0.4847213278354494,
       "learning_rate": 1.9080922712766762e-05,
-      "loss": 0.0911,
-      "mean_token_accuracy": 0.9702242463827133,
+      "loss": 0.0723,
+      "mean_token_accuracy": 0.9749229624867439,
       "step": 961
     },
     {
       "epoch": 5.627565982404692,
-      "grad_norm": 0.5329313662136718,
+      "grad_norm": 0.491493201519099,
       "learning_rate": 1.904708927106858e-05,
-      "loss": 0.0897,
-      "mean_token_accuracy": 0.9713274911046028,
+      "loss": 0.0792,
+      "mean_token_accuracy": 0.9770414680242538,
       "step": 962
     },
     {
       "epoch": 5.633431085043989,
-      "grad_norm": 0.6822929726272469,
+      "grad_norm": 0.8035666675533314,
       "learning_rate": 1.9013266547243742e-05,
-      "loss": 0.0798,
-      "mean_token_accuracy": 0.9777653217315674,
+      "loss": 0.0693,
+      "mean_token_accuracy": 0.9798395037651062,
       "step": 963
     },
     {
       "epoch": 5.639296187683285,
-      "grad_norm": 0.5806622127690888,
+      "grad_norm": 0.5056374819958188,
       "learning_rate": 1.8979454664055068e-05,
-      "loss": 0.0857,
-      "mean_token_accuracy": 0.9744703099131584,
+      "loss": 0.0748,
+      "mean_token_accuracy": 0.9769620299339294,
       "step": 964
     },
     {
       "epoch": 5.645161290322581,
-      "grad_norm": 0.8665695970177962,
+      "grad_norm": 0.6874918618082315,
       "learning_rate": 1.894565374422605e-05,
-      "loss": 0.0774,
-      "mean_token_accuracy": 0.9745295867323875,
+      "loss": 0.0675,
+      "mean_token_accuracy": 0.9785389676690102,
       "step": 965
     },
     {
       "epoch": 5.651026392961877,
-      "grad_norm": 0.6266246362289842,
+      "grad_norm": 0.4157605250823316,
       "learning_rate": 1.891186391044037e-05,
-      "loss": 0.0947,
-      "mean_token_accuracy": 0.9700672402977943,
+      "loss": 0.0731,
+      "mean_token_accuracy": 0.975774921476841,
       "step": 966
     },
     {
       "epoch": 5.656891495601173,
-      "grad_norm": 0.7989074355855846,
+      "grad_norm": 0.5823531742180683,
       "learning_rate": 1.887808528534148e-05,
-      "loss": 0.0873,
-      "mean_token_accuracy": 0.9718985334038734,
+      "loss": 0.0955,
+      "mean_token_accuracy": 0.9756604135036469,
       "step": 967
     },
     {
       "epoch": 5.6627565982404695,
-      "grad_norm": 0.4353989783282138,
+      "grad_norm": 1.5182787676052627,
       "learning_rate": 1.884431799153214e-05,
-      "loss": 0.0695,
-      "mean_token_accuracy": 0.978706993162632,
+      "loss": 0.0642,
+      "mean_token_accuracy": 0.9804680868983269,
       "step": 968
     },
     {
       "epoch": 5.668621700879766,
-      "grad_norm": 0.8266065947284112,
+      "grad_norm": 0.5599066990953598,
       "learning_rate": 1.8810562151573993e-05,
-      "loss": 0.0935,
-      "mean_token_accuracy": 0.972965806722641,
+      "loss": 0.0745,
+      "mean_token_accuracy": 0.9779726639389992,
       "step": 969
     },
     {
       "epoch": 5.674486803519062,
-      "grad_norm": 0.6820629959510945,
+      "grad_norm": 0.6070035232067619,
       "learning_rate": 1.8776817887987105e-05,
-      "loss": 0.0921,
-      "mean_token_accuracy": 0.9734281525015831,
+      "loss": 0.0758,
+      "mean_token_accuracy": 0.9777623414993286,
       "step": 970
     },
     {
       "epoch": 5.680351906158358,
-      "grad_norm": 0.5623312424943822,
+      "grad_norm": 0.5298345268067092,
       "learning_rate": 1.8743085323249527e-05,
-      "loss": 0.0889,
-      "mean_token_accuracy": 0.9733134210109711,
+      "loss": 0.0743,
+      "mean_token_accuracy": 0.9766695126891136,
       "step": 971
     },
     {
       "epoch": 5.686217008797654,
-      "grad_norm": 0.5194482005569641,
+      "grad_norm": 0.5296462474949736,
       "learning_rate": 1.870936457979684e-05,
-      "loss": 0.0908,
-      "mean_token_accuracy": 0.9747659862041473,
+      "loss": 0.074,
+      "mean_token_accuracy": 0.9775098264217377,
       "step": 972
     },
     {
       "epoch": 5.69208211143695,
-      "grad_norm": 0.5875433250388189,
+      "grad_norm": 0.5596310685328338,
       "learning_rate": 1.8675655780021733e-05,
-      "loss": 0.0698,
-      "mean_token_accuracy": 0.9777504205703735,
+      "loss": 0.0634,
+      "mean_token_accuracy": 0.9791462272405624,
       "step": 973
     },
     {
       "epoch": 5.697947214076247,
-      "grad_norm": 0.5039670849995016,
+      "grad_norm": 0.6286572843009949,
       "learning_rate": 1.8641959046273525e-05,
-      "loss": 0.0922,
-      "mean_token_accuracy": 0.9732639566063881,
+      "loss": 0.0784,
+      "mean_token_accuracy": 0.9750925973057747,
       "step": 974
     },
     {
       "epoch": 5.703812316715543,
-      "grad_norm": 0.6502810650481761,
+      "grad_norm": 0.5273708760096594,
       "learning_rate": 1.8608274500857756e-05,
-      "loss": 0.0916,
-      "mean_token_accuracy": 0.9737720489501953,
+      "loss": 0.0766,
+      "mean_token_accuracy": 0.9776112586259842,
       "step": 975
     },
     {
       "epoch": 5.709677419354839,
-      "grad_norm": 0.7462538481750892,
+      "grad_norm": 0.5577384204329816,
       "learning_rate": 1.8574602266035714e-05,
-      "loss": 0.0705,
-      "mean_token_accuracy": 0.9790600091218948,
+      "loss": 0.0608,
+      "mean_token_accuracy": 0.9810106307268143,
       "step": 976
     },
     {
       "epoch": 5.715542521994135,
-      "grad_norm": 0.6951076012758072,
+      "grad_norm": 0.5544850178756708,
       "learning_rate": 1.854094246402402e-05,
-      "loss": 0.1029,
-      "mean_token_accuracy": 0.9681782871484756,
+      "loss": 0.0821,
+      "mean_token_accuracy": 0.9750274196267128,
       "step": 977
     },
     {
       "epoch": 5.721407624633431,
-      "grad_norm": 0.7289075041674313,
+      "grad_norm": 0.6178456682643919,
       "learning_rate": 1.8507295216994162e-05,
-      "loss": 0.0745,
-      "mean_token_accuracy": 0.9782817512750626,
+      "loss": 0.0628,
+      "mean_token_accuracy": 0.9818970337510109,
       "step": 978
     },
     {
       "epoch": 5.7272727272727275,
-      "grad_norm": 0.6170230938347478,
+      "grad_norm": 0.5142270627968069,
       "learning_rate": 1.8473660647072053e-05,
-      "loss": 0.0936,
-      "mean_token_accuracy": 0.9697033986449242,
+      "loss": 0.0751,
+      "mean_token_accuracy": 0.9759154841303825,
       "step": 979
     },
     {
       "epoch": 5.733137829912024,
-      "grad_norm": 0.6286851176517133,
+      "grad_norm": 0.5021352568135602,
       "learning_rate": 1.8440038876337597e-05,
-      "loss": 0.0738,
-      "mean_token_accuracy": 0.9746864810585976,
+      "loss": 0.0677,
+      "mean_token_accuracy": 0.9790510535240173,
       "step": 980
     },
     {
       "epoch": 5.73900293255132,
-      "grad_norm": 0.6924654681455282,
+      "grad_norm": 0.5400003674319198,
       "learning_rate": 1.8406430026824252e-05,
-      "loss": 0.0874,
-      "mean_token_accuracy": 0.9719264730811119,
+      "loss": 0.0727,
+      "mean_token_accuracy": 0.976162277162075,
       "step": 981
     },
     {
       "epoch": 5.744868035190616,
-      "grad_norm": 0.6386975637341502,
+      "grad_norm": 0.6653802174420181,
       "learning_rate": 1.837283422051855e-05,
-      "loss": 0.0824,
-      "mean_token_accuracy": 0.9745275229215622,
+      "loss": 0.0708,
+      "mean_token_accuracy": 0.9791212901473045,
       "step": 982
     },
     {
       "epoch": 5.750733137829912,
-      "grad_norm": 0.7673873081774819,
+      "grad_norm": 0.5336134949253077,
       "learning_rate": 1.8339251579359713e-05,
-      "loss": 0.0899,
-      "mean_token_accuracy": 0.9738566502928734,
+      "loss": 0.0736,
+      "mean_token_accuracy": 0.9781318008899689,
       "step": 983
     },
     {
       "epoch": 5.756598240469208,
-      "grad_norm": 0.5320830282669105,
+      "grad_norm": 0.46625413729314213,
       "learning_rate": 1.8305682225239167e-05,
-      "loss": 0.0741,
-      "mean_token_accuracy": 0.9771842882037163,
+      "loss": 0.0691,
+      "mean_token_accuracy": 0.9801111742854118,
       "step": 984
     },
     {
       "epoch": 5.762463343108505,
-      "grad_norm": 0.7839551637151186,
+      "grad_norm": 0.7918478373807947,
       "learning_rate": 1.8272126280000102e-05,
-      "loss": 0.1027,
-      "mean_token_accuracy": 0.9691510125994682,
+      "loss": 0.0939,
+      "mean_token_accuracy": 0.9726522043347359,
       "step": 985
     },
     {
       "epoch": 5.768328445747801,
-      "grad_norm": 0.659651301924526,
+      "grad_norm": 0.6659373208659011,
       "learning_rate": 1.823858386543705e-05,
-      "loss": 0.0801,
-      "mean_token_accuracy": 0.9774763435125351,
+      "loss": 0.0705,
+      "mean_token_accuracy": 0.9795112237334251,
       "step": 986
     },
     {
       "epoch": 5.774193548387097,
-      "grad_norm": 0.684337831256596,
+      "grad_norm": 0.6937079334829163,
       "learning_rate": 1.8205055103295434e-05,
-      "loss": 0.0918,
-      "mean_token_accuracy": 0.9704063758254051,
+      "loss": 0.0821,
+      "mean_token_accuracy": 0.9742537960410118,
       "step": 987
     },
     {
       "epoch": 5.780058651026393,
-      "grad_norm": 0.6780204534520761,
+      "grad_norm": 0.5502882133997387,
       "learning_rate": 1.8171540115271108e-05,
-      "loss": 0.0966,
-      "mean_token_accuracy": 0.9674130603671074,
+      "loss": 0.074,
+      "mean_token_accuracy": 0.9749346300959587,
       "step": 988
     },
     {
       "epoch": 5.785923753665689,
-      "grad_norm": 0.7688483149907289,
+      "grad_norm": 0.5723847973030097,
       "learning_rate": 1.813803902300995e-05,
-      "loss": 0.0899,
-      "mean_token_accuracy": 0.9712028130888939,
+      "loss": 0.0767,
+      "mean_token_accuracy": 0.9775624573230743,
       "step": 989
     },
     {
       "epoch": 5.7917888563049855,
-      "grad_norm": 0.5787977118824297,
+      "grad_norm": 0.48559336446340945,
       "learning_rate": 1.8104551948107395e-05,
-      "loss": 0.0877,
-      "mean_token_accuracy": 0.9761911928653717,
+      "loss": 0.0689,
+      "mean_token_accuracy": 0.9818530306220055,
       "step": 990
     },
     {
       "epoch": 5.797653958944282,
-      "grad_norm": 0.7838858854358897,
+      "grad_norm": 0.43809664758169425,
       "learning_rate": 1.8071079012107997e-05,
-      "loss": 0.0725,
-      "mean_token_accuracy": 0.9778272584080696,
+      "loss": 0.0641,
+      "mean_token_accuracy": 0.9799798876047134,
       "step": 991
     },
     {
       "epoch": 5.803519061583578,
-      "grad_norm": 0.5204651103182804,
+      "grad_norm": 0.5446369284916783,
       "learning_rate": 1.8037620336504993e-05,
-      "loss": 0.0884,
-      "mean_token_accuracy": 0.9750376492738724,
+      "loss": 0.07,
+      "mean_token_accuracy": 0.9789104983210564,
       "step": 992
     },
     {
       "epoch": 5.809384164222874,
-      "grad_norm": 0.6959107859348317,
+      "grad_norm": 0.4733802615698864,
       "learning_rate": 1.8004176042739877e-05,
-      "loss": 0.0812,
-      "mean_token_accuracy": 0.9772611781954765,
+      "loss": 0.0732,
+      "mean_token_accuracy": 0.9795755222439766,
       "step": 993
     },
     {
       "epoch": 5.81524926686217,
-      "grad_norm": 0.5986772400066928,
+      "grad_norm": 0.6076123349283594,
       "learning_rate": 1.797074625220191e-05,
-      "loss": 0.0842,
-      "mean_token_accuracy": 0.9771137833595276,
+      "loss": 0.0715,
+      "mean_token_accuracy": 0.9788392633199692,
       "step": 994
     },
     {
       "epoch": 5.821114369501466,
-      "grad_norm": 0.4693360660469766,
+      "grad_norm": 0.6527755849095698,
       "learning_rate": 1.7937331086227737e-05,
-      "loss": 0.0889,
-      "mean_token_accuracy": 0.9712493047118187,
+      "loss": 0.0828,
+      "mean_token_accuracy": 0.9729266539216042,
       "step": 995
     },
     {
       "epoch": 5.826979472140763,
-      "grad_norm": 0.7490861103636983,
+      "grad_norm": 0.6987750283606413,
       "learning_rate": 1.790393066610091e-05,
-      "loss": 0.0952,
-      "mean_token_accuracy": 0.971531830728054,
+      "loss": 0.0826,
+      "mean_token_accuracy": 0.9741199016571045,
       "step": 996
     },
     {
       "epoch": 5.832844574780059,
-      "grad_norm": 0.6288451112815866,
+      "grad_norm": 0.673623466884957,
       "learning_rate": 1.787054511305148e-05,
-      "loss": 0.0893,
-      "mean_token_accuracy": 0.9741169288754463,
+      "loss": 0.0852,
+      "mean_token_accuracy": 0.9762526527047157,
       "step": 997
     },
     {
       "epoch": 5.838709677419355,
-      "grad_norm": 0.7702435889994751,
+      "grad_norm": 0.6730592209203903,
       "learning_rate": 1.7837174548255504e-05,
-      "loss": 0.0948,
-      "mean_token_accuracy": 0.9711467698216438,
+      "loss": 0.075,
+      "mean_token_accuracy": 0.9776707738637924,
       "step": 998
     },
     {
       "epoch": 5.844574780058651,
-      "grad_norm": 0.5823123249879522,
+      "grad_norm": 0.45848872494150783,
       "learning_rate": 1.7803819092834668e-05,
-      "loss": 0.0736,
-      "mean_token_accuracy": 0.975670225918293,
+      "loss": 0.0687,
+      "mean_token_accuracy": 0.9793645292520523,
       "step": 999
     },
     {
       "epoch": 5.850439882697947,
-      "grad_norm": 0.6981130982253064,
+      "grad_norm": 0.7023448385378745,
       "learning_rate": 1.7770478867855797e-05,
-      "loss": 0.084,
-      "mean_token_accuracy": 0.9753496646881104,
+      "loss": 0.0761,
+      "mean_token_accuracy": 0.9792755618691444,
       "step": 1000
     },
     {
       "epoch": 5.8563049853372435,
-      "grad_norm": 0.7372940110063448,
+      "grad_norm": 0.5175131551283948,
       "learning_rate": 1.7737153994330437e-05,
-      "loss": 0.1116,
-      "mean_token_accuracy": 0.9673419818282127,
+      "loss": 0.0865,
+      "mean_token_accuracy": 0.9750565141439438,
       "step": 1001
     },
     {
       "epoch": 5.86217008797654,
-      "grad_norm": 0.8006525910133377,
+      "grad_norm": 0.6262907861375655,
       "learning_rate": 1.7703844593214427e-05,
-      "loss": 0.081,
-      "mean_token_accuracy": 0.974897563457489,
+      "loss": 0.0628,
+      "mean_token_accuracy": 0.9800690039992332,
       "step": 1002
     },
     {
       "epoch": 5.868035190615836,
-      "grad_norm": 0.5561798341071992,
+      "grad_norm": 0.44221893487398767,
       "learning_rate": 1.7670550785407444e-05,
-      "loss": 0.0701,
-      "mean_token_accuracy": 0.9756550714373589,
+      "loss": 0.0572,
+      "mean_token_accuracy": 0.9825234487652779,
       "step": 1003
     },
     {
       "epoch": 5.873900293255132,
-      "grad_norm": 0.5615991213783584,
+      "grad_norm": 0.4987557150663674,
       "learning_rate": 1.7637272691752548e-05,
-      "loss": 0.0829,
-      "mean_token_accuracy": 0.97202467918396,
+      "loss": 0.0771,
+      "mean_token_accuracy": 0.975949339568615,
       "step": 1004
     },
     {
       "epoch": 5.879765395894428,
-      "grad_norm": 0.6399659767936104,
+      "grad_norm": 0.5103138713112173,
       "learning_rate": 1.7604010433035793e-05,
-      "loss": 0.0895,
-      "mean_token_accuracy": 0.9714025035500526,
+      "loss": 0.0816,
+      "mean_token_accuracy": 0.9757112711668015,
       "step": 1005
     },
     {
       "epoch": 5.885630498533724,
-      "grad_norm": 0.6345682852590906,
+      "grad_norm": 0.5757247782780586,
       "learning_rate": 1.7570764129985747e-05,
-      "loss": 0.0829,
-      "mean_token_accuracy": 0.9739578440785408,
+      "loss": 0.0714,
+      "mean_token_accuracy": 0.9774347543716431,
       "step": 1006
     },
     {
       "epoch": 5.891495601173021,
-      "grad_norm": 0.8095757391274871,
+      "grad_norm": 0.5735144828579501,
       "learning_rate": 1.7537533903273055e-05,
-      "loss": 0.1017,
-      "mean_token_accuracy": 0.9723379909992218,
+      "loss": 0.0672,
+      "mean_token_accuracy": 0.9788115695118904,
       "step": 1007
     },
     {
       "epoch": 5.897360703812317,
-      "grad_norm": 0.829159717201638,
+      "grad_norm": 0.5276596129193636,
       "learning_rate": 1.7504319873510014e-05,
-      "loss": 0.1032,
-      "mean_token_accuracy": 0.9734954759478569,
+      "loss": 0.0816,
+      "mean_token_accuracy": 0.9764761105179787,
       "step": 1008
     },
     {
       "epoch": 5.903225806451613,
-      "grad_norm": 0.6932420286406421,
+      "grad_norm": 0.5934904035247996,
       "learning_rate": 1.7471122161250153e-05,
-      "loss": 0.0863,
-      "mean_token_accuracy": 0.9713395535945892,
+      "loss": 0.0829,
+      "mean_token_accuracy": 0.9750788882374763,
       "step": 1009
     },
     {
       "epoch": 5.909090909090909,
-      "grad_norm": 0.7242637421768542,
+      "grad_norm": 0.7581092342018619,
       "learning_rate": 1.743794088698775e-05,
-      "loss": 0.1025,
-      "mean_token_accuracy": 0.9717629998922348,
+      "loss": 0.0792,
+      "mean_token_accuracy": 0.9779830947518349,
       "step": 1010
     },
     {
       "epoch": 5.914956011730205,
-      "grad_norm": 0.6812715069301856,
+      "grad_norm": 0.46297684327502575,
       "learning_rate": 1.7404776171157428e-05,
-      "loss": 0.0901,
-      "mean_token_accuracy": 0.9726547002792358,
+      "loss": 0.0764,
+      "mean_token_accuracy": 0.9766190350055695,
       "step": 1011
     },
     {
       "epoch": 5.9208211143695015,
-      "grad_norm": 0.47494390794003294,
+      "grad_norm": 0.5333324483571935,
       "learning_rate": 1.7371628134133716e-05,
-      "loss": 0.1006,
-      "mean_token_accuracy": 0.9703837037086487,
+      "loss": 0.0875,
+      "mean_token_accuracy": 0.9737675860524178,
       "step": 1012
     },
     {
       "epoch": 5.926686217008798,
-      "grad_norm": 0.7988053128511963,
+      "grad_norm": 0.6875722103361684,
       "learning_rate": 1.73384968962306e-05,
-      "loss": 0.087,
-      "mean_token_accuracy": 0.9710239991545677,
+      "loss": 0.0731,
+      "mean_token_accuracy": 0.9765476137399673,
       "step": 1013
     },
     {
       "epoch": 5.932551319648094,
-      "grad_norm": 0.7048215584079881,
+      "grad_norm": 0.5498994219533493,
       "learning_rate": 1.7305382577701088e-05,
-      "loss": 0.0912,
-      "mean_token_accuracy": 0.972258172929287,
+      "loss": 0.0786,
+      "mean_token_accuracy": 0.9759142473340034,
       "step": 1014
     },
     {
       "epoch": 5.93841642228739,
-      "grad_norm": 0.5987039942872129,
+      "grad_norm": 0.5849125695448263,
       "learning_rate": 1.7272285298736787e-05,
-      "loss": 0.0812,
-      "mean_token_accuracy": 0.9739760607481003,
+      "loss": 0.069,
+      "mean_token_accuracy": 0.9774723574519157,
       "step": 1015
     },
     {
       "epoch": 5.944281524926686,
-      "grad_norm": 0.7669426180702338,
+      "grad_norm": 0.5757882291325982,
       "learning_rate": 1.7239205179467453e-05,
-      "loss": 0.0928,
-      "mean_token_accuracy": 0.9731807708740234,
+      "loss": 0.0811,
+      "mean_token_accuracy": 0.9770863503217697,
       "step": 1016
     },
     {
       "epoch": 5.9501466275659824,
-      "grad_norm": 0.8816952587467959,
+      "grad_norm": 0.6063631339216475,
       "learning_rate": 1.720614233996056e-05,
-      "loss": 0.1119,
-      "mean_token_accuracy": 0.9651398956775665,
+      "loss": 0.0939,
+      "mean_token_accuracy": 0.9728550314903259,
       "step": 1017
     },
     {
       "epoch": 5.956011730205279,
-      "grad_norm": 0.7904778378822598,
+      "grad_norm": 0.7121493997252688,
       "learning_rate": 1.7173096900220852e-05,
-      "loss": 0.0862,
-      "mean_token_accuracy": 0.9707507267594337,
+      "loss": 0.0716,
+      "mean_token_accuracy": 0.9775163680315018,
       "step": 1018
     },
     {
       "epoch": 5.961876832844575,
-      "grad_norm": 0.5993372916237711,
+      "grad_norm": 0.5713158877121456,
       "learning_rate": 1.7140068980189943e-05,
-      "loss": 0.1027,
-      "mean_token_accuracy": 0.9691429063677788,
+      "loss": 0.0855,
+      "mean_token_accuracy": 0.9739682152867317,
       "step": 1019
     },
     {
       "epoch": 5.967741935483871,
-      "grad_norm": 0.7894401534507262,
+      "grad_norm": 0.5823469676430719,
       "learning_rate": 1.710705869974583e-05,
-      "loss": 0.0878,
-      "mean_token_accuracy": 0.9715762436389923,
+      "loss": 0.081,
+      "mean_token_accuracy": 0.9755722358822823,
       "step": 1020
     },
     {
       "epoch": 5.973607038123167,
-      "grad_norm": 0.5007290522624128,
+      "grad_norm": 0.5279782610228617,
       "learning_rate": 1.7074066178702512e-05,
-      "loss": 0.0735,
-      "mean_token_accuracy": 0.9772191122174263,
+      "loss": 0.0579,
+      "mean_token_accuracy": 0.980400986969471,
       "step": 1021
     },
     {
       "epoch": 5.979472140762463,
-      "grad_norm": 1.0706418477291928,
+      "grad_norm": 0.5112568511100889,
       "learning_rate": 1.7041091536809506e-05,
-      "loss": 0.0899,
-      "mean_token_accuracy": 0.9734712392091751,
+      "loss": 0.0688,
+      "mean_token_accuracy": 0.9795641005039215,
       "step": 1022
     },
     {
       "epoch": 5.9853372434017595,
-      "grad_norm": 0.5132866545703823,
+      "grad_norm": 0.5481954671151484,
       "learning_rate": 1.7008134893751446e-05,
-      "loss": 0.0774,
-      "mean_token_accuracy": 0.9778529033064842,
+      "loss": 0.0703,
+      "mean_token_accuracy": 0.980062872171402,
       "step": 1023
     },
     {
       "epoch": 5.991202346041056,
-      "grad_norm": 0.3934917191270626,
+      "grad_norm": 0.5077431608410231,
       "learning_rate": 1.697519636914765e-05,
-      "loss": 0.0752,
-      "mean_token_accuracy": 0.976367898285389,
+      "loss": 0.0627,
+      "mean_token_accuracy": 0.9807908609509468,
       "step": 1024
     },
     {
       "epoch": 5.997067448680352,
-      "grad_norm": 0.5893645990583302,
+      "grad_norm": 0.5942347658987599,
       "learning_rate": 1.6942276082551634e-05,
-      "loss": 0.1045,
-      "mean_token_accuracy": 0.968669667840004,
+      "loss": 0.0818,
+      "mean_token_accuracy": 0.9745178669691086,
       "step": 1025
     },
     {
       "epoch": 6.0,
-      "grad_norm": 1.3504099609374147,
+      "grad_norm": 0.9379871683914409,
       "learning_rate": 1.6909374153450762e-05,
-      "loss": 0.098,
-      "mean_token_accuracy": 0.9726896286010742,
+      "loss": 0.0758,
+      "mean_token_accuracy": 0.9805418103933334,
       "step": 1026
     },
     {
       "epoch": 6.005865102639296,
-      "grad_norm": 0.598228971963004,
+      "grad_norm": 0.41625170627035957,
       "learning_rate": 1.6876490701265736e-05,
-      "loss": 0.0673,
-      "mean_token_accuracy": 0.979034774005413,
+      "loss": 0.0557,
+      "mean_token_accuracy": 0.9833519533276558,
       "step": 1027
     },
     {
       "epoch": 6.011730205278592,
-      "grad_norm": 0.48280619668172964,
+      "grad_norm": 0.5625854280142911,
       "learning_rate": 1.684362584535022e-05,
-      "loss": 0.0765,
-      "mean_token_accuracy": 0.9782651886343956,
+      "loss": 0.0651,
+      "mean_token_accuracy": 0.980522520840168,
       "step": 1028
     },
     {
       "epoch": 6.0175953079178885,
-      "grad_norm": 0.466644575352627,
+      "grad_norm": 0.4589596228148454,
       "learning_rate": 1.6810779704990358e-05,
-      "loss": 0.0756,
-      "mean_token_accuracy": 0.9769785478711128,
+      "loss": 0.064,
+      "mean_token_accuracy": 0.980443462729454,
       "step": 1029
     },
     {
       "epoch": 6.023460410557185,
-      "grad_norm": 0.47183688005778257,
+      "grad_norm": 0.4710321685654739,
       "learning_rate": 1.677795239940438e-05,
-      "loss": 0.0641,
-      "mean_token_accuracy": 0.9806296676397324,
+      "loss": 0.0526,
+      "mean_token_accuracy": 0.9833626300096512,
       "step": 1030
     },
     {
       "epoch": 6.029325513196481,
-      "grad_norm": 0.5718220069789671,
+      "grad_norm": 0.47115827056288706,
       "learning_rate": 1.674514404774214e-05,
-      "loss": 0.0761,
-      "mean_token_accuracy": 0.9777848049998283,
+      "loss": 0.0682,
+      "mean_token_accuracy": 0.9806164056062698,
       "step": 1031
     },
     {
       "epoch": 6.035190615835777,
-      "grad_norm": 0.5179785510961876,
+      "grad_norm": 0.5007221500943095,
       "learning_rate": 1.671235476908471e-05,
-      "loss": 0.0743,
-      "mean_token_accuracy": 0.9780596271157265,
+      "loss": 0.0638,
+      "mean_token_accuracy": 0.9794806391000748,
       "step": 1032
     },
     {
       "epoch": 6.041055718475073,
-      "grad_norm": 0.6142614536588886,
+      "grad_norm": 0.46139880948373124,
       "learning_rate": 1.6679584682443924e-05,
-      "loss": 0.0792,
-      "mean_token_accuracy": 0.97633446007967,
+      "loss": 0.059,
+      "mean_token_accuracy": 0.9817759990692139,
       "step": 1033
     },
     {
       "epoch": 6.0469208211143695,
-      "grad_norm": 0.41142915451620954,
+      "grad_norm": 0.47833827548137275,
       "learning_rate": 1.6646833906761965e-05,
-      "loss": 0.0689,
-      "mean_token_accuracy": 0.9772084280848503,
+      "loss": 0.061,
+      "mean_token_accuracy": 0.9800918996334076,
       "step": 1034
     },
     {
       "epoch": 6.052785923753666,
-      "grad_norm": 0.4847833155252248,
+      "grad_norm": 0.4157611090168959,
       "learning_rate": 1.661410256091092e-05,
-      "loss": 0.0732,
-      "mean_token_accuracy": 0.9788917377591133,
+      "loss": 0.0576,
+      "mean_token_accuracy": 0.9824439659714699,
       "step": 1035
     },
     {
       "epoch": 6.058651026392962,
-      "grad_norm": 0.6440065513831064,
+      "grad_norm": 0.5513319881808698,
       "learning_rate": 1.658139076369236e-05,
-      "loss": 0.0795,
-      "mean_token_accuracy": 0.9781024977564812,
+      "loss": 0.0726,
+      "mean_token_accuracy": 0.9797214195132256,
       "step": 1036
     },
     {
       "epoch": 6.064516129032258,
-      "grad_norm": 0.4806652284113589,
+      "grad_norm": 0.5997799870227748,
       "learning_rate": 1.6548698633836893e-05,
-      "loss": 0.0711,
-      "mean_token_accuracy": 0.9742519408464432,
+      "loss": 0.0641,
+      "mean_token_accuracy": 0.9777173176407814,
       "step": 1037
     },
     {
       "epoch": 6.070381231671554,
-      "grad_norm": 0.49812439107885775,
+      "grad_norm": 0.47333625171664667,
       "learning_rate": 1.6516026290003746e-05,
-      "loss": 0.0665,
-      "mean_token_accuracy": 0.9813807904720306,
+      "loss": 0.0584,
+      "mean_token_accuracy": 0.9834053292870522,
       "step": 1038
     },
     {
       "epoch": 6.07624633431085,
-      "grad_norm": 0.4946026191358958,
+      "grad_norm": 0.4424032802775701,
       "learning_rate": 1.6483373850780328e-05,
-      "loss": 0.0709,
-      "mean_token_accuracy": 0.9776654466986656,
+      "loss": 0.0613,
+      "mean_token_accuracy": 0.9812067598104477,
       "step": 1039
     },
     {
       "epoch": 6.0821114369501466,
-      "grad_norm": 0.38914184460055723,
+      "grad_norm": 0.3632789659233089,
       "learning_rate": 1.645074143468181e-05,
-      "loss": 0.063,
-      "mean_token_accuracy": 0.9806255549192429,
+      "loss": 0.055,
+      "mean_token_accuracy": 0.9817801341414452,
       "step": 1040
     },
     {
       "epoch": 6.087976539589443,
-      "grad_norm": 0.6214256536736328,
+      "grad_norm": 0.6360564965039187,
       "learning_rate": 1.6418129160150692e-05,
-      "loss": 0.078,
-      "mean_token_accuracy": 0.9744777455925941,
+      "loss": 0.07,
+      "mean_token_accuracy": 0.978939987719059,
       "step": 1041
     },
     {
       "epoch": 6.093841642228739,
-      "grad_norm": 0.42727507511348983,
+      "grad_norm": 0.42344045495487054,
       "learning_rate": 1.6385537145556346e-05,
-      "loss": 0.0657,
-      "mean_token_accuracy": 0.9816567301750183,
+      "loss": 0.0548,
+      "mean_token_accuracy": 0.9843300357460976,
       "step": 1042
     },
     {
       "epoch": 6.099706744868035,
-      "grad_norm": 0.5862832205156056,
+      "grad_norm": 0.45984406695397945,
       "learning_rate": 1.6352965509194634e-05,
-      "loss": 0.0673,
-      "mean_token_accuracy": 0.9801078513264656,
+      "loss": 0.0556,
+      "mean_token_accuracy": 0.9822628200054169,
       "step": 1043
     },
     {
       "epoch": 6.105571847507331,
-      "grad_norm": 0.5540609521688267,
+      "grad_norm": 0.4323284440143135,
       "learning_rate": 1.6320414369287427e-05,
-      "loss": 0.0694,
-      "mean_token_accuracy": 0.9785455390810966,
+      "loss": 0.0557,
+      "mean_token_accuracy": 0.9819125235080719,
       "step": 1044
     },
     {
       "epoch": 6.1114369501466275,
-      "grad_norm": 0.5305278819763478,
+      "grad_norm": 0.47646310093981065,
       "learning_rate": 1.6287883843982223e-05,
-      "loss": 0.0745,
-      "mean_token_accuracy": 0.9784517213702202,
+      "loss": 0.063,
+      "mean_token_accuracy": 0.9816362336277962,
       "step": 1045
     },
     {
       "epoch": 6.117302052785924,
-      "grad_norm": 0.5324605295420759,
+      "grad_norm": 0.6185661703570164,
       "learning_rate": 1.625537405135169e-05,
-      "loss": 0.0883,
-      "mean_token_accuracy": 0.9728142842650414,
+      "loss": 0.0797,
+      "mean_token_accuracy": 0.9750150516629219,
       "step": 1046
     },
     {
       "epoch": 6.12316715542522,
-      "grad_norm": 0.48156545050119387,
+      "grad_norm": 0.556525046678587,
       "learning_rate": 1.622288510939325e-05,
-      "loss": 0.0736,
-      "mean_token_accuracy": 0.9753900468349457,
+      "loss": 0.0678,
+      "mean_token_accuracy": 0.9790779277682304,
       "step": 1047
     },
     {
       "epoch": 6.129032258064516,
-      "grad_norm": 0.5403475317147802,
+      "grad_norm": 0.6626182528269104,
       "learning_rate": 1.619041713602864e-05,
-      "loss": 0.086,
-      "mean_token_accuracy": 0.9756969884037971,
+      "loss": 0.0774,
+      "mean_token_accuracy": 0.9791093915700912,
       "step": 1048
     },
     {
       "epoch": 6.134897360703812,
-      "grad_norm": 0.6164994865776425,
+      "grad_norm": 0.5662890345517463,
       "learning_rate": 1.6157970249103484e-05,
-      "loss": 0.0822,
-      "mean_token_accuracy": 0.97352235019207,
+      "loss": 0.0694,
+      "mean_token_accuracy": 0.9782344624400139,
       "step": 1049
     },
     {
       "epoch": 6.140762463343108,
-      "grad_norm": 0.5479826751146541,
+      "grad_norm": 0.5645945744859859,
       "learning_rate": 1.612554456638688e-05,
-      "loss": 0.0803,
-      "mean_token_accuracy": 0.9752313643693924,
+      "loss": 0.0721,
+      "mean_token_accuracy": 0.9771447703242302,
       "step": 1050
     },
     {
       "epoch": 6.146627565982405,
-      "grad_norm": 0.8355035708152437,
+      "grad_norm": 0.6274940318220598,
       "learning_rate": 1.6093140205570962e-05,
-      "loss": 0.1034,
-      "mean_token_accuracy": 0.9721332043409348,
+      "loss": 0.0753,
+      "mean_token_accuracy": 0.976951114833355,
       "step": 1051
     },
     {
       "epoch": 6.152492668621701,
-      "grad_norm": 0.5699260258595685,
+      "grad_norm": 0.4898064028531864,
       "learning_rate": 1.6060757284270474e-05,
-      "loss": 0.088,
-      "mean_token_accuracy": 0.9704829677939415,
+      "loss": 0.0724,
+      "mean_token_accuracy": 0.9772902429103851,
       "step": 1052
     },
     {
       "epoch": 6.158357771260997,
-      "grad_norm": 0.4016074967594273,
+      "grad_norm": 0.4672713017679259,
       "learning_rate": 1.6028395920022336e-05,
-      "loss": 0.061,
-      "mean_token_accuracy": 0.9768156260251999,
+      "loss": 0.0549,
+      "mean_token_accuracy": 0.9808409512042999,
       "step": 1053
     },
     {
       "epoch": 6.164222873900293,
-      "grad_norm": 0.6274851394247467,
+      "grad_norm": 0.5108336954770324,
       "learning_rate": 1.5996056230285237e-05,
-      "loss": 0.0776,
-      "mean_token_accuracy": 0.9752253219485283,
+      "loss": 0.0622,
+      "mean_token_accuracy": 0.9801520705223083,
       "step": 1054
     },
     {
       "epoch": 6.170087976539589,
-      "grad_norm": 0.41979905539903684,
+      "grad_norm": 0.41505936098873364,
       "learning_rate": 1.596373833243918e-05,
-      "loss": 0.0758,
-      "mean_token_accuracy": 0.9752494245767593,
+      "loss": 0.0617,
+      "mean_token_accuracy": 0.978906974196434,
       "step": 1055
     },
     {
       "epoch": 6.1759530791788855,
-      "grad_norm": 0.5371249434282453,
+      "grad_norm": 0.6576675728809507,
       "learning_rate": 1.593144234378509e-05,
-      "loss": 0.0814,
-      "mean_token_accuracy": 0.9740007221698761,
+      "loss": 0.0687,
+      "mean_token_accuracy": 0.978096179664135,
       "step": 1056
     },
     {
       "epoch": 6.181818181818182,
-      "grad_norm": 0.5958655099860268,
+      "grad_norm": 0.4119939746598458,
       "learning_rate": 1.5899168381544362e-05,
-      "loss": 0.076,
-      "mean_token_accuracy": 0.9766522198915482,
+      "loss": 0.0592,
+      "mean_token_accuracy": 0.9820670709013939,
       "step": 1057
     },
     {
       "epoch": 6.187683284457478,
-      "grad_norm": 0.5620879511590664,
+      "grad_norm": 0.38406056548322093,
       "learning_rate": 1.5866916562858444e-05,
-      "loss": 0.0747,
-      "mean_token_accuracy": 0.9761717393994331,
+      "loss": 0.0579,
+      "mean_token_accuracy": 0.9805167242884636,
       "step": 1058
     },
     {
       "epoch": 6.193548387096774,
-      "grad_norm": 0.41663290523753393,
+      "grad_norm": 0.42331392587902517,
       "learning_rate": 1.5834687004788406e-05,
-      "loss": 0.0719,
-      "mean_token_accuracy": 0.9762328043580055,
+      "loss": 0.0636,
+      "mean_token_accuracy": 0.9793353825807571,
       "step": 1059
     },
     {
       "epoch": 6.19941348973607,
-      "grad_norm": 0.45751013839163385,
+      "grad_norm": 0.5444805201415094,
       "learning_rate": 1.5802479824314537e-05,
-      "loss": 0.0761,
-      "mean_token_accuracy": 0.9730842038989067,
+      "loss": 0.0663,
+      "mean_token_accuracy": 0.9753135293722153,
       "step": 1060
     },
     {
       "epoch": 6.205278592375366,
-      "grad_norm": 0.6061591524965043,
+      "grad_norm": 0.5768143603726456,
       "learning_rate": 1.5770295138335896e-05,
-      "loss": 0.0675,
-      "mean_token_accuracy": 0.9795668348670006,
+      "loss": 0.0633,
+      "mean_token_accuracy": 0.9811239168047905,
       "step": 1061
     },
     {
       "epoch": 6.211143695014663,
-      "grad_norm": 0.48653084806168795,
+      "grad_norm": 0.5086983780677398,
       "learning_rate": 1.573813306366988e-05,
-      "loss": 0.0669,
-      "mean_token_accuracy": 0.9805929064750671,
+      "loss": 0.0591,
+      "mean_token_accuracy": 0.9830747321248055,
       "step": 1062
     },
     {
       "epoch": 6.217008797653959,
-      "grad_norm": 0.7918965125848585,
+      "grad_norm": 0.49230527321663736,
       "learning_rate": 1.5705993717051838e-05,
-      "loss": 0.0966,
-      "mean_token_accuracy": 0.9726722538471222,
+      "loss": 0.0721,
+      "mean_token_accuracy": 0.976339653134346,
       "step": 1063
     },
     {
       "epoch": 6.222873900293255,
-      "grad_norm": 0.4360806881193703,
+      "grad_norm": 0.6986236541493921,
       "learning_rate": 1.567387721513462e-05,
-      "loss": 0.0733,
-      "mean_token_accuracy": 0.9755243211984634,
+      "loss": 0.0698,
+      "mean_token_accuracy": 0.9772974252700806,
       "step": 1064
     },
     {
       "epoch": 6.228739002932551,
-      "grad_norm": 0.4507922929333053,
+      "grad_norm": 0.42866239632289127,
       "learning_rate": 1.5641783674488155e-05,
-      "loss": 0.0788,
-      "mean_token_accuracy": 0.9779406636953354,
+      "loss": 0.0613,
+      "mean_token_accuracy": 0.9813599810004234,
       "step": 1065
     },
     {
       "epoch": 6.234604105571847,
-      "grad_norm": 0.524440368997054,
+      "grad_norm": 0.3950681428606381,
       "learning_rate": 1.5609713211599035e-05,
-      "loss": 0.0886,
-      "mean_token_accuracy": 0.9735754728317261,
+      "loss": 0.0691,
+      "mean_token_accuracy": 0.9793985933065414,
       "step": 1066
     },
     {
       "epoch": 6.2404692082111435,
-      "grad_norm": 0.4933573360395662,
+      "grad_norm": 0.49277456950892906,
       "learning_rate": 1.557766594287009e-05,
-      "loss": 0.0814,
-      "mean_token_accuracy": 0.9745327085256577,
+      "loss": 0.0722,
+      "mean_token_accuracy": 0.9784559234976768,
       "step": 1067
     },
     {
       "epoch": 6.24633431085044,
-      "grad_norm": 0.6374490569807274,
+      "grad_norm": 0.5974984569237553,
       "learning_rate": 1.554564198461996e-05,
-      "loss": 0.1006,
-      "mean_token_accuracy": 0.9676776975393295,
+      "loss": 0.0773,
+      "mean_token_accuracy": 0.9730274602770805,
       "step": 1068
     },
     {
       "epoch": 6.252199413489736,
-      "grad_norm": 0.503016875609656,
+      "grad_norm": 0.5298257752867717,
       "learning_rate": 1.5513641453082672e-05,
-      "loss": 0.0743,
-      "mean_token_accuracy": 0.9755501598119736,
+      "loss": 0.0652,
+      "mean_token_accuracy": 0.9812508746981621,
       "step": 1069
     },
     {
       "epoch": 6.258064516129032,
-      "grad_norm": 0.6725586143220211,
+      "grad_norm": 0.4929415822759338,
       "learning_rate": 1.5481664464407246e-05,
-      "loss": 0.0786,
-      "mean_token_accuracy": 0.9803177490830421,
+      "loss": 0.0619,
+      "mean_token_accuracy": 0.9832079485058784,
       "step": 1070
     },
     {
       "epoch": 6.263929618768328,
-      "grad_norm": 0.3845258686542439,
+      "grad_norm": 0.45181732363229793,
       "learning_rate": 1.5449711134657224e-05,
-      "loss": 0.0814,
-      "mean_token_accuracy": 0.9737701192498207,
+      "loss": 0.0687,
+      "mean_token_accuracy": 0.9794114828109741,
       "step": 1071
     },
     {
       "epoch": 6.269794721407624,
-      "grad_norm": 0.5801290016339792,
+      "grad_norm": 0.4301733956357397,
       "learning_rate": 1.5417781579810296e-05,
-      "loss": 0.0854,
-      "mean_token_accuracy": 0.9750698879361153,
+      "loss": 0.0676,
+      "mean_token_accuracy": 0.9799632504582405,
       "step": 1072
     },
     {
       "epoch": 6.275659824046921,
-      "grad_norm": 0.46851452988304226,
+      "grad_norm": 0.45380792420397464,
       "learning_rate": 1.5385875915757846e-05,
-      "loss": 0.0688,
-      "mean_token_accuracy": 0.9781253635883331,
+      "loss": 0.0565,
+      "mean_token_accuracy": 0.9798811078071594,
       "step": 1073
     },
     {
       "epoch": 6.281524926686217,
-      "grad_norm": 0.6003054181463484,
+      "grad_norm": 0.4889342003194968,
       "learning_rate": 1.535399425830456e-05,
-      "loss": 0.0806,
-      "mean_token_accuracy": 0.9752677977085114,
+      "loss": 0.062,
+      "mean_token_accuracy": 0.9813030734658241,
       "step": 1074
     },
     {
       "epoch": 6.287390029325513,
-      "grad_norm": 0.4922352812959743,
+      "grad_norm": 0.49157956071263753,
       "learning_rate": 1.5322136723167957e-05,
-      "loss": 0.074,
-      "mean_token_accuracy": 0.9730022326111794,
+      "loss": 0.0678,
+      "mean_token_accuracy": 0.9778005704283714,
       "step": 1075
     },
     {
       "epoch": 6.293255131964809,
-      "grad_norm": 0.5503056897332197,
+      "grad_norm": 0.36148981245399664,
       "learning_rate": 1.5290303425978036e-05,
-      "loss": 0.0742,
-      "mean_token_accuracy": 0.978991761803627,
+      "loss": 0.0578,
+      "mean_token_accuracy": 0.9815500751137733,
       "step": 1076
     },
     {
       "epoch": 6.299120234604105,
-      "grad_norm": 0.48722504997778493,
+      "grad_norm": 0.5078662394006407,
       "learning_rate": 1.525849448227681e-05,
-      "loss": 0.0808,
-      "mean_token_accuracy": 0.9766300916671753,
+      "loss": 0.0649,
+      "mean_token_accuracy": 0.9803764596581459,
       "step": 1077
     },
     {
       "epoch": 6.3049853372434015,
-      "grad_norm": 0.5168974806482571,
+      "grad_norm": 0.44875417467973094,
       "learning_rate": 1.5226710007517894e-05,
-      "loss": 0.0912,
-      "mean_token_accuracy": 0.9702020585536957,
+      "loss": 0.0728,
+      "mean_token_accuracy": 0.977813683450222,
       "step": 1078
     },
     {
       "epoch": 6.310850439882698,
-      "grad_norm": 0.427948023862911,
+      "grad_norm": 0.43324133716142355,
       "learning_rate": 1.5194950117066097e-05,
-      "loss": 0.0674,
-      "mean_token_accuracy": 0.9776515811681747,
+      "loss": 0.0594,
+      "mean_token_accuracy": 0.979973241686821,
       "step": 1079
     },
     {
       "epoch": 6.316715542521994,
-      "grad_norm": 0.5486267408576772,
+      "grad_norm": 0.4151240808065745,
       "learning_rate": 1.5163214926196995e-05,
-      "loss": 0.0935,
-      "mean_token_accuracy": 0.97169990837574,
+      "loss": 0.0701,
+      "mean_token_accuracy": 0.9771018698811531,
       "step": 1080
     },
     {
       "epoch": 6.32258064516129,
-      "grad_norm": 0.4875960684561732,
+      "grad_norm": 0.4555302943525885,
       "learning_rate": 1.5131504550096515e-05,
-      "loss": 0.079,
-      "mean_token_accuracy": 0.9735133945941925,
+      "loss": 0.0669,
+      "mean_token_accuracy": 0.978136457502842,
       "step": 1081
     },
     {
       "epoch": 6.328445747800586,
-      "grad_norm": 0.6244028161363354,
+      "grad_norm": 0.6519430545614232,
       "learning_rate": 1.5099819103860504e-05,
-      "loss": 0.0699,
-      "mean_token_accuracy": 0.9777925983071327,
+      "loss": 0.0629,
+      "mean_token_accuracy": 0.9802589863538742,
       "step": 1082
     },
     {
       "epoch": 6.334310850439882,
-      "grad_norm": 0.5481634686271034,
+      "grad_norm": 0.4967967194966807,
       "learning_rate": 1.5068158702494348e-05,
-      "loss": 0.067,
-      "mean_token_accuracy": 0.9792685136198997,
+      "loss": 0.0574,
+      "mean_token_accuracy": 0.9817872196435928,
       "step": 1083
     },
     {
       "epoch": 6.340175953079179,
-      "grad_norm": 0.37298288716380845,
+      "grad_norm": 0.44345834591558786,
       "learning_rate": 1.5036523460912511e-05,
-      "loss": 0.0648,
-      "mean_token_accuracy": 0.9814745262265205,
+      "loss": 0.0564,
+      "mean_token_accuracy": 0.9838694632053375,
       "step": 1084
     },
     {
       "epoch": 6.346041055718475,
-      "grad_norm": 0.36936094294826227,
+      "grad_norm": 0.4715058201780604,
       "learning_rate": 1.5004913493938147e-05,
-      "loss": 0.07,
-      "mean_token_accuracy": 0.9765683263540268,
+      "loss": 0.0634,
+      "mean_token_accuracy": 0.9793806448578835,
       "step": 1085
     },
     {
       "epoch": 6.351906158357771,
-      "grad_norm": 0.7399682764563025,
+      "grad_norm": 0.5443439102135127,
       "learning_rate": 1.4973328916302667e-05,
-      "loss": 0.0947,
-      "mean_token_accuracy": 0.9703186228871346,
+      "loss": 0.0737,
+      "mean_token_accuracy": 0.9753685146570206,
       "step": 1086
     },
     {
       "epoch": 6.357771260997067,
-      "grad_norm": 0.5453093945017612,
+      "grad_norm": 0.5384867941568995,
       "learning_rate": 1.4941769842645335e-05,
-      "loss": 0.0831,
-      "mean_token_accuracy": 0.9727587401866913,
+      "loss": 0.0658,
+      "mean_token_accuracy": 0.9772131741046906,
       "step": 1087
     },
     {
       "epoch": 6.363636363636363,
-      "grad_norm": 0.7601852801488714,
+      "grad_norm": 0.4575840235851356,
       "learning_rate": 1.4910236387512837e-05,
-      "loss": 0.0773,
-      "mean_token_accuracy": 0.975163146853447,
+      "loss": 0.0635,
+      "mean_token_accuracy": 0.9794055670499802,
       "step": 1088
     },
     {
       "epoch": 6.3695014662756595,
-      "grad_norm": 0.8980917715317281,
+      "grad_norm": 0.40669986519786894,
       "learning_rate": 1.487872866535888e-05,
-      "loss": 0.0771,
-      "mean_token_accuracy": 0.9759137481451035,
+      "loss": 0.0586,
+      "mean_token_accuracy": 0.9820075482130051,
       "step": 1089
     },
     {
       "epoch": 6.375366568914956,
-      "grad_norm": 0.5099633970627233,
+      "grad_norm": 0.5175296953254443,
       "learning_rate": 1.4847246790543773e-05,
-      "loss": 0.075,
-      "mean_token_accuracy": 0.9745916873216629,
+      "loss": 0.0618,
+      "mean_token_accuracy": 0.9794023782014847,
       "step": 1090
     },
     {
       "epoch": 6.381231671554252,
-      "grad_norm": 0.6323169570307837,
+      "grad_norm": 0.4715228486396621,
       "learning_rate": 1.4815790877334007e-05,
-      "loss": 0.0798,
-      "mean_token_accuracy": 0.9740422070026398,
+      "loss": 0.0566,
+      "mean_token_accuracy": 0.9806531295180321,
       "step": 1091
     },
     {
       "epoch": 6.387096774193548,
-      "grad_norm": 0.6403999041432936,
+      "grad_norm": 0.5288849918324824,
       "learning_rate": 1.4784361039901844e-05,
-      "loss": 0.0865,
-      "mean_token_accuracy": 0.9765808507800102,
+      "loss": 0.0684,
+      "mean_token_accuracy": 0.9798084422945976,
       "step": 1092
     },
     {
       "epoch": 6.392961876832844,
-      "grad_norm": 0.7462715070778873,
+      "grad_norm": 0.4773056484959844,
       "learning_rate": 1.47529573923249e-05,
-      "loss": 0.0688,
-      "mean_token_accuracy": 0.978026993572712,
+      "loss": 0.0602,
+      "mean_token_accuracy": 0.9808967262506485,
       "step": 1093
     },
     {
       "epoch": 6.39882697947214,
-      "grad_norm": 0.5694658566557079,
+      "grad_norm": 0.5215802713663142,
       "learning_rate": 1.472158004858573e-05,
-      "loss": 0.075,
-      "mean_token_accuracy": 0.9749011695384979,
+      "loss": 0.0623,
+      "mean_token_accuracy": 0.9784137681126595,
       "step": 1094
     },
     {
       "epoch": 6.404692082111437,
-      "grad_norm": 0.5450236136544335,
+      "grad_norm": 0.594013580780295,
       "learning_rate": 1.4690229122571419e-05,
-      "loss": 0.0929,
-      "mean_token_accuracy": 0.9710717871785164,
+      "loss": 0.0749,
+      "mean_token_accuracy": 0.9752750173211098,
       "step": 1095
     },
     {
       "epoch": 6.410557184750733,
-      "grad_norm": 0.41354829760386663,
+      "grad_norm": 0.45076680417605564,
       "learning_rate": 1.4658904728073169e-05,
-      "loss": 0.0644,
-      "mean_token_accuracy": 0.9808862060308456,
+      "loss": 0.0579,
+      "mean_token_accuracy": 0.9810296148061752,
       "step": 1096
     },
     {
       "epoch": 6.416422287390029,
-      "grad_norm": 0.5695348455497171,
+      "grad_norm": 0.4686177977484101,
       "learning_rate": 1.4627606978785878e-05,
-      "loss": 0.0787,
-      "mean_token_accuracy": 0.9755074679851532,
+      "loss": 0.0653,
+      "mean_token_accuracy": 0.9801298379898071,
       "step": 1097
     },
     {
       "epoch": 6.422287390029325,
-      "grad_norm": 0.6053385591283429,
+      "grad_norm": 0.473498323409717,
       "learning_rate": 1.4596335988307736e-05,
-      "loss": 0.0891,
-      "mean_token_accuracy": 0.9750615283846855,
+      "loss": 0.0715,
+      "mean_token_accuracy": 0.9790318608283997,
       "step": 1098
     },
     {
       "epoch": 6.428152492668621,
-      "grad_norm": 0.43427458206289293,
+      "grad_norm": 0.3829985516560962,
       "learning_rate": 1.4565091870139814e-05,
-      "loss": 0.0659,
-      "mean_token_accuracy": 0.978523463010788,
+      "loss": 0.0544,
+      "mean_token_accuracy": 0.9823189005255699,
       "step": 1099
     },
     {
       "epoch": 6.4340175953079175,
-      "grad_norm": 0.7745882954070427,
+      "grad_norm": 0.6985399778014056,
       "learning_rate": 1.4533874737685638e-05,
-      "loss": 0.1,
-      "mean_token_accuracy": 0.9720165580511093,
+      "loss": 0.0832,
+      "mean_token_accuracy": 0.9754642993211746,
       "step": 1100
     },
     {
       "epoch": 6.439882697947214,
-      "grad_norm": 0.5568880003543828,
+      "grad_norm": 0.47408544720881507,
       "learning_rate": 1.450268470425079e-05,
-      "loss": 0.0727,
-      "mean_token_accuracy": 0.9786621853709221,
+      "loss": 0.0654,
+      "mean_token_accuracy": 0.9818674698472023,
       "step": 1101
     },
     {
       "epoch": 6.44574780058651,
-      "grad_norm": 0.6102606978496696,
+      "grad_norm": 0.4132311752624299,
       "learning_rate": 1.4471521883042492e-05,
-      "loss": 0.0797,
-      "mean_token_accuracy": 0.9762641340494156,
+      "loss": 0.0595,
+      "mean_token_accuracy": 0.9819449707865715,
       "step": 1102
     },
     {
       "epoch": 6.451612903225806,
-      "grad_norm": 0.5940527203426741,
+      "grad_norm": 0.5282825996755145,
       "learning_rate": 1.4440386387169207e-05,
-      "loss": 0.0812,
-      "mean_token_accuracy": 0.9767268747091293,
+      "loss": 0.0676,
+      "mean_token_accuracy": 0.9805441722273827,
       "step": 1103
     },
     {
       "epoch": 6.457478005865102,
-      "grad_norm": 0.45629024567204896,
+      "grad_norm": 0.5093444055532642,
       "learning_rate": 1.4409278329640218e-05,
-      "loss": 0.0815,
-      "mean_token_accuracy": 0.9736464098095894,
+      "loss": 0.0696,
+      "mean_token_accuracy": 0.9782739505171776,
       "step": 1104
     },
     {
       "epoch": 6.463343108504398,
-      "grad_norm": 0.5152284877743204,
+      "grad_norm": 0.40896293549583035,
       "learning_rate": 1.4378197823365186e-05,
-      "loss": 0.0793,
-      "mean_token_accuracy": 0.9755809679627419,
+      "loss": 0.0653,
+      "mean_token_accuracy": 0.980708159506321,
       "step": 1105
     },
     {
       "epoch": 6.469208211143695,
-      "grad_norm": 0.5481643128231853,
+      "grad_norm": 0.5368030574271555,
       "learning_rate": 1.4347144981153807e-05,
-      "loss": 0.0957,
-      "mean_token_accuracy": 0.9682923331856728,
+      "loss": 0.0763,
+      "mean_token_accuracy": 0.9757898151874542,
       "step": 1106
     },
     {
       "epoch": 6.475073313782991,
-      "grad_norm": 0.38056702827336675,
+      "grad_norm": 0.33963125667874944,
       "learning_rate": 1.4316119915715363e-05,
-      "loss": 0.0638,
-      "mean_token_accuracy": 0.9792584180831909,
+      "loss": 0.0552,
+      "mean_token_accuracy": 0.9820173308253288,
       "step": 1107
     },
     {
       "epoch": 6.480938416422287,
-      "grad_norm": 0.6374492323620196,
+      "grad_norm": 0.5695780400518249,
       "learning_rate": 1.42851227396583e-05,
-      "loss": 0.0848,
-      "mean_token_accuracy": 0.9738872051239014,
+      "loss": 0.0724,
+      "mean_token_accuracy": 0.9782184883952141,
       "step": 1108
     },
     {
       "epoch": 6.486803519061583,
-      "grad_norm": 0.4774557252930596,
+      "grad_norm": 0.4686135496909153,
       "learning_rate": 1.4254153565489861e-05,
-      "loss": 0.0847,
-      "mean_token_accuracy": 0.9743882343173027,
+      "loss": 0.0694,
+      "mean_token_accuracy": 0.9768488556146622,
       "step": 1109
     },
     {
       "epoch": 6.492668621700879,
-      "grad_norm": 0.5011837903979812,
+      "grad_norm": 0.4444438012165556,
       "learning_rate": 1.4223212505615634e-05,
-      "loss": 0.0729,
-      "mean_token_accuracy": 0.9778528362512589,
+      "loss": 0.0636,
+      "mean_token_accuracy": 0.981613002717495,
       "step": 1110
     },
     {
       "epoch": 6.4985337243401755,
-      "grad_norm": 0.33804780404464596,
+      "grad_norm": 0.4325209107027411,
       "learning_rate": 1.4192299672339167e-05,
-      "loss": 0.0655,
-      "mean_token_accuracy": 0.9776539281010628,
+      "loss": 0.0583,
+      "mean_token_accuracy": 0.9803315699100494,
       "step": 1111
     },
     {
       "epoch": 6.504398826979472,
-      "grad_norm": 0.5528074933384356,
+      "grad_norm": 0.5013136187861221,
       "learning_rate": 1.4161415177861568e-05,
-      "loss": 0.0812,
-      "mean_token_accuracy": 0.9744323939085007,
+      "loss": 0.0656,
+      "mean_token_accuracy": 0.9776363521814346,
       "step": 1112
     },
     {
       "epoch": 6.510263929618768,
-      "grad_norm": 0.457506401160417,
+      "grad_norm": 0.3588687094600502,
       "learning_rate": 1.4130559134281074e-05,
-      "loss": 0.0696,
-      "mean_token_accuracy": 0.9784527495503426,
+      "loss": 0.0566,
+      "mean_token_accuracy": 0.9824674054980278,
       "step": 1113
     },
     {
       "epoch": 6.516129032258064,
-      "grad_norm": 0.4355792645298778,
+      "grad_norm": 0.5881958388687754,
       "learning_rate": 1.4099731653592668e-05,
-      "loss": 0.0714,
-      "mean_token_accuracy": 0.9768256545066833,
+      "loss": 0.0662,
+      "mean_token_accuracy": 0.9796800762414932,
       "step": 1114
     },
     {
       "epoch": 6.52199413489736,
-      "grad_norm": 0.5847017963309225,
+      "grad_norm": 0.5935746416719274,
       "learning_rate": 1.406893284768764e-05,
-      "loss": 0.0957,
-      "mean_token_accuracy": 0.9728905037045479,
+      "loss": 0.0772,
+      "mean_token_accuracy": 0.9757950976490974,
       "step": 1115
     },
     {
       "epoch": 6.527859237536656,
-      "grad_norm": 0.4781949377668264,
+      "grad_norm": 0.6106151329018146,
       "learning_rate": 1.4038162828353223e-05,
-      "loss": 0.0836,
-      "mean_token_accuracy": 0.9729764312505722,
+      "loss": 0.0767,
+      "mean_token_accuracy": 0.9741943404078484,
       "step": 1116
     },
     {
       "epoch": 6.533724340175953,
-      "grad_norm": 0.39863238666699835,
+      "grad_norm": 0.5190014325868866,
       "learning_rate": 1.4007421707272167e-05,
-      "loss": 0.0791,
-      "mean_token_accuracy": 0.9747898653149605,
+      "loss": 0.0673,
+      "mean_token_accuracy": 0.9787988364696503,
       "step": 1117
     },
     {
       "epoch": 6.539589442815249,
-      "grad_norm": 0.42134641962040914,
+      "grad_norm": 0.47127351993031963,
       "learning_rate": 1.3976709596022313e-05,
-      "loss": 0.0771,
-      "mean_token_accuracy": 0.9754165560007095,
+      "loss": 0.0648,
+      "mean_token_accuracy": 0.9789974242448807,
       "step": 1118
     },
     {
       "epoch": 6.545454545454545,
-      "grad_norm": 0.55326137317192,
+      "grad_norm": 0.5045724179125629,
       "learning_rate": 1.3946026606076232e-05,
-      "loss": 0.0801,
-      "mean_token_accuracy": 0.9780076220631599,
+      "loss": 0.0682,
+      "mean_token_accuracy": 0.9812200665473938,
       "step": 1119
     },
     {
       "epoch": 6.551319648093841,
-      "grad_norm": 0.5124262743538484,
+      "grad_norm": 0.5047482899527544,
       "learning_rate": 1.3915372848800784e-05,
-      "loss": 0.0813,
-      "mean_token_accuracy": 0.9773962423205376,
+      "loss": 0.0631,
+      "mean_token_accuracy": 0.981167197227478,
       "step": 1120
     },
     {
       "epoch": 6.557184750733137,
-      "grad_norm": 0.3791238325929412,
+      "grad_norm": 0.4417462758826341,
       "learning_rate": 1.388474843545672e-05,
-      "loss": 0.0672,
-      "mean_token_accuracy": 0.9768983200192451,
+      "loss": 0.0552,
+      "mean_token_accuracy": 0.9817292094230652,
       "step": 1121
     },
     {
       "epoch": 6.563049853372434,
-      "grad_norm": 0.5267515124456588,
+      "grad_norm": 0.465911409594195,
       "learning_rate": 1.3854153477198305e-05,
-      "loss": 0.0975,
-      "mean_token_accuracy": 0.96617691218853,
+      "loss": 0.0776,
+      "mean_token_accuracy": 0.9728592708706856,
       "step": 1122
     },
     {
       "epoch": 6.568914956011731,
-      "grad_norm": 0.43681836428663207,
+      "grad_norm": 0.3971582032508505,
       "learning_rate": 1.3823588085072865e-05,
-      "loss": 0.0682,
-      "mean_token_accuracy": 0.9760182648897171,
+      "loss": 0.0595,
+      "mean_token_accuracy": 0.9787317886948586,
       "step": 1123
     },
     {
       "epoch": 6.574780058651027,
-      "grad_norm": 0.49103511141121264,
+      "grad_norm": 0.5127794810231362,
       "learning_rate": 1.3793052370020441e-05,
-      "loss": 0.0855,
-      "mean_token_accuracy": 0.9750201031565666,
+      "loss": 0.0732,
+      "mean_token_accuracy": 0.9790031611919403,
       "step": 1124
     },
     {
       "epoch": 6.580645161290323,
-      "grad_norm": 0.5269957140084237,
+      "grad_norm": 0.5745357026449952,
       "learning_rate": 1.3762546442873343e-05,
-      "loss": 0.0795,
-      "mean_token_accuracy": 0.9769143760204315,
+      "loss": 0.0706,
+      "mean_token_accuracy": 0.9805065914988518,
       "step": 1125
     },
     {
       "epoch": 6.586510263929619,
-      "grad_norm": 0.5181206552351602,
+      "grad_norm": 0.5035709411175152,
       "learning_rate": 1.3732070414355766e-05,
-      "loss": 0.0787,
-      "mean_token_accuracy": 0.977984108030796,
+      "loss": 0.069,
+      "mean_token_accuracy": 0.9779914170503616,
       "step": 1126
     },
     {
       "epoch": 6.592375366568915,
-      "grad_norm": 0.5708151076864234,
+      "grad_norm": 0.49677571366761347,
       "learning_rate": 1.370162439508339e-05,
-      "loss": 0.0693,
-      "mean_token_accuracy": 0.9770340025424957,
+      "loss": 0.0628,
+      "mean_token_accuracy": 0.9810082614421844,
       "step": 1127
     },
     {
       "epoch": 6.5982404692082115,
-      "grad_norm": 0.5470399050655503,
+      "grad_norm": 0.4300492329897516,
       "learning_rate": 1.367120849556296e-05,
-      "loss": 0.0777,
-      "mean_token_accuracy": 0.9765413254499435,
+      "loss": 0.0628,
+      "mean_token_accuracy": 0.9806487932801247,
       "step": 1128
     },
     {
       "epoch": 6.604105571847508,
-      "grad_norm": 0.5386549797651184,
+      "grad_norm": 0.3446649815945842,
       "learning_rate": 1.3640822826191907e-05,
-      "loss": 0.0631,
-      "mean_token_accuracy": 0.981001041829586,
+      "loss": 0.0504,
+      "mean_token_accuracy": 0.9841926470398903,
       "step": 1129
     },
     {
       "epoch": 6.609970674486804,
-      "grad_norm": 0.5851693910491862,
+      "grad_norm": 0.49179030281896613,
       "learning_rate": 1.361046749725794e-05,
-      "loss": 0.0828,
-      "mean_token_accuracy": 0.9728478416800499,
+      "loss": 0.0683,
+      "mean_token_accuracy": 0.9768203571438789,
       "step": 1130
     },
     {
       "epoch": 6.6158357771261,
-      "grad_norm": 0.43900153373855055,
+      "grad_norm": 0.3978124224369657,
       "learning_rate": 1.3580142618938647e-05,
-      "loss": 0.0657,
-      "mean_token_accuracy": 0.9815235733985901,
+      "loss": 0.0538,
+      "mean_token_accuracy": 0.9839759469032288,
       "step": 1131
     },
     {
       "epoch": 6.621700879765396,
-      "grad_norm": 0.49986443142734005,
+      "grad_norm": 0.4851032507862954,
       "learning_rate": 1.354984830130109e-05,
-      "loss": 0.079,
-      "mean_token_accuracy": 0.972543366253376,
+      "loss": 0.0703,
+      "mean_token_accuracy": 0.9769893512129784,
       "step": 1132
     },
     {
       "epoch": 6.627565982404692,
-      "grad_norm": 0.34788685161884764,
+      "grad_norm": 0.46896793554361244,
       "learning_rate": 1.3519584654301401e-05,
-      "loss": 0.0725,
-      "mean_token_accuracy": 0.9763465449213982,
+      "loss": 0.0669,
+      "mean_token_accuracy": 0.979073740541935,
       "step": 1133
     },
     {
       "epoch": 6.633431085043989,
-      "grad_norm": 0.4055813660781002,
+      "grad_norm": 0.4433020660589846,
       "learning_rate": 1.3489351787784398e-05,
-      "loss": 0.0709,
-      "mean_token_accuracy": 0.9773242846131325,
+      "loss": 0.0641,
+      "mean_token_accuracy": 0.9796401932835579,
       "step": 1134
     },
     {
       "epoch": 6.639296187683285,
-      "grad_norm": 0.5243402543409744,
+      "grad_norm": 0.6547657796915215,
       "learning_rate": 1.3459149811483178e-05,
-      "loss": 0.0802,
-      "mean_token_accuracy": 0.9739445820450783,
+      "loss": 0.0826,
+      "mean_token_accuracy": 0.9772631600499153,
       "step": 1135
     },
     {
       "epoch": 6.645161290322581,
-      "grad_norm": 0.5784909436096058,
+      "grad_norm": 0.6772433811470678,
       "learning_rate": 1.342897883501872e-05,
-      "loss": 0.0806,
-      "mean_token_accuracy": 0.9781769141554832,
+      "loss": 0.0732,
+      "mean_token_accuracy": 0.9791544526815414,
       "step": 1136
     },
     {
       "epoch": 6.651026392961877,
-      "grad_norm": 0.5642611585182853,
+      "grad_norm": 0.5203169937735215,
       "learning_rate": 1.3398838967899477e-05,
-      "loss": 0.0757,
-      "mean_token_accuracy": 0.9764586612582207,
+      "loss": 0.0642,
+      "mean_token_accuracy": 0.978813648223877,
       "step": 1137
     },
     {
       "epoch": 6.656891495601173,
-      "grad_norm": 0.5776079482395293,
+      "grad_norm": 0.42941729523725874,
       "learning_rate": 1.3368730319520992e-05,
-      "loss": 0.0798,
-      "mean_token_accuracy": 0.9767368286848068,
+      "loss": 0.0642,
+      "mean_token_accuracy": 0.9808278232812881,
       "step": 1138
     },
     {
       "epoch": 6.6627565982404695,
-      "grad_norm": 0.5020885081440374,
+      "grad_norm": 0.4520583507512642,
       "learning_rate": 1.3338652999165511e-05,
-      "loss": 0.0828,
-      "mean_token_accuracy": 0.9737912267446518,
+      "loss": 0.0672,
+      "mean_token_accuracy": 0.9790240898728371,
       "step": 1139
     },
     {
       "epoch": 6.668621700879766,
-      "grad_norm": 0.4204132575953816,
+      "grad_norm": 0.3642854711728884,
       "learning_rate": 1.3308607116001549e-05,
-      "loss": 0.0673,
-      "mean_token_accuracy": 0.9794393181800842,
+      "loss": 0.0572,
+      "mean_token_accuracy": 0.98244908452034,
       "step": 1140
     },
     {
       "epoch": 6.674486803519062,
-      "grad_norm": 0.33560567758456566,
+      "grad_norm": 0.521170844330364,
       "learning_rate": 1.3278592779083534e-05,
-      "loss": 0.0622,
-      "mean_token_accuracy": 0.982670783996582,
+      "loss": 0.0565,
+      "mean_token_accuracy": 0.983853779733181,
       "step": 1141
     },
     {
       "epoch": 6.680351906158358,
-      "grad_norm": 0.44043001628693984,
+      "grad_norm": 0.39924193832736776,
       "learning_rate": 1.324861009735138e-05,
-      "loss": 0.0736,
-      "mean_token_accuracy": 0.976046696305275,
+      "loss": 0.0607,
+      "mean_token_accuracy": 0.9806713908910751,
       "step": 1142
     },
     {
       "epoch": 6.686217008797654,
-      "grad_norm": 0.4471342618318792,
+      "grad_norm": 0.4039864199512111,
       "learning_rate": 1.3218659179630112e-05,
-      "loss": 0.0801,
-      "mean_token_accuracy": 0.9754833951592445,
+      "loss": 0.0645,
+      "mean_token_accuracy": 0.9802507907152176,
       "step": 1143
     },
     {
       "epoch": 6.69208211143695,
-      "grad_norm": 0.4923308485055896,
+      "grad_norm": 0.5196436019363877,
       "learning_rate": 1.3188740134629469e-05,
-      "loss": 0.0773,
-      "mean_token_accuracy": 0.9752767756581306,
+      "loss": 0.0665,
+      "mean_token_accuracy": 0.9800485447049141,
       "step": 1144
     },
     {
       "epoch": 6.697947214076247,
-      "grad_norm": 0.38739961314807136,
+      "grad_norm": 0.42089828963999687,
       "learning_rate": 1.3158853070943499e-05,
-      "loss": 0.0627,
-      "mean_token_accuracy": 0.9790047481656075,
+      "loss": 0.0553,
+      "mean_token_accuracy": 0.9817090556025505,
       "step": 1145
     },
     {
       "epoch": 6.703812316715543,
-      "grad_norm": 0.5382902596883963,
+      "grad_norm": 0.5007957363563511,
       "learning_rate": 1.3128998097050174e-05,
-      "loss": 0.0761,
-      "mean_token_accuracy": 0.9773894026875496,
+      "loss": 0.0659,
+      "mean_token_accuracy": 0.9803542569279671,
       "step": 1146
     },
     {
       "epoch": 6.709677419354839,
-      "grad_norm": 0.33644056058754507,
+      "grad_norm": 0.5010376117207007,
       "learning_rate": 1.3099175321310993e-05,
-      "loss": 0.0731,
-      "mean_token_accuracy": 0.9767147675156593,
+      "loss": 0.066,
+      "mean_token_accuracy": 0.979380339384079,
       "step": 1147
     },
     {
       "epoch": 6.715542521994135,
-      "grad_norm": 0.4103102513526391,
+      "grad_norm": 0.3592596677655769,
       "learning_rate": 1.3069384851970584e-05,
-      "loss": 0.072,
-      "mean_token_accuracy": 0.9766853898763657,
+      "loss": 0.0554,
+      "mean_token_accuracy": 0.9809225648641586,
       "step": 1148
     },
     {
       "epoch": 6.721407624633431,
-      "grad_norm": 0.4939880953827209,
+      "grad_norm": 0.47254547050064377,
       "learning_rate": 1.3039626797156321e-05,
-      "loss": 0.0736,
-      "mean_token_accuracy": 0.9746366888284683,
+      "loss": 0.0613,
+      "mean_token_accuracy": 0.9800109416246414,
       "step": 1149
     },
     {
       "epoch": 6.7272727272727275,
-      "grad_norm": 0.5170797931844157,
+      "grad_norm": 0.40129886920431546,
       "learning_rate": 1.3009901264877924e-05,
-      "loss": 0.0742,
-      "mean_token_accuracy": 0.9808530285954475,
+      "loss": 0.0588,
+      "mean_token_accuracy": 0.9832498729228973,
       "step": 1150
     },
     {
       "epoch": 6.733137829912024,
-      "grad_norm": 0.43733602892668694,
+      "grad_norm": 0.3962732126618426,
       "learning_rate": 1.298020836302707e-05,
-      "loss": 0.0737,
-      "mean_token_accuracy": 0.9757565036416054,
+      "loss": 0.0617,
+      "mean_token_accuracy": 0.9801494553685188,
       "step": 1151
     },
     {
       "epoch": 6.73900293255132,
-      "grad_norm": 0.4364034894757785,
+      "grad_norm": 0.4094241439229563,
       "learning_rate": 1.2950548199376999e-05,
-      "loss": 0.0709,
-      "mean_token_accuracy": 0.9793206825852394,
+      "loss": 0.0576,
+      "mean_token_accuracy": 0.9825976863503456,
       "step": 1152
     },
     {
       "epoch": 6.744868035190616,
-      "grad_norm": 0.46877766717768593,
+      "grad_norm": 0.5378068116582913,
       "learning_rate": 1.292092088158213e-05,
-      "loss": 0.0802,
-      "mean_token_accuracy": 0.9757286831736565,
+      "loss": 0.0676,
+      "mean_token_accuracy": 0.9790525138378143,
       "step": 1153
     },
     {
       "epoch": 6.750733137829912,
-      "grad_norm": 0.5253930018569454,
+      "grad_norm": 0.3968231076570657,
       "learning_rate": 1.2891326517177663e-05,
-      "loss": 0.0639,
-      "mean_token_accuracy": 0.9813364297151566,
+      "loss": 0.056,
+      "mean_token_accuracy": 0.9852932840585709,
       "step": 1154
     },
     {
       "epoch": 6.756598240469208,
-      "grad_norm": 0.7472840164089494,
+      "grad_norm": 0.48590510329215825,
       "learning_rate": 1.2861765213579177e-05,
-      "loss": 0.0785,
-      "mean_token_accuracy": 0.9729948118329048,
+      "loss": 0.069,
+      "mean_token_accuracy": 0.9758260548114777,
       "step": 1155
     },
     {
       "epoch": 6.762463343108505,
-      "grad_norm": 0.4671253491191335,
+      "grad_norm": 0.4499456893763865,
       "learning_rate": 1.2832237078082272e-05,
-      "loss": 0.0736,
-      "mean_token_accuracy": 0.9766018316149712,
+      "loss": 0.0588,
+      "mean_token_accuracy": 0.9807997494935989,
       "step": 1156
     },
     {
       "epoch": 6.768328445747801,
-      "grad_norm": 0.48121955835735647,
+      "grad_norm": 0.4467830869566874,
       "learning_rate": 1.2802742217862156e-05,
-      "loss": 0.0789,
-      "mean_token_accuracy": 0.9764746427536011,
+      "loss": 0.0659,
+      "mean_token_accuracy": 0.9799171090126038,
       "step": 1157
     },
     {
       "epoch": 6.774193548387097,
-      "grad_norm": 0.49066051899276214,
+      "grad_norm": 0.4405266054873109,
       "learning_rate": 1.2773280739973255e-05,
-      "loss": 0.0763,
-      "mean_token_accuracy": 0.9759164974093437,
+      "loss": 0.0671,
+      "mean_token_accuracy": 0.977348655462265,
       "step": 1158
     },
     {
       "epoch": 6.780058651026393,
-      "grad_norm": 0.6208662162621278,
+      "grad_norm": 0.400408649403103,
       "learning_rate": 1.2743852751348833e-05,
-      "loss": 0.076,
-      "mean_token_accuracy": 0.9792628586292267,
+      "loss": 0.0553,
+      "mean_token_accuracy": 0.9837123081088066,
       "step": 1159
     },
     {
       "epoch": 6.785923753665689,
-      "grad_norm": 0.353932410029375,
+      "grad_norm": 0.3887758632837316,
       "learning_rate": 1.2714458358800612e-05,
-      "loss": 0.0532,
-      "mean_token_accuracy": 0.9837256073951721,
+      "loss": 0.0471,
+      "mean_token_accuracy": 0.9850385040044785,
       "step": 1160
     },
     {
       "epoch": 6.7917888563049855,
-      "grad_norm": 0.49853873282358013,
+      "grad_norm": 0.5172676745480713,
       "learning_rate": 1.2685097669018362e-05,
-      "loss": 0.0852,
-      "mean_token_accuracy": 0.9731195271015167,
+      "loss": 0.0689,
+      "mean_token_accuracy": 0.9788277596235275,
       "step": 1161
     },
     {
       "epoch": 6.797653958944282,
-      "grad_norm": 0.44880495835263245,
+      "grad_norm": 0.432827905221815,
       "learning_rate": 1.265577078856953e-05,
-      "loss": 0.0828,
-      "mean_token_accuracy": 0.9722541272640228,
+      "loss": 0.0671,
+      "mean_token_accuracy": 0.9756351113319397,
       "step": 1162
     },
     {
       "epoch": 6.803519061583578,
-      "grad_norm": 0.5569097040356273,
+      "grad_norm": 0.5482725408821638,
       "learning_rate": 1.2626477823898843e-05,
-      "loss": 0.0859,
-      "mean_token_accuracy": 0.9755456000566483,
+      "loss": 0.072,
+      "mean_token_accuracy": 0.979312427341938,
       "step": 1163
     },
     {
       "epoch": 6.809384164222874,
-      "grad_norm": 0.3498951131477967,
+      "grad_norm": 0.5005950667187236,
       "learning_rate": 1.2597218881327944e-05,
-      "loss": 0.0735,
-      "mean_token_accuracy": 0.9757883995771408,
+      "loss": 0.0644,
+      "mean_token_accuracy": 0.9781336486339569,
       "step": 1164
     },
     {
       "epoch": 6.81524926686217,
-      "grad_norm": 0.5849400834625669,
+      "grad_norm": 0.3979272375106252,
       "learning_rate": 1.2567994067054961e-05,
-      "loss": 0.0765,
-      "mean_token_accuracy": 0.9759183302521706,
+      "loss": 0.0624,
+      "mean_token_accuracy": 0.9795544818043709,
       "step": 1165
     },
     {
       "epoch": 6.821114369501466,
-      "grad_norm": 0.381799734503235,
+      "grad_norm": 0.47983624496521715,
       "learning_rate": 1.2538803487154177e-05,
-      "loss": 0.0711,
-      "mean_token_accuracy": 0.9773522317409515,
+      "loss": 0.0646,
+      "mean_token_accuracy": 0.9791703373193741,
       "step": 1166
     },
     {
       "epoch": 6.826979472140763,
-      "grad_norm": 0.7880188378909819,
+      "grad_norm": 0.4792233882496042,
       "learning_rate": 1.25096472475756e-05,
-      "loss": 0.0826,
-      "mean_token_accuracy": 0.972911424934864,
+      "loss": 0.0643,
+      "mean_token_accuracy": 0.9790126904845238,
       "step": 1167
     },
     {
       "epoch": 6.832844574780059,
-      "grad_norm": 0.3352929350228359,
+      "grad_norm": 0.44047811584075663,
       "learning_rate": 1.248052545414461e-05,
-      "loss": 0.0722,
-      "mean_token_accuracy": 0.9781019762158394,
+      "loss": 0.0666,
+      "mean_token_accuracy": 0.9815377816557884,
       "step": 1168
     },
     {
       "epoch": 6.838709677419355,
-      "grad_norm": 0.4486648642428875,
+      "grad_norm": 0.45039377868298586,
       "learning_rate": 1.2451438212561556e-05,
-      "loss": 0.086,
-      "mean_token_accuracy": 0.9684128165245056,
+      "loss": 0.0728,
+      "mean_token_accuracy": 0.9747223258018494,
       "step": 1169
     },
     {
       "epoch": 6.844574780058651,
-      "grad_norm": 0.5337445397907,
+      "grad_norm": 0.437389204436552,
       "learning_rate": 1.2422385628401377e-05,
-      "loss": 0.0784,
-      "mean_token_accuracy": 0.975617341697216,
+      "loss": 0.064,
+      "mean_token_accuracy": 0.9793856963515282,
       "step": 1170
     },
     {
       "epoch": 6.850439882697947,
-      "grad_norm": 0.5023072492519426,
+      "grad_norm": 0.488370718643388,
       "learning_rate": 1.2393367807113217e-05,
-      "loss": 0.0735,
-      "mean_token_accuracy": 0.9774403125047684,
+      "loss": 0.0658,
+      "mean_token_accuracy": 0.9805554449558258,
       "step": 1171
     },
     {
       "epoch": 6.8563049853372435,
-      "grad_norm": 0.5478108519507331,
+      "grad_norm": 0.39447639676794705,
       "learning_rate": 1.236438485402005e-05,
-      "loss": 0.0817,
-      "mean_token_accuracy": 0.9768877327442169,
+      "loss": 0.0632,
+      "mean_token_accuracy": 0.9815583750605583,
       "step": 1172
     },
     {
       "epoch": 6.86217008797654,
-      "grad_norm": 0.34421809417617816,
+      "grad_norm": 0.3808687072825325,
       "learning_rate": 1.2335436874318293e-05,
-      "loss": 0.0679,
-      "mean_token_accuracy": 0.9794752076268196,
+      "loss": 0.0593,
+      "mean_token_accuracy": 0.9811095669865608,
       "step": 1173
     },
     {
       "epoch": 6.868035190615836,
-      "grad_norm": 0.4818321119164012,
+      "grad_norm": 0.45599887703857295,
       "learning_rate": 1.2306523973077416e-05,
-      "loss": 0.0854,
-      "mean_token_accuracy": 0.9749922305345535,
+      "loss": 0.0714,
+      "mean_token_accuracy": 0.9796115532517433,
       "step": 1174
     },
     {
       "epoch": 6.873900293255132,
-      "grad_norm": 0.44140692461936487,
+      "grad_norm": 0.47569451377053196,
       "learning_rate": 1.2277646255239572e-05,
-      "loss": 0.0822,
-      "mean_token_accuracy": 0.9771685898303986,
+      "loss": 0.0694,
+      "mean_token_accuracy": 0.98045764118433,
       "step": 1175
     },
     {
       "epoch": 6.879765395894428,
-      "grad_norm": 0.4122931627899861,
+      "grad_norm": 0.46631060127689494,
       "learning_rate": 1.2248803825619224e-05,
-      "loss": 0.0777,
-      "mean_token_accuracy": 0.9765308573842049,
+      "loss": 0.0648,
+      "mean_token_accuracy": 0.9787806421518326,
       "step": 1176
     },
     {
       "epoch": 6.885630498533724,
-      "grad_norm": 0.5185863368160872,
+      "grad_norm": 0.6885890063590842,
       "learning_rate": 1.2219996788902734e-05,
-      "loss": 0.0751,
-      "mean_token_accuracy": 0.9782401323318481,
+      "loss": 0.0689,
+      "mean_token_accuracy": 0.978795975446701,
       "step": 1177
     },
     {
       "epoch": 6.891495601173021,
-      "grad_norm": 0.4704417201653903,
+      "grad_norm": 0.4303213452595518,
       "learning_rate": 1.2191225249648016e-05,
-      "loss": 0.0734,
-      "mean_token_accuracy": 0.9757214114069939,
+      "loss": 0.0602,
+      "mean_token_accuracy": 0.9798460155725479,
       "step": 1178
     },
     {
       "epoch": 6.897360703812317,
-      "grad_norm": 0.4464835699482663,
+      "grad_norm": 0.3937230216041198,
       "learning_rate": 1.216248931228413e-05,
-      "loss": 0.0816,
-      "mean_token_accuracy": 0.9743654951453209,
+      "loss": 0.0667,
+      "mean_token_accuracy": 0.977984793484211,
       "step": 1179
     },
     {
       "epoch": 6.903225806451613,
-      "grad_norm": 0.5291322182737432,
+      "grad_norm": 0.38130916152890315,
       "learning_rate": 1.2133789081110927e-05,
-      "loss": 0.0677,
-      "mean_token_accuracy": 0.9801248833537102,
+      "loss": 0.0595,
+      "mean_token_accuracy": 0.981584794819355,
       "step": 1180
     },
     {
       "epoch": 6.909090909090909,
-      "grad_norm": 0.6972005324832886,
+      "grad_norm": 0.46142872676320174,
       "learning_rate": 1.2105124660298655e-05,
-      "loss": 0.0744,
-      "mean_token_accuracy": 0.9761540293693542,
+      "loss": 0.0625,
+      "mean_token_accuracy": 0.9815917834639549,
       "step": 1181
     },
     {
       "epoch": 6.914956011730205,
-      "grad_norm": 0.48751263996047123,
+      "grad_norm": 0.43182919024308025,
       "learning_rate": 1.2076496153887587e-05,
-      "loss": 0.0707,
-      "mean_token_accuracy": 0.979655809700489,
+      "loss": 0.0591,
+      "mean_token_accuracy": 0.9817899540066719,
       "step": 1182
     },
     {
       "epoch": 6.9208211143695015,
-      "grad_norm": 0.35181511064354204,
+      "grad_norm": 0.42635933383608365,
       "learning_rate": 1.2047903665787633e-05,
-      "loss": 0.0695,
-      "mean_token_accuracy": 0.9796392843127251,
+      "loss": 0.0618,
+      "mean_token_accuracy": 0.9816203713417053,
       "step": 1183
     },
     {
       "epoch": 6.926686217008798,
-      "grad_norm": 0.4519666851787502,
+      "grad_norm": 0.41330290477227893,
       "learning_rate": 1.2019347299777981e-05,
-      "loss": 0.0682,
-      "mean_token_accuracy": 0.980430044233799,
+      "loss": 0.0557,
+      "mean_token_accuracy": 0.9830499663949013,
       "step": 1184
     },
     {
       "epoch": 6.932551319648094,
-      "grad_norm": 0.6175167131951601,
+      "grad_norm": 0.4565062990930812,
       "learning_rate": 1.199082715950671e-05,
-      "loss": 0.0867,
-      "mean_token_accuracy": 0.9735838696360588,
+      "loss": 0.071,
+      "mean_token_accuracy": 0.9775069504976273,
       "step": 1185
     },
     {
       "epoch": 6.93841642228739,
-      "grad_norm": 0.5244767936392362,
+      "grad_norm": 0.4137224208578769,
       "learning_rate": 1.1962343348490407e-05,
-      "loss": 0.0772,
-      "mean_token_accuracy": 0.9765205755829811,
+      "loss": 0.0578,
+      "mean_token_accuracy": 0.980716660618782,
       "step": 1186
     },
     {
       "epoch": 6.944281524926686,
-      "grad_norm": 0.5219220102479316,
+      "grad_norm": 0.3948613864092428,
       "learning_rate": 1.1933895970113798e-05,
-      "loss": 0.0794,
-      "mean_token_accuracy": 0.9774181470274925,
+      "loss": 0.0652,
+      "mean_token_accuracy": 0.9824345782399178,
       "step": 1187
     },
     {
       "epoch": 6.9501466275659824,
-      "grad_norm": 0.4556906562978321,
+      "grad_norm": 0.5122310403133853,
       "learning_rate": 1.1905485127629387e-05,
-      "loss": 0.0818,
-      "mean_token_accuracy": 0.9761421829462051,
+      "loss": 0.0709,
+      "mean_token_accuracy": 0.9782714620232582,
       "step": 1188
     },
     {
       "epoch": 6.956011730205279,
-      "grad_norm": 0.45508332549291347,
+      "grad_norm": 0.4604201900693111,
       "learning_rate": 1.1877110924157046e-05,
-      "loss": 0.0718,
-      "mean_token_accuracy": 0.977460503578186,
+      "loss": 0.0612,
+      "mean_token_accuracy": 0.9789381250739098,
       "step": 1189
     },
     {
       "epoch": 6.961876832844575,
-      "grad_norm": 0.4432193649311906,
+      "grad_norm": 0.4017710192115634,
       "learning_rate": 1.1848773462683684e-05,
-      "loss": 0.0797,
-      "mean_token_accuracy": 0.9757311940193176,
+      "loss": 0.0673,
+      "mean_token_accuracy": 0.9794546961784363,
       "step": 1190
     },
     {
       "epoch": 6.967741935483871,
-      "grad_norm": 0.48985886044639837,
+      "grad_norm": 0.47930547919907945,
       "learning_rate": 1.1820472846062842e-05,
-      "loss": 0.0733,
-      "mean_token_accuracy": 0.976937510073185,
+      "loss": 0.0628,
+      "mean_token_accuracy": 0.9796619564294815,
       "step": 1191
     },
     {
       "epoch": 6.973607038123167,
-      "grad_norm": 0.40019240637175396,
+      "grad_norm": 0.4406226699463579,
       "learning_rate": 1.1792209177014317e-05,
-      "loss": 0.0756,
-      "mean_token_accuracy": 0.9791741147637367,
+      "loss": 0.0625,
+      "mean_token_accuracy": 0.9820540770888329,
       "step": 1192
     },
     {
       "epoch": 6.979472140762463,
-      "grad_norm": 0.45859725535588075,
+      "grad_norm": 0.4166350298425514,
       "learning_rate": 1.1763982558123823e-05,
-      "loss": 0.0786,
-      "mean_token_accuracy": 0.9758159667253494,
+      "loss": 0.0643,
+      "mean_token_accuracy": 0.9803269580006599,
       "step": 1193
     },
     {
       "epoch": 6.9853372434017595,
-      "grad_norm": 0.6776544697191254,
+      "grad_norm": 0.5067924863320438,
       "learning_rate": 1.1735793091842583e-05,
-      "loss": 0.0821,
-      "mean_token_accuracy": 0.974973164498806,
+      "loss": 0.0673,
+      "mean_token_accuracy": 0.9796130433678627,
       "step": 1194
     },
     {
       "epoch": 6.991202346041056,
-      "grad_norm": 0.43821555095436865,
+      "grad_norm": 0.5131689327156483,
       "learning_rate": 1.1707640880486975e-05,
-      "loss": 0.0894,
-      "mean_token_accuracy": 0.9700244292616844,
+      "loss": 0.0786,
+      "mean_token_accuracy": 0.9753068685531616,
       "step": 1195
     },
     {
       "epoch": 6.997067448680352,
-      "grad_norm": 0.3282294489959217,
+      "grad_norm": 0.27953688453676967,
       "learning_rate": 1.1679526026238155e-05,
-      "loss": 0.0584,
-      "mean_token_accuracy": 0.9817990660667419,
+      "loss": 0.0494,
+      "mean_token_accuracy": 0.9843882694840431,
       "step": 1196
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.3282294489959217,
+      "grad_norm": 0.27953688453676967,
       "learning_rate": 1.165144863114169e-05,
-      "loss": 0.0702,
-      "mean_token_accuracy": 0.9798854738473892,
+      "loss": 0.0556,
+      "mean_token_accuracy": 0.9817256480455399,
       "step": 1197
     },
     {
       "epoch": 7.005865102639296,
-      "grad_norm": 0.6912206326178958,
+      "grad_norm": 0.6373555062592029,
       "learning_rate": 1.1623408797107185e-05,
-      "loss": 0.0767,
-      "mean_token_accuracy": 0.9741964638233185,
+      "loss": 0.064,
+      "mean_token_accuracy": 0.9785372838377953,
       "step": 1198
     },
     {
       "epoch": 7.011730205278592,
-      "grad_norm": 0.38262777975799617,
+      "grad_norm": 0.43666510254787677,
       "learning_rate": 1.1595406625907914e-05,
-      "loss": 0.066,
-      "mean_token_accuracy": 0.9813871160149574,
+      "loss": 0.0548,
+      "mean_token_accuracy": 0.9841993674635887,
       "step": 1199
     },
     {
       "epoch": 7.0175953079178885,
-      "grad_norm": 0.3500785949484349,
+      "grad_norm": 0.36290262869575624,
       "learning_rate": 1.1567442219180446e-05,
-      "loss": 0.0615,
-      "mean_token_accuracy": 0.9810681790113449,
+      "loss": 0.0528,
+      "mean_token_accuracy": 0.9837799668312073,
       "step": 1200
     },
     {
       "epoch": 7.023460410557185,
-      "grad_norm": 0.23047356622297646,
+      "grad_norm": 0.3421833694866547,
       "learning_rate": 1.153951567842429e-05,
-      "loss": 0.0545,
-      "mean_token_accuracy": 0.9834885075688362,
+      "loss": 0.0487,
+      "mean_token_accuracy": 0.9848127514123917,
       "step": 1201
     },
     {
       "epoch": 7.029325513196481,
-      "grad_norm": 0.3641697975570479,
+      "grad_norm": 0.33545395972804354,
       "learning_rate": 1.1511627105001501e-05,
-      "loss": 0.0771,
-      "mean_token_accuracy": 0.9782865270972252,
+      "loss": 0.0581,
+      "mean_token_accuracy": 0.9827064424753189,
       "step": 1202
     },
     {
       "epoch": 7.035190615835777,
-      "grad_norm": 0.4077718026992906,
+      "grad_norm": 0.45031796131371543,
       "learning_rate": 1.1483776600136344e-05,
-      "loss": 0.0754,
-      "mean_token_accuracy": 0.975783459842205,
+      "loss": 0.0636,
+      "mean_token_accuracy": 0.9784261807799339,
       "step": 1203
     },
     {
       "epoch": 7.041055718475073,
-      "grad_norm": 0.3328632538786026,
+      "grad_norm": 0.43121710516783884,
       "learning_rate": 1.1455964264914906e-05,
-      "loss": 0.0591,
-      "mean_token_accuracy": 0.9806740134954453,
+      "loss": 0.0512,
+      "mean_token_accuracy": 0.9828193038702011,
       "step": 1204
     },
     {
       "epoch": 7.0469208211143695,
-      "grad_norm": 0.3565482658377984,
+      "grad_norm": 0.3947272877786806,
       "learning_rate": 1.142819020028472e-05,
-      "loss": 0.0765,
-      "mean_token_accuracy": 0.9753721952438354,
+      "loss": 0.0632,
+      "mean_token_accuracy": 0.9800242558121681,
       "step": 1205
     },
     {
       "epoch": 7.052785923753666,
-      "grad_norm": 0.513820218763689,
+      "grad_norm": 0.4274474592379843,
       "learning_rate": 1.140045450705443e-05,
-      "loss": 0.0678,
-      "mean_token_accuracy": 0.9776762798428535,
+      "loss": 0.0564,
+      "mean_token_accuracy": 0.9798077195882797,
       "step": 1206
     },
     {
       "epoch": 7.058651026392962,
-      "grad_norm": 0.33746029088525126,
+      "grad_norm": 0.3834033075631306,
       "learning_rate": 1.13727572858934e-05,
-      "loss": 0.0616,
-      "mean_token_accuracy": 0.9811746403574944,
+      "loss": 0.0511,
+      "mean_token_accuracy": 0.983852356672287,
       "step": 1207
     },
     {
       "epoch": 7.064516129032258,
-      "grad_norm": 0.839529082956056,
+      "grad_norm": 0.3655976301540036,
       "learning_rate": 1.1345098637331356e-05,
-      "loss": 0.0632,
-      "mean_token_accuracy": 0.9804647564888,
+      "loss": 0.0508,
+      "mean_token_accuracy": 0.9838704839348793,
       "step": 1208
     },
     {
       "epoch": 7.070381231671554,
-      "grad_norm": 0.4512949406596747,
+      "grad_norm": 0.5229786475813798,
       "learning_rate": 1.1317478661758022e-05,
-      "loss": 0.0808,
-      "mean_token_accuracy": 0.9737851694226265,
+      "loss": 0.0712,
+      "mean_token_accuracy": 0.9760942086577415,
       "step": 1209
     },
     {
       "epoch": 7.07624633431085,
-      "grad_norm": 0.3599939117700741,
+      "grad_norm": 0.4346420863510563,
       "learning_rate": 1.1289897459422756e-05,
-      "loss": 0.06,
-      "mean_token_accuracy": 0.9815982356667519,
+      "loss": 0.0536,
+      "mean_token_accuracy": 0.9831833392381668,
       "step": 1210
     },
     {
       "epoch": 7.0821114369501466,
-      "grad_norm": 0.45954124827480125,
+      "grad_norm": 0.5593461337456281,
       "learning_rate": 1.126235513043418e-05,
-      "loss": 0.0771,
-      "mean_token_accuracy": 0.9773466065526009,
+      "loss": 0.0642,
+      "mean_token_accuracy": 0.9789699912071228,
       "step": 1211
     },
     {
       "epoch": 7.087976539589443,
-      "grad_norm": 0.4170706025787579,
+      "grad_norm": 0.43900643121666977,
       "learning_rate": 1.1234851774759828e-05,
-      "loss": 0.0606,
-      "mean_token_accuracy": 0.9824484139680862,
+      "loss": 0.0524,
+      "mean_token_accuracy": 0.9849435314536095,
       "step": 1212
     },
     {
       "epoch": 7.093841642228739,
-      "grad_norm": 0.3152206043073185,
+      "grad_norm": 0.34888430248322444,
       "learning_rate": 1.1207387492225772e-05,
-      "loss": 0.0664,
-      "mean_token_accuracy": 0.978251039981842,
+      "loss": 0.0545,
+      "mean_token_accuracy": 0.9824554324150085,
       "step": 1213
     },
     {
       "epoch": 7.099706744868035,
-      "grad_norm": 0.34231567251230943,
+      "grad_norm": 0.3819215648450502,
       "learning_rate": 1.1179962382516268e-05,
-      "loss": 0.0747,
-      "mean_token_accuracy": 0.9778275638818741,
+      "loss": 0.0648,
+      "mean_token_accuracy": 0.9815644100308418,
       "step": 1214
     },
     {
       "epoch": 7.105571847507331,
-      "grad_norm": 0.38154737914773634,
+      "grad_norm": 0.4018294483259087,
       "learning_rate": 1.1152576545173388e-05,
-      "loss": 0.0661,
-      "mean_token_accuracy": 0.9792356640100479,
+      "loss": 0.0559,
+      "mean_token_accuracy": 0.9836894050240517,
       "step": 1215
     },
     {
       "epoch": 7.1114369501466275,
-      "grad_norm": 0.38506430145241727,
+      "grad_norm": 0.3447430653572727,
       "learning_rate": 1.1125230079596654e-05,
-      "loss": 0.0616,
-      "mean_token_accuracy": 0.9793743640184402,
+      "loss": 0.0511,
+      "mean_token_accuracy": 0.9840358719229698,
       "step": 1216
     },
     {
       "epoch": 7.117302052785924,
-      "grad_norm": 0.29298285325763024,
+      "grad_norm": 0.4191025482663613,
       "learning_rate": 1.10979230850427e-05,
-      "loss": 0.0692,
-      "mean_token_accuracy": 0.9798607155680656,
+      "loss": 0.0551,
+      "mean_token_accuracy": 0.9832866340875626,
       "step": 1217
     },
     {
       "epoch": 7.12316715542522,
-      "grad_norm": 0.5131708622489167,
+      "grad_norm": 0.37400953837380885,
       "learning_rate": 1.1070655660624876e-05,
-      "loss": 0.0762,
-      "mean_token_accuracy": 0.9752130582928658,
+      "loss": 0.0607,
+      "mean_token_accuracy": 0.980600893497467,
       "step": 1218
     },
     {
       "epoch": 7.129032258064516,
-      "grad_norm": 0.3530156134365258,
+      "grad_norm": 0.37485779498534494,
       "learning_rate": 1.1043427905312933e-05,
-      "loss": 0.0764,
-      "mean_token_accuracy": 0.9781614691019058,
+      "loss": 0.0632,
+      "mean_token_accuracy": 0.9809056371450424,
       "step": 1219
     },
     {
       "epoch": 7.134897360703812,
-      "grad_norm": 0.6047250936241889,
+      "grad_norm": 0.37279266122405813,
       "learning_rate": 1.1016239917932618e-05,
-      "loss": 0.0705,
-      "mean_token_accuracy": 0.97938072681427,
+      "loss": 0.0572,
+      "mean_token_accuracy": 0.9826710894703865,
       "step": 1220
     },
     {
       "epoch": 7.140762463343108,
-      "grad_norm": 0.43104388838903596,
+      "grad_norm": 0.3877743126318198,
       "learning_rate": 1.098909179716535e-05,
-      "loss": 0.0743,
-      "mean_token_accuracy": 0.9750777781009674,
+      "loss": 0.0617,
+      "mean_token_accuracy": 0.9800911992788315,
       "step": 1221
     },
     {
       "epoch": 7.146627565982405,
-      "grad_norm": 0.36410154505783404,
+      "grad_norm": 0.48036986394012565,
       "learning_rate": 1.096198364154784e-05,
-      "loss": 0.0665,
-      "mean_token_accuracy": 0.9790825098752975,
+      "loss": 0.0602,
+      "mean_token_accuracy": 0.9828939959406853,
       "step": 1222
     },
     {
       "epoch": 7.152492668621701,
-      "grad_norm": 0.34833475970741407,
+      "grad_norm": 0.3866461897489377,
       "learning_rate": 1.0934915549471747e-05,
-      "loss": 0.0632,
-      "mean_token_accuracy": 0.9804369062185287,
+      "loss": 0.0526,
+      "mean_token_accuracy": 0.9831520467996597,
       "step": 1223
     },
     {
       "epoch": 7.158357771260997,
-      "grad_norm": 0.38353938112532193,
+      "grad_norm": 0.3775525332017602,
       "learning_rate": 1.0907887619183308e-05,
-      "loss": 0.0622,
-      "mean_token_accuracy": 0.9804348051548004,
+      "loss": 0.053,
+      "mean_token_accuracy": 0.9841544181108475,
       "step": 1224
     },
     {
       "epoch": 7.164222873900293,
-      "grad_norm": 0.3798952101192259,
+      "grad_norm": 0.3836873587260523,
       "learning_rate": 1.0880899948783002e-05,
-      "loss": 0.0692,
-      "mean_token_accuracy": 0.9765540808439255,
+      "loss": 0.0592,
+      "mean_token_accuracy": 0.9817483797669411,
       "step": 1225
     },
     {
       "epoch": 7.170087976539589,
-      "grad_norm": 0.3386618138568785,
+      "grad_norm": 0.41100260358880575,
       "learning_rate": 1.0853952636225165e-05,
-      "loss": 0.0681,
-      "mean_token_accuracy": 0.9791587889194489,
+      "loss": 0.0613,
+      "mean_token_accuracy": 0.9828031435608864,
       "step": 1226
     },
     {
       "epoch": 7.1759530791788855,
-      "grad_norm": 0.3955364270043223,
+      "grad_norm": 0.4219853989912052,
       "learning_rate": 1.0827045779317662e-05,
-      "loss": 0.0627,
-      "mean_token_accuracy": 0.9806070253252983,
+      "loss": 0.0543,
+      "mean_token_accuracy": 0.9837125688791275,
       "step": 1227
     },
     {
       "epoch": 7.181818181818182,
-      "grad_norm": 0.475027525545252,
+      "grad_norm": 0.43702873517895335,
       "learning_rate": 1.080017947572152e-05,
-      "loss": 0.0606,
-      "mean_token_accuracy": 0.9796654880046844,
+      "loss": 0.0543,
+      "mean_token_accuracy": 0.9834098666906357,
       "step": 1228
     },
     {
       "epoch": 7.187683284457478,
-      "grad_norm": 0.3715636804821357,
+      "grad_norm": 0.41016359666667,
       "learning_rate": 1.0773353822950563e-05,
-      "loss": 0.0778,
-      "mean_token_accuracy": 0.9782843813300133,
+      "loss": 0.0609,
+      "mean_token_accuracy": 0.9809712171554565,
       "step": 1229
     },
     {
       "epoch": 7.193548387096774,
-      "grad_norm": 0.5439705897468128,
+      "grad_norm": 0.49383511140721953,
       "learning_rate": 1.074656891837108e-05,
-      "loss": 0.058,
-      "mean_token_accuracy": 0.9818157479166985,
+      "loss": 0.0515,
+      "mean_token_accuracy": 0.9839422553777695,
       "step": 1230
     },
     {
       "epoch": 7.19941348973607,
-      "grad_norm": 0.2837476614356044,
+      "grad_norm": 0.3956069878697063,
       "learning_rate": 1.0719824859201457e-05,
-      "loss": 0.0679,
-      "mean_token_accuracy": 0.9786864891648293,
+      "loss": 0.058,
+      "mean_token_accuracy": 0.9819058403372765,
       "step": 1231
     },
     {
       "epoch": 7.205278592375366,
-      "grad_norm": 0.39130123442883724,
+      "grad_norm": 0.4792058762225757,
       "learning_rate": 1.0693121742511828e-05,
-      "loss": 0.0819,
-      "mean_token_accuracy": 0.9728628844022751,
+      "loss": 0.0668,
+      "mean_token_accuracy": 0.9765582084655762,
       "step": 1232
     },
     {
       "epoch": 7.211143695014663,
-      "grad_norm": 0.399415818262287,
+      "grad_norm": 0.4338995192160771,
       "learning_rate": 1.0666459665223718e-05,
-      "loss": 0.0684,
-      "mean_token_accuracy": 0.97879458963871,
+      "loss": 0.0593,
+      "mean_token_accuracy": 0.981715977191925,
       "step": 1233
     },
     {
       "epoch": 7.217008797653959,
-      "grad_norm": 0.3830316696582617,
+      "grad_norm": 0.3855492769098808,
       "learning_rate": 1.0639838724109708e-05,
-      "loss": 0.0679,
-      "mean_token_accuracy": 0.9789978414773941,
+      "loss": 0.0575,
+      "mean_token_accuracy": 0.9826395660638809,
       "step": 1234
     },
     {
       "epoch": 7.222873900293255,
-      "grad_norm": 0.28801687651420393,
+      "grad_norm": 0.3437414453827899,
       "learning_rate": 1.0613259015793056e-05,
-      "loss": 0.0561,
-      "mean_token_accuracy": 0.9807603433728218,
+      "loss": 0.0506,
+      "mean_token_accuracy": 0.9838635697960854,
       "step": 1235
     },
     {
       "epoch": 7.228739002932551,
-      "grad_norm": 0.42958082726412133,
+      "grad_norm": 0.37946171096010817,
       "learning_rate": 1.0586720636747368e-05,
-      "loss": 0.0762,
-      "mean_token_accuracy": 0.9768098592758179,
+      "loss": 0.0612,
+      "mean_token_accuracy": 0.9806694537401199,
       "step": 1236
     },
     {
       "epoch": 7.234604105571847,
-      "grad_norm": 0.3079954178226424,
+      "grad_norm": 0.38714008229821795,
       "learning_rate": 1.0560223683296244e-05,
-      "loss": 0.0678,
-      "mean_token_accuracy": 0.9774455577135086,
+      "loss": 0.0565,
+      "mean_token_accuracy": 0.9813293144106865,
       "step": 1237
     },
     {
       "epoch": 7.2404692082111435,
-      "grad_norm": 0.5264608888186644,
+      "grad_norm": 0.40380335937441236,
       "learning_rate": 1.0533768251612924e-05,
-      "loss": 0.0729,
-      "mean_token_accuracy": 0.9767781645059586,
+      "loss": 0.0631,
+      "mean_token_accuracy": 0.9799295514822006,
       "step": 1238
     },
     {
       "epoch": 7.24633431085044,
-      "grad_norm": 0.41160315181988266,
+      "grad_norm": 0.4046737544797061,
       "learning_rate": 1.0507354437719938e-05,
-      "loss": 0.0591,
-      "mean_token_accuracy": 0.9828227832913399,
+      "loss": 0.0512,
+      "mean_token_accuracy": 0.9842623844742775,
       "step": 1239
     },
     {
       "epoch": 7.252199413489736,
-      "grad_norm": 0.3872454574394867,
+      "grad_norm": 0.3344455462825253,
       "learning_rate": 1.0480982337488768e-05,
-      "loss": 0.0678,
-      "mean_token_accuracy": 0.9776423200964928,
+      "loss": 0.0553,
+      "mean_token_accuracy": 0.9825280457735062,
       "step": 1240
     },
     {
       "epoch": 7.258064516129032,
-      "grad_norm": 0.45164649038274723,
+      "grad_norm": 0.40570311112116275,
       "learning_rate": 1.0454652046639486e-05,
-      "loss": 0.077,
-      "mean_token_accuracy": 0.9758302047848701,
+      "loss": 0.0612,
+      "mean_token_accuracy": 0.9812857285141945,
       "step": 1241
     },
     {
       "epoch": 7.263929618768328,
-      "grad_norm": 0.4139469705680152,
+      "grad_norm": 0.47975992267665485,
       "learning_rate": 1.0428363660740407e-05,
-      "loss": 0.0708,
-      "mean_token_accuracy": 0.9761909395456314,
+      "loss": 0.0592,
+      "mean_token_accuracy": 0.9803736358880997,
       "step": 1242
     },
     {
       "epoch": 7.269794721407624,
-      "grad_norm": 0.3840838494270553,
+      "grad_norm": 0.4288916334704027,
       "learning_rate": 1.0402117275207757e-05,
-      "loss": 0.0754,
-      "mean_token_accuracy": 0.9756297990679741,
+      "loss": 0.0628,
+      "mean_token_accuracy": 0.980836883187294,
       "step": 1243
     },
     {
       "epoch": 7.275659824046921,
-      "grad_norm": 0.3808573639604821,
+      "grad_norm": 0.4048834204911636,
       "learning_rate": 1.0375912985305319e-05,
-      "loss": 0.068,
-      "mean_token_accuracy": 0.9781527444720268,
+      "loss": 0.058,
+      "mean_token_accuracy": 0.9816715195775032,
       "step": 1244
     },
     {
       "epoch": 7.281524926686217,
-      "grad_norm": 0.4206553824325304,
+      "grad_norm": 0.33766750492275605,
       "learning_rate": 1.0349750886144077e-05,
-      "loss": 0.0688,
-      "mean_token_accuracy": 0.9749187454581261,
+      "loss": 0.0565,
+      "mean_token_accuracy": 0.9801446571946144,
       "step": 1245
     },
     {
       "epoch": 7.287390029325513,
-      "grad_norm": 0.33265484291156516,
+      "grad_norm": 0.3553392017238559,
       "learning_rate": 1.0323631072681888e-05,
-      "loss": 0.0658,
-      "mean_token_accuracy": 0.9795495644211769,
+      "loss": 0.0561,
+      "mean_token_accuracy": 0.982564315199852,
       "step": 1246
     },
     {
       "epoch": 7.293255131964809,
-      "grad_norm": 0.3178171971797074,
+      "grad_norm": 0.383982297271317,
       "learning_rate": 1.0297553639723123e-05,
-      "loss": 0.0594,
-      "mean_token_accuracy": 0.9814764708280563,
+      "loss": 0.0536,
+      "mean_token_accuracy": 0.9845903739333153,
       "step": 1247
     },
     {
       "epoch": 7.299120234604105,
-      "grad_norm": 0.3779867551878193,
+      "grad_norm": 0.4060031394599371,
       "learning_rate": 1.027151868191834e-05,
-      "loss": 0.0745,
-      "mean_token_accuracy": 0.9745180755853653,
+      "loss": 0.0609,
+      "mean_token_accuracy": 0.9797234684228897,
       "step": 1248
     },
     {
       "epoch": 7.3049853372434015,
-      "grad_norm": 0.4292350836002161,
+      "grad_norm": 0.42793813736937725,
       "learning_rate": 1.0245526293763908e-05,
-      "loss": 0.0817,
-      "mean_token_accuracy": 0.974598154425621,
+      "loss": 0.0694,
+      "mean_token_accuracy": 0.9779497757554054,
       "step": 1249
     },
     {
       "epoch": 7.310850439882698,
-      "grad_norm": 0.35067941778112494,
+      "grad_norm": 0.4167380663869755,
       "learning_rate": 1.0219576569601707e-05,
-      "loss": 0.0793,
-      "mean_token_accuracy": 0.9769597128033638,
+      "loss": 0.0681,
+      "mean_token_accuracy": 0.9799009039998055,
       "step": 1250
     },
     {
       "epoch": 7.316715542521994,
-      "grad_norm": 0.39563806400869955,
+      "grad_norm": 0.4377973731399899,
       "learning_rate": 1.0193669603618757e-05,
-      "loss": 0.0742,
-      "mean_token_accuracy": 0.976021520793438,
+      "loss": 0.0605,
+      "mean_token_accuracy": 0.9804759994149208,
       "step": 1251
     },
     {
       "epoch": 7.32258064516129,
-      "grad_norm": 0.46712769922706915,
+      "grad_norm": 0.313681809223758,
       "learning_rate": 1.0167805489846873e-05,
-      "loss": 0.0638,
-      "mean_token_accuracy": 0.9811434298753738,
+      "loss": 0.0548,
+      "mean_token_accuracy": 0.9833528101444244,
       "step": 1252
     },
     {
       "epoch": 7.328445747800586,
-      "grad_norm": 0.37339627555491145,
+      "grad_norm": 0.35044614156187415,
       "learning_rate": 1.0141984322162353e-05,
-      "loss": 0.0645,
-      "mean_token_accuracy": 0.9801758378744125,
+      "loss": 0.0569,
+      "mean_token_accuracy": 0.9819622039794922,
       "step": 1253
     },
     {
       "epoch": 7.334310850439882,
-      "grad_norm": 0.3044155287959229,
+      "grad_norm": 0.37793729635473716,
       "learning_rate": 1.0116206194285598e-05,
-      "loss": 0.0719,
-      "mean_token_accuracy": 0.9779629483819008,
+      "loss": 0.0604,
+      "mean_token_accuracy": 0.9819350242614746,
       "step": 1254
     },
     {
       "epoch": 7.340175953079179,
-      "grad_norm": 0.39714577819514213,
+      "grad_norm": 0.40558850664867346,
       "learning_rate": 1.0090471199780812e-05,
-      "loss": 0.0774,
-      "mean_token_accuracy": 0.9755602031946182,
+      "loss": 0.0635,
+      "mean_token_accuracy": 0.9799067080020905,
       "step": 1255
     },
     {
       "epoch": 7.346041055718475,
-      "grad_norm": 0.4570877974493308,
+      "grad_norm": 0.3360663531138135,
       "learning_rate": 1.0064779432055616e-05,
-      "loss": 0.0698,
-      "mean_token_accuracy": 0.9759530946612358,
+      "loss": 0.0586,
+      "mean_token_accuracy": 0.9792345017194748,
       "step": 1256
     },
     {
       "epoch": 7.351906158357771,
-      "grad_norm": 0.4205327589510046,
+      "grad_norm": 0.37918955936120036,
       "learning_rate": 1.0039130984360761e-05,
-      "loss": 0.0683,
-      "mean_token_accuracy": 0.9774453565478325,
+      "loss": 0.0584,
+      "mean_token_accuracy": 0.9800141528248787,
       "step": 1257
     },
     {
       "epoch": 7.357771260997067,
-      "grad_norm": 0.3684606740091315,
+      "grad_norm": 0.4157661176569054,
       "learning_rate": 1.0013525949789745e-05,
-      "loss": 0.0726,
-      "mean_token_accuracy": 0.9773312881588936,
+      "loss": 0.0593,
+      "mean_token_accuracy": 0.9802781492471695,
       "step": 1258
     },
     {
       "epoch": 7.363636363636363,
-      "grad_norm": 0.3187355898488441,
+      "grad_norm": 0.45087026261043445,
       "learning_rate": 9.987964421278512e-06,
-      "loss": 0.0659,
-      "mean_token_accuracy": 0.9804589822888374,
+      "loss": 0.0555,
+      "mean_token_accuracy": 0.9836331158876419,
       "step": 1259
     },
     {
       "epoch": 7.3695014662756595,
-      "grad_norm": 0.4023244952241441,
+      "grad_norm": 0.3804640426965221,
       "learning_rate": 9.962446491605084e-06,
-      "loss": 0.07,
-      "mean_token_accuracy": 0.975837953388691,
+      "loss": 0.0592,
+      "mean_token_accuracy": 0.978935495018959,
       "step": 1260
     },
     {
       "epoch": 7.375366568914956,
-      "grad_norm": 0.5341557069269197,
+      "grad_norm": 0.46616629391754066,
       "learning_rate": 9.936972253389235e-06,
-      "loss": 0.0646,
-      "mean_token_accuracy": 0.9801123738288879,
+      "loss": 0.0548,
+      "mean_token_accuracy": 0.9817307665944099,
       "step": 1261
     },
     {
       "epoch": 7.381231671554252,
-      "grad_norm": 0.3564112574933918,
+      "grad_norm": 0.44707097128486495,
       "learning_rate": 9.911541799092162e-06,
-      "loss": 0.0724,
-      "mean_token_accuracy": 0.9757182076573372,
+      "loss": 0.0618,
+      "mean_token_accuracy": 0.9799565002322197,
       "step": 1262
     },
     {
       "epoch": 7.387096774193548,
-      "grad_norm": 0.2346449467553508,
+      "grad_norm": 0.3101720172363353,
       "learning_rate": 9.88615522101615e-06,
-      "loss": 0.0641,
-      "mean_token_accuracy": 0.978550560772419,
+      "loss": 0.0537,
+      "mean_token_accuracy": 0.9818929210305214,
       "step": 1263
     },
     {
       "epoch": 7.392961876832844,
-      "grad_norm": 0.3271500195862692,
+      "grad_norm": 0.3549119289206168,
       "learning_rate": 9.860812611304225e-06,
-      "loss": 0.0596,
-      "mean_token_accuracy": 0.9800273403525352,
+      "loss": 0.0531,
+      "mean_token_accuracy": 0.9823939129710197,
       "step": 1264
     },
     {
       "epoch": 7.39882697947214,
-      "grad_norm": 0.29052657488602945,
+      "grad_norm": 0.32942986436762367,
       "learning_rate": 9.835514061939822e-06,
-      "loss": 0.0562,
-      "mean_token_accuracy": 0.9814219176769257,
+      "loss": 0.0507,
+      "mean_token_accuracy": 0.9844275042414665,
       "step": 1265
     },
     {
       "epoch": 7.404692082111437,
-      "grad_norm": 0.32197042134754045,
+      "grad_norm": 0.36175422344149233,
       "learning_rate": 9.810259664746454e-06,
-      "loss": 0.0694,
-      "mean_token_accuracy": 0.9777977392077446,
+      "loss": 0.0576,
+      "mean_token_accuracy": 0.9809439033269882,
       "step": 1266
     },
     {
       "epoch": 7.410557184750733,
-      "grad_norm": 0.48962506212270573,
+      "grad_norm": 0.37478557515730054,
       "learning_rate": 9.785049511387383e-06,
-      "loss": 0.0683,
-      "mean_token_accuracy": 0.975383386015892,
+      "loss": 0.0552,
+      "mean_token_accuracy": 0.9803262427449226,
       "step": 1267
     },
     {
       "epoch": 7.416422287390029,
-      "grad_norm": 0.42616315538478555,
+      "grad_norm": 0.44581561472846937,
       "learning_rate": 9.759883693365287e-06,
-      "loss": 0.0748,
-      "mean_token_accuracy": 0.976491704583168,
+      "loss": 0.0642,
+      "mean_token_accuracy": 0.9802709370851517,
       "step": 1268
     },
     {
       "epoch": 7.422287390029325,
-      "grad_norm": 0.5004041655379637,
+      "grad_norm": 0.41500145999728155,
       "learning_rate": 9.734762302021923e-06,
-      "loss": 0.0609,
-      "mean_token_accuracy": 0.9809972047805786,
+      "loss": 0.0484,
+      "mean_token_accuracy": 0.9843206256628036,
       "step": 1269
     },
     {
       "epoch": 7.428152492668621,
-      "grad_norm": 0.41423957139830336,
+      "grad_norm": 0.3840956000039933,
       "learning_rate": 9.709685428537794e-06,
-      "loss": 0.065,
-      "mean_token_accuracy": 0.982276625931263,
+      "loss": 0.056,
+      "mean_token_accuracy": 0.9839591979980469,
       "step": 1270
     },
     {
       "epoch": 7.4340175953079175,
-      "grad_norm": 0.4463820203523401,
+      "grad_norm": 0.4723303673366163,
       "learning_rate": 9.684653163931823e-06,
-      "loss": 0.0748,
-      "mean_token_accuracy": 0.9780172407627106,
+      "loss": 0.063,
+      "mean_token_accuracy": 0.9816402345895767,
       "step": 1271
     },
     {
       "epoch": 7.439882697947214,
-      "grad_norm": 0.32726953724707947,
+      "grad_norm": 0.4899840550170524,
       "learning_rate": 9.659665599061019e-06,
-      "loss": 0.0785,
-      "mean_token_accuracy": 0.9734633192420006,
+      "loss": 0.068,
+      "mean_token_accuracy": 0.9774189367890358,
       "step": 1272
     },
     {
       "epoch": 7.44574780058651,
-      "grad_norm": 0.41686111725495745,
+      "grad_norm": 0.3857766522115467,
       "learning_rate": 9.634722824620154e-06,
-      "loss": 0.0595,
-      "mean_token_accuracy": 0.9789967909455299,
+      "loss": 0.0545,
+      "mean_token_accuracy": 0.9810511991381645,
       "step": 1273
     },
     {
       "epoch": 7.451612903225806,
-      "grad_norm": 0.25252483483957594,
+      "grad_norm": 0.3758751737714007,
       "learning_rate": 9.609824931141423e-06,
-      "loss": 0.0608,
-      "mean_token_accuracy": 0.9781973287463188,
+      "loss": 0.0548,
+      "mean_token_accuracy": 0.9822421818971634,
       "step": 1274
     },
     {
       "epoch": 7.457478005865102,
-      "grad_norm": 0.35317028243851656,
+      "grad_norm": 0.40199226438816,
       "learning_rate": 9.584972008994123e-06,
-      "loss": 0.0652,
-      "mean_token_accuracy": 0.980886660516262,
+      "loss": 0.0565,
+      "mean_token_accuracy": 0.9830095544457436,
       "step": 1275
     },
     {
       "epoch": 7.463343108504398,
-      "grad_norm": 0.3588023504100938,
+      "grad_norm": 0.41133104233326856,
       "learning_rate": 9.560164148384328e-06,
-      "loss": 0.0817,
-      "mean_token_accuracy": 0.9760325774550438,
+      "loss": 0.0679,
+      "mean_token_accuracy": 0.9806720837950706,
       "step": 1276
     },
     {
       "epoch": 7.469208211143695,
-      "grad_norm": 0.42465358965052863,
+      "grad_norm": 0.3711841671942756,
       "learning_rate": 9.53540143935455e-06,
-      "loss": 0.072,
-      "mean_token_accuracy": 0.9772544130682945,
+      "loss": 0.0603,
+      "mean_token_accuracy": 0.979490227997303,
       "step": 1277
     },
     {
       "epoch": 7.475073313782991,
-      "grad_norm": 0.40089777234913554,
+      "grad_norm": 0.4353724058654228,
       "learning_rate": 9.510683971783425e-06,
-      "loss": 0.0904,
-      "mean_token_accuracy": 0.9742084890604019,
+      "loss": 0.072,
+      "mean_token_accuracy": 0.9790943786501884,
       "step": 1278
     },
     {
       "epoch": 7.480938416422287,
-      "grad_norm": 0.5755039890987124,
+      "grad_norm": 0.3262040671207362,
       "learning_rate": 9.486011835385372e-06,
-      "loss": 0.0484,
-      "mean_token_accuracy": 0.9854866787791252,
+      "loss": 0.0432,
+      "mean_token_accuracy": 0.9866240471601486,
       "step": 1279
     },
     {
       "epoch": 7.486803519061583,
-      "grad_norm": 0.26318968566984136,
+      "grad_norm": 0.40084758967083595,
       "learning_rate": 9.461385119710282e-06,
-      "loss": 0.074,
-      "mean_token_accuracy": 0.9743320271372795,
+      "loss": 0.0649,
+      "mean_token_accuracy": 0.9794245511293411,
       "step": 1280
     },
     {
       "epoch": 7.492668621700879,
-      "grad_norm": 0.32345568363196076,
+      "grad_norm": 0.37179990528957857,
       "learning_rate": 9.436803914143189e-06,
-      "loss": 0.0726,
-      "mean_token_accuracy": 0.9740675911307335,
+      "loss": 0.0649,
+      "mean_token_accuracy": 0.978649728000164,
       "step": 1281
     },
     {
       "epoch": 7.4985337243401755,
-      "grad_norm": 0.3359866371891183,
+      "grad_norm": 0.4144971947017167,
       "learning_rate": 9.41226830790394e-06,
-      "loss": 0.0679,
-      "mean_token_accuracy": 0.9786439761519432,
+      "loss": 0.0535,
+      "mean_token_accuracy": 0.9819266125559807,
       "step": 1282
     },
     {
       "epoch": 7.504398826979472,
-      "grad_norm": 0.28449592977664995,
+      "grad_norm": 0.41089012248038864,
       "learning_rate": 9.387778390046881e-06,
-      "loss": 0.0644,
-      "mean_token_accuracy": 0.9785284176468849,
+      "loss": 0.0567,
+      "mean_token_accuracy": 0.9813234284520149,
       "step": 1283
     },
     {
       "epoch": 7.510263929618768,
-      "grad_norm": 0.26900051978234174,
+      "grad_norm": 0.3299345875181496,
       "learning_rate": 9.363334249460519e-06,
-      "loss": 0.0654,
-      "mean_token_accuracy": 0.9803383573889732,
+      "loss": 0.0559,
+      "mean_token_accuracy": 0.9827776104211807,
       "step": 1284
     },
     {
       "epoch": 7.516129032258064,
-      "grad_norm": 0.32220420095575997,
+      "grad_norm": 0.3343562585006663,
       "learning_rate": 9.338935974867213e-06,
-      "loss": 0.0725,
-      "mean_token_accuracy": 0.9765875190496445,
+      "loss": 0.0558,
+      "mean_token_accuracy": 0.9819636717438698,
       "step": 1285
     },
     {
       "epoch": 7.52199413489736,
-      "grad_norm": 0.5224308102926841,
+      "grad_norm": 0.4643635750642076,
       "learning_rate": 9.314583654822844e-06,
-      "loss": 0.0751,
-      "mean_token_accuracy": 0.9766501858830452,
+      "loss": 0.0632,
+      "mean_token_accuracy": 0.9794372394680977,
       "step": 1286
     },
     {
       "epoch": 7.527859237536656,
-      "grad_norm": 0.5037316754055287,
+      "grad_norm": 0.4244359984781323,
       "learning_rate": 9.290277377716503e-06,
-      "loss": 0.0796,
-      "mean_token_accuracy": 0.9741085171699524,
+      "loss": 0.066,
+      "mean_token_accuracy": 0.9777902364730835,
       "step": 1287
     },
     {
       "epoch": 7.533724340175953,
-      "grad_norm": 0.42377305298738516,
+      "grad_norm": 0.3949368748032798,
       "learning_rate": 9.266017231770155e-06,
-      "loss": 0.0588,
-      "mean_token_accuracy": 0.9798842146992683,
+      "loss": 0.0524,
+      "mean_token_accuracy": 0.9815265461802483,
       "step": 1288
     },
     {
       "epoch": 7.539589442815249,
-      "grad_norm": 0.2573789224293022,
+      "grad_norm": 0.37548934551322455,
       "learning_rate": 9.241803305038333e-06,
-      "loss": 0.0744,
-      "mean_token_accuracy": 0.9776958003640175,
+      "loss": 0.062,
+      "mean_token_accuracy": 0.980858251452446,
       "step": 1289
     },
     {
       "epoch": 7.545454545454545,
-      "grad_norm": 0.2965363860970641,
+      "grad_norm": 0.38084864607631785,
       "learning_rate": 9.217635685407813e-06,
-      "loss": 0.0657,
-      "mean_token_accuracy": 0.9799975752830505,
+      "loss": 0.057,
+      "mean_token_accuracy": 0.9823618158698082,
       "step": 1290
     },
     {
       "epoch": 7.551319648093841,
-      "grad_norm": 0.32631428816151475,
+      "grad_norm": 0.3614666166755709,
       "learning_rate": 9.19351446059729e-06,
-      "loss": 0.0602,
-      "mean_token_accuracy": 0.9817659631371498,
+      "loss": 0.0509,
+      "mean_token_accuracy": 0.9841725453734398,
       "step": 1291
     },
     {
       "epoch": 7.557184750733137,
-      "grad_norm": 0.3125871316017961,
+      "grad_norm": 0.32334267634784053,
       "learning_rate": 9.16943971815708e-06,
-      "loss": 0.0636,
-      "mean_token_accuracy": 0.9800999537110329,
+      "loss": 0.0547,
+      "mean_token_accuracy": 0.9836216494441032,
       "step": 1292
     },
     {
       "epoch": 7.563049853372434,
-      "grad_norm": 0.2734057475439993,
+      "grad_norm": 0.3549020438357482,
       "learning_rate": 9.145411545468756e-06,
-      "loss": 0.0587,
-      "mean_token_accuracy": 0.9795428663492203,
+      "loss": 0.0537,
+      "mean_token_accuracy": 0.9822108149528503,
       "step": 1293
     },
     {
       "epoch": 7.568914956011731,
-      "grad_norm": 0.2604148879143986,
+      "grad_norm": 0.414896679893959,
       "learning_rate": 9.121430029744893e-06,
-      "loss": 0.062,
-      "mean_token_accuracy": 0.9805775061249733,
+      "loss": 0.0551,
+      "mean_token_accuracy": 0.9838257804512978,
       "step": 1294
     },
     {
       "epoch": 7.574780058651027,
-      "grad_norm": 0.31702286505675215,
+      "grad_norm": 0.4664630449633319,
       "learning_rate": 9.097495258028703e-06,
-      "loss": 0.0693,
-      "mean_token_accuracy": 0.9769936874508858,
+      "loss": 0.0613,
+      "mean_token_accuracy": 0.9797477498650551,
       "step": 1295
     },
     {
       "epoch": 7.580645161290323,
-      "grad_norm": 0.3605926122000164,
+      "grad_norm": 0.3624415444639565,
       "learning_rate": 9.073607317193742e-06,
-      "loss": 0.0619,
-      "mean_token_accuracy": 0.9788065627217293,
+      "loss": 0.0513,
+      "mean_token_accuracy": 0.9819745272397995,
       "step": 1296
     },
     {
       "epoch": 7.586510263929619,
-      "grad_norm": 0.2535069897924097,
+      "grad_norm": 0.362922738638366,
       "learning_rate": 9.049766293943589e-06,
-      "loss": 0.0706,
-      "mean_token_accuracy": 0.9772609323263168,
+      "loss": 0.0573,
+      "mean_token_accuracy": 0.9807760417461395,
       "step": 1297
     },
     {
       "epoch": 7.592375366568915,
-      "grad_norm": 0.4109347943974271,
+      "grad_norm": 0.4243136296793758,
       "learning_rate": 9.025972274811527e-06,
-      "loss": 0.0684,
-      "mean_token_accuracy": 0.9789599850773811,
+      "loss": 0.0557,
+      "mean_token_accuracy": 0.9818306267261505,
       "step": 1298
     },
     {
       "epoch": 7.5982404692082115,
-      "grad_norm": 0.2871829801660241,
+      "grad_norm": 0.4425658209939251,
       "learning_rate": 9.002225346160238e-06,
-      "loss": 0.0649,
-      "mean_token_accuracy": 0.9778304621577263,
+      "loss": 0.0577,
+      "mean_token_accuracy": 0.9808589443564415,
       "step": 1299
     },
     {
       "epoch": 7.604105571847508,
-      "grad_norm": 0.32674313911500424,
+      "grad_norm": 0.3514744376386846,
       "learning_rate": 8.97852559418148e-06,
-      "loss": 0.0637,
-      "mean_token_accuracy": 0.9782585576176643,
+      "loss": 0.0531,
+      "mean_token_accuracy": 0.9827908128499985,
       "step": 1300
     },
     {
       "epoch": 7.609970674486804,
-      "grad_norm": 0.34327052126908203,
+      "grad_norm": 0.33745243601412556,
       "learning_rate": 8.954873104895787e-06,
-      "loss": 0.0631,
-      "mean_token_accuracy": 0.9815321713685989,
+      "loss": 0.0538,
+      "mean_token_accuracy": 0.9833011403679848,
       "step": 1301
     },
     {
       "epoch": 7.6158357771261,
-      "grad_norm": 0.33708528837651625,
+      "grad_norm": 0.3333868665559321,
       "learning_rate": 8.931267964152132e-06,
-      "loss": 0.0688,
-      "mean_token_accuracy": 0.9765809625387192,
+      "loss": 0.0573,
+      "mean_token_accuracy": 0.980949267745018,
       "step": 1302
     },
     {
       "epoch": 7.621700879765396,
-      "grad_norm": 0.5041195790884399,
+      "grad_norm": 0.39314271223090547,
       "learning_rate": 8.907710257627651e-06,
-      "loss": 0.0676,
-      "mean_token_accuracy": 0.9783420264720917,
+      "loss": 0.0574,
+      "mean_token_accuracy": 0.9824113622307777,
       "step": 1303
     },
     {
       "epoch": 7.627565982404692,
-      "grad_norm": 0.2989590349789707,
+      "grad_norm": 0.3388898421743972,
       "learning_rate": 8.884200070827303e-06,
-      "loss": 0.0632,
-      "mean_token_accuracy": 0.9762579947710037,
+      "loss": 0.0554,
+      "mean_token_accuracy": 0.9804334491491318,
       "step": 1304
     },
     {
       "epoch": 7.633431085043989,
-      "grad_norm": 0.4094635271370586,
+      "grad_norm": 0.37499471768779674,
       "learning_rate": 8.86073748908357e-06,
-      "loss": 0.0631,
-      "mean_token_accuracy": 0.9789704233407974,
+      "loss": 0.0552,
+      "mean_token_accuracy": 0.981963500380516,
       "step": 1305
     },
     {
       "epoch": 7.639296187683285,
-      "grad_norm": 0.27117288447287735,
+      "grad_norm": 0.38935220042170704,
       "learning_rate": 8.837322597556146e-06,
-      "loss": 0.0641,
-      "mean_token_accuracy": 0.9795557036995888,
+      "loss": 0.0546,
+      "mean_token_accuracy": 0.9819600731134415,
       "step": 1306
     },
     {
       "epoch": 7.645161290322581,
-      "grad_norm": 0.4138735803384374,
+      "grad_norm": 0.4422890162616974,
       "learning_rate": 8.813955481231633e-06,
-      "loss": 0.0751,
-      "mean_token_accuracy": 0.9753428846597672,
+      "loss": 0.0642,
+      "mean_token_accuracy": 0.9796778559684753,
       "step": 1307
     },
     {
       "epoch": 7.651026392961877,
-      "grad_norm": 0.30570757377595903,
+      "grad_norm": 0.35255417861474725,
       "learning_rate": 8.790636224923221e-06,
-      "loss": 0.068,
-      "mean_token_accuracy": 0.9780451580882072,
+      "loss": 0.058,
+      "mean_token_accuracy": 0.9814234897494316,
       "step": 1308
     },
     {
       "epoch": 7.656891495601173,
-      "grad_norm": 0.3261846476792855,
+      "grad_norm": 0.39985957065533995,
       "learning_rate": 8.767364913270399e-06,
-      "loss": 0.0768,
-      "mean_token_accuracy": 0.9772769138216972,
+      "loss": 0.0592,
+      "mean_token_accuracy": 0.981181763112545,
       "step": 1309
     },
     {
       "epoch": 7.6627565982404695,
-      "grad_norm": 0.45484472620842326,
+      "grad_norm": 0.4134732505479203,
       "learning_rate": 8.744141630738624e-06,
-      "loss": 0.0741,
-      "mean_token_accuracy": 0.9788528978824615,
+      "loss": 0.0681,
+      "mean_token_accuracy": 0.9794332608580589,
       "step": 1310
     },
     {
       "epoch": 7.668621700879766,
-      "grad_norm": 0.274785803295409,
+      "grad_norm": 0.4356893955326623,
       "learning_rate": 8.720966461619038e-06,
-      "loss": 0.0801,
-      "mean_token_accuracy": 0.9781883060932159,
+      "loss": 0.0617,
+      "mean_token_accuracy": 0.9818313270807266,
       "step": 1311
     },
     {
       "epoch": 7.674486803519062,
-      "grad_norm": 0.5798168184695972,
+      "grad_norm": 0.3989989585543621,
       "learning_rate": 8.69783949002814e-06,
-      "loss": 0.0614,
-      "mean_token_accuracy": 0.9807113409042358,
+      "loss": 0.054,
+      "mean_token_accuracy": 0.9826485440135002,
       "step": 1312
     },
     {
       "epoch": 7.680351906158358,
-      "grad_norm": 0.30491164949294325,
+      "grad_norm": 0.3359307886658749,
       "learning_rate": 8.6747607999075e-06,
-      "loss": 0.0565,
-      "mean_token_accuracy": 0.9811301380395889,
+      "loss": 0.0478,
+      "mean_token_accuracy": 0.9843815788626671,
       "step": 1313
     },
     {
       "epoch": 7.686217008797654,
-      "grad_norm": 0.38152749678409453,
+      "grad_norm": 0.3668758276797067,
       "learning_rate": 8.651730475023435e-06,
-      "loss": 0.0726,
-      "mean_token_accuracy": 0.9776108860969543,
+      "loss": 0.0621,
+      "mean_token_accuracy": 0.9808582216501236,
       "step": 1314
     },
     {
       "epoch": 7.69208211143695,
-      "grad_norm": 0.41854013127871614,
+      "grad_norm": 0.3993334587891021,
       "learning_rate": 8.628748598966739e-06,
-      "loss": 0.0655,
-      "mean_token_accuracy": 0.9768750295042992,
+      "loss": 0.0564,
+      "mean_token_accuracy": 0.9802764654159546,
       "step": 1315
     },
     {
       "epoch": 7.697947214076247,
-      "grad_norm": 0.45499424698989827,
+      "grad_norm": 0.4545815190595137,
       "learning_rate": 8.605815255152323e-06,
-      "loss": 0.0791,
-      "mean_token_accuracy": 0.9720618352293968,
+      "loss": 0.0635,
+      "mean_token_accuracy": 0.9794041439890862,
       "step": 1316
     },
     {
       "epoch": 7.703812316715543,
-      "grad_norm": 0.30913926089594507,
+      "grad_norm": 0.4487036384939457,
       "learning_rate": 8.582930526818973e-06,
-      "loss": 0.0725,
-      "mean_token_accuracy": 0.9765586853027344,
+      "loss": 0.0621,
+      "mean_token_accuracy": 0.9806603714823723,
       "step": 1317
     },
     {
       "epoch": 7.709677419354839,
-      "grad_norm": 0.5304284265697857,
+      "grad_norm": 0.4666847229368787,
       "learning_rate": 8.560094497029008e-06,
-      "loss": 0.0723,
-      "mean_token_accuracy": 0.9783492982387543,
+      "loss": 0.0586,
+      "mean_token_accuracy": 0.9819168671965599,
       "step": 1318
     },
     {
       "epoch": 7.715542521994135,
-      "grad_norm": 0.44193236209697745,
+      "grad_norm": 0.40195668204742174,
       "learning_rate": 8.537307248667992e-06,
-      "loss": 0.0664,
-      "mean_token_accuracy": 0.9785650745034218,
+      "loss": 0.0545,
+      "mean_token_accuracy": 0.9826847463846207,
       "step": 1319
     },
     {
       "epoch": 7.721407624633431,
-      "grad_norm": 0.3801324857485209,
+      "grad_norm": 0.3985988940480605,
       "learning_rate": 8.514568864444432e-06,
-      "loss": 0.0765,
-      "mean_token_accuracy": 0.9757534116506577,
+      "loss": 0.0659,
+      "mean_token_accuracy": 0.9786344021558762,
       "step": 1320
     },
     {
       "epoch": 7.7272727272727275,
-      "grad_norm": 0.2924649756631599,
+      "grad_norm": 0.3803942159665741,
       "learning_rate": 8.491879426889483e-06,
-      "loss": 0.0635,
-      "mean_token_accuracy": 0.9798558130860329,
+      "loss": 0.0524,
+      "mean_token_accuracy": 0.9822396486997604,
       "step": 1321
     },
     {
       "epoch": 7.733137829912024,
-      "grad_norm": 0.46934446068300567,
+      "grad_norm": 0.4314813792648232,
       "learning_rate": 8.469239018356636e-06,
-      "loss": 0.0761,
-      "mean_token_accuracy": 0.9742545410990715,
+      "loss": 0.0669,
+      "mean_token_accuracy": 0.9790932461619377,
       "step": 1322
     },
     {
       "epoch": 7.73900293255132,
-      "grad_norm": 0.42318394489101063,
+      "grad_norm": 0.4256794549163884,
       "learning_rate": 8.446647721021435e-06,
-      "loss": 0.0852,
-      "mean_token_accuracy": 0.9734436348080635,
+      "loss": 0.0704,
+      "mean_token_accuracy": 0.9789668694138527,
       "step": 1323
     },
     {
       "epoch": 7.744868035190616,
-      "grad_norm": 0.4709962099950871,
+      "grad_norm": 0.4015989362398405,
       "learning_rate": 8.424105616881161e-06,
-      "loss": 0.0698,
-      "mean_token_accuracy": 0.9796672537922859,
+      "loss": 0.0559,
+      "mean_token_accuracy": 0.9835130125284195,
       "step": 1324
     },
     {
       "epoch": 7.750733137829912,
-      "grad_norm": 0.5052962775096801,
+      "grad_norm": 0.3748051299880915,
       "learning_rate": 8.40161278775455e-06,
-      "loss": 0.079,
-      "mean_token_accuracy": 0.9778957739472389,
+      "loss": 0.059,
+      "mean_token_accuracy": 0.9828163757920265,
       "step": 1325
     },
     {
       "epoch": 7.756598240469208,
-      "grad_norm": 0.794953716358727,
+      "grad_norm": 0.4175935071524493,
       "learning_rate": 8.379169315281485e-06,
-      "loss": 0.0723,
-      "mean_token_accuracy": 0.9770526960492134,
+      "loss": 0.0638,
+      "mean_token_accuracy": 0.9799411669373512,
       "step": 1326
     },
     {
       "epoch": 7.762463343108505,
-      "grad_norm": 0.4708633571052823,
+      "grad_norm": 0.38437401738180915,
       "learning_rate": 8.356775280922708e-06,
-      "loss": 0.0761,
-      "mean_token_accuracy": 0.9773171544075012,
+      "loss": 0.065,
+      "mean_token_accuracy": 0.9807204306125641,
       "step": 1327
     },
     {
       "epoch": 7.768328445747801,
-      "grad_norm": 0.2977066686368222,
+      "grad_norm": 0.3427453782640103,
       "learning_rate": 8.334430765959522e-06,
-      "loss": 0.073,
-      "mean_token_accuracy": 0.9756058230996132,
+      "loss": 0.0617,
+      "mean_token_accuracy": 0.97793348133564,
       "step": 1328
     },
     {
       "epoch": 7.774193548387097,
-      "grad_norm": 0.34688096761186954,
+      "grad_norm": 0.36726795137742246,
       "learning_rate": 8.312135851493494e-06,
-      "loss": 0.0764,
-      "mean_token_accuracy": 0.9759645387530327,
+      "loss": 0.0625,
+      "mean_token_accuracy": 0.9796304106712341,
       "step": 1329
     },
     {
       "epoch": 7.780058651026393,
-      "grad_norm": 0.37759510575185457,
+      "grad_norm": 0.33690389206076704,
       "learning_rate": 8.28989061844615e-06,
-      "loss": 0.0559,
-      "mean_token_accuracy": 0.9825332537293434,
+      "loss": 0.0493,
+      "mean_token_accuracy": 0.9848483875393867,
       "step": 1330
     },
     {
       "epoch": 7.785923753665689,
-      "grad_norm": 0.25548539074972576,
+      "grad_norm": 0.3730528248631496,
       "learning_rate": 8.267695147558705e-06,
-      "loss": 0.0753,
-      "mean_token_accuracy": 0.9778474643826485,
+      "loss": 0.0664,
+      "mean_token_accuracy": 0.9790797233581543,
       "step": 1331
     },
     {
       "epoch": 7.7917888563049855,
-      "grad_norm": 0.3247899940629153,
+      "grad_norm": 0.4445863650560794,
       "learning_rate": 8.245549519391758e-06,
-      "loss": 0.0763,
-      "mean_token_accuracy": 0.9769897162914276,
+      "loss": 0.0618,
+      "mean_token_accuracy": 0.9811621233820915,
       "step": 1332
     },
     {
       "epoch": 7.797653958944282,
-      "grad_norm": 0.4165530275778508,
+      "grad_norm": 0.3886988477025664,
       "learning_rate": 8.22345381432499e-06,
-      "loss": 0.0704,
-      "mean_token_accuracy": 0.9790071472525597,
+      "loss": 0.0612,
+      "mean_token_accuracy": 0.9816948473453522,
       "step": 1333
     },
     {
       "epoch": 7.803519061583578,
-      "grad_norm": 0.3026205083529094,
+      "grad_norm": 0.34021133386988633,
       "learning_rate": 8.201408112556893e-06,
-      "loss": 0.0669,
-      "mean_token_accuracy": 0.9787802696228027,
+      "loss": 0.0573,
+      "mean_token_accuracy": 0.9828803986310959,
       "step": 1334
     },
     {
       "epoch": 7.809384164222874,
-      "grad_norm": 0.35726307580476363,
+      "grad_norm": 0.3722898209413316,
       "learning_rate": 8.179412494104457e-06,
-      "loss": 0.0698,
-      "mean_token_accuracy": 0.9751449227333069,
+      "loss": 0.059,
+      "mean_token_accuracy": 0.9795228019356728,
       "step": 1335
     },
     {
       "epoch": 7.81524926686217,
-      "grad_norm": 0.4509292195222995,
+      "grad_norm": 0.3530389348112938,
       "learning_rate": 8.15746703880289e-06,
-      "loss": 0.0686,
-      "mean_token_accuracy": 0.9777436852455139,
+      "loss": 0.058,
+      "mean_token_accuracy": 0.981398917734623,
       "step": 1336
     },
     {
       "epoch": 7.821114369501466,
-      "grad_norm": 0.2686585360899267,
+      "grad_norm": 0.35299669138074313,
       "learning_rate": 8.135571826305339e-06,
-      "loss": 0.0604,
-      "mean_token_accuracy": 0.9788657277822495,
+      "loss": 0.0524,
+      "mean_token_accuracy": 0.9821040034294128,
       "step": 1337
     },
     {
       "epoch": 7.826979472140763,
-      "grad_norm": 0.4818930537808581,
+      "grad_norm": 0.3591917463620187,
       "learning_rate": 8.113726936082576e-06,
-      "loss": 0.0806,
-      "mean_token_accuracy": 0.9743361845612526,
+      "loss": 0.0655,
+      "mean_token_accuracy": 0.9790498167276382,
       "step": 1338
     },
     {
       "epoch": 7.832844574780059,
-      "grad_norm": 0.49508100194206756,
+      "grad_norm": 0.5220426396663527,
       "learning_rate": 8.091932447422737e-06,
-      "loss": 0.074,
-      "mean_token_accuracy": 0.9731877073645592,
+      "loss": 0.0617,
+      "mean_token_accuracy": 0.978603184223175,
       "step": 1339
     },
     {
       "epoch": 7.838709677419355,
-      "grad_norm": 0.29711247347821884,
+      "grad_norm": 0.34756347572701596,
       "learning_rate": 8.070188439431005e-06,
-      "loss": 0.0657,
-      "mean_token_accuracy": 0.9789380878210068,
+      "loss": 0.0575,
+      "mean_token_accuracy": 0.9806881099939346,
       "step": 1340
     },
     {
       "epoch": 7.844574780058651,
-      "grad_norm": 0.3397541983633956,
+      "grad_norm": 0.41402266812479505,
       "learning_rate": 8.048494991029352e-06,
-      "loss": 0.0606,
-      "mean_token_accuracy": 0.9785341024398804,
+      "loss": 0.052,
+      "mean_token_accuracy": 0.9825706034898758,
       "step": 1341
     },
     {
       "epoch": 7.850439882697947,
-      "grad_norm": 0.480376564004997,
+      "grad_norm": 0.34986065635759345,
       "learning_rate": 8.02685218095624e-06,
-      "loss": 0.0727,
-      "mean_token_accuracy": 0.9771670550107956,
+      "loss": 0.0576,
+      "mean_token_accuracy": 0.9828275814652443,
       "step": 1342
     },
     {
       "epoch": 7.8563049853372435,
-      "grad_norm": 0.40889844988462554,
+      "grad_norm": 0.35008434025300506,
       "learning_rate": 8.005260087766318e-06,
-      "loss": 0.0724,
-      "mean_token_accuracy": 0.9762912541627884,
+      "loss": 0.0619,
+      "mean_token_accuracy": 0.9789273515343666,
       "step": 1343
     },
     {
       "epoch": 7.86217008797654,
-      "grad_norm": 0.30638673540582606,
+      "grad_norm": 0.3628035072463874,
       "learning_rate": 7.983718789830167e-06,
-      "loss": 0.0723,
-      "mean_token_accuracy": 0.9767410978674889,
+      "loss": 0.061,
+      "mean_token_accuracy": 0.9795840755105019,
       "step": 1344
     },
     {
       "epoch": 7.868035190615836,
-      "grad_norm": 0.3766404101128721,
+      "grad_norm": 0.4052159012085872,
       "learning_rate": 7.962228365333999e-06,
-      "loss": 0.073,
-      "mean_token_accuracy": 0.9778221324086189,
+      "loss": 0.064,
+      "mean_token_accuracy": 0.9813359454274178,
       "step": 1345
     },
     {
       "epoch": 7.873900293255132,
-      "grad_norm": 0.3875864282647274,
+      "grad_norm": 0.3695739612140032,
       "learning_rate": 7.940788892279375e-06,
-      "loss": 0.074,
-      "mean_token_accuracy": 0.9775504246354103,
+      "loss": 0.0616,
+      "mean_token_accuracy": 0.9815887585282326,
       "step": 1346
     },
     {
       "epoch": 7.879765395894428,
-      "grad_norm": 0.3486193538218716,
+      "grad_norm": 0.36628043012480255,
       "learning_rate": 7.919400448482928e-06,
-      "loss": 0.0657,
-      "mean_token_accuracy": 0.9794389456510544,
+      "loss": 0.0577,
+      "mean_token_accuracy": 0.9804845973849297,
       "step": 1347
     },
     {
       "epoch": 7.885630498533724,
-      "grad_norm": 0.2955046780982513,
+      "grad_norm": 0.3773279787626722,
       "learning_rate": 7.898063111576066e-06,
-      "loss": 0.0696,
-      "mean_token_accuracy": 0.9779496192932129,
+      "loss": 0.06,
+      "mean_token_accuracy": 0.9801003411412239,
       "step": 1348
     },
     {
       "epoch": 7.891495601173021,
-      "grad_norm": 0.3234432215282191,
+      "grad_norm": 0.387347408588769,
       "learning_rate": 7.876776959004706e-06,
-      "loss": 0.0846,
-      "mean_token_accuracy": 0.9718790277838707,
+      "loss": 0.0705,
+      "mean_token_accuracy": 0.976474940776825,
       "step": 1349
     },
     {
       "epoch": 7.897360703812317,
-      "grad_norm": 0.35172886904487044,
+      "grad_norm": 0.3600666347332053,
       "learning_rate": 7.855542068028981e-06,
-      "loss": 0.0644,
-      "mean_token_accuracy": 0.9782620742917061,
+      "loss": 0.0525,
+      "mean_token_accuracy": 0.9814046397805214,
       "step": 1350
     },
     {
       "epoch": 7.903225806451613,
-      "grad_norm": 0.2484032872765626,
+      "grad_norm": 0.3168307759527497,
       "learning_rate": 7.834358515722977e-06,
-      "loss": 0.0667,
-      "mean_token_accuracy": 0.9796766042709351,
+      "loss": 0.0558,
+      "mean_token_accuracy": 0.9831864088773727,
       "step": 1351
     },
     {
       "epoch": 7.909090909090909,
-      "grad_norm": 0.3189929514946592,
+      "grad_norm": 0.34381906155090736,
       "learning_rate": 7.813226378974427e-06,
-      "loss": 0.0696,
-      "mean_token_accuracy": 0.976318895816803,
+      "loss": 0.0603,
+      "mean_token_accuracy": 0.9802919253706932,
       "step": 1352
     },
     {
       "epoch": 7.914956011730205,
-      "grad_norm": 0.32186645853668916,
+      "grad_norm": 0.38700412978550913,
       "learning_rate": 7.792145734484455e-06,
-      "loss": 0.0665,
-      "mean_token_accuracy": 0.9768570438027382,
+      "loss": 0.0575,
+      "mean_token_accuracy": 0.9791939035058022,
       "step": 1353
     },
     {
       "epoch": 7.9208211143695015,
-      "grad_norm": 0.28509948839859406,
+      "grad_norm": 0.3526459336872874,
       "learning_rate": 7.771116658767286e-06,
-      "loss": 0.0729,
-      "mean_token_accuracy": 0.9778455495834351,
+      "loss": 0.0627,
+      "mean_token_accuracy": 0.9802243933081627,
       "step": 1354
     },
     {
       "epoch": 7.926686217008798,
-      "grad_norm": 0.31897252819873134,
+      "grad_norm": 0.399072301995629,
       "learning_rate": 7.750139228149978e-06,
-      "loss": 0.0782,
-      "mean_token_accuracy": 0.9735360145568848,
+      "loss": 0.0658,
+      "mean_token_accuracy": 0.9786151126027107,
       "step": 1355
     },
     {
       "epoch": 7.932551319648094,
-      "grad_norm": 0.4594664457151054,
+      "grad_norm": 0.44580675695069405,
       "learning_rate": 7.729213518772121e-06,
-      "loss": 0.0682,
-      "mean_token_accuracy": 0.980343259871006,
+      "loss": 0.0558,
+      "mean_token_accuracy": 0.9831471219658852,
       "step": 1356
     },
     {
       "epoch": 7.93841642228739,
-      "grad_norm": 0.37424885169765215,
+      "grad_norm": 0.38551496553122244,
       "learning_rate": 7.708339606585591e-06,
-      "loss": 0.0698,
-      "mean_token_accuracy": 0.9746110588312149,
+      "loss": 0.0603,
+      "mean_token_accuracy": 0.9787757843732834,
       "step": 1357
     },
     {
       "epoch": 7.944281524926686,
-      "grad_norm": 0.3355832207100877,
+      "grad_norm": 0.3707055933975031,
       "learning_rate": 7.687517567354266e-06,
-      "loss": 0.0829,
-      "mean_token_accuracy": 0.9746036380529404,
+      "loss": 0.0679,
+      "mean_token_accuracy": 0.9794500693678856,
       "step": 1358
     },
     {
       "epoch": 7.9501466275659824,
-      "grad_norm": 0.37310850047357214,
+      "grad_norm": 0.3770154187455032,
       "learning_rate": 7.66674747665373e-06,
-      "loss": 0.0643,
-      "mean_token_accuracy": 0.9776176363229752,
+      "loss": 0.0533,
+      "mean_token_accuracy": 0.981170766055584,
       "step": 1359
     },
     {
       "epoch": 7.956011730205279,
-      "grad_norm": 0.34627662256254366,
+      "grad_norm": 0.3490341048905599,
       "learning_rate": 7.646029409871029e-06,
-      "loss": 0.0715,
-      "mean_token_accuracy": 0.9754548743367195,
+      "loss": 0.0596,
+      "mean_token_accuracy": 0.9797269105911255,
       "step": 1360
     },
     {
       "epoch": 7.961876832844575,
-      "grad_norm": 0.2924727330598229,
+      "grad_norm": 0.3213083693973658,
       "learning_rate": 7.625363442204379e-06,
-      "loss": 0.0588,
-      "mean_token_accuracy": 0.9818178787827492,
+      "loss": 0.0485,
+      "mean_token_accuracy": 0.9845825582742691,
       "step": 1361
     },
     {
       "epoch": 7.967741935483871,
-      "grad_norm": 0.37066267600800856,
+      "grad_norm": 0.31915132992627365,
       "learning_rate": 7.604749648662892e-06,
-      "loss": 0.0682,
-      "mean_token_accuracy": 0.9784936085343361,
+      "loss": 0.0568,
+      "mean_token_accuracy": 0.9816582277417183,
       "step": 1362
     },
     {
       "epoch": 7.973607038123167,
-      "grad_norm": 0.2726562666079756,
+      "grad_norm": 0.41843021589666207,
       "learning_rate": 7.584188104066317e-06,
-      "loss": 0.0586,
-      "mean_token_accuracy": 0.9794305935502052,
+      "loss": 0.0526,
+      "mean_token_accuracy": 0.9819516390562057,
       "step": 1363
     },
     {
       "epoch": 7.979472140762463,
-      "grad_norm": 0.46100400117349094,
+      "grad_norm": 0.36578962992205144,
       "learning_rate": 7.563678883044754e-06,
-      "loss": 0.0843,
-      "mean_token_accuracy": 0.9759550020098686,
+      "loss": 0.0669,
+      "mean_token_accuracy": 0.9804994836449623,
       "step": 1364
     },
     {
       "epoch": 7.9853372434017595,
-      "grad_norm": 0.46096923720257865,
+      "grad_norm": 0.37137732144693464,
       "learning_rate": 7.5432220600383935e-06,
-      "loss": 0.0832,
-      "mean_token_accuracy": 0.9736724197864532,
+      "loss": 0.0677,
+      "mean_token_accuracy": 0.978873997926712,
       "step": 1365
     },
     {
       "epoch": 7.991202346041056,
-      "grad_norm": 0.3537209449519693,
+      "grad_norm": 0.32129501323857224,
       "learning_rate": 7.522817709297241e-06,
-      "loss": 0.0676,
-      "mean_token_accuracy": 0.9790577068924904,
+      "loss": 0.0577,
+      "mean_token_accuracy": 0.9820384383201599,
       "step": 1366
     },
     {
       "epoch": 7.997067448680352,
-      "grad_norm": 0.5417913017909552,
+      "grad_norm": 0.3778910440397723,
       "learning_rate": 7.502465904880849e-06,
-      "loss": 0.0717,
-      "mean_token_accuracy": 0.9783544093370438,
+      "loss": 0.0592,
+      "mean_token_accuracy": 0.9810664132237434,
       "step": 1367
     },
     {
       "epoch": 8.0,
-      "grad_norm": 0.6652206583753479,
+      "grad_norm": 0.5872724133391657,
       "learning_rate": 7.482166720658046e-06,
-      "loss": 0.0685,
-      "mean_token_accuracy": 0.980608344078064,
+      "loss": 0.0557,
+      "mean_token_accuracy": 0.9852104634046555,
       "step": 1368
     },
     {
       "epoch": 8.005865102639296,
-      "grad_norm": 0.33294774705553826,
+      "grad_norm": 0.3580615397900473,
       "learning_rate": 7.461920230306674e-06,
-      "loss": 0.0651,
-      "mean_token_accuracy": 0.9774910733103752,
+      "loss": 0.0573,
+      "mean_token_accuracy": 0.9798811301589012,
       "step": 1369
     },
     {
       "epoch": 8.011730205278592,
-      "grad_norm": 0.4730798517874754,
+      "grad_norm": 0.30243346768551127,
       "learning_rate": 7.441726507313318e-06,
-      "loss": 0.0586,
-      "mean_token_accuracy": 0.9798407405614853,
+      "loss": 0.0495,
+      "mean_token_accuracy": 0.9828371107578278,
       "step": 1370
     },
     {
       "epoch": 8.017595307917889,
-      "grad_norm": 0.4072909224715183,
+      "grad_norm": 0.3074075490353524,
       "learning_rate": 7.421585624973033e-06,
-      "loss": 0.0685,
-      "mean_token_accuracy": 0.9780117720365524,
+      "loss": 0.0568,
+      "mean_token_accuracy": 0.9812061563134193,
       "step": 1371
     },
     {
       "epoch": 8.023460410557185,
-      "grad_norm": 0.23290629620105716,
+      "grad_norm": 0.2869959547346391,
       "learning_rate": 7.4014976563890915e-06,
-      "loss": 0.0558,
-      "mean_token_accuracy": 0.9813942089676857,
+      "loss": 0.0482,
+      "mean_token_accuracy": 0.9833677485585213,
       "step": 1372
     },
     {
       "epoch": 8.029325513196481,
-      "grad_norm": 0.23204586036189112,
+      "grad_norm": 0.3157738216475847,
       "learning_rate": 7.381462674472702e-06,
-      "loss": 0.0562,
-      "mean_token_accuracy": 0.9837755858898163,
+      "loss": 0.0493,
+      "mean_token_accuracy": 0.9853304252028465,
       "step": 1373
     },
     {
       "epoch": 8.035190615835777,
-      "grad_norm": 0.26570656097468354,
+      "grad_norm": 0.2917261306391619,
       "learning_rate": 7.36148075194276e-06,
-      "loss": 0.0575,
-      "mean_token_accuracy": 0.9810594543814659,
+      "loss": 0.0495,
+      "mean_token_accuracy": 0.9836459308862686,
       "step": 1374
     },
     {
       "epoch": 8.041055718475073,
-      "grad_norm": 0.2534234167607354,
+      "grad_norm": 0.31842109310012173,
       "learning_rate": 7.341551961325574e-06,
-      "loss": 0.0579,
-      "mean_token_accuracy": 0.981083907186985,
+      "loss": 0.0507,
+      "mean_token_accuracy": 0.9838737025856972,
       "step": 1375
     },
     {
       "epoch": 8.04692082111437,
-      "grad_norm": 0.22482533363895343,
+      "grad_norm": 0.30617736349863633,
       "learning_rate": 7.3216763749546025e-06,
-      "loss": 0.0536,
-      "mean_token_accuracy": 0.9840012043714523,
+      "loss": 0.0464,
+      "mean_token_accuracy": 0.9870840385556221,
       "step": 1376
     },
     {
       "epoch": 8.052785923753666,
-      "grad_norm": 0.3539307170644396,
+      "grad_norm": 0.3244368902054701,
       "learning_rate": 7.301854064970202e-06,
-      "loss": 0.064,
-      "mean_token_accuracy": 0.9816621989011765,
+      "loss": 0.0527,
+      "mean_token_accuracy": 0.9844281673431396,
       "step": 1377
     },
     {
       "epoch": 8.058651026392962,
-      "grad_norm": 0.3133359023630968,
+      "grad_norm": 0.33740527739959525,
       "learning_rate": 7.282085103319349e-06,
-      "loss": 0.0603,
-      "mean_token_accuracy": 0.9810803234577179,
+      "loss": 0.0522,
+      "mean_token_accuracy": 0.9837864488363266,
       "step": 1378
     },
     {
       "epoch": 8.064516129032258,
-      "grad_norm": 0.2856689566183232,
+      "grad_norm": 0.35600976208331997,
       "learning_rate": 7.2623695617553934e-06,
-      "loss": 0.0665,
-      "mean_token_accuracy": 0.9795011952519417,
+      "loss": 0.0565,
+      "mean_token_accuracy": 0.9829199686646461,
       "step": 1379
     },
     {
       "epoch": 8.070381231671554,
-      "grad_norm": 0.32524667631472975,
+      "grad_norm": 0.34147147543660433,
       "learning_rate": 7.242707511837781e-06,
-      "loss": 0.0566,
-      "mean_token_accuracy": 0.9811884611845016,
+      "loss": 0.0476,
+      "mean_token_accuracy": 0.9852808564901352,
       "step": 1380
     },
     {
       "epoch": 8.07624633431085,
-      "grad_norm": 0.22155385666931476,
+      "grad_norm": 0.33417906439790784,
       "learning_rate": 7.223099024931817e-06,
-      "loss": 0.0533,
-      "mean_token_accuracy": 0.9849221631884575,
+      "loss": 0.0474,
+      "mean_token_accuracy": 0.9858130812644958,
       "step": 1381
     },
     {
       "epoch": 8.082111436950147,
-      "grad_norm": 0.2639512786516192,
+      "grad_norm": 0.39225200349168615,
       "learning_rate": 7.203544172208387e-06,
-      "loss": 0.0602,
-      "mean_token_accuracy": 0.9811254888772964,
+      "loss": 0.0522,
+      "mean_token_accuracy": 0.9837429746985435,
       "step": 1382
     },
     {
       "epoch": 8.087976539589443,
-      "grad_norm": 0.4099521690739927,
+      "grad_norm": 0.3559651753311173,
       "learning_rate": 7.184043024643712e-06,
-      "loss": 0.0645,
-      "mean_token_accuracy": 0.980625793337822,
+      "loss": 0.054,
+      "mean_token_accuracy": 0.9832148253917694,
       "step": 1383
     },
     {
       "epoch": 8.093841642228739,
-      "grad_norm": 0.2746270859860697,
+      "grad_norm": 0.32846826889276376,
       "learning_rate": 7.16459565301908e-06,
-      "loss": 0.0602,
-      "mean_token_accuracy": 0.9808760434389114,
+      "loss": 0.0508,
+      "mean_token_accuracy": 0.9839031621813774,
       "step": 1384
     },
     {
       "epoch": 8.099706744868035,
-      "grad_norm": 0.3336582722499348,
+      "grad_norm": 0.36300700993630225,
       "learning_rate": 7.145202127920598e-06,
-      "loss": 0.0709,
-      "mean_token_accuracy": 0.9770251661539078,
+      "loss": 0.0595,
+      "mean_token_accuracy": 0.9801753610372543,
       "step": 1385
     },
     {
       "epoch": 8.105571847507331,
-      "grad_norm": 0.3159956433838349,
+      "grad_norm": 0.32115006218827374,
       "learning_rate": 7.125862519738924e-06,
-      "loss": 0.0601,
-      "mean_token_accuracy": 0.9790099188685417,
+      "loss": 0.0516,
+      "mean_token_accuracy": 0.9814363420009613,
       "step": 1386
     },
     {
       "epoch": 8.111436950146627,
-      "grad_norm": 0.27751907752313126,
+      "grad_norm": 0.3703822810157945,
       "learning_rate": 7.106576898669031e-06,
-      "loss": 0.0645,
-      "mean_token_accuracy": 0.9811584055423737,
+      "loss": 0.0551,
+      "mean_token_accuracy": 0.9836417734622955,
       "step": 1387
     },
     {
       "epoch": 8.117302052785924,
-      "grad_norm": 0.3229154865255592,
+      "grad_norm": 0.3596990409161751,
       "learning_rate": 7.087345334709931e-06,
-      "loss": 0.0661,
-      "mean_token_accuracy": 0.9760906621813774,
+      "loss": 0.0559,
+      "mean_token_accuracy": 0.9793681129813194,
       "step": 1388
     },
     {
       "epoch": 8.12316715542522,
-      "grad_norm": 0.302786075924986,
+      "grad_norm": 0.439970724935907,
       "learning_rate": 7.068167897664433e-06,
-      "loss": 0.0672,
-      "mean_token_accuracy": 0.9771555885672569,
+      "loss": 0.0576,
+      "mean_token_accuracy": 0.9794286787509918,
       "step": 1389
     },
     {
       "epoch": 8.129032258064516,
-      "grad_norm": 0.34533438808047695,
+      "grad_norm": 0.34715662800736086,
       "learning_rate": 7.0490446571388925e-06,
-      "loss": 0.0714,
-      "mean_token_accuracy": 0.978884294629097,
+      "loss": 0.0592,
+      "mean_token_accuracy": 0.982256643474102,
       "step": 1390
     },
     {
       "epoch": 8.134897360703812,
-      "grad_norm": 0.27542127742914396,
+      "grad_norm": 0.3397432205528309,
       "learning_rate": 7.0299756825429465e-06,
-      "loss": 0.0605,
-      "mean_token_accuracy": 0.9800280183553696,
+      "loss": 0.0507,
+      "mean_token_accuracy": 0.9833914712071419,
       "step": 1391
     },
     {
       "epoch": 8.140762463343108,
-      "grad_norm": 0.2371774920683244,
+      "grad_norm": 0.2717469828760133,
       "learning_rate": 7.010961043089277e-06,
-      "loss": 0.0511,
-      "mean_token_accuracy": 0.9846341237425804,
+      "loss": 0.0436,
+      "mean_token_accuracy": 0.9865109696984291,
       "step": 1392
     },
     {
       "epoch": 8.146627565982405,
-      "grad_norm": 0.24268229094962124,
+      "grad_norm": 0.3481112115021732,
       "learning_rate": 6.992000807793333e-06,
-      "loss": 0.0578,
-      "mean_token_accuracy": 0.9803787469863892,
+      "loss": 0.0492,
+      "mean_token_accuracy": 0.9850409254431725,
       "step": 1393
     },
     {
       "epoch": 8.1524926686217,
-      "grad_norm": 0.3643306900167006,
+      "grad_norm": 0.34563812676429884,
       "learning_rate": 6.973095045473124e-06,
-      "loss": 0.0677,
-      "mean_token_accuracy": 0.9794165417551994,
+      "loss": 0.0555,
+      "mean_token_accuracy": 0.982826754450798,
       "step": 1394
     },
     {
       "epoch": 8.158357771260997,
-      "grad_norm": 0.2947855628136845,
+      "grad_norm": 0.35087836917639226,
       "learning_rate": 6.954243824748922e-06,
-      "loss": 0.0677,
-      "mean_token_accuracy": 0.9798598140478134,
+      "loss": 0.0578,
+      "mean_token_accuracy": 0.9829492494463921,
       "step": 1395
     },
     {
       "epoch": 8.164222873900293,
-      "grad_norm": 0.24965567868424024,
+      "grad_norm": 0.2905320705631627,
       "learning_rate": 6.93544721404305e-06,
-      "loss": 0.0621,
-      "mean_token_accuracy": 0.979515366256237,
+      "loss": 0.05,
+      "mean_token_accuracy": 0.9838858619332314,
       "step": 1396
     },
     {
       "epoch": 8.17008797653959,
-      "grad_norm": 0.33114852320813654,
+      "grad_norm": 0.3082826739718294,
       "learning_rate": 6.916705281579612e-06,
-      "loss": 0.0616,
-      "mean_token_accuracy": 0.9791374951601028,
+      "loss": 0.0519,
+      "mean_token_accuracy": 0.9831016063690186,
       "step": 1397
     },
     {
       "epoch": 8.175953079178885,
-      "grad_norm": 0.29068631223410873,
+      "grad_norm": 0.36435966366625105,
       "learning_rate": 6.898018095384252e-06,
-      "loss": 0.075,
-      "mean_token_accuracy": 0.976100243628025,
+      "loss": 0.0633,
+      "mean_token_accuracy": 0.9801773875951767,
       "step": 1398
     },
     {
       "epoch": 8.181818181818182,
-      "grad_norm": 0.3513269186709242,
+      "grad_norm": 0.3803019536472587,
       "learning_rate": 6.879385723283913e-06,
-      "loss": 0.0624,
-      "mean_token_accuracy": 0.9797561913728714,
+      "loss": 0.0521,
+      "mean_token_accuracy": 0.9834791570901871,
       "step": 1399
     },
     {
       "epoch": 8.187683284457478,
-      "grad_norm": 0.23415965488620152,
+      "grad_norm": 0.3532847547848805,
       "learning_rate": 6.8608082329065775e-06,
-      "loss": 0.061,
-      "mean_token_accuracy": 0.9810163378715515,
+      "loss": 0.0532,
+      "mean_token_accuracy": 0.9834351092576981,
       "step": 1400
     },
     {
       "epoch": 8.193548387096774,
-      "grad_norm": 0.2887897085336456,
+      "grad_norm": 0.38911936414789794,
       "learning_rate": 6.842285691681032e-06,
-      "loss": 0.0702,
-      "mean_token_accuracy": 0.9803082495927811,
+      "loss": 0.0591,
+      "mean_token_accuracy": 0.9815716445446014,
       "step": 1401
     },
     {
       "epoch": 8.19941348973607,
-      "grad_norm": 0.31338662556740365,
+      "grad_norm": 0.3428278171357225,
       "learning_rate": 6.8238181668366244e-06,
-      "loss": 0.0544,
-      "mean_token_accuracy": 0.9798052236437798,
+      "loss": 0.0478,
+      "mean_token_accuracy": 0.9838706254959106,
       "step": 1402
     },
     {
       "epoch": 8.205278592375366,
-      "grad_norm": 0.26118312597759613,
+      "grad_norm": 0.33191960396480547,
       "learning_rate": 6.805405725403006e-06,
-      "loss": 0.069,
-      "mean_token_accuracy": 0.9780385494232178,
+      "loss": 0.0572,
+      "mean_token_accuracy": 0.9818863347172737,
       "step": 1403
     },
     {
       "epoch": 8.211143695014663,
-      "grad_norm": 0.25966801207442913,
+      "grad_norm": 0.36925272182757807,
       "learning_rate": 6.787048434209906e-06,
-      "loss": 0.0642,
-      "mean_token_accuracy": 0.9776748195290565,
+      "loss": 0.0552,
+      "mean_token_accuracy": 0.9810345396399498,
       "step": 1404
     },
     {
       "epoch": 8.217008797653959,
-      "grad_norm": 0.2944460445098481,
+      "grad_norm": 0.382501882480973,
       "learning_rate": 6.768746359886882e-06,
-      "loss": 0.0635,
-      "mean_token_accuracy": 0.9799527376890182,
+      "loss": 0.0546,
+      "mean_token_accuracy": 0.9816075041890144,
       "step": 1405
     },
     {
       "epoch": 8.222873900293255,
-      "grad_norm": 0.25208455985617567,
+      "grad_norm": 0.3595201095049301,
       "learning_rate": 6.750499568863061e-06,
-      "loss": 0.0632,
-      "mean_token_accuracy": 0.9808372110128403,
+      "loss": 0.0556,
+      "mean_token_accuracy": 0.9821967929601669,
       "step": 1406
     },
     {
       "epoch": 8.228739002932551,
-      "grad_norm": 0.28741775439220846,
+      "grad_norm": 0.38016578185329586,
       "learning_rate": 6.732308127366931e-06,
-      "loss": 0.0734,
-      "mean_token_accuracy": 0.9774434566497803,
+      "loss": 0.0624,
+      "mean_token_accuracy": 0.9800859242677689,
       "step": 1407
     },
     {
       "epoch": 8.234604105571847,
-      "grad_norm": 0.3289864539935258,
+      "grad_norm": 0.38842597342794766,
       "learning_rate": 6.714172101426077e-06,
-      "loss": 0.0683,
-      "mean_token_accuracy": 0.9762885868549347,
+      "loss": 0.0582,
+      "mean_token_accuracy": 0.9795337095856667,
       "step": 1408
     },
     {
       "epoch": 8.240469208211143,
-      "grad_norm": 0.23736345312152154,
+      "grad_norm": 0.26062246060123856,
       "learning_rate": 6.696091556866948e-06,
-      "loss": 0.0511,
-      "mean_token_accuracy": 0.9827252328395844,
+      "loss": 0.0435,
+      "mean_token_accuracy": 0.9856739714741707,
       "step": 1409
     },
     {
       "epoch": 8.24633431085044,
-      "grad_norm": 0.2977687940939231,
+      "grad_norm": 0.37049498473441145,
       "learning_rate": 6.678066559314622e-06,
-      "loss": 0.0722,
-      "mean_token_accuracy": 0.9760833904147148,
+      "loss": 0.0606,
+      "mean_token_accuracy": 0.9812714830040932,
       "step": 1410
     },
     {
       "epoch": 8.252199413489736,
-      "grad_norm": 0.3982183165411704,
+      "grad_norm": 0.3989598961651288,
       "learning_rate": 6.660097174192556e-06,
-      "loss": 0.0674,
-      "mean_token_accuracy": 0.9767892211675644,
+      "loss": 0.056,
+      "mean_token_accuracy": 0.9807810261845589,
       "step": 1411
     },
     {
       "epoch": 8.258064516129032,
-      "grad_norm": 0.24845009306240756,
+      "grad_norm": 0.3749156284590479,
       "learning_rate": 6.642183466722363e-06,
-      "loss": 0.0655,
-      "mean_token_accuracy": 0.9782160073518753,
+      "loss": 0.0565,
+      "mean_token_accuracy": 0.9821376726031303,
       "step": 1412
     },
     {
       "epoch": 8.263929618768328,
-      "grad_norm": 0.25047139942879637,
+      "grad_norm": 0.35702668344077504,
       "learning_rate": 6.624325501923565e-06,
-      "loss": 0.0656,
-      "mean_token_accuracy": 0.9789937734603882,
+      "loss": 0.0563,
+      "mean_token_accuracy": 0.9820006415247917,
       "step": 1413
     },
     {
       "epoch": 8.269794721407624,
-      "grad_norm": 0.3582552285931662,
+      "grad_norm": 0.40663026140935876,
       "learning_rate": 6.606523344613362e-06,
-      "loss": 0.0728,
-      "mean_token_accuracy": 0.974414773285389,
+      "loss": 0.0597,
+      "mean_token_accuracy": 0.9796445891261101,
       "step": 1414
     },
     {
       "epoch": 8.27565982404692,
-      "grad_norm": 0.23281831399691813,
+      "grad_norm": 0.34723841867587746,
       "learning_rate": 6.588777059406397e-06,
-      "loss": 0.0633,
-      "mean_token_accuracy": 0.9821778386831284,
+      "loss": 0.0559,
+      "mean_token_accuracy": 0.9835962206125259,
       "step": 1415
     },
     {
       "epoch": 8.281524926686217,
-      "grad_norm": 0.21783610764412928,
+      "grad_norm": 0.312293892386182,
       "learning_rate": 6.571086710714516e-06,
-      "loss": 0.0523,
-      "mean_token_accuracy": 0.9819829240441322,
+      "loss": 0.0465,
+      "mean_token_accuracy": 0.9838526993989944,
       "step": 1416
     },
     {
       "epoch": 8.287390029325513,
-      "grad_norm": 0.26618761667003027,
+      "grad_norm": 0.3524237439107806,
       "learning_rate": 6.553452362746543e-06,
-      "loss": 0.0688,
-      "mean_token_accuracy": 0.9776479974389076,
+      "loss": 0.0585,
+      "mean_token_accuracy": 0.980175569653511,
       "step": 1417
     },
     {
       "epoch": 8.29325513196481,
-      "grad_norm": 0.3307461688951337,
+      "grad_norm": 0.39261505836168864,
       "learning_rate": 6.5358740795080335e-06,
-      "loss": 0.0753,
-      "mean_token_accuracy": 0.9744124263525009,
+      "loss": 0.0639,
+      "mean_token_accuracy": 0.9783350303769112,
       "step": 1418
     },
     {
       "epoch": 8.299120234604105,
-      "grad_norm": 0.3877945336373047,
+      "grad_norm": 0.4192403382994383,
       "learning_rate": 6.518351924801061e-06,
-      "loss": 0.0712,
-      "mean_token_accuracy": 0.9782202020287514,
+      "loss": 0.0619,
+      "mean_token_accuracy": 0.9807342141866684,
       "step": 1419
     },
     {
       "epoch": 8.304985337243401,
-      "grad_norm": 0.21829692333074224,
+      "grad_norm": 0.28497911177981083,
       "learning_rate": 6.500885962223969e-06,
-      "loss": 0.0588,
-      "mean_token_accuracy": 0.9835516288876534,
+      "loss": 0.0511,
+      "mean_token_accuracy": 0.9853582382202148,
       "step": 1420
     },
     {
       "epoch": 8.310850439882698,
-      "grad_norm": 0.2737695133055407,
+      "grad_norm": 0.3635257303812234,
       "learning_rate": 6.483476255171146e-06,
-      "loss": 0.0726,
-      "mean_token_accuracy": 0.9777635931968689,
+      "loss": 0.0613,
+      "mean_token_accuracy": 0.9806642904877663,
       "step": 1421
     },
     {
       "epoch": 8.316715542521994,
-      "grad_norm": 0.3156742313219525,
+      "grad_norm": 0.3284725590763597,
       "learning_rate": 6.4661228668328015e-06,
-      "loss": 0.0609,
-      "mean_token_accuracy": 0.9810267016291618,
+      "loss": 0.0504,
+      "mean_token_accuracy": 0.9835583493113518,
       "step": 1422
     },
     {
       "epoch": 8.32258064516129,
-      "grad_norm": 0.29043044693215986,
+      "grad_norm": 0.3809611371335918,
       "learning_rate": 6.448825860194722e-06,
-      "loss": 0.0696,
-      "mean_token_accuracy": 0.9785061553120613,
+      "loss": 0.0596,
+      "mean_token_accuracy": 0.9815945476293564,
       "step": 1423
     },
     {
       "epoch": 8.328445747800586,
-      "grad_norm": 0.20232305876185708,
+      "grad_norm": 0.26700828855473413,
       "learning_rate": 6.431585298038057e-06,
-      "loss": 0.0474,
-      "mean_token_accuracy": 0.9857818335294724,
+      "loss": 0.0416,
+      "mean_token_accuracy": 0.9862992838025093,
       "step": 1424
     },
     {
       "epoch": 8.334310850439882,
-      "grad_norm": 0.2604739184613935,
+      "grad_norm": 0.31427705205892353,
       "learning_rate": 6.414401242939087e-06,
-      "loss": 0.0682,
-      "mean_token_accuracy": 0.9787532687187195,
+      "loss": 0.0579,
+      "mean_token_accuracy": 0.9815279394388199,
       "step": 1425
     },
     {
       "epoch": 8.340175953079179,
-      "grad_norm": 0.28996723077653824,
+      "grad_norm": 0.36011252789263,
       "learning_rate": 6.397273757268987e-06,
-      "loss": 0.0619,
-      "mean_token_accuracy": 0.981784000992775,
+      "loss": 0.0508,
+      "mean_token_accuracy": 0.9852896630764008,
       "step": 1426
     },
     {
       "epoch": 8.346041055718475,
-      "grad_norm": 0.2826379503854459,
+      "grad_norm": 0.3739186167424333,
       "learning_rate": 6.380202903193616e-06,
-      "loss": 0.0741,
-      "mean_token_accuracy": 0.9775265082716942,
+      "loss": 0.0626,
+      "mean_token_accuracy": 0.9816398844122887,
       "step": 1427
     },
     {
       "epoch": 8.351906158357771,
-      "grad_norm": 0.3247668563192037,
+      "grad_norm": 0.3711990215340053,
       "learning_rate": 6.363188742673281e-06,
-      "loss": 0.0656,
-      "mean_token_accuracy": 0.978668600320816,
+      "loss": 0.0556,
+      "mean_token_accuracy": 0.9811735600233078,
       "step": 1428
     },
     {
       "epoch": 8.357771260997067,
-      "grad_norm": 0.2769284132122931,
+      "grad_norm": 0.33932075687055624,
       "learning_rate": 6.346231337462513e-06,
-      "loss": 0.0597,
-      "mean_token_accuracy": 0.9785289466381073,
+      "loss": 0.051,
+      "mean_token_accuracy": 0.9825574532151222,
       "step": 1429
     },
     {
       "epoch": 8.363636363636363,
-      "grad_norm": 0.35215981895710224,
+      "grad_norm": 0.44161637530546255,
       "learning_rate": 6.329330749109839e-06,
-      "loss": 0.0798,
-      "mean_token_accuracy": 0.9739778935909271,
+      "loss": 0.0667,
+      "mean_token_accuracy": 0.978769101202488,
       "step": 1430
     },
     {
       "epoch": 8.36950146627566,
-      "grad_norm": 0.2895199872166017,
+      "grad_norm": 0.346684374066376,
       "learning_rate": 6.312487038957573e-06,
-      "loss": 0.0661,
-      "mean_token_accuracy": 0.9788866117596626,
+      "loss": 0.0558,
+      "mean_token_accuracy": 0.9824666082859039,
       "step": 1431
     },
     {
       "epoch": 8.375366568914956,
-      "grad_norm": 0.30231800425923677,
+      "grad_norm": 0.32798515060125477,
       "learning_rate": 6.295700268141579e-06,
-      "loss": 0.0573,
-      "mean_token_accuracy": 0.981073260307312,
+      "loss": 0.0479,
+      "mean_token_accuracy": 0.9828667864203453,
       "step": 1432
     },
     {
       "epoch": 8.381231671554252,
-      "grad_norm": 0.2861524694796837,
+      "grad_norm": 0.3050242296207711,
       "learning_rate": 6.2789704975910574e-06,
-      "loss": 0.0551,
-      "mean_token_accuracy": 0.9809359386563301,
+      "loss": 0.0472,
+      "mean_token_accuracy": 0.9842007234692574,
       "step": 1433
     },
     {
       "epoch": 8.387096774193548,
-      "grad_norm": 0.27965800064820345,
+      "grad_norm": 0.342916785749358,
       "learning_rate": 6.262297788028316e-06,
-      "loss": 0.0576,
-      "mean_token_accuracy": 0.9791011437773705,
+      "loss": 0.0489,
+      "mean_token_accuracy": 0.9815072119235992,
       "step": 1434
     },
     {
       "epoch": 8.392961876832844,
-      "grad_norm": 0.2567178381963598,
+      "grad_norm": 0.36151402107915315,
       "learning_rate": 6.245682199968556e-06,
-      "loss": 0.0666,
-      "mean_token_accuracy": 0.977754257619381,
+      "loss": 0.0568,
+      "mean_token_accuracy": 0.9811645448207855,
       "step": 1435
     },
     {
       "epoch": 8.39882697947214,
-      "grad_norm": 0.252089258921102,
+      "grad_norm": 0.33322534234356715,
       "learning_rate": 6.229123793719656e-06,
-      "loss": 0.0629,
-      "mean_token_accuracy": 0.9788324162364006,
+      "loss": 0.0532,
+      "mean_token_accuracy": 0.9831674918532372,
       "step": 1436
     },
     {
       "epoch": 8.404692082111437,
-      "grad_norm": 0.2498020291209392,
+      "grad_norm": 0.3283361999533351,
       "learning_rate": 6.21262262938194e-06,
-      "loss": 0.0588,
-      "mean_token_accuracy": 0.9818584844470024,
+      "loss": 0.0514,
+      "mean_token_accuracy": 0.9837821051478386,
       "step": 1437
     },
     {
       "epoch": 8.410557184750733,
-      "grad_norm": 0.3067068353713511,
+      "grad_norm": 0.3401690287440309,
       "learning_rate": 6.196178766847969e-06,
-      "loss": 0.0635,
-      "mean_token_accuracy": 0.977524109184742,
+      "loss": 0.0534,
+      "mean_token_accuracy": 0.9818862527608871,
       "step": 1438
     },
     {
       "epoch": 8.416422287390029,
-      "grad_norm": 0.279049594579598,
+      "grad_norm": 0.37528738834672287,
       "learning_rate": 6.1797922658023264e-06,
-      "loss": 0.0748,
-      "mean_token_accuracy": 0.9750313237309456,
+      "loss": 0.0635,
+      "mean_token_accuracy": 0.978727675974369,
       "step": 1439
     },
     {
       "epoch": 8.422287390029325,
-      "grad_norm": 0.2428016087284499,
+      "grad_norm": 0.3149172294095641,
       "learning_rate": 6.16346318572139e-06,
-      "loss": 0.063,
-      "mean_token_accuracy": 0.9801136925816536,
+      "loss": 0.0541,
+      "mean_token_accuracy": 0.9831294119358063,
       "step": 1440
     },
     {
       "epoch": 8.428152492668621,
-      "grad_norm": 0.3642333111467534,
+      "grad_norm": 0.3802962509030587,
       "learning_rate": 6.147191585873128e-06,
-      "loss": 0.0722,
-      "mean_token_accuracy": 0.9765574038028717,
+      "loss": 0.0605,
+      "mean_token_accuracy": 0.981091320514679,
       "step": 1441
     },
     {
       "epoch": 8.434017595307918,
-      "grad_norm": 0.2452302120598073,
+      "grad_norm": 0.325742841513319,
       "learning_rate": 6.130977525316878e-06,
-      "loss": 0.0662,
-      "mean_token_accuracy": 0.9802148938179016,
+      "loss": 0.0567,
+      "mean_token_accuracy": 0.9818108677864075,
       "step": 1442
     },
     {
       "epoch": 8.439882697947214,
-      "grad_norm": 0.23546548291503536,
+      "grad_norm": 0.350918927222633,
       "learning_rate": 6.114821062903125e-06,
-      "loss": 0.0634,
-      "mean_token_accuracy": 0.9796994179487228,
+      "loss": 0.0559,
+      "mean_token_accuracy": 0.9823700860142708,
       "step": 1443
     },
     {
       "epoch": 8.44574780058651,
-      "grad_norm": 0.34248040168779487,
+      "grad_norm": 0.33888867438286,
       "learning_rate": 6.098722257273303e-06,
-      "loss": 0.0627,
-      "mean_token_accuracy": 0.9773654565215111,
+      "loss": 0.054,
+      "mean_token_accuracy": 0.980469599366188,
       "step": 1444
     },
     {
       "epoch": 8.451612903225806,
-      "grad_norm": 0.3267948785376941,
+      "grad_norm": 0.3986416341368361,
       "learning_rate": 6.082681166859579e-06,
-      "loss": 0.074,
-      "mean_token_accuracy": 0.9782762229442596,
+      "loss": 0.0608,
+      "mean_token_accuracy": 0.9823858961462975,
       "step": 1445
     },
     {
       "epoch": 8.457478005865102,
-      "grad_norm": 0.24944133665569335,
+      "grad_norm": 0.3321438872721226,
       "learning_rate": 6.066697849884629e-06,
-      "loss": 0.0678,
-      "mean_token_accuracy": 0.9791956692934036,
+      "loss": 0.0588,
+      "mean_token_accuracy": 0.9816719517111778,
       "step": 1446
     },
     {
       "epoch": 8.463343108504398,
-      "grad_norm": 0.22140226528324586,
+      "grad_norm": 0.29731617560561274,
       "learning_rate": 6.0507723643614415e-06,
-      "loss": 0.0484,
-      "mean_token_accuracy": 0.9839403405785561,
+      "loss": 0.043,
+      "mean_token_accuracy": 0.9855259880423546,
       "step": 1447
     },
     {
       "epoch": 8.469208211143695,
-      "grad_norm": 0.3931794295766522,
+      "grad_norm": 0.3544585856707004,
       "learning_rate": 6.034904768093095e-06,
-      "loss": 0.0651,
-      "mean_token_accuracy": 0.9783346280455589,
+      "loss": 0.0564,
+      "mean_token_accuracy": 0.9806393161416054,
       "step": 1448
     },
     {
       "epoch": 8.47507331378299,
-      "grad_norm": 0.28221103656025875,
+      "grad_norm": 0.3566904543758243,
       "learning_rate": 6.019095118672557e-06,
-      "loss": 0.072,
-      "mean_token_accuracy": 0.9760680794715881,
+      "loss": 0.0607,
+      "mean_token_accuracy": 0.9797836020588875,
       "step": 1449
     },
     {
       "epoch": 8.480938416422287,
-      "grad_norm": 0.35500720339693564,
+      "grad_norm": 0.4011506112780418,
       "learning_rate": 6.003343473482469e-06,
-      "loss": 0.0663,
-      "mean_token_accuracy": 0.9795534163713455,
+      "loss": 0.0561,
+      "mean_token_accuracy": 0.9821067750453949,
       "step": 1450
     },
     {
       "epoch": 8.486803519061583,
-      "grad_norm": 0.44206392730367217,
+      "grad_norm": 0.39239441137933195,
       "learning_rate": 5.98764988969494e-06,
-      "loss": 0.0712,
-      "mean_token_accuracy": 0.9759310409426689,
+      "loss": 0.059,
+      "mean_token_accuracy": 0.9805739000439644,
       "step": 1451
     },
     {
       "epoch": 8.49266862170088,
-      "grad_norm": 0.2884122822560015,
+      "grad_norm": 0.29869881818062005,
       "learning_rate": 5.972014424271344e-06,
-      "loss": 0.0574,
-      "mean_token_accuracy": 0.9818243160843849,
+      "loss": 0.0486,
+      "mean_token_accuracy": 0.9846675246953964,
       "step": 1452
     },
     {
       "epoch": 8.498533724340176,
-      "grad_norm": 0.24169715217818574,
+      "grad_norm": 0.32409437830897814,
       "learning_rate": 5.956437133962103e-06,
-      "loss": 0.064,
-      "mean_token_accuracy": 0.9796706140041351,
+      "loss": 0.0545,
+      "mean_token_accuracy": 0.9832024946808815,
       "step": 1453
     },
     {
       "epoch": 8.504398826979472,
-      "grad_norm": 0.3567541736942327,
+      "grad_norm": 0.44350748801496986,
       "learning_rate": 5.94091807530649e-06,
-      "loss": 0.0676,
-      "mean_token_accuracy": 0.976375125348568,
+      "loss": 0.0573,
+      "mean_token_accuracy": 0.9812595695257187,
       "step": 1454
     },
     {
       "epoch": 8.510263929618768,
-      "grad_norm": 0.2660628076236119,
+      "grad_norm": 0.375249797161884,
       "learning_rate": 5.925457304632421e-06,
-      "loss": 0.068,
-      "mean_token_accuracy": 0.9772655889391899,
+      "loss": 0.0581,
+      "mean_token_accuracy": 0.9809895157814026,
       "step": 1455
     },
     {
       "epoch": 8.516129032258064,
-      "grad_norm": 0.3586723680013531,
+      "grad_norm": 0.3697637091968322,
       "learning_rate": 5.91005487805625e-06,
-      "loss": 0.0781,
-      "mean_token_accuracy": 0.975320614874363,
+      "loss": 0.0626,
+      "mean_token_accuracy": 0.9802481904625893,
       "step": 1456
     },
     {
       "epoch": 8.52199413489736,
-      "grad_norm": 0.2531027806770582,
+      "grad_norm": 0.350870030605446,
       "learning_rate": 5.894710851482563e-06,
-      "loss": 0.0638,
-      "mean_token_accuracy": 0.9815174117684364,
+      "loss": 0.0547,
+      "mean_token_accuracy": 0.9832234531641006,
       "step": 1457
     },
     {
       "epoch": 8.527859237536656,
-      "grad_norm": 0.25474047304957326,
+      "grad_norm": 0.365055384156501,
       "learning_rate": 5.879425280603981e-06,
-      "loss": 0.0663,
-      "mean_token_accuracy": 0.9790660366415977,
+      "loss": 0.0576,
+      "mean_token_accuracy": 0.9823313876986504,
       "step": 1458
     },
     {
       "epoch": 8.533724340175953,
-      "grad_norm": 0.29693469905798703,
+      "grad_norm": 0.3566574779135655,
       "learning_rate": 5.864198220900952e-06,
-      "loss": 0.0593,
-      "mean_token_accuracy": 0.9797492399811745,
+      "loss": 0.0523,
+      "mean_token_accuracy": 0.9819063544273376,
       "step": 1459
     },
     {
       "epoch": 8.539589442815249,
-      "grad_norm": 0.28442650282700044,
+      "grad_norm": 0.36841885684673653,
       "learning_rate": 5.849029727641552e-06,
-      "loss": 0.0645,
-      "mean_token_accuracy": 0.9790033251047134,
+      "loss": 0.0551,
+      "mean_token_accuracy": 0.9813630729913712,
       "step": 1460
     },
     {
       "epoch": 8.545454545454545,
-      "grad_norm": 0.29862524636179977,
+      "grad_norm": 0.3518709497305404,
       "learning_rate": 5.833919855881286e-06,
-      "loss": 0.0687,
-      "mean_token_accuracy": 0.9779817909002304,
+      "loss": 0.0567,
+      "mean_token_accuracy": 0.9804489463567734,
       "step": 1461
     },
     {
       "epoch": 8.551319648093841,
-      "grad_norm": 0.2766831332028397,
+      "grad_norm": 0.3453349736449673,
       "learning_rate": 5.818868660462886e-06,
-      "loss": 0.0615,
-      "mean_token_accuracy": 0.9803951904177666,
+      "loss": 0.0518,
+      "mean_token_accuracy": 0.9826655164361,
       "step": 1462
     },
     {
       "epoch": 8.557184750733137,
-      "grad_norm": 0.23218479374158082,
+      "grad_norm": 0.3147211495267202,
       "learning_rate": 5.803876196016114e-06,
-      "loss": 0.0607,
-      "mean_token_accuracy": 0.9823366180062294,
+      "loss": 0.0525,
+      "mean_token_accuracy": 0.9852809086441994,
       "step": 1463
     },
     {
       "epoch": 8.563049853372434,
-      "grad_norm": 0.2464367593263216,
+      "grad_norm": 0.3292651610864462,
       "learning_rate": 5.788942516957561e-06,
-      "loss": 0.0597,
-      "mean_token_accuracy": 0.9808334708213806,
+      "loss": 0.0521,
+      "mean_token_accuracy": 0.9832091629505157,
       "step": 1464
     },
     {
       "epoch": 8.56891495601173,
-      "grad_norm": 0.30192138899810556,
+      "grad_norm": 0.4001132741069757,
       "learning_rate": 5.774067677490448e-06,
-      "loss": 0.0719,
-      "mean_token_accuracy": 0.9759406819939613,
+      "loss": 0.0609,
+      "mean_token_accuracy": 0.9808182790875435,
       "step": 1465
     },
     {
       "epoch": 8.574780058651026,
-      "grad_norm": 0.3158998321878276,
+      "grad_norm": 0.3394619974830389,
       "learning_rate": 5.759251731604435e-06,
-      "loss": 0.0559,
-      "mean_token_accuracy": 0.9803323373198509,
+      "loss": 0.0483,
+      "mean_token_accuracy": 0.9834600687026978,
       "step": 1466
     },
     {
       "epoch": 8.580645161290322,
-      "grad_norm": 0.31413085082208875,
+      "grad_norm": 0.3843990415825973,
       "learning_rate": 5.744494733075424e-06,
-      "loss": 0.067,
-      "mean_token_accuracy": 0.9777957648038864,
+      "loss": 0.0569,
+      "mean_token_accuracy": 0.9812219887971878,
       "step": 1467
     },
     {
       "epoch": 8.586510263929618,
-      "grad_norm": 0.2555349585045622,
+      "grad_norm": 0.313015761345117,
       "learning_rate": 5.729796735465359e-06,
-      "loss": 0.0647,
-      "mean_token_accuracy": 0.9778914302587509,
+      "loss": 0.0556,
+      "mean_token_accuracy": 0.9805843010544777,
       "step": 1468
     },
     {
       "epoch": 8.592375366568914,
-      "grad_norm": 0.26756135754205695,
+      "grad_norm": 0.397873067980578,
       "learning_rate": 5.7151577921220356e-06,
-      "loss": 0.066,
-      "mean_token_accuracy": 0.9788284227252007,
+      "loss": 0.0565,
+      "mean_token_accuracy": 0.980902798473835,
       "step": 1469
     },
     {
       "epoch": 8.59824046920821,
-      "grad_norm": 0.244072542005457,
+      "grad_norm": 0.2775157728708668,
       "learning_rate": 5.7005779561789046e-06,
-      "loss": 0.0536,
-      "mean_token_accuracy": 0.9816020429134369,
+      "loss": 0.046,
+      "mean_token_accuracy": 0.9848226681351662,
       "step": 1470
     },
     {
       "epoch": 8.604105571847507,
-      "grad_norm": 0.23753259941339863,
+      "grad_norm": 0.32262469073810285,
       "learning_rate": 5.686057280554882e-06,
-      "loss": 0.0588,
-      "mean_token_accuracy": 0.9804639518260956,
+      "loss": 0.0508,
+      "mean_token_accuracy": 0.9834897667169571,
       "step": 1471
     },
     {
       "epoch": 8.609970674486803,
-      "grad_norm": 0.2801786700225434,
+      "grad_norm": 0.3381801962057254,
       "learning_rate": 5.671595817954157e-06,
-      "loss": 0.064,
-      "mean_token_accuracy": 0.9800218939781189,
+      "loss": 0.0549,
+      "mean_token_accuracy": 0.9829668179154396,
       "step": 1472
     },
     {
       "epoch": 8.6158357771261,
-      "grad_norm": 0.2970190736822563,
+      "grad_norm": 0.4125328725756552,
       "learning_rate": 5.657193620865997e-06,
-      "loss": 0.0591,
-      "mean_token_accuracy": 0.9817324727773666,
+      "loss": 0.0539,
+      "mean_token_accuracy": 0.9830298721790314,
       "step": 1473
     },
     {
       "epoch": 8.621700879765395,
-      "grad_norm": 0.36583022561839285,
+      "grad_norm": 0.42397175137698584,
       "learning_rate": 5.642850741564562e-06,
-      "loss": 0.0714,
-      "mean_token_accuracy": 0.9777909740805626,
+      "loss": 0.0597,
+      "mean_token_accuracy": 0.981752060353756,
       "step": 1474
     },
     {
       "epoch": 8.627565982404692,
-      "grad_norm": 0.2688933336929723,
+      "grad_norm": 0.3678506175376002,
       "learning_rate": 5.62856723210871e-06,
-      "loss": 0.0669,
-      "mean_token_accuracy": 0.9783223196864128,
+      "loss": 0.0569,
+      "mean_token_accuracy": 0.9808289110660553,
       "step": 1475
     },
     {
       "epoch": 8.633431085043988,
-      "grad_norm": 0.3036719866897421,
+      "grad_norm": 0.38044929459613297,
       "learning_rate": 5.614343144341814e-06,
-      "loss": 0.07,
-      "mean_token_accuracy": 0.9752448201179504,
+      "loss": 0.0579,
+      "mean_token_accuracy": 0.9798820838332176,
       "step": 1476
     },
     {
       "epoch": 8.639296187683284,
-      "grad_norm": 0.2737493833380235,
+      "grad_norm": 0.3173567806897864,
       "learning_rate": 5.600178529891564e-06,
-      "loss": 0.0581,
-      "mean_token_accuracy": 0.9796081408858299,
+      "loss": 0.0492,
+      "mean_token_accuracy": 0.9839482828974724,
       "step": 1477
     },
     {
       "epoch": 8.64516129032258,
-      "grad_norm": 0.3011765116046612,
+      "grad_norm": 0.39392861788504485,
       "learning_rate": 5.58607344016979e-06,
-      "loss": 0.0761,
-      "mean_token_accuracy": 0.9739836007356644,
+      "loss": 0.0637,
+      "mean_token_accuracy": 0.9784178957343102,
       "step": 1478
     },
     {
       "epoch": 8.651026392961876,
-      "grad_norm": 0.26931220609417367,
+      "grad_norm": 0.3357796568293705,
       "learning_rate": 5.5720279263722795e-06,
-      "loss": 0.0613,
-      "mean_token_accuracy": 0.9778261408209801,
+      "loss": 0.0528,
+      "mean_token_accuracy": 0.981262743473053,
       "step": 1479
     },
     {
       "epoch": 8.656891495601172,
-      "grad_norm": 0.28849384987997934,
+      "grad_norm": 0.3159822158252555,
       "learning_rate": 5.558042039478564e-06,
-      "loss": 0.0604,
-      "mean_token_accuracy": 0.979794979095459,
+      "loss": 0.0514,
+      "mean_token_accuracy": 0.9824788197875023,
       "step": 1480
     },
     {
       "epoch": 8.662756598240469,
-      "grad_norm": 0.4481433032150989,
+      "grad_norm": 0.38617284468702967,
       "learning_rate": 5.544115830251769e-06,
-      "loss": 0.0769,
-      "mean_token_accuracy": 0.9757302552461624,
+      "loss": 0.0626,
+      "mean_token_accuracy": 0.9803685322403908,
       "step": 1481
     },
     {
       "epoch": 8.668621700879765,
-      "grad_norm": 0.24979918369391133,
+      "grad_norm": 0.33796336603448435,
       "learning_rate": 5.530249349238407e-06,
-      "loss": 0.0655,
-      "mean_token_accuracy": 0.9798487946391106,
+      "loss": 0.0559,
+      "mean_token_accuracy": 0.9826963320374489,
       "step": 1482
     },
     {
       "epoch": 8.674486803519061,
-      "grad_norm": 0.41387409378504497,
+      "grad_norm": 0.3953276485009274,
       "learning_rate": 5.516442646768207e-06,
-      "loss": 0.0753,
-      "mean_token_accuracy": 0.973071850836277,
+      "loss": 0.0616,
+      "mean_token_accuracy": 0.9777121841907501,
       "step": 1483
     },
     {
       "epoch": 8.680351906158357,
-      "grad_norm": 0.25828185399248105,
+      "grad_norm": 0.3483816517700947,
       "learning_rate": 5.502695772953922e-06,
-      "loss": 0.0724,
-      "mean_token_accuracy": 0.9765612930059433,
+      "loss": 0.0615,
+      "mean_token_accuracy": 0.979569785296917,
       "step": 1484
     },
     {
       "epoch": 8.686217008797653,
-      "grad_norm": 0.26377515536943485,
+      "grad_norm": 0.3637996842940104,
       "learning_rate": 5.489008777691151e-06,
-      "loss": 0.0633,
-      "mean_token_accuracy": 0.9816120192408562,
+      "loss": 0.0549,
+      "mean_token_accuracy": 0.9833445623517036,
       "step": 1485
     },
     {
       "epoch": 8.69208211143695,
-      "grad_norm": 0.33227377501750116,
+      "grad_norm": 0.354900472955803,
       "learning_rate": 5.475381710658161e-06,
-      "loss": 0.066,
-      "mean_token_accuracy": 0.9787192866206169,
+      "loss": 0.0557,
+      "mean_token_accuracy": 0.9816870614886284,
       "step": 1486
     },
     {
       "epoch": 8.697947214076246,
-      "grad_norm": 0.2817841011781313,
+      "grad_norm": 0.4715464896596745,
       "learning_rate": 5.4618146213157e-06,
-      "loss": 0.0738,
-      "mean_token_accuracy": 0.9738593846559525,
+      "loss": 0.064,
+      "mean_token_accuracy": 0.9779196679592133,
       "step": 1487
     },
     {
       "epoch": 8.703812316715542,
-      "grad_norm": 0.35285024202029736,
+      "grad_norm": 0.34964552430972173,
       "learning_rate": 5.448307558906822e-06,
-      "loss": 0.0704,
-      "mean_token_accuracy": 0.9770059287548065,
+      "loss": 0.059,
+      "mean_token_accuracy": 0.9810210913419724,
       "step": 1488
     },
     {
       "epoch": 8.709677419354838,
-      "grad_norm": 0.2562314555826694,
+      "grad_norm": 0.35199334637919955,
       "learning_rate": 5.434860572456711e-06,
-      "loss": 0.0625,
-      "mean_token_accuracy": 0.9778687655925751,
+      "loss": 0.0532,
+      "mean_token_accuracy": 0.9808976799249649,
       "step": 1489
     },
     {
       "epoch": 8.715542521994134,
-      "grad_norm": 0.2685199038032354,
+      "grad_norm": 0.34772290388116905,
       "learning_rate": 5.421473710772496e-06,
-      "loss": 0.0656,
-      "mean_token_accuracy": 0.9799297451972961,
+      "loss": 0.0574,
+      "mean_token_accuracy": 0.9827618896961212,
       "step": 1490
     },
     {
       "epoch": 8.72140762463343,
-      "grad_norm": 0.23958679172858152,
+      "grad_norm": 0.3152598232442663,
       "learning_rate": 5.408147022443077e-06,
-      "loss": 0.0589,
-      "mean_token_accuracy": 0.9788787066936493,
+      "loss": 0.0509,
+      "mean_token_accuracy": 0.9823957309126854,
       "step": 1491
     },
     {
       "epoch": 8.727272727272727,
-      "grad_norm": 0.37532852839555414,
+      "grad_norm": 0.3297027726384655,
       "learning_rate": 5.39488055583895e-06,
-      "loss": 0.0699,
-      "mean_token_accuracy": 0.9793713614344597,
+      "loss": 0.0581,
+      "mean_token_accuracy": 0.9830864146351814,
       "step": 1492
     },
     {
       "epoch": 8.733137829912023,
-      "grad_norm": 0.30168346493046544,
+      "grad_norm": 0.40568193564006616,
       "learning_rate": 5.3816743591120365e-06,
-      "loss": 0.0652,
-      "mean_token_accuracy": 0.9784124940633774,
+      "loss": 0.0565,
+      "mean_token_accuracy": 0.9806106314063072,
       "step": 1493
     },
     {
       "epoch": 8.739002932551319,
-      "grad_norm": 0.32283133480358384,
+      "grad_norm": 0.33951733127086026,
       "learning_rate": 5.368528480195492e-06,
-      "loss": 0.0686,
-      "mean_token_accuracy": 0.9787509068846703,
+      "loss": 0.0574,
+      "mean_token_accuracy": 0.9826337546110153,
       "step": 1494
     },
     {
       "epoch": 8.744868035190615,
-      "grad_norm": 0.18242889955187325,
+      "grad_norm": 0.27702511846746336,
       "learning_rate": 5.355442966803544e-06,
-      "loss": 0.0514,
-      "mean_token_accuracy": 0.9821577444672585,
+      "loss": 0.0455,
+      "mean_token_accuracy": 0.9840430989861488,
       "step": 1495
     },
     {
       "epoch": 8.750733137829911,
-      "grad_norm": 0.3571788534447416,
+      "grad_norm": 0.37541384151540996,
       "learning_rate": 5.342417866431326e-06,
-      "loss": 0.073,
-      "mean_token_accuracy": 0.9728782624006271,
+      "loss": 0.0607,
+      "mean_token_accuracy": 0.9778427630662918,
       "step": 1496
     },
     {
       "epoch": 8.756598240469208,
-      "grad_norm": 0.32907123108892783,
+      "grad_norm": 0.37394179575858666,
       "learning_rate": 5.329453226354692e-06,
-      "loss": 0.068,
-      "mean_token_accuracy": 0.9787439778447151,
+      "loss": 0.0584,
+      "mean_token_accuracy": 0.9819178581237793,
       "step": 1497
     },
     {
       "epoch": 8.762463343108504,
-      "grad_norm": 0.23510121292718625,
+      "grad_norm": 0.34900072180139713,
       "learning_rate": 5.31654909363005e-06,
-      "loss": 0.0637,
-      "mean_token_accuracy": 0.98048335313797,
+      "loss": 0.055,
+      "mean_token_accuracy": 0.9832709729671478,
       "step": 1498
     },
     {
       "epoch": 8.7683284457478,
-      "grad_norm": 0.3292238101609866,
+      "grad_norm": 0.40720615945503313,
       "learning_rate": 5.303705515094187e-06,
-      "loss": 0.0817,
-      "mean_token_accuracy": 0.9763019159436226,
+      "loss": 0.0674,
+      "mean_token_accuracy": 0.9800705909729004,
       "step": 1499
     },
     {
       "epoch": 8.774193548387096,
-      "grad_norm": 0.31772186010158904,
+      "grad_norm": 0.419760149260306,
       "learning_rate": 5.290922537364109e-06,
-      "loss": 0.0784,
-      "mean_token_accuracy": 0.9719724953174591,
+      "loss": 0.0663,
+      "mean_token_accuracy": 0.9766133427619934,
       "step": 1500
     },
     {
       "epoch": 8.780058651026392,
-      "grad_norm": 0.43601699445852304,
+      "grad_norm": 0.3368715613053454,
       "learning_rate": 5.278200206836861e-06,
-      "loss": 0.0697,
-      "mean_token_accuracy": 0.9765214696526527,
+      "loss": 0.0578,
+      "mean_token_accuracy": 0.9801322594285011,
       "step": 1501
     },
     {
       "epoch": 8.785923753665688,
-      "grad_norm": 0.24631726988703956,
+      "grad_norm": 0.3759270192655754,
       "learning_rate": 5.265538569689365e-06,
-      "loss": 0.0614,
-      "mean_token_accuracy": 0.9786100387573242,
+      "loss": 0.0546,
+      "mean_token_accuracy": 0.9813186898827553,
       "step": 1502
     },
     {
       "epoch": 8.791788856304985,
-      "grad_norm": 0.23348947782863988,
+      "grad_norm": 0.3253811690531697,
       "learning_rate": 5.25293767187825e-06,
-      "loss": 0.0599,
-      "mean_token_accuracy": 0.9810864999890327,
+      "loss": 0.0521,
+      "mean_token_accuracy": 0.9838348925113678,
       "step": 1503
     },
     {
       "epoch": 8.79765395894428,
-      "grad_norm": 0.3059628956328224,
+      "grad_norm": 0.40681946489582455,
       "learning_rate": 5.240397559139685e-06,
-      "loss": 0.07,
-      "mean_token_accuracy": 0.9774987623095512,
+      "loss": 0.0582,
+      "mean_token_accuracy": 0.9799980223178864,
       "step": 1504
     },
     {
       "epoch": 8.803519061583577,
-      "grad_norm": 0.2271743851090028,
+      "grad_norm": 0.3113077584917748,
       "learning_rate": 5.227918276989215e-06,
-      "loss": 0.0613,
-      "mean_token_accuracy": 0.9777540266513824,
+      "loss": 0.0542,
+      "mean_token_accuracy": 0.9809886813163757,
       "step": 1505
     },
     {
       "epoch": 8.809384164222873,
-      "grad_norm": 0.24351844409606843,
+      "grad_norm": 0.31490285722753797,
       "learning_rate": 5.2154998707215976e-06,
-      "loss": 0.0626,
-      "mean_token_accuracy": 0.9778146594762802,
+      "loss": 0.0537,
+      "mean_token_accuracy": 0.9806480631232262,
       "step": 1506
     },
     {
       "epoch": 8.81524926686217,
-      "grad_norm": 0.32814994186809865,
+      "grad_norm": 0.3335702216609551,
       "learning_rate": 5.203142385410628e-06,
-      "loss": 0.06,
-      "mean_token_accuracy": 0.9819656610488892,
+      "loss": 0.0524,
+      "mean_token_accuracy": 0.9840300157666206,
       "step": 1507
     },
     {
       "epoch": 8.821114369501466,
-      "grad_norm": 0.24451284850690339,
+      "grad_norm": 0.4849332504235522,
       "learning_rate": 5.190845865908987e-06,
-      "loss": 0.0597,
-      "mean_token_accuracy": 0.9768688082695007,
+      "loss": 0.0528,
+      "mean_token_accuracy": 0.9802124425768852,
       "step": 1508
     },
     {
       "epoch": 8.826979472140762,
-      "grad_norm": 0.35278726245532943,
+      "grad_norm": 0.3769541452912475,
       "learning_rate": 5.178610356848075e-06,
-      "loss": 0.0667,
-      "mean_token_accuracy": 0.977623425424099,
+      "loss": 0.0567,
+      "mean_token_accuracy": 0.9822128117084503,
       "step": 1509
     },
     {
       "epoch": 8.832844574780058,
-      "grad_norm": 0.26703275114310665,
+      "grad_norm": 0.37508843809475206,
       "learning_rate": 5.166435902637848e-06,
-      "loss": 0.0577,
-      "mean_token_accuracy": 0.9784714952111244,
+      "loss": 0.0517,
+      "mean_token_accuracy": 0.9822444394230843,
       "step": 1510
     },
     {
       "epoch": 8.838709677419354,
-      "grad_norm": 0.248994392474072,
+      "grad_norm": 0.3221405938386644,
       "learning_rate": 5.154322547466658e-06,
-      "loss": 0.0606,
-      "mean_token_accuracy": 0.9805686995387077,
+      "loss": 0.0517,
+      "mean_token_accuracy": 0.9838709086179733,
       "step": 1511
     },
     {
       "epoch": 8.84457478005865,
-      "grad_norm": 0.2515813584107477,
+      "grad_norm": 0.3561073312103975,
       "learning_rate": 5.142270335301095e-06,
-      "loss": 0.0598,
-      "mean_token_accuracy": 0.9793656393885612,
+      "loss": 0.0517,
+      "mean_token_accuracy": 0.9825182780623436,
       "step": 1512
     },
     {
       "epoch": 8.850439882697946,
-      "grad_norm": 0.2800317772193338,
+      "grad_norm": 0.34042481371976013,
       "learning_rate": 5.130279309885817e-06,
-      "loss": 0.0611,
-      "mean_token_accuracy": 0.9782811179757118,
+      "loss": 0.0527,
+      "mean_token_accuracy": 0.9820515289902687,
       "step": 1513
     },
     {
       "epoch": 8.856304985337243,
-      "grad_norm": 0.3103625834439301,
+      "grad_norm": 0.4953533693345446,
       "learning_rate": 5.118349514743404e-06,
-      "loss": 0.0761,
-      "mean_token_accuracy": 0.9753215909004211,
+      "loss": 0.064,
+      "mean_token_accuracy": 0.979572020471096,
       "step": 1514
     },
     {
       "epoch": 8.862170087976539,
-      "grad_norm": 0.3526394713823649,
+      "grad_norm": 0.45447927852562464,
       "learning_rate": 5.1064809931741975e-06,
-      "loss": 0.08,
-      "mean_token_accuracy": 0.9744403213262558,
+      "loss": 0.0669,
+      "mean_token_accuracy": 0.9793067052960396,
       "step": 1515
     },
     {
       "epoch": 8.868035190615835,
-      "grad_norm": 0.2560684899292793,
+      "grad_norm": 0.31567146504603205,
       "learning_rate": 5.094673788256137e-06,
-      "loss": 0.0603,
-      "mean_token_accuracy": 0.9820585176348686,
+      "loss": 0.0519,
+      "mean_token_accuracy": 0.9847134873270988,
       "step": 1516
     },
     {
       "epoch": 8.873900293255131,
-      "grad_norm": 0.29971977388113474,
+      "grad_norm": 0.41749467992256695,
       "learning_rate": 5.082927942844603e-06,
-      "loss": 0.0725,
-      "mean_token_accuracy": 0.9782021939754486,
+      "loss": 0.062,
+      "mean_token_accuracy": 0.9803328365087509,
       "step": 1517
     },
     {
       "epoch": 8.879765395894427,
-      "grad_norm": 0.2637842941875261,
+      "grad_norm": 0.3155755372513205,
       "learning_rate": 5.0712434995722734e-06,
-      "loss": 0.0655,
-      "mean_token_accuracy": 0.9771728515625,
+      "loss": 0.056,
+      "mean_token_accuracy": 0.9794782549142838,
       "step": 1518
     },
     {
       "epoch": 8.885630498533724,
-      "grad_norm": 0.314860671900927,
+      "grad_norm": 0.38709916701582664,
       "learning_rate": 5.059620500848964e-06,
-      "loss": 0.067,
-      "mean_token_accuracy": 0.9802365675568581,
+      "loss": 0.057,
+      "mean_token_accuracy": 0.9829104915261269,
       "step": 1519
     },
     {
       "epoch": 8.89149560117302,
-      "grad_norm": 0.2764897492165904,
+      "grad_norm": 0.35821044241742506,
       "learning_rate": 5.048058988861455e-06,
-      "loss": 0.066,
-      "mean_token_accuracy": 0.9786038100719452,
+      "loss": 0.0562,
+      "mean_token_accuracy": 0.9820261895656586,
       "step": 1520
     },
     {
       "epoch": 8.897360703812316,
-      "grad_norm": 0.22492681630529185,
+      "grad_norm": 0.3115758973353694,
       "learning_rate": 5.0365590055733715e-06,
-      "loss": 0.0603,
-      "mean_token_accuracy": 0.9813904538750648,
+      "loss": 0.0525,
+      "mean_token_accuracy": 0.9838507696986198,
       "step": 1521
     },
     {
       "epoch": 8.903225806451612,
-      "grad_norm": 0.3147598263869332,
+      "grad_norm": 0.399494434274281,
       "learning_rate": 5.025120592725009e-06,
-      "loss": 0.0735,
-      "mean_token_accuracy": 0.9776310920715332,
+      "loss": 0.0622,
+      "mean_token_accuracy": 0.980305053293705,
       "step": 1522
     },
     {
       "epoch": 8.909090909090908,
-      "grad_norm": 0.34074469808815616,
+      "grad_norm": 0.38255414855046266,
       "learning_rate": 5.013743791833187e-06,
-      "loss": 0.0694,
-      "mean_token_accuracy": 0.979078084230423,
+      "loss": 0.0581,
+      "mean_token_accuracy": 0.9823561608791351,
       "step": 1523
     },
     {
       "epoch": 8.914956011730204,
-      "grad_norm": 0.26152297778605377,
+      "grad_norm": 0.3281961203877841,
       "learning_rate": 5.002428644191094e-06,
-      "loss": 0.0648,
-      "mean_token_accuracy": 0.9802012667059898,
+      "loss": 0.0557,
+      "mean_token_accuracy": 0.9815320670604706,
       "step": 1524
     },
     {
       "epoch": 8.9208211143695,
-      "grad_norm": 0.2578124682100099,
+      "grad_norm": 0.3245875923187815,
       "learning_rate": 4.991175190868148e-06,
-      "loss": 0.0684,
-      "mean_token_accuracy": 0.9790066555142403,
+      "loss": 0.0573,
+      "mean_token_accuracy": 0.9829541444778442,
       "step": 1525
     },
     {
       "epoch": 8.926686217008797,
-      "grad_norm": 0.2376683233781485,
+      "grad_norm": 0.3390424334484287,
       "learning_rate": 4.9799834727098415e-06,
-      "loss": 0.0576,
-      "mean_token_accuracy": 0.9810256138443947,
+      "loss": 0.0501,
+      "mean_token_accuracy": 0.9831917360424995,
       "step": 1526
     },
     {
       "epoch": 8.932551319648093,
-      "grad_norm": 0.28798216028853235,
+      "grad_norm": 0.3645654304118876,
       "learning_rate": 4.968853530337587e-06,
-      "loss": 0.0679,
-      "mean_token_accuracy": 0.9783130586147308,
+      "loss": 0.0584,
+      "mean_token_accuracy": 0.9815365374088287,
       "step": 1527
     },
     {
       "epoch": 8.93841642228739,
-      "grad_norm": 0.21284234625947226,
+      "grad_norm": 0.29681078383119797,
       "learning_rate": 4.957785404148585e-06,
-      "loss": 0.0564,
-      "mean_token_accuracy": 0.9768381863832474,
+      "loss": 0.0487,
+      "mean_token_accuracy": 0.9808258190751076,
       "step": 1528
     },
     {
       "epoch": 8.944281524926687,
-      "grad_norm": 0.28902188952693547,
+      "grad_norm": 0.3672868154121987,
       "learning_rate": 4.946779134315662e-06,
-      "loss": 0.0715,
-      "mean_token_accuracy": 0.9778866022825241,
+      "loss": 0.0609,
+      "mean_token_accuracy": 0.9804074466228485,
       "step": 1529
     },
     {
       "epoch": 8.950146627565982,
-      "grad_norm": 0.24256775933774233,
+      "grad_norm": 0.42562270878531583,
       "learning_rate": 4.935834760787133e-06,
-      "loss": 0.0648,
-      "mean_token_accuracy": 0.9800405576825142,
+      "loss": 0.0588,
+      "mean_token_accuracy": 0.9829668998718262,
       "step": 1530
     },
     {
       "epoch": 8.95601173020528,
-      "grad_norm": 0.2761848112737178,
+      "grad_norm": 0.3675536193118254,
       "learning_rate": 4.924952323286651e-06,
-      "loss": 0.0657,
-      "mean_token_accuracy": 0.9786167815327644,
+      "loss": 0.0561,
+      "mean_token_accuracy": 0.9807698279619217,
       "step": 1531
     },
     {
       "epoch": 8.961876832844574,
-      "grad_norm": 0.29420548049004036,
+      "grad_norm": 0.36281675499172533,
       "learning_rate": 4.91413186131307e-06,
-      "loss": 0.0668,
-      "mean_token_accuracy": 0.979533426463604,
+      "loss": 0.0566,
+      "mean_token_accuracy": 0.9821875244379044,
       "step": 1532
     },
     {
       "epoch": 8.967741935483872,
-      "grad_norm": 0.26436955721941907,
+      "grad_norm": 0.34587044361172914,
       "learning_rate": 4.9033734141402964e-06,
-      "loss": 0.0671,
-      "mean_token_accuracy": 0.9764868766069412,
+      "loss": 0.0571,
+      "mean_token_accuracy": 0.9813329204916954,
       "step": 1533
     },
     {
       "epoch": 8.973607038123166,
-      "grad_norm": 0.2454668416645823,
+      "grad_norm": 0.32779198026920486,
       "learning_rate": 4.892677020817151e-06,
-      "loss": 0.0626,
-      "mean_token_accuracy": 0.9776885583996773,
+      "loss": 0.0545,
+      "mean_token_accuracy": 0.9812613651156425,
       "step": 1534
     },
     {
       "epoch": 8.979472140762464,
-      "grad_norm": 0.274662605031312,
+      "grad_norm": 0.372802439575984,
       "learning_rate": 4.8820427201672195e-06,
-      "loss": 0.0657,
-      "mean_token_accuracy": 0.9772161841392517,
+      "loss": 0.0563,
+      "mean_token_accuracy": 0.9804784283041954,
       "step": 1535
     },
     {
       "epoch": 8.985337243401759,
-      "grad_norm": 0.46063707991159386,
+      "grad_norm": 0.41235127004454536,
       "learning_rate": 4.871470550788717e-06,
-      "loss": 0.0773,
-      "mean_token_accuracy": 0.9726253524422646,
+      "loss": 0.063,
+      "mean_token_accuracy": 0.9769391268491745,
       "step": 1536
     },
     {
       "epoch": 8.991202346041057,
-      "grad_norm": 0.2598327356469058,
+      "grad_norm": 0.35330775445880935,
       "learning_rate": 4.860960551054352e-06,
-      "loss": 0.0663,
-      "mean_token_accuracy": 0.9794004708528519,
+      "loss": 0.0576,
+      "mean_token_accuracy": 0.9815262779593468,
       "step": 1537
     },
     {
       "epoch": 8.997067448680351,
-      "grad_norm": 0.22718132289500315,
+      "grad_norm": 0.3310851925728053,
       "learning_rate": 4.850512759111177e-06,
-      "loss": 0.0649,
-      "mean_token_accuracy": 0.9775163903832436,
+      "loss": 0.0554,
+      "mean_token_accuracy": 0.9816920757293701,
       "step": 1538
     },
     {
       "epoch": 9.0,
-      "grad_norm": 0.22718132289500315,
+      "grad_norm": 0.3310851925728053,
       "learning_rate": 4.840127212880457e-06,
-      "loss": 0.0574,
-      "mean_token_accuracy": 0.9819877296686172,
+      "loss": 0.0489,
+      "mean_token_accuracy": 0.9838157296180725,
       "step": 1539
     },
     {
       "epoch": 9.005865102639296,
-      "grad_norm": 0.3373449133841611,
+      "grad_norm": 0.4652301353877543,
       "learning_rate": 4.82980395005753e-06,
-      "loss": 0.0627,
-      "mean_token_accuracy": 0.9807324483990669,
+      "loss": 0.0539,
+      "mean_token_accuracy": 0.9824711456894875,
       "step": 1540
     },
     {
       "epoch": 9.011730205278592,
-      "grad_norm": 0.2660171293852756,
+      "grad_norm": 0.3871394835094803,
       "learning_rate": 4.8195430081116715e-06,
-      "loss": 0.0652,
-      "mean_token_accuracy": 0.9796838536858559,
+      "loss": 0.0566,
+      "mean_token_accuracy": 0.9818312674760818,
       "step": 1541
     },
     {
       "epoch": 9.017595307917889,
-      "grad_norm": 0.22636028477722886,
+      "grad_norm": 0.34228612380666135,
       "learning_rate": 4.809344424285959e-06,
-      "loss": 0.0533,
-      "mean_token_accuracy": 0.9821007177233696,
+      "loss": 0.0467,
+      "mean_token_accuracy": 0.9852696433663368,
       "step": 1542
     },
     {
       "epoch": 9.023460410557185,
-      "grad_norm": 0.26586548560149015,
+      "grad_norm": 0.3733639316356061,
       "learning_rate": 4.799208235597129e-06,
-      "loss": 0.0677,
-      "mean_token_accuracy": 0.9777081608772278,
+      "loss": 0.0579,
+      "mean_token_accuracy": 0.9798446521162987,
       "step": 1543
     },
     {
       "epoch": 9.029325513196481,
-      "grad_norm": 0.2777149628567429,
+      "grad_norm": 0.37824565482765427,
       "learning_rate": 4.7891344788354535e-06,
-      "loss": 0.0635,
-      "mean_token_accuracy": 0.9795635268092155,
+      "loss": 0.0546,
+      "mean_token_accuracy": 0.9813016727566719,
       "step": 1544
     },
     {
       "epoch": 9.035190615835777,
-      "grad_norm": 0.3049973622375955,
+      "grad_norm": 0.3711710253715166,
       "learning_rate": 4.779123190564601e-06,
-      "loss": 0.0726,
-      "mean_token_accuracy": 0.9791153743863106,
+      "loss": 0.0615,
+      "mean_token_accuracy": 0.9825925230979919,
       "step": 1545
     },
     {
       "epoch": 9.041055718475073,
-      "grad_norm": 0.2593981713494098,
+      "grad_norm": 0.363510890139849,
       "learning_rate": 4.769174407121508e-06,
-      "loss": 0.0592,
-      "mean_token_accuracy": 0.9796656146645546,
+      "loss": 0.0514,
+      "mean_token_accuracy": 0.982509970664978,
       "step": 1546
     },
     {
       "epoch": 9.04692082111437,
-      "grad_norm": 0.2288825869864337,
+      "grad_norm": 0.3243226197829895,
       "learning_rate": 4.7592881646162336e-06,
-      "loss": 0.0728,
-      "mean_token_accuracy": 0.9769270122051239,
+      "loss": 0.0623,
+      "mean_token_accuracy": 0.9804322570562363,
       "step": 1547
     },
     {
       "epoch": 9.052785923753666,
-      "grad_norm": 0.28065390101886106,
+      "grad_norm": 0.3894419167340949,
       "learning_rate": 4.749464498931852e-06,
-      "loss": 0.0512,
-      "mean_token_accuracy": 0.9819205701351166,
+      "loss": 0.0456,
+      "mean_token_accuracy": 0.9836910218000412,
       "step": 1548
     },
     {
       "epoch": 9.058651026392962,
-      "grad_norm": 0.23404322036009262,
+      "grad_norm": 0.3150320531942675,
       "learning_rate": 4.739703445724296e-06,
-      "loss": 0.0628,
-      "mean_token_accuracy": 0.9835373759269714,
+      "loss": 0.0538,
+      "mean_token_accuracy": 0.9851875305175781,
       "step": 1549
     },
     {
       "epoch": 9.064516129032258,
-      "grad_norm": 0.2359254198323517,
+      "grad_norm": 0.32325587902059943,
       "learning_rate": 4.730005040422253e-06,
-      "loss": 0.0562,
-      "mean_token_accuracy": 0.9820079058408737,
+      "loss": 0.0491,
+      "mean_token_accuracy": 0.9839693009853363,
       "step": 1550
     },
     {
       "epoch": 9.070381231671554,
-      "grad_norm": 0.251373443947105,
+      "grad_norm": 0.33343639062744773,
       "learning_rate": 4.720369318227014e-06,
-      "loss": 0.0562,
-      "mean_token_accuracy": 0.9808452799916267,
+      "loss": 0.049,
+      "mean_token_accuracy": 0.9838002175092697,
       "step": 1551
     },
     {
       "epoch": 9.07624633431085,
-      "grad_norm": 0.28719476489184603,
+      "grad_norm": 0.3335968019145587,
       "learning_rate": 4.710796314112358e-06,
-      "loss": 0.0619,
-      "mean_token_accuracy": 0.9796859174966812,
+      "loss": 0.0527,
+      "mean_token_accuracy": 0.9830645993351936,
       "step": 1552
     },
     {
       "epoch": 9.082111436950147,
-      "grad_norm": 0.2642294407118322,
+      "grad_norm": 0.35686275798991973,
       "learning_rate": 4.701286062824425e-06,
-      "loss": 0.0582,
-      "mean_token_accuracy": 0.9804991409182549,
+      "loss": 0.0507,
+      "mean_token_accuracy": 0.9826326817274094,
       "step": 1553
     },
     {
       "epoch": 9.087976539589443,
-      "grad_norm": 0.2775262974710003,
+      "grad_norm": 0.39345801699794963,
       "learning_rate": 4.691838598881587e-06,
-      "loss": 0.064,
-      "mean_token_accuracy": 0.9793780148029327,
+      "loss": 0.0547,
+      "mean_token_accuracy": 0.9825649484992027,
       "step": 1554
     },
     {
       "epoch": 9.093841642228739,
-      "grad_norm": 0.2170466478297633,
+      "grad_norm": 0.3179764795801783,
       "learning_rate": 4.68245395657432e-06,
-      "loss": 0.0591,
-      "mean_token_accuracy": 0.9822722375392914,
+      "loss": 0.0518,
+      "mean_token_accuracy": 0.9854598566889763,
       "step": 1555
     },
     {
       "epoch": 9.099706744868035,
-      "grad_norm": 0.22836245350689496,
+      "grad_norm": 0.3236361805001554,
       "learning_rate": 4.673132169965089e-06,
-      "loss": 0.058,
-      "mean_token_accuracy": 0.9818886816501617,
+      "loss": 0.0509,
+      "mean_token_accuracy": 0.9836238846182823,
       "step": 1556
     },
     {
       "epoch": 9.105571847507331,
-      "grad_norm": 0.20963749864182238,
+      "grad_norm": 0.30731096453465834,
       "learning_rate": 4.663873272888212e-06,
-      "loss": 0.0539,
-      "mean_token_accuracy": 0.9836770445108414,
+      "loss": 0.0474,
+      "mean_token_accuracy": 0.986683115363121,
       "step": 1557
     },
     {
       "epoch": 9.111436950146627,
-      "grad_norm": 0.21765369676261487,
+      "grad_norm": 0.306870446012294,
       "learning_rate": 4.654677298949746e-06,
-      "loss": 0.0598,
-      "mean_token_accuracy": 0.9772438853979111,
+      "loss": 0.0514,
+      "mean_token_accuracy": 0.9820300340652466,
       "step": 1558
     },
     {
       "epoch": 9.117302052785924,
-      "grad_norm": 0.22920276916129523,
+      "grad_norm": 0.3221981747722701,
       "learning_rate": 4.645544281527362e-06,
-      "loss": 0.0584,
-      "mean_token_accuracy": 0.9798052459955215,
+      "loss": 0.0506,
+      "mean_token_accuracy": 0.9824572280049324,
       "step": 1559
     },
     {
       "epoch": 9.12316715542522,
-      "grad_norm": 0.2248070439208056,
+      "grad_norm": 0.30207536729210593,
       "learning_rate": 4.636474253770226e-06,
-      "loss": 0.0512,
-      "mean_token_accuracy": 0.9813929721713066,
+      "loss": 0.0453,
+      "mean_token_accuracy": 0.9838585555553436,
       "step": 1560
     },
     {
       "epoch": 9.129032258064516,
-      "grad_norm": 0.23392902750221167,
+      "grad_norm": 0.3241825961068261,
       "learning_rate": 4.627467248598876e-06,
-      "loss": 0.0608,
-      "mean_token_accuracy": 0.9810582026839256,
+      "loss": 0.0524,
+      "mean_token_accuracy": 0.9826252236962318,
       "step": 1561
     },
     {
       "epoch": 9.134897360703812,
-      "grad_norm": 0.35068933786793133,
+      "grad_norm": 0.3384107887549902,
       "learning_rate": 4.618523298705101e-06,
-      "loss": 0.0607,
-      "mean_token_accuracy": 0.9805464595556259,
+      "loss": 0.0512,
+      "mean_token_accuracy": 0.9828469306230545,
       "step": 1562
     },
     {
       "epoch": 9.140762463343108,
-      "grad_norm": 0.2639000982065526,
+      "grad_norm": 0.3418975656638684,
       "learning_rate": 4.609642436551828e-06,
-      "loss": 0.0598,
-      "mean_token_accuracy": 0.9803919643163681,
+      "loss": 0.0503,
+      "mean_token_accuracy": 0.9833681285381317,
       "step": 1563
     },
     {
       "epoch": 9.146627565982405,
-      "grad_norm": 0.23878300312488335,
+      "grad_norm": 0.3144109232730043,
       "learning_rate": 4.600824694373e-06,
-      "loss": 0.0547,
-      "mean_token_accuracy": 0.983349584043026,
+      "loss": 0.0476,
+      "mean_token_accuracy": 0.9852636978030205,
       "step": 1564
     },
     {
       "epoch": 9.1524926686217,
-      "grad_norm": 0.245763989099376,
+      "grad_norm": 0.34715116832048837,
       "learning_rate": 4.592070104173461e-06,
-      "loss": 0.0577,
-      "mean_token_accuracy": 0.9818849116563797,
+      "loss": 0.0502,
+      "mean_token_accuracy": 0.9837682098150253,
       "step": 1565
     },
     {
       "epoch": 9.158357771260997,
-      "grad_norm": 0.23279489695026834,
+      "grad_norm": 0.32008000943713794,
       "learning_rate": 4.583378697728835e-06,
-      "loss": 0.0607,
-      "mean_token_accuracy": 0.979814425110817,
+      "loss": 0.0523,
+      "mean_token_accuracy": 0.9823531731963158,
       "step": 1566
     },
     {
       "epoch": 9.164222873900293,
-      "grad_norm": 0.2356722070822205,
+      "grad_norm": 0.3357093036143234,
       "learning_rate": 4.574750506585419e-06,
-      "loss": 0.0548,
-      "mean_token_accuracy": 0.9795899465680122,
+      "loss": 0.0478,
+      "mean_token_accuracy": 0.982313483953476,
       "step": 1567
     },
     {
       "epoch": 9.17008797653959,
-      "grad_norm": 0.3100951878952791,
+      "grad_norm": 0.35978845877064625,
       "learning_rate": 4.566185562060062e-06,
-      "loss": 0.0645,
-      "mean_token_accuracy": 0.9785728603601456,
+      "loss": 0.0562,
+      "mean_token_accuracy": 0.9809844046831131,
       "step": 1568
     },
     {
       "epoch": 9.175953079178885,
-      "grad_norm": 0.23758456109764423,
+      "grad_norm": 0.33646551155384047,
       "learning_rate": 4.557683895240052e-06,
-      "loss": 0.0715,
-      "mean_token_accuracy": 0.9810535088181496,
+      "loss": 0.0552,
+      "mean_token_accuracy": 0.9836227148771286,
       "step": 1569
     },
     {
       "epoch": 9.181818181818182,
-      "grad_norm": 0.397590962919886,
+      "grad_norm": 0.4084517717867541,
       "learning_rate": 4.549245536983009e-06,
-      "loss": 0.0605,
-      "mean_token_accuracy": 0.9803250953555107,
+      "loss": 0.0523,
+      "mean_token_accuracy": 0.9832220077514648,
       "step": 1570
     },
     {
       "epoch": 9.187683284457478,
-      "grad_norm": 0.2709295526230137,
+      "grad_norm": 0.3800460400014487,
       "learning_rate": 4.540870517916765e-06,
-      "loss": 0.0604,
-      "mean_token_accuracy": 0.9819755181670189,
+      "loss": 0.0515,
+      "mean_token_accuracy": 0.9843539819121361,
       "step": 1571
     },
     {
       "epoch": 9.193548387096774,
-      "grad_norm": 0.26365206186856915,
+      "grad_norm": 0.3875506291047543,
       "learning_rate": 4.532558868439249e-06,
-      "loss": 0.0625,
-      "mean_token_accuracy": 0.9806329160928726,
+      "loss": 0.0538,
+      "mean_token_accuracy": 0.9836299493908882,
       "step": 1572
     },
     {
       "epoch": 9.19941348973607,
-      "grad_norm": 0.23180936574802335,
+      "grad_norm": 0.3339053484134062,
       "learning_rate": 4.524310618718403e-06,
-      "loss": 0.0584,
-      "mean_token_accuracy": 0.9812423959374428,
+      "loss": 0.0506,
+      "mean_token_accuracy": 0.9838271215558052,
       "step": 1573
     },
     {
       "epoch": 9.205278592375366,
-      "grad_norm": 0.2479537384786009,
+      "grad_norm": 0.3442412710070444,
       "learning_rate": 4.516125798692037e-06,
-      "loss": 0.0602,
-      "mean_token_accuracy": 0.9807397574186325,
+      "loss": 0.052,
+      "mean_token_accuracy": 0.983096070587635,
       "step": 1574
     },
     {
       "epoch": 9.211143695014663,
-      "grad_norm": 0.2703042461210012,
+      "grad_norm": 0.3751785309738875,
       "learning_rate": 4.508004438067742e-06,
-      "loss": 0.0654,
-      "mean_token_accuracy": 0.9777510985732079,
+      "loss": 0.0556,
+      "mean_token_accuracy": 0.9821300804615021,
       "step": 1575
     },
     {
       "epoch": 9.217008797653959,
-      "grad_norm": 0.24641143582704136,
+      "grad_norm": 0.3431266472138059,
       "learning_rate": 4.4999465663227785e-06,
-      "loss": 0.055,
-      "mean_token_accuracy": 0.9833300933241844,
+      "loss": 0.0487,
+      "mean_token_accuracy": 0.9844409078359604,
       "step": 1576
     },
     {
       "epoch": 9.222873900293255,
-      "grad_norm": 0.3188227218692964,
+      "grad_norm": 0.31684104303608773,
       "learning_rate": 4.491952212703964e-06,
-      "loss": 0.0627,
-      "mean_token_accuracy": 0.9781920313835144,
+      "loss": 0.0522,
+      "mean_token_accuracy": 0.9832335263490677,
       "step": 1577
     },
     {
       "epoch": 9.228739002932551,
-      "grad_norm": 0.24287084230549283,
+      "grad_norm": 0.3484048489842224,
       "learning_rate": 4.484021406227576e-06,
-      "loss": 0.0672,
-      "mean_token_accuracy": 0.9793609604239464,
+      "loss": 0.0521,
+      "mean_token_accuracy": 0.9830200746655464,
       "step": 1578
     },
     {
       "epoch": 9.234604105571847,
-      "grad_norm": 0.5712888100286926,
+      "grad_norm": 0.37348106814548215,
       "learning_rate": 4.476154175679239e-06,
-      "loss": 0.0651,
-      "mean_token_accuracy": 0.9787584096193314,
+      "loss": 0.0566,
+      "mean_token_accuracy": 0.9807815030217171,
       "step": 1579
     },
     {
       "epoch": 9.240469208211143,
-      "grad_norm": 0.24728813746312206,
+      "grad_norm": 0.3465806459457609,
       "learning_rate": 4.468350549613822e-06,
-      "loss": 0.0518,
-      "mean_token_accuracy": 0.9819226488471031,
+      "loss": 0.0449,
+      "mean_token_accuracy": 0.9852471351623535,
       "step": 1580
     },
     {
       "epoch": 9.24633431085044,
-      "grad_norm": 0.31373054201391787,
+      "grad_norm": 0.3801664719699823,
       "learning_rate": 4.460610556355333e-06,
-      "loss": 0.0667,
-      "mean_token_accuracy": 0.9764752313494682,
+      "loss": 0.0576,
+      "mean_token_accuracy": 0.9800804182887077,
       "step": 1581
     },
     {
       "epoch": 9.252199413489736,
-      "grad_norm": 0.2385955767542648,
+      "grad_norm": 0.3195371027598601,
       "learning_rate": 4.452934223996824e-06,
-      "loss": 0.0551,
-      "mean_token_accuracy": 0.982081227004528,
+      "loss": 0.0483,
+      "mean_token_accuracy": 0.9841778427362442,
       "step": 1582
     },
     {
       "epoch": 9.258064516129032,
-      "grad_norm": 0.22005978869984863,
+      "grad_norm": 0.31523364079250155,
       "learning_rate": 4.445321580400281e-06,
-      "loss": 0.0577,
-      "mean_token_accuracy": 0.9792909696698189,
+      "loss": 0.0504,
+      "mean_token_accuracy": 0.9817590713500977,
       "step": 1583
     },
     {
       "epoch": 9.263929618768328,
-      "grad_norm": 0.24484280057621527,
+      "grad_norm": 0.34571299346795814,
       "learning_rate": 4.437772653196527e-06,
-      "loss": 0.064,
-      "mean_token_accuracy": 0.9810920730233192,
+      "loss": 0.0555,
+      "mean_token_accuracy": 0.9840084314346313,
       "step": 1584
     },
     {
       "epoch": 9.269794721407624,
-      "grad_norm": 0.2744886690898688,
+      "grad_norm": 0.3826595302078001,
       "learning_rate": 4.430287469785118e-06,
-      "loss": 0.0749,
-      "mean_token_accuracy": 0.9745521992444992,
+      "loss": 0.063,
+      "mean_token_accuracy": 0.9781069308519363,
       "step": 1585
     },
     {
       "epoch": 9.27565982404692,
-      "grad_norm": 0.30860823590247866,
+      "grad_norm": 0.45325381772938556,
       "learning_rate": 4.422866057334246e-06,
-      "loss": 0.0646,
-      "mean_token_accuracy": 0.9808021262288094,
+      "loss": 0.0571,
+      "mean_token_accuracy": 0.9835334494709969,
       "step": 1586
     },
     {
       "epoch": 9.281524926686217,
-      "grad_norm": 0.2704520421355319,
+      "grad_norm": 0.3544263748847487,
       "learning_rate": 4.415508442780642e-06,
-      "loss": 0.0712,
-      "mean_token_accuracy": 0.9760096520185471,
+      "loss": 0.0571,
+      "mean_token_accuracy": 0.9812069460749626,
       "step": 1587
     },
     {
       "epoch": 9.287390029325513,
-      "grad_norm": 0.424541508090357,
+      "grad_norm": 0.366957343280142,
       "learning_rate": 4.408214652829473e-06,
-      "loss": 0.0649,
-      "mean_token_accuracy": 0.9811082854866982,
+      "loss": 0.0557,
+      "mean_token_accuracy": 0.9829774498939514,
       "step": 1588
     },
     {
       "epoch": 9.29325513196481,
-      "grad_norm": 0.2165123109041628,
+      "grad_norm": 0.31643775338518065,
       "learning_rate": 4.400984713954253e-06,
-      "loss": 0.0502,
-      "mean_token_accuracy": 0.9843787923455238,
+      "loss": 0.044,
+      "mean_token_accuracy": 0.9852609634399414,
       "step": 1589
     },
     {
       "epoch": 9.299120234604105,
-      "grad_norm": 0.2700478826426142,
+      "grad_norm": 0.3258433860675811,
       "learning_rate": 4.39381865239674e-06,
-      "loss": 0.0688,
-      "mean_token_accuracy": 0.9778083339333534,
+      "loss": 0.0577,
+      "mean_token_accuracy": 0.9815997928380966,
       "step": 1590
     },
     {
       "epoch": 9.304985337243401,
-      "grad_norm": 0.2938143417822229,
+      "grad_norm": 0.3809434963849625,
       "learning_rate": 4.386716494166842e-06,
-      "loss": 0.0647,
-      "mean_token_accuracy": 0.9770649150013924,
+      "loss": 0.055,
+      "mean_token_accuracy": 0.981240376830101,
       "step": 1591
     },
     {
       "epoch": 9.310850439882698,
-      "grad_norm": 0.3118340992348746,
+      "grad_norm": 0.39655430748262316,
       "learning_rate": 4.379678265042529e-06,
-      "loss": 0.0636,
-      "mean_token_accuracy": 0.9765070602297783,
+      "loss": 0.0544,
+      "mean_token_accuracy": 0.9810396283864975,
       "step": 1592
     },
     {
       "epoch": 9.316715542521994,
-      "grad_norm": 0.2695776935953318,
+      "grad_norm": 0.3706407474165295,
       "learning_rate": 4.372703990569725e-06,
-      "loss": 0.0634,
-      "mean_token_accuracy": 0.9807394593954086,
+      "loss": 0.0543,
+      "mean_token_accuracy": 0.9823009446263313,
       "step": 1593
     },
     {
       "epoch": 9.32258064516129,
-      "grad_norm": 0.32864370703275114,
+      "grad_norm": 0.36956199306402604,
       "learning_rate": 4.365793696062231e-06,
-      "loss": 0.0659,
-      "mean_token_accuracy": 0.9772561341524124,
+      "loss": 0.056,
+      "mean_token_accuracy": 0.9810444936156273,
       "step": 1594
     },
     {
       "epoch": 9.328445747800586,
-      "grad_norm": 0.2561966735650709,
+      "grad_norm": 0.36114052744290454,
       "learning_rate": 4.358947406601626e-06,
-      "loss": 0.0566,
-      "mean_token_accuracy": 0.9803736731410027,
+      "loss": 0.0496,
+      "mean_token_accuracy": 0.9843268916010857,
       "step": 1595
     },
     {
       "epoch": 9.334310850439882,
-      "grad_norm": 0.21566529835698572,
+      "grad_norm": 0.29903243274355235,
       "learning_rate": 4.352165147037177e-06,
-      "loss": 0.0622,
-      "mean_token_accuracy": 0.9788841158151627,
+      "loss": 0.0532,
+      "mean_token_accuracy": 0.9818791821599007,
       "step": 1596
     },
     {
       "epoch": 9.340175953079179,
-      "grad_norm": 0.2560030399776893,
+      "grad_norm": 0.3402033677627262,
       "learning_rate": 4.345446941985741e-06,
-      "loss": 0.0571,
-      "mean_token_accuracy": 0.9801218211650848,
+      "loss": 0.0497,
+      "mean_token_accuracy": 0.9822636842727661,
       "step": 1597
     },
     {
       "epoch": 9.346041055718475,
-      "grad_norm": 0.23202327830121788,
+      "grad_norm": 0.3216326624615543,
       "learning_rate": 4.338792815831698e-06,
-      "loss": 0.0576,
-      "mean_token_accuracy": 0.9768727198243141,
+      "loss": 0.05,
+      "mean_token_accuracy": 0.9808618873357773,
       "step": 1598
     },
     {
       "epoch": 9.351906158357771,
-      "grad_norm": 0.28701737565493496,
+      "grad_norm": 0.3981133789009082,
       "learning_rate": 4.332202792726832e-06,
-      "loss": 0.0699,
-      "mean_token_accuracy": 0.9776144996285439,
+      "loss": 0.06,
+      "mean_token_accuracy": 0.9808676987886429,
       "step": 1599
     },
     {
       "epoch": 9.357771260997067,
-      "grad_norm": 0.26539530331958283,
+      "grad_norm": 0.3730359853930091,
       "learning_rate": 4.3256768965902684e-06,
-      "loss": 0.0649,
-      "mean_token_accuracy": 0.977261483669281,
+      "loss": 0.056,
+      "mean_token_accuracy": 0.9798526018857956,
       "step": 1600
     },
     {
       "epoch": 9.363636363636363,
-      "grad_norm": 0.28930665981214404,
+      "grad_norm": 0.38448222563283363,
       "learning_rate": 4.319215151108373e-06,
-      "loss": 0.0768,
-      "mean_token_accuracy": 0.9744983091950417,
+      "loss": 0.0645,
+      "mean_token_accuracy": 0.9782325327396393,
       "step": 1601
     },
     {
       "epoch": 9.36950146627566,
-      "grad_norm": 0.26360393051635667,
+      "grad_norm": 0.34869744775882194,
       "learning_rate": 4.312817579734673e-06,
-      "loss": 0.0604,
-      "mean_token_accuracy": 0.9822754934430122,
+      "loss": 0.0515,
+      "mean_token_accuracy": 0.9844043850898743,
       "step": 1602
     },
     {
       "epoch": 9.375366568914956,
-      "grad_norm": 0.26032508841711777,
+      "grad_norm": 0.35794045824975934,
       "learning_rate": 4.306484205689768e-06,
-      "loss": 0.0672,
-      "mean_token_accuracy": 0.9772569611668587,
+      "loss": 0.0575,
+      "mean_token_accuracy": 0.9812995940446854,
       "step": 1603
     },
     {
       "epoch": 9.381231671554252,
-      "grad_norm": 0.2589814486685344,
+      "grad_norm": 0.3536277186740108,
       "learning_rate": 4.300215051961248e-06,
-      "loss": 0.0668,
-      "mean_token_accuracy": 0.9801448434591293,
+      "loss": 0.0574,
+      "mean_token_accuracy": 0.9826265349984169,
       "step": 1604
     },
     {
       "epoch": 9.387096774193548,
-      "grad_norm": 0.25436834908109707,
+      "grad_norm": 0.34843689510087195,
       "learning_rate": 4.2940101413036115e-06,
-      "loss": 0.058,
-      "mean_token_accuracy": 0.9820843636989594,
+      "loss": 0.0499,
+      "mean_token_accuracy": 0.9845296069979668,
       "step": 1605
     },
     {
       "epoch": 9.392961876832844,
-      "grad_norm": 0.2864933202075239,
+      "grad_norm": 0.3464031945943138,
       "learning_rate": 4.287869496238174e-06,
-      "loss": 0.0699,
-      "mean_token_accuracy": 0.9779408723115921,
+      "loss": 0.0597,
+      "mean_token_accuracy": 0.9806225821375847,
       "step": 1606
     },
     {
       "epoch": 9.39882697947214,
-      "grad_norm": 0.24064124268536968,
+      "grad_norm": 0.33197516109156383,
       "learning_rate": 4.281793139053001e-06,
-      "loss": 0.0598,
-      "mean_token_accuracy": 0.9796174690127373,
+      "loss": 0.0522,
+      "mean_token_accuracy": 0.9814345613121986,
       "step": 1607
     },
     {
       "epoch": 9.404692082111437,
-      "grad_norm": 0.26540587503625385,
+      "grad_norm": 0.38784078972064945,
       "learning_rate": 4.275781091802811e-06,
-      "loss": 0.0803,
-      "mean_token_accuracy": 0.9738316759467125,
+      "loss": 0.0671,
+      "mean_token_accuracy": 0.9796320497989655,
       "step": 1608
     },
     {
       "epoch": 9.410557184750733,
-      "grad_norm": 0.32309718949209215,
+      "grad_norm": 0.4182267076466508,
       "learning_rate": 4.26983337630891e-06,
-      "loss": 0.0641,
-      "mean_token_accuracy": 0.9797775819897652,
+      "loss": 0.0552,
+      "mean_token_accuracy": 0.9823887571692467,
       "step": 1609
     },
     {
       "epoch": 9.416422287390029,
-      "grad_norm": 0.3022671879036554,
+      "grad_norm": 0.40263024742952774,
       "learning_rate": 4.263950014159103e-06,
-      "loss": 0.0662,
-      "mean_token_accuracy": 0.9769906178116798,
+      "loss": 0.0566,
+      "mean_token_accuracy": 0.9805941879749298,
       "step": 1610
     },
     {
       "epoch": 9.422287390029325,
-      "grad_norm": 0.25312838489835093,
+      "grad_norm": 0.3184552151743527,
       "learning_rate": 4.258131026707618e-06,
-      "loss": 0.0564,
-      "mean_token_accuracy": 0.9816729798913002,
+      "loss": 0.0486,
+      "mean_token_accuracy": 0.9834803640842438,
       "step": 1611
     },
     {
       "epoch": 9.428152492668621,
-      "grad_norm": 0.24041663444550618,
+      "grad_norm": 0.34850095126657826,
       "learning_rate": 4.2523764350750305e-06,
-      "loss": 0.067,
-      "mean_token_accuracy": 0.9787357822060585,
+      "loss": 0.0577,
+      "mean_token_accuracy": 0.9823050573468208,
       "step": 1612
     },
     {
       "epoch": 9.434017595307918,
-      "grad_norm": 0.24088936329489447,
+      "grad_norm": 0.35877944489864333,
       "learning_rate": 4.246686260148179e-06,
-      "loss": 0.0605,
-      "mean_token_accuracy": 0.9813699051737785,
+      "loss": 0.0529,
+      "mean_token_accuracy": 0.9828868806362152,
       "step": 1613
     },
     {
       "epoch": 9.439882697947214,
-      "grad_norm": 0.2902013485039333,
+      "grad_norm": 0.41578422834006884,
       "learning_rate": 4.241060522580108e-06,
-      "loss": 0.0752,
-      "mean_token_accuracy": 0.9762661457061768,
+      "loss": 0.0644,
+      "mean_token_accuracy": 0.9790749028325081,
       "step": 1614
     },
     {
       "epoch": 9.44574780058651,
-      "grad_norm": 0.26593653778779147,
+      "grad_norm": 0.3807165143700813,
       "learning_rate": 4.2354992427899674e-06,
-      "loss": 0.0574,
-      "mean_token_accuracy": 0.9807288646697998,
+      "loss": 0.0504,
+      "mean_token_accuracy": 0.9833511561155319,
       "step": 1615
     },
     {
       "epoch": 9.451612903225806,
-      "grad_norm": 0.27473853653381974,
+      "grad_norm": 0.3508137711756749,
       "learning_rate": 4.23000244096296e-06,
-      "loss": 0.0619,
-      "mean_token_accuracy": 0.9793464988470078,
+      "loss": 0.053,
+      "mean_token_accuracy": 0.9821149632334709,
       "step": 1616
     },
     {
       "epoch": 9.457478005865102,
-      "grad_norm": 0.23339911568703745,
+      "grad_norm": 0.34790844523575315,
       "learning_rate": 4.224570137050254e-06,
-      "loss": 0.0492,
-      "mean_token_accuracy": 0.9841224849224091,
+      "loss": 0.0439,
+      "mean_token_accuracy": 0.9859587997198105,
       "step": 1617
     },
     {
       "epoch": 9.463343108504398,
-      "grad_norm": 0.22630713206222056,
+      "grad_norm": 0.3069321947925801,
       "learning_rate": 4.219202350768919e-06,
-      "loss": 0.0625,
-      "mean_token_accuracy": 0.9775300472974777,
+      "loss": 0.0538,
+      "mean_token_accuracy": 0.9819561988115311,
       "step": 1618
     },
     {
       "epoch": 9.469208211143695,
-      "grad_norm": 0.23955620707093253,
+      "grad_norm": 0.33995148789180835,
       "learning_rate": 4.213899101601853e-06,
-      "loss": 0.0627,
-      "mean_token_accuracy": 0.9794919416308403,
+      "loss": 0.0546,
+      "mean_token_accuracy": 0.9821692854166031,
       "step": 1619
     },
     {
       "epoch": 9.47507331378299,
-      "grad_norm": 0.2457762790452542,
+      "grad_norm": 0.33004647287525,
       "learning_rate": 4.208660408797708e-06,
-      "loss": 0.0624,
-      "mean_token_accuracy": 0.9798106178641319,
+      "loss": 0.054,
+      "mean_token_accuracy": 0.9837897270917892,
       "step": 1620
     },
     {
       "epoch": 9.480938416422287,
-      "grad_norm": 0.2431662748020246,
+      "grad_norm": 0.34405905205242354,
       "learning_rate": 4.203486291370821e-06,
-      "loss": 0.0603,
-      "mean_token_accuracy": 0.9812995418906212,
+      "loss": 0.0526,
+      "mean_token_accuracy": 0.9838336259126663,
       "step": 1621
     },
     {
       "epoch": 9.486803519061583,
-      "grad_norm": 0.2723357831813373,
+      "grad_norm": 0.3825920637539007,
       "learning_rate": 4.198376768101149e-06,
-      "loss": 0.0726,
-      "mean_token_accuracy": 0.9783790037035942,
+      "loss": 0.0611,
+      "mean_token_accuracy": 0.9824720919132233,
       "step": 1622
     },
     {
       "epoch": 9.49266862170088,
-      "grad_norm": 0.3520178956023517,
+      "grad_norm": 0.39337900293357947,
       "learning_rate": 4.193331857534198e-06,
-      "loss": 0.0589,
-      "mean_token_accuracy": 0.980711355805397,
+      "loss": 0.0506,
+      "mean_token_accuracy": 0.9829727709293365,
       "step": 1623
     },
     {
       "epoch": 9.498533724340176,
-      "grad_norm": 0.22927005303270442,
+      "grad_norm": 0.33098384606131753,
       "learning_rate": 4.188351577980961e-06,
-      "loss": 0.0549,
-      "mean_token_accuracy": 0.9831141978502274,
+      "loss": 0.048,
+      "mean_token_accuracy": 0.9843248054385185,
       "step": 1624
     },
     {
       "epoch": 9.504398826979472,
-      "grad_norm": 0.238973278958498,
+      "grad_norm": 0.3400217049112287,
       "learning_rate": 4.183435947517836e-06,
-      "loss": 0.0584,
-      "mean_token_accuracy": 0.979368269443512,
+      "loss": 0.0504,
+      "mean_token_accuracy": 0.9832568988204002,
       "step": 1625
     },
     {
       "epoch": 9.510263929618768,
-      "grad_norm": 0.22548713924712482,
+      "grad_norm": 0.318142451201231,
       "learning_rate": 4.178584983986575e-06,
-      "loss": 0.0515,
-      "mean_token_accuracy": 0.9827914386987686,
+      "loss": 0.0451,
+      "mean_token_accuracy": 0.9853277578949928,
       "step": 1626
     },
     {
       "epoch": 9.516129032258064,
-      "grad_norm": 0.2155318232305598,
+      "grad_norm": 0.31249425970359535,
       "learning_rate": 4.173798704994221e-06,
-      "loss": 0.0571,
-      "mean_token_accuracy": 0.9815772697329521,
+      "loss": 0.05,
+      "mean_token_accuracy": 0.9839732199907303,
       "step": 1627
     },
     {
       "epoch": 9.52199413489736,
-      "grad_norm": 0.2525525304429569,
+      "grad_norm": 0.34213460131037277,
       "learning_rate": 4.169077127913031e-06,
-      "loss": 0.0663,
-      "mean_token_accuracy": 0.9765826910734177,
+      "loss": 0.0569,
+      "mean_token_accuracy": 0.9797552153468132,
       "step": 1628
     },
     {
       "epoch": 9.527859237536656,
-      "grad_norm": 0.22780826504919216,
+      "grad_norm": 0.34521954141682165,
       "learning_rate": 4.164420269880422e-06,
-      "loss": 0.0614,
-      "mean_token_accuracy": 0.9760891944169998,
+      "loss": 0.0537,
+      "mean_token_accuracy": 0.9796594232320786,
       "step": 1629
     },
     {
       "epoch": 9.533724340175953,
-      "grad_norm": 0.2531272072086709,
+      "grad_norm": 0.3561614042212147,
       "learning_rate": 4.159828147798914e-06,
-      "loss": 0.0569,
-      "mean_token_accuracy": 0.9820951670408249,
+      "loss": 0.0495,
+      "mean_token_accuracy": 0.9844975918531418,
       "step": 1630
     },
     {
       "epoch": 9.539589442815249,
-      "grad_norm": 0.24380644152767034,
+      "grad_norm": 0.33458897730895226,
       "learning_rate": 4.155300778336047e-06,
-      "loss": 0.0617,
-      "mean_token_accuracy": 0.9779926687479019,
+      "loss": 0.053,
+      "mean_token_accuracy": 0.9825539439916611,
       "step": 1631
     },
     {
       "epoch": 9.545454545454545,
-      "grad_norm": 0.28384668257122436,
+      "grad_norm": 0.41386586180304163,
       "learning_rate": 4.150838177924349e-06,
-      "loss": 0.0599,
-      "mean_token_accuracy": 0.9832035973668098,
+      "loss": 0.0516,
+      "mean_token_accuracy": 0.9856827855110168,
       "step": 1632
     },
     {
       "epoch": 9.551319648093841,
-      "grad_norm": 0.22414889555068185,
+      "grad_norm": 0.2858406837497521,
       "learning_rate": 4.146440362761256e-06,
-      "loss": 0.0621,
-      "mean_token_accuracy": 0.9802982956171036,
+      "loss": 0.0526,
+      "mean_token_accuracy": 0.9834114909172058,
       "step": 1633
     },
     {
       "epoch": 9.557184750733137,
-      "grad_norm": 0.23750844736936616,
+      "grad_norm": 0.3319322824824308,
       "learning_rate": 4.142107348809058e-06,
-      "loss": 0.0696,
-      "mean_token_accuracy": 0.9758076518774033,
+      "loss": 0.0591,
+      "mean_token_accuracy": 0.9804484695196152,
       "step": 1634
     },
     {
       "epoch": 9.563049853372434,
-      "grad_norm": 0.25194978074346364,
+      "grad_norm": 0.36873534696604005,
       "learning_rate": 4.1378391517948505e-06,
-      "loss": 0.0564,
-      "mean_token_accuracy": 0.9831016063690186,
+      "loss": 0.0489,
+      "mean_token_accuracy": 0.9854116439819336,
       "step": 1635
     },
     {
       "epoch": 9.56891495601173,
-      "grad_norm": 0.24188617681913702,
+      "grad_norm": 0.371287763627244,
       "learning_rate": 4.1336357872104614e-06,
-      "loss": 0.063,
-      "mean_token_accuracy": 0.9811783134937286,
+      "loss": 0.0545,
+      "mean_token_accuracy": 0.982661671936512,
       "step": 1636
     },
     {
       "epoch": 9.574780058651026,
-      "grad_norm": 0.24307965914320542,
+      "grad_norm": 0.31981684222677925,
       "learning_rate": 4.12949727031241e-06,
-      "loss": 0.0632,
-      "mean_token_accuracy": 0.9804549887776375,
+      "loss": 0.0552,
+      "mean_token_accuracy": 0.9830471277236938,
       "step": 1637
     },
     {
       "epoch": 9.580645161290322,
-      "grad_norm": 0.2209724909626426,
+      "grad_norm": 0.3496716369106886,
       "learning_rate": 4.125423616121837e-06,
-      "loss": 0.0562,
-      "mean_token_accuracy": 0.9810581132769585,
+      "loss": 0.0492,
+      "mean_token_accuracy": 0.984118863940239,
       "step": 1638
     },
     {
       "epoch": 9.586510263929618,
-      "grad_norm": 0.19695458594988682,
+      "grad_norm": 0.3019605956233339,
       "learning_rate": 4.121414839424464e-06,
-      "loss": 0.0581,
-      "mean_token_accuracy": 0.9823091104626656,
+      "loss": 0.0512,
+      "mean_token_accuracy": 0.983857087790966,
       "step": 1639
     },
     {
       "epoch": 9.592375366568914,
-      "grad_norm": 0.25761669321110686,
+      "grad_norm": 0.38743933966546673,
       "learning_rate": 4.117470954770529e-06,
-      "loss": 0.0668,
-      "mean_token_accuracy": 0.9789463207125664,
+      "loss": 0.0575,
+      "mean_token_accuracy": 0.9823267832398415,
       "step": 1640
     },
     {
       "epoch": 9.59824046920821,
-      "grad_norm": 0.19877925033471974,
+      "grad_norm": 0.2820952797381847,
       "learning_rate": 4.1135919764747454e-06,
-      "loss": 0.056,
-      "mean_token_accuracy": 0.9804951846599579,
+      "loss": 0.0487,
+      "mean_token_accuracy": 0.9831160977482796,
       "step": 1641
     },
     {
       "epoch": 9.604105571847507,
-      "grad_norm": 0.22402798094527665,
+      "grad_norm": 0.33032888287751866,
       "learning_rate": 4.109777918616235e-06,
-      "loss": 0.0628,
-      "mean_token_accuracy": 0.9828111082315445,
+      "loss": 0.0546,
+      "mean_token_accuracy": 0.9848859757184982,
       "step": 1642
     },
     {
       "epoch": 9.609970674486803,
-      "grad_norm": 0.2454189049005734,
+      "grad_norm": 0.3447439897843936,
       "learning_rate": 4.106028795038487e-06,
-      "loss": 0.0657,
-      "mean_token_accuracy": 0.977626658976078,
+      "loss": 0.0559,
+      "mean_token_accuracy": 0.9810968413949013,
       "step": 1643
     },
     {
       "epoch": 9.6158357771261,
-      "grad_norm": 0.3023925092807269,
+      "grad_norm": 0.39380441477471423,
       "learning_rate": 4.102344619349307e-06,
-      "loss": 0.0759,
-      "mean_token_accuracy": 0.9734556525945663,
+      "loss": 0.064,
+      "mean_token_accuracy": 0.9785462468862534,
       "step": 1644
     },
     {
       "epoch": 9.621700879765395,
-      "grad_norm": 0.2774980485563469,
+      "grad_norm": 0.3795143444733662,
       "learning_rate": 4.098725404920763e-06,
-      "loss": 0.072,
-      "mean_token_accuracy": 0.9775623232126236,
+      "loss": 0.0614,
+      "mean_token_accuracy": 0.9801774621009827,
       "step": 1645
     },
     {
       "epoch": 9.627565982404692,
-      "grad_norm": 0.30333570428748763,
+      "grad_norm": 0.4239571722097151,
       "learning_rate": 4.095171164889143e-06,
-      "loss": 0.0605,
-      "mean_token_accuracy": 0.9795369878411293,
+      "loss": 0.0524,
+      "mean_token_accuracy": 0.9822197332978249,
       "step": 1646
     },
     {
       "epoch": 9.633431085043988,
-      "grad_norm": 0.2356131369923837,
+      "grad_norm": 0.3279893196301856,
       "learning_rate": 4.091681912154903e-06,
-      "loss": 0.0619,
-      "mean_token_accuracy": 0.9773572832345963,
+      "loss": 0.0525,
+      "mean_token_accuracy": 0.9810535982251167,
       "step": 1647
     },
     {
       "epoch": 9.639296187683284,
-      "grad_norm": 0.3972197577494257,
+      "grad_norm": 0.4146256842051382,
       "learning_rate": 4.088257659382619e-06,
-      "loss": 0.085,
-      "mean_token_accuracy": 0.972993515431881,
+      "loss": 0.0678,
+      "mean_token_accuracy": 0.9781135395169258,
       "step": 1648
     },
     {
       "epoch": 9.64516129032258,
-      "grad_norm": 0.2869208785212869,
+      "grad_norm": 0.41514329438471853,
       "learning_rate": 4.0848984190009495e-06,
-      "loss": 0.0686,
-      "mean_token_accuracy": 0.9753344133496284,
+      "loss": 0.0587,
+      "mean_token_accuracy": 0.9801534190773964,
       "step": 1649
     },
     {
       "epoch": 9.651026392961876,
-      "grad_norm": 0.21142625693572772,
+      "grad_norm": 0.2900172472788311,
       "learning_rate": 4.081604203202577e-06,
-      "loss": 0.0534,
-      "mean_token_accuracy": 0.983475349843502,
+      "loss": 0.0467,
+      "mean_token_accuracy": 0.9854440614581108,
       "step": 1650
     },
     {
       "epoch": 9.656891495601172,
-      "grad_norm": 0.21591702452821918,
+      "grad_norm": 0.3171073659721082,
       "learning_rate": 4.078375023944175e-06,
-      "loss": 0.0603,
-      "mean_token_accuracy": 0.9807283952832222,
+      "loss": 0.0528,
+      "mean_token_accuracy": 0.983460322022438,
       "step": 1651
     },
     {
       "epoch": 9.662756598240469,
-      "grad_norm": 0.2510568273569073,
+      "grad_norm": 0.3618376086906897,
       "learning_rate": 4.0752108929463625e-06,
-      "loss": 0.0718,
-      "mean_token_accuracy": 0.9732875376939774,
+      "loss": 0.0608,
+      "mean_token_accuracy": 0.9778873026371002,
       "step": 1652
     },
     {
       "epoch": 9.668621700879765,
-      "grad_norm": 0.2863797336182336,
+      "grad_norm": 0.4064811886215041,
       "learning_rate": 4.072111821693655e-06,
-      "loss": 0.0666,
-      "mean_token_accuracy": 0.9797648787498474,
+      "loss": 0.0569,
+      "mean_token_accuracy": 0.982071690261364,
       "step": 1653
     },
     {
       "epoch": 9.674486803519061,
-      "grad_norm": 0.38771617138049674,
+      "grad_norm": 0.3487674151385284,
       "learning_rate": 4.069077821434429e-06,
-      "loss": 0.0695,
-      "mean_token_accuracy": 0.9792503714561462,
+      "loss": 0.0603,
+      "mean_token_accuracy": 0.9813675135374069,
       "step": 1654
     },
     {
       "epoch": 9.680351906158357,
-      "grad_norm": 0.2900452759214232,
+      "grad_norm": 0.48683525747641127,
       "learning_rate": 4.06610890318088e-06,
-      "loss": 0.0581,
-      "mean_token_accuracy": 0.9800984635949135,
+      "loss": 0.0505,
+      "mean_token_accuracy": 0.9826664626598358,
       "step": 1655
     },
     {
       "epoch": 9.686217008797653,
-      "grad_norm": 0.20255555978860618,
+      "grad_norm": 0.27565303241857414,
       "learning_rate": 4.063205077708986e-06,
-      "loss": 0.0584,
-      "mean_token_accuracy": 0.9810278192162514,
+      "loss": 0.0512,
+      "mean_token_accuracy": 0.9829757288098335,
       "step": 1656
     },
     {
       "epoch": 9.69208211143695,
-      "grad_norm": 0.29768882425093995,
+      "grad_norm": 0.4138815422448716,
       "learning_rate": 4.060366355558456e-06,
-      "loss": 0.0658,
-      "mean_token_accuracy": 0.976965144276619,
+      "loss": 0.0561,
+      "mean_token_accuracy": 0.9805786311626434,
       "step": 1657
     },
     {
       "epoch": 9.697947214076246,
-      "grad_norm": 0.279989351630936,
+      "grad_norm": 0.3521931887112191,
       "learning_rate": 4.057592747032707e-06,
-      "loss": 0.0769,
-      "mean_token_accuracy": 0.9744569063186646,
+      "loss": 0.0651,
+      "mean_token_accuracy": 0.9799509420990944,
       "step": 1658
     },
     {
       "epoch": 9.703812316715542,
-      "grad_norm": 0.264998673954461,
+      "grad_norm": 0.36290266721596814,
       "learning_rate": 4.054884262198816e-06,
-      "loss": 0.0545,
-      "mean_token_accuracy": 0.980218268930912,
+      "loss": 0.0479,
+      "mean_token_accuracy": 0.9829519093036652,
       "step": 1659
     },
     {
       "epoch": 9.709677419354838,
-      "grad_norm": 0.2122981558643174,
+      "grad_norm": 0.29181690040474056,
       "learning_rate": 4.052240910887493e-06,
-      "loss": 0.0593,
-      "mean_token_accuracy": 0.9808973520994186,
+      "loss": 0.0515,
+      "mean_token_accuracy": 0.9840708523988724,
       "step": 1660
     },
     {
       "epoch": 9.715542521994134,
-      "grad_norm": 0.23351588515140767,
+      "grad_norm": 0.3198053513374907,
       "learning_rate": 4.049662702693031e-06,
-      "loss": 0.0594,
-      "mean_token_accuracy": 0.9794720560312271,
+      "loss": 0.0517,
+      "mean_token_accuracy": 0.9815531522035599,
       "step": 1661
     },
     {
       "epoch": 9.72140762463343,
-      "grad_norm": 0.23921226195250828,
+      "grad_norm": 0.3567193819398695,
       "learning_rate": 4.047149646973288e-06,
-      "loss": 0.0615,
-      "mean_token_accuracy": 0.9779072403907776,
+      "loss": 0.0534,
+      "mean_token_accuracy": 0.9812785014510155,
       "step": 1662
     },
     {
       "epoch": 9.727272727272727,
-      "grad_norm": 0.2719726622731542,
+      "grad_norm": 0.3365250481082472,
       "learning_rate": 4.044701752849639e-06,
-      "loss": 0.059,
-      "mean_token_accuracy": 0.9809428751468658,
+      "loss": 0.05,
+      "mean_token_accuracy": 0.9830398857593536,
       "step": 1663
     },
     {
       "epoch": 9.733137829912023,
-      "grad_norm": 0.22023511820730315,
+      "grad_norm": 0.3168117861192591,
       "learning_rate": 4.042319029206954e-06,
-      "loss": 0.0573,
-      "mean_token_accuracy": 0.9804383143782616,
+      "loss": 0.0496,
+      "mean_token_accuracy": 0.9836679548025131,
       "step": 1664
     },
     {
       "epoch": 9.739002932551319,
-      "grad_norm": 0.2645304598593257,
+      "grad_norm": 0.3083134474689967,
       "learning_rate": 4.040001484693553e-06,
-      "loss": 0.0567,
-      "mean_token_accuracy": 0.9822018891572952,
+      "loss": 0.0487,
+      "mean_token_accuracy": 0.9842707514762878,
       "step": 1665
     },
     {
       "epoch": 9.744868035190615,
-      "grad_norm": 0.26898083015274943,
+      "grad_norm": 0.3919955952416545,
       "learning_rate": 4.037749127721191e-06,
-      "loss": 0.0602,
-      "mean_token_accuracy": 0.9816476553678513,
+      "loss": 0.0519,
+      "mean_token_accuracy": 0.9838557988405228,
       "step": 1666
     },
     {
       "epoch": 9.750733137829911,
-      "grad_norm": 0.2148855087589927,
+      "grad_norm": 0.29872178905205415,
       "learning_rate": 4.03556196646501e-06,
-      "loss": 0.0557,
-      "mean_token_accuracy": 0.9825252592563629,
+      "loss": 0.049,
+      "mean_token_accuracy": 0.9841638430953026,
       "step": 1667
     },
     {
       "epoch": 9.756598240469208,
-      "grad_norm": 0.258599519645029,
+      "grad_norm": 0.33607599431555435,
       "learning_rate": 4.033440008863528e-06,
-      "loss": 0.0686,
-      "mean_token_accuracy": 0.9784804806113243,
+      "loss": 0.0584,
+      "mean_token_accuracy": 0.9812700152397156,
       "step": 1668
     },
     {
       "epoch": 9.762463343108504,
-      "grad_norm": 0.2561946434849189,
+      "grad_norm": 0.3394818397662197,
       "learning_rate": 4.031383262618588e-06,
-      "loss": 0.0691,
-      "mean_token_accuracy": 0.9773758798837662,
+      "loss": 0.0586,
+      "mean_token_accuracy": 0.9813343957066536,
       "step": 1669
     },
     {
       "epoch": 9.7683284457478,
-      "grad_norm": 0.2762399259206808,
+      "grad_norm": 0.38828667419079976,
       "learning_rate": 4.0293917351953505e-06,
-      "loss": 0.0618,
-      "mean_token_accuracy": 0.9803431034088135,
+      "loss": 0.0538,
+      "mean_token_accuracy": 0.9834257811307907,
       "step": 1670
     },
     {
       "epoch": 9.774193548387096,
-      "grad_norm": 0.355930013011736,
+      "grad_norm": 0.33338280065712544,
       "learning_rate": 4.027465433822255e-06,
-      "loss": 0.0584,
-      "mean_token_accuracy": 0.9785107672214508,
+      "loss": 0.0504,
+      "mean_token_accuracy": 0.98256666213274,
       "step": 1671
     },
     {
       "epoch": 9.780058651026392,
-      "grad_norm": 0.24895531218985303,
+      "grad_norm": 0.3411185677369752,
       "learning_rate": 4.025604365490999e-06,
-      "loss": 0.0609,
-      "mean_token_accuracy": 0.9814844280481339,
+      "loss": 0.0525,
+      "mean_token_accuracy": 0.9825597852468491,
       "step": 1672
     },
     {
       "epoch": 9.785923753665688,
-      "grad_norm": 0.2340877368955121,
+      "grad_norm": 0.3212285265038135,
       "learning_rate": 4.0238085369565085e-06,
-      "loss": 0.0607,
-      "mean_token_accuracy": 0.9819305539131165,
+      "loss": 0.0522,
+      "mean_token_accuracy": 0.9835484176874161,
       "step": 1673
     },
     {
       "epoch": 9.791788856304985,
-      "grad_norm": 0.21828086268261218,
+      "grad_norm": 0.294204389979182,
       "learning_rate": 4.022077954736916e-06,
-      "loss": 0.0604,
-      "mean_token_accuracy": 0.9818969219923019,
+      "loss": 0.0519,
+      "mean_token_accuracy": 0.9838820695877075,
       "step": 1674
     },
     {
       "epoch": 9.79765395894428,
-      "grad_norm": 0.2658598614336904,
+      "grad_norm": 0.38254802196013876,
       "learning_rate": 4.020412625113535e-06,
-      "loss": 0.0607,
-      "mean_token_accuracy": 0.9813483133912086,
+      "loss": 0.053,
+      "mean_token_accuracy": 0.9837944954633713,
       "step": 1675
     },
     {
       "epoch": 9.803519061583577,
-      "grad_norm": 0.2602573672355344,
+      "grad_norm": 0.36617266625723327,
       "learning_rate": 4.018812554130839e-06,
-      "loss": 0.0753,
-      "mean_token_accuracy": 0.9781445488333702,
+      "loss": 0.0638,
+      "mean_token_accuracy": 0.9815091416239738,
       "step": 1676
     },
     {
       "epoch": 9.809384164222873,
-      "grad_norm": 0.2801981767369684,
+      "grad_norm": 0.39530260374994275,
       "learning_rate": 4.01727774759644e-06,
-      "loss": 0.0667,
-      "mean_token_accuracy": 0.9778248742222786,
+      "loss": 0.0568,
+      "mean_token_accuracy": 0.9812266975641251,
       "step": 1677
     },
     {
       "epoch": 9.81524926686217,
-      "grad_norm": 0.2703585276782977,
+      "grad_norm": 0.36224793191945875,
       "learning_rate": 4.0158082110810695e-06,
-      "loss": 0.06,
-      "mean_token_accuracy": 0.9797122403979301,
+      "loss": 0.0506,
+      "mean_token_accuracy": 0.9833802804350853,
       "step": 1678
     },
     {
       "epoch": 9.821114369501466,
-      "grad_norm": 0.31803486063306685,
+      "grad_norm": 0.3461078001305434,
       "learning_rate": 4.014403949918545e-06,
-      "loss": 0.0599,
-      "mean_token_accuracy": 0.9799430221319199,
+      "loss": 0.0518,
+      "mean_token_accuracy": 0.9832278341054916,
       "step": 1679
     },
     {
       "epoch": 9.826979472140762,
-      "grad_norm": 0.2820420179958132,
+      "grad_norm": 0.3639700603722806,
       "learning_rate": 4.0130649692057715e-06,
-      "loss": 0.0643,
-      "mean_token_accuracy": 0.9790126010775566,
+      "loss": 0.0556,
+      "mean_token_accuracy": 0.9809284582734108,
       "step": 1680
     },
     {
       "epoch": 9.832844574780058,
-      "grad_norm": 0.25148689534618957,
+      "grad_norm": 0.3633034118576501,
       "learning_rate": 4.01179127380271e-06,
-      "loss": 0.0684,
-      "mean_token_accuracy": 0.9769551530480385,
+      "loss": 0.0585,
+      "mean_token_accuracy": 0.9802731797099113,
       "step": 1681
     },
     {
       "epoch": 9.838709677419354,
-      "grad_norm": 0.2379631065406326,
+      "grad_norm": 0.32362509615190976,
       "learning_rate": 4.010582868332353e-06,
-      "loss": 0.0538,
-      "mean_token_accuracy": 0.9826568216085434,
+      "loss": 0.0474,
+      "mean_token_accuracy": 0.9848815277218819,
       "step": 1682
     },
     {
       "epoch": 9.84457478005865,
-      "grad_norm": 0.27305533671205534,
+      "grad_norm": 0.3477758631730095,
       "learning_rate": 4.009439757180732e-06,
-      "loss": 0.0628,
-      "mean_token_accuracy": 0.9774700924754143,
+      "loss": 0.0541,
+      "mean_token_accuracy": 0.9802240058779716,
       "step": 1683
     },
     {
       "epoch": 9.850439882697946,
-      "grad_norm": 0.2964998847163188,
+      "grad_norm": 0.3854795876675265,
       "learning_rate": 4.008361944496875e-06,
-      "loss": 0.063,
-      "mean_token_accuracy": 0.9798463135957718,
+      "loss": 0.0545,
+      "mean_token_accuracy": 0.982623852789402,
       "step": 1684
     },
     {
       "epoch": 9.856304985337243,
-      "grad_norm": 0.2965938750339812,
+      "grad_norm": 0.3885500734464125,
       "learning_rate": 4.00734943419281e-06,
-      "loss": 0.0736,
-      "mean_token_accuracy": 0.9754137769341469,
+      "loss": 0.062,
+      "mean_token_accuracy": 0.9794270023703575,
       "step": 1685
     },
     {
       "epoch": 9.862170087976539,
-      "grad_norm": 0.28260924704377915,
+      "grad_norm": 0.38759202956879846,
       "learning_rate": 4.006402229943534e-06,
-      "loss": 0.0647,
-      "mean_token_accuracy": 0.9779395908117294,
+      "loss": 0.0549,
+      "mean_token_accuracy": 0.9819841310381889,
       "step": 1686
     },
     {
       "epoch": 9.868035190615835,
-      "grad_norm": 0.23371054288209903,
+      "grad_norm": 0.3150886823164933,
       "learning_rate": 4.005520335187023e-06,
-      "loss": 0.0655,
-      "mean_token_accuracy": 0.9794416725635529,
+      "loss": 0.0564,
+      "mean_token_accuracy": 0.9822871387004852,
       "step": 1687
     },
     {
       "epoch": 9.873900293255131,
-      "grad_norm": 0.2612525488005821,
+      "grad_norm": 0.35350832587231334,
       "learning_rate": 4.004703753124195e-06,
-      "loss": 0.0655,
-      "mean_token_accuracy": 0.9788842275738716,
+      "loss": 0.0565,
+      "mean_token_accuracy": 0.9831016659736633,
       "step": 1688
     },
     {
       "epoch": 9.879765395894427,
-      "grad_norm": 0.215311765680089,
+      "grad_norm": 0.3193894482554477,
       "learning_rate": 4.003952486718913e-06,
-      "loss": 0.0552,
-      "mean_token_accuracy": 0.9810579568147659,
+      "loss": 0.0485,
+      "mean_token_accuracy": 0.9836105778813362,
       "step": 1689
     },
     {
       "epoch": 9.885630498533724,
-      "grad_norm": 0.2504746637761669,
+      "grad_norm": 0.30675392858895184,
       "learning_rate": 4.003266538697973e-06,
-      "loss": 0.0616,
-      "mean_token_accuracy": 0.978359691798687,
+      "loss": 0.0523,
+      "mean_token_accuracy": 0.9822279661893845,
       "step": 1690
     },
     {
       "epoch": 9.89149560117302,
-      "grad_norm": 0.3033572404106571,
+      "grad_norm": 0.31085526491264526,
       "learning_rate": 4.002645911551086e-06,
-      "loss": 0.0551,
-      "mean_token_accuracy": 0.9803460240364075,
+      "loss": 0.0486,
+      "mean_token_accuracy": 0.9831148758530617,
       "step": 1691
     },
     {
       "epoch": 9.897360703812316,
-      "grad_norm": 0.2266595329570515,
+      "grad_norm": 0.310609074510971,
       "learning_rate": 4.002090607530882e-06,
-      "loss": 0.0626,
-      "mean_token_accuracy": 0.9790749177336693,
+      "loss": 0.0536,
+      "mean_token_accuracy": 0.9823655262589455,
       "step": 1692
     },
     {
       "epoch": 9.903225806451612,
-      "grad_norm": 0.25758436439961796,
+      "grad_norm": 0.5082679092863019,
       "learning_rate": 4.001600628652887e-06,
-      "loss": 0.0751,
-      "mean_token_accuracy": 0.9739339500665665,
+      "loss": 0.0684,
+      "mean_token_accuracy": 0.9778107851743698,
       "step": 1693
     },
     {
       "epoch": 9.909090909090908,
-      "grad_norm": 0.2730797336241935,
+      "grad_norm": 0.3580467978873467,
       "learning_rate": 4.001175976695527e-06,
-      "loss": 0.0679,
-      "mean_token_accuracy": 0.9755261316895485,
+      "loss": 0.0587,
+      "mean_token_accuracy": 0.9787137806415558,
       "step": 1694
     },
     {
       "epoch": 9.914956011730204,
-      "grad_norm": 0.24102622763373174,
+      "grad_norm": 0.3474754641798292,
       "learning_rate": 4.000816653200117e-06,
-      "loss": 0.0533,
-      "mean_token_accuracy": 0.9845007807016373,
+      "loss": 0.047,
+      "mean_token_accuracy": 0.9860777705907822,
       "step": 1695
     },
     {
       "epoch": 9.9208211143695,
-      "grad_norm": 0.2813958161148632,
+      "grad_norm": 0.3480833124779761,
       "learning_rate": 4.000522659470857e-06,
-      "loss": 0.0606,
-      "mean_token_accuracy": 0.9797054156661034,
+      "loss": 0.0521,
+      "mean_token_accuracy": 0.9829437881708145,
       "step": 1696
     },
     {
       "epoch": 9.926686217008797,
-      "grad_norm": 0.3285137376648042,
+      "grad_norm": 0.4096410573101437,
       "learning_rate": 4.000293996574826e-06,
-      "loss": 0.0799,
-      "mean_token_accuracy": 0.9748532995581627,
+      "loss": 0.0666,
+      "mean_token_accuracy": 0.9793807342648506,
       "step": 1697
     },
     {
       "epoch": 9.932551319648093,
-      "grad_norm": 0.28907914247281624,
+      "grad_norm": 0.3812968594988111,
       "learning_rate": 4.000130665341977e-06,
-      "loss": 0.0749,
-      "mean_token_accuracy": 0.9762020409107208,
+      "loss": 0.0637,
+      "mean_token_accuracy": 0.9800157248973846,
       "step": 1698
     },
     {
       "epoch": 9.93841642228739,
-      "grad_norm": 0.2506289774234882,
+      "grad_norm": 0.3406586288767792,
       "learning_rate": 4.000032666365136e-06,
-      "loss": 0.0595,
-      "mean_token_accuracy": 0.9811992347240448,
+      "loss": 0.0514,
+      "mean_token_accuracy": 0.9838827252388,
       "step": 1699
     },
     {
       "epoch": 9.944281524926687,
-      "grad_norm": 0.23581196926582984,
+      "grad_norm": 0.32809422893372536,
       "learning_rate": 4.000000000000001e-06,
-      "loss": 0.0598,
-      "mean_token_accuracy": 0.9796453937888145,
+      "loss": 0.0515,
+      "mean_token_accuracy": 0.9818282052874565,
       "step": 1700
     },
     {
       "epoch": 9.944281524926687,
       "step": 1700,
-      "total_flos": 13396901806080.0,
-      "train_loss": 0.21142534818062012,
-      "train_runtime": 61693.825,
-      "train_samples_per_second": 0.884,
-      "train_steps_per_second": 0.028
+      "total_flos": 18857631034368.0,
+      "train_loss": 0.18426384230746942,
+      "train_runtime": 35740.9083,
+      "train_samples_per_second": 1.526,
+      "train_steps_per_second": 0.048
     }
   ],
   "logging_steps": 1,
@@ -13635,7 +13635,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 13396901806080.0,
+  "total_flos": 18857631034368.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null