{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.7,
  "eval_steps": 2000,
  "global_step": 70000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0001,
      "grad_norm": 62.5,
      "learning_rate": 3.27e-05,
      "loss": 96.4218,
      "loss/aux_loss": 0.06346827149391174,
      "loss/crossentropy": 10.520584106445312,
      "loss/logits": 8.62325460910797,
      "step": 10
    },
    {
      "epoch": 0.0002,
      "grad_norm": 64.0,
      "grad_norm_var": 47.05416666666667,
      "learning_rate": 3.54e-05,
      "loss": 90.9983,
      "loss/aux_loss": 0.05445752870291472,
      "loss/crossentropy": 9.918135738372802,
      "loss/logits": 8.018545007705688,
      "step": 20
    },
    {
      "epoch": 0.0003,
      "grad_norm": 60.75,
      "grad_norm_var": 3.05390625,
      "learning_rate": 3.81e-05,
      "loss": 84.3016,
      "loss/aux_loss": 0.052422930113971235,
      "loss/crossentropy": 9.341589832305909,
      "loss/logits": 7.614971446990967,
      "step": 30
    },
    {
      "epoch": 0.0004,
      "grad_norm": 59.0,
      "grad_norm_var": 264.72682291666666,
      "learning_rate": 4.08e-05,
      "loss": 78.0706,
      "loss/aux_loss": 0.05138566605746746,
      "loss/crossentropy": 8.834511041641235,
      "loss/logits": 6.946270298957825,
      "step": 40
    },
    {
      "epoch": 0.0005,
      "grad_norm": 54.0,
      "grad_norm_var": 295.6518229166667,
      "learning_rate": 4.35e-05,
      "loss": 73.2196,
      "loss/aux_loss": 0.05028745252639055,
      "loss/crossentropy": 8.335509753227234,
      "loss/logits": 6.576072025299072,
      "step": 50
    },
    {
      "epoch": 0.0006,
      "grad_norm": 49.5,
      "grad_norm_var": 12.49765625,
      "learning_rate": 4.62e-05,
      "loss": 69.3149,
      "loss/aux_loss": 0.04974018670618534,
      "loss/crossentropy": 8.07826225757599,
      "loss/logits": 6.17107310295105,
      "step": 60
    },
    {
      "epoch": 0.0007,
      "grad_norm": 33.5,
      "grad_norm_var": 37.90182291666667,
      "learning_rate": 4.89e-05,
      "loss": 65.9331,
      "loss/aux_loss": 0.049574922397732736,
      "loss/crossentropy": 7.850642085075378,
      "loss/logits": 5.917052555084228,
      "step": 70
    },
    {
      "epoch": 0.0008,
      "grad_norm": 24.75,
      "grad_norm_var": 683.9268229166667,
      "learning_rate": 5.16e-05,
      "loss": 63.4084,
      "loss/aux_loss": 0.0500051811337471,
      "loss/crossentropy": 7.550819325447082,
      "loss/logits": 5.728990888595581,
      "step": 80
    },
    {
      "epoch": 0.0009,
      "grad_norm": 65.5,
      "grad_norm_var": 863.5828125,
      "learning_rate": 5.429999999999999e-05,
      "loss": 61.9785,
      "loss/aux_loss": 0.05104184336960316,
      "loss/crossentropy": 7.397841739654541,
      "loss/logits": 5.37682204246521,
      "step": 90
    },
    {
      "epoch": 0.001,
      "grad_norm": 53.25,
      "grad_norm_var": 342.37433268229165,
      "learning_rate": 5.6999999999999996e-05,
      "loss": 60.8601,
      "loss/aux_loss": 0.05242748130112886,
      "loss/crossentropy": 7.235720539093018,
      "loss/logits": 5.34943995475769,
      "step": 100
    },
    {
      "epoch": 0.0011,
      "grad_norm": 68.5,
      "grad_norm_var": 300.8374348958333,
      "learning_rate": 5.97e-05,
      "loss": 59.9541,
      "loss/aux_loss": 0.05149786453694105,
      "loss/crossentropy": 7.193077087402344,
      "loss/logits": 5.278037166595459,
      "step": 110
    },
    {
      "epoch": 0.0012,
      "grad_norm": 29.375,
      "grad_norm_var": 219.08326822916666,
      "learning_rate": 6.24e-05,
      "loss": 58.794,
      "loss/aux_loss": 0.05140427742153406,
      "loss/crossentropy": 7.130345010757447,
      "loss/logits": 5.037704062461853,
      "step": 120
    },
    {
      "epoch": 0.0013,
      "grad_norm": 15.0625,
      "grad_norm_var": 210.59972330729167,
      "learning_rate": 6.51e-05,
      "loss": 58.1276,
      "loss/aux_loss": 0.050786581449210645,
      "loss/crossentropy": 6.900083208084107,
      "loss/logits": 5.119465160369873,
      "step": 130
    },
    {
      "epoch": 0.0014,
      "grad_norm": 15.4375,
      "grad_norm_var": 242.2203125,
      "learning_rate": 6.780000000000001e-05,
      "loss": 57.251,
      "loss/aux_loss": 0.050472350977361205,
      "loss/crossentropy": 6.90623025894165,
      "loss/logits": 4.989370441436767,
      "step": 140
    },
    {
      "epoch": 0.0015,
      "grad_norm": 23.75,
      "grad_norm_var": 53.895686848958334,
      "learning_rate": 7.049999999999999e-05,
      "loss": 55.9011,
      "loss/aux_loss": 0.05010317321866751,
      "loss/crossentropy": 6.878646898269653,
      "loss/logits": 4.966757416725159,
      "step": 150
    },
    {
      "epoch": 0.0016,
      "grad_norm": 22.875,
      "grad_norm_var": 85.49140625,
      "learning_rate": 7.32e-05,
      "loss": 55.0174,
      "loss/aux_loss": 0.05009230561554432,
      "loss/crossentropy": 6.685335445404053,
      "loss/logits": 4.792002511024475,
      "step": 160
    },
    {
      "epoch": 0.0017,
      "grad_norm": 24.5,
      "grad_norm_var": 172.98014322916666,
      "learning_rate": 7.589999999999999e-05,
      "loss": 54.2538,
      "loss/aux_loss": 0.049807760119438174,
      "loss/crossentropy": 6.676994824409485,
      "loss/logits": 4.751176404953003,
      "step": 170
    },
    {
      "epoch": 0.0018,
      "grad_norm": 49.0,
      "grad_norm_var": 130.01295572916666,
      "learning_rate": 7.86e-05,
      "loss": 53.571,
      "loss/aux_loss": 0.049537939578294755,
      "loss/crossentropy": 6.596286082267762,
      "loss/logits": 4.717176723480224,
      "step": 180
    },
    {
      "epoch": 0.0019,
      "grad_norm": 22.0,
      "grad_norm_var": 68.81145833333333,
      "learning_rate": 8.13e-05,
      "loss": 52.313,
      "loss/aux_loss": 0.049018622189760205,
      "loss/crossentropy": 6.518313908576966,
      "loss/logits": 4.740558981895447,
      "step": 190
    },
    {
      "epoch": 0.002,
      "grad_norm": 23.125,
      "grad_norm_var": 39.942708333333336,
      "learning_rate": 8.4e-05,
      "loss": 51.4724,
      "loss/aux_loss": 0.04901752769947052,
      "loss/crossentropy": 6.31372344493866,
      "loss/logits": 4.539055609703064,
      "step": 200
    },
    {
      "epoch": 0.0021,
      "grad_norm": 25.5,
      "grad_norm_var": 51.50584309895833,
      "learning_rate": 8.67e-05,
      "loss": 50.4864,
      "loss/aux_loss": 0.049004881829023364,
      "loss/crossentropy": 6.431901216506958,
      "loss/logits": 4.541516590118408,
      "step": 210
    },
    {
      "epoch": 0.0022,
      "grad_norm": 23.75,
      "grad_norm_var": 45.890625,
      "learning_rate": 8.94e-05,
      "loss": 49.4348,
      "loss/aux_loss": 0.0489825276657939,
      "loss/crossentropy": 6.201497769355774,
      "loss/logits": 4.2463623762130736,
      "step": 220
    },
    {
      "epoch": 0.0023,
      "grad_norm": 32.75,
      "grad_norm_var": 33.282291666666666,
      "learning_rate": 9.21e-05,
      "loss": 48.7892,
      "loss/aux_loss": 0.04863291662186384,
      "loss/crossentropy": 6.257090902328491,
      "loss/logits": 4.189764153957367,
      "step": 230
    },
    {
      "epoch": 0.0024,
      "grad_norm": 33.0,
      "grad_norm_var": 26.2509765625,
      "learning_rate": 9.479999999999999e-05,
      "loss": 47.4078,
      "loss/aux_loss": 0.04870687611401081,
      "loss/crossentropy": 6.129881906509399,
      "loss/logits": 4.127840185165406,
      "step": 240
    },
    {
      "epoch": 0.0025,
      "grad_norm": 19.375,
      "grad_norm_var": 26.835416666666667,
      "learning_rate": 9.75e-05,
      "loss": 46.931,
      "loss/aux_loss": 0.04863628149032593,
      "loss/crossentropy": 5.8494936466217045,
      "loss/logits": 4.019280314445496,
      "step": 250
    },
    {
      "epoch": 0.0026,
      "grad_norm": 37.75,
      "grad_norm_var": 30.508072916666666,
      "learning_rate": 0.0001002,
      "loss": 45.6479,
      "loss/aux_loss": 0.04853515811264515,
      "loss/crossentropy": 5.952807331085205,
      "loss/logits": 4.096065545082093,
      "step": 260
    },
    {
      "epoch": 0.0027,
      "grad_norm": 29.25,
      "grad_norm_var": 42.109309895833334,
      "learning_rate": 0.0001029,
      "loss": 45.4552,
      "loss/aux_loss": 0.04864779394119978,
      "loss/crossentropy": 5.901494193077087,
      "loss/logits": 4.014258062839508,
      "step": 270
    },
    {
      "epoch": 0.0028,
      "grad_norm": 30.75,
      "grad_norm_var": 31.6494140625,
      "learning_rate": 0.00010560000000000002,
      "loss": 45.0348,
      "loss/aux_loss": 0.04867569580674171,
      "loss/crossentropy": 5.769275331497193,
      "loss/logits": 3.9283937215805054,
      "step": 280
    },
    {
      "epoch": 0.0029,
      "grad_norm": 24.0,
      "grad_norm_var": 49.4306640625,
      "learning_rate": 0.00010829999999999999,
      "loss": 44.4484,
      "loss/aux_loss": 0.048759896866977216,
      "loss/crossentropy": 5.552310681343078,
      "loss/logits": 3.828005838394165,
      "step": 290
    },
    {
      "epoch": 0.003,
      "grad_norm": 23.5,
      "grad_norm_var": 37.06666666666667,
      "learning_rate": 0.00011099999999999999,
      "loss": 44.2056,
      "loss/aux_loss": 0.04860832653939724,
      "loss/crossentropy": 5.736793255805969,
      "loss/logits": 3.8119420647621154,
      "step": 300
    },
    {
      "epoch": 0.0031,
      "grad_norm": 34.75,
      "grad_norm_var": 25.449739583333333,
      "learning_rate": 0.00011369999999999999,
      "loss": 43.1406,
      "loss/aux_loss": 0.04863522592931986,
      "loss/crossentropy": 5.70694375038147,
      "loss/logits": 3.7460230350494386,
      "step": 310
    },
    {
      "epoch": 0.0032,
      "grad_norm": 28.75,
      "grad_norm_var": 23.142643229166666,
      "learning_rate": 0.0001164,
      "loss": 43.2674,
      "loss/aux_loss": 0.048594312928617,
      "loss/crossentropy": 5.645468616485596,
      "loss/logits": 3.795237183570862,
      "step": 320
    },
    {
      "epoch": 0.0033,
      "grad_norm": 25.125,
      "grad_norm_var": 27.248893229166665,
      "learning_rate": 0.0001191,
      "loss": 42.4531,
      "loss/aux_loss": 0.048580970242619516,
      "loss/crossentropy": 5.573257780075073,
      "loss/logits": 3.625744652748108,
      "step": 330
    },
    {
      "epoch": 0.0034,
      "grad_norm": 27.0,
      "grad_norm_var": 18.6728515625,
      "learning_rate": 0.00012179999999999999,
      "loss": 42.3091,
      "loss/aux_loss": 0.04864873345941305,
      "loss/crossentropy": 5.666665482521057,
      "loss/logits": 3.6989678740501404,
      "step": 340
    },
    {
      "epoch": 0.0035,
      "grad_norm": 25.625,
      "grad_norm_var": 14.792122395833333,
      "learning_rate": 0.0001245,
      "loss": 41.7634,
      "loss/aux_loss": 0.048494835197925565,
      "loss/crossentropy": 5.532446098327637,
      "loss/logits": 3.6617549777030947,
      "step": 350
    },
    {
      "epoch": 0.0036,
      "grad_norm": 27.125,
      "grad_norm_var": 36.68274739583333,
      "learning_rate": 0.0001272,
      "loss": 41.3748,
      "loss/aux_loss": 0.04851998519152403,
      "loss/crossentropy": 5.461347937583923,
      "loss/logits": 3.681316375732422,
      "step": 360
    },
    {
      "epoch": 0.0037,
      "grad_norm": 32.25,
      "grad_norm_var": 62.7072265625,
      "learning_rate": 0.0001299,
      "loss": 41.0029,
      "loss/aux_loss": 0.0486336350440979,
      "loss/crossentropy": 5.420117592811584,
      "loss/logits": 3.614268946647644,
      "step": 370
    },
    {
      "epoch": 0.0038,
      "grad_norm": 25.375,
      "grad_norm_var": 29.937955729166667,
      "learning_rate": 0.0001326,
      "loss": 40.4483,
      "loss/aux_loss": 0.048567987978458405,
      "loss/crossentropy": 5.519010901451111,
      "loss/logits": 3.4499247074127197,
      "step": 380
    },
    {
      "epoch": 0.0039,
      "grad_norm": 28.375,
      "grad_norm_var": 14.257291666666667,
      "learning_rate": 0.0001353,
      "loss": 39.9714,
      "loss/aux_loss": 0.04847833849489689,
      "loss/crossentropy": 5.376910948753357,
      "loss/logits": 3.4180081248283387,
      "step": 390
    },
    {
      "epoch": 0.004,
      "grad_norm": 25.25,
      "grad_norm_var": 17.4041015625,
      "learning_rate": 0.00013800000000000002,
      "loss": 39.9151,
      "loss/aux_loss": 0.048561175167560575,
      "loss/crossentropy": 5.305628776550293,
      "loss/logits": 3.4211841225624084,
      "step": 400
    },
    {
      "epoch": 0.0041,
      "grad_norm": 26.625,
      "grad_norm_var": 23.691080729166668,
      "learning_rate": 0.00014069999999999998,
      "loss": 39.9258,
      "loss/aux_loss": 0.0485720319673419,
      "loss/crossentropy": 5.2558026790618895,
      "loss/logits": 3.477493929862976,
      "step": 410
    },
    {
      "epoch": 0.0042,
      "grad_norm": 24.0,
      "grad_norm_var": 22.3181640625,
      "learning_rate": 0.0001434,
      "loss": 39.5536,
      "loss/aux_loss": 0.04851338397711515,
      "loss/crossentropy": 5.359068250656128,
      "loss/logits": 3.373235845565796,
      "step": 420
    },
    {
      "epoch": 0.0043,
      "grad_norm": 23.25,
      "grad_norm_var": 25.664518229166667,
      "learning_rate": 0.00014609999999999997,
      "loss": 38.9821,
      "loss/aux_loss": 0.04848247561603784,
      "loss/crossentropy": 5.391582441329956,
      "loss/logits": 3.3668909788131716,
      "step": 430
    },
    {
      "epoch": 0.0044,
      "grad_norm": 29.125,
      "grad_norm_var": 27.742122395833334,
      "learning_rate": 0.00014879999999999998,
      "loss": 38.4838,
      "loss/aux_loss": 0.048559782840311524,
      "loss/crossentropy": 5.219124293327331,
      "loss/logits": 3.2023038268089294,
      "step": 440
    },
    {
      "epoch": 0.0045,
      "grad_norm": 24.125,
      "grad_norm_var": 13.058268229166666,
      "learning_rate": 0.0001515,
      "loss": 37.7637,
      "loss/aux_loss": 0.048486584424972536,
      "loss/crossentropy": 5.257930779457093,
      "loss/logits": 3.2549287557601927,
      "step": 450
    },
    {
      "epoch": 0.0046,
      "grad_norm": 26.0,
      "grad_norm_var": 13.198372395833333,
      "learning_rate": 0.00015419999999999998,
      "loss": 37.8807,
      "loss/aux_loss": 0.048509182222187516,
      "loss/crossentropy": 5.24229850769043,
      "loss/logits": 3.2370536804199217,
      "step": 460
    },
    {
      "epoch": 0.0047,
      "grad_norm": 26.375,
      "grad_norm_var": 10.068489583333333,
      "learning_rate": 0.0001569,
      "loss": 37.1278,
      "loss/aux_loss": 0.048433386348187925,
      "loss/crossentropy": 5.20349223613739,
      "loss/logits": 3.114039051532745,
      "step": 470
    },
    {
      "epoch": 0.0048,
      "grad_norm": 20.875,
      "grad_norm_var": 11.547916666666667,
      "learning_rate": 0.0001596,
      "loss": 36.9174,
      "loss/aux_loss": 0.04847547374665737,
      "loss/crossentropy": 4.9283219337463375,
      "loss/logits": 3.213498628139496,
      "step": 480
    },
    {
      "epoch": 0.0049,
      "grad_norm": 21.625,
      "grad_norm_var": 7.476041666666666,
      "learning_rate": 0.0001623,
      "loss": 36.5318,
      "loss/aux_loss": 0.048416960053145885,
      "loss/crossentropy": 5.040558886528015,
      "loss/logits": 3.13973091840744,
      "step": 490
    },
    {
      "epoch": 0.005,
      "grad_norm": 22.5,
      "grad_norm_var": 8.258072916666666,
      "learning_rate": 0.000165,
      "loss": 36.6402,
      "loss/aux_loss": 0.048433396965265274,
      "loss/crossentropy": 5.000589728355408,
      "loss/logits": 3.196159243583679,
      "step": 500
    },
    {
      "epoch": 0.0051,
      "grad_norm": 25.375,
      "grad_norm_var": 17.601497395833334,
      "learning_rate": 0.0001677,
      "loss": 36.0775,
      "loss/aux_loss": 0.048407428339123725,
      "loss/crossentropy": 5.022399640083313,
      "loss/logits": 3.1573411226272583,
      "step": 510
    },
    {
      "epoch": 0.0052,
      "grad_norm": 26.25,
      "grad_norm_var": 11.326497395833334,
      "learning_rate": 0.0001704,
      "loss": 35.8341,
      "loss/aux_loss": 0.04850205350667238,
      "loss/crossentropy": 5.029168057441711,
      "loss/logits": 3.0023858308792115,
      "step": 520
    },
    {
      "epoch": 0.0053,
      "grad_norm": 34.75,
      "grad_norm_var": 26.2072265625,
      "learning_rate": 0.0001731,
      "loss": 35.7083,
      "loss/aux_loss": 0.048469410836696626,
      "loss/crossentropy": 4.937405061721802,
      "loss/logits": 3.096103620529175,
      "step": 530
    },
    {
      "epoch": 0.0054,
      "grad_norm": 26.5,
      "grad_norm_var": 26.883333333333333,
      "learning_rate": 0.00017580000000000002,
      "loss": 35.1926,
      "loss/aux_loss": 0.04851417765021324,
      "loss/crossentropy": 4.968003535270691,
      "loss/logits": 3.037220096588135,
      "step": 540
    },
    {
      "epoch": 0.0055,
      "grad_norm": 21.75,
      "grad_norm_var": 3.1494140625,
      "learning_rate": 0.0001785,
      "loss": 34.8693,
      "loss/aux_loss": 0.048468691483139995,
      "loss/crossentropy": 4.928069758415222,
      "loss/logits": 3.0163326144218443,
      "step": 550
    },
    {
      "epoch": 0.0056,
      "grad_norm": 21.125,
      "grad_norm_var": 40.6625,
      "learning_rate": 0.0001812,
      "loss": 34.8376,
      "loss/aux_loss": 0.04853217788040638,
      "loss/crossentropy": 4.8081374049186705,
      "loss/logits": 2.9309885263442994,
      "step": 560
    },
    {
      "epoch": 0.0057,
      "grad_norm": 21.125,
      "grad_norm_var": 9.170572916666666,
      "learning_rate": 0.00018389999999999997,
      "loss": 34.4132,
      "loss/aux_loss": 0.04839835949242115,
      "loss/crossentropy": 4.890771484375,
      "loss/logits": 2.9162360787391663,
      "step": 570
    },
    {
      "epoch": 0.0058,
      "grad_norm": 24.75,
      "grad_norm_var": 5.412955729166667,
      "learning_rate": 0.00018659999999999998,
      "loss": 33.9858,
      "loss/aux_loss": 0.04839918464422226,
      "loss/crossentropy": 4.828824257850647,
      "loss/logits": 2.9052307963371278,
      "step": 580
    },
    {
      "epoch": 0.0059,
      "grad_norm": 102.5,
      "grad_norm_var": 448.30104166666666,
      "learning_rate": 0.0001893,
      "loss": 34.3014,
      "loss/aux_loss": 0.04844543803483248,
      "loss/crossentropy": 4.836876845359802,
      "loss/logits": 2.9816999673843383,
      "step": 590
    },
    {
      "epoch": 0.006,
      "grad_norm": 23.0,
      "grad_norm_var": 839.7497395833333,
      "learning_rate": 0.00019199999999999998,
      "loss": 34.1366,
      "loss/aux_loss": 0.0485780967399478,
      "loss/crossentropy": 4.918647742271423,
      "loss/logits": 3.028424918651581,
      "step": 600
    },
    {
      "epoch": 0.0061,
      "grad_norm": 19.5,
      "grad_norm_var": 14.370247395833333,
      "learning_rate": 0.0001947,
      "loss": 33.7583,
      "loss/aux_loss": 0.04842391442507506,
      "loss/crossentropy": 4.706963205337525,
      "loss/logits": 2.918571615219116,
      "step": 610
    },
    {
      "epoch": 0.0062,
      "grad_norm": 16.0,
      "grad_norm_var": 6.815625,
      "learning_rate": 0.0001974,
      "loss": 33.1779,
      "loss/aux_loss": 0.04836068209260702,
      "loss/crossentropy": 4.702796244621277,
      "loss/logits": 2.8033588767051696,
      "step": 620
    },
    {
      "epoch": 0.0063,
      "grad_norm": 24.75,
      "grad_norm_var": 9.648030598958334,
      "learning_rate": 0.00020009999999999998,
      "loss": 32.6916,
      "loss/aux_loss": 0.04836873207241297,
      "loss/crossentropy": 4.663065433502197,
      "loss/logits": 2.7192453861236574,
      "step": 630
    },
    {
      "epoch": 0.0064,
      "grad_norm": 28.5,
      "grad_norm_var": 13.41875,
      "learning_rate": 0.0002028,
      "loss": 32.5747,
      "loss/aux_loss": 0.048406153731048104,
      "loss/crossentropy": 4.850475025177002,
      "loss/logits": 2.844682276248932,
      "step": 640
    },
    {
      "epoch": 0.0065,
      "grad_norm": 15.1875,
      "grad_norm_var": 10.483707682291667,
      "learning_rate": 0.0002055,
      "loss": 32.627,
      "loss/aux_loss": 0.04839936923235655,
      "loss/crossentropy": 4.642724204063415,
      "loss/logits": 2.7970473051071165,
      "step": 650
    },
    {
      "epoch": 0.0066,
      "grad_norm": 17.25,
      "grad_norm_var": 9.181103515625,
      "learning_rate": 0.0002082,
      "loss": 31.9502,
      "loss/aux_loss": 0.04840312860906124,
      "loss/crossentropy": 4.64382244348526,
      "loss/logits": 2.7651517271995543,
      "step": 660
    },
    {
      "epoch": 0.0067,
      "grad_norm": 22.0,
      "grad_norm_var": 6.279166666666667,
      "learning_rate": 0.0002109,
      "loss": 31.5068,
      "loss/aux_loss": 0.048387892358005044,
      "loss/crossentropy": 4.641875433921814,
      "loss/logits": 2.7343064188957213,
      "step": 670
    },
    {
      "epoch": 0.0068,
      "grad_norm": 20.0,
      "grad_norm_var": 5.815348307291667,
      "learning_rate": 0.00021360000000000001,
      "loss": 30.7349,
      "loss/aux_loss": 0.04838373064994812,
      "loss/crossentropy": 4.57262305021286,
      "loss/logits": 2.6575307488441466,
      "step": 680
    },
    {
      "epoch": 0.0069,
      "grad_norm": 21.25,
      "grad_norm_var": 3.3708170572916667,
      "learning_rate": 0.00021629999999999997,
      "loss": 30.9303,
      "loss/aux_loss": 0.048367501422762874,
      "loss/crossentropy": 4.517275846004486,
      "loss/logits": 2.7227562189102175,
      "step": 690
    },
    {
      "epoch": 0.007,
      "grad_norm": 17.75,
      "grad_norm_var": 5.214322916666666,
      "learning_rate": 0.00021899999999999998,
      "loss": 30.7433,
      "loss/aux_loss": 0.048321043699979783,
      "loss/crossentropy": 4.465225088596344,
      "loss/logits": 2.628221809864044,
      "step": 700
    },
    {
      "epoch": 0.0071,
      "grad_norm": 18.125,
      "grad_norm_var": 5.217643229166667,
      "learning_rate": 0.00022169999999999997,
      "loss": 30.6391,
      "loss/aux_loss": 0.04836261495947838,
      "loss/crossentropy": 4.5598583102226256,
      "loss/logits": 2.5861354947090147,
      "step": 710
    },
    {
      "epoch": 0.0072,
      "grad_norm": 18.625,
      "grad_norm_var": 14.745247395833333,
      "learning_rate": 0.00022439999999999998,
      "loss": 30.0185,
      "loss/aux_loss": 0.048368556424975395,
      "loss/crossentropy": 4.439025247097016,
      "loss/logits": 2.484178614616394,
      "step": 720
    },
    {
      "epoch": 0.0073,
      "grad_norm": 20.625,
      "grad_norm_var": 8.686458333333333,
      "learning_rate": 0.0002271,
      "loss": 29.7983,
      "loss/aux_loss": 0.048322527296841146,
      "loss/crossentropy": 4.3540124773979185,
      "loss/logits": 2.446344316005707,
      "step": 730
    },
    {
      "epoch": 0.0074,
      "grad_norm": 17.375,
      "grad_norm_var": 5.894124348958333,
      "learning_rate": 0.00022979999999999997,
      "loss": 29.5599,
      "loss/aux_loss": 0.04832367654889822,
      "loss/crossentropy": 4.300390827655792,
      "loss/logits": 2.501788628101349,
      "step": 740
    },
    {
      "epoch": 0.0075,
      "grad_norm": 14.5,
      "grad_norm_var": 6.899739583333333,
      "learning_rate": 0.00023249999999999999,
      "loss": 29.1483,
      "loss/aux_loss": 0.04832951854914427,
      "loss/crossentropy": 4.52186803817749,
      "loss/logits": 2.4985528230667113,
      "step": 750
    },
    {
      "epoch": 0.0076,
      "grad_norm": 17.875,
      "grad_norm_var": 4.874332682291667,
      "learning_rate": 0.0002352,
      "loss": 29.0176,
      "loss/aux_loss": 0.04831754751503468,
      "loss/crossentropy": 4.319947266578675,
      "loss/logits": 2.37314190864563,
      "step": 760
    },
    {
      "epoch": 0.0077,
      "grad_norm": 18.75,
      "grad_norm_var": 4.414518229166666,
      "learning_rate": 0.00023789999999999998,
      "loss": 28.4552,
      "loss/aux_loss": 0.04835870675742626,
      "loss/crossentropy": 4.228903424739838,
      "loss/logits": 2.382171905040741,
      "step": 770
    },
    {
      "epoch": 0.0078,
      "grad_norm": 17.875,
      "grad_norm_var": 4.404622395833333,
      "learning_rate": 0.0002406,
      "loss": 27.9477,
      "loss/aux_loss": 0.048351569660007955,
      "loss/crossentropy": 4.279499888420105,
      "loss/logits": 2.3113824844360353,
      "step": 780
    },
    {
      "epoch": 0.0079,
      "grad_norm": 14.5,
      "grad_norm_var": 4.849934895833333,
      "learning_rate": 0.0002433,
      "loss": 28.1858,
      "loss/aux_loss": 0.04831267800182104,
      "loss/crossentropy": 4.268010532855987,
      "loss/logits": 2.357981026172638,
      "step": 790
    },
    {
      "epoch": 0.008,
      "grad_norm": 17.875,
      "grad_norm_var": 5.742822265625,
      "learning_rate": 0.000246,
      "loss": 27.944,
      "loss/aux_loss": 0.04835358560085297,
      "loss/crossentropy": 4.222308611869812,
      "loss/logits": 2.316913056373596,
      "step": 800
    },
    {
      "epoch": 0.0081,
      "grad_norm": 14.3125,
      "grad_norm_var": 5.843343098958333,
      "learning_rate": 0.0002487,
      "loss": 27.446,
      "loss/aux_loss": 0.048313943669199944,
      "loss/crossentropy": 4.209726583957672,
      "loss/logits": 2.374450123310089,
      "step": 810
    },
    {
      "epoch": 0.0082,
      "grad_norm": 20.0,
      "grad_norm_var": 14.9884765625,
      "learning_rate": 0.0002514,
      "loss": 27.673,
      "loss/aux_loss": 0.04833365194499493,
      "loss/crossentropy": 4.135816490650177,
      "loss/logits": 2.3683163046836855,
      "step": 820
    },
    {
      "epoch": 0.0083,
      "grad_norm": 20.0,
      "grad_norm_var": 14.966650390625,
      "learning_rate": 0.0002541,
      "loss": 27.0603,
      "loss/aux_loss": 0.04834430795162916,
      "loss/crossentropy": 4.212264752388,
      "loss/logits": 2.292864066362381,
      "step": 830
    },
    {
      "epoch": 0.0084,
      "grad_norm": 13.0,
      "grad_norm_var": 6.715869140625,
      "learning_rate": 0.00025679999999999995,
      "loss": 26.9205,
      "loss/aux_loss": 0.048344089090824126,
      "loss/crossentropy": 4.146613943576813,
      "loss/logits": 2.337345379590988,
      "step": 840
    },
    {
      "epoch": 0.0085,
      "grad_norm": 38.0,
      "grad_norm_var": 36.98123372395833,
      "learning_rate": 0.00025949999999999997,
      "loss": 26.9794,
      "loss/aux_loss": 0.04836427103728056,
      "loss/crossentropy": 4.061418402194977,
      "loss/logits": 2.285140597820282,
      "step": 850
    },
    {
      "epoch": 0.0086,
      "grad_norm": 16.125,
      "grad_norm_var": 29.924723307291668,
      "learning_rate": 0.0002622,
      "loss": 26.9251,
      "loss/aux_loss": 0.048360053822398184,
      "loss/crossentropy": 4.185706174373626,
      "loss/logits": 2.221945381164551,
      "step": 860
    },
    {
      "epoch": 0.0087,
      "grad_norm": 16.875,
      "grad_norm_var": 4.328889973958334,
      "learning_rate": 0.0002649,
      "loss": 26.3776,
      "loss/aux_loss": 0.04831914566457272,
      "loss/crossentropy": 4.120305705070495,
      "loss/logits": 2.215441507101059,
      "step": 870
    },
    {
      "epoch": 0.0088,
      "grad_norm": 14.75,
      "grad_norm_var": 1.937353515625,
      "learning_rate": 0.0002676,
      "loss": 26.4197,
      "loss/aux_loss": 0.04831472560763359,
      "loss/crossentropy": 4.091458034515381,
      "loss/logits": 2.2590562105178833,
      "step": 880
    },
    {
      "epoch": 0.0089,
      "grad_norm": 17.25,
      "grad_norm_var": 5.08828125,
      "learning_rate": 0.00027029999999999996,
      "loss": 26.5735,
      "loss/aux_loss": 0.048319687880575654,
      "loss/crossentropy": 4.131750977039337,
      "loss/logits": 2.2907270908355715,
      "step": 890
    },
    {
      "epoch": 0.009,
      "grad_norm": 16.875,
      "grad_norm_var": 2.8785807291666665,
      "learning_rate": 0.00027299999999999997,
      "loss": 25.9573,
      "loss/aux_loss": 0.04829480424523354,
      "loss/crossentropy": 4.1353423476219175,
      "loss/logits": 2.2223441004753113,
      "step": 900
    },
    {
      "epoch": 0.0091,
      "grad_norm": 15.8125,
      "grad_norm_var": 1.7628743489583334,
      "learning_rate": 0.0002757,
      "loss": 25.6367,
      "loss/aux_loss": 0.0482923174276948,
      "loss/crossentropy": 4.0344107985496525,
      "loss/logits": 2.1614388108253477,
      "step": 910
    },
    {
      "epoch": 0.0092,
      "grad_norm": 19.125,
      "grad_norm_var": 5.126822916666667,
      "learning_rate": 0.0002784,
      "loss": 25.4326,
      "loss/aux_loss": 0.0483014602214098,
      "loss/crossentropy": 3.857894313335419,
      "loss/logits": 2.1173263430595397,
      "step": 920
    },
    {
      "epoch": 0.0093,
      "grad_norm": 17.5,
      "grad_norm_var": 3.0747395833333333,
      "learning_rate": 0.0002811,
      "loss": 24.9668,
      "loss/aux_loss": 0.04832738190889359,
      "loss/crossentropy": 3.821620452404022,
      "loss/logits": 2.0369732558727263,
      "step": 930
    },
    {
      "epoch": 0.0094,
      "grad_norm": 15.375,
      "grad_norm_var": 3.349072265625,
      "learning_rate": 0.00028379999999999996,
      "loss": 25.2724,
      "loss/aux_loss": 0.04831767976284027,
      "loss/crossentropy": 4.015332496166229,
      "loss/logits": 2.054348534345627,
      "step": 940
    },
    {
      "epoch": 0.0095,
      "grad_norm": 13.875,
      "grad_norm_var": 2.811572265625,
      "learning_rate": 0.00028649999999999997,
      "loss": 24.9269,
      "loss/aux_loss": 0.04830477572977543,
      "loss/crossentropy": 3.9600290179252626,
      "loss/logits": 2.0728322982788088,
      "step": 950
    },
    {
      "epoch": 0.0096,
      "grad_norm": 12.125,
      "grad_norm_var": 2.8313639322916666,
      "learning_rate": 0.0002892,
      "loss": 24.9397,
      "loss/aux_loss": 0.04828764032572508,
      "loss/crossentropy": 3.9735502004623413,
      "loss/logits": 2.0897044599056245,
      "step": 960
    },
    {
      "epoch": 0.0097,
      "grad_norm": 12.9375,
      "grad_norm_var": 3.466910807291667,
      "learning_rate": 0.0002919,
      "loss": 25.0229,
      "loss/aux_loss": 0.04828515090048313,
      "loss/crossentropy": 3.849641752243042,
      "loss/logits": 2.0807200193405153,
      "step": 970
    },
    {
      "epoch": 0.0098,
      "grad_norm": 17.125,
      "grad_norm_var": 2.0829264322916665,
      "learning_rate": 0.00029459999999999995,
      "loss": 24.5474,
      "loss/aux_loss": 0.04829510189592838,
      "loss/crossentropy": 3.926040601730347,
      "loss/logits": 1.9675580561161041,
      "step": 980
    },
    {
      "epoch": 0.0099,
      "grad_norm": 14.1875,
      "grad_norm_var": 2.063134765625,
      "learning_rate": 0.00029729999999999996,
      "loss": 24.7495,
      "loss/aux_loss": 0.04827150721102953,
      "loss/crossentropy": 3.920617640018463,
      "loss/logits": 2.0571080267429354,
      "step": 990
    },
    {
      "epoch": 0.01,
      "grad_norm": 23.125,
      "grad_norm_var": 9.017041015625,
      "learning_rate": 0.0003,
      "loss": 24.6181,
      "loss/aux_loss": 0.04830240122973919,
      "loss/crossentropy": 3.960080420970917,
      "loss/logits": 2.0806682467460633,
      "step": 1000
    },
    {
      "epoch": 0.0101,
      "grad_norm": 13.625,
      "grad_norm_var": 7.297330729166666,
      "learning_rate": 0.0003,
      "loss": 24.5401,
      "loss/aux_loss": 0.048330770991742614,
      "loss/crossentropy": 3.909256339073181,
      "loss/logits": 2.0541693389415743,
      "step": 1010
    },
    {
      "epoch": 0.0102,
      "grad_norm": 13.75,
      "grad_norm_var": 2.5978515625,
      "learning_rate": 0.0003,
      "loss": 24.0457,
      "loss/aux_loss": 0.04828005637973547,
      "loss/crossentropy": 4.0945284247398375,
      "loss/logits": 2.0571001410484313,
      "step": 1020
    },
    {
      "epoch": 0.0103,
      "grad_norm": 12.0,
      "grad_norm_var": 2.8195149739583334,
      "learning_rate": 0.0003,
      "loss": 23.9983,
      "loss/aux_loss": 0.048290212824940684,
      "loss/crossentropy": 3.792713475227356,
      "loss/logits": 1.9736050605773925,
      "step": 1030
    },
    {
      "epoch": 0.0104,
      "grad_norm": 14.4375,
      "grad_norm_var": 45.916650390625,
      "learning_rate": 0.0003,
      "loss": 23.7592,
      "loss/aux_loss": 0.048343191482126714,
      "loss/crossentropy": 3.667546308040619,
      "loss/logits": 1.9718676209449768,
      "step": 1040
    },
    {
      "epoch": 0.0105,
      "grad_norm": 13.75,
      "grad_norm_var": 4.7306640625,
      "learning_rate": 0.0003,
      "loss": 23.9655,
      "loss/aux_loss": 0.04828641843050718,
      "loss/crossentropy": 3.918486988544464,
      "loss/logits": 2.0048129856586456,
      "step": 1050
    },
    {
      "epoch": 0.0106,
      "grad_norm": 15.0,
      "grad_norm_var": 1.9869140625,
      "learning_rate": 0.0003,
      "loss": 23.6091,
      "loss/aux_loss": 0.048306448943912984,
      "loss/crossentropy": 3.855974185466766,
      "loss/logits": 1.956015944480896,
      "step": 1060
    },
    {
      "epoch": 0.0107,
      "grad_norm": 13.125,
      "grad_norm_var": 1.4332682291666667,
      "learning_rate": 0.0003,
      "loss": 23.576,
      "loss/aux_loss": 0.048309461772441865,
      "loss/crossentropy": 3.5664370179176332,
      "loss/logits": 1.9399469137191772,
      "step": 1070
    },
    {
      "epoch": 0.0108,
      "grad_norm": 16.875,
      "grad_norm_var": 96.96066080729166,
      "learning_rate": 0.0003,
      "loss": 23.5042,
      "loss/aux_loss": 0.04829024374485016,
      "loss/crossentropy": 3.9391483783721926,
      "loss/logits": 2.0180298566818236,
      "step": 1080
    },
    {
      "epoch": 0.0109,
      "grad_norm": 14.25,
      "grad_norm_var": 99.06608072916667,
      "learning_rate": 0.0003,
      "loss": 23.2801,
      "loss/aux_loss": 0.04827498830854893,
      "loss/crossentropy": 3.925715708732605,
      "loss/logits": 1.9511402130126954,
      "step": 1090
    },
    {
      "epoch": 0.011,
      "grad_norm": 11.875,
      "grad_norm_var": 1.5015462239583333,
      "learning_rate": 0.0003,
      "loss": 23.2888,
      "loss/aux_loss": 0.04827521629631519,
      "loss/crossentropy": 4.049439036846161,
      "loss/logits": 1.9741652667522431,
      "step": 1100
    },
    {
      "epoch": 0.0111,
      "grad_norm": 13.5,
      "grad_norm_var": 3.6861979166666665,
      "learning_rate": 0.0003,
      "loss": 22.8228,
      "loss/aux_loss": 0.048285826854407785,
      "loss/crossentropy": 3.7126415371894836,
      "loss/logits": 1.8875436723232268,
      "step": 1110
    },
    {
      "epoch": 0.0112,
      "grad_norm": 15.125,
      "grad_norm_var": 3.2712076822916667,
      "learning_rate": 0.0003,
      "loss": 22.8436,
      "loss/aux_loss": 0.048280049860477445,
      "loss/crossentropy": 3.875200855731964,
      "loss/logits": 1.8699533224105835,
      "step": 1120
    },
    {
      "epoch": 0.0113,
      "grad_norm": 12.875,
      "grad_norm_var": 1.5421712239583334,
      "learning_rate": 0.0003,
      "loss": 22.9724,
      "loss/aux_loss": 0.04830393195152283,
      "loss/crossentropy": 3.7354134917259216,
      "loss/logits": 1.9599017381668091,
      "step": 1130
    },
    {
      "epoch": 0.0114,
      "grad_norm": 11.1875,
      "grad_norm_var": 1.6598307291666667,
      "learning_rate": 0.0003,
      "loss": 22.91,
      "loss/aux_loss": 0.04829528890550137,
      "loss/crossentropy": 3.832562971115112,
      "loss/logits": 1.9021077275276184,
      "step": 1140
    },
    {
      "epoch": 0.0115,
      "grad_norm": 12.0,
      "grad_norm_var": 2.373551432291667,
      "learning_rate": 0.0003,
      "loss": 22.5944,
      "loss/aux_loss": 0.04828084670007229,
      "loss/crossentropy": 3.8583874821662905,
      "loss/logits": 1.9061977505683898,
      "step": 1150
    },
    {
      "epoch": 0.0116,
      "grad_norm": 11.6875,
      "grad_norm_var": 4.650374348958334,
      "learning_rate": 0.0003,
      "loss": 22.6571,
      "loss/aux_loss": 0.04829124473035336,
      "loss/crossentropy": 3.729883003234863,
      "loss/logits": 1.8983563661575318,
      "step": 1160
    },
    {
      "epoch": 0.0117,
      "grad_norm": 12.75,
      "grad_norm_var": 4.216080729166666,
      "learning_rate": 0.0003,
      "loss": 22.5304,
      "loss/aux_loss": 0.0483067661523819,
      "loss/crossentropy": 3.8876662373542787,
      "loss/logits": 1.8905851602554322,
      "step": 1170
    },
    {
      "epoch": 0.0118,
      "grad_norm": 12.1875,
      "grad_norm_var": 1.5910807291666667,
      "learning_rate": 0.0003,
      "loss": 22.2809,
      "loss/aux_loss": 0.048292340524494645,
      "loss/crossentropy": 3.9721433520317078,
      "loss/logits": 1.8897149801254272,
      "step": 1180
    },
    {
      "epoch": 0.0119,
      "grad_norm": 14.4375,
      "grad_norm_var": 7.739322916666667,
      "learning_rate": 0.0003,
      "loss": 22.4589,
      "loss/aux_loss": 0.048297750391066076,
      "loss/crossentropy": 3.6948838114738463,
      "loss/logits": 1.8489306330680848,
      "step": 1190
    },
    {
      "epoch": 0.012,
      "grad_norm": 10.5,
      "grad_norm_var": 7.207666015625,
      "learning_rate": 0.0003,
      "loss": 22.2067,
      "loss/aux_loss": 0.048272774554789066,
      "loss/crossentropy": 3.913854885101318,
      "loss/logits": 1.861431396007538,
      "step": 1200
    },
    {
      "epoch": 0.0121,
      "grad_norm": 15.3125,
      "grad_norm_var": 5.213655598958334,
      "learning_rate": 0.0003,
      "loss": 22.2212,
      "loss/aux_loss": 0.04833245109766722,
      "loss/crossentropy": 3.696351206302643,
      "loss/logits": 1.8378067016601562,
      "step": 1210
    },
    {
      "epoch": 0.0122,
      "grad_norm": 9.9375,
      "grad_norm_var": 3.999853515625,
      "learning_rate": 0.0003,
      "loss": 22.0734,
      "loss/aux_loss": 0.04830023720860481,
      "loss/crossentropy": 3.807795548439026,
      "loss/logits": 1.8107618153095246,
      "step": 1220
    },
    {
      "epoch": 0.0123,
      "grad_norm": 12.5,
      "grad_norm_var": 12.50078125,
      "learning_rate": 0.0003,
      "loss": 21.7587,
      "loss/aux_loss": 0.04829862117767334,
      "loss/crossentropy": 3.750839185714722,
      "loss/logits": 1.794652533531189,
      "step": 1230
    },
    {
      "epoch": 0.0124,
      "grad_norm": 12.375,
      "grad_norm_var": 115.42858072916667,
      "learning_rate": 0.0003,
      "loss": 21.93,
      "loss/aux_loss": 0.048292195051908494,
      "loss/crossentropy": 3.7465561628341675,
      "loss/logits": 1.797796505689621,
      "step": 1240
    },
    {
      "epoch": 0.0125,
      "grad_norm": 12.25,
      "grad_norm_var": 186.75416666666666,
      "learning_rate": 0.0003,
      "loss": 21.953,
      "loss/aux_loss": 0.04834472518414259,
      "loss/crossentropy": 3.6869328737258913,
      "loss/logits": 1.797852247953415,
      "step": 1250
    },
    {
      "epoch": 0.0126,
      "grad_norm": 9.75,
      "grad_norm_var": 1.7327473958333333,
      "learning_rate": 0.0003,
      "loss": 21.9868,
      "loss/aux_loss": 0.048277279175817964,
      "loss/crossentropy": 3.6617552042007446,
      "loss/logits": 1.7641812562942505,
      "step": 1260
    },
    {
      "epoch": 0.0127,
      "grad_norm": 10.75,
      "grad_norm_var": 1.4202473958333333,
      "learning_rate": 0.0003,
      "loss": 21.6879,
      "loss/aux_loss": 0.04827971309423447,
      "loss/crossentropy": 3.4563692212104797,
      "loss/logits": 1.7538020849227904,
      "step": 1270
    },
    {
      "epoch": 0.0128,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.5093098958333333,
      "learning_rate": 0.0003,
      "loss": 21.5679,
      "loss/aux_loss": 0.048257603868842126,
      "loss/crossentropy": 3.737559175491333,
      "loss/logits": 1.8031953394412994,
      "step": 1280
    },
    {
      "epoch": 0.0129,
      "grad_norm": 10.8125,
      "grad_norm_var": 3.0283854166666666,
      "learning_rate": 0.0003,
      "loss": 21.801,
      "loss/aux_loss": 0.0482830997556448,
      "loss/crossentropy": 3.788530111312866,
      "loss/logits": 1.8610890209674835,
      "step": 1290
    },
    {
      "epoch": 0.013,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.363134765625,
      "learning_rate": 0.0003,
      "loss": 21.5052,
      "loss/aux_loss": 0.04827403090894222,
      "loss/crossentropy": 3.7146639943122866,
      "loss/logits": 1.8084448158740998,
      "step": 1300
    },
    {
      "epoch": 0.0131,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.35885416666666664,
      "learning_rate": 0.0003,
      "loss": 21.1896,
      "loss/aux_loss": 0.048255456425249574,
      "loss/crossentropy": 3.6508117794990538,
      "loss/logits": 1.7647499084472655,
      "step": 1310
    },
    {
      "epoch": 0.0132,
      "grad_norm": 10.75,
      "grad_norm_var": 48.28553059895833,
      "learning_rate": 0.0003,
      "loss": 21.2771,
      "loss/aux_loss": 0.04835470654070377,
      "loss/crossentropy": 3.6754523515701294,
      "loss/logits": 1.7459341287612915,
      "step": 1320
    },
    {
      "epoch": 0.0133,
      "grad_norm": 9.75,
      "grad_norm_var": 18.715348307291666,
      "learning_rate": 0.0003,
      "loss": 21.4809,
      "loss/aux_loss": 0.04828258771449327,
      "loss/crossentropy": 3.671703588962555,
      "loss/logits": 1.753785401582718,
      "step": 1330
    },
    {
      "epoch": 0.0134,
      "grad_norm": 10.375,
      "grad_norm_var": 0.9012858072916666,
      "learning_rate": 0.0003,
      "loss": 21.3825,
      "loss/aux_loss": 0.048258156329393384,
      "loss/crossentropy": 3.691448616981506,
      "loss/logits": 1.7658027529716491,
      "step": 1340
    },
    {
      "epoch": 0.0135,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.6473307291666667,
      "learning_rate": 0.0003,
      "loss": 21.3845,
      "loss/aux_loss": 0.04825436770915985,
      "loss/crossentropy": 3.645776665210724,
      "loss/logits": 1.7162048041820526,
      "step": 1350
    },
    {
      "epoch": 0.0136,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.58984375,
      "learning_rate": 0.0003,
      "loss": 20.7527,
      "loss/aux_loss": 0.04827475063502788,
      "loss/crossentropy": 3.6466134548187257,
      "loss/logits": 1.694813996553421,
      "step": 1360
    },
    {
      "epoch": 0.0137,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.4046223958333333,
      "learning_rate": 0.0003,
      "loss": 21.017,
      "loss/aux_loss": 0.04827818218618631,
      "loss/crossentropy": 3.7088001132011414,
      "loss/logits": 1.70878404378891,
      "step": 1370
    },
    {
      "epoch": 0.0138,
      "grad_norm": 11.875,
      "grad_norm_var": 0.70703125,
      "learning_rate": 0.0003,
      "loss": 20.9997,
      "loss/aux_loss": 0.04826367888599634,
      "loss/crossentropy": 3.7648239493370057,
      "loss/logits": 1.7505885064601898,
      "step": 1380
    },
    {
      "epoch": 0.0139,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.7249348958333334,
      "learning_rate": 0.0003,
      "loss": 20.798,
      "loss/aux_loss": 0.04830121118575335,
      "loss/crossentropy": 3.696249544620514,
      "loss/logits": 1.7071794509887694,
      "step": 1390
    },
    {
      "epoch": 0.014,
      "grad_norm": 8.875,
      "grad_norm_var": 0.7769368489583334,
      "learning_rate": 0.0003,
      "loss": 21.0944,
      "loss/aux_loss": 0.04826546385884285,
      "loss/crossentropy": 3.6206825494766237,
      "loss/logits": 1.766976636648178,
      "step": 1400
    },
    {
      "epoch": 0.0141,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.6129557291666666,
      "learning_rate": 0.0003,
      "loss": 20.5101,
      "loss/aux_loss": 0.048279773257672784,
      "loss/crossentropy": 3.5249340176582336,
      "loss/logits": 1.6939750254154204,
      "step": 1410
    },
    {
      "epoch": 0.0142,
      "grad_norm": 9.25,
      "grad_norm_var": 1.0231608072916667,
      "learning_rate": 0.0003,
      "loss": 20.5613,
      "loss/aux_loss": 0.04827423859387636,
      "loss/crossentropy": 3.45823814868927,
      "loss/logits": 1.6488157391548157,
      "step": 1420
    },
    {
      "epoch": 0.0143,
      "grad_norm": 9.125,
      "grad_norm_var": 1.0061848958333333,
      "learning_rate": 0.0003,
      "loss": 20.6672,
      "loss/aux_loss": 0.048273424990475176,
      "loss/crossentropy": 3.5580545544624327,
      "loss/logits": 1.6708523690700532,
      "step": 1430
    },
    {
      "epoch": 0.0144,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.5536295572916666,
      "learning_rate": 0.0003,
      "loss": 20.7267,
      "loss/aux_loss": 0.048252567276358606,
      "loss/crossentropy": 3.50860835313797,
      "loss/logits": 1.690982359647751,
      "step": 1440
    },
    {
      "epoch": 0.0145,
      "grad_norm": 9.0,
      "grad_norm_var": 0.4879557291666667,
      "learning_rate": 0.0003,
      "loss": 20.3679,
      "loss/aux_loss": 0.048260470107197764,
      "loss/crossentropy": 3.5979798078536986,
      "loss/logits": 1.727076655626297,
      "step": 1450
    },
    {
      "epoch": 0.0146,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.6821451822916667,
      "learning_rate": 0.0003,
      "loss": 20.5641,
      "loss/aux_loss": 0.04824462234973907,
      "loss/crossentropy": 3.473064345121384,
      "loss/logits": 1.6370813488960265,
      "step": 1460
    },
    {
      "epoch": 0.0147,
      "grad_norm": 9.25,
      "grad_norm_var": 0.5143229166666666,
      "learning_rate": 0.0003,
      "loss": 20.4817,
      "loss/aux_loss": 0.04825858902186155,
      "loss/crossentropy": 3.680207347869873,
      "loss/logits": 1.7349261403083802,
      "step": 1470
    },
    {
      "epoch": 0.0148,
      "grad_norm": 10.0625,
      "grad_norm_var": 168.77784830729166,
      "learning_rate": 0.0003,
      "loss": 20.4344,
      "loss/aux_loss": 0.04829352758824825,
      "loss/crossentropy": 3.643856203556061,
      "loss/logits": 1.6838299632072449,
      "step": 1480
    },
    {
      "epoch": 0.0149,
      "grad_norm": 10.0,
      "grad_norm_var": 164.6166015625,
      "learning_rate": 0.0003,
      "loss": 20.2984,
      "loss/aux_loss": 0.04828519467264414,
      "loss/crossentropy": 3.491868484020233,
      "loss/logits": 1.6502962768077851,
      "step": 1490
    },
    {
      "epoch": 0.015,
      "grad_norm": 9.3125,
      "grad_norm_var": 1.26796875,
      "learning_rate": 0.0003,
      "loss": 20.2734,
      "loss/aux_loss": 0.0482696495950222,
      "loss/crossentropy": 3.54322612285614,
      "loss/logits": 1.6839805364608764,
      "step": 1500
    },
    {
      "epoch": 0.0151,
      "grad_norm": 9.6875,
      "grad_norm_var": 1.3467732747395833,
      "learning_rate": 0.0003,
      "loss": 20.223,
      "loss/aux_loss": 0.048268103040754795,
      "loss/crossentropy": 3.591710591316223,
      "loss/logits": 1.6459056198596955,
      "step": 1510
    },
    {
      "epoch": 0.0152,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.30625,
      "learning_rate": 0.0003,
      "loss": 19.9556,
      "loss/aux_loss": 0.04826340805739164,
      "loss/crossentropy": 3.663398194313049,
      "loss/logits": 1.6375055193901062,
      "step": 1520
    },
    {
      "epoch": 0.0153,
      "grad_norm": 9.6875,
      "grad_norm_var": 8.3697265625,
      "learning_rate": 0.0003,
      "loss": 19.9875,
      "loss/aux_loss": 0.048267958126962184,
      "loss/crossentropy": 3.429060697555542,
      "loss/logits": 1.5783089220523834,
      "step": 1530
    },
    {
      "epoch": 0.0154,
      "grad_norm": 7.96875,
      "grad_norm_var": 9.10787353515625,
      "learning_rate": 0.0003,
      "loss": 19.7039,
      "loss/aux_loss": 0.048261369951069354,
      "loss/crossentropy": 3.662845695018768,
      "loss/logits": 1.6366191446781158,
      "step": 1540
    },
    {
      "epoch": 0.0155,
      "grad_norm": 8.1875,
      "grad_norm_var": 37.75735270182292,
      "learning_rate": 0.0003,
      "loss": 19.9279,
      "loss/aux_loss": 0.048299112170934674,
      "loss/crossentropy": 3.5160138845443725,
      "loss/logits": 1.613296240568161,
      "step": 1550
    },
    {
      "epoch": 0.0156,
      "grad_norm": 8.875,
      "grad_norm_var": 0.6832967122395833,
      "learning_rate": 0.0003,
      "loss": 19.8753,
      "loss/aux_loss": 0.04826027043163776,
      "loss/crossentropy": 3.6247658729553223,
      "loss/logits": 1.606148999929428,
      "step": 1560
    },
    {
      "epoch": 0.0157,
      "grad_norm": 8.75,
      "grad_norm_var": 6.793082682291667,
      "learning_rate": 0.0003,
      "loss": 19.7959,
      "loss/aux_loss": 0.04825771022588014,
      "loss/crossentropy": 3.3447017312049865,
      "loss/logits": 1.5702200174331664,
      "step": 1570
    },
    {
      "epoch": 0.0158,
      "grad_norm": 8.6875,
      "grad_norm_var": 6.344645182291667,
      "learning_rate": 0.0003,
      "loss": 19.8071,
      "loss/aux_loss": 0.048260610550642014,
      "loss/crossentropy": 3.414109396934509,
      "loss/logits": 1.6106845080852508,
      "step": 1580
    },
    {
      "epoch": 0.0159,
      "grad_norm": 8.125,
      "grad_norm_var": 0.25833333333333336,
      "learning_rate": 0.0003,
      "loss": 19.716,
      "loss/aux_loss": 0.048247416689991954,
      "loss/crossentropy": 3.4498027682304384,
      "loss/logits": 1.621438193321228,
      "step": 1590
    },
    {
      "epoch": 0.016,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.28177083333333336,
      "learning_rate": 0.0003,
      "loss": 19.6554,
      "loss/aux_loss": 0.048260800912976264,
      "loss/crossentropy": 3.564990556240082,
      "loss/logits": 1.6194686591625214,
      "step": 1600
    },
    {
      "epoch": 0.0161,
      "grad_norm": 9.75,
      "grad_norm_var": 0.21692708333333333,
      "learning_rate": 0.0003,
      "loss": 19.6566,
      "loss/aux_loss": 0.048259117268025876,
      "loss/crossentropy": 3.4118771314620973,
      "loss/logits": 1.6117245256900787,
      "step": 1610
    },
    {
      "epoch": 0.0162,
      "grad_norm": 8.6875,
      "grad_norm_var": 1.2012858072916666,
      "learning_rate": 0.0003,
      "loss": 19.2843,
      "loss/aux_loss": 0.04827672149986029,
      "loss/crossentropy": 3.3465479731559755,
      "loss/logits": 1.5816888511180878,
      "step": 1620
    },
    {
      "epoch": 0.0163,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.2676920572916667,
      "learning_rate": 0.0003,
      "loss": 19.4599,
      "loss/aux_loss": 0.048250201344490054,
      "loss/crossentropy": 3.515201151371002,
      "loss/logits": 1.5413510143756866,
      "step": 1630
    },
    {
      "epoch": 0.0164,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.42831624348958336,
      "learning_rate": 0.0003,
      "loss": 19.4,
      "loss/aux_loss": 0.04824144206941128,
      "loss/crossentropy": 3.4953723192214965,
      "loss/logits": 1.6243361711502076,
      "step": 1640
    },
    {
      "epoch": 0.0165,
      "grad_norm": 8.125,
      "grad_norm_var": 0.42760009765625,
      "learning_rate": 0.0003,
      "loss": 19.5616,
      "loss/aux_loss": 0.04824843630194664,
      "loss/crossentropy": 3.373341774940491,
      "loss/logits": 1.5757689416408538,
      "step": 1650
    },
    {
      "epoch": 0.0166,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.18840738932291667,
      "learning_rate": 0.0003,
      "loss": 19.2866,
      "loss/aux_loss": 0.04825681522488594,
      "loss/crossentropy": 3.339651143550873,
      "loss/logits": 1.5976973354816437,
      "step": 1660
    },
    {
      "epoch": 0.0167,
      "grad_norm": 9.125,
      "grad_norm_var": 5.00054931640625,
      "learning_rate": 0.0003,
      "loss": 19.5115,
      "loss/aux_loss": 0.04826808106154203,
      "loss/crossentropy": 3.5275720238685606,
      "loss/logits": 1.5411208510398864,
      "step": 1670
    },
    {
      "epoch": 0.0168,
      "grad_norm": 10.1875,
      "grad_norm_var": 47.442952473958336,
      "learning_rate": 0.0003,
      "loss": 19.3194,
      "loss/aux_loss": 0.048269005678594115,
      "loss/crossentropy": 3.509286916255951,
      "loss/logits": 1.5299911737442016,
      "step": 1680
    },
    {
      "epoch": 0.0169,
      "grad_norm": 8.0625,
      "grad_norm_var": 45.85546875,
      "learning_rate": 0.0003,
      "loss": 19.2647,
      "loss/aux_loss": 0.048268322832882404,
      "loss/crossentropy": 3.4770318508148192,
      "loss/logits": 1.552085292339325,
      "step": 1690
    },
    {
      "epoch": 0.017,
      "grad_norm": 8.375,
      "grad_norm_var": 0.31067301432291666,
      "learning_rate": 0.0003,
      "loss": 19.1182,
      "loss/aux_loss": 0.048229466564953326,
      "loss/crossentropy": 3.3933613896369934,
      "loss/logits": 1.5347690343856812,
      "step": 1700
    },
    {
      "epoch": 0.0171,
      "grad_norm": 8.125,
      "grad_norm_var": 0.16428629557291666,
      "learning_rate": 0.0003,
      "loss": 19.4514,
      "loss/aux_loss": 0.04824534244835377,
      "loss/crossentropy": 3.460851287841797,
      "loss/logits": 1.5554963886737823,
      "step": 1710
    },
    {
      "epoch": 0.0172,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.14095052083333334,
      "learning_rate": 0.0003,
      "loss": 19.0598,
      "loss/aux_loss": 0.0482347022742033,
      "loss/crossentropy": 3.4911609292030334,
      "loss/logits": 1.6111477196216584,
      "step": 1720
    },
    {
      "epoch": 0.0173,
      "grad_norm": 10.1875,
      "grad_norm_var": 8.088505045572917,
      "learning_rate": 0.0003,
      "loss": 19.2344,
      "loss/aux_loss": 0.04825140796601772,
      "loss/crossentropy": 3.6284345746040345,
      "loss/logits": 1.5853043377399445,
      "step": 1730
    },
    {
      "epoch": 0.0174,
      "grad_norm": 8.4375,
      "grad_norm_var": 8.165690104166666,
      "learning_rate": 0.0003,
      "loss": 18.7796,
      "loss/aux_loss": 0.04823643118143082,
      "loss/crossentropy": 3.4696247935295106,
      "loss/logits": 1.61273393034935,
      "step": 1740
    },
    {
      "epoch": 0.0175,
      "grad_norm": 7.84375,
      "grad_norm_var": 0.20670166015625,
      "learning_rate": 0.0003,
      "loss": 18.8781,
      "loss/aux_loss": 0.04823619779199362,
      "loss/crossentropy": 3.4937520623207092,
      "loss/logits": 1.5296509921550752,
      "step": 1750
    },
    {
      "epoch": 0.0176,
      "grad_norm": 8.375,
      "grad_norm_var": 0.24099934895833333,
      "learning_rate": 0.0003,
      "loss": 18.7339,
      "loss/aux_loss": 0.04824729897081852,
      "loss/crossentropy": 3.497152864933014,
      "loss/logits": 1.575348162651062,
      "step": 1760
    },
    {
      "epoch": 0.0177,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.38118082682291665,
      "learning_rate": 0.0003,
      "loss": 18.8957,
      "loss/aux_loss": 0.04825843013823032,
      "loss/crossentropy": 3.3257681131362915,
      "loss/logits": 1.5223451495170592,
      "step": 1770
    },
    {
      "epoch": 0.0178,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.24722900390625,
      "learning_rate": 0.0003,
      "loss": 19.0113,
      "loss/aux_loss": 0.04823619592934847,
      "loss/crossentropy": 3.5192960858345033,
      "loss/logits": 1.6035509347915649,
      "step": 1780
    },
    {
      "epoch": 0.0179,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.14099934895833333,
      "learning_rate": 0.0003,
      "loss": 18.8621,
      "loss/aux_loss": 0.04824311789125204,
      "loss/crossentropy": 3.4132414937019346,
      "loss/logits": 1.5165437579154968,
      "step": 1790
    },
    {
      "epoch": 0.018,
      "grad_norm": 8.6875,
      "grad_norm_var": 3.5010050455729167,
      "learning_rate": 0.0003,
      "loss": 18.6503,
      "loss/aux_loss": 0.04824370257556439,
      "loss/crossentropy": 3.402624809741974,
      "loss/logits": 1.53942152261734,
      "step": 1800
    },
    {
      "epoch": 0.0181,
      "grad_norm": 8.5,
      "grad_norm_var": 58.00753580729167,
      "learning_rate": 0.0003,
      "loss": 19.3208,
      "loss/aux_loss": 0.04827347882091999,
      "loss/crossentropy": 3.6006906509399412,
      "loss/logits": 1.5737698435783387,
      "step": 1810
    },
    {
      "epoch": 0.0182,
      "grad_norm": 8.5625,
      "grad_norm_var": 60.507405598958336,
      "learning_rate": 0.0003,
      "loss": 18.8721,
      "loss/aux_loss": 0.04824970234185457,
      "loss/crossentropy": 3.5692302942276,
      "loss/logits": 1.5307071149349212,
      "step": 1820
    },
    {
      "epoch": 0.0183,
      "grad_norm": 11.25,
      "grad_norm_var": 6.178238932291666,
      "learning_rate": 0.0003,
      "loss": 18.5814,
      "loss/aux_loss": 0.04826509784907103,
      "loss/crossentropy": 3.40536652803421,
      "loss/logits": 1.5309065878391266,
      "step": 1830
    },
    {
      "epoch": 0.0184,
      "grad_norm": 8.125,
      "grad_norm_var": 6.129427083333334,
      "learning_rate": 0.0003,
      "loss": 18.7299,
      "loss/aux_loss": 0.0482620395720005,
      "loss/crossentropy": 3.196433222293854,
      "loss/logits": 1.4907720267772675,
      "step": 1840
    },
    {
      "epoch": 0.0185,
      "grad_norm": 8.3125,
      "grad_norm_var": 0.17825520833333333,
      "learning_rate": 0.0003,
      "loss": 18.7455,
      "loss/aux_loss": 0.04824581053107977,
      "loss/crossentropy": 3.423103988170624,
      "loss/logits": 1.5436949849128723,
      "step": 1850
    },
    {
      "epoch": 0.0186,
      "grad_norm": 8.375,
      "grad_norm_var": 2.1146484375,
      "learning_rate": 0.0003,
      "loss": 18.6511,
      "loss/aux_loss": 0.048259328678250314,
      "loss/crossentropy": 3.3652100563049316,
      "loss/logits": 1.4386920034885406,
      "step": 1860
    },
    {
      "epoch": 0.0187,
      "grad_norm": 8.5625,
      "grad_norm_var": 1.8754191080729166,
      "learning_rate": 0.0003,
      "loss": 18.607,
      "loss/aux_loss": 0.04825924132019281,
      "loss/crossentropy": 3.448017656803131,
      "loss/logits": 1.536920464038849,
      "step": 1870
    },
    {
      "epoch": 0.0188,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.24664306640625,
      "learning_rate": 0.0003,
      "loss": 18.5559,
      "loss/aux_loss": 0.048245815001428126,
      "loss/crossentropy": 3.3453487277030947,
      "loss/logits": 1.5264363229274749,
      "step": 1880
    },
    {
      "epoch": 0.0189,
      "grad_norm": 7.875,
      "grad_norm_var": 0.310791015625,
      "learning_rate": 0.0003,
      "loss": 18.5365,
      "loss/aux_loss": 0.04823654443025589,
      "loss/crossentropy": 3.373169445991516,
      "loss/logits": 1.5205184280872346,
      "step": 1890
    },
    {
      "epoch": 0.019,
      "grad_norm": 7.75,
      "grad_norm_var": 0.32105712890625,
      "learning_rate": 0.0003,
      "loss": 18.496,
      "loss/aux_loss": 0.048227923549711706,
      "loss/crossentropy": 3.2882206797599793,
      "loss/logits": 1.566467821598053,
      "step": 1900
    },
    {
      "epoch": 0.0191,
      "grad_norm": 8.0,
      "grad_norm_var": 0.301416015625,
      "learning_rate": 0.0003,
      "loss": 18.2065,
      "loss/aux_loss": 0.04824189618229866,
      "loss/crossentropy": 3.397510600090027,
      "loss/logits": 1.4857994496822358,
      "step": 1910
    },
    {
      "epoch": 0.0192,
      "grad_norm": 7.78125,
      "grad_norm_var": 0.6359212239583333,
      "learning_rate": 0.0003,
      "loss": 18.5913,
      "loss/aux_loss": 0.04824940506368876,
      "loss/crossentropy": 3.396523857116699,
      "loss/logits": 1.516043496131897,
      "step": 1920
    },
    {
      "epoch": 0.0193,
      "grad_norm": 7.71875,
      "grad_norm_var": 0.7240885416666667,
      "learning_rate": 0.0003,
      "loss": 18.9066,
      "loss/aux_loss": 0.04823889695107937,
      "loss/crossentropy": 3.5669950366020204,
      "loss/logits": 1.5904681384563446,
      "step": 1930
    },
    {
      "epoch": 0.0194,
      "grad_norm": 8.5,
      "grad_norm_var": 0.16226806640625,
      "learning_rate": 0.0003,
      "loss": 18.5454,
      "loss/aux_loss": 0.04824310019612312,
      "loss/crossentropy": 3.4322083711624147,
      "loss/logits": 1.4962215423583984,
      "step": 1940
    },
    {
      "epoch": 0.0195,
      "grad_norm": 7.8125,
      "grad_norm_var": 0.13033854166666667,
      "learning_rate": 0.0003,
      "loss": 18.4341,
      "loss/aux_loss": 0.048227659240365026,
      "loss/crossentropy": 3.4103391289711,
      "loss/logits": 1.486283725500107,
      "step": 1950
    },
    {
      "epoch": 0.0196,
      "grad_norm": 7.71875,
      "grad_norm_var": 0.22428385416666666,
      "learning_rate": 0.0003,
      "loss": 18.2887,
      "loss/aux_loss": 0.04824389982968569,
      "loss/crossentropy": 3.2727973818778993,
      "loss/logits": 1.4560063302516937,
      "step": 1960
    },
    {
      "epoch": 0.0197,
      "grad_norm": 13.8125,
      "grad_norm_var": 2.357926432291667,
      "learning_rate": 0.0003,
      "loss": 18.2356,
      "loss/aux_loss": 0.04824434258043766,
      "loss/crossentropy": 3.459345853328705,
      "loss/logits": 1.460297852754593,
      "step": 1970
    },
    {
      "epoch": 0.0198,
      "grad_norm": 11.4375,
      "grad_norm_var": 18.870817057291667,
      "learning_rate": 0.0003,
      "loss": 18.5238,
      "loss/aux_loss": 0.04825907479971647,
      "loss/crossentropy": 3.424750554561615,
      "loss/logits": 1.5167337119579316,
      "step": 1980
    },
    {
      "epoch": 0.0199,
      "grad_norm": 7.90625,
      "grad_norm_var": 18.401546223958334,
      "learning_rate": 0.0003,
      "loss": 18.2073,
      "loss/aux_loss": 0.04825407154858112,
      "loss/crossentropy": 3.2709259510040285,
      "loss/logits": 1.4685286700725555,
      "step": 1990
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.96875,
      "grad_norm_var": 0.3753865559895833,
      "learning_rate": 0.0003,
      "loss": 18.0374,
      "loss/aux_loss": 0.04822464138269424,
      "loss/crossentropy": 3.350880300998688,
      "loss/logits": 1.4842880725860597,
      "step": 2000
    },
    {
      "epoch": 0.0201,
      "grad_norm": 9.0,
      "grad_norm_var": 54.53902587890625,
      "learning_rate": 0.0003,
      "loss": 18.1583,
      "loss/aux_loss": 0.04824762139469385,
      "loss/crossentropy": 3.2653831958770754,
      "loss/logits": 1.4564920663833618,
      "step": 2010
    },
    {
      "epoch": 0.0202,
      "grad_norm": 13.9375,
      "grad_norm_var": 54.16106363932292,
      "learning_rate": 0.0003,
      "loss": 17.7872,
      "loss/aux_loss": 0.04823515806347132,
      "loss/crossentropy": 3.265163505077362,
      "loss/logits": 1.410541558265686,
      "step": 2020
    },
    {
      "epoch": 0.0203,
      "grad_norm": 8.3125,
      "grad_norm_var": 2.7471964518229166,
      "learning_rate": 0.0003,
      "loss": 18.125,
      "loss/aux_loss": 0.048241624422371385,
      "loss/crossentropy": 3.389461839199066,
      "loss/logits": 1.46819948554039,
      "step": 2030
    },
    {
      "epoch": 0.0204,
      "grad_norm": 7.71875,
      "grad_norm_var": 0.14091389973958332,
      "learning_rate": 0.0003,
      "loss": 18.0986,
      "loss/aux_loss": 0.04822319280356169,
      "loss/crossentropy": 3.543317806720734,
      "loss/logits": 1.5373745501041411,
      "step": 2040
    },
    {
      "epoch": 0.0205,
      "grad_norm": 7.625,
      "grad_norm_var": 0.67301025390625,
      "learning_rate": 0.0003,
      "loss": 18.102,
      "loss/aux_loss": 0.04826016817241907,
      "loss/crossentropy": 3.3688653111457825,
      "loss/logits": 1.4797544002532959,
      "step": 2050
    },
    {
      "epoch": 0.0206,
      "grad_norm": 17.5,
      "grad_norm_var": 5.9224609375,
      "learning_rate": 0.0003,
      "loss": 18.1704,
      "loss/aux_loss": 0.04823215901851654,
      "loss/crossentropy": 3.3886295437812803,
      "loss/logits": 1.4773655652999877,
      "step": 2060
    },
    {
      "epoch": 0.0207,
      "grad_norm": 8.5,
      "grad_norm_var": 5.833333333333333,
      "learning_rate": 0.0003,
      "loss": 17.9943,
      "loss/aux_loss": 0.04824898187071085,
      "loss/crossentropy": 3.1112423300743104,
      "loss/logits": 1.4438789427280425,
      "step": 2070
    },
    {
      "epoch": 0.0208,
      "grad_norm": 7.46875,
      "grad_norm_var": 0.5363932291666667,
      "learning_rate": 0.0003,
      "loss": 18.0344,
      "loss/aux_loss": 0.0482429688796401,
      "loss/crossentropy": 3.352174973487854,
      "loss/logits": 1.4526370763778687,
      "step": 2080
    },
    {
      "epoch": 0.0209,
      "grad_norm": 7.65625,
      "grad_norm_var": 0.14293212890625,
      "learning_rate": 0.0003,
      "loss": 18.11,
      "loss/aux_loss": 0.048234878666698934,
      "loss/crossentropy": 3.240985023975372,
      "loss/logits": 1.4991967618465423,
      "step": 2090
    },
    {
      "epoch": 0.021,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.07864176432291667,
      "learning_rate": 0.0003,
      "loss": 17.8796,
      "loss/aux_loss": 0.04822954386472702,
      "loss/crossentropy": 3.5183646202087404,
      "loss/logits": 1.4771794497966766,
      "step": 2100
    },
    {
      "epoch": 0.0211,
      "grad_norm": 8.0,
      "grad_norm_var": 0.15666910807291667,
      "learning_rate": 0.0003,
      "loss": 17.8422,
      "loss/aux_loss": 0.048239548690617085,
      "loss/crossentropy": 3.3616485238075255,
      "loss/logits": 1.4091070950031281,
      "step": 2110
    },
    {
      "epoch": 0.0212,
      "grad_norm": 7.9375,
      "grad_norm_var": 11.716109212239584,
      "learning_rate": 0.0003,
      "loss": 17.7719,
      "loss/aux_loss": 0.04824555143713951,
      "loss/crossentropy": 3.439083182811737,
      "loss/logits": 1.4733355700969697,
      "step": 2120
    },
    {
      "epoch": 0.0213,
      "grad_norm": 8.5625,
      "grad_norm_var": 84.65826822916667,
      "learning_rate": 0.0003,
      "loss": 17.7924,
      "loss/aux_loss": 0.048250272311270236,
      "loss/crossentropy": 3.4830735325813293,
      "loss/logits": 1.4258549392223359,
      "step": 2130
    },
    {
      "epoch": 0.0214,
      "grad_norm": 8.125,
      "grad_norm_var": 53.116520182291666,
      "learning_rate": 0.0003,
      "loss": 17.8883,
      "loss/aux_loss": 0.048237613029778005,
      "loss/crossentropy": 3.2555914759635924,
      "loss/logits": 1.4283065259456635,
      "step": 2140
    },
    {
      "epoch": 0.0215,
      "grad_norm": 8.125,
      "grad_norm_var": 0.3610310872395833,
      "learning_rate": 0.0003,
      "loss": 17.6419,
      "loss/aux_loss": 0.04823284205049276,
      "loss/crossentropy": 3.3793551921844482,
      "loss/logits": 1.4274089336395264,
      "step": 2150
    },
    {
      "epoch": 0.0216,
      "grad_norm": 7.21875,
      "grad_norm_var": 1.8485677083333334,
      "learning_rate": 0.0003,
      "loss": 17.6442,
      "loss/aux_loss": 0.048232033289968966,
      "loss/crossentropy": 3.2164774179458617,
      "loss/logits": 1.4371109902858734,
      "step": 2160
    },
    {
      "epoch": 0.0217,
      "grad_norm": 7.71875,
      "grad_norm_var": 1.8079264322916666,
      "learning_rate": 0.0003,
      "loss": 17.7263,
      "loss/aux_loss": 0.04821321051567793,
      "loss/crossentropy": 3.3871463894844056,
      "loss/logits": 1.4453998267650605,
      "step": 2170
    },
    {
      "epoch": 0.0218,
      "grad_norm": 8.875,
      "grad_norm_var": 0.3880859375,
      "learning_rate": 0.0003,
      "loss": 17.6607,
      "loss/aux_loss": 0.048226891085505486,
      "loss/crossentropy": 3.213350570201874,
      "loss/logits": 1.4165163397789002,
      "step": 2180
    },
    {
      "epoch": 0.0219,
      "grad_norm": 8.125,
      "grad_norm_var": 0.4266764322916667,
      "learning_rate": 0.0003,
      "loss": 17.7184,
      "loss/aux_loss": 0.04822581373155117,
      "loss/crossentropy": 3.582288146018982,
      "loss/logits": 1.4369397819042207,
      "step": 2190
    },
    {
      "epoch": 0.022,
      "grad_norm": 8.3125,
      "grad_norm_var": 0.914306640625,
      "learning_rate": 0.0003,
      "loss": 17.7448,
      "loss/aux_loss": 0.04825443848967552,
      "loss/crossentropy": 3.306717586517334,
      "loss/logits": 1.4155293583869935,
      "step": 2200
    },
    {
      "epoch": 0.0221,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.8086222330729167,
      "learning_rate": 0.0003,
      "loss": 17.6038,
      "loss/aux_loss": 0.04823794979602099,
      "loss/crossentropy": 3.26631623506546,
      "loss/logits": 1.3826520234346389,
      "step": 2210
    },
    {
      "epoch": 0.0222,
      "grad_norm": 7.75,
      "grad_norm_var": 0.35058186848958334,
      "learning_rate": 0.0003,
      "loss": 17.5963,
      "loss/aux_loss": 0.048243265226483346,
      "loss/crossentropy": 3.28060497045517,
      "loss/logits": 1.4131011009216308,
      "step": 2220
    },
    {
      "epoch": 0.0223,
      "grad_norm": 7.625,
      "grad_norm_var": 0.18853759765625,
      "learning_rate": 0.0003,
      "loss": 17.6245,
      "loss/aux_loss": 0.04822924640029669,
      "loss/crossentropy": 3.287998414039612,
      "loss/logits": 1.4267325103282928,
      "step": 2230
    },
    {
      "epoch": 0.0224,
      "grad_norm": 7.875,
      "grad_norm_var": 0.257421875,
      "learning_rate": 0.0003,
      "loss": 17.6129,
      "loss/aux_loss": 0.04821740183979273,
      "loss/crossentropy": 3.378717005252838,
      "loss/logits": 1.4063582181930543,
      "step": 2240
    },
    {
      "epoch": 0.0225,
      "grad_norm": 7.59375,
      "grad_norm_var": 0.20963541666666666,
      "learning_rate": 0.0003,
      "loss": 17.6276,
      "loss/aux_loss": 0.04823744297027588,
      "loss/crossentropy": 3.4024731159210204,
      "loss/logits": 1.4467666923999787,
      "step": 2250
    },
    {
      "epoch": 0.0226,
      "grad_norm": 8.875,
      "grad_norm_var": 0.246484375,
      "learning_rate": 0.0003,
      "loss": 17.6328,
      "loss/aux_loss": 0.04822640102356672,
      "loss/crossentropy": 3.333562135696411,
      "loss/logits": 1.4312103688716888,
      "step": 2260
    },
    {
      "epoch": 0.0227,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.67398681640625,
      "learning_rate": 0.0003,
      "loss": 17.5135,
      "loss/aux_loss": 0.04822310116142035,
      "loss/crossentropy": 3.320937788486481,
      "loss/logits": 1.418309098482132,
      "step": 2270
    },
    {
      "epoch": 0.0228,
      "grad_norm": 6.90625,
      "grad_norm_var": 0.44390869140625,
      "learning_rate": 0.0003,
      "loss": 17.3436,
      "loss/aux_loss": 0.04823301304131746,
      "loss/crossentropy": 3.12678724527359,
      "loss/logits": 1.379988819360733,
      "step": 2280
    },
    {
      "epoch": 0.0229,
      "grad_norm": 11.625,
      "grad_norm_var": 1.3313761393229167,
      "learning_rate": 0.0003,
      "loss": 17.6211,
      "loss/aux_loss": 0.04822282623499632,
      "loss/crossentropy": 3.2918911814689635,
      "loss/logits": 1.4198866367340088,
      "step": 2290
    },
    {
      "epoch": 0.023,
      "grad_norm": 8.0,
      "grad_norm_var": 1.1663899739583334,
      "learning_rate": 0.0003,
      "loss": 17.4747,
      "loss/aux_loss": 0.048235368356108664,
      "loss/crossentropy": 3.306833505630493,
      "loss/logits": 1.392419272661209,
      "step": 2300
    },
    {
      "epoch": 0.0231,
      "grad_norm": 7.3125,
      "grad_norm_var": 0.33331705729166666,
      "learning_rate": 0.0003,
      "loss": 17.2234,
      "loss/aux_loss": 0.048222755640745164,
      "loss/crossentropy": 3.361720085144043,
      "loss/logits": 1.421975213289261,
      "step": 2310
    },
    {
      "epoch": 0.0232,
      "grad_norm": 9.75,
      "grad_norm_var": 112.17330322265624,
      "learning_rate": 0.0003,
      "loss": 17.2352,
      "loss/aux_loss": 0.048219884373247625,
      "loss/crossentropy": 3.3393725872039797,
      "loss/logits": 1.4201282680034637,
      "step": 2320
    },
    {
      "epoch": 0.0233,
      "grad_norm": 8.1875,
      "grad_norm_var": 110.715625,
      "learning_rate": 0.0003,
      "loss": 17.2496,
      "loss/aux_loss": 0.04821732547134161,
      "loss/crossentropy": 3.389024722576141,
      "loss/logits": 1.435178142786026,
      "step": 2330
    },
    {
      "epoch": 0.0234,
      "grad_norm": 6.96875,
      "grad_norm_var": 0.2806640625,
      "learning_rate": 0.0003,
      "loss": 17.331,
      "loss/aux_loss": 0.04822313766926527,
      "loss/crossentropy": 3.232159233093262,
      "loss/logits": 1.3994586706161498,
      "step": 2340
    },
    {
      "epoch": 0.0235,
      "grad_norm": 7.96875,
      "grad_norm_var": 0.2126953125,
      "learning_rate": 0.0003,
      "loss": 17.2108,
      "loss/aux_loss": 0.04821410346776247,
      "loss/crossentropy": 3.443037581443787,
      "loss/logits": 1.4070569813251494,
      "step": 2350
    },
    {
      "epoch": 0.0236,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.13619384765625,
      "learning_rate": 0.0003,
      "loss": 17.301,
      "loss/aux_loss": 0.048248034156858924,
      "loss/crossentropy": 3.349116563796997,
      "loss/logits": 1.3975160002708436,
      "step": 2360
    },
    {
      "epoch": 0.0237,
      "grad_norm": 7.84375,
      "grad_norm_var": 2.121415201822917,
      "learning_rate": 0.0003,
      "loss": 17.1628,
      "loss/aux_loss": 0.04823202043771744,
      "loss/crossentropy": 3.340719926357269,
      "loss/logits": 1.3724242806434632,
      "step": 2370
    },
    {
      "epoch": 0.0238,
      "grad_norm": 7.9375,
      "grad_norm_var": 1.950390625,
      "learning_rate": 0.0003,
      "loss": 17.2873,
      "loss/aux_loss": 0.0482368228957057,
      "loss/crossentropy": 3.295661818981171,
      "loss/logits": 1.4170908331871033,
      "step": 2380
    },
    {
      "epoch": 0.0239,
      "grad_norm": 7.84375,
      "grad_norm_var": 0.28982747395833336,
      "learning_rate": 0.0003,
      "loss": 17.1479,
      "loss/aux_loss": 0.048220128566026685,
      "loss/crossentropy": 3.149917113780975,
      "loss/logits": 1.3780086159706115,
      "step": 2390
    },
    {
      "epoch": 0.024,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.56021728515625,
      "learning_rate": 0.0003,
      "loss": 16.9571,
      "loss/aux_loss": 0.04820647966116667,
      "loss/crossentropy": 3.203866708278656,
      "loss/logits": 1.3228682637214662,
      "step": 2400
    },
    {
      "epoch": 0.0241,
      "grad_norm": 7.6875,
      "grad_norm_var": 0.18140869140625,
      "learning_rate": 0.0003,
      "loss": 17.225,
      "loss/aux_loss": 0.04822152461856603,
      "loss/crossentropy": 3.219542622566223,
      "loss/logits": 1.3637619763612747,
      "step": 2410
    },
    {
      "epoch": 0.0242,
      "grad_norm": 7.28125,
      "grad_norm_var": 0.19696858723958333,
      "learning_rate": 0.0003,
      "loss": 17.3445,
      "loss/aux_loss": 0.04821507520973682,
      "loss/crossentropy": 3.437433052062988,
      "loss/logits": 1.4493371307849885,
      "step": 2420
    },
    {
      "epoch": 0.0243,
      "grad_norm": 9.5,
      "grad_norm_var": 0.36900634765625,
      "learning_rate": 0.0003,
      "loss": 17.2769,
      "loss/aux_loss": 0.048233349435031415,
      "loss/crossentropy": 3.327606177330017,
      "loss/logits": 1.3730829060077667,
      "step": 2430
    },
    {
      "epoch": 0.0244,
      "grad_norm": 7.0625,
      "grad_norm_var": 0.58326416015625,
      "learning_rate": 0.0003,
      "loss": 17.1716,
      "loss/aux_loss": 0.04821010734885931,
      "loss/crossentropy": 3.442364740371704,
      "loss/logits": 1.3955539762973785,
      "step": 2440
    },
    {
      "epoch": 0.0245,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.19250895182291666,
      "learning_rate": 0.0003,
      "loss": 17.0851,
      "loss/aux_loss": 0.04822715688496828,
      "loss/crossentropy": 3.262503242492676,
      "loss/logits": 1.3460212230682373,
      "step": 2450
    },
    {
      "epoch": 0.0246,
      "grad_norm": 7.125,
      "grad_norm_var": 0.09498697916666667,
      "learning_rate": 0.0003,
      "loss": 16.9652,
      "loss/aux_loss": 0.04821744803339243,
      "loss/crossentropy": 3.3741399884223937,
      "loss/logits": 1.4004681944847106,
      "step": 2460
    },
    {
      "epoch": 0.0247,
      "grad_norm": 7.875,
      "grad_norm_var": 0.21073811848958332,
      "learning_rate": 0.0003,
      "loss": 16.7236,
      "loss/aux_loss": 0.048226969130337236,
      "loss/crossentropy": 3.1367203831672668,
      "loss/logits": 1.3466423988342284,
      "step": 2470
    },
    {
      "epoch": 0.0248,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.46910400390625,
      "learning_rate": 0.0003,
      "loss": 17.0984,
      "loss/aux_loss": 0.048214548453688624,
      "loss/crossentropy": 3.2789533734321594,
      "loss/logits": 1.3584135174751282,
      "step": 2480
    },
    {
      "epoch": 0.0249,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.721337890625,
      "learning_rate": 0.0003,
      "loss": 17.1085,
      "loss/aux_loss": 0.048216362856328486,
      "loss/crossentropy": 3.315259212255478,
      "loss/logits": 1.396775197982788,
      "step": 2490
    },
    {
      "epoch": 0.025,
      "grad_norm": 7.46875,
      "grad_norm_var": 1.4252604166666667,
      "learning_rate": 0.0003,
      "loss": 16.9872,
      "loss/aux_loss": 0.048228930495679376,
      "loss/crossentropy": 3.373861300945282,
      "loss/logits": 1.3967225074768066,
      "step": 2500
    },
    {
      "epoch": 0.0251,
      "grad_norm": 9.625,
      "grad_norm_var": 1.22525634765625,
      "learning_rate": 0.0003,
      "loss": 17.1017,
      "loss/aux_loss": 0.04823280908167362,
      "loss/crossentropy": 3.2639551222324372,
      "loss/logits": 1.3296611040830613,
      "step": 2510
    },
    {
      "epoch": 0.0252,
      "grad_norm": 8.25,
      "grad_norm_var": 18.701493326822916,
      "learning_rate": 0.0003,
      "loss": 16.9072,
      "loss/aux_loss": 0.04824296310544014,
      "loss/crossentropy": 3.264930558204651,
      "loss/logits": 1.3745314061641694,
      "step": 2520
    },
    {
      "epoch": 0.0253,
      "grad_norm": 7.03125,
      "grad_norm_var": 18.965034993489585,
      "learning_rate": 0.0003,
      "loss": 16.7434,
      "loss/aux_loss": 0.048214029893279074,
      "loss/crossentropy": 3.231077790260315,
      "loss/logits": 1.3421391308307649,
      "step": 2530
    },
    {
      "epoch": 0.0254,
      "grad_norm": 8.375,
      "grad_norm_var": 0.3060546875,
      "learning_rate": 0.0003,
      "loss": 16.8817,
      "loss/aux_loss": 0.048227564059197904,
      "loss/crossentropy": 3.341559386253357,
      "loss/logits": 1.367657434940338,
      "step": 2540
    },
    {
      "epoch": 0.0255,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.450634765625,
      "learning_rate": 0.0003,
      "loss": 16.6762,
      "loss/aux_loss": 0.04822465777397156,
      "loss/crossentropy": 3.1764264702796936,
      "loss/logits": 1.2923425018787384,
      "step": 2550
    },
    {
      "epoch": 0.0256,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.9891560872395834,
      "learning_rate": 0.0003,
      "loss": 16.982,
      "loss/aux_loss": 0.04822836928069592,
      "loss/crossentropy": 3.1380072832107544,
      "loss/logits": 1.329880553483963,
      "step": 2560
    },
    {
      "epoch": 0.0257,
      "grad_norm": 7.0625,
      "grad_norm_var": 6.76246337890625,
      "learning_rate": 0.0003,
      "loss": 16.8472,
      "loss/aux_loss": 0.048224599473178385,
      "loss/crossentropy": 3.171788203716278,
      "loss/logits": 1.3234851002693175,
      "step": 2570
    },
    {
      "epoch": 0.0258,
      "grad_norm": 7.75,
      "grad_norm_var": 7.284305826822917,
      "learning_rate": 0.0003,
      "loss": 16.7384,
      "loss/aux_loss": 0.04820049479603768,
      "loss/crossentropy": 3.2456391513347627,
      "loss/logits": 1.3257298290729522,
      "step": 2580
    },
    {
      "epoch": 0.0259,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.70699462890625,
      "learning_rate": 0.0003,
      "loss": 16.7462,
      "loss/aux_loss": 0.04820205494761467,
      "loss/crossentropy": 3.2381733298301696,
      "loss/logits": 1.3446310222148896,
      "step": 2590
    },
    {
      "epoch": 0.026,
      "grad_norm": 6.875,
      "grad_norm_var": 0.3619140625,
      "learning_rate": 0.0003,
      "loss": 16.7997,
      "loss/aux_loss": 0.0482096241787076,
      "loss/crossentropy": 3.317233157157898,
      "loss/logits": 1.3122055113315583,
      "step": 2600
    },
    {
      "epoch": 0.0261,
      "grad_norm": 7.25,
      "grad_norm_var": 0.3204264322916667,
      "learning_rate": 0.0003,
      "loss": 16.7259,
      "loss/aux_loss": 0.04821378495544195,
      "loss/crossentropy": 3.224324756860733,
      "loss/logits": 1.362189695239067,
      "step": 2610
    },
    {
      "epoch": 0.0262,
      "grad_norm": 7.84375,
      "grad_norm_var": 2.25601806640625,
      "learning_rate": 0.0003,
      "loss": 16.4682,
      "loss/aux_loss": 0.04823370911180973,
      "loss/crossentropy": 3.174444782733917,
      "loss/logits": 1.3091946482658385,
      "step": 2620
    },
    {
      "epoch": 0.0263,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.55625,
      "learning_rate": 0.0003,
      "loss": 16.8187,
      "loss/aux_loss": 0.048213068023324014,
      "loss/crossentropy": 3.3021878719329836,
      "loss/logits": 1.3765088856220244,
      "step": 2630
    },
    {
      "epoch": 0.0264,
      "grad_norm": 7.6875,
      "grad_norm_var": 0.21092122395833332,
      "learning_rate": 0.0003,
      "loss": 16.6867,
      "loss/aux_loss": 0.0482132213190198,
      "loss/crossentropy": 3.2036616921424867,
      "loss/logits": 1.3353200852870941,
      "step": 2640
    },
    {
      "epoch": 0.0265,
      "grad_norm": 7.65625,
      "grad_norm_var": 0.17981770833333333,
      "learning_rate": 0.0003,
      "loss": 16.6249,
      "loss/aux_loss": 0.048217184469103815,
      "loss/crossentropy": 3.1017094254493713,
      "loss/logits": 1.293505471944809,
      "step": 2650
    },
    {
      "epoch": 0.0266,
      "grad_norm": 7.28125,
      "grad_norm_var": 0.24312744140625,
      "learning_rate": 0.0003,
      "loss": 16.8997,
      "loss/aux_loss": 0.04821909796446562,
      "loss/crossentropy": 3.3471083879470824,
      "loss/logits": 1.4033735275268555,
      "step": 2660
    },
    {
      "epoch": 0.0267,
      "grad_norm": 8.25,
      "grad_norm_var": 0.14654541015625,
      "learning_rate": 0.0003,
      "loss": 16.6097,
      "loss/aux_loss": 0.04820960406213999,
      "loss/crossentropy": 3.306285870075226,
      "loss/logits": 1.3414114236831665,
      "step": 2670
    },
    {
      "epoch": 0.0268,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.12222900390625,
      "learning_rate": 0.0003,
      "loss": 16.7267,
      "loss/aux_loss": 0.04820468667894602,
      "loss/crossentropy": 3.1302775621414183,
      "loss/logits": 1.3628006160259247,
      "step": 2680
    },
    {
      "epoch": 0.0269,
      "grad_norm": 7.5,
      "grad_norm_var": 0.09217122395833334,
      "learning_rate": 0.0003,
      "loss": 16.6414,
      "loss/aux_loss": 0.04819583874195814,
      "loss/crossentropy": 3.252695155143738,
      "loss/logits": 1.3152020871639252,
      "step": 2690
    },
    {
      "epoch": 0.027,
      "grad_norm": 6.9375,
      "grad_norm_var": 0.1095703125,
      "learning_rate": 0.0003,
      "loss": 16.5657,
      "loss/aux_loss": 0.04820863176137209,
      "loss/crossentropy": 3.3271077156066893,
      "loss/logits": 1.3572327196598053,
      "step": 2700
    },
    {
      "epoch": 0.0271,
      "grad_norm": 7.125,
      "grad_norm_var": 0.19192301432291667,
      "learning_rate": 0.0003,
      "loss": 16.5538,
      "loss/aux_loss": 0.048196819797158244,
      "loss/crossentropy": 3.245091903209686,
      "loss/logits": 1.3349639832973481,
      "step": 2710
    },
    {
      "epoch": 0.0272,
      "grad_norm": 7.75,
      "grad_norm_var": 0.09881184895833334,
      "learning_rate": 0.0003,
      "loss": 16.6612,
      "loss/aux_loss": 0.048208712972700594,
      "loss/crossentropy": 3.2764087319374084,
      "loss/logits": 1.3150906205177306,
      "step": 2720
    },
    {
      "epoch": 0.0273,
      "grad_norm": 7.78125,
      "grad_norm_var": 0.103125,
      "learning_rate": 0.0003,
      "loss": 16.6158,
      "loss/aux_loss": 0.04819247759878635,
      "loss/crossentropy": 3.273999774456024,
      "loss/logits": 1.3284586131572724,
      "step": 2730
    },
    {
      "epoch": 0.0274,
      "grad_norm": 7.875,
      "grad_norm_var": 0.20220947265625,
      "learning_rate": 0.0003,
      "loss": 16.4436,
      "loss/aux_loss": 0.04821184277534485,
      "loss/crossentropy": 3.188088583946228,
      "loss/logits": 1.3358671367168427,
      "step": 2740
    },
    {
      "epoch": 0.0275,
      "grad_norm": 7.5625,
      "grad_norm_var": 0.21302083333333333,
      "learning_rate": 0.0003,
      "loss": 16.3073,
      "loss/aux_loss": 0.04821435939520598,
      "loss/crossentropy": 3.136403810977936,
      "loss/logits": 1.287468433380127,
      "step": 2750
    },
    {
      "epoch": 0.0276,
      "grad_norm": 7.71875,
      "grad_norm_var": 0.320947265625,
      "learning_rate": 0.0003,
      "loss": 16.5717,
      "loss/aux_loss": 0.04819820411503315,
      "loss/crossentropy": 3.159669041633606,
      "loss/logits": 1.3258511304855347,
      "step": 2760
    },
    {
      "epoch": 0.0277,
      "grad_norm": 7.5625,
      "grad_norm_var": 0.45631510416666665,
      "learning_rate": 0.0003,
      "loss": 16.3568,
      "loss/aux_loss": 0.04820672180503607,
      "loss/crossentropy": 3.243663287162781,
      "loss/logits": 1.2874810814857482,
      "step": 2770
    },
    {
      "epoch": 0.0278,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.17890218098958333,
      "learning_rate": 0.0003,
      "loss": 16.5081,
      "loss/aux_loss": 0.04820285327732563,
      "loss/crossentropy": 3.083403432369232,
      "loss/logits": 1.3088326066732408,
      "step": 2780
    },
    {
      "epoch": 0.0279,
      "grad_norm": 7.09375,
      "grad_norm_var": 0.27081705729166666,
      "learning_rate": 0.0003,
      "loss": 16.4457,
      "loss/aux_loss": 0.04822454117238521,
      "loss/crossentropy": 3.147365128993988,
      "loss/logits": 1.2816300868988038,
      "step": 2790
    },
    {
      "epoch": 0.028,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.17732747395833334,
      "learning_rate": 0.0003,
      "loss": 16.361,
      "loss/aux_loss": 0.0482009943574667,
      "loss/crossentropy": 3.2210754632949827,
      "loss/logits": 1.3175399780273438,
      "step": 2800
    },
    {
      "epoch": 0.0281,
      "grad_norm": 8.625,
      "grad_norm_var": 0.15832926432291666,
      "learning_rate": 0.0003,
      "loss": 16.4841,
      "loss/aux_loss": 0.04820490088313818,
      "loss/crossentropy": 3.225731301307678,
      "loss/logits": 1.3222549259662628,
      "step": 2810
    },
    {
      "epoch": 0.0282,
      "grad_norm": 7.125,
      "grad_norm_var": 0.30517171223958334,
      "learning_rate": 0.0003,
      "loss": 16.3537,
      "loss/aux_loss": 0.04823195319622755,
      "loss/crossentropy": 3.0282162189483643,
      "loss/logits": 1.2549142867326737,
      "step": 2820
    },
    {
      "epoch": 0.0283,
      "grad_norm": 7.03125,
      "grad_norm_var": 0.2861328125,
      "learning_rate": 0.0003,
      "loss": 16.1414,
      "loss/aux_loss": 0.04820448886603117,
      "loss/crossentropy": 3.1825570702552795,
      "loss/logits": 1.2594711065292359,
      "step": 2830
    },
    {
      "epoch": 0.0284,
      "grad_norm": 7.40625,
      "grad_norm_var": 0.32847900390625,
      "learning_rate": 0.0003,
      "loss": 16.3758,
      "loss/aux_loss": 0.04820435829460621,
      "loss/crossentropy": 3.3334421873092652,
      "loss/logits": 1.3914376556873322,
      "step": 2840
    },
    {
      "epoch": 0.0285,
      "grad_norm": 8.0,
      "grad_norm_var": 0.41412353515625,
      "learning_rate": 0.0003,
      "loss": 16.3215,
      "loss/aux_loss": 0.048213552497327325,
      "loss/crossentropy": 3.167293357849121,
      "loss/logits": 1.3143129229545594,
      "step": 2850
    },
    {
      "epoch": 0.0286,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.34501546223958335,
      "learning_rate": 0.0003,
      "loss": 16.343,
      "loss/aux_loss": 0.048203857988119124,
      "loss/crossentropy": 3.168602633476257,
      "loss/logits": 1.3595575094223022,
      "step": 2860
    },
    {
      "epoch": 0.0287,
      "grad_norm": 7.1875,
      "grad_norm_var": 26.682645670572917,
      "learning_rate": 0.0003,
      "loss": 16.2912,
      "loss/aux_loss": 0.04821203649044037,
      "loss/crossentropy": 3.1967454075813295,
      "loss/logits": 1.3017989635467528,
      "step": 2870
    },
    {
      "epoch": 0.0288,
      "grad_norm": 7.40625,
      "grad_norm_var": 0.23925374348958334,
      "learning_rate": 0.0003,
      "loss": 16.4016,
      "loss/aux_loss": 0.04820753578096628,
      "loss/crossentropy": 3.1777406215667723,
      "loss/logits": 1.3188459992408752,
      "step": 2880
    },
    {
      "epoch": 0.0289,
      "grad_norm": 8.5,
      "grad_norm_var": 0.16041259765625,
      "learning_rate": 0.0003,
      "loss": 16.317,
      "loss/aux_loss": 0.048205715417861936,
      "loss/crossentropy": 3.2767266154289247,
      "loss/logits": 1.2999807298183441,
      "step": 2890
    },
    {
      "epoch": 0.029,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.20714518229166667,
      "learning_rate": 0.0003,
      "loss": 16.2915,
      "loss/aux_loss": 0.04820862989872694,
      "loss/crossentropy": 3.1509845733642576,
      "loss/logits": 1.2746458113193513,
      "step": 2900
    },
    {
      "epoch": 0.0291,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.45621337890625,
      "learning_rate": 0.0003,
      "loss": 16.3776,
      "loss/aux_loss": 0.0481941731646657,
      "loss/crossentropy": 3.201290011405945,
      "loss/logits": 1.2829424917697907,
      "step": 2910
    },
    {
      "epoch": 0.0292,
      "grad_norm": 7.34375,
      "grad_norm_var": 0.30279541015625,
      "learning_rate": 0.0003,
      "loss": 16.4304,
      "loss/aux_loss": 0.048205789737403394,
      "loss/crossentropy": 3.203648090362549,
      "loss/logits": 1.3133781254291534,
      "step": 2920
    },
    {
      "epoch": 0.0293,
      "grad_norm": 8.0,
      "grad_norm_var": 0.14918212890625,
      "learning_rate": 0.0003,
      "loss": 16.2822,
      "loss/aux_loss": 0.048185784742236136,
      "loss/crossentropy": 3.1988660097122192,
      "loss/logits": 1.2729051291942597,
      "step": 2930
    },
    {
      "epoch": 0.0294,
      "grad_norm": 6.6875,
      "grad_norm_var": 0.37200520833333334,
      "learning_rate": 0.0003,
      "loss": 16.0591,
      "loss/aux_loss": 0.04820053558796644,
      "loss/crossentropy": 3.2543280601501463,
      "loss/logits": 1.2817346930503846,
      "step": 2940
    },
    {
      "epoch": 0.0295,
      "grad_norm": 8.875,
      "grad_norm_var": 0.5007161458333333,
      "learning_rate": 0.0003,
      "loss": 16.1596,
      "loss/aux_loss": 0.048183665983378886,
      "loss/crossentropy": 3.2304122924804686,
      "loss/logits": 1.3286712884902954,
      "step": 2950
    },
    {
      "epoch": 0.0296,
      "grad_norm": 7.8125,
      "grad_norm_var": 13.414176432291667,
      "learning_rate": 0.0003,
      "loss": 16.1869,
      "loss/aux_loss": 0.048213465884327886,
      "loss/crossentropy": 3.363071584701538,
      "loss/logits": 1.3079668641090394,
      "step": 2960
    },
    {
      "epoch": 0.0297,
      "grad_norm": 7.375,
      "grad_norm_var": 14.020833333333334,
      "learning_rate": 0.0003,
      "loss": 15.9104,
      "loss/aux_loss": 0.048193281330168244,
      "loss/crossentropy": 3.13505756855011,
      "loss/logits": 1.331637018918991,
      "step": 2970
    },
    {
      "epoch": 0.0298,
      "grad_norm": 7.40625,
      "grad_norm_var": 0.18229166666666666,
      "learning_rate": 0.0003,
      "loss": 16.3034,
      "loss/aux_loss": 0.04818958211690187,
      "loss/crossentropy": 3.2140108823776243,
      "loss/logits": 1.3344007432460785,
      "step": 2980
    },
    {
      "epoch": 0.0299,
      "grad_norm": 7.46875,
      "grad_norm_var": 0.428369140625,
      "learning_rate": 0.0003,
      "loss": 16.2893,
      "loss/aux_loss": 0.048207861743867396,
      "loss/crossentropy": 3.2560169219970705,
      "loss/logits": 1.279381561279297,
      "step": 2990
    },
    {
      "epoch": 0.03,
      "grad_norm": 8.75,
      "grad_norm_var": 2.956734212239583,
      "learning_rate": 0.0003,
      "loss": 16.2927,
      "loss/aux_loss": 0.04818707294762135,
      "loss/crossentropy": 3.217176949977875,
      "loss/logits": 1.3047203302383423,
      "step": 3000
    },
    {
      "epoch": 0.0301,
      "grad_norm": 9.125,
      "grad_norm_var": 0.6278645833333333,
      "learning_rate": 0.0003,
      "loss": 16.2956,
      "loss/aux_loss": 0.048182461969554426,
      "loss/crossentropy": 3.2268913865089415,
      "loss/logits": 1.2893227458000183,
      "step": 3010
    },
    {
      "epoch": 0.0302,
      "grad_norm": 7.0625,
      "grad_norm_var": 0.35689697265625,
      "learning_rate": 0.0003,
      "loss": 15.8782,
      "loss/aux_loss": 0.04818679504096508,
      "loss/crossentropy": 3.0483377814292907,
      "loss/logits": 1.3037330031394958,
      "step": 3020
    },
    {
      "epoch": 0.0303,
      "grad_norm": 6.65625,
      "grad_norm_var": 0.13655192057291668,
      "learning_rate": 0.0003,
      "loss": 16.2123,
      "loss/aux_loss": 0.04818045124411583,
      "loss/crossentropy": 3.0745912194252014,
      "loss/logits": 1.2567619979381561,
      "step": 3030
    },
    {
      "epoch": 0.0304,
      "grad_norm": 7.3125,
      "grad_norm_var": 0.1279296875,
      "learning_rate": 0.0003,
      "loss": 16.2275,
      "loss/aux_loss": 0.04818618576973677,
      "loss/crossentropy": 3.313616728782654,
      "loss/logits": 1.3123571872711182,
      "step": 3040
    },
    {
      "epoch": 0.0305,
      "grad_norm": 6.8125,
      "grad_norm_var": 0.306640625,
      "learning_rate": 0.0003,
      "loss": 15.9426,
      "loss/aux_loss": 0.048186902329325675,
      "loss/crossentropy": 3.066525948047638,
      "loss/logits": 1.2751049637794494,
      "step": 3050
    },
    {
      "epoch": 0.0306,
      "grad_norm": 7.53125,
      "grad_norm_var": 9.796805826822917,
      "learning_rate": 0.0003,
      "loss": 16.1247,
      "loss/aux_loss": 0.048196819610893726,
      "loss/crossentropy": 3.2423496723175047,
      "loss/logits": 1.305676233768463,
      "step": 3060
    },
    {
      "epoch": 0.0307,
      "grad_norm": 6.78125,
      "grad_norm_var": 2.33648681640625,
      "learning_rate": 0.0003,
      "loss": 15.9665,
      "loss/aux_loss": 0.04817989952862263,
      "loss/crossentropy": 3.178650379180908,
      "loss/logits": 1.2622127085924149,
      "step": 3070
    },
    {
      "epoch": 0.0308,
      "grad_norm": 8.125,
      "grad_norm_var": 0.16197916666666667,
      "learning_rate": 0.0003,
      "loss": 15.8411,
      "loss/aux_loss": 0.048175792768597604,
      "loss/crossentropy": 3.2178627133369444,
      "loss/logits": 1.2681122601032258,
      "step": 3080
    },
    {
      "epoch": 0.0309,
      "grad_norm": 7.90625,
      "grad_norm_var": 0.19068603515625,
      "learning_rate": 0.0003,
      "loss": 15.9343,
      "loss/aux_loss": 0.04819290656596422,
      "loss/crossentropy": 3.0956594944000244,
      "loss/logits": 1.2836836636066438,
      "step": 3090
    },
    {
      "epoch": 0.031,
      "grad_norm": 6.8125,
      "grad_norm_var": 0.12760009765625,
      "learning_rate": 0.0003,
      "loss": 16.1508,
      "loss/aux_loss": 0.04819896165281534,
      "loss/crossentropy": 3.242776608467102,
      "loss/logits": 1.260975569486618,
      "step": 3100
    },
    {
      "epoch": 0.0311,
      "grad_norm": 6.75,
      "grad_norm_var": 0.20302327473958334,
      "learning_rate": 0.0003,
      "loss": 15.8037,
      "loss/aux_loss": 0.048188280686736105,
      "loss/crossentropy": 3.0742504239082336,
      "loss/logits": 1.247715598344803,
      "step": 3110
    },
    {
      "epoch": 0.0312,
      "grad_norm": 7.5,
      "grad_norm_var": 0.09726155598958333,
      "learning_rate": 0.0003,
      "loss": 16.1331,
      "loss/aux_loss": 0.048201543465256694,
      "loss/crossentropy": 3.1597721457481383,
      "loss/logits": 1.2908858835697175,
      "step": 3120
    },
    {
      "epoch": 0.0313,
      "grad_norm": 7.6875,
      "grad_norm_var": 0.5277303059895834,
      "learning_rate": 0.0003,
      "loss": 15.8831,
      "loss/aux_loss": 0.04819868616759777,
      "loss/crossentropy": 3.1610820293426514,
      "loss/logits": 1.2815950632095336,
      "step": 3130
    },
    {
      "epoch": 0.0314,
      "grad_norm": 7.3125,
      "grad_norm_var": 0.3472493489583333,
      "learning_rate": 0.0003,
      "loss": 16.038,
      "loss/aux_loss": 0.048184423707425594,
      "loss/crossentropy": 3.1954041719436646,
      "loss/logits": 1.278364223241806,
      "step": 3140
    },
    {
      "epoch": 0.0315,
      "grad_norm": 7.1875,
      "grad_norm_var": 0.039567057291666666,
      "learning_rate": 0.0003,
      "loss": 15.916,
      "loss/aux_loss": 0.048186035640537736,
      "loss/crossentropy": 3.1560078144073485,
      "loss/logits": 1.3042196780443192,
      "step": 3150
    },
    {
      "epoch": 0.0316,
      "grad_norm": 7.75,
      "grad_norm_var": 0.35128580729166664,
      "learning_rate": 0.0003,
      "loss": 15.9454,
      "loss/aux_loss": 0.04819800220429897,
      "loss/crossentropy": 3.1910813629627226,
      "loss/logits": 1.2715374946594238,
      "step": 3160
    },
    {
      "epoch": 0.0317,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.6532389322916666,
      "learning_rate": 0.0003,
      "loss": 15.6996,
      "loss/aux_loss": 0.048211091198027134,
      "loss/crossentropy": 3.116113305091858,
      "loss/logits": 1.2663143903017045,
      "step": 3170
    },
    {
      "epoch": 0.0318,
      "grad_norm": 7.53125,
      "grad_norm_var": 5.35582275390625,
      "learning_rate": 0.0003,
      "loss": 16.1554,
      "loss/aux_loss": 0.048189323768019675,
      "loss/crossentropy": 3.1312987327575685,
      "loss/logits": 1.2820051074028016,
      "step": 3180
    },
    {
      "epoch": 0.0319,
      "grad_norm": 7.65625,
      "grad_norm_var": 5.358837890625,
      "learning_rate": 0.0003,
      "loss": 15.9255,
      "loss/aux_loss": 0.04818729739636183,
      "loss/crossentropy": 3.0685723185539246,
      "loss/logits": 1.2486902892589569,
      "step": 3190
    },
    {
      "epoch": 0.032,
      "grad_norm": 7.09375,
      "grad_norm_var": 0.20826416015625,
      "learning_rate": 0.0003,
      "loss": 15.8965,
      "loss/aux_loss": 0.04819039478898048,
      "loss/crossentropy": 3.235087752342224,
      "loss/logits": 1.253222393989563,
      "step": 3200
    },
    {
      "epoch": 0.0321,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.9037760416666667,
      "learning_rate": 0.0003,
      "loss": 16.0786,
      "loss/aux_loss": 0.0481830982491374,
      "loss/crossentropy": 3.1696943759918215,
      "loss/logits": 1.2844607293605805,
      "step": 3210
    },
    {
      "epoch": 0.0322,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.9649739583333333,
      "learning_rate": 0.0003,
      "loss": 15.7072,
      "loss/aux_loss": 0.04817593917250633,
      "loss/crossentropy": 3.0222031831741334,
      "loss/logits": 1.2671060264110565,
      "step": 3220
    },
    {
      "epoch": 0.0323,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.08889567057291667,
      "learning_rate": 0.0003,
      "loss": 15.7409,
      "loss/aux_loss": 0.04818395711481571,
      "loss/crossentropy": 3.200468099117279,
      "loss/logits": 1.3267085552215576,
      "step": 3230
    },
    {
      "epoch": 0.0324,
      "grad_norm": 10.4375,
      "grad_norm_var": 188.03019205729166,
      "learning_rate": 0.0003,
      "loss": 15.8984,
      "loss/aux_loss": 0.0481902739033103,
      "loss/crossentropy": 3.126142477989197,
      "loss/logits": 1.2616908073425293,
      "step": 3240
    },
    {
      "epoch": 0.0325,
      "grad_norm": 7.34375,
      "grad_norm_var": 188.55543212890626,
      "learning_rate": 0.0003,
      "loss": 15.9279,
      "loss/aux_loss": 0.048199089244008064,
      "loss/crossentropy": 3.1426218867301943,
      "loss/logits": 1.2768731236457824,
      "step": 3250
    },
    {
      "epoch": 0.0326,
      "grad_norm": 7.0,
      "grad_norm_var": 0.15623372395833332,
      "learning_rate": 0.0003,
      "loss": 15.6804,
      "loss/aux_loss": 0.04819824192672968,
      "loss/crossentropy": 3.130205762386322,
      "loss/logits": 1.2509568214416504,
      "step": 3260
    },
    {
      "epoch": 0.0327,
      "grad_norm": 7.03125,
      "grad_norm_var": 0.19342041015625,
      "learning_rate": 0.0003,
      "loss": 15.7794,
      "loss/aux_loss": 0.048181666433811186,
      "loss/crossentropy": 3.203247845172882,
      "loss/logits": 1.248792153596878,
      "step": 3270
    },
    {
      "epoch": 0.0328,
      "grad_norm": 6.90625,
      "grad_norm_var": 0.3446451822916667,
      "learning_rate": 0.0003,
      "loss": 15.6809,
      "loss/aux_loss": 0.04819200746715069,
      "loss/crossentropy": 3.2286102890968325,
      "loss/logits": 1.2171394854784012,
      "step": 3280
    },
    {
      "epoch": 0.0329,
      "grad_norm": 6.75,
      "grad_norm_var": 0.19798177083333332,
      "learning_rate": 0.0003,
      "loss": 15.677,
      "loss/aux_loss": 0.048186296969652175,
      "loss/crossentropy": 3.0580495953559876,
      "loss/logits": 1.2661554515361786,
      "step": 3290
    },
    {
      "epoch": 0.033,
      "grad_norm": 7.0,
      "grad_norm_var": 76.57779541015626,
      "learning_rate": 0.0003,
      "loss": 15.86,
      "loss/aux_loss": 0.04821221027523279,
      "loss/crossentropy": 2.969318687915802,
      "loss/logits": 1.2122164875268937,
      "step": 3300
    },
    {
      "epoch": 0.0331,
      "grad_norm": 7.09375,
      "grad_norm_var": 0.06282145182291667,
      "learning_rate": 0.0003,
      "loss": 15.7174,
      "loss/aux_loss": 0.048201913200318816,
      "loss/crossentropy": 3.2775181770324706,
      "loss/logits": 1.2739900410175324,
      "step": 3310
    },
    {
      "epoch": 0.0332,
      "grad_norm": 7.375,
      "grad_norm_var": 0.08489583333333334,
      "learning_rate": 0.0003,
      "loss": 15.6614,
      "loss/aux_loss": 0.048193711787462234,
      "loss/crossentropy": 3.079313504695892,
      "loss/logits": 1.2485756576061249,
      "step": 3320
    },
    {
      "epoch": 0.0333,
      "grad_norm": 7.125,
      "grad_norm_var": 0.068994140625,
      "learning_rate": 0.0003,
      "loss": 15.8517,
      "loss/aux_loss": 0.048206409066915513,
      "loss/crossentropy": 3.030042564868927,
      "loss/logits": 1.1876587241888046,
      "step": 3330
    },
    {
      "epoch": 0.0334,
      "grad_norm": 7.625,
      "grad_norm_var": 0.196337890625,
      "learning_rate": 0.0003,
      "loss": 15.6156,
      "loss/aux_loss": 0.04819293972104788,
      "loss/crossentropy": 3.024798274040222,
      "loss/logits": 1.2279581785202027,
      "step": 3340
    },
    {
      "epoch": 0.0335,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.192822265625,
      "learning_rate": 0.0003,
      "loss": 15.6715,
      "loss/aux_loss": 0.048190113715827466,
      "loss/crossentropy": 3.1095346808433533,
      "loss/logits": 1.2218665778636932,
      "step": 3350
    },
    {
      "epoch": 0.0336,
      "grad_norm": 7.875,
      "grad_norm_var": 0.8559733072916667,
      "learning_rate": 0.0003,
      "loss": 15.4338,
      "loss/aux_loss": 0.04819390587508678,
      "loss/crossentropy": 3.0634355664253237,
      "loss/logits": 1.2227939546108246,
      "step": 3360
    },
    {
      "epoch": 0.0337,
      "grad_norm": 6.84375,
      "grad_norm_var": 0.8440104166666667,
      "learning_rate": 0.0003,
      "loss": 15.6555,
      "loss/aux_loss": 0.04817529227584601,
      "loss/crossentropy": 3.2624236226081846,
      "loss/logits": 1.2496430993080139,
      "step": 3370
    },
    {
      "epoch": 0.0338,
      "grad_norm": 7.25,
      "grad_norm_var": 0.08365478515625,
      "learning_rate": 0.0003,
      "loss": 15.7475,
      "loss/aux_loss": 0.048181839287281036,
      "loss/crossentropy": 3.000634413957596,
      "loss/logits": 1.2105579853057862,
      "step": 3380
    },
    {
      "epoch": 0.0339,
      "grad_norm": 7.71875,
      "grad_norm_var": 0.118212890625,
      "learning_rate": 0.0003,
      "loss": 15.878,
      "loss/aux_loss": 0.04818106349557638,
      "loss/crossentropy": 3.1646122694015504,
      "loss/logits": 1.2451474606990813,
      "step": 3390
    },
    {
      "epoch": 0.034,
      "grad_norm": 8.125,
      "grad_norm_var": 0.15712483723958334,
      "learning_rate": 0.0003,
      "loss": 15.5974,
      "loss/aux_loss": 0.04819212630391121,
      "loss/crossentropy": 3.0883402824401855,
      "loss/logits": 1.231631088256836,
      "step": 3400
    },
    {
      "epoch": 0.0341,
      "grad_norm": 7.90625,
      "grad_norm_var": 43.145894368489586,
      "learning_rate": 0.0003,
      "loss": 15.6349,
      "loss/aux_loss": 0.048203271254897116,
      "loss/crossentropy": 3.0851239562034607,
      "loss/logits": 1.2473519384860992,
      "step": 3410
    },
    {
      "epoch": 0.0342,
      "grad_norm": 8.125,
      "grad_norm_var": 42.346354166666664,
      "learning_rate": 0.0003,
      "loss": 15.6873,
      "loss/aux_loss": 0.04819300062954426,
      "loss/crossentropy": 3.2211881279945374,
      "loss/logits": 1.2318155229091645,
      "step": 3420
    },
    {
      "epoch": 0.0343,
      "grad_norm": 7.28125,
      "grad_norm_var": 0.29765218098958335,
      "learning_rate": 0.0003,
      "loss": 15.6778,
      "loss/aux_loss": 0.04818199146538973,
      "loss/crossentropy": 3.163746166229248,
      "loss/logits": 1.2294625520706177,
      "step": 3430
    },
    {
      "epoch": 0.0344,
      "grad_norm": 6.875,
      "grad_norm_var": 0.31027018229166664,
      "learning_rate": 0.0003,
      "loss": 15.859,
      "loss/aux_loss": 0.04818481933325529,
      "loss/crossentropy": 3.2157267451286318,
      "loss/logits": 1.2203275740146637,
      "step": 3440
    },
    {
      "epoch": 0.0345,
      "grad_norm": 7.46875,
      "grad_norm_var": 0.4372355143229167,
      "learning_rate": 0.0003,
      "loss": 15.4943,
      "loss/aux_loss": 0.04818508345633745,
      "loss/crossentropy": 2.981385588645935,
      "loss/logits": 1.2513148784637451,
      "step": 3450
    },
    {
      "epoch": 0.0346,
      "grad_norm": 7.96875,
      "grad_norm_var": 0.27421875,
      "learning_rate": 0.0003,
      "loss": 15.6128,
      "loss/aux_loss": 0.048185240291059014,
      "loss/crossentropy": 3.065082919597626,
      "loss/logits": 1.2668458700180054,
      "step": 3460
    },
    {
      "epoch": 0.0347,
      "grad_norm": 7.34375,
      "grad_norm_var": 0.0998046875,
      "learning_rate": 0.0003,
      "loss": 15.6479,
      "loss/aux_loss": 0.04818276725709438,
      "loss/crossentropy": 3.196527397632599,
      "loss/logits": 1.2704426288604735,
      "step": 3470
    },
    {
      "epoch": 0.0348,
      "grad_norm": 7.53125,
      "grad_norm_var": 77.90299072265626,
      "learning_rate": 0.0003,
      "loss": 15.213,
      "loss/aux_loss": 0.04820560179650783,
      "loss/crossentropy": 3.0156648635864256,
      "loss/logits": 1.1708497077226638,
      "step": 3480
    },
    {
      "epoch": 0.0349,
      "grad_norm": 6.5,
      "grad_norm_var": 0.52232666015625,
      "learning_rate": 0.0003,
      "loss": 15.5807,
      "loss/aux_loss": 0.04817814268171787,
      "loss/crossentropy": 3.3053033113479615,
      "loss/logits": 1.2551276683807373,
      "step": 3490
    },
    {
      "epoch": 0.035,
      "grad_norm": 7.25,
      "grad_norm_var": 0.22096354166666668,
      "learning_rate": 0.0003,
      "loss": 15.4642,
      "loss/aux_loss": 0.048177143558859825,
      "loss/crossentropy": 3.1717012524604797,
      "loss/logits": 1.2090398788452148,
      "step": 3500
    },
    {
      "epoch": 0.0351,
      "grad_norm": 7.34375,
      "grad_norm_var": 0.17125244140625,
      "learning_rate": 0.0003,
      "loss": 15.469,
      "loss/aux_loss": 0.04816991053521633,
      "loss/crossentropy": 3.0794217944145204,
      "loss/logits": 1.2378638923168181,
      "step": 3510
    },
    {
      "epoch": 0.0352,
      "grad_norm": 7.34375,
      "grad_norm_var": 0.5747233072916667,
      "learning_rate": 0.0003,
      "loss": 15.3886,
      "loss/aux_loss": 0.04817315954715014,
      "loss/crossentropy": 3.1408966541290284,
      "loss/logits": 1.1839520275592803,
      "step": 3520
    },
    {
      "epoch": 0.0353,
      "grad_norm": 8.375,
      "grad_norm_var": 0.579541015625,
      "learning_rate": 0.0003,
      "loss": 15.4735,
      "loss/aux_loss": 0.04817787241190672,
      "loss/crossentropy": 3.1789328932762144,
      "loss/logits": 1.241087591648102,
      "step": 3530
    },
    {
      "epoch": 0.0354,
      "grad_norm": 7.1875,
      "grad_norm_var": 0.35953369140625,
      "learning_rate": 0.0003,
      "loss": 15.4254,
      "loss/aux_loss": 0.04818295389413833,
      "loss/crossentropy": 3.1350058197975157,
      "loss/logits": 1.218758872151375,
      "step": 3540
    },
    {
      "epoch": 0.0355,
      "grad_norm": 7.5,
      "grad_norm_var": 0.14218343098958333,
      "learning_rate": 0.0003,
      "loss": 15.4481,
      "loss/aux_loss": 0.048182402923703196,
      "loss/crossentropy": 3.1021770238876343,
      "loss/logits": 1.157341206073761,
      "step": 3550
    },
    {
      "epoch": 0.0356,
      "grad_norm": 7.5625,
      "grad_norm_var": 0.220947265625,
      "learning_rate": 0.0003,
      "loss": 15.6278,
      "loss/aux_loss": 0.048180959187448025,
      "loss/crossentropy": 3.1709139943122864,
      "loss/logits": 1.2263819336891175,
      "step": 3560
    },
    {
      "epoch": 0.0357,
      "grad_norm": 7.375,
      "grad_norm_var": 0.3221638997395833,
      "learning_rate": 0.0003,
      "loss": 15.3394,
      "loss/aux_loss": 0.04818211700767279,
      "loss/crossentropy": 3.2739925384521484,
      "loss/logits": 1.2379388093948365,
      "step": 3570
    },
    {
      "epoch": 0.0358,
      "grad_norm": 6.90625,
      "grad_norm_var": 0.8153605143229167,
      "learning_rate": 0.0003,
      "loss": 15.5107,
      "loss/aux_loss": 0.04817323740571737,
      "loss/crossentropy": 3.136904263496399,
      "loss/logits": 1.2624209761619567,
      "step": 3580
    },
    {
      "epoch": 0.0359,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.128125,
      "learning_rate": 0.0003,
      "loss": 15.654,
      "loss/aux_loss": 0.04819139763712883,
      "loss/crossentropy": 3.1375385880470277,
      "loss/logits": 1.2516057163476944,
      "step": 3590
    },
    {
      "epoch": 0.036,
      "grad_norm": 6.75,
      "grad_norm_var": 0.09338785807291666,
      "learning_rate": 0.0003,
      "loss": 15.5777,
      "loss/aux_loss": 0.04818712417036295,
      "loss/crossentropy": 3.3446964859962462,
      "loss/logits": 1.214635932445526,
      "step": 3600
    },
    {
      "epoch": 0.0361,
      "grad_norm": 7.46875,
      "grad_norm_var": 0.10930582682291666,
      "learning_rate": 0.0003,
      "loss": 15.4192,
      "loss/aux_loss": 0.04818251971155405,
      "loss/crossentropy": 3.177507519721985,
      "loss/logits": 1.2218758046627045,
      "step": 3610
    },
    {
      "epoch": 0.0362,
      "grad_norm": 8.75,
      "grad_norm_var": 0.21578369140625,
      "learning_rate": 0.0003,
      "loss": 15.6698,
      "loss/aux_loss": 0.048180416226387024,
      "loss/crossentropy": 3.1352601170539858,
      "loss/logits": 1.2688252985477448,
      "step": 3620
    },
    {
      "epoch": 0.0363,
      "grad_norm": 7.75,
      "grad_norm_var": 0.240625,
      "learning_rate": 0.0003,
      "loss": 15.4033,
      "loss/aux_loss": 0.04819142427295446,
      "loss/crossentropy": 3.1684580206871034,
      "loss/logits": 1.2518825322389602,
      "step": 3630
    },
    {
      "epoch": 0.0364,
      "grad_norm": 7.25,
      "grad_norm_var": 0.072509765625,
      "learning_rate": 0.0003,
      "loss": 15.3378,
      "loss/aux_loss": 0.04819103125482797,
      "loss/crossentropy": 3.210425066947937,
      "loss/logits": 1.2049184322357178,
      "step": 3640
    },
    {
      "epoch": 0.0365,
      "grad_norm": 7.0625,
      "grad_norm_var": 49.72636311848958,
      "learning_rate": 0.0003,
      "loss": 15.2234,
      "loss/aux_loss": 0.048194903507828714,
      "loss/crossentropy": 3.2832493662834166,
      "loss/logits": 1.221068474650383,
      "step": 3650
    },
    {
      "epoch": 0.0366,
      "grad_norm": 9.125,
      "grad_norm_var": 0.3234375,
      "learning_rate": 0.0003,
      "loss": 15.3403,
      "loss/aux_loss": 0.04818172939121723,
      "loss/crossentropy": 3.280470097064972,
      "loss/logits": 1.229696273803711,
      "step": 3660
    },
    {
      "epoch": 0.0367,
      "grad_norm": 7.5,
      "grad_norm_var": 0.39843343098958334,
      "learning_rate": 0.0003,
      "loss": 15.3494,
      "loss/aux_loss": 0.048176801204681395,
      "loss/crossentropy": 3.0316362023353576,
      "loss/logits": 1.2116109132766724,
      "step": 3670
    },
    {
      "epoch": 0.0368,
      "grad_norm": 7.84375,
      "grad_norm_var": 0.3272786458333333,
      "learning_rate": 0.0003,
      "loss": 15.4476,
      "loss/aux_loss": 0.04817160293459892,
      "loss/crossentropy": 3.2188750505447388,
      "loss/logits": 1.2286329954862594,
      "step": 3680
    },
    {
      "epoch": 0.0369,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.23899332682291666,
      "learning_rate": 0.0003,
      "loss": 15.3283,
      "loss/aux_loss": 0.04817473813891411,
      "loss/crossentropy": 3.1428863406181335,
      "loss/logits": 1.2700409144163132,
      "step": 3690
    },
    {
      "epoch": 0.037,
      "grad_norm": 7.375,
      "grad_norm_var": 0.1796875,
      "learning_rate": 0.0003,
      "loss": 15.2114,
      "loss/aux_loss": 0.048194908909499644,
      "loss/crossentropy": 2.9049007534980773,
      "loss/logits": 1.209693717956543,
      "step": 3700
    },
    {
      "epoch": 0.0371,
      "grad_norm": 7.15625,
      "grad_norm_var": 4.603153483072917,
      "learning_rate": 0.0003,
      "loss": 15.4273,
      "loss/aux_loss": 0.04818948246538639,
      "loss/crossentropy": 3.1089539527893066,
      "loss/logits": 1.231841367483139,
      "step": 3710
    },
    {
      "epoch": 0.0372,
      "grad_norm": 7.5625,
      "grad_norm_var": 0.122119140625,
      "learning_rate": 0.0003,
      "loss": 15.3983,
      "loss/aux_loss": 0.04818321000784635,
      "loss/crossentropy": 2.9950480341911314,
      "loss/logits": 1.1607284903526307,
      "step": 3720
    },
    {
      "epoch": 0.0373,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.15904947916666667,
      "learning_rate": 0.0003,
      "loss": 15.1891,
      "loss/aux_loss": 0.04817815236747265,
      "loss/crossentropy": 3.161143660545349,
      "loss/logits": 1.238188961148262,
      "step": 3730
    },
    {
      "epoch": 0.0374,
      "grad_norm": 7.03125,
      "grad_norm_var": 0.3502604166666667,
      "learning_rate": 0.0003,
      "loss": 15.3511,
      "loss/aux_loss": 0.04818747155368328,
      "loss/crossentropy": 3.086538052558899,
      "loss/logits": 1.1786428213119506,
      "step": 3740
    },
    {
      "epoch": 0.0375,
      "grad_norm": 7.46875,
      "grad_norm_var": 0.11708577473958333,
      "learning_rate": 0.0003,
      "loss": 15.4379,
      "loss/aux_loss": 0.04817507416009903,
      "loss/crossentropy": 3.203218102455139,
      "loss/logits": 1.2379136860370636,
      "step": 3750
    },
    {
      "epoch": 0.0376,
      "grad_norm": 7.03125,
      "grad_norm_var": 0.09334309895833333,
      "learning_rate": 0.0003,
      "loss": 15.1209,
      "loss/aux_loss": 0.048195258155465125,
      "loss/crossentropy": 2.8767175674438477,
      "loss/logits": 1.135795423388481,
      "step": 3760
    },
    {
      "epoch": 0.0377,
      "grad_norm": 8.0,
      "grad_norm_var": 0.5704386393229167,
      "learning_rate": 0.0003,
      "loss": 15.1931,
      "loss/aux_loss": 0.04818210508674383,
      "loss/crossentropy": 3.0543838024139403,
      "loss/logits": 1.1589192599058151,
      "step": 3770
    },
    {
      "epoch": 0.0378,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.9666015625,
      "learning_rate": 0.0003,
      "loss": 15.3202,
      "loss/aux_loss": 0.04818203579634428,
      "loss/crossentropy": 3.1746195673942568,
      "loss/logits": 1.2106265246868133,
      "step": 3780
    },
    {
      "epoch": 0.0379,
      "grad_norm": 9.125,
      "grad_norm_var": 54.760921223958334,
      "learning_rate": 0.0003,
      "loss": 15.0472,
      "loss/aux_loss": 0.04817959927022457,
      "loss/crossentropy": 3.1303970336914064,
      "loss/logits": 1.1739704608917236,
      "step": 3790
    },
    {
      "epoch": 0.038,
      "grad_norm": 7.28125,
      "grad_norm_var": 55.79407552083333,
      "learning_rate": 0.0003,
      "loss": 15.335,
      "loss/aux_loss": 0.048162929527461526,
      "loss/crossentropy": 3.1775804996490478,
      "loss/logits": 1.2157859086990357,
      "step": 3800
    },
    {
      "epoch": 0.0381,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.09794514973958333,
      "learning_rate": 0.0003,
      "loss": 15.4016,
      "loss/aux_loss": 0.048171533085405824,
      "loss/crossentropy": 3.184191071987152,
      "loss/logits": 1.200016838312149,
      "step": 3810
    },
    {
      "epoch": 0.0382,
      "grad_norm": 8.125,
      "grad_norm_var": 0.15972900390625,
      "learning_rate": 0.0003,
      "loss": 15.2867,
      "loss/aux_loss": 0.048174711503088476,
      "loss/crossentropy": 3.093715155124664,
      "loss/logits": 1.1898449569940568,
      "step": 3820
    },
    {
      "epoch": 0.0383,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.28216145833333334,
      "learning_rate": 0.0003,
      "loss": 15.179,
      "loss/aux_loss": 0.04817448034882545,
      "loss/crossentropy": 3.1919341683387756,
      "loss/logits": 1.2327097624540329,
      "step": 3830
    },
    {
      "epoch": 0.0384,
      "grad_norm": 16.25,
      "grad_norm_var": 4.76041259765625,
      "learning_rate": 0.0003,
      "loss": 15.1992,
      "loss/aux_loss": 0.048165909759700296,
      "loss/crossentropy": 3.132761836051941,
      "loss/logits": 1.1952956855297088,
      "step": 3840
    },
    {
      "epoch": 0.0385,
      "grad_norm": 7.96875,
      "grad_norm_var": 5.12109375,
      "learning_rate": 0.0003,
      "loss": 15.2487,
      "loss/aux_loss": 0.0481891430914402,
      "loss/crossentropy": 2.9917232036590575,
      "loss/logits": 1.1668372660875321,
      "step": 3850
    },
    {
      "epoch": 0.0386,
      "grad_norm": 7.9375,
      "grad_norm_var": 0.13531494140625,
      "learning_rate": 0.0003,
      "loss": 15.1914,
      "loss/aux_loss": 0.0481577729806304,
      "loss/crossentropy": 3.071371626853943,
      "loss/logits": 1.2018966376781464,
      "step": 3860
    },
    {
      "epoch": 0.0387,
      "grad_norm": 7.46875,
      "grad_norm_var": 0.12994791666666666,
      "learning_rate": 0.0003,
      "loss": 15.0261,
      "loss/aux_loss": 0.04815917555242777,
      "loss/crossentropy": 3.0264050543308256,
      "loss/logits": 1.1740915864706039,
      "step": 3870
    },
    {
      "epoch": 0.0388,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.2575154622395833,
      "learning_rate": 0.0003,
      "loss": 15.1013,
      "loss/aux_loss": 0.04817144125699997,
      "loss/crossentropy": 3.0360918402671815,
      "loss/logits": 1.152667647600174,
      "step": 3880
    },
    {
      "epoch": 0.0389,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.21964518229166666,
      "learning_rate": 0.0003,
      "loss": 15.0667,
      "loss/aux_loss": 0.04816736020147801,
      "loss/crossentropy": 3.1190317153930662,
      "loss/logits": 1.185880446434021,
      "step": 3890
    },
    {
      "epoch": 0.039,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.39088134765625,
      "learning_rate": 0.0003,
      "loss": 15.1793,
      "loss/aux_loss": 0.04816778711974621,
      "loss/crossentropy": 3.00163277387619,
      "loss/logits": 1.1773586809635161,
      "step": 3900
    },
    {
      "epoch": 0.0391,
      "grad_norm": 7.65625,
      "grad_norm_var": 0.35870768229166666,
      "learning_rate": 0.0003,
      "loss": 15.1278,
      "loss/aux_loss": 0.04818731751292944,
      "loss/crossentropy": 2.939511752128601,
      "loss/logits": 1.2299345314502717,
      "step": 3910
    },
    {
      "epoch": 0.0392,
      "grad_norm": 7.5,
      "grad_norm_var": 0.09436442057291666,
      "learning_rate": 0.0003,
      "loss": 15.0897,
      "loss/aux_loss": 0.0481788320466876,
      "loss/crossentropy": 3.0653002142906187,
      "loss/logits": 1.1968173742294312,
      "step": 3920
    },
    {
      "epoch": 0.0393,
      "grad_norm": 7.28125,
      "grad_norm_var": 0.16145426432291668,
      "learning_rate": 0.0003,
      "loss": 15.0164,
      "loss/aux_loss": 0.04818780794739723,
      "loss/crossentropy": 2.995146155357361,
      "loss/logits": 1.155534029006958,
      "step": 3930
    },
    {
      "epoch": 0.0394,
      "grad_norm": 7.78125,
      "grad_norm_var": 0.11588134765625,
      "learning_rate": 0.0003,
      "loss": 15.0909,
      "loss/aux_loss": 0.04817194156348705,
      "loss/crossentropy": 2.9778522849082947,
      "loss/logits": 1.188610589504242,
      "step": 3940
    },
    {
      "epoch": 0.0395,
      "grad_norm": 8.5,
      "grad_norm_var": 0.22825520833333332,
      "learning_rate": 0.0003,
      "loss": 14.9485,
      "loss/aux_loss": 0.04817061126232147,
      "loss/crossentropy": 3.0706464409828187,
      "loss/logits": 1.1276392668485642,
      "step": 3950
    },
    {
      "epoch": 0.0396,
      "grad_norm": 7.59375,
      "grad_norm_var": 0.1765625,
      "learning_rate": 0.0003,
      "loss": 15.1761,
      "loss/aux_loss": 0.04817082397639751,
      "loss/crossentropy": 3.0294368386268617,
      "loss/logits": 1.1730817139148713,
      "step": 3960
    },
    {
      "epoch": 0.0397,
      "grad_norm": 7.78125,
      "grad_norm_var": 0.37659098307291666,
      "learning_rate": 0.0003,
      "loss": 14.9544,
      "loss/aux_loss": 0.048177217692136766,
      "loss/crossentropy": 3.003262734413147,
      "loss/logits": 1.1717498630285264,
      "step": 3970
    },
    {
      "epoch": 0.0398,
      "grad_norm": 7.59375,
      "grad_norm_var": 0.46226806640625,
      "learning_rate": 0.0003,
      "loss": 15.0399,
      "loss/aux_loss": 0.04816052261739969,
      "loss/crossentropy": 3.108014762401581,
      "loss/logits": 1.1962302416563033,
      "step": 3980
    },
    {
      "epoch": 0.0399,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.15533854166666666,
      "learning_rate": 0.0003,
      "loss": 15.0799,
      "loss/aux_loss": 0.04815749432891607,
      "loss/crossentropy": 3.185481405258179,
      "loss/logits": 1.2161674737930297,
      "step": 3990
    },
    {
      "epoch": 0.04,
      "grad_norm": 8.25,
      "grad_norm_var": 0.155712890625,
      "learning_rate": 0.0003,
      "loss": 15.0788,
      "loss/aux_loss": 0.0481644194573164,
      "loss/crossentropy": 3.1585240364074707,
      "loss/logits": 1.1965474605560302,
      "step": 4000
    },
    {
      "epoch": 0.0401,
      "grad_norm": 7.21875,
      "grad_norm_var": 0.21419270833333334,
      "learning_rate": 0.0003,
      "loss": 15.0548,
      "loss/aux_loss": 0.04816298447549343,
      "loss/crossentropy": 3.1302665889263155,
      "loss/logits": 1.1530128061771392,
      "step": 4010
    },
    {
      "epoch": 0.0402,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.13173421223958334,
      "learning_rate": 0.0003,
      "loss": 15.0497,
      "loss/aux_loss": 0.04816345106810331,
      "loss/crossentropy": 3.142714560031891,
      "loss/logits": 1.1879263758659362,
      "step": 4020
    },
    {
      "epoch": 0.0403,
      "grad_norm": 7.6875,
      "grad_norm_var": 0.06339518229166667,
      "learning_rate": 0.0003,
      "loss": 14.9433,
      "loss/aux_loss": 0.04815952125936747,
      "loss/crossentropy": 3.0843304634094237,
      "loss/logits": 1.2199938654899598,
      "step": 4030
    },
    {
      "epoch": 0.0404,
      "grad_norm": 6.875,
      "grad_norm_var": 0.15402018229166667,
      "learning_rate": 0.0003,
      "loss": 15.19,
      "loss/aux_loss": 0.04817276708781719,
      "loss/crossentropy": 3.128165376186371,
      "loss/logits": 1.1765313237905501,
      "step": 4040
    },
    {
      "epoch": 0.0405,
      "grad_norm": 30.375,
      "grad_norm_var": 32.932275390625,
      "learning_rate": 0.0003,
      "loss": 14.8461,
      "loss/aux_loss": 0.048168274387717244,
      "loss/crossentropy": 3.005221629142761,
      "loss/logits": 1.1654815077781677,
      "step": 4050
    },
    {
      "epoch": 0.0406,
      "grad_norm": 7.59375,
      "grad_norm_var": 32.006754557291664,
      "learning_rate": 0.0003,
      "loss": 15.0802,
      "loss/aux_loss": 0.04817748311907053,
      "loss/crossentropy": 3.095579755306244,
      "loss/logits": 1.1656386017799378,
      "step": 4060
    },
    {
      "epoch": 0.0407,
      "grad_norm": 8.6875,
      "grad_norm_var": 1.2711873372395834,
      "learning_rate": 0.0003,
      "loss": 15.1126,
      "loss/aux_loss": 0.04816674739122391,
      "loss/crossentropy": 3.1798906683921815,
      "loss/logits": 1.207847249507904,
      "step": 4070
    },
    {
      "epoch": 0.0408,
      "grad_norm": 7.875,
      "grad_norm_var": 1.26412353515625,
      "learning_rate": 0.0003,
      "loss": 15.1471,
      "loss/aux_loss": 0.04817005805671215,
      "loss/crossentropy": 3.125558304786682,
      "loss/logits": 1.1919424772262572,
      "step": 4080
    },
    {
      "epoch": 0.0409,
      "grad_norm": 7.5625,
      "grad_norm_var": 0.2809529622395833,
      "learning_rate": 0.0003,
      "loss": 14.853,
      "loss/aux_loss": 0.048167549446225165,
      "loss/crossentropy": 3.097035455703735,
      "loss/logits": 1.1527066469192504,
      "step": 4090
    },
    {
      "epoch": 0.041,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.690087890625,
      "learning_rate": 0.0003,
      "loss": 14.8294,
      "loss/aux_loss": 0.04817544762045145,
      "loss/crossentropy": 2.9536795616149902,
      "loss/logits": 1.1623014092445374,
      "step": 4100
    },
    {
      "epoch": 0.0411,
      "grad_norm": 7.90625,
      "grad_norm_var": 1.3970011393229167,
      "learning_rate": 0.0003,
      "loss": 15.0244,
      "loss/aux_loss": 0.048174246400594714,
      "loss/crossentropy": 3.1965074062347414,
      "loss/logits": 1.162026983499527,
      "step": 4110
    },
    {
      "epoch": 0.0412,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.08495686848958334,
      "learning_rate": 0.0003,
      "loss": 14.9105,
      "loss/aux_loss": 0.048172399029135705,
      "loss/crossentropy": 3.0823826670646666,
      "loss/logits": 1.199626660346985,
      "step": 4120
    },
    {
      "epoch": 0.0413,
      "grad_norm": 7.40625,
      "grad_norm_var": 0.15282796223958334,
      "learning_rate": 0.0003,
      "loss": 15.0299,
      "loss/aux_loss": 0.048171821609139444,
      "loss/crossentropy": 3.1277252316474913,
      "loss/logits": 1.1875766038894653,
      "step": 4130
    },
    {
      "epoch": 0.0414,
      "grad_norm": 7.875,
      "grad_norm_var": 0.18984375,
      "learning_rate": 0.0003,
      "loss": 14.9988,
      "loss/aux_loss": 0.04816291127353907,
      "loss/crossentropy": 2.999015522003174,
      "loss/logits": 1.1738766431808472,
      "step": 4140
    },
    {
      "epoch": 0.0415,
      "grad_norm": 7.59375,
      "grad_norm_var": 0.2892578125,
      "learning_rate": 0.0003,
      "loss": 15.1225,
      "loss/aux_loss": 0.04815590269863605,
      "loss/crossentropy": 3.1540396094322203,
      "loss/logits": 1.2201361060142517,
      "step": 4150
    },
    {
      "epoch": 0.0416,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.25598551432291666,
      "learning_rate": 0.0003,
      "loss": 14.6316,
      "loss/aux_loss": 0.04817016571760178,
      "loss/crossentropy": 3.0777355790138246,
      "loss/logits": 1.148938202857971,
      "step": 4160
    },
    {
      "epoch": 0.0417,
      "grad_norm": 7.21875,
      "grad_norm_var": 0.8997395833333334,
      "learning_rate": 0.0003,
      "loss": 14.8675,
      "loss/aux_loss": 0.04817523639649153,
      "loss/crossentropy": 3.154482841491699,
      "loss/logits": 1.1807423561811448,
      "step": 4170
    },
    {
      "epoch": 0.0418,
      "grad_norm": 7.875,
      "grad_norm_var": 0.19582926432291667,
      "learning_rate": 0.0003,
      "loss": 14.7081,
      "loss/aux_loss": 0.048159117065370086,
      "loss/crossentropy": 3.1314535260200502,
      "loss/logits": 1.1639139771461486,
      "step": 4180
    },
    {
      "epoch": 0.0419,
      "grad_norm": 7.90625,
      "grad_norm_var": 0.18684488932291668,
      "learning_rate": 0.0003,
      "loss": 14.9338,
      "loss/aux_loss": 0.048169083148241046,
      "loss/crossentropy": 3.0862425684928896,
      "loss/logits": 1.1751366287469864,
      "step": 4190
    },
    {
      "epoch": 0.042,
      "grad_norm": 7.625,
      "grad_norm_var": 0.11756184895833334,
      "learning_rate": 0.0003,
      "loss": 14.87,
      "loss/aux_loss": 0.04817427862435579,
      "loss/crossentropy": 3.106311786174774,
      "loss/logits": 1.1633146226406097,
      "step": 4200
    },
    {
      "epoch": 0.0421,
      "grad_norm": 7.5625,
      "grad_norm_var": 13.382124837239584,
      "learning_rate": 0.0003,
      "loss": 14.8649,
      "loss/aux_loss": 0.0481806568801403,
      "loss/crossentropy": 2.915513515472412,
      "loss/logits": 1.1206313014030456,
      "step": 4210
    },
    {
      "epoch": 0.0422,
      "grad_norm": 7.4375,
      "grad_norm_var": 13.166520182291666,
      "learning_rate": 0.0003,
      "loss": 14.8359,
      "loss/aux_loss": 0.04816134050488472,
      "loss/crossentropy": 3.0834913730621336,
      "loss/logits": 1.1465971380472184,
      "step": 4220
    },
    {
      "epoch": 0.0423,
      "grad_norm": 7.34375,
      "grad_norm_var": 0.16795247395833332,
      "learning_rate": 0.0003,
      "loss": 14.9675,
      "loss/aux_loss": 0.04815997164696455,
      "loss/crossentropy": 3.181843435764313,
      "loss/logits": 1.1813198417425155,
      "step": 4230
    },
    {
      "epoch": 0.0424,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.26461181640625,
      "learning_rate": 0.0003,
      "loss": 14.9965,
      "loss/aux_loss": 0.048162421025335786,
      "loss/crossentropy": 3.0605735301971437,
      "loss/logits": 1.2021290510892868,
      "step": 4240
    },
    {
      "epoch": 0.0425,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.52867431640625,
      "learning_rate": 0.0003,
      "loss": 14.8701,
      "loss/aux_loss": 0.04816258866339922,
      "loss/crossentropy": 3.0808632254600523,
      "loss/logits": 1.213870882987976,
      "step": 4250
    },
    {
      "epoch": 0.0426,
      "grad_norm": 7.3125,
      "grad_norm_var": 0.35133056640625,
      "learning_rate": 0.0003,
      "loss": 14.9504,
      "loss/aux_loss": 0.04816483333706856,
      "loss/crossentropy": 3.2533419847488405,
      "loss/logits": 1.2143194258213044,
      "step": 4260
    },
    {
      "epoch": 0.0427,
      "grad_norm": 8.25,
      "grad_norm_var": 0.18931884765625,
      "learning_rate": 0.0003,
      "loss": 14.8317,
      "loss/aux_loss": 0.04816996194422245,
      "loss/crossentropy": 2.921747499704361,
      "loss/logits": 1.1640391945838928,
      "step": 4270
    },
    {
      "epoch": 0.0428,
      "grad_norm": 8.3125,
      "grad_norm_var": 0.29081624348958335,
      "learning_rate": 0.0003,
      "loss": 15.0626,
      "loss/aux_loss": 0.04816504456102848,
      "loss/crossentropy": 3.0316648125648498,
      "loss/logits": 1.1759659737348556,
      "step": 4280
    },
    {
      "epoch": 0.0429,
      "grad_norm": 7.125,
      "grad_norm_var": 0.26145833333333335,
      "learning_rate": 0.0003,
      "loss": 14.7015,
      "loss/aux_loss": 0.04817175418138504,
      "loss/crossentropy": 3.0507488489151,
      "loss/logits": 1.181325948238373,
      "step": 4290
    },
    {
      "epoch": 0.043,
      "grad_norm": 7.78125,
      "grad_norm_var": 0.21343994140625,
      "learning_rate": 0.0003,
      "loss": 14.8985,
      "loss/aux_loss": 0.04816540405154228,
      "loss/crossentropy": 3.0950448393821715,
      "loss/logits": 1.2072101056575775,
      "step": 4300
    },
    {
      "epoch": 0.0431,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.12737223307291667,
      "learning_rate": 0.0003,
      "loss": 14.9397,
      "loss/aux_loss": 0.048161011561751364,
      "loss/crossentropy": 2.983470690250397,
      "loss/logits": 1.1625974208116532,
      "step": 4310
    },
    {
      "epoch": 0.0432,
      "grad_norm": 8.375,
      "grad_norm_var": 0.17089436848958334,
      "learning_rate": 0.0003,
      "loss": 14.9934,
      "loss/aux_loss": 0.04816465843468905,
      "loss/crossentropy": 3.100528526306152,
      "loss/logits": 1.2168638974428176,
      "step": 4320
    },
    {
      "epoch": 0.0433,
      "grad_norm": 7.09375,
      "grad_norm_var": 0.15452067057291666,
      "learning_rate": 0.0003,
      "loss": 14.8999,
      "loss/aux_loss": 0.04815626051276922,
      "loss/crossentropy": 3.1541409373283384,
      "loss/logits": 1.1997069358825683,
      "step": 4330
    },
    {
      "epoch": 0.0434,
      "grad_norm": 7.9375,
      "grad_norm_var": 1.5087198893229166,
      "learning_rate": 0.0003,
      "loss": 14.7317,
      "loss/aux_loss": 0.04816477261483669,
      "loss/crossentropy": 3.048540270328522,
      "loss/logits": 1.2071462273597717,
      "step": 4340
    },
    {
      "epoch": 0.0435,
      "grad_norm": 7.8125,
      "grad_norm_var": 0.10623372395833333,
      "learning_rate": 0.0003,
      "loss": 14.713,
      "loss/aux_loss": 0.04816347248852253,
      "loss/crossentropy": 2.9770607709884644,
      "loss/logits": 1.1550648272037507,
      "step": 4350
    },
    {
      "epoch": 0.0436,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.13566080729166666,
      "learning_rate": 0.0003,
      "loss": 15.0412,
      "loss/aux_loss": 0.04816342815756798,
      "loss/crossentropy": 2.9482832670211794,
      "loss/logits": 1.1551517724990845,
      "step": 4360
    },
    {
      "epoch": 0.0437,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.10624593098958333,
      "learning_rate": 0.0003,
      "loss": 14.8035,
      "loss/aux_loss": 0.04816410057246685,
      "loss/crossentropy": 3.0711460292339323,
      "loss/logits": 1.1584541529417038,
      "step": 4370
    },
    {
      "epoch": 0.0438,
      "grad_norm": 7.375,
      "grad_norm_var": 0.20885009765625,
      "learning_rate": 0.0003,
      "loss": 14.7389,
      "loss/aux_loss": 0.0481667784973979,
      "loss/crossentropy": 2.9650609135627746,
      "loss/logits": 1.1401590436697007,
      "step": 4380
    },
    {
      "epoch": 0.0439,
      "grad_norm": 7.75,
      "grad_norm_var": 0.15338134765625,
      "learning_rate": 0.0003,
      "loss": 14.5523,
      "loss/aux_loss": 0.04817138686776161,
      "loss/crossentropy": 3.0582551836967466,
      "loss/logits": 1.0985677868127823,
      "step": 4390
    },
    {
      "epoch": 0.044,
      "grad_norm": 7.875,
      "grad_norm_var": 0.12655843098958333,
      "learning_rate": 0.0003,
      "loss": 14.7145,
      "loss/aux_loss": 0.04816395286470652,
      "loss/crossentropy": 3.0119667410850526,
      "loss/logits": 1.1839350372552873,
      "step": 4400
    },
    {
      "epoch": 0.0441,
      "grad_norm": 8.5,
      "grad_norm_var": 0.13058268229166667,
      "learning_rate": 0.0003,
      "loss": 14.7486,
      "loss/aux_loss": 0.04816783182322979,
      "loss/crossentropy": 2.9910679340362547,
      "loss/logits": 1.1801847249269486,
      "step": 4410
    },
    {
      "epoch": 0.0442,
      "grad_norm": 18.625,
      "grad_norm_var": 7.329557291666666,
      "learning_rate": 0.0003,
      "loss": 14.7453,
      "loss/aux_loss": 0.04816215075552464,
      "loss/crossentropy": 2.981612813472748,
      "loss/logits": 1.183125939965248,
      "step": 4420
    },
    {
      "epoch": 0.0443,
      "grad_norm": 7.0625,
      "grad_norm_var": 7.44742431640625,
      "learning_rate": 0.0003,
      "loss": 14.626,
      "loss/aux_loss": 0.04817271661013365,
      "loss/crossentropy": 2.9835289478302003,
      "loss/logits": 1.158128410577774,
      "step": 4430
    },
    {
      "epoch": 0.0444,
      "grad_norm": 7.90625,
      "grad_norm_var": 0.14615478515625,
      "learning_rate": 0.0003,
      "loss": 14.5175,
      "loss/aux_loss": 0.04816505704075098,
      "loss/crossentropy": 3.097472053766251,
      "loss/logits": 1.168840977549553,
      "step": 4440
    },
    {
      "epoch": 0.0445,
      "grad_norm": 12.4375,
      "grad_norm_var": 1.418994140625,
      "learning_rate": 0.0003,
      "loss": 14.561,
      "loss/aux_loss": 0.04816557168960571,
      "loss/crossentropy": 3.1079689621925355,
      "loss/logits": 1.1443527430295943,
      "step": 4450
    },
    {
      "epoch": 0.0446,
      "grad_norm": 8.625,
      "grad_norm_var": 1.31578369140625,
      "learning_rate": 0.0003,
      "loss": 14.674,
      "loss/aux_loss": 0.04816855322569609,
      "loss/crossentropy": 2.927138316631317,
      "loss/logits": 1.148129415512085,
      "step": 4460
    },
    {
      "epoch": 0.0447,
      "grad_norm": 7.75,
      "grad_norm_var": 0.18723551432291666,
      "learning_rate": 0.0003,
      "loss": 14.5317,
      "loss/aux_loss": 0.04815917164087295,
      "loss/crossentropy": 3.1104054749011993,
      "loss/logits": 1.1480105966329575,
      "step": 4470
    },
    {
      "epoch": 0.0448,
      "grad_norm": 8.25,
      "grad_norm_var": 0.16847330729166668,
      "learning_rate": 0.0003,
      "loss": 14.4452,
      "loss/aux_loss": 0.048180781118571755,
      "loss/crossentropy": 2.762672412395477,
      "loss/logits": 1.0904426872730255,
      "step": 4480
    },
    {
      "epoch": 0.0449,
      "grad_norm": 7.40625,
      "grad_norm_var": 0.16334635416666668,
      "learning_rate": 0.0003,
      "loss": 14.6466,
      "loss/aux_loss": 0.0481576981022954,
      "loss/crossentropy": 3.10465407371521,
      "loss/logits": 1.152064311504364,
      "step": 4490
    },
    {
      "epoch": 0.045,
      "grad_norm": 7.125,
      "grad_norm_var": 0.09772135416666666,
      "learning_rate": 0.0003,
      "loss": 14.4935,
      "loss/aux_loss": 0.048153439350426194,
      "loss/crossentropy": 2.9880860924720762,
      "loss/logits": 1.1234510779380797,
      "step": 4500
    },
    {
      "epoch": 0.0451,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.47294514973958335,
      "learning_rate": 0.0003,
      "loss": 14.5779,
      "loss/aux_loss": 0.048160174302756785,
      "loss/crossentropy": 3.0695066869258882,
      "loss/logits": 1.1693350702524186,
      "step": 4510
    },
    {
      "epoch": 0.0452,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.54361572265625,
      "learning_rate": 0.0003,
      "loss": 14.5628,
      "loss/aux_loss": 0.04815432522445917,
      "loss/crossentropy": 3.1152522921562196,
      "loss/logits": 1.1614423453807832,
      "step": 4520
    },
    {
      "epoch": 0.0453,
      "grad_norm": 7.34375,
      "grad_norm_var": 0.43072509765625,
      "learning_rate": 0.0003,
      "loss": 14.578,
      "loss/aux_loss": 0.04815590996295214,
      "loss/crossentropy": 3.122402215003967,
      "loss/logits": 1.191055852174759,
      "step": 4530
    },
    {
      "epoch": 0.0454,
      "grad_norm": 8.25,
      "grad_norm_var": 5.175028483072917,
      "learning_rate": 0.0003,
      "loss": 14.7617,
      "loss/aux_loss": 0.048156161420047285,
      "loss/crossentropy": 3.0762326240539553,
      "loss/logits": 1.1874168932437896,
      "step": 4540
    },
    {
      "epoch": 0.0455,
      "grad_norm": 9.125,
      "grad_norm_var": 1.2244099934895833,
      "learning_rate": 0.0003,
      "loss": 14.7042,
      "loss/aux_loss": 0.04815144389867783,
      "loss/crossentropy": 3.053194510936737,
      "loss/logits": 1.1742142677307128,
      "step": 4550
    },
    {
      "epoch": 0.0456,
      "grad_norm": 8.125,
      "grad_norm_var": 0.3241170247395833,
      "learning_rate": 0.0003,
      "loss": 14.5613,
      "loss/aux_loss": 0.04815953467041254,
      "loss/crossentropy": 3.0894832491874693,
      "loss/logits": 1.123066246509552,
      "step": 4560
    },
    {
      "epoch": 0.0457,
      "grad_norm": 7.71875,
      "grad_norm_var": 0.22732747395833333,
      "learning_rate": 0.0003,
      "loss": 14.6751,
      "loss/aux_loss": 0.048164136707782745,
      "loss/crossentropy": 3.278604805469513,
      "loss/logits": 1.1765309482812882,
      "step": 4570
    },
    {
      "epoch": 0.0458,
      "grad_norm": 7.875,
      "grad_norm_var": 0.2938761393229167,
      "learning_rate": 0.0003,
      "loss": 14.5222,
      "loss/aux_loss": 0.04816136136651039,
      "loss/crossentropy": 3.122606945037842,
      "loss/logits": 1.1583560228347778,
      "step": 4580
    },
    {
      "epoch": 0.0459,
      "grad_norm": 8.25,
      "grad_norm_var": 0.24804280598958334,
      "learning_rate": 0.0003,
      "loss": 14.666,
      "loss/aux_loss": 0.048167569935321806,
      "loss/crossentropy": 2.8724692463874817,
      "loss/logits": 1.1007645279169083,
      "step": 4590
    },
    {
      "epoch": 0.046,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.08318684895833334,
      "learning_rate": 0.0003,
      "loss": 14.5749,
      "loss/aux_loss": 0.048159733042120935,
      "loss/crossentropy": 3.096747946739197,
      "loss/logits": 1.1529816329479217,
      "step": 4600
    },
    {
      "epoch": 0.0461,
      "grad_norm": 7.6875,
      "grad_norm_var": 0.08440348307291666,
      "learning_rate": 0.0003,
      "loss": 14.6826,
      "loss/aux_loss": 0.048148723877966405,
      "loss/crossentropy": 3.0729199647903442,
      "loss/logits": 1.2091837465763091,
      "step": 4610
    },
    {
      "epoch": 0.0462,
      "grad_norm": 8.125,
      "grad_norm_var": 0.05917561848958333,
      "learning_rate": 0.0003,
      "loss": 14.5881,
      "loss/aux_loss": 0.04815642535686493,
      "loss/crossentropy": 3.0322453498840334,
      "loss/logits": 1.1239049285650253,
      "step": 4620
    },
    {
      "epoch": 0.0463,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.5194010416666667,
      "learning_rate": 0.0003,
      "loss": 14.5686,
      "loss/aux_loss": 0.048170761205255985,
      "loss/crossentropy": 3.0770667433738708,
      "loss/logits": 1.1368163347244262,
      "step": 4630
    },
    {
      "epoch": 0.0464,
      "grad_norm": 8.125,
      "grad_norm_var": 0.6132649739583333,
      "learning_rate": 0.0003,
      "loss": 14.3923,
      "loss/aux_loss": 0.048156014271080495,
      "loss/crossentropy": 3.1633099794387816,
      "loss/logits": 1.1499724864959717,
      "step": 4640
    },
    {
      "epoch": 0.0465,
      "grad_norm": 7.96875,
      "grad_norm_var": 1.9275349934895833,
      "learning_rate": 0.0003,
      "loss": 14.3876,
      "loss/aux_loss": 0.048154591023921965,
      "loss/crossentropy": 3.066124379634857,
      "loss/logits": 1.1568672150373458,
      "step": 4650
    },
    {
      "epoch": 0.0466,
      "grad_norm": 8.625,
      "grad_norm_var": 7.602848307291667,
      "learning_rate": 0.0003,
      "loss": 14.6209,
      "loss/aux_loss": 0.048150830902159214,
      "loss/crossentropy": 2.938699722290039,
      "loss/logits": 1.1516984760761262,
      "step": 4660
    },
    {
      "epoch": 0.0467,
      "grad_norm": 7.46875,
      "grad_norm_var": 6.106083170572917,
      "learning_rate": 0.0003,
      "loss": 14.6674,
      "loss/aux_loss": 0.04815071895718574,
      "loss/crossentropy": 3.0229847908020018,
      "loss/logits": 1.136454886198044,
      "step": 4670
    },
    {
      "epoch": 0.0468,
      "grad_norm": 7.5625,
      "grad_norm_var": 0.10810139973958334,
      "learning_rate": 0.0003,
      "loss": 14.8643,
      "loss/aux_loss": 0.04815872758626938,
      "loss/crossentropy": 2.9929285645484924,
      "loss/logits": 1.1554243832826614,
      "step": 4680
    },
    {
      "epoch": 0.0469,
      "grad_norm": 7.875,
      "grad_norm_var": 0.1236328125,
      "learning_rate": 0.0003,
      "loss": 14.5369,
      "loss/aux_loss": 0.04814963173121214,
      "loss/crossentropy": 3.0233195781707765,
      "loss/logits": 1.1462786018848419,
      "step": 4690
    },
    {
      "epoch": 0.047,
      "grad_norm": 7.96875,
      "grad_norm_var": 0.14599202473958334,
      "learning_rate": 0.0003,
      "loss": 14.6454,
      "loss/aux_loss": 0.04816053248941898,
      "loss/crossentropy": 2.9162982583045958,
      "loss/logits": 1.1257199048995972,
      "step": 4700
    },
    {
      "epoch": 0.0471,
      "grad_norm": 8.875,
      "grad_norm_var": 0.27884114583333336,
      "learning_rate": 0.0003,
      "loss": 14.4935,
      "loss/aux_loss": 0.04815351460129023,
      "loss/crossentropy": 3.166695535182953,
      "loss/logits": 1.173658263683319,
      "step": 4710
    },
    {
      "epoch": 0.0472,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.27346598307291664,
      "learning_rate": 0.0003,
      "loss": 14.4925,
      "loss/aux_loss": 0.048155609704554084,
      "loss/crossentropy": 3.00724972486496,
      "loss/logits": 1.147817325592041,
      "step": 4720
    },
    {
      "epoch": 0.0473,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.2710774739583333,
      "learning_rate": 0.0003,
      "loss": 14.3945,
      "loss/aux_loss": 0.04815868772566319,
      "loss/crossentropy": 3.056724321842194,
      "loss/logits": 1.1427915573120118,
      "step": 4730
    },
    {
      "epoch": 0.0474,
      "grad_norm": 7.78125,
      "grad_norm_var": 0.20940348307291667,
      "learning_rate": 0.0003,
      "loss": 14.5173,
      "loss/aux_loss": 0.048164534568786624,
      "loss/crossentropy": 2.8747935056686402,
      "loss/logits": 1.09987430870533,
      "step": 4740
    },
    {
      "epoch": 0.0475,
      "grad_norm": 8.0,
      "grad_norm_var": 0.23528645833333334,
      "learning_rate": 0.0003,
      "loss": 14.49,
      "loss/aux_loss": 0.048151783645153046,
      "loss/crossentropy": 2.8358932733535767,
      "loss/logits": 1.0616690814495087,
      "step": 4750
    },
    {
      "epoch": 0.0476,
      "grad_norm": 7.625,
      "grad_norm_var": 0.36178385416666664,
      "learning_rate": 0.0003,
      "loss": 14.4691,
      "loss/aux_loss": 0.0481619393453002,
      "loss/crossentropy": 3.1596203804016114,
      "loss/logits": 1.210114187002182,
      "step": 4760
    },
    {
      "epoch": 0.0477,
      "grad_norm": 8.0,
      "grad_norm_var": 0.15462239583333334,
      "learning_rate": 0.0003,
      "loss": 14.5602,
      "loss/aux_loss": 0.048146472126245496,
      "loss/crossentropy": 3.001967716217041,
      "loss/logits": 1.096169427037239,
      "step": 4770
    },
    {
      "epoch": 0.0478,
      "grad_norm": 7.6875,
      "grad_norm_var": 0.18140869140625,
      "learning_rate": 0.0003,
      "loss": 14.4163,
      "loss/aux_loss": 0.04816320165991783,
      "loss/crossentropy": 2.876752531528473,
      "loss/logits": 1.1474198400974274,
      "step": 4780
    },
    {
      "epoch": 0.0479,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.24347330729166666,
      "learning_rate": 0.0003,
      "loss": 14.2293,
      "loss/aux_loss": 0.0481548685580492,
      "loss/crossentropy": 2.9930427193641664,
      "loss/logits": 1.1371810525655746,
      "step": 4790
    },
    {
      "epoch": 0.048,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.22493082682291668,
      "learning_rate": 0.0003,
      "loss": 14.6348,
      "loss/aux_loss": 0.048159336857497695,
      "loss/crossentropy": 3.0536611795425417,
      "loss/logits": 1.1425227701663971,
      "step": 4800
    },
    {
      "epoch": 0.0481,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.19347330729166667,
      "learning_rate": 0.0003,
      "loss": 14.3975,
      "loss/aux_loss": 0.04815634544938803,
      "loss/crossentropy": 2.9617689490318297,
      "loss/logits": 1.1070881575345992,
      "step": 4810
    },
    {
      "epoch": 0.0482,
      "grad_norm": 7.6875,
      "grad_norm_var": 0.27467447916666665,
      "learning_rate": 0.0003,
      "loss": 14.404,
      "loss/aux_loss": 0.04816010873764753,
      "loss/crossentropy": 2.945191979408264,
      "loss/logits": 1.1223448246717453,
      "step": 4820
    },
    {
      "epoch": 0.0483,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.27291666666666664,
      "learning_rate": 0.0003,
      "loss": 14.4795,
      "loss/aux_loss": 0.048158070631325246,
      "loss/crossentropy": 2.93973708152771,
      "loss/logits": 1.1405175089836121,
      "step": 4830
    },
    {
      "epoch": 0.0484,
      "grad_norm": 7.8125,
      "grad_norm_var": 0.269384765625,
      "learning_rate": 0.0003,
      "loss": 14.6711,
      "loss/aux_loss": 0.048154968209564684,
      "loss/crossentropy": 3.004188358783722,
      "loss/logits": 1.1400604486465453,
      "step": 4840
    },
    {
      "epoch": 0.0485,
      "grad_norm": 9.375,
      "grad_norm_var": 1.53570556640625,
      "learning_rate": 0.0003,
      "loss": 14.5167,
      "loss/aux_loss": 0.04815916530787945,
      "loss/crossentropy": 2.9153899431228636,
      "loss/logits": 1.1129061222076415,
      "step": 4850
    },
    {
      "epoch": 0.0486,
      "grad_norm": 7.65625,
      "grad_norm_var": 1.5292805989583333,
      "learning_rate": 0.0003,
      "loss": 14.3376,
      "loss/aux_loss": 0.04816344752907753,
      "loss/crossentropy": 3.0024606227874755,
      "loss/logits": 1.1566831320524216,
      "step": 4860
    },
    {
      "epoch": 0.0487,
      "grad_norm": 8.0,
      "grad_norm_var": 0.24295247395833333,
      "learning_rate": 0.0003,
      "loss": 14.1824,
      "loss/aux_loss": 0.0481420386582613,
      "loss/crossentropy": 2.8804391503334044,
      "loss/logits": 1.098368188738823,
      "step": 4870
    },
    {
      "epoch": 0.0488,
      "grad_norm": 7.78125,
      "grad_norm_var": 0.20292561848958332,
      "learning_rate": 0.0003,
      "loss": 14.4489,
      "loss/aux_loss": 0.04815696161240339,
      "loss/crossentropy": 2.9788331627845763,
      "loss/logits": 1.1000428795814514,
      "step": 4880
    },
    {
      "epoch": 0.0489,
      "grad_norm": 7.71875,
      "grad_norm_var": 0.38917643229166665,
      "learning_rate": 0.0003,
      "loss": 14.6589,
      "loss/aux_loss": 0.04814700428396464,
      "loss/crossentropy": 3.02801970243454,
      "loss/logits": 1.1341104060411453,
      "step": 4890
    },
    {
      "epoch": 0.049,
      "grad_norm": 8.375,
      "grad_norm_var": 0.40823160807291664,
      "learning_rate": 0.0003,
      "loss": 14.4838,
      "loss/aux_loss": 0.048148921132087706,
      "loss/crossentropy": 3.061317926645279,
      "loss/logits": 1.1178199291229247,
      "step": 4900
    },
    {
      "epoch": 0.0491,
      "grad_norm": 8.125,
      "grad_norm_var": 0.31573893229166666,
      "learning_rate": 0.0003,
      "loss": 14.3403,
      "loss/aux_loss": 0.04815245717763901,
      "loss/crossentropy": 3.0220317125320433,
      "loss/logits": 1.0949908673763276,
      "step": 4910
    },
    {
      "epoch": 0.0492,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.13892822265625,
      "learning_rate": 0.0003,
      "loss": 14.4711,
      "loss/aux_loss": 0.04815434459596872,
      "loss/crossentropy": 3.0331790328025816,
      "loss/logits": 1.0993872165679932,
      "step": 4920
    },
    {
      "epoch": 0.0493,
      "grad_norm": 7.65625,
      "grad_norm_var": 0.26901041666666664,
      "learning_rate": 0.0003,
      "loss": 14.2343,
      "loss/aux_loss": 0.048155249655246736,
      "loss/crossentropy": 2.97544447183609,
      "loss/logits": 1.1062311738729478,
      "step": 4930
    },
    {
      "epoch": 0.0494,
      "grad_norm": 14.875,
      "grad_norm_var": 3.21763916015625,
      "learning_rate": 0.0003,
      "loss": 14.4118,
      "loss/aux_loss": 0.048153795301914215,
      "loss/crossentropy": 3.121039032936096,
      "loss/logits": 1.1289394974708558,
      "step": 4940
    },
    {
      "epoch": 0.0495,
      "grad_norm": 7.71875,
      "grad_norm_var": 3.0484212239583335,
      "learning_rate": 0.0003,
      "loss": 14.3417,
      "loss/aux_loss": 0.04815581478178501,
      "loss/crossentropy": 3.015563631057739,
      "loss/logits": 1.1119945228099823,
      "step": 4950
    },
    {
      "epoch": 0.0496,
      "grad_norm": 13.0625,
      "grad_norm_var": 3.7396484375,
      "learning_rate": 0.0003,
      "loss": 14.3192,
      "loss/aux_loss": 0.048152280040085316,
      "loss/crossentropy": 2.8887117922306063,
      "loss/logits": 1.096293193101883,
      "step": 4960
    },
    {
      "epoch": 0.0497,
      "grad_norm": 8.0,
      "grad_norm_var": 3.763016764322917,
      "learning_rate": 0.0003,
      "loss": 14.274,
      "loss/aux_loss": 0.04814924951642752,
      "loss/crossentropy": 3.0876585960388185,
      "loss/logits": 1.1102905184030534,
      "step": 4970
    },
    {
      "epoch": 0.0498,
      "grad_norm": 7.5,
      "grad_norm_var": 0.10857747395833334,
      "learning_rate": 0.0003,
      "loss": 14.2513,
      "loss/aux_loss": 0.0481419550254941,
      "loss/crossentropy": 3.1604169964790345,
      "loss/logits": 1.135578241944313,
      "step": 4980
    },
    {
      "epoch": 0.0499,
      "grad_norm": 7.84375,
      "grad_norm_var": 0.10129801432291667,
      "learning_rate": 0.0003,
      "loss": 14.1859,
      "loss/aux_loss": 0.0481536041945219,
      "loss/crossentropy": 2.9750654339790343,
      "loss/logits": 1.1200665444135667,
      "step": 4990
    },
    {
      "epoch": 0.05,
      "grad_norm": 7.875,
      "grad_norm_var": 0.1974609375,
      "learning_rate": 0.0003,
      "loss": 14.2076,
      "loss/aux_loss": 0.048159463331103325,
      "loss/crossentropy": 2.9379626870155335,
      "loss/logits": 1.0767972767353058,
      "step": 5000
    },
    {
      "epoch": 0.0501,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.13033854166666667,
      "learning_rate": 0.0003,
      "loss": 14.3938,
      "loss/aux_loss": 0.04816003683954477,
      "loss/crossentropy": 2.8308571100234987,
      "loss/logits": 1.1243964433670044,
      "step": 5010
    },
    {
      "epoch": 0.0502,
      "grad_norm": 8.375,
      "grad_norm_var": 0.18127848307291666,
      "learning_rate": 0.0003,
      "loss": 14.3241,
      "loss/aux_loss": 0.048151292651891706,
      "loss/crossentropy": 2.9098775744438172,
      "loss/logits": 1.1258880913257598,
      "step": 5020
    },
    {
      "epoch": 0.0503,
      "grad_norm": 7.59375,
      "grad_norm_var": 0.74088134765625,
      "learning_rate": 0.0003,
      "loss": 14.5341,
      "loss/aux_loss": 0.048141808994114396,
      "loss/crossentropy": 3.010620355606079,
      "loss/logits": 1.1356734812259675,
      "step": 5030
    },
    {
      "epoch": 0.0504,
      "grad_norm": 8.5,
      "grad_norm_var": 0.177587890625,
      "learning_rate": 0.0003,
      "loss": 14.4808,
      "loss/aux_loss": 0.048152133263647555,
      "loss/crossentropy": 2.956807887554169,
      "loss/logits": 1.0851380228996277,
      "step": 5040
    },
    {
      "epoch": 0.0505,
      "grad_norm": 8.375,
      "grad_norm_var": 0.22001546223958332,
      "learning_rate": 0.0003,
      "loss": 14.4873,
      "loss/aux_loss": 0.04815137479454279,
      "loss/crossentropy": 3.0215251445770264,
      "loss/logits": 1.166229221224785,
      "step": 5050
    },
    {
      "epoch": 0.0506,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.19120686848958332,
      "learning_rate": 0.0003,
      "loss": 14.2421,
      "loss/aux_loss": 0.04814422242343426,
      "loss/crossentropy": 3.028605377674103,
      "loss/logits": 1.1260013222694396,
      "step": 5060
    },
    {
      "epoch": 0.0507,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.13407796223958332,
      "learning_rate": 0.0003,
      "loss": 14.4855,
      "loss/aux_loss": 0.04815457910299301,
      "loss/crossentropy": 3.0295214653015137,
      "loss/logits": 1.1266607105731965,
      "step": 5070
    },
    {
      "epoch": 0.0508,
      "grad_norm": 8.125,
      "grad_norm_var": 16.2919921875,
      "learning_rate": 0.0003,
      "loss": 14.278,
      "loss/aux_loss": 0.048153937235474585,
      "loss/crossentropy": 3.0743547797203066,
      "loss/logits": 1.1398055493831634,
      "step": 5080
    },
    {
      "epoch": 0.0509,
      "grad_norm": 8.3125,
      "grad_norm_var": 0.3312459309895833,
      "learning_rate": 0.0003,
      "loss": 14.3122,
      "loss/aux_loss": 0.048145625926554206,
      "loss/crossentropy": 2.9891109347343443,
      "loss/logits": 1.144765716791153,
      "step": 5090
    },
    {
      "epoch": 0.051,
      "grad_norm": 8.375,
      "grad_norm_var": 0.25514322916666665,
      "learning_rate": 0.0003,
      "loss": 14.0619,
      "loss/aux_loss": 0.048147767595946786,
      "loss/crossentropy": 2.923846483230591,
      "loss/logits": 1.104039838910103,
      "step": 5100
    },
    {
      "epoch": 0.0511,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.18834228515625,
      "learning_rate": 0.0003,
      "loss": 14.3523,
      "loss/aux_loss": 0.04815386533737183,
      "loss/crossentropy": 2.9420456171035765,
      "loss/logits": 1.110900694131851,
      "step": 5110
    },
    {
      "epoch": 0.0512,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.348291015625,
      "learning_rate": 0.0003,
      "loss": 14.21,
      "loss/aux_loss": 0.04815777577459812,
      "loss/crossentropy": 2.9808182954788207,
      "loss/logits": 1.1418810188770294,
      "step": 5120
    },
    {
      "epoch": 0.0513,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.24459635416666667,
      "learning_rate": 0.0003,
      "loss": 14.1038,
      "loss/aux_loss": 0.048149819299578664,
      "loss/crossentropy": 2.9293219327926634,
      "loss/logits": 1.151758760213852,
      "step": 5130
    },
    {
      "epoch": 0.0514,
      "grad_norm": 7.78125,
      "grad_norm_var": 0.5398274739583333,
      "learning_rate": 0.0003,
      "loss": 14.0253,
      "loss/aux_loss": 0.04813775867223739,
      "loss/crossentropy": 3.086165702342987,
      "loss/logits": 1.1042977631092072,
      "step": 5140
    },
    {
      "epoch": 0.0515,
      "grad_norm": 7.96875,
      "grad_norm_var": 0.27209879557291666,
      "learning_rate": 0.0003,
      "loss": 14.2102,
      "loss/aux_loss": 0.04814709778875113,
      "loss/crossentropy": 3.16923828125,
      "loss/logits": 1.1310043185949326,
      "step": 5150
    },
    {
      "epoch": 0.0516,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.10705973307291666,
      "learning_rate": 0.0003,
      "loss": 14.2875,
      "loss/aux_loss": 0.04815742298960686,
      "loss/crossentropy": 2.9624265909194945,
      "loss/logits": 1.1060597985982894,
      "step": 5160
    },
    {
      "epoch": 0.0517,
      "grad_norm": 8.375,
      "grad_norm_var": 0.072509765625,
      "learning_rate": 0.0003,
      "loss": 14.4538,
      "loss/aux_loss": 0.04815982095897198,
      "loss/crossentropy": 2.942893236875534,
      "loss/logits": 1.113595375418663,
      "step": 5170
    },
    {
      "epoch": 0.0518,
      "grad_norm": 8.125,
      "grad_norm_var": 0.13105061848958333,
      "learning_rate": 0.0003,
      "loss": 14.0981,
      "loss/aux_loss": 0.04815513715147972,
      "loss/crossentropy": 3.05008624792099,
      "loss/logits": 1.1298416316509248,
      "step": 5180
    },
    {
      "epoch": 0.0519,
      "grad_norm": 7.59375,
      "grad_norm_var": 0.17190348307291667,
      "learning_rate": 0.0003,
      "loss": 14.2019,
      "loss/aux_loss": 0.04814068842679262,
      "loss/crossentropy": 2.9983504891395567,
      "loss/logits": 1.1261755168437957,
      "step": 5190
    },
    {
      "epoch": 0.052,
      "grad_norm": 8.25,
      "grad_norm_var": 0.10623372395833333,
      "learning_rate": 0.0003,
      "loss": 14.0924,
      "loss/aux_loss": 0.04815409407019615,
      "loss/crossentropy": 2.815429699420929,
      "loss/logits": 1.1029013335704803,
      "step": 5200
    },
    {
      "epoch": 0.0521,
      "grad_norm": 7.96875,
      "grad_norm_var": 0.075634765625,
      "learning_rate": 0.0003,
      "loss": 14.0729,
      "loss/aux_loss": 0.04814719296991825,
      "loss/crossentropy": 3.0798101305961607,
      "loss/logits": 1.1071963399648665,
      "step": 5210
    },
    {
      "epoch": 0.0522,
      "grad_norm": 7.5,
      "grad_norm_var": 0.10396728515625,
      "learning_rate": 0.0003,
      "loss": 14.2266,
      "loss/aux_loss": 0.04813891816884279,
      "loss/crossentropy": 3.0311917304992675,
      "loss/logits": 1.1385094463825225,
      "step": 5220
    },
    {
      "epoch": 0.0523,
      "grad_norm": 7.59375,
      "grad_norm_var": 0.09295247395833334,
      "learning_rate": 0.0003,
      "loss": 14.0168,
      "loss/aux_loss": 0.04814713895320892,
      "loss/crossentropy": 2.8070708096027372,
      "loss/logits": 1.037602314352989,
      "step": 5230
    },
    {
      "epoch": 0.0524,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.23748372395833334,
      "learning_rate": 0.0003,
      "loss": 14.206,
      "loss/aux_loss": 0.048150969482958314,
      "loss/crossentropy": 2.9220390915870667,
      "loss/logits": 1.1021725416183472,
      "step": 5240
    },
    {
      "epoch": 0.0525,
      "grad_norm": 7.96875,
      "grad_norm_var": 0.3568644205729167,
      "learning_rate": 0.0003,
      "loss": 14.2243,
      "loss/aux_loss": 0.048154151812195775,
      "loss/crossentropy": 3.0725671291351317,
      "loss/logits": 1.1407492518424989,
      "step": 5250
    },
    {
      "epoch": 0.0526,
      "grad_norm": 8.25,
      "grad_norm_var": 1.03599853515625,
      "learning_rate": 0.0003,
      "loss": 14.2113,
      "loss/aux_loss": 0.04815595541149378,
      "loss/crossentropy": 3.073868250846863,
      "loss/logits": 1.086431348323822,
      "step": 5260
    },
    {
      "epoch": 0.0527,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.8241495768229167,
      "learning_rate": 0.0003,
      "loss": 14.2052,
      "loss/aux_loss": 0.04815474133938551,
      "loss/crossentropy": 2.942746305465698,
      "loss/logits": 1.085268846154213,
      "step": 5270
    },
    {
      "epoch": 0.0528,
      "grad_norm": 8.125,
      "grad_norm_var": 0.457421875,
      "learning_rate": 0.0003,
      "loss": 14.1014,
      "loss/aux_loss": 0.0481459453701973,
      "loss/crossentropy": 2.9510623097419737,
      "loss/logits": 1.086976206302643,
      "step": 5280
    },
    {
      "epoch": 0.0529,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.6368448893229167,
      "learning_rate": 0.0003,
      "loss": 14.0806,
      "loss/aux_loss": 0.04814429916441441,
      "loss/crossentropy": 2.91622234582901,
      "loss/logits": 1.1365332275629043,
      "step": 5290
    },
    {
      "epoch": 0.053,
      "grad_norm": 8.125,
      "grad_norm_var": 0.32281494140625,
      "learning_rate": 0.0003,
      "loss": 14.1434,
      "loss/aux_loss": 0.04813830778002739,
      "loss/crossentropy": 2.9429489850997923,
      "loss/logits": 1.1115789502859115,
      "step": 5300
    },
    {
      "epoch": 0.0531,
      "grad_norm": 7.46875,
      "grad_norm_var": 0.2721638997395833,
      "learning_rate": 0.0003,
      "loss": 14.1278,
      "loss/aux_loss": 0.04815119802951813,
      "loss/crossentropy": 3.0424102902412415,
      "loss/logits": 1.137840673327446,
      "step": 5310
    },
    {
      "epoch": 0.0532,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.20178629557291666,
      "learning_rate": 0.0003,
      "loss": 14.2472,
      "loss/aux_loss": 0.048156299628317356,
      "loss/crossentropy": 2.9693280339241026,
      "loss/logits": 1.1287171095609665,
      "step": 5320
    },
    {
      "epoch": 0.0533,
      "grad_norm": 8.25,
      "grad_norm_var": 0.07245686848958334,
      "learning_rate": 0.0003,
      "loss": 14.3863,
      "loss/aux_loss": 0.04813747089356184,
      "loss/crossentropy": 3.1067948579788207,
      "loss/logits": 1.1718181252479554,
      "step": 5330
    },
    {
      "epoch": 0.0534,
      "grad_norm": 10.875,
      "grad_norm_var": 0.6001139322916667,
      "learning_rate": 0.0003,
      "loss": 14.1949,
      "loss/aux_loss": 0.0481356767937541,
      "loss/crossentropy": 2.9768314242362974,
      "loss/logits": 1.1081100910902024,
      "step": 5340
    },
    {
      "epoch": 0.0535,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.6735677083333333,
      "learning_rate": 0.0003,
      "loss": 14.1155,
      "loss/aux_loss": 0.04814883153885603,
      "loss/crossentropy": 3.0978642463684083,
      "loss/logits": 1.112101286649704,
      "step": 5350
    },
    {
      "epoch": 0.0536,
      "grad_norm": 8.375,
      "grad_norm_var": 0.17733968098958333,
      "learning_rate": 0.0003,
      "loss": 14.2689,
      "loss/aux_loss": 0.048155237548053266,
      "loss/crossentropy": 2.9267095983028413,
      "loss/logits": 1.1321902126073837,
      "step": 5360
    },
    {
      "epoch": 0.0537,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.123828125,
      "learning_rate": 0.0003,
      "loss": 14.0068,
      "loss/aux_loss": 0.048150830715894696,
      "loss/crossentropy": 3.0328433394432066,
      "loss/logits": 1.0583814442157746,
      "step": 5370
    },
    {
      "epoch": 0.0538,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.160791015625,
      "learning_rate": 0.0003,
      "loss": 14.2637,
      "loss/aux_loss": 0.04814900886267424,
      "loss/crossentropy": 2.8612841725349427,
      "loss/logits": 1.0983431458473205,
      "step": 5380
    },
    {
      "epoch": 0.0539,
      "grad_norm": 7.75,
      "grad_norm_var": 0.16663004557291666,
      "learning_rate": 0.0003,
      "loss": 14.0972,
      "loss/aux_loss": 0.04815038740634918,
      "loss/crossentropy": 2.872392749786377,
      "loss/logits": 1.062236163020134,
      "step": 5390
    },
    {
      "epoch": 0.054,
      "grad_norm": 8.5,
      "grad_norm_var": 0.20662434895833334,
      "learning_rate": 0.0003,
      "loss": 14.0276,
      "loss/aux_loss": 0.048151925951242444,
      "loss/crossentropy": 2.777138501405716,
      "loss/logits": 1.043939945101738,
      "step": 5400
    },
    {
      "epoch": 0.0541,
      "grad_norm": 9.125,
      "grad_norm_var": 0.20220947265625,
      "learning_rate": 0.0003,
      "loss": 14.1898,
      "loss/aux_loss": 0.04814861789345741,
      "loss/crossentropy": 2.9948280215263368,
      "loss/logits": 1.0816247820854188,
      "step": 5410
    },
    {
      "epoch": 0.0542,
      "grad_norm": 8.125,
      "grad_norm_var": 0.16243082682291668,
      "learning_rate": 0.0003,
      "loss": 14.1748,
      "loss/aux_loss": 0.04814356118440628,
      "loss/crossentropy": 2.984057831764221,
      "loss/logits": 1.1022383213043212,
      "step": 5420
    },
    {
      "epoch": 0.0543,
      "grad_norm": 8.375,
      "grad_norm_var": 0.21638997395833334,
      "learning_rate": 0.0003,
      "loss": 14.1883,
      "loss/aux_loss": 0.04814845807850361,
      "loss/crossentropy": 2.9097337126731873,
      "loss/logits": 1.0658887088298798,
      "step": 5430
    },
    {
      "epoch": 0.0544,
      "grad_norm": 46.75,
      "grad_norm_var": 91.66760660807292,
      "learning_rate": 0.0003,
      "loss": 14.2163,
      "loss/aux_loss": 0.04814211465418339,
      "loss/crossentropy": 3.150989270210266,
      "loss/logits": 1.1435310065746307,
      "step": 5440
    },
    {
      "epoch": 0.0545,
      "grad_norm": 7.90625,
      "grad_norm_var": 91.24908854166667,
      "learning_rate": 0.0003,
      "loss": 14.2637,
      "loss/aux_loss": 0.04814708679914474,
      "loss/crossentropy": 3.065591824054718,
      "loss/logits": 1.1185233294963837,
      "step": 5450
    },
    {
      "epoch": 0.0546,
      "grad_norm": 8.75,
      "grad_norm_var": 0.31951497395833334,
      "learning_rate": 0.0003,
      "loss": 14.3104,
      "loss/aux_loss": 0.04814552329480648,
      "loss/crossentropy": 3.0562121748924254,
      "loss/logits": 1.1377945810556411,
      "step": 5460
    },
    {
      "epoch": 0.0547,
      "grad_norm": 7.78125,
      "grad_norm_var": 0.33352457682291664,
      "learning_rate": 0.0003,
      "loss": 14.0194,
      "loss/aux_loss": 0.048139683343470095,
      "loss/crossentropy": 3.186306917667389,
      "loss/logits": 1.0923507630825042,
      "step": 5470
    },
    {
      "epoch": 0.0548,
      "grad_norm": 8.5,
      "grad_norm_var": 0.11419270833333334,
      "learning_rate": 0.0003,
      "loss": 14.0885,
      "loss/aux_loss": 0.0481383940204978,
      "loss/crossentropy": 3.0000529527664184,
      "loss/logits": 1.0960578143596649,
      "step": 5480
    },
    {
      "epoch": 0.0549,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.14837239583333334,
      "learning_rate": 0.0003,
      "loss": 14.1311,
      "loss/aux_loss": 0.048138375580310824,
      "loss/crossentropy": 3.0034351110458375,
      "loss/logits": 1.079491952061653,
      "step": 5490
    },
    {
      "epoch": 0.055,
      "grad_norm": 8.3125,
      "grad_norm_var": 0.12092692057291667,
      "learning_rate": 0.0003,
      "loss": 14.1602,
      "loss/aux_loss": 0.04813902676105499,
      "loss/crossentropy": 3.0370962262153625,
      "loss/logits": 1.071971568465233,
      "step": 5500
    },
    {
      "epoch": 0.0551,
      "grad_norm": 9.125,
      "grad_norm_var": 0.159619140625,
      "learning_rate": 0.0003,
      "loss": 14.1168,
      "loss/aux_loss": 0.04815224166959524,
      "loss/crossentropy": 2.94165198802948,
      "loss/logits": 1.09517442882061,
      "step": 5510
    },
    {
      "epoch": 0.0552,
      "grad_norm": 8.75,
      "grad_norm_var": 0.38424479166666664,
      "learning_rate": 0.0003,
      "loss": 14.1283,
      "loss/aux_loss": 0.048148746229708196,
      "loss/crossentropy": 2.889024776220322,
      "loss/logits": 1.0823973000049592,
      "step": 5520
    },
    {
      "epoch": 0.0553,
      "grad_norm": 7.90625,
      "grad_norm_var": 0.37433268229166666,
      "learning_rate": 0.0003,
      "loss": 14.2453,
      "loss/aux_loss": 0.04814521931111813,
      "loss/crossentropy": 2.9829455733299257,
      "loss/logits": 1.1254934877157212,
      "step": 5530
    },
    {
      "epoch": 0.0554,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.23541259765625,
      "learning_rate": 0.0003,
      "loss": 14.1698,
      "loss/aux_loss": 0.04814098011702299,
      "loss/crossentropy": 2.950876700878143,
      "loss/logits": 1.1378295987844467,
      "step": 5540
    },
    {
      "epoch": 0.0555,
      "grad_norm": 7.90625,
      "grad_norm_var": 0.186572265625,
      "learning_rate": 0.0003,
      "loss": 14.1457,
      "loss/aux_loss": 0.04814466387033463,
      "loss/crossentropy": 2.9882196366786955,
      "loss/logits": 1.0835947006940843,
      "step": 5550
    },
    {
      "epoch": 0.0556,
      "grad_norm": 8.125,
      "grad_norm_var": 0.25572509765625,
      "learning_rate": 0.0003,
      "loss": 14.0392,
      "loss/aux_loss": 0.04815062917768955,
      "loss/crossentropy": 2.829884684085846,
      "loss/logits": 1.0776374101638795,
      "step": 5560
    },
    {
      "epoch": 0.0557,
      "grad_norm": 20.25,
      "grad_norm_var": 8.858072916666666,
      "learning_rate": 0.0003,
      "loss": 14.0187,
      "loss/aux_loss": 0.04814136177301407,
      "loss/crossentropy": 3.0365766048431397,
      "loss/logits": 1.1214863985776902,
      "step": 5570
    },
    {
      "epoch": 0.0558,
      "grad_norm": 8.875,
      "grad_norm_var": 71.89733072916667,
      "learning_rate": 0.0003,
      "loss": 14.0507,
      "loss/aux_loss": 0.048154527135193345,
      "loss/crossentropy": 2.925475996732712,
      "loss/logits": 1.0984899312257768,
      "step": 5580
    },
    {
      "epoch": 0.0559,
      "grad_norm": 9.1875,
      "grad_norm_var": 68.73677978515624,
      "learning_rate": 0.0003,
      "loss": 14.0769,
      "loss/aux_loss": 0.048137818835675715,
      "loss/crossentropy": 3.0427648425102234,
      "loss/logits": 1.1238386183977127,
      "step": 5590
    },
    {
      "epoch": 0.056,
      "grad_norm": 8.625,
      "grad_norm_var": 0.35065104166666666,
      "learning_rate": 0.0003,
      "loss": 14.018,
      "loss/aux_loss": 0.04814153481274843,
      "loss/crossentropy": 2.9993926525115966,
      "loss/logits": 1.0859254390001296,
      "step": 5600
    },
    {
      "epoch": 0.0561,
      "grad_norm": 7.84375,
      "grad_norm_var": 0.24605712890625,
      "learning_rate": 0.0003,
      "loss": 14.0132,
      "loss/aux_loss": 0.04814342502504587,
      "loss/crossentropy": 3.1588930010795595,
      "loss/logits": 1.1444143801927567,
      "step": 5610
    },
    {
      "epoch": 0.0562,
      "grad_norm": 8.3125,
      "grad_norm_var": 0.13964436848958334,
      "learning_rate": 0.0003,
      "loss": 13.9644,
      "loss/aux_loss": 0.04813936911523342,
      "loss/crossentropy": 2.9891305387020113,
      "loss/logits": 1.08986476957798,
      "step": 5620
    },
    {
      "epoch": 0.0563,
      "grad_norm": 7.71875,
      "grad_norm_var": 0.15133056640625,
      "learning_rate": 0.0003,
      "loss": 14.0305,
      "loss/aux_loss": 0.04814296532422304,
      "loss/crossentropy": 3.094134247303009,
      "loss/logits": 1.1330428838729858,
      "step": 5630
    },
    {
      "epoch": 0.0564,
      "grad_norm": 8.0,
      "grad_norm_var": 0.22073160807291667,
      "learning_rate": 0.0003,
      "loss": 14.0265,
      "loss/aux_loss": 0.04816127121448517,
      "loss/crossentropy": 2.90863493680954,
      "loss/logits": 1.0908836662769317,
      "step": 5640
    },
    {
      "epoch": 0.0565,
      "grad_norm": 8.75,
      "grad_norm_var": 0.20128580729166667,
      "learning_rate": 0.0003,
      "loss": 14.1691,
      "loss/aux_loss": 0.048136289790272714,
      "loss/crossentropy": 3.045944094657898,
      "loss/logits": 1.1683479130268097,
      "step": 5650
    },
    {
      "epoch": 0.0566,
      "grad_norm": 7.59375,
      "grad_norm_var": 0.221484375,
      "learning_rate": 0.0003,
      "loss": 13.8956,
      "loss/aux_loss": 0.0481420211493969,
      "loss/crossentropy": 2.9611165285110475,
      "loss/logits": 1.1002487033605575,
      "step": 5660
    },
    {
      "epoch": 0.0567,
      "grad_norm": 7.78125,
      "grad_norm_var": 0.1322265625,
      "learning_rate": 0.0003,
      "loss": 13.9722,
      "loss/aux_loss": 0.04813913106918335,
      "loss/crossentropy": 2.832181286811829,
      "loss/logits": 1.085351037979126,
      "step": 5670
    },
    {
      "epoch": 0.0568,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.09976806640625,
      "learning_rate": 0.0003,
      "loss": 13.9409,
      "loss/aux_loss": 0.04813998658210039,
      "loss/crossentropy": 3.0723737359046934,
      "loss/logits": 1.1221662908792496,
      "step": 5680
    },
    {
      "epoch": 0.0569,
      "grad_norm": 8.75,
      "grad_norm_var": 0.18485921223958332,
      "learning_rate": 0.0003,
      "loss": 13.9103,
      "loss/aux_loss": 0.048149769008159635,
      "loss/crossentropy": 2.8909295797348022,
      "loss/logits": 1.0669385582208633,
      "step": 5690
    },
    {
      "epoch": 0.057,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.164306640625,
      "learning_rate": 0.0003,
      "loss": 14.2382,
      "loss/aux_loss": 0.04814224392175674,
      "loss/crossentropy": 3.028742825984955,
      "loss/logits": 1.1198367089033128,
      "step": 5700
    },
    {
      "epoch": 0.0571,
      "grad_norm": 7.9375,
      "grad_norm_var": 0.16002197265625,
      "learning_rate": 0.0003,
      "loss": 13.9939,
      "loss/aux_loss": 0.04813466928899288,
      "loss/crossentropy": 3.091606914997101,
      "loss/logits": 1.111482274532318,
      "step": 5710
    },
    {
      "epoch": 0.0572,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.13919270833333333,
      "learning_rate": 0.0003,
      "loss": 13.8898,
      "loss/aux_loss": 0.04814035035669804,
      "loss/crossentropy": 2.9719881653785705,
      "loss/logits": 1.1058259099721908,
      "step": 5720
    },
    {
      "epoch": 0.0573,
      "grad_norm": 8.0625,
      "grad_norm_var": 20.40621337890625,
      "learning_rate": 0.0003,
      "loss": 14.125,
      "loss/aux_loss": 0.048147077485918996,
      "loss/crossentropy": 2.940553843975067,
      "loss/logits": 1.0541133284568787,
      "step": 5730
    },
    {
      "epoch": 0.0574,
      "grad_norm": 9.125,
      "grad_norm_var": 0.126416015625,
      "learning_rate": 0.0003,
      "loss": 14.0709,
      "loss/aux_loss": 0.04814092367887497,
      "loss/crossentropy": 2.9801509261131285,
      "loss/logits": 1.1179528176784514,
      "step": 5740
    },
    {
      "epoch": 0.0575,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.21633707682291667,
      "learning_rate": 0.0003,
      "loss": 13.8988,
      "loss/aux_loss": 0.048131171986460684,
      "loss/crossentropy": 3.1363558411598205,
      "loss/logits": 1.1174342811107636,
      "step": 5750
    },
    {
      "epoch": 0.0576,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.42724202473958334,
      "learning_rate": 0.0003,
      "loss": 13.8693,
      "loss/aux_loss": 0.048153743520379065,
      "loss/crossentropy": 3.0531252682209016,
      "loss/logits": 1.0992789357900619,
      "step": 5760
    },
    {
      "epoch": 0.0577,
      "grad_norm": 7.96875,
      "grad_norm_var": 0.39302978515625,
      "learning_rate": 0.0003,
      "loss": 13.758,
      "loss/aux_loss": 0.048135829716920854,
      "loss/crossentropy": 3.001027262210846,
      "loss/logits": 1.0745349794626236,
      "step": 5770
    },
    {
      "epoch": 0.0578,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.33866780598958335,
      "learning_rate": 0.0003,
      "loss": 13.7585,
      "loss/aux_loss": 0.04814055394381285,
      "loss/crossentropy": 2.9369577765464783,
      "loss/logits": 1.0799493759870529,
      "step": 5780
    },
    {
      "epoch": 0.0579,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.6395833333333333,
      "learning_rate": 0.0003,
      "loss": 14.1834,
      "loss/aux_loss": 0.04815905783325434,
      "loss/crossentropy": 3.069815826416016,
      "loss/logits": 1.1343096286058425,
      "step": 5790
    },
    {
      "epoch": 0.058,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.27545572916666666,
      "learning_rate": 0.0003,
      "loss": 13.9437,
      "loss/aux_loss": 0.04814049322158098,
      "loss/crossentropy": 2.8448895037174227,
      "loss/logits": 1.0605036556720733,
      "step": 5800
    },
    {
      "epoch": 0.0581,
      "grad_norm": 8.625,
      "grad_norm_var": 0.33121337890625,
      "learning_rate": 0.0003,
      "loss": 13.9217,
      "loss/aux_loss": 0.048141079396009444,
      "loss/crossentropy": 2.959049415588379,
      "loss/logits": 1.1173090249300004,
      "step": 5810
    },
    {
      "epoch": 0.0582,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.582666015625,
      "learning_rate": 0.0003,
      "loss": 13.9177,
      "loss/aux_loss": 0.04814137741923332,
      "loss/crossentropy": 2.9781831741333007,
      "loss/logits": 1.088547134399414,
      "step": 5820
    },
    {
      "epoch": 0.0583,
      "grad_norm": 8.5,
      "grad_norm_var": 0.52457275390625,
      "learning_rate": 0.0003,
      "loss": 13.8936,
      "loss/aux_loss": 0.04813809935003519,
      "loss/crossentropy": 2.920023334026337,
      "loss/logits": 1.0897945940494538,
      "step": 5830
    },
    {
      "epoch": 0.0584,
      "grad_norm": 8.5,
      "grad_norm_var": 0.13635660807291666,
      "learning_rate": 0.0003,
      "loss": 13.929,
      "loss/aux_loss": 0.04814415480941534,
      "loss/crossentropy": 2.9571971893310547,
      "loss/logits": 1.0757667511701583,
      "step": 5840
    },
    {
      "epoch": 0.0585,
      "grad_norm": 8.125,
      "grad_norm_var": 0.13433837890625,
      "learning_rate": 0.0003,
      "loss": 13.9993,
      "loss/aux_loss": 0.04814188275486231,
      "loss/crossentropy": 2.9641053080558777,
      "loss/logits": 1.0629219651222228,
      "step": 5850
    },
    {
      "epoch": 0.0586,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.4556640625,
      "learning_rate": 0.0003,
      "loss": 13.9047,
      "loss/aux_loss": 0.04814865179359913,
      "loss/crossentropy": 2.838666582107544,
      "loss/logits": 1.08486467897892,
      "step": 5860
    },
    {
      "epoch": 0.0587,
      "grad_norm": 8.25,
      "grad_norm_var": 27.4416015625,
      "learning_rate": 0.0003,
      "loss": 13.7725,
      "loss/aux_loss": 0.048147336766123774,
      "loss/crossentropy": 2.966917932033539,
      "loss/logits": 1.0681630432605744,
      "step": 5870
    },
    {
      "epoch": 0.0588,
      "grad_norm": 8.3125,
      "grad_norm_var": 18.5572265625,
      "learning_rate": 0.0003,
      "loss": 13.805,
      "loss/aux_loss": 0.04814778696745634,
      "loss/crossentropy": 2.870664370059967,
      "loss/logits": 1.0493683815002441,
      "step": 5880
    },
    {
      "epoch": 0.0589,
      "grad_norm": 8.5,
      "grad_norm_var": 0.5998331705729166,
      "learning_rate": 0.0003,
      "loss": 13.8099,
      "loss/aux_loss": 0.04814050365239382,
      "loss/crossentropy": 2.922038221359253,
      "loss/logits": 1.0779344737529755,
      "step": 5890
    },
    {
      "epoch": 0.059,
      "grad_norm": 9.375,
      "grad_norm_var": 0.202978515625,
      "learning_rate": 0.0003,
      "loss": 13.9627,
      "loss/aux_loss": 0.04813796691596508,
      "loss/crossentropy": 3.1271554470062255,
      "loss/logits": 1.1131070137023926,
      "step": 5900
    },
    {
      "epoch": 0.0591,
      "grad_norm": 8.625,
      "grad_norm_var": 0.20284830729166667,
      "learning_rate": 0.0003,
      "loss": 13.7172,
      "loss/aux_loss": 0.048142065107822415,
      "loss/crossentropy": 2.9341515243053435,
      "loss/logits": 1.0991775900125504,
      "step": 5910
    },
    {
      "epoch": 0.0592,
      "grad_norm": 8.375,
      "grad_norm_var": 0.32784830729166664,
      "learning_rate": 0.0003,
      "loss": 13.9532,
      "loss/aux_loss": 0.04815160110592842,
      "loss/crossentropy": 2.963713300228119,
      "loss/logits": 1.0947488635778426,
      "step": 5920
    },
    {
      "epoch": 0.0593,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.3666015625,
      "learning_rate": 0.0003,
      "loss": 13.8793,
      "loss/aux_loss": 0.048143844306468966,
      "loss/crossentropy": 2.8118023216724395,
      "loss/logits": 1.0895264118909835,
      "step": 5930
    },
    {
      "epoch": 0.0594,
      "grad_norm": 8.375,
      "grad_norm_var": 0.08274739583333333,
      "learning_rate": 0.0003,
      "loss": 13.7795,
      "loss/aux_loss": 0.04813539497554302,
      "loss/crossentropy": 2.8907833218574526,
      "loss/logits": 1.0538031846284865,
      "step": 5940
    },
    {
      "epoch": 0.0595,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.24547119140625,
      "learning_rate": 0.0003,
      "loss": 14.0992,
      "loss/aux_loss": 0.048147369921207425,
      "loss/crossentropy": 2.9670627653598785,
      "loss/logits": 1.1421405851840973,
      "step": 5950
    },
    {
      "epoch": 0.0596,
      "grad_norm": 9.375,
      "grad_norm_var": 0.67174072265625,
      "learning_rate": 0.0003,
      "loss": 13.8134,
      "loss/aux_loss": 0.04814773909747601,
      "loss/crossentropy": 2.9220254778862,
      "loss/logits": 1.0881559133529664,
      "step": 5960
    },
    {
      "epoch": 0.0597,
      "grad_norm": 8.8125,
      "grad_norm_var": 68.9384765625,
      "learning_rate": 0.0003,
      "loss": 14.0155,
      "loss/aux_loss": 0.048162427730858326,
      "loss/crossentropy": 2.977382260560989,
      "loss/logits": 1.0755089968442917,
      "step": 5970
    },
    {
      "epoch": 0.0598,
      "grad_norm": 8.0625,
      "grad_norm_var": 68.26399739583333,
      "learning_rate": 0.0003,
      "loss": 14.0255,
      "loss/aux_loss": 0.048142471350729465,
      "loss/crossentropy": 2.8615992307662963,
      "loss/logits": 1.0675591200590133,
      "step": 5980
    },
    {
      "epoch": 0.0599,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.53717041015625,
      "learning_rate": 0.0003,
      "loss": 13.6566,
      "loss/aux_loss": 0.048138993233442305,
      "loss/crossentropy": 3.0715150594711305,
      "loss/logits": 1.0647211134433747,
      "step": 5990
    },
    {
      "epoch": 0.06,
      "grad_norm": 8.5,
      "grad_norm_var": 0.13583577473958333,
      "learning_rate": 0.0003,
      "loss": 13.8894,
      "loss/aux_loss": 0.04813880603760481,
      "loss/crossentropy": 2.99127779006958,
      "loss/logits": 1.0782989412546158,
      "step": 6000
    },
    {
      "epoch": 0.0601,
      "grad_norm": 8.375,
      "grad_norm_var": 0.13151041666666666,
      "learning_rate": 0.0003,
      "loss": 13.9352,
      "loss/aux_loss": 0.04813908338546753,
      "loss/crossentropy": 2.9843607366085054,
      "loss/logits": 1.0743216931819917,
      "step": 6010
    },
    {
      "epoch": 0.0602,
      "grad_norm": 8.375,
      "grad_norm_var": 1.2416015625,
      "learning_rate": 0.0003,
      "loss": 13.9324,
      "loss/aux_loss": 0.04814204126596451,
      "loss/crossentropy": 3.001486176252365,
      "loss/logits": 1.0827761620283127,
      "step": 6020
    },
    {
      "epoch": 0.0603,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.3578125,
      "learning_rate": 0.0003,
      "loss": 13.5495,
      "loss/aux_loss": 0.048134736530482766,
      "loss/crossentropy": 2.8943534910678865,
      "loss/logits": 1.089774450659752,
      "step": 6030
    },
    {
      "epoch": 0.0604,
      "grad_norm": 8.25,
      "grad_norm_var": 0.21990559895833334,
      "learning_rate": 0.0003,
      "loss": 13.91,
      "loss/aux_loss": 0.0481480710208416,
      "loss/crossentropy": 3.125103998184204,
      "loss/logits": 1.1064673095941544,
      "step": 6040
    },
    {
      "epoch": 0.0605,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.5637980143229167,
      "learning_rate": 0.0003,
      "loss": 13.7693,
      "loss/aux_loss": 0.04813214130699635,
      "loss/crossentropy": 2.9569589614868166,
      "loss/logits": 1.0811177968978882,
      "step": 6050
    },
    {
      "epoch": 0.0606,
      "grad_norm": 9.0,
      "grad_norm_var": 0.32428385416666666,
      "learning_rate": 0.0003,
      "loss": 13.737,
      "loss/aux_loss": 0.048133809491991995,
      "loss/crossentropy": 2.873425018787384,
      "loss/logits": 1.066912430524826,
      "step": 6060
    },
    {
      "epoch": 0.0607,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.12480061848958333,
      "learning_rate": 0.0003,
      "loss": 13.7512,
      "loss/aux_loss": 0.048146062158048154,
      "loss/crossentropy": 2.874787837266922,
      "loss/logits": 0.99142906665802,
      "step": 6070
    },
    {
      "epoch": 0.0608,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.5244140625,
      "learning_rate": 0.0003,
      "loss": 13.7192,
      "loss/aux_loss": 0.04813813380897045,
      "loss/crossentropy": 2.8974472165107725,
      "loss/logits": 1.0416524529457092,
      "step": 6080
    },
    {
      "epoch": 0.0609,
      "grad_norm": 11.25,
      "grad_norm_var": 0.8244140625,
      "learning_rate": 0.0003,
      "loss": 14.0021,
      "loss/aux_loss": 0.04813482966274023,
      "loss/crossentropy": 2.9082088649272917,
      "loss/logits": 1.1170342415571213,
      "step": 6090
    },
    {
      "epoch": 0.061,
      "grad_norm": 7.90625,
      "grad_norm_var": 0.6071248372395833,
      "learning_rate": 0.0003,
      "loss": 13.8868,
      "loss/aux_loss": 0.048123362846672534,
      "loss/crossentropy": 3.10910404920578,
      "loss/logits": 1.1065054565668107,
      "step": 6100
    },
    {
      "epoch": 0.0611,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.14185791015625,
      "learning_rate": 0.0003,
      "loss": 13.9858,
      "loss/aux_loss": 0.04813080281019211,
      "loss/crossentropy": 2.9956843733787535,
      "loss/logits": 1.0740672290325164,
      "step": 6110
    },
    {
      "epoch": 0.0612,
      "grad_norm": 8.875,
      "grad_norm_var": 0.11495768229166667,
      "learning_rate": 0.0003,
      "loss": 13.8486,
      "loss/aux_loss": 0.048135568387806416,
      "loss/crossentropy": 3.0476453006267548,
      "loss/logits": 1.074926945567131,
      "step": 6120
    },
    {
      "epoch": 0.0613,
      "grad_norm": 11.0,
      "grad_norm_var": 44.31295572916667,
      "learning_rate": 0.0003,
      "loss": 13.7639,
      "loss/aux_loss": 0.04814387541264296,
      "loss/crossentropy": 3.015053462982178,
      "loss/logits": 1.0650121331214906,
      "step": 6130
    },
    {
      "epoch": 0.0614,
      "grad_norm": 9.3125,
      "grad_norm_var": 18.512353515625,
      "learning_rate": 0.0003,
      "loss": 13.6984,
      "loss/aux_loss": 0.04813182633370161,
      "loss/crossentropy": 2.9327735245227813,
      "loss/logits": 1.062555307149887,
      "step": 6140
    },
    {
      "epoch": 0.0615,
      "grad_norm": 7.84375,
      "grad_norm_var": 0.5481404622395833,
      "learning_rate": 0.0003,
      "loss": 13.7344,
      "loss/aux_loss": 0.048124780878424644,
      "loss/crossentropy": 2.884230363368988,
      "loss/logits": 1.0680664718151092,
      "step": 6150
    },
    {
      "epoch": 0.0616,
      "grad_norm": 8.9375,
      "grad_norm_var": 0.13401285807291666,
      "learning_rate": 0.0003,
      "loss": 14.0286,
      "loss/aux_loss": 0.04813941400498152,
      "loss/crossentropy": 2.973123300075531,
      "loss/logits": 1.0950632393360138,
      "step": 6160
    },
    {
      "epoch": 0.0617,
      "grad_norm": 7.96875,
      "grad_norm_var": 0.15256754557291666,
      "learning_rate": 0.0003,
      "loss": 13.4949,
      "loss/aux_loss": 0.04813013020902872,
      "loss/crossentropy": 3.0717917561531065,
      "loss/logits": 1.096383735537529,
      "step": 6170
    },
    {
      "epoch": 0.0618,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.3224894205729167,
      "learning_rate": 0.0003,
      "loss": 13.6958,
      "loss/aux_loss": 0.04813482668250799,
      "loss/crossentropy": 2.905612015724182,
      "loss/logits": 1.0801061391830444,
      "step": 6180
    },
    {
      "epoch": 0.0619,
      "grad_norm": 8.125,
      "grad_norm_var": 1.2854166666666667,
      "learning_rate": 0.0003,
      "loss": 13.8524,
      "loss/aux_loss": 0.04814470838755369,
      "loss/crossentropy": 3.090296733379364,
      "loss/logits": 1.1191903114318849,
      "step": 6190
    },
    {
      "epoch": 0.062,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.2548014322916667,
      "learning_rate": 0.0003,
      "loss": 13.8103,
      "loss/aux_loss": 0.04813280999660492,
      "loss/crossentropy": 2.9565974533557893,
      "loss/logits": 1.0762405812740325,
      "step": 6200
    },
    {
      "epoch": 0.0621,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.12838541666666667,
      "learning_rate": 0.0003,
      "loss": 13.9951,
      "loss/aux_loss": 0.04814301636070013,
      "loss/crossentropy": 3.0025951147079466,
      "loss/logits": 1.094373619556427,
      "step": 6210
    },
    {
      "epoch": 0.0622,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.15935872395833334,
      "learning_rate": 0.0003,
      "loss": 13.7959,
      "loss/aux_loss": 0.04813591837882995,
      "loss/crossentropy": 2.890333390235901,
      "loss/logits": 1.1366484671831132,
      "step": 6220
    },
    {
      "epoch": 0.0623,
      "grad_norm": 8.0,
      "grad_norm_var": 0.483056640625,
      "learning_rate": 0.0003,
      "loss": 13.9138,
      "loss/aux_loss": 0.04814350325614214,
      "loss/crossentropy": 2.989057755470276,
      "loss/logits": 1.0995355397462845,
      "step": 6230
    },
    {
      "epoch": 0.0624,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.23398030598958333,
      "learning_rate": 0.0003,
      "loss": 13.7247,
      "loss/aux_loss": 0.04812443405389786,
      "loss/crossentropy": 2.929747235774994,
      "loss/logits": 1.070769226551056,
      "step": 6240
    },
    {
      "epoch": 0.0625,
      "grad_norm": 8.9375,
      "grad_norm_var": 0.19888916015625,
      "learning_rate": 0.0003,
      "loss": 13.8281,
      "loss/aux_loss": 0.04813152626156807,
      "loss/crossentropy": 2.9640577673912047,
      "loss/logits": 1.0986740648746491,
      "step": 6250
    },
    {
      "epoch": 0.0626,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.21834309895833334,
      "learning_rate": 0.0003,
      "loss": 13.693,
      "loss/aux_loss": 0.048149599321186544,
      "loss/crossentropy": 3.0804611802101136,
      "loss/logits": 1.0116279065608977,
      "step": 6260
    },
    {
      "epoch": 0.0627,
      "grad_norm": 18.0,
      "grad_norm_var": 5.355322265625,
      "learning_rate": 0.0003,
      "loss": 13.5479,
      "loss/aux_loss": 0.04814065471291542,
      "loss/crossentropy": 2.9952731311321257,
      "loss/logits": 1.1052643030881881,
      "step": 6270
    },
    {
      "epoch": 0.0628,
      "grad_norm": 9.1875,
      "grad_norm_var": 5.497359212239584,
      "learning_rate": 0.0003,
      "loss": 13.7811,
      "loss/aux_loss": 0.048146970197558404,
      "loss/crossentropy": 3.019810402393341,
      "loss/logits": 1.0878846973180771,
      "step": 6280
    },
    {
      "epoch": 0.0629,
      "grad_norm": 9.375,
      "grad_norm_var": 0.2244140625,
      "learning_rate": 0.0003,
      "loss": 13.7007,
      "loss/aux_loss": 0.04813486896455288,
      "loss/crossentropy": 3.0539894580841063,
      "loss/logits": 1.1094782143831252,
      "step": 6290
    },
    {
      "epoch": 0.063,
      "grad_norm": 8.75,
      "grad_norm_var": 0.15198160807291666,
      "learning_rate": 0.0003,
      "loss": 13.6997,
      "loss/aux_loss": 0.048145148530602457,
      "loss/crossentropy": 2.8999388575553895,
      "loss/logits": 1.0792778134346008,
      "step": 6300
    },
    {
      "epoch": 0.0631,
      "grad_norm": 8.5,
      "grad_norm_var": 111.25478108723958,
      "learning_rate": 0.0003,
      "loss": 13.7056,
      "loss/aux_loss": 0.048147874511778356,
      "loss/crossentropy": 2.960583436489105,
      "loss/logits": 1.0709624886512756,
      "step": 6310
    },
    {
      "epoch": 0.0632,
      "grad_norm": 9.125,
      "grad_norm_var": 109.709228515625,
      "learning_rate": 0.0003,
      "loss": 13.8739,
      "loss/aux_loss": 0.04814481791108847,
      "loss/crossentropy": 2.9161580562591554,
      "loss/logits": 1.0524902671575547,
      "step": 6320
    },
    {
      "epoch": 0.0633,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.32526041666666666,
      "learning_rate": 0.0003,
      "loss": 13.9297,
      "loss/aux_loss": 0.048139688558876514,
      "loss/crossentropy": 3.0711183190345763,
      "loss/logits": 1.1227669954299926,
      "step": 6330
    },
    {
      "epoch": 0.0634,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.3661295572916667,
      "learning_rate": 0.0003,
      "loss": 13.6939,
      "loss/aux_loss": 0.048136590234935286,
      "loss/crossentropy": 2.935191023349762,
      "loss/logits": 1.071747088432312,
      "step": 6340
    },
    {
      "epoch": 0.0635,
      "grad_norm": 8.9375,
      "grad_norm_var": 0.06131184895833333,
      "learning_rate": 0.0003,
      "loss": 13.8008,
      "loss/aux_loss": 0.04813410900533199,
      "loss/crossentropy": 3.015982925891876,
      "loss/logits": 1.0928217798471451,
      "step": 6350
    },
    {
      "epoch": 0.0636,
      "grad_norm": 8.3125,
      "grad_norm_var": 0.12537434895833333,
      "learning_rate": 0.0003,
      "loss": 13.7574,
      "loss/aux_loss": 0.0481348292902112,
      "loss/crossentropy": 2.796919822692871,
      "loss/logits": 1.064060640335083,
      "step": 6360
    },
    {
      "epoch": 0.0637,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.23995768229166667,
      "learning_rate": 0.0003,
      "loss": 13.8537,
      "loss/aux_loss": 0.04814393315464258,
      "loss/crossentropy": 3.1008806109428404,
      "loss/logits": 1.0501255184412002,
      "step": 6370
    },
    {
      "epoch": 0.0638,
      "grad_norm": 8.625,
      "grad_norm_var": 0.116259765625,
      "learning_rate": 0.0003,
      "loss": 13.6849,
      "loss/aux_loss": 0.048127164505422114,
      "loss/crossentropy": 2.8864944219589233,
      "loss/logits": 1.0921163856983185,
      "step": 6380
    },
    {
      "epoch": 0.0639,
      "grad_norm": 8.625,
      "grad_norm_var": 76.34386393229167,
      "learning_rate": 0.0003,
      "loss": 13.6183,
      "loss/aux_loss": 0.048148133978247645,
      "loss/crossentropy": 2.8359330534934997,
      "loss/logits": 1.0765960454940795,
      "step": 6390
    },
    {
      "epoch": 0.064,
      "grad_norm": 8.3125,
      "grad_norm_var": 0.277587890625,
      "learning_rate": 0.0003,
      "loss": 13.6039,
      "loss/aux_loss": 0.04812461007386446,
      "loss/crossentropy": 2.999741852283478,
      "loss/logits": 1.0552677452564239,
      "step": 6400
    },
    {
      "epoch": 0.0641,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.2833333333333333,
      "learning_rate": 0.0003,
      "loss": 13.7492,
      "loss/aux_loss": 0.04812895692884922,
      "loss/crossentropy": 3.226720857620239,
      "loss/logits": 1.0827998757362365,
      "step": 6410
    },
    {
      "epoch": 0.0642,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.13553059895833333,
      "learning_rate": 0.0003,
      "loss": 13.7557,
      "loss/aux_loss": 0.04812961965799332,
      "loss/crossentropy": 2.979693388938904,
      "loss/logits": 1.0688404828310012,
      "step": 6420
    },
    {
      "epoch": 0.0643,
      "grad_norm": 8.5,
      "grad_norm_var": 0.28761393229166665,
      "learning_rate": 0.0003,
      "loss": 13.6565,
      "loss/aux_loss": 0.04814809542149305,
      "loss/crossentropy": 2.8194834649562837,
      "loss/logits": 1.0419757306575774,
      "step": 6430
    },
    {
      "epoch": 0.0644,
      "grad_norm": 8.5,
      "grad_norm_var": 0.25193684895833335,
      "learning_rate": 0.0003,
      "loss": 13.7414,
      "loss/aux_loss": 0.048131111077964306,
      "loss/crossentropy": 2.894507110118866,
      "loss/logits": 1.0287611424922942,
      "step": 6440
    },
    {
      "epoch": 0.0645,
      "grad_norm": 8.25,
      "grad_norm_var": 23.7390625,
      "learning_rate": 0.0003,
      "loss": 13.6572,
      "loss/aux_loss": 0.04814545251429081,
      "loss/crossentropy": 2.9162492036819456,
      "loss/logits": 1.0510101735591888,
      "step": 6450
    },
    {
      "epoch": 0.0646,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.353369140625,
      "learning_rate": 0.0003,
      "loss": 13.6879,
      "loss/aux_loss": 0.04813457876443863,
      "loss/crossentropy": 3.00765939950943,
      "loss/logits": 1.0992391586303711,
      "step": 6460
    },
    {
      "epoch": 0.0647,
      "grad_norm": 9.0,
      "grad_norm_var": 0.2699055989583333,
      "learning_rate": 0.0003,
      "loss": 13.7296,
      "loss/aux_loss": 0.04814710468053818,
      "loss/crossentropy": 2.933130156993866,
      "loss/logits": 1.0464091002941132,
      "step": 6470
    },
    {
      "epoch": 0.0648,
      "grad_norm": 8.75,
      "grad_norm_var": 0.21276041666666667,
      "learning_rate": 0.0003,
      "loss": 13.5071,
      "loss/aux_loss": 0.0481443403288722,
      "loss/crossentropy": 2.893195056915283,
      "loss/logits": 1.0626126766204833,
      "step": 6480
    },
    {
      "epoch": 0.0649,
      "grad_norm": 9.875,
      "grad_norm_var": 0.32551676432291665,
      "learning_rate": 0.0003,
      "loss": 13.7133,
      "loss/aux_loss": 0.04813146814703941,
      "loss/crossentropy": 3.026914322376251,
      "loss/logits": 1.1285286754369737,
      "step": 6490
    },
    {
      "epoch": 0.065,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.19479166666666667,
      "learning_rate": 0.0003,
      "loss": 13.7583,
      "loss/aux_loss": 0.048133007064461705,
      "loss/crossentropy": 3.017659032344818,
      "loss/logits": 1.064196562767029,
      "step": 6500
    },
    {
      "epoch": 0.0651,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.2625,
      "learning_rate": 0.0003,
      "loss": 13.6455,
      "loss/aux_loss": 0.04813391268253327,
      "loss/crossentropy": 2.9791279196739198,
      "loss/logits": 1.068275386095047,
      "step": 6510
    },
    {
      "epoch": 0.0652,
      "grad_norm": 8.0,
      "grad_norm_var": 0.26712239583333336,
      "learning_rate": 0.0003,
      "loss": 13.7033,
      "loss/aux_loss": 0.04812156092375517,
      "loss/crossentropy": 2.9347316145896913,
      "loss/logits": 1.0693759769201279,
      "step": 6520
    },
    {
      "epoch": 0.0653,
      "grad_norm": 8.125,
      "grad_norm_var": 0.15130208333333334,
      "learning_rate": 0.0003,
      "loss": 13.4842,
      "loss/aux_loss": 0.04813071470707655,
      "loss/crossentropy": 3.036532533168793,
      "loss/logits": 1.07112657725811,
      "step": 6530
    },
    {
      "epoch": 0.0654,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.08318684895833334,
      "learning_rate": 0.0003,
      "loss": 13.6518,
      "loss/aux_loss": 0.04812001138925552,
      "loss/crossentropy": 3.02432986497879,
      "loss/logits": 1.0842196673154831,
      "step": 6540
    },
    {
      "epoch": 0.0655,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.14270833333333333,
      "learning_rate": 0.0003,
      "loss": 13.5997,
      "loss/aux_loss": 0.04814151749014854,
      "loss/crossentropy": 2.8338264346122743,
      "loss/logits": 1.0342780292034148,
      "step": 6550
    },
    {
      "epoch": 0.0656,
      "grad_norm": 8.3125,
      "grad_norm_var": 0.245166015625,
      "learning_rate": 0.0003,
      "loss": 13.6701,
      "loss/aux_loss": 0.04813636671751738,
      "loss/crossentropy": 2.8755680441856386,
      "loss/logits": 1.0737797766923904,
      "step": 6560
    },
    {
      "epoch": 0.0657,
      "grad_norm": 9.3125,
      "grad_norm_var": 5.57515869140625,
      "learning_rate": 0.0003,
      "loss": 13.7123,
      "loss/aux_loss": 0.048146852850914,
      "loss/crossentropy": 2.824841636419296,
      "loss/logits": 1.0282084316015243,
      "step": 6570
    },
    {
      "epoch": 0.0658,
      "grad_norm": 9.75,
      "grad_norm_var": 4.969559733072916,
      "learning_rate": 0.0003,
      "loss": 13.5714,
      "loss/aux_loss": 0.04814463872462511,
      "loss/crossentropy": 2.800820177793503,
      "loss/logits": 1.0070704787969589,
      "step": 6580
    },
    {
      "epoch": 0.0659,
      "grad_norm": 8.9375,
      "grad_norm_var": 0.8249837239583333,
      "learning_rate": 0.0003,
      "loss": 13.8031,
      "loss/aux_loss": 0.04813964460045099,
      "loss/crossentropy": 2.9267017126083372,
      "loss/logits": 1.0605516761541367,
      "step": 6590
    },
    {
      "epoch": 0.066,
      "grad_norm": 8.625,
      "grad_norm_var": 0.20974934895833333,
      "learning_rate": 0.0003,
      "loss": 13.6457,
      "loss/aux_loss": 0.04813900291919708,
      "loss/crossentropy": 2.8911925733089445,
      "loss/logits": 1.0161655098199844,
      "step": 6600
    },
    {
      "epoch": 0.0661,
      "grad_norm": 9.375,
      "grad_norm_var": 0.08899739583333334,
      "learning_rate": 0.0003,
      "loss": 13.6958,
      "loss/aux_loss": 0.048127881996333596,
      "loss/crossentropy": 3.0655489921569825,
      "loss/logits": 1.0680898874998093,
      "step": 6610
    },
    {
      "epoch": 0.0662,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.26223958333333336,
      "learning_rate": 0.0003,
      "loss": 13.6129,
      "loss/aux_loss": 0.04813065193593502,
      "loss/crossentropy": 3.0288997888565063,
      "loss/logits": 1.0894548326730729,
      "step": 6620
    },
    {
      "epoch": 0.0663,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.22980143229166666,
      "learning_rate": 0.0003,
      "loss": 13.5437,
      "loss/aux_loss": 0.04813928250223398,
      "loss/crossentropy": 2.8766731202602385,
      "loss/logits": 1.0580507218837738,
      "step": 6630
    },
    {
      "epoch": 0.0664,
      "grad_norm": 9.25,
      "grad_norm_var": 0.6728515625,
      "learning_rate": 0.0003,
      "loss": 13.5473,
      "loss/aux_loss": 0.04812793843448162,
      "loss/crossentropy": 3.049793744087219,
      "loss/logits": 1.0934020727872849,
      "step": 6640
    },
    {
      "epoch": 0.0665,
      "grad_norm": 8.9375,
      "grad_norm_var": 0.7403483072916667,
      "learning_rate": 0.0003,
      "loss": 13.6928,
      "loss/aux_loss": 0.04813400413841009,
      "loss/crossentropy": 3.0123080134391786,
      "loss/logits": 1.0466331481933593,
      "step": 6650
    },
    {
      "epoch": 0.0666,
      "grad_norm": 8.3125,
      "grad_norm_var": 0.11365559895833334,
      "learning_rate": 0.0003,
      "loss": 13.6429,
      "loss/aux_loss": 0.04813118148595095,
      "loss/crossentropy": 2.941323435306549,
      "loss/logits": 1.0748949706554414,
      "step": 6660
    },
    {
      "epoch": 0.0667,
      "grad_norm": 10.5,
      "grad_norm_var": 22.969010416666666,
      "learning_rate": 0.0003,
      "loss": 13.6803,
      "loss/aux_loss": 0.04812760762870312,
      "loss/crossentropy": 2.996757823228836,
      "loss/logits": 1.0776958972215653,
      "step": 6670
    },
    {
      "epoch": 0.0668,
      "grad_norm": 8.3125,
      "grad_norm_var": 22.934830729166666,
      "learning_rate": 0.0003,
      "loss": 13.4982,
      "loss/aux_loss": 0.04812924452126026,
      "loss/crossentropy": 3.0282610774040224,
      "loss/logits": 1.0759372055530547,
      "step": 6680
    },
    {
      "epoch": 0.0669,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.09557291666666666,
      "learning_rate": 0.0003,
      "loss": 13.5785,
      "loss/aux_loss": 0.04813319090753794,
      "loss/crossentropy": 3.0203604459762574,
      "loss/logits": 1.0731590211391449,
      "step": 6690
    },
    {
      "epoch": 0.067,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.20358072916666667,
      "learning_rate": 0.0003,
      "loss": 13.567,
      "loss/aux_loss": 0.04814446251839399,
      "loss/crossentropy": 2.9507773220539093,
      "loss/logits": 1.070712435245514,
      "step": 6700
    },
    {
      "epoch": 0.0671,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.06041666666666667,
      "learning_rate": 0.0003,
      "loss": 13.7238,
      "loss/aux_loss": 0.04814040027558804,
      "loss/crossentropy": 2.8811200976371767,
      "loss/logits": 1.0566608518362046,
      "step": 6710
    },
    {
      "epoch": 0.0672,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.111962890625,
      "learning_rate": 0.0003,
      "loss": 13.5595,
      "loss/aux_loss": 0.048139039613306525,
      "loss/crossentropy": 3.0208721280097963,
      "loss/logits": 1.0752500742673874,
      "step": 6720
    },
    {
      "epoch": 0.0673,
      "grad_norm": 10.25,
      "grad_norm_var": 0.47317708333333336,
      "learning_rate": 0.0003,
      "loss": 13.5703,
      "loss/aux_loss": 0.04813670702278614,
      "loss/crossentropy": 3.0942620396614076,
      "loss/logits": 1.0718396067619325,
      "step": 6730
    },
    {
      "epoch": 0.0674,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.3111979166666667,
      "learning_rate": 0.0003,
      "loss": 13.7648,
      "loss/aux_loss": 0.048137816973030566,
      "loss/crossentropy": 3.032657301425934,
      "loss/logits": 1.0898617118597032,
      "step": 6740
    },
    {
      "epoch": 0.0675,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.3921875,
      "learning_rate": 0.0003,
      "loss": 13.682,
      "loss/aux_loss": 0.048137097433209416,
      "loss/crossentropy": 3.14407594203949,
      "loss/logits": 1.0231775403022767,
      "step": 6750
    },
    {
      "epoch": 0.0676,
      "grad_norm": 8.3125,
      "grad_norm_var": 0.31942952473958336,
      "learning_rate": 0.0003,
      "loss": 13.5635,
      "loss/aux_loss": 0.048129927739501,
      "loss/crossentropy": 3.025140118598938,
      "loss/logits": 1.051462560892105,
      "step": 6760
    },
    {
      "epoch": 0.0677,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.3827433268229167,
      "learning_rate": 0.0003,
      "loss": 13.4952,
      "loss/aux_loss": 0.04813184943050146,
      "loss/crossentropy": 3.036393105983734,
      "loss/logits": 1.0355240046977996,
      "step": 6770
    },
    {
      "epoch": 0.0678,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.45315348307291664,
      "learning_rate": 0.0003,
      "loss": 13.6149,
      "loss/aux_loss": 0.048135831765830514,
      "loss/crossentropy": 3.0204987287521363,
      "loss/logits": 1.0412966758012772,
      "step": 6780
    },
    {
      "epoch": 0.0679,
      "grad_norm": 9.375,
      "grad_norm_var": 0.19273681640625,
      "learning_rate": 0.0003,
      "loss": 13.5112,
      "loss/aux_loss": 0.048138886131346224,
      "loss/crossentropy": 2.7807726860046387,
      "loss/logits": 1.0488616794347763,
      "step": 6790
    },
    {
      "epoch": 0.068,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.2384765625,
      "learning_rate": 0.0003,
      "loss": 13.8943,
      "loss/aux_loss": 0.048131432943046094,
      "loss/crossentropy": 3.068627381324768,
      "loss/logits": 1.097953936457634,
      "step": 6800
    },
    {
      "epoch": 0.0681,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.16027018229166667,
      "learning_rate": 0.0003,
      "loss": 13.4602,
      "loss/aux_loss": 0.04812794364988804,
      "loss/crossentropy": 2.918659710884094,
      "loss/logits": 1.0384095519781114,
      "step": 6810
    },
    {
      "epoch": 0.0682,
      "grad_norm": 9.4375,
      "grad_norm_var": 0.13854166666666667,
      "learning_rate": 0.0003,
      "loss": 13.5068,
      "loss/aux_loss": 0.04812986459583044,
      "loss/crossentropy": 2.9638909816741945,
      "loss/logits": 1.0766464948654175,
      "step": 6820
    },
    {
      "epoch": 0.0683,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.30514322916666664,
      "learning_rate": 0.0003,
      "loss": 13.4987,
      "loss/aux_loss": 0.04813037347048521,
      "loss/crossentropy": 2.929929780960083,
      "loss/logits": 1.0736204475164413,
      "step": 6830
    },
    {
      "epoch": 0.0684,
      "grad_norm": 8.625,
      "grad_norm_var": 0.1087890625,
      "learning_rate": 0.0003,
      "loss": 13.5562,
      "loss/aux_loss": 0.048125201091170314,
      "loss/crossentropy": 2.925602376461029,
      "loss/logits": 1.0603425681591034,
      "step": 6840
    },
    {
      "epoch": 0.0685,
      "grad_norm": 10.625,
      "grad_norm_var": 32.565608723958334,
      "learning_rate": 0.0003,
      "loss": 13.612,
      "loss/aux_loss": 0.048129927739501,
      "loss/crossentropy": 2.9750213265419005,
      "loss/logits": 1.0510219603776931,
      "step": 6850
    },
    {
      "epoch": 0.0686,
      "grad_norm": 8.4375,
      "grad_norm_var": 32.53943684895833,
      "learning_rate": 0.0003,
      "loss": 13.5853,
      "loss/aux_loss": 0.048130680806934834,
      "loss/crossentropy": 2.939654362201691,
      "loss/logits": 1.081050756573677,
      "step": 6860
    },
    {
      "epoch": 0.0687,
      "grad_norm": 10.25,
      "grad_norm_var": 2.6824055989583333,
      "learning_rate": 0.0003,
      "loss": 13.6429,
      "loss/aux_loss": 0.048120100237429145,
      "loss/crossentropy": 3.081457090377808,
      "loss/logits": 1.042839017510414,
      "step": 6870
    },
    {
      "epoch": 0.0688,
      "grad_norm": 8.875,
      "grad_norm_var": 0.37109375,
      "learning_rate": 0.0003,
      "loss": 13.5743,
      "loss/aux_loss": 0.04812851026654243,
      "loss/crossentropy": 2.9788452863693236,
      "loss/logits": 1.082206028699875,
      "step": 6880
    },
    {
      "epoch": 0.0689,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.12545572916666667,
      "learning_rate": 0.0003,
      "loss": 13.3157,
      "loss/aux_loss": 0.048133143596351145,
      "loss/crossentropy": 2.8911037921905516,
      "loss/logits": 1.064788919687271,
      "step": 6890
    },
    {
      "epoch": 0.069,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.22213541666666667,
      "learning_rate": 0.0003,
      "loss": 13.6541,
      "loss/aux_loss": 0.04813574869185686,
      "loss/crossentropy": 3.002419984340668,
      "loss/logits": 1.031218209862709,
      "step": 6900
    },
    {
      "epoch": 0.0691,
      "grad_norm": 10.0,
      "grad_norm_var": 0.33274739583333335,
      "learning_rate": 0.0003,
      "loss": 13.4968,
      "loss/aux_loss": 0.048126774840056896,
      "loss/crossentropy": 2.7656411051750185,
      "loss/logits": 1.0477019995450974,
      "step": 6910
    },
    {
      "epoch": 0.0692,
      "grad_norm": 8.25,
      "grad_norm_var": 0.7972493489583333,
      "learning_rate": 0.0003,
      "loss": 13.4553,
      "loss/aux_loss": 0.04813210777938366,
      "loss/crossentropy": 2.996220147609711,
      "loss/logits": 1.076385298371315,
      "step": 6920
    },
    {
      "epoch": 0.0693,
      "grad_norm": 8.375,
      "grad_norm_var": 0.7956990559895833,
      "learning_rate": 0.0003,
      "loss": 13.6957,
      "loss/aux_loss": 0.04813826754689217,
      "loss/crossentropy": 3.052574133872986,
      "loss/logits": 1.0720904529094697,
      "step": 6930
    },
    {
      "epoch": 0.0694,
      "grad_norm": 9.5,
      "grad_norm_var": 0.28631184895833334,
      "learning_rate": 0.0003,
      "loss": 13.2369,
      "loss/aux_loss": 0.048143592104315756,
      "loss/crossentropy": 2.9044690668582915,
      "loss/logits": 1.0308396130800248,
      "step": 6940
    },
    {
      "epoch": 0.0695,
      "grad_norm": 9.0,
      "grad_norm_var": 7.226416015625,
      "learning_rate": 0.0003,
      "loss": 13.4,
      "loss/aux_loss": 0.04815136883407831,
      "loss/crossentropy": 2.968579125404358,
      "loss/logits": 1.0896869003772736,
      "step": 6950
    },
    {
      "epoch": 0.0696,
      "grad_norm": 8.9375,
      "grad_norm_var": 0.508447265625,
      "learning_rate": 0.0003,
      "loss": 13.505,
      "loss/aux_loss": 0.048129218816757205,
      "loss/crossentropy": 2.9993494272232057,
      "loss/logits": 1.0352261871099473,
      "step": 6960
    },
    {
      "epoch": 0.0697,
      "grad_norm": 9.875,
      "grad_norm_var": 0.6348307291666667,
      "learning_rate": 0.0003,
      "loss": 13.6564,
      "loss/aux_loss": 0.04812279660254717,
      "loss/crossentropy": 2.970927131175995,
      "loss/logits": 1.0954313904047013,
      "step": 6970
    },
    {
      "epoch": 0.0698,
      "grad_norm": 9.5,
      "grad_norm_var": 0.2203125,
      "learning_rate": 0.0003,
      "loss": 13.5257,
      "loss/aux_loss": 0.04813241846859455,
      "loss/crossentropy": 3.085184133052826,
      "loss/logits": 1.0751633316278457,
      "step": 6980
    },
    {
      "epoch": 0.0699,
      "grad_norm": 9.625,
      "grad_norm_var": 0.24140625,
      "learning_rate": 0.0003,
      "loss": 13.5025,
      "loss/aux_loss": 0.048134620860219,
      "loss/crossentropy": 2.9781801462173463,
      "loss/logits": 1.073571789264679,
      "step": 6990
    },
    {
      "epoch": 0.07,
      "grad_norm": 9.0,
      "grad_norm_var": 0.211572265625,
      "learning_rate": 0.0003,
      "loss": 13.3884,
      "loss/aux_loss": 0.048129561357200146,
      "loss/crossentropy": 2.836885952949524,
      "loss/logits": 1.0355841994285584,
      "step": 7000
    },
    {
      "epoch": 0.0701,
      "grad_norm": 8.9375,
      "grad_norm_var": 0.05572916666666667,
      "learning_rate": 0.0003,
      "loss": 13.3751,
      "loss/aux_loss": 0.04813597537577152,
      "loss/crossentropy": 3.124106729030609,
      "loss/logits": 1.087377232313156,
      "step": 7010
    },
    {
      "epoch": 0.0702,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.28932291666666665,
      "learning_rate": 0.0003,
      "loss": 13.6506,
      "loss/aux_loss": 0.04812758322805166,
      "loss/crossentropy": 3.0415536522865296,
      "loss/logits": 1.0985166609287262,
      "step": 7020
    },
    {
      "epoch": 0.0703,
      "grad_norm": 9.125,
      "grad_norm_var": 0.32928059895833334,
      "learning_rate": 0.0003,
      "loss": 13.5101,
      "loss/aux_loss": 0.048123250156641005,
      "loss/crossentropy": 2.903241181373596,
      "loss/logits": 1.0201388955116273,
      "step": 7030
    },
    {
      "epoch": 0.0704,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.6508951822916667,
      "learning_rate": 0.0003,
      "loss": 13.5161,
      "loss/aux_loss": 0.048136004246771336,
      "loss/crossentropy": 2.9222341775894165,
      "loss/logits": 1.0136090040206909,
      "step": 7040
    },
    {
      "epoch": 0.0705,
      "grad_norm": 8.875,
      "grad_norm_var": 0.5880208333333333,
      "learning_rate": 0.0003,
      "loss": 13.5017,
      "loss/aux_loss": 0.048121250979602334,
      "loss/crossentropy": 2.9636539459228515,
      "loss/logits": 1.079690435528755,
      "step": 7050
    },
    {
      "epoch": 0.0706,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.231884765625,
      "learning_rate": 0.0003,
      "loss": 13.4343,
      "loss/aux_loss": 0.048114245571196076,
      "loss/crossentropy": 3.0601498603820803,
      "loss/logits": 1.066567412018776,
      "step": 7060
    },
    {
      "epoch": 0.0707,
      "grad_norm": 8.375,
      "grad_norm_var": 0.17994791666666668,
      "learning_rate": 0.0003,
      "loss": 13.3876,
      "loss/aux_loss": 0.048132015578448775,
      "loss/crossentropy": 2.9693622946739198,
      "loss/logits": 1.0554438531398773,
      "step": 7070
    },
    {
      "epoch": 0.0708,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.4327473958333333,
      "learning_rate": 0.0003,
      "loss": 13.495,
      "loss/aux_loss": 0.04813415054231882,
      "loss/crossentropy": 2.8446732878685,
      "loss/logits": 1.0407306522130966,
      "step": 7080
    },
    {
      "epoch": 0.0709,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.16599934895833332,
      "learning_rate": 0.0003,
      "loss": 13.4971,
      "loss/aux_loss": 0.04813690483570099,
      "loss/crossentropy": 2.961193633079529,
      "loss/logits": 1.04742229282856,
      "step": 7090
    },
    {
      "epoch": 0.071,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.207666015625,
      "learning_rate": 0.0003,
      "loss": 13.3663,
      "loss/aux_loss": 0.04812674857676029,
      "loss/crossentropy": 2.898916572332382,
      "loss/logits": 1.0212170660495759,
      "step": 7100
    },
    {
      "epoch": 0.0711,
      "grad_norm": 9.875,
      "grad_norm_var": 0.1853515625,
      "learning_rate": 0.0003,
      "loss": 13.5333,
      "loss/aux_loss": 0.0481316477060318,
      "loss/crossentropy": 2.9347579002380373,
      "loss/logits": 0.9982910871505737,
      "step": 7110
    },
    {
      "epoch": 0.0712,
      "grad_norm": 8.5,
      "grad_norm_var": 0.17381184895833332,
      "learning_rate": 0.0003,
      "loss": 13.4628,
      "loss/aux_loss": 0.048122935183346274,
      "loss/crossentropy": 2.993864929676056,
      "loss/logits": 1.0623649686574936,
      "step": 7120
    },
    {
      "epoch": 0.0713,
      "grad_norm": 9.625,
      "grad_norm_var": 6.217643229166667,
      "learning_rate": 0.0003,
      "loss": 13.3297,
      "loss/aux_loss": 0.048131784237921235,
      "loss/crossentropy": 2.932550811767578,
      "loss/logits": 1.0577648341655732,
      "step": 7130
    },
    {
      "epoch": 0.0714,
      "grad_norm": 11.3125,
      "grad_norm_var": 18.408072916666665,
      "learning_rate": 0.0003,
      "loss": 13.6702,
      "loss/aux_loss": 0.04816462509334087,
      "loss/crossentropy": 3.037775385379791,
      "loss/logits": 1.0722199440002442,
      "step": 7140
    },
    {
      "epoch": 0.0715,
      "grad_norm": 10.125,
      "grad_norm_var": 5.566910807291666,
      "learning_rate": 0.0003,
      "loss": 13.5737,
      "loss/aux_loss": 0.048116024024784564,
      "loss/crossentropy": 2.9626861453056335,
      "loss/logits": 1.0311239361763,
      "step": 7150
    },
    {
      "epoch": 0.0716,
      "grad_norm": 10.375,
      "grad_norm_var": 2.6786295572916665,
      "learning_rate": 0.0003,
      "loss": 13.4786,
      "loss/aux_loss": 0.04811809528619051,
      "loss/crossentropy": 2.9172492921352386,
      "loss/logits": 1.056332242488861,
      "step": 7160
    },
    {
      "epoch": 0.0717,
      "grad_norm": 9.8125,
      "grad_norm_var": 2.5603515625,
      "learning_rate": 0.0003,
      "loss": 13.4434,
      "loss/aux_loss": 0.04812202490866184,
      "loss/crossentropy": 3.057690107822418,
      "loss/logits": 1.0905145525932312,
      "step": 7170
    },
    {
      "epoch": 0.0718,
      "grad_norm": 11.8125,
      "grad_norm_var": 26.733707682291666,
      "learning_rate": 0.0003,
      "loss": 13.5006,
      "loss/aux_loss": 0.04812044147402048,
      "loss/crossentropy": 2.9608686804771422,
      "loss/logits": 1.0904987782239914,
      "step": 7180
    },
    {
      "epoch": 0.0719,
      "grad_norm": 9.625,
      "grad_norm_var": 25.960921223958334,
      "learning_rate": 0.0003,
      "loss": 13.4463,
      "loss/aux_loss": 0.048137583397328855,
      "loss/crossentropy": 2.895015776157379,
      "loss/logits": 1.0172715038061142,
      "step": 7190
    },
    {
      "epoch": 0.072,
      "grad_norm": 8.25,
      "grad_norm_var": 0.31417643229166664,
      "learning_rate": 0.0003,
      "loss": 13.5728,
      "loss/aux_loss": 0.04812595229595899,
      "loss/crossentropy": 2.8322587251663207,
      "loss/logits": 1.015550658106804,
      "step": 7200
    },
    {
      "epoch": 0.0721,
      "grad_norm": 9.875,
      "grad_norm_var": 0.2728515625,
      "learning_rate": 0.0003,
      "loss": 13.6334,
      "loss/aux_loss": 0.048122029192745684,
      "loss/crossentropy": 3.037608253955841,
      "loss/logits": 1.059059676527977,
      "step": 7210
    },
    {
      "epoch": 0.0722,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.31951497395833334,
      "learning_rate": 0.0003,
      "loss": 13.4644,
      "loss/aux_loss": 0.04813063070178032,
      "loss/crossentropy": 2.9392677783966064,
      "loss/logits": 1.026180136203766,
      "step": 7220
    },
    {
      "epoch": 0.0723,
      "grad_norm": 8.5,
      "grad_norm_var": 0.5988118489583333,
      "learning_rate": 0.0003,
      "loss": 13.4826,
      "loss/aux_loss": 0.04812701418995857,
      "loss/crossentropy": 2.9874269366264343,
      "loss/logits": 1.0393612265586853,
      "step": 7230
    },
    {
      "epoch": 0.0724,
      "grad_norm": 8.4375,
      "grad_norm_var": 0.6067708333333334,
      "learning_rate": 0.0003,
      "loss": 13.2889,
      "loss/aux_loss": 0.04812222328037023,
      "loss/crossentropy": 2.7734349012374877,
      "loss/logits": 1.0329697102308273,
      "step": 7240
    },
    {
      "epoch": 0.0725,
      "grad_norm": 8.9375,
      "grad_norm_var": 0.18592122395833333,
      "learning_rate": 0.0003,
      "loss": 13.5025,
      "loss/aux_loss": 0.04812582526355982,
      "loss/crossentropy": 2.9962441444396974,
      "loss/logits": 1.024059322476387,
      "step": 7250
    },
    {
      "epoch": 0.0726,
      "grad_norm": 9.4375,
      "grad_norm_var": 0.06796875,
      "learning_rate": 0.0003,
      "loss": 13.2807,
      "loss/aux_loss": 0.048132246173918244,
      "loss/crossentropy": 2.820746290683746,
      "loss/logits": 1.0364280879497527,
      "step": 7260
    },
    {
      "epoch": 0.0727,
      "grad_norm": 8.5625,
      "grad_norm_var": 0.19034830729166666,
      "learning_rate": 0.0003,
      "loss": 13.5448,
      "loss/aux_loss": 0.048121783323585986,
      "loss/crossentropy": 3.010144531726837,
      "loss/logits": 1.0459368169307708,
      "step": 7270
    },
    {
      "epoch": 0.0728,
      "grad_norm": 9.0,
      "grad_norm_var": 5.168733723958334,
      "learning_rate": 0.0003,
      "loss": 13.3248,
      "loss/aux_loss": 0.048125391267240046,
      "loss/crossentropy": 2.889055919647217,
      "loss/logits": 1.0278723955154419,
      "step": 7280
    },
    {
      "epoch": 0.0729,
      "grad_norm": 9.875,
      "grad_norm_var": 5.200634765625,
      "learning_rate": 0.0003,
      "loss": 13.2574,
      "loss/aux_loss": 0.04812876787036657,
      "loss/crossentropy": 2.8185496270656585,
      "loss/logits": 1.0287230491638184,
      "step": 7290
    },
    {
      "epoch": 0.073,
      "grad_norm": 8.875,
      "grad_norm_var": 0.32233072916666666,
      "learning_rate": 0.0003,
      "loss": 13.3965,
      "loss/aux_loss": 0.04812293406575918,
      "loss/crossentropy": 2.804865860939026,
      "loss/logits": 1.0147784382104874,
      "step": 7300
    },
    {
      "epoch": 0.0731,
      "grad_norm": 8.5,
      "grad_norm_var": 0.18904622395833334,
      "learning_rate": 0.0003,
      "loss": 13.3527,
      "loss/aux_loss": 0.04813094306737185,
      "loss/crossentropy": 2.918304455280304,
      "loss/logits": 1.079040315747261,
      "step": 7310
    },
    {
      "epoch": 0.0732,
      "grad_norm": 10.8125,
      "grad_norm_var": 49.551936848958334,
      "learning_rate": 0.0003,
      "loss": 13.3824,
      "loss/aux_loss": 0.04812980853021145,
      "loss/crossentropy": 2.9288637161254885,
      "loss/logits": 1.0903980165719986,
      "step": 7320
    },
    {
      "epoch": 0.0733,
      "grad_norm": 9.0,
      "grad_norm_var": 49.57076822916667,
      "learning_rate": 0.0003,
      "loss": 13.2886,
      "loss/aux_loss": 0.04812570326030254,
      "loss/crossentropy": 3.002810549736023,
      "loss/logits": 1.0841778188943862,
      "step": 7330
    },
    {
      "epoch": 0.0734,
      "grad_norm": 8.9375,
      "grad_norm_var": 3.1300618489583334,
      "learning_rate": 0.0003,
      "loss": 13.5399,
      "loss/aux_loss": 0.04813100174069405,
      "loss/crossentropy": 2.796613943576813,
      "loss/logits": 1.0452454775571822,
      "step": 7340
    },
    {
      "epoch": 0.0735,
      "grad_norm": 9.5,
      "grad_norm_var": 8.736442057291667,
      "learning_rate": 0.0003,
      "loss": 13.5117,
      "loss/aux_loss": 0.04813167788088322,
      "loss/crossentropy": 2.962803506851196,
      "loss/logits": 1.0180111587047578,
      "step": 7350
    },
    {
      "epoch": 0.0736,
      "grad_norm": 8.5625,
      "grad_norm_var": 7.845768229166667,
      "learning_rate": 0.0003,
      "loss": 13.3754,
      "loss/aux_loss": 0.04813878424465656,
      "loss/crossentropy": 2.81993590593338,
      "loss/logits": 1.0155292719602584,
      "step": 7360
    },
    {
      "epoch": 0.0737,
      "grad_norm": 9.875,
      "grad_norm_var": 0.30514322916666664,
      "learning_rate": 0.0003,
      "loss": 13.3653,
      "loss/aux_loss": 0.04812592975795269,
      "loss/crossentropy": 2.8093133509159087,
      "loss/logits": 1.0710052281618119,
      "step": 7370
    },
    {
      "epoch": 0.0738,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.24295247395833333,
      "learning_rate": 0.0003,
      "loss": 13.5517,
      "loss/aux_loss": 0.04812061432749033,
      "loss/crossentropy": 2.838201379776001,
      "loss/logits": 1.0604495793581008,
      "step": 7380
    },
    {
      "epoch": 0.0739,
      "grad_norm": 9.4375,
      "grad_norm_var": 0.20167643229166668,
      "learning_rate": 0.0003,
      "loss": 13.5058,
      "loss/aux_loss": 0.048129613324999806,
      "loss/crossentropy": 3.0717398285865785,
      "loss/logits": 1.068494337797165,
      "step": 7390
    },
    {
      "epoch": 0.074,
      "grad_norm": 9.0,
      "grad_norm_var": 0.10050455729166667,
      "learning_rate": 0.0003,
      "loss": 13.3541,
      "loss/aux_loss": 0.048131177015602586,
      "loss/crossentropy": 2.886682081222534,
      "loss/logits": 1.030799898505211,
      "step": 7400
    },
    {
      "epoch": 0.0741,
      "grad_norm": 8.75,
      "grad_norm_var": 0.44505208333333335,
      "learning_rate": 0.0003,
      "loss": 13.336,
      "loss/aux_loss": 0.04812990296632051,
      "loss/crossentropy": 2.886744201183319,
      "loss/logits": 1.0507986098527908,
      "step": 7410
    },
    {
      "epoch": 0.0742,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.338525390625,
      "learning_rate": 0.0003,
      "loss": 13.5748,
      "loss/aux_loss": 0.04813168831169605,
      "loss/crossentropy": 2.8818042397499086,
      "loss/logits": 1.0512411534786223,
      "step": 7420
    },
    {
      "epoch": 0.0743,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.3155598958333333,
      "learning_rate": 0.0003,
      "loss": 13.4908,
      "loss/aux_loss": 0.04812338091433048,
      "loss/crossentropy": 2.8881842494010925,
      "loss/logits": 1.0324068903923034,
      "step": 7430
    },
    {
      "epoch": 0.0744,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.24993489583333334,
      "learning_rate": 0.0003,
      "loss": 13.3201,
      "loss/aux_loss": 0.04813193250447512,
      "loss/crossentropy": 2.707760387659073,
      "loss/logits": 1.041485771536827,
      "step": 7440
    },
    {
      "epoch": 0.0745,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.5744140625,
      "learning_rate": 0.0003,
      "loss": 13.1496,
      "loss/aux_loss": 0.04813508708029986,
      "loss/crossentropy": 2.864105689525604,
      "loss/logits": 0.9952063351869583,
      "step": 7450
    },
    {
      "epoch": 0.0746,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.17433268229166668,
      "learning_rate": 0.0003,
      "loss": 13.6981,
      "loss/aux_loss": 0.04812800846993923,
      "loss/crossentropy": 3.035504865646362,
      "loss/logits": 1.0508066952228545,
      "step": 7460
    },
    {
      "epoch": 0.0747,
      "grad_norm": 8.75,
      "grad_norm_var": 0.115869140625,
      "learning_rate": 0.0003,
      "loss": 13.3485,
      "loss/aux_loss": 0.048122041299939154,
      "loss/crossentropy": 2.7956653356552126,
      "loss/logits": 1.0159823626279831,
      "step": 7470
    },
    {
      "epoch": 0.0748,
      "grad_norm": 9.0,
      "grad_norm_var": 0.3651041666666667,
      "learning_rate": 0.0003,
      "loss": 13.4521,
      "loss/aux_loss": 0.048129369504749775,
      "loss/crossentropy": 2.969923257827759,
      "loss/logits": 1.0386756300926208,
      "step": 7480
    },
    {
      "epoch": 0.0749,
      "grad_norm": 9.125,
      "grad_norm_var": 1.2169270833333334,
      "learning_rate": 0.0003,
      "loss": 13.3878,
      "loss/aux_loss": 0.04812902975827456,
      "loss/crossentropy": 3.011993145942688,
      "loss/logits": 1.042042750120163,
      "step": 7490
    },
    {
      "epoch": 0.075,
      "grad_norm": 9.0,
      "grad_norm_var": 0.242431640625,
      "learning_rate": 0.0003,
      "loss": 13.4144,
      "loss/aux_loss": 0.04812177959829569,
      "loss/crossentropy": 3.07977237701416,
      "loss/logits": 1.0765836715698243,
      "step": 7500
    },
    {
      "epoch": 0.0751,
      "grad_norm": 9.75,
      "grad_norm_var": 0.33645833333333336,
      "learning_rate": 0.0003,
      "loss": 13.4444,
      "loss/aux_loss": 0.04811902064830065,
      "loss/crossentropy": 2.9798253655433653,
      "loss/logits": 1.0538707852363587,
      "step": 7510
    },
    {
      "epoch": 0.0752,
      "grad_norm": 9.0,
      "grad_norm_var": 0.18904622395833334,
      "learning_rate": 0.0003,
      "loss": 13.3292,
      "loss/aux_loss": 0.048129689320921897,
      "loss/crossentropy": 2.9677703261375425,
      "loss/logits": 1.0421554505825044,
      "step": 7520
    },
    {
      "epoch": 0.0753,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.10859375,
      "learning_rate": 0.0003,
      "loss": 13.1599,
      "loss/aux_loss": 0.0481248639523983,
      "loss/crossentropy": 2.9143801808357237,
      "loss/logits": 1.0279333680868148,
      "step": 7530
    },
    {
      "epoch": 0.0754,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.9742024739583334,
      "learning_rate": 0.0003,
      "loss": 13.2219,
      "loss/aux_loss": 0.048115496151149274,
      "loss/crossentropy": 2.980224275588989,
      "loss/logits": 1.039728471636772,
      "step": 7540
    },
    {
      "epoch": 0.0755,
      "grad_norm": 9.125,
      "grad_norm_var": 0.9067057291666667,
      "learning_rate": 0.0003,
      "loss": 13.3821,
      "loss/aux_loss": 0.04812954906374216,
      "loss/crossentropy": 2.9692449450492857,
      "loss/logits": 1.047850751876831,
      "step": 7550
    },
    {
      "epoch": 0.0756,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.07805989583333334,
      "learning_rate": 0.0003,
      "loss": 13.3762,
      "loss/aux_loss": 0.048129818961024286,
      "loss/crossentropy": 2.990733635425568,
      "loss/logits": 1.035420474410057,
      "step": 7560
    },
    {
      "epoch": 0.0757,
      "grad_norm": 9.375,
      "grad_norm_var": 5.944514973958333,
      "learning_rate": 0.0003,
      "loss": 13.5087,
      "loss/aux_loss": 0.048126287385821344,
      "loss/crossentropy": 3.0128140330314634,
      "loss/logits": 1.0564094483852386,
      "step": 7570
    },
    {
      "epoch": 0.0758,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.4749348958333333,
      "learning_rate": 0.0003,
      "loss": 13.2836,
      "loss/aux_loss": 0.048132631182670596,
      "loss/crossentropy": 2.837554985284805,
      "loss/logits": 1.0422370553016662,
      "step": 7580
    },
    {
      "epoch": 0.0759,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.45388997395833336,
      "learning_rate": 0.0003,
      "loss": 13.1942,
      "loss/aux_loss": 0.048142952285706996,
      "loss/crossentropy": 2.6931034505367277,
      "loss/logits": 0.96292115598917,
      "step": 7590
    },
    {
      "epoch": 0.076,
      "grad_norm": 22.125,
      "grad_norm_var": 10.807275390625,
      "learning_rate": 0.0003,
      "loss": 13.1736,
      "loss/aux_loss": 0.04812065456062555,
      "loss/crossentropy": 2.9220955312252044,
      "loss/logits": 1.0179326832294464,
      "step": 7600
    },
    {
      "epoch": 0.0761,
      "grad_norm": 10.125,
      "grad_norm_var": 10.003629557291667,
      "learning_rate": 0.0003,
      "loss": 13.4376,
      "loss/aux_loss": 0.04812586084008217,
      "loss/crossentropy": 3.021818733215332,
      "loss/logits": 1.0483725011348723,
      "step": 7610
    },
    {
      "epoch": 0.0762,
      "grad_norm": 8.6875,
      "grad_norm_var": 1.119384765625,
      "learning_rate": 0.0003,
      "loss": 13.2549,
      "loss/aux_loss": 0.04812179896980524,
      "loss/crossentropy": 2.780340301990509,
      "loss/logits": 1.0378026425838471,
      "step": 7620
    },
    {
      "epoch": 0.0763,
      "grad_norm": 9.875,
      "grad_norm_var": 1.0983723958333333,
      "learning_rate": 0.0003,
      "loss": 13.22,
      "loss/aux_loss": 0.04812696985900402,
      "loss/crossentropy": 2.8523794054985045,
      "loss/logits": 1.0297119617462158,
      "step": 7630
    },
    {
      "epoch": 0.0764,
      "grad_norm": 9.0,
      "grad_norm_var": 4.044645182291666,
      "learning_rate": 0.0003,
      "loss": 13.391,
      "loss/aux_loss": 0.04813089091330767,
      "loss/crossentropy": 2.98396714925766,
      "loss/logits": 1.0715709984302522,
      "step": 7640
    },
    {
      "epoch": 0.0765,
      "grad_norm": 8.8125,
      "grad_norm_var": 4.178759765625,
      "learning_rate": 0.0003,
      "loss": 13.1596,
      "loss/aux_loss": 0.048119811527431014,
      "loss/crossentropy": 2.919600564241409,
      "loss/logits": 0.9985195219516754,
      "step": 7650
    },
    {
      "epoch": 0.0766,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.21808268229166666,
      "learning_rate": 0.0003,
      "loss": 13.4931,
      "loss/aux_loss": 0.048118037171661854,
      "loss/crossentropy": 2.9762576520442963,
      "loss/logits": 1.0814913272857667,
      "step": 7660
    },
    {
      "epoch": 0.0767,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.18014322916666667,
      "learning_rate": 0.0003,
      "loss": 13.3496,
      "loss/aux_loss": 0.04812421500682831,
      "loss/crossentropy": 2.9494404554367066,
      "loss/logits": 1.0210811465978622,
      "step": 7670
    },
    {
      "epoch": 0.0768,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.19524739583333334,
      "learning_rate": 0.0003,
      "loss": 13.3235,
      "loss/aux_loss": 0.04811930097639561,
      "loss/crossentropy": 2.8925601482391357,
      "loss/logits": 1.0253148704767228,
      "step": 7680
    },
    {
      "epoch": 0.0769,
      "grad_norm": 9.5,
      "grad_norm_var": 0.3277180989583333,
      "learning_rate": 0.0003,
      "loss": 13.4136,
      "loss/aux_loss": 0.04813026450574398,
      "loss/crossentropy": 2.9719626665115357,
      "loss/logits": 1.1240254521369935,
      "step": 7690
    },
    {
      "epoch": 0.077,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.28932291666666665,
      "learning_rate": 0.0003,
      "loss": 13.3069,
      "loss/aux_loss": 0.048117564991116524,
      "loss/crossentropy": 2.9367773652076723,
      "loss/logits": 1.0887930393218994,
      "step": 7700
    },
    {
      "epoch": 0.0771,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.16608072916666666,
      "learning_rate": 0.0003,
      "loss": 13.4119,
      "loss/aux_loss": 0.04813154824078083,
      "loss/crossentropy": 2.821038991212845,
      "loss/logits": 1.0327024161815643,
      "step": 7710
    },
    {
      "epoch": 0.0772,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.1103515625,
      "learning_rate": 0.0003,
      "loss": 13.3759,
      "loss/aux_loss": 0.04812257084995508,
      "loss/crossentropy": 2.922965955734253,
      "loss/logits": 1.0887499898672104,
      "step": 7720
    },
    {
      "epoch": 0.0773,
      "grad_norm": 8.75,
      "grad_norm_var": 0.39212239583333336,
      "learning_rate": 0.0003,
      "loss": 13.1938,
      "loss/aux_loss": 0.04812620896846056,
      "loss/crossentropy": 2.873304957151413,
      "loss/logits": 1.0040156990289688,
      "step": 7730
    },
    {
      "epoch": 0.0774,
      "grad_norm": 9.75,
      "grad_norm_var": 0.46608072916666665,
      "learning_rate": 0.0003,
      "loss": 13.5227,
      "loss/aux_loss": 0.048138899728655815,
      "loss/crossentropy": 2.9522013902664184,
      "loss/logits": 1.0542542576789855,
      "step": 7740
    },
    {
      "epoch": 0.0775,
      "grad_norm": 8.9375,
      "grad_norm_var": 0.5067057291666667,
      "learning_rate": 0.0003,
      "loss": 13.2829,
      "loss/aux_loss": 0.04812390860170126,
      "loss/crossentropy": 2.9055544257164003,
      "loss/logits": 1.0098161727190018,
      "step": 7750
    },
    {
      "epoch": 0.0776,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.22941080729166666,
      "learning_rate": 0.0003,
      "loss": 13.3498,
      "loss/aux_loss": 0.04813548941165209,
      "loss/crossentropy": 2.980088174343109,
      "loss/logits": 1.0641280621290208,
      "step": 7760
    },
    {
      "epoch": 0.0777,
      "grad_norm": 10.5,
      "grad_norm_var": 0.3078125,
      "learning_rate": 0.0003,
      "loss": 13.3331,
      "loss/aux_loss": 0.048122762329876424,
      "loss/crossentropy": 2.9135417342185974,
      "loss/logits": 1.0203843981027603,
      "step": 7770
    },
    {
      "epoch": 0.0778,
      "grad_norm": 9.25,
      "grad_norm_var": 7.404150390625,
      "learning_rate": 0.0003,
      "loss": 13.2873,
      "loss/aux_loss": 0.04813399352133274,
      "loss/crossentropy": 2.841181445121765,
      "loss/logits": 1.055801859498024,
      "step": 7780
    },
    {
      "epoch": 0.0779,
      "grad_norm": 10.6875,
      "grad_norm_var": 6.986197916666667,
      "learning_rate": 0.0003,
      "loss": 13.1383,
      "loss/aux_loss": 0.04812779631465673,
      "loss/crossentropy": 2.8845179080963135,
      "loss/logits": 1.0134330958127975,
      "step": 7790
    },
    {
      "epoch": 0.078,
      "grad_norm": 34.0,
      "grad_norm_var": 37.05651041666667,
      "learning_rate": 0.0003,
      "loss": 13.2773,
      "loss/aux_loss": 0.04813188221305609,
      "loss/crossentropy": 2.9372805774211885,
      "loss/logits": 0.9858429193496704,
      "step": 7800
    },
    {
      "epoch": 0.0781,
      "grad_norm": 8.5625,
      "grad_norm_var": 37.1462890625,
      "learning_rate": 0.0003,
      "loss": 13.3157,
      "loss/aux_loss": 0.04813784416764975,
      "loss/crossentropy": 2.767670226097107,
      "loss/logits": 1.0314590692520142,
      "step": 7810
    },
    {
      "epoch": 0.0782,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.728759765625,
      "learning_rate": 0.0003,
      "loss": 13.071,
      "loss/aux_loss": 0.048109129257500174,
      "loss/crossentropy": 2.9309176981449125,
      "loss/logits": 1.0385325998067856,
      "step": 7820
    },
    {
      "epoch": 0.0783,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.3277180989583333,
      "learning_rate": 0.0003,
      "loss": 13.1624,
      "loss/aux_loss": 0.04811421576887369,
      "loss/crossentropy": 2.97960284948349,
      "loss/logits": 1.0207297384738923,
      "step": 7830
    },
    {
      "epoch": 0.0784,
      "grad_norm": 9.9375,
      "grad_norm_var": 1.3139973958333333,
      "learning_rate": 0.0003,
      "loss": 13.1052,
      "loss/aux_loss": 0.048128409497439864,
      "loss/crossentropy": 2.8389533042907713,
      "loss/logits": 1.035956397652626,
      "step": 7840
    },
    {
      "epoch": 0.0785,
      "grad_norm": 9.125,
      "grad_norm_var": 0.7958333333333333,
      "learning_rate": 0.0003,
      "loss": 13.2657,
      "loss/aux_loss": 0.04812541268765926,
      "loss/crossentropy": 2.9305792689323424,
      "loss/logits": 1.0182174772024155,
      "step": 7850
    },
    {
      "epoch": 0.0786,
      "grad_norm": 8.9375,
      "grad_norm_var": 0.4175618489583333,
      "learning_rate": 0.0003,
      "loss": 13.3332,
      "loss/aux_loss": 0.0481265714392066,
      "loss/crossentropy": 3.0935042262077332,
      "loss/logits": 1.0543415069580078,
      "step": 7860
    },
    {
      "epoch": 0.0787,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.5536295572916666,
      "learning_rate": 0.0003,
      "loss": 13.2632,
      "loss/aux_loss": 0.048121869936585425,
      "loss/crossentropy": 2.859709286689758,
      "loss/logits": 1.0271731585264205,
      "step": 7870
    },
    {
      "epoch": 0.0788,
      "grad_norm": 9.375,
      "grad_norm_var": 0.32180989583333336,
      "learning_rate": 0.0003,
      "loss": 13.3159,
      "loss/aux_loss": 0.04812927972525358,
      "loss/crossentropy": 2.855903148651123,
      "loss/logits": 1.0336874067783355,
      "step": 7880
    },
    {
      "epoch": 0.0789,
      "grad_norm": 9.75,
      "grad_norm_var": 0.236572265625,
      "learning_rate": 0.0003,
      "loss": 13.2051,
      "loss/aux_loss": 0.048123538866639136,
      "loss/crossentropy": 2.887688386440277,
      "loss/logits": 1.0365424662828446,
      "step": 7890
    },
    {
      "epoch": 0.079,
      "grad_norm": 11.25,
      "grad_norm_var": 0.37473958333333335,
      "learning_rate": 0.0003,
      "loss": 13.265,
      "loss/aux_loss": 0.04812454991042614,
      "loss/crossentropy": 2.9836980283260344,
      "loss/logits": 1.014005294442177,
      "step": 7900
    },
    {
      "epoch": 0.0791,
      "grad_norm": 9.5,
      "grad_norm_var": 0.369384765625,
      "learning_rate": 0.0003,
      "loss": 13.2299,
      "loss/aux_loss": 0.048119301721453664,
      "loss/crossentropy": 3.002364158630371,
      "loss/logits": 1.0333095729351043,
      "step": 7910
    },
    {
      "epoch": 0.0792,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.18326822916666666,
      "learning_rate": 0.0003,
      "loss": 13.2434,
      "loss/aux_loss": 0.048124428279697894,
      "loss/crossentropy": 2.854734891653061,
      "loss/logits": 1.014777159690857,
      "step": 7920
    },
    {
      "epoch": 0.0793,
      "grad_norm": 9.5,
      "grad_norm_var": 0.18014322916666667,
      "learning_rate": 0.0003,
      "loss": 13.3392,
      "loss/aux_loss": 0.04812102187424898,
      "loss/crossentropy": 2.9866424322128298,
      "loss/logits": 1.04144589304924,
      "step": 7930
    },
    {
      "epoch": 0.0794,
      "grad_norm": 8.9375,
      "grad_norm_var": 6.890625,
      "learning_rate": 0.0003,
      "loss": 13.2693,
      "loss/aux_loss": 0.048126323707401754,
      "loss/crossentropy": 2.918100368976593,
      "loss/logits": 1.0156398355960845,
      "step": 7940
    },
    {
      "epoch": 0.0795,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.5878743489583333,
      "learning_rate": 0.0003,
      "loss": 13.0763,
      "loss/aux_loss": 0.0481284249573946,
      "loss/crossentropy": 2.915715491771698,
      "loss/logits": 1.0164682030677796,
      "step": 7950
    },
    {
      "epoch": 0.0796,
      "grad_norm": 9.25,
      "grad_norm_var": 0.1791015625,
      "learning_rate": 0.0003,
      "loss": 13.0751,
      "loss/aux_loss": 0.04813295528292656,
      "loss/crossentropy": 2.8354081392288206,
      "loss/logits": 0.978666540980339,
      "step": 7960
    },
    {
      "epoch": 0.0797,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.2955729166666667,
      "learning_rate": 0.0003,
      "loss": 13.3034,
      "loss/aux_loss": 0.0481256989762187,
      "loss/crossentropy": 2.8299093306064607,
      "loss/logits": 1.0147087454795838,
      "step": 7970
    },
    {
      "epoch": 0.0798,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.25286458333333334,
      "learning_rate": 0.0003,
      "loss": 13.1301,
      "loss/aux_loss": 0.04812098871916533,
      "loss/crossentropy": 2.9957703232765196,
      "loss/logits": 1.0261031478643416,
      "step": 7980
    },
    {
      "epoch": 0.0799,
      "grad_norm": 9.25,
      "grad_norm_var": 0.09308268229166666,
      "learning_rate": 0.0003,
      "loss": 13.1294,
      "loss/aux_loss": 0.048122938722372055,
      "loss/crossentropy": 2.8062502324581144,
      "loss/logits": 1.0008294701576232,
      "step": 7990
    },
    {
      "epoch": 0.08,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.074072265625,
      "learning_rate": 0.0003,
      "loss": 13.2716,
      "loss/aux_loss": 0.04812256768345833,
      "loss/crossentropy": 2.9094210386276247,
      "loss/logits": 1.0217216283082962,
      "step": 8000
    },
    {
      "epoch": 0.0801,
      "grad_norm": 9.25,
      "grad_norm_var": 0.5249348958333333,
      "learning_rate": 0.0003,
      "loss": 13.2679,
      "loss/aux_loss": 0.048118163272738455,
      "loss/crossentropy": 2.896920144557953,
      "loss/logits": 1.0116204470396042,
      "step": 8010
    },
    {
      "epoch": 0.0802,
      "grad_norm": 9.125,
      "grad_norm_var": 0.2696451822916667,
      "learning_rate": 0.0003,
      "loss": 13.1435,
      "loss/aux_loss": 0.048120760917663576,
      "loss/crossentropy": 2.954100179672241,
      "loss/logits": 1.0261077135801315,
      "step": 8020
    },
    {
      "epoch": 0.0803,
      "grad_norm": 10.375,
      "grad_norm_var": 590.15078125,
      "learning_rate": 0.0003,
      "loss": 13.296,
      "loss/aux_loss": 0.04813782777637243,
      "loss/crossentropy": 2.9724114894866944,
      "loss/logits": 1.0246656686067581,
      "step": 8030
    },
    {
      "epoch": 0.0804,
      "grad_norm": 9.3125,
      "grad_norm_var": 588.4619140625,
      "learning_rate": 0.0003,
      "loss": 13.3131,
      "loss/aux_loss": 0.04812064114958048,
      "loss/crossentropy": 2.873293662071228,
      "loss/logits": 1.0408964782953263,
      "step": 8040
    },
    {
      "epoch": 0.0805,
      "grad_norm": 9.5,
      "grad_norm_var": 0.21927083333333333,
      "learning_rate": 0.0003,
      "loss": 13.4035,
      "loss/aux_loss": 0.04812377672642469,
      "loss/crossentropy": 3.0599602937698362,
      "loss/logits": 1.0257072687149047,
      "step": 8050
    },
    {
      "epoch": 0.0806,
      "grad_norm": 9.125,
      "grad_norm_var": 1.2195149739583333,
      "learning_rate": 0.0003,
      "loss": 13.1163,
      "loss/aux_loss": 0.0481159932911396,
      "loss/crossentropy": 2.8620250105857847,
      "loss/logits": 0.9948093295097351,
      "step": 8060
    },
    {
      "epoch": 0.0807,
      "grad_norm": 9.0,
      "grad_norm_var": 18.907405598958334,
      "learning_rate": 0.0003,
      "loss": 13.4342,
      "loss/aux_loss": 0.048125050216913226,
      "loss/crossentropy": 2.892456221580505,
      "loss/logits": 1.0422109365463257,
      "step": 8070
    },
    {
      "epoch": 0.0808,
      "grad_norm": 10.5,
      "grad_norm_var": 6.577457682291667,
      "learning_rate": 0.0003,
      "loss": 13.336,
      "loss/aux_loss": 0.04813191127032042,
      "loss/crossentropy": 2.735273379087448,
      "loss/logits": 1.033458188176155,
      "step": 8080
    },
    {
      "epoch": 0.0809,
      "grad_norm": 9.125,
      "grad_norm_var": 54.12708333333333,
      "learning_rate": 0.0003,
      "loss": 13.3489,
      "loss/aux_loss": 0.04812964014708996,
      "loss/crossentropy": 2.843802607059479,
      "loss/logits": 1.0632713794708253,
      "step": 8090
    },
    {
      "epoch": 0.081,
      "grad_norm": 9.625,
      "grad_norm_var": 0.4376139322916667,
      "learning_rate": 0.0003,
      "loss": 13.0564,
      "loss/aux_loss": 0.04813598971813917,
      "loss/crossentropy": 2.841505432128906,
      "loss/logits": 1.0077117711305619,
      "step": 8100
    },
    {
      "epoch": 0.0811,
      "grad_norm": 9.5,
      "grad_norm_var": 0.24088541666666666,
      "learning_rate": 0.0003,
      "loss": 13.1167,
      "loss/aux_loss": 0.04812768436968327,
      "loss/crossentropy": 2.8955862760543822,
      "loss/logits": 0.997417938709259,
      "step": 8110
    },
    {
      "epoch": 0.0812,
      "grad_norm": 9.875,
      "grad_norm_var": 0.233837890625,
      "learning_rate": 0.0003,
      "loss": 13.1671,
      "loss/aux_loss": 0.04812203329056501,
      "loss/crossentropy": 2.961570382118225,
      "loss/logits": 1.0406351834535599,
      "step": 8120
    },
    {
      "epoch": 0.0813,
      "grad_norm": 9.375,
      "grad_norm_var": 0.32864583333333336,
      "learning_rate": 0.0003,
      "loss": 13.2364,
      "loss/aux_loss": 0.04812574498355389,
      "loss/crossentropy": 2.8037814855575562,
      "loss/logits": 1.0229216545820237,
      "step": 8130
    },
    {
      "epoch": 0.0814,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.20677083333333332,
      "learning_rate": 0.0003,
      "loss": 13.1272,
      "loss/aux_loss": 0.04812443684786558,
      "loss/crossentropy": 2.901040017604828,
      "loss/logits": 1.0405553728342056,
      "step": 8140
    },
    {
      "epoch": 0.0815,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.42962239583333334,
      "learning_rate": 0.0003,
      "loss": 13.2754,
      "loss/aux_loss": 0.04811316020786762,
      "loss/crossentropy": 3.041601026058197,
      "loss/logits": 1.049459946155548,
      "step": 8150
    },
    {
      "epoch": 0.0816,
      "grad_norm": 9.125,
      "grad_norm_var": 0.41354166666666664,
      "learning_rate": 0.0003,
      "loss": 13.1756,
      "loss/aux_loss": 0.048122165724635124,
      "loss/crossentropy": 2.9084804534912108,
      "loss/logits": 1.028309690952301,
      "step": 8160
    },
    {
      "epoch": 0.0817,
      "grad_norm": 9.625,
      "grad_norm_var": 0.23566080729166666,
      "learning_rate": 0.0003,
      "loss": 13.2451,
      "loss/aux_loss": 0.04811309780925512,
      "loss/crossentropy": 2.7368631422519685,
      "loss/logits": 1.002194732427597,
      "step": 8170
    },
    {
      "epoch": 0.0818,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.187744140625,
      "learning_rate": 0.0003,
      "loss": 13.0183,
      "loss/aux_loss": 0.0481279119849205,
      "loss/crossentropy": 2.908668839931488,
      "loss/logits": 1.0175655782222748,
      "step": 8180
    },
    {
      "epoch": 0.0819,
      "grad_norm": 9.0,
      "grad_norm_var": 0.21927083333333333,
      "learning_rate": 0.0003,
      "loss": 13.3305,
      "loss/aux_loss": 0.0481220519170165,
      "loss/crossentropy": 2.986106610298157,
      "loss/logits": 1.025682133436203,
      "step": 8190
    },
    {
      "epoch": 0.082,
      "grad_norm": 9.125,
      "grad_norm_var": 0.20115559895833332,
      "learning_rate": 0.0003,
      "loss": 13.0415,
      "loss/aux_loss": 0.04811887349933386,
      "loss/crossentropy": 2.9409547805786134,
      "loss/logits": 0.9966282039880753,
      "step": 8200
    },
    {
      "epoch": 0.0821,
      "grad_norm": 9.6875,
      "grad_norm_var": 9.998811848958333,
      "learning_rate": 0.0003,
      "loss": 13.2195,
      "loss/aux_loss": 0.04813245311379433,
      "loss/crossentropy": 2.8335422039031983,
      "loss/logits": 0.9939737856388092,
      "step": 8210
    },
    {
      "epoch": 0.0822,
      "grad_norm": 9.4375,
      "grad_norm_var": 9.541129557291667,
      "learning_rate": 0.0003,
      "loss": 13.2792,
      "loss/aux_loss": 0.04812641255557537,
      "loss/crossentropy": 2.935366129875183,
      "loss/logits": 0.9935110956430435,
      "step": 8220
    },
    {
      "epoch": 0.0823,
      "grad_norm": 10.4375,
      "grad_norm_var": 1.395947265625,
      "learning_rate": 0.0003,
      "loss": 13.4096,
      "loss/aux_loss": 0.048128544352948666,
      "loss/crossentropy": 3.0038156509399414,
      "loss/logits": 1.00513653755188,
      "step": 8230
    },
    {
      "epoch": 0.0824,
      "grad_norm": 11.1875,
      "grad_norm_var": 1.0632649739583333,
      "learning_rate": 0.0003,
      "loss": 13.2308,
      "loss/aux_loss": 0.048123649694025515,
      "loss/crossentropy": 2.852214002609253,
      "loss/logits": 0.9939478904008865,
      "step": 8240
    },
    {
      "epoch": 0.0825,
      "grad_norm": 9.875,
      "grad_norm_var": 1.1158854166666667,
      "learning_rate": 0.0003,
      "loss": 13.1413,
      "loss/aux_loss": 0.0481396097689867,
      "loss/crossentropy": 2.907454788684845,
      "loss/logits": 1.0276815801858903,
      "step": 8250
    },
    {
      "epoch": 0.0826,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.37224934895833334,
      "learning_rate": 0.0003,
      "loss": 13.1788,
      "loss/aux_loss": 0.04811225663870573,
      "loss/crossentropy": 2.921643829345703,
      "loss/logits": 1.0124903351068497,
      "step": 8260
    },
    {
      "epoch": 0.0827,
      "grad_norm": 10.125,
      "grad_norm_var": 1.4671875,
      "learning_rate": 0.0003,
      "loss": 13.2313,
      "loss/aux_loss": 0.0481251984834671,
      "loss/crossentropy": 2.755663204193115,
      "loss/logits": 1.007522416114807,
      "step": 8270
    },
    {
      "epoch": 0.0828,
      "grad_norm": 10.125,
      "grad_norm_var": 1.0781087239583333,
      "learning_rate": 0.0003,
      "loss": 13.1676,
      "loss/aux_loss": 0.048118762858212,
      "loss/crossentropy": 2.948284614086151,
      "loss/logits": 1.0121029019355774,
      "step": 8280
    },
    {
      "epoch": 0.0829,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.3949055989583333,
      "learning_rate": 0.0003,
      "loss": 13.1264,
      "loss/aux_loss": 0.04811645671725273,
      "loss/crossentropy": 3.065406286716461,
      "loss/logits": 1.0118898630142212,
      "step": 8290
    },
    {
      "epoch": 0.083,
      "grad_norm": 10.6875,
      "grad_norm_var": 3.4449055989583335,
      "learning_rate": 0.0003,
      "loss": 13.2246,
      "loss/aux_loss": 0.04812601022422314,
      "loss/crossentropy": 2.9024933516979217,
      "loss/logits": 1.0029625982046126,
      "step": 8300
    },
    {
      "epoch": 0.0831,
      "grad_norm": 10.625,
      "grad_norm_var": 0.6285807291666666,
      "learning_rate": 0.0003,
      "loss": 13.2829,
      "loss/aux_loss": 0.04812156446278095,
      "loss/crossentropy": 3.0828394651412965,
      "loss/logits": 1.098636594414711,
      "step": 8310
    },
    {
      "epoch": 0.0832,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.43748372395833335,
      "learning_rate": 0.0003,
      "loss": 13.0539,
      "loss/aux_loss": 0.048117737844586374,
      "loss/crossentropy": 2.9925745487213136,
      "loss/logits": 1.0268135398626328,
      "step": 8320
    },
    {
      "epoch": 0.0833,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.29010416666666666,
      "learning_rate": 0.0003,
      "loss": 12.9795,
      "loss/aux_loss": 0.048119370639324185,
      "loss/crossentropy": 2.8304718136787415,
      "loss/logits": 0.9774332970380784,
      "step": 8330
    },
    {
      "epoch": 0.0834,
      "grad_norm": 10.75,
      "grad_norm_var": 2.7471354166666666,
      "learning_rate": 0.0003,
      "loss": 13.2265,
      "loss/aux_loss": 0.04812915232032537,
      "loss/crossentropy": 2.805083268880844,
      "loss/logits": 1.0131800711154937,
      "step": 8340
    },
    {
      "epoch": 0.0835,
      "grad_norm": 10.25,
      "grad_norm_var": 2.8114583333333334,
      "learning_rate": 0.0003,
      "loss": 13.1295,
      "loss/aux_loss": 0.04811917226761579,
      "loss/crossentropy": 3.0019118428230285,
      "loss/logits": 1.0275006771087647,
      "step": 8350
    },
    {
      "epoch": 0.0836,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.3181640625,
      "learning_rate": 0.0003,
      "loss": 13.2826,
      "loss/aux_loss": 0.048113813251256944,
      "loss/crossentropy": 2.8711145401000975,
      "loss/logits": 1.0059622257947922,
      "step": 8360
    },
    {
      "epoch": 0.0837,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.19607747395833333,
      "learning_rate": 0.0003,
      "loss": 13.2408,
      "loss/aux_loss": 0.04812101162970066,
      "loss/crossentropy": 3.0431210875511168,
      "loss/logits": 1.0434471309185027,
      "step": 8370
    },
    {
      "epoch": 0.0838,
      "grad_norm": 9.75,
      "grad_norm_var": 0.2228515625,
      "learning_rate": 0.0003,
      "loss": 13.0946,
      "loss/aux_loss": 0.04811821822077036,
      "loss/crossentropy": 2.918779957294464,
      "loss/logits": 1.0080697566270829,
      "step": 8380
    },
    {
      "epoch": 0.0839,
      "grad_norm": 9.125,
      "grad_norm_var": 113.34347330729166,
      "learning_rate": 0.0003,
      "loss": 12.9875,
      "loss/aux_loss": 0.04812317434698343,
      "loss/crossentropy": 2.8696110606193543,
      "loss/logits": 1.021797129511833,
      "step": 8390
    },
    {
      "epoch": 0.084,
      "grad_norm": 9.5625,
      "grad_norm_var": 113.546728515625,
      "learning_rate": 0.0003,
      "loss": 13.0979,
      "loss/aux_loss": 0.048132005520164965,
      "loss/crossentropy": 2.8620001435279847,
      "loss/logits": 1.0312078952789308,
      "step": 8400
    },
    {
      "epoch": 0.0841,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.22537434895833333,
      "learning_rate": 0.0003,
      "loss": 13.1934,
      "loss/aux_loss": 0.048122233152389525,
      "loss/crossentropy": 2.7849833965301514,
      "loss/logits": 1.0247801810503006,
      "step": 8410
    },
    {
      "epoch": 0.0842,
      "grad_norm": 8.5,
      "grad_norm_var": 0.118994140625,
      "learning_rate": 0.0003,
      "loss": 13.2404,
      "loss/aux_loss": 0.048128989338874814,
      "loss/crossentropy": 2.9442156195640563,
      "loss/logits": 1.0153923511505127,
      "step": 8420
    },
    {
      "epoch": 0.0843,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.2554524739583333,
      "learning_rate": 0.0003,
      "loss": 13.0926,
      "loss/aux_loss": 0.04813152328133583,
      "loss/crossentropy": 2.9320022106170653,
      "loss/logits": 1.0175166606903077,
      "step": 8430
    },
    {
      "epoch": 0.0844,
      "grad_norm": 9.875,
      "grad_norm_var": 5.853238932291666,
      "learning_rate": 0.0003,
      "loss": 13.2954,
      "loss/aux_loss": 0.04813098907470703,
      "loss/crossentropy": 2.9264755129814146,
      "loss/logits": 1.0203221708536148,
      "step": 8440
    },
    {
      "epoch": 0.0845,
      "grad_norm": 9.375,
      "grad_norm_var": 6.127197265625,
      "learning_rate": 0.0003,
      "loss": 13.1144,
      "loss/aux_loss": 0.04811909180134535,
      "loss/crossentropy": 2.916581463813782,
      "loss/logits": 0.9956386595964432,
      "step": 8450
    },
    {
      "epoch": 0.0846,
      "grad_norm": 8.75,
      "grad_norm_var": 0.160009765625,
      "learning_rate": 0.0003,
      "loss": 13.178,
      "loss/aux_loss": 0.04812520742416382,
      "loss/crossentropy": 2.9652814626693726,
      "loss/logits": 1.02629674077034,
      "step": 8460
    },
    {
      "epoch": 0.0847,
      "grad_norm": 9.4375,
      "grad_norm_var": 0.116650390625,
      "learning_rate": 0.0003,
      "loss": 13.1988,
      "loss/aux_loss": 0.048121622577309606,
      "loss/crossentropy": 2.971061831712723,
      "loss/logits": 1.0064853310585022,
      "step": 8470
    },
    {
      "epoch": 0.0848,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.15701497395833333,
      "learning_rate": 0.0003,
      "loss": 13.1627,
      "loss/aux_loss": 0.048127346113324164,
      "loss/crossentropy": 2.9350649237632753,
      "loss/logits": 0.9827002599835396,
      "step": 8480
    },
    {
      "epoch": 0.0849,
      "grad_norm": 8.25,
      "grad_norm_var": 0.310009765625,
      "learning_rate": 0.0003,
      "loss": 12.9945,
      "loss/aux_loss": 0.048121594451367856,
      "loss/crossentropy": 2.8912373781204224,
      "loss/logits": 0.9815872967243194,
      "step": 8490
    },
    {
      "epoch": 0.085,
      "grad_norm": 10.125,
      "grad_norm_var": 0.8640625,
      "learning_rate": 0.0003,
      "loss": 13.3333,
      "loss/aux_loss": 0.04812703672796488,
      "loss/crossentropy": 3.0496490001678467,
      "loss/logits": 1.0207342118024827,
      "step": 8500
    },
    {
      "epoch": 0.0851,
      "grad_norm": 9.6875,
      "grad_norm_var": 16.475244140625,
      "learning_rate": 0.0003,
      "loss": 13.2066,
      "loss/aux_loss": 0.048138654045760634,
      "loss/crossentropy": 2.858214247226715,
      "loss/logits": 1.0198309272527695,
      "step": 8510
    },
    {
      "epoch": 0.0852,
      "grad_norm": 9.375,
      "grad_norm_var": 16.990738932291666,
      "learning_rate": 0.0003,
      "loss": 12.9225,
      "loss/aux_loss": 0.04811470378190279,
      "loss/crossentropy": 2.6653155386447906,
      "loss/logits": 0.9890996038913726,
      "step": 8520
    },
    {
      "epoch": 0.0853,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.29217122395833334,
      "learning_rate": 0.0003,
      "loss": 13.0286,
      "loss/aux_loss": 0.04812881331890821,
      "loss/crossentropy": 2.818387824296951,
      "loss/logits": 1.0328501909971237,
      "step": 8530
    },
    {
      "epoch": 0.0854,
      "grad_norm": 9.9375,
      "grad_norm_var": 0.4891764322916667,
      "learning_rate": 0.0003,
      "loss": 12.9661,
      "loss/aux_loss": 0.04812416769564152,
      "loss/crossentropy": 2.7885517358779905,
      "loss/logits": 1.0058355391025544,
      "step": 8540
    },
    {
      "epoch": 0.0855,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.6669108072916666,
      "learning_rate": 0.0003,
      "loss": 13.1039,
      "loss/aux_loss": 0.04812269229441881,
      "loss/crossentropy": 2.9664511680603027,
      "loss/logits": 1.0393647104501724,
      "step": 8550
    },
    {
      "epoch": 0.0856,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.323681640625,
      "learning_rate": 0.0003,
      "loss": 13.211,
      "loss/aux_loss": 0.04812395125627518,
      "loss/crossentropy": 2.9345888257026673,
      "loss/logits": 1.017241859436035,
      "step": 8560
    },
    {
      "epoch": 0.0857,
      "grad_norm": 9.625,
      "grad_norm_var": 37.13743489583333,
      "learning_rate": 0.0003,
      "loss": 13.1819,
      "loss/aux_loss": 0.04813410099595785,
      "loss/crossentropy": 2.9240545988082887,
      "loss/logits": 1.0288849472999573,
      "step": 8570
    },
    {
      "epoch": 0.0858,
      "grad_norm": 10.5,
      "grad_norm_var": 0.5333333333333333,
      "learning_rate": 0.0003,
      "loss": 13.2227,
      "loss/aux_loss": 0.048121962882578376,
      "loss/crossentropy": 2.855889308452606,
      "loss/logits": 1.0060656636953353,
      "step": 8580
    },
    {
      "epoch": 0.0859,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.6429524739583333,
      "learning_rate": 0.0003,
      "loss": 13.1099,
      "loss/aux_loss": 0.048110452853143214,
      "loss/crossentropy": 2.8173590660095216,
      "loss/logits": 1.0144326239824295,
      "step": 8590
    },
    {
      "epoch": 0.086,
      "grad_norm": 90.5,
      "grad_norm_var": 409.363134765625,
      "learning_rate": 0.0003,
      "loss": 13.2486,
      "loss/aux_loss": 0.048120449669659136,
      "loss/crossentropy": 2.889569455385208,
      "loss/logits": 1.0104403495788574,
      "step": 8600
    },
    {
      "epoch": 0.0861,
      "grad_norm": 10.0625,
      "grad_norm_var": 405.5660807291667,
      "learning_rate": 0.0003,
      "loss": 12.9023,
      "loss/aux_loss": 0.04813555497676134,
      "loss/crossentropy": 2.891407001018524,
      "loss/logits": 0.9928454220294952,
      "step": 8610
    },
    {
      "epoch": 0.0862,
      "grad_norm": 10.3125,
      "grad_norm_var": 1.1833333333333333,
      "learning_rate": 0.0003,
      "loss": 13.1671,
      "loss/aux_loss": 0.048119562491774556,
      "loss/crossentropy": 2.9349429488182066,
      "loss/logits": 1.0234294265508652,
      "step": 8620
    },
    {
      "epoch": 0.0863,
      "grad_norm": 9.8125,
      "grad_norm_var": 1.1183430989583334,
      "learning_rate": 0.0003,
      "loss": 13.1522,
      "loss/aux_loss": 0.048119149915874,
      "loss/crossentropy": 2.953269922733307,
      "loss/logits": 1.029870542883873,
      "step": 8630
    },
    {
      "epoch": 0.0864,
      "grad_norm": 21.625,
      "grad_norm_var": 8.992952473958333,
      "learning_rate": 0.0003,
      "loss": 13.223,
      "loss/aux_loss": 0.048137610964477065,
      "loss/crossentropy": 2.854456979036331,
      "loss/logits": 1.0149786740541458,
      "step": 8640
    },
    {
      "epoch": 0.0865,
      "grad_norm": 9.125,
      "grad_norm_var": 8.875455729166667,
      "learning_rate": 0.0003,
      "loss": 12.8707,
      "loss/aux_loss": 0.048116568848490714,
      "loss/crossentropy": 2.9507800936698914,
      "loss/logits": 1.0633498966693877,
      "step": 8650
    },
    {
      "epoch": 0.0866,
      "grad_norm": 9.75,
      "grad_norm_var": 0.17433268229166668,
      "learning_rate": 0.0003,
      "loss": 13.2224,
      "loss/aux_loss": 0.048123492300510405,
      "loss/crossentropy": 2.8969777107238768,
      "loss/logits": 0.9931401669979095,
      "step": 8660
    },
    {
      "epoch": 0.0867,
      "grad_norm": 9.0,
      "grad_norm_var": 8.690885416666667,
      "learning_rate": 0.0003,
      "loss": 13.1396,
      "loss/aux_loss": 0.048116271197795865,
      "loss/crossentropy": 2.907929790019989,
      "loss/logits": 1.0244786828756332,
      "step": 8670
    },
    {
      "epoch": 0.0868,
      "grad_norm": 9.625,
      "grad_norm_var": 8.547135416666666,
      "learning_rate": 0.0003,
      "loss": 12.9869,
      "loss/aux_loss": 0.04812566060572863,
      "loss/crossentropy": 2.813516306877136,
      "loss/logits": 0.9591111838817596,
      "step": 8680
    },
    {
      "epoch": 0.0869,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.22706705729166668,
      "learning_rate": 0.0003,
      "loss": 13.0031,
      "loss/aux_loss": 0.04811654146760702,
      "loss/crossentropy": 2.7499096274375914,
      "loss/logits": 0.9870797544717789,
      "step": 8690
    },
    {
      "epoch": 0.087,
      "grad_norm": 9.625,
      "grad_norm_var": 0.4505208333333333,
      "learning_rate": 0.0003,
      "loss": 13.0701,
      "loss/aux_loss": 0.04811768177896738,
      "loss/crossentropy": 2.812624078989029,
      "loss/logits": 0.9721063941717147,
      "step": 8700
    },
    {
      "epoch": 0.0871,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.13357747395833333,
      "learning_rate": 0.0003,
      "loss": 13.2135,
      "loss/aux_loss": 0.048116148076951505,
      "loss/crossentropy": 2.9922009468078614,
      "loss/logits": 1.015498149394989,
      "step": 8710
    },
    {
      "epoch": 0.0872,
      "grad_norm": 9.75,
      "grad_norm_var": 0.13326822916666667,
      "learning_rate": 0.0003,
      "loss": 13.0671,
      "loss/aux_loss": 0.048121779784560205,
      "loss/crossentropy": 2.827225810289383,
      "loss/logits": 0.9838965624570847,
      "step": 8720
    },
    {
      "epoch": 0.0873,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.26764322916666666,
      "learning_rate": 0.0003,
      "loss": 13.1019,
      "loss/aux_loss": 0.04811729565262794,
      "loss/crossentropy": 2.959608232975006,
      "loss/logits": 0.9972497940063476,
      "step": 8730
    },
    {
      "epoch": 0.0874,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.16920572916666668,
      "learning_rate": 0.0003,
      "loss": 12.7734,
      "loss/aux_loss": 0.048125034943223,
      "loss/crossentropy": 2.6938082754611967,
      "loss/logits": 0.9462698817253112,
      "step": 8740
    },
    {
      "epoch": 0.0875,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.21560872395833333,
      "learning_rate": 0.0003,
      "loss": 13.0511,
      "loss/aux_loss": 0.04812650829553604,
      "loss/crossentropy": 2.7083167552948,
      "loss/logits": 0.989093354344368,
      "step": 8750
    },
    {
      "epoch": 0.0876,
      "grad_norm": 9.625,
      "grad_norm_var": 0.198291015625,
      "learning_rate": 0.0003,
      "loss": 12.9391,
      "loss/aux_loss": 0.0481193732470274,
      "loss/crossentropy": 2.9418309926986694,
      "loss/logits": 0.9726715385913849,
      "step": 8760
    },
    {
      "epoch": 0.0877,
      "grad_norm": 9.375,
      "grad_norm_var": 0.22213541666666667,
      "learning_rate": 0.0003,
      "loss": 13.1485,
      "loss/aux_loss": 0.048114814795553684,
      "loss/crossentropy": 2.9309451580047607,
      "loss/logits": 1.0644985824823379,
      "step": 8770
    },
    {
      "epoch": 0.0878,
      "grad_norm": 9.75,
      "grad_norm_var": 92.121728515625,
      "learning_rate": 0.0003,
      "loss": 13.0324,
      "loss/aux_loss": 0.04812544099986553,
      "loss/crossentropy": 2.960424965620041,
      "loss/logits": 0.9863006621599197,
      "step": 8780
    },
    {
      "epoch": 0.0879,
      "grad_norm": 9.125,
      "grad_norm_var": 0.211572265625,
      "learning_rate": 0.0003,
      "loss": 13.2247,
      "loss/aux_loss": 0.048114399425685406,
      "loss/crossentropy": 2.848669397830963,
      "loss/logits": 1.0225479423999786,
      "step": 8790
    },
    {
      "epoch": 0.088,
      "grad_norm": 9.125,
      "grad_norm_var": 0.250634765625,
      "learning_rate": 0.0003,
      "loss": 13.0081,
      "loss/aux_loss": 0.0481090260669589,
      "loss/crossentropy": 3.036766457557678,
      "loss/logits": 1.005482006072998,
      "step": 8800
    },
    {
      "epoch": 0.0881,
      "grad_norm": 9.75,
      "grad_norm_var": 0.10545247395833333,
      "learning_rate": 0.0003,
      "loss": 13.0766,
      "loss/aux_loss": 0.048118382692337036,
      "loss/crossentropy": 2.9599334478378294,
      "loss/logits": 1.022737380862236,
      "step": 8810
    },
    {
      "epoch": 0.0882,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.33639322916666664,
      "learning_rate": 0.0003,
      "loss": 13.0431,
      "loss/aux_loss": 0.04812664575874805,
      "loss/crossentropy": 2.761233627796173,
      "loss/logits": 1.0341258555650712,
      "step": 8820
    },
    {
      "epoch": 0.0883,
      "grad_norm": 10.125,
      "grad_norm_var": 0.3087076822916667,
      "learning_rate": 0.0003,
      "loss": 12.9998,
      "loss/aux_loss": 0.048121739737689496,
      "loss/crossentropy": 2.9523282289505004,
      "loss/logits": 1.0163812279701232,
      "step": 8830
    },
    {
      "epoch": 0.0884,
      "grad_norm": 10.25,
      "grad_norm_var": 49.53359375,
      "learning_rate": 0.0003,
      "loss": 13.0433,
      "loss/aux_loss": 0.048123051226139066,
      "loss/crossentropy": 2.9619523882865906,
      "loss/logits": 1.0154429644346237,
      "step": 8840
    },
    {
      "epoch": 0.0885,
      "grad_norm": 9.0625,
      "grad_norm_var": 48.044010416666666,
      "learning_rate": 0.0003,
      "loss": 13.0594,
      "loss/aux_loss": 0.048118606954813,
      "loss/crossentropy": 2.768035900592804,
      "loss/logits": 1.0090958893299102,
      "step": 8850
    },
    {
      "epoch": 0.0886,
      "grad_norm": 9.625,
      "grad_norm_var": 0.24021809895833332,
      "learning_rate": 0.0003,
      "loss": 13.0136,
      "loss/aux_loss": 0.04812074787914753,
      "loss/crossentropy": 2.864524757862091,
      "loss/logits": 0.9908095836639405,
      "step": 8860
    },
    {
      "epoch": 0.0887,
      "grad_norm": 10.75,
      "grad_norm_var": 0.5041015625,
      "learning_rate": 0.0003,
      "loss": 13.0489,
      "loss/aux_loss": 0.04811746664345264,
      "loss/crossentropy": 2.8981815814971923,
      "loss/logits": 0.9988605201244354,
      "step": 8870
    },
    {
      "epoch": 0.0888,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.303125,
      "learning_rate": 0.0003,
      "loss": 13.0495,
      "loss/aux_loss": 0.04811958447098732,
      "loss/crossentropy": 2.953895443677902,
      "loss/logits": 0.9865518122911453,
      "step": 8880
    },
    {
      "epoch": 0.0889,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.25636393229166665,
      "learning_rate": 0.0003,
      "loss": 13.0068,
      "loss/aux_loss": 0.048110640980303286,
      "loss/crossentropy": 2.844312059879303,
      "loss/logits": 0.999048775434494,
      "step": 8890
    },
    {
      "epoch": 0.089,
      "grad_norm": 9.125,
      "grad_norm_var": 0.3324055989583333,
      "learning_rate": 0.0003,
      "loss": 13.1248,
      "loss/aux_loss": 0.048114532604813576,
      "loss/crossentropy": 2.8329219222068787,
      "loss/logits": 1.0227496713399886,
      "step": 8900
    },
    {
      "epoch": 0.0891,
      "grad_norm": 9.4375,
      "grad_norm_var": 0.695166015625,
      "learning_rate": 0.0003,
      "loss": 13.2069,
      "loss/aux_loss": 0.048122035898268224,
      "loss/crossentropy": 2.9590111494064333,
      "loss/logits": 1.020371201634407,
      "step": 8910
    },
    {
      "epoch": 0.0892,
      "grad_norm": 8.625,
      "grad_norm_var": 0.4691243489583333,
      "learning_rate": 0.0003,
      "loss": 12.9333,
      "loss/aux_loss": 0.04812424685806036,
      "loss/crossentropy": 2.803478956222534,
      "loss/logits": 0.9767372757196426,
      "step": 8920
    },
    {
      "epoch": 0.0893,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.2598958333333333,
      "learning_rate": 0.0003,
      "loss": 13.2306,
      "loss/aux_loss": 0.04812055286020041,
      "loss/crossentropy": 2.90518371462822,
      "loss/logits": 0.9993892073631286,
      "step": 8930
    },
    {
      "epoch": 0.0894,
      "grad_norm": 10.0,
      "grad_norm_var": 0.15462239583333334,
      "learning_rate": 0.0003,
      "loss": 13.2241,
      "loss/aux_loss": 0.04811331238597631,
      "loss/crossentropy": 2.9701803803443907,
      "loss/logits": 0.9940306186676026,
      "step": 8940
    },
    {
      "epoch": 0.0895,
      "grad_norm": 10.375,
      "grad_norm_var": 0.246337890625,
      "learning_rate": 0.0003,
      "loss": 13.0112,
      "loss/aux_loss": 0.04811495840549469,
      "loss/crossentropy": 3.0566563248634337,
      "loss/logits": 1.0184517830610276,
      "step": 8950
    },
    {
      "epoch": 0.0896,
      "grad_norm": 9.4375,
      "grad_norm_var": 4.417952473958334,
      "learning_rate": 0.0003,
      "loss": 12.9823,
      "loss/aux_loss": 0.04812169056385755,
      "loss/crossentropy": 2.948707568645477,
      "loss/logits": 0.9956671565771102,
      "step": 8960
    },
    {
      "epoch": 0.0897,
      "grad_norm": 9.125,
      "grad_norm_var": 4.491520182291667,
      "learning_rate": 0.0003,
      "loss": 13.0456,
      "loss/aux_loss": 0.04811549689620733,
      "loss/crossentropy": 2.8826889276504515,
      "loss/logits": 1.0055119961500167,
      "step": 8970
    },
    {
      "epoch": 0.0898,
      "grad_norm": 9.5625,
      "grad_norm_var": 4.914306640625,
      "learning_rate": 0.0003,
      "loss": 13.3204,
      "loss/aux_loss": 0.04811891969293356,
      "loss/crossentropy": 3.0966086268424986,
      "loss/logits": 1.0039119273424149,
      "step": 8980
    },
    {
      "epoch": 0.0899,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.9282389322916667,
      "learning_rate": 0.0003,
      "loss": 13.0716,
      "loss/aux_loss": 0.04812802001833916,
      "loss/crossentropy": 2.773033380508423,
      "loss/logits": 1.0084805130958556,
      "step": 8990
    },
    {
      "epoch": 0.09,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.8994791666666667,
      "learning_rate": 0.0003,
      "loss": 13.2718,
      "loss/aux_loss": 0.0481186056509614,
      "loss/crossentropy": 2.934514182806015,
      "loss/logits": 1.0663816720247268,
      "step": 9000
    },
    {
      "epoch": 0.0901,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.2916015625,
      "learning_rate": 0.0003,
      "loss": 13.0098,
      "loss/aux_loss": 0.04811523351818323,
      "loss/crossentropy": 2.8817059993743896,
      "loss/logits": 1.0227952599525452,
      "step": 9010
    },
    {
      "epoch": 0.0902,
      "grad_norm": 10.8125,
      "grad_norm_var": 1.7858723958333333,
      "learning_rate": 0.0003,
      "loss": 12.9215,
      "loss/aux_loss": 0.04812025129795074,
      "loss/crossentropy": 2.9280009150505064,
      "loss/logits": 1.008087882399559,
      "step": 9020
    },
    {
      "epoch": 0.0903,
      "grad_norm": 10.625,
      "grad_norm_var": 1.5988932291666667,
      "learning_rate": 0.0003,
      "loss": 12.9675,
      "loss/aux_loss": 0.048126825504004954,
      "loss/crossentropy": 2.752195543050766,
      "loss/logits": 0.938539656996727,
      "step": 9030
    },
    {
      "epoch": 0.0904,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.17838541666666666,
      "learning_rate": 0.0003,
      "loss": 13.1815,
      "loss/aux_loss": 0.04811705574393273,
      "loss/crossentropy": 3.056387519836426,
      "loss/logits": 1.0307760834693909,
      "step": 9040
    },
    {
      "epoch": 0.0905,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.14724934895833333,
      "learning_rate": 0.0003,
      "loss": 13.2356,
      "loss/aux_loss": 0.04812313225120306,
      "loss/crossentropy": 2.984651046991348,
      "loss/logits": 1.0027798056602477,
      "step": 9050
    },
    {
      "epoch": 0.0906,
      "grad_norm": 8.8125,
      "grad_norm_var": 0.325634765625,
      "learning_rate": 0.0003,
      "loss": 13.0133,
      "loss/aux_loss": 0.04811926949769259,
      "loss/crossentropy": 2.916082763671875,
      "loss/logits": 0.9860832780599594,
      "step": 9060
    },
    {
      "epoch": 0.0907,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.266259765625,
      "learning_rate": 0.0003,
      "loss": 12.9402,
      "loss/aux_loss": 0.048123452626168725,
      "loss/crossentropy": 2.843355292081833,
      "loss/logits": 0.9923195570707322,
      "step": 9070
    },
    {
      "epoch": 0.0908,
      "grad_norm": 9.625,
      "grad_norm_var": 0.5714680989583333,
      "learning_rate": 0.0003,
      "loss": 12.7962,
      "loss/aux_loss": 0.04811744131147862,
      "loss/crossentropy": 2.929332971572876,
      "loss/logits": 1.011452180147171,
      "step": 9080
    },
    {
      "epoch": 0.0909,
      "grad_norm": 10.4375,
      "grad_norm_var": 0.22369791666666666,
      "learning_rate": 0.0003,
      "loss": 13.0572,
      "loss/aux_loss": 0.04812127202749252,
      "loss/crossentropy": 2.9542043566703797,
      "loss/logits": 0.9913775563240051,
      "step": 9090
    },
    {
      "epoch": 0.091,
      "grad_norm": 10.0,
      "grad_norm_var": 0.4495930989583333,
      "learning_rate": 0.0003,
      "loss": 13.0991,
      "loss/aux_loss": 0.048116521537303926,
      "loss/crossentropy": 2.845492494106293,
      "loss/logits": 1.0074622273445129,
      "step": 9100
    },
    {
      "epoch": 0.0911,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.633837890625,
      "learning_rate": 0.0003,
      "loss": 12.9897,
      "loss/aux_loss": 0.048106766492128375,
      "loss/crossentropy": 2.902200919389725,
      "loss/logits": 1.0262346029281617,
      "step": 9110
    },
    {
      "epoch": 0.0912,
      "grad_norm": 10.375,
      "grad_norm_var": 5.352718098958333,
      "learning_rate": 0.0003,
      "loss": 13.0402,
      "loss/aux_loss": 0.04812852665781975,
      "loss/crossentropy": 2.9274023175239563,
      "loss/logits": 0.9989449590444565,
      "step": 9120
    },
    {
      "epoch": 0.0913,
      "grad_norm": 10.125,
      "grad_norm_var": 5.371077473958334,
      "learning_rate": 0.0003,
      "loss": 13.1259,
      "loss/aux_loss": 0.048123916052281855,
      "loss/crossentropy": 2.957271945476532,
      "loss/logits": 1.0392587214708329,
      "step": 9130
    },
    {
      "epoch": 0.0914,
      "grad_norm": 11.0,
      "grad_norm_var": 0.8235514322916667,
      "learning_rate": 0.0003,
      "loss": 12.8346,
      "loss/aux_loss": 0.04811377823352814,
      "loss/crossentropy": 2.7599571704864503,
      "loss/logits": 0.9800522536039352,
      "step": 9140
    },
    {
      "epoch": 0.0915,
      "grad_norm": 9.0625,
      "grad_norm_var": 14.900764973958333,
      "learning_rate": 0.0003,
      "loss": 13.0363,
      "loss/aux_loss": 0.048123881407082084,
      "loss/crossentropy": 2.8104595303535462,
      "loss/logits": 0.9722192943096161,
      "step": 9150
    },
    {
      "epoch": 0.0916,
      "grad_norm": 10.8125,
      "grad_norm_var": 14.4884765625,
      "learning_rate": 0.0003,
      "loss": 13.0768,
      "loss/aux_loss": 0.04811329320073128,
      "loss/crossentropy": 2.85021288394928,
      "loss/logits": 1.0288948625326158,
      "step": 9160
    },
    {
      "epoch": 0.0917,
      "grad_norm": 9.25,
      "grad_norm_var": 0.5411295572916667,
      "learning_rate": 0.0003,
      "loss": 13.0842,
      "loss/aux_loss": 0.04812074415385723,
      "loss/crossentropy": 2.9284089267253877,
      "loss/logits": 1.0179531484842301,
      "step": 9170
    },
    {
      "epoch": 0.0918,
      "grad_norm": 9.9375,
      "grad_norm_var": 0.6243326822916667,
      "learning_rate": 0.0003,
      "loss": 13.0484,
      "loss/aux_loss": 0.04811491388827562,
      "loss/crossentropy": 2.8634442031383514,
      "loss/logits": 0.988609355688095,
      "step": 9180
    },
    {
      "epoch": 0.0919,
      "grad_norm": 15.25,
      "grad_norm_var": 2.2025390625,
      "learning_rate": 0.0003,
      "loss": 12.9292,
      "loss/aux_loss": 0.04811589177697897,
      "loss/crossentropy": 3.035586249828339,
      "loss/logits": 1.017078360915184,
      "step": 9190
    },
    {
      "epoch": 0.092,
      "grad_norm": 10.3125,
      "grad_norm_var": 2.242447916666667,
      "learning_rate": 0.0003,
      "loss": 13.0149,
      "loss/aux_loss": 0.04812207706272602,
      "loss/crossentropy": 2.962714272737503,
      "loss/logits": 0.9997862339019775,
      "step": 9200
    },
    {
      "epoch": 0.0921,
      "grad_norm": 11.625,
      "grad_norm_var": 0.5791666666666667,
      "learning_rate": 0.0003,
      "loss": 12.9794,
      "loss/aux_loss": 0.04811257142573595,
      "loss/crossentropy": 2.904304379224777,
      "loss/logits": 0.9970894068479538,
      "step": 9210
    },
    {
      "epoch": 0.0922,
      "grad_norm": 9.75,
      "grad_norm_var": 0.455322265625,
      "learning_rate": 0.0003,
      "loss": 12.997,
      "loss/aux_loss": 0.048116791248321536,
      "loss/crossentropy": 2.9704554200172426,
      "loss/logits": 1.009730476140976,
      "step": 9220
    },
    {
      "epoch": 0.0923,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.22263997395833332,
      "learning_rate": 0.0003,
      "loss": 13.0321,
      "loss/aux_loss": 0.04812146797776222,
      "loss/crossentropy": 2.927646744251251,
      "loss/logits": 0.9740961879491806,
      "step": 9230
    },
    {
      "epoch": 0.0924,
      "grad_norm": 10.25,
      "grad_norm_var": 0.6384765625,
      "learning_rate": 0.0003,
      "loss": 13.0843,
      "loss/aux_loss": 0.048116331547498704,
      "loss/crossentropy": 2.9682451248168946,
      "loss/logits": 1.0054449021816254,
      "step": 9240
    },
    {
      "epoch": 0.0925,
      "grad_norm": 9.25,
      "grad_norm_var": 0.81796875,
      "learning_rate": 0.0003,
      "loss": 12.8984,
      "loss/aux_loss": 0.0481177942827344,
      "loss/crossentropy": 2.9605862140655517,
      "loss/logits": 0.9988209009170532,
      "step": 9250
    },
    {
      "epoch": 0.0926,
      "grad_norm": 9.9375,
      "grad_norm_var": 7.1212890625,
      "learning_rate": 0.0003,
      "loss": 13.126,
      "loss/aux_loss": 0.04811736159026623,
      "loss/crossentropy": 2.968954026699066,
      "loss/logits": 0.9968051850795746,
      "step": 9260
    },
    {
      "epoch": 0.0927,
      "grad_norm": 10.5,
      "grad_norm_var": 7.165999348958334,
      "learning_rate": 0.0003,
      "loss": 12.9006,
      "loss/aux_loss": 0.04812134802341461,
      "loss/crossentropy": 2.95685738325119,
      "loss/logits": 1.017841598391533,
      "step": 9270
    },
    {
      "epoch": 0.0928,
      "grad_norm": 10.1875,
      "grad_norm_var": 302.6844889322917,
      "learning_rate": 0.0003,
      "loss": 13.0568,
      "loss/aux_loss": 0.04813589584082365,
      "loss/crossentropy": 2.8788455188274384,
      "loss/logits": 0.998471787571907,
      "step": 9280
    },
    {
      "epoch": 0.0929,
      "grad_norm": 9.8125,
      "grad_norm_var": 304.08396809895834,
      "learning_rate": 0.0003,
      "loss": 12.9694,
      "loss/aux_loss": 0.04811546951532364,
      "loss/crossentropy": 2.8760639309883116,
      "loss/logits": 0.9897254168987274,
      "step": 9290
    },
    {
      "epoch": 0.093,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.14270833333333333,
      "learning_rate": 0.0003,
      "loss": 12.875,
      "loss/aux_loss": 0.0481147637590766,
      "loss/crossentropy": 2.9088239908218383,
      "loss/logits": 0.9841889888048172,
      "step": 9300
    },
    {
      "epoch": 0.0931,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.21131184895833333,
      "learning_rate": 0.0003,
      "loss": 12.9544,
      "loss/aux_loss": 0.04811472594738007,
      "loss/crossentropy": 3.0154574632644655,
      "loss/logits": 0.9868688434362411,
      "step": 9310
    },
    {
      "epoch": 0.0932,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.297509765625,
      "learning_rate": 0.0003,
      "loss": 13.0221,
      "loss/aux_loss": 0.04811571668833494,
      "loss/crossentropy": 2.744140291213989,
      "loss/logits": 0.9741410970687866,
      "step": 9320
    },
    {
      "epoch": 0.0933,
      "grad_norm": 9.625,
      "grad_norm_var": 0.41354166666666664,
      "learning_rate": 0.0003,
      "loss": 13.0847,
      "loss/aux_loss": 0.04812242966145277,
      "loss/crossentropy": 2.8483268916606903,
      "loss/logits": 1.0017479300498962,
      "step": 9330
    },
    {
      "epoch": 0.0934,
      "grad_norm": 9.5,
      "grad_norm_var": 16.938916015625,
      "learning_rate": 0.0003,
      "loss": 12.8932,
      "loss/aux_loss": 0.048115167394280435,
      "loss/crossentropy": 2.951818656921387,
      "loss/logits": 1.034898152947426,
      "step": 9340
    },
    {
      "epoch": 0.0935,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.141259765625,
      "learning_rate": 0.0003,
      "loss": 13.0014,
      "loss/aux_loss": 0.048115997575223446,
      "loss/crossentropy": 2.835058981180191,
      "loss/logits": 0.9820165306329727,
      "step": 9350
    },
    {
      "epoch": 0.0936,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.151806640625,
      "learning_rate": 0.0003,
      "loss": 12.8639,
      "loss/aux_loss": 0.04810713436454535,
      "loss/crossentropy": 2.9016472816467287,
      "loss/logits": 1.0063132762908935,
      "step": 9360
    },
    {
      "epoch": 0.0937,
      "grad_norm": 9.9375,
      "grad_norm_var": 0.9284993489583333,
      "learning_rate": 0.0003,
      "loss": 12.858,
      "loss/aux_loss": 0.04812375083565712,
      "loss/crossentropy": 2.984380769729614,
      "loss/logits": 1.0249317467212677,
      "step": 9370
    },
    {
      "epoch": 0.0938,
      "grad_norm": 10.5,
      "grad_norm_var": 0.8635416666666667,
      "learning_rate": 0.0003,
      "loss": 12.9143,
      "loss/aux_loss": 0.0481270782649517,
      "loss/crossentropy": 3.0072665452957152,
      "loss/logits": 0.9971794277429581,
      "step": 9380
    },
    {
      "epoch": 0.0939,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.22902018229166668,
      "learning_rate": 0.0003,
      "loss": 12.9288,
      "loss/aux_loss": 0.04811225328594446,
      "loss/crossentropy": 2.952876567840576,
      "loss/logits": 0.981144642829895,
      "step": 9390
    },
    {
      "epoch": 0.094,
      "grad_norm": 9.5,
      "grad_norm_var": 0.20546875,
      "learning_rate": 0.0003,
      "loss": 12.9573,
      "loss/aux_loss": 0.04811703842133284,
      "loss/crossentropy": 2.9657641530036924,
      "loss/logits": 1.008799707889557,
      "step": 9400
    },
    {
      "epoch": 0.0941,
      "grad_norm": 10.125,
      "grad_norm_var": 0.28020833333333334,
      "learning_rate": 0.0003,
      "loss": 13.0344,
      "loss/aux_loss": 0.04812249001115561,
      "loss/crossentropy": 2.868061417341232,
      "loss/logits": 0.9425824016332627,
      "step": 9410
    },
    {
      "epoch": 0.0942,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.2880045572916667,
      "learning_rate": 0.0003,
      "loss": 12.8889,
      "loss/aux_loss": 0.04811691902577877,
      "loss/crossentropy": 2.810444962978363,
      "loss/logits": 0.9671340584754944,
      "step": 9420
    },
    {
      "epoch": 0.0943,
      "grad_norm": 9.25,
      "grad_norm_var": 0.250244140625,
      "learning_rate": 0.0003,
      "loss": 12.8051,
      "loss/aux_loss": 0.04814633168280125,
      "loss/crossentropy": 2.7531135201454164,
      "loss/logits": 0.9443521648645401,
      "step": 9430
    },
    {
      "epoch": 0.0944,
      "grad_norm": 9.5,
      "grad_norm_var": 0.11144205729166666,
      "learning_rate": 0.0003,
      "loss": 12.9351,
      "loss/aux_loss": 0.04811623003333807,
      "loss/crossentropy": 2.773250675201416,
      "loss/logits": 0.9573301702737809,
      "step": 9440
    },
    {
      "epoch": 0.0945,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.14998372395833334,
      "learning_rate": 0.0003,
      "loss": 12.9976,
      "loss/aux_loss": 0.048125031776726244,
      "loss/crossentropy": 2.843584269285202,
      "loss/logits": 0.9623809665441513,
      "step": 9450
    },
    {
      "epoch": 0.0946,
      "grad_norm": 10.75,
      "grad_norm_var": 0.35740559895833335,
      "learning_rate": 0.0003,
      "loss": 12.9905,
      "loss/aux_loss": 0.0481179354712367,
      "loss/crossentropy": 3.025428628921509,
      "loss/logits": 1.0071224570274353,
      "step": 9460
    },
    {
      "epoch": 0.0947,
      "grad_norm": 9.25,
      "grad_norm_var": 0.340625,
      "learning_rate": 0.0003,
      "loss": 12.9006,
      "loss/aux_loss": 0.0481242848560214,
      "loss/crossentropy": 2.919004487991333,
      "loss/logits": 1.0092800080776214,
      "step": 9470
    },
    {
      "epoch": 0.0948,
      "grad_norm": 9.4375,
      "grad_norm_var": 0.364306640625,
      "learning_rate": 0.0003,
      "loss": 12.8888,
      "loss/aux_loss": 0.04811065457761288,
      "loss/crossentropy": 3.0337927043437958,
      "loss/logits": 0.970859882235527,
      "step": 9480
    },
    {
      "epoch": 0.0949,
      "grad_norm": 9.4375,
      "grad_norm_var": 0.2561848958333333,
      "learning_rate": 0.0003,
      "loss": 12.969,
      "loss/aux_loss": 0.048123066686093806,
      "loss/crossentropy": 2.9421743154525757,
      "loss/logits": 1.0259678810834885,
      "step": 9490
    },
    {
      "epoch": 0.095,
      "grad_norm": 9.75,
      "grad_norm_var": 0.2704264322916667,
      "learning_rate": 0.0003,
      "loss": 12.9057,
      "loss/aux_loss": 0.04810989499092102,
      "loss/crossentropy": 2.908745914697647,
      "loss/logits": 1.004162722826004,
      "step": 9500
    },
    {
      "epoch": 0.0951,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.354150390625,
      "learning_rate": 0.0003,
      "loss": 12.8508,
      "loss/aux_loss": 0.04811614695936441,
      "loss/crossentropy": 2.8484590649604797,
      "loss/logits": 0.9944918006658554,
      "step": 9510
    },
    {
      "epoch": 0.0952,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.296728515625,
      "learning_rate": 0.0003,
      "loss": 12.8238,
      "loss/aux_loss": 0.04812110308557749,
      "loss/crossentropy": 2.9715175151824953,
      "loss/logits": 0.9781792253255844,
      "step": 9520
    },
    {
      "epoch": 0.0953,
      "grad_norm": 9.9375,
      "grad_norm_var": 0.26170247395833335,
      "learning_rate": 0.0003,
      "loss": 12.8021,
      "loss/aux_loss": 0.04812615159898996,
      "loss/crossentropy": 2.8001496493816376,
      "loss/logits": 0.943726196885109,
      "step": 9530
    },
    {
      "epoch": 0.0954,
      "grad_norm": 9.125,
      "grad_norm_var": 0.2950520833333333,
      "learning_rate": 0.0003,
      "loss": 13.0212,
      "loss/aux_loss": 0.048111764900386336,
      "loss/crossentropy": 2.9262121081352235,
      "loss/logits": 1.0509262353181839,
      "step": 9540
    },
    {
      "epoch": 0.0955,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.11717122395833333,
      "learning_rate": 0.0003,
      "loss": 12.7972,
      "loss/aux_loss": 0.04811500422656536,
      "loss/crossentropy": 2.7417452692985536,
      "loss/logits": 0.963932403922081,
      "step": 9550
    },
    {
      "epoch": 0.0956,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.4046223958333333,
      "learning_rate": 0.0003,
      "loss": 12.7335,
      "loss/aux_loss": 0.04812417142093182,
      "loss/crossentropy": 2.8524417519569396,
      "loss/logits": 0.9906006306409836,
      "step": 9560
    },
    {
      "epoch": 0.0957,
      "grad_norm": 10.375,
      "grad_norm_var": 0.7884765625,
      "learning_rate": 0.0003,
      "loss": 12.6479,
      "loss/aux_loss": 0.048113958537578584,
      "loss/crossentropy": 2.860063922405243,
      "loss/logits": 0.9770903497934341,
      "step": 9570
    },
    {
      "epoch": 0.0958,
      "grad_norm": 9.25,
      "grad_norm_var": 0.14869791666666668,
      "learning_rate": 0.0003,
      "loss": 12.97,
      "loss/aux_loss": 0.048113430850207806,
      "loss/crossentropy": 2.7825845539569856,
      "loss/logits": 0.9913632333278656,
      "step": 9580
    },
    {
      "epoch": 0.0959,
      "grad_norm": 10.6875,
      "grad_norm_var": 1.1207682291666667,
      "learning_rate": 0.0003,
      "loss": 13.0485,
      "loss/aux_loss": 0.04811343587934971,
      "loss/crossentropy": 2.7735751450061796,
      "loss/logits": 0.9879475176334381,
      "step": 9590
    },
    {
      "epoch": 0.096,
      "grad_norm": 9.5,
      "grad_norm_var": 1.1030598958333333,
      "learning_rate": 0.0003,
      "loss": 13.0665,
      "loss/aux_loss": 0.048116713762283325,
      "loss/crossentropy": 2.8584636390209197,
      "loss/logits": 0.9740468025207519,
      "step": 9600
    },
    {
      "epoch": 0.0961,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.21712239583333334,
      "learning_rate": 0.0003,
      "loss": 13.0707,
      "loss/aux_loss": 0.04812497589737177,
      "loss/crossentropy": 2.8642295002937317,
      "loss/logits": 1.0438130795955658,
      "step": 9610
    },
    {
      "epoch": 0.0962,
      "grad_norm": 10.375,
      "grad_norm_var": 78.78743489583333,
      "learning_rate": 0.0003,
      "loss": 12.9392,
      "loss/aux_loss": 0.04811538271605968,
      "loss/crossentropy": 2.8932973623275755,
      "loss/logits": 1.0000649869441987,
      "step": 9620
    },
    {
      "epoch": 0.0963,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.401025390625,
      "learning_rate": 0.0003,
      "loss": 12.8071,
      "loss/aux_loss": 0.04812538847327232,
      "loss/crossentropy": 2.641858923435211,
      "loss/logits": 0.9451945751905442,
      "step": 9630
    },
    {
      "epoch": 0.0964,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.15206705729166667,
      "learning_rate": 0.0003,
      "loss": 12.8081,
      "loss/aux_loss": 0.04811387863010168,
      "loss/crossentropy": 2.752705854177475,
      "loss/logits": 0.9918626010417938,
      "step": 9640
    },
    {
      "epoch": 0.0965,
      "grad_norm": 10.75,
      "grad_norm_var": 0.32810872395833335,
      "learning_rate": 0.0003,
      "loss": 12.8976,
      "loss/aux_loss": 0.04811955615878105,
      "loss/crossentropy": 2.823894906044006,
      "loss/logits": 0.9711399942636489,
      "step": 9650
    },
    {
      "epoch": 0.0966,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.3337890625,
      "learning_rate": 0.0003,
      "loss": 12.9509,
      "loss/aux_loss": 0.0481190113350749,
      "loss/crossentropy": 2.993069517612457,
      "loss/logits": 0.9871428191661835,
      "step": 9660
    },
    {
      "epoch": 0.0967,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.5012858072916667,
      "learning_rate": 0.0003,
      "loss": 12.7698,
      "loss/aux_loss": 0.048111490719020364,
      "loss/crossentropy": 2.8160251498222353,
      "loss/logits": 0.9605364561080932,
      "step": 9670
    },
    {
      "epoch": 0.0968,
      "grad_norm": 9.25,
      "grad_norm_var": 0.17667643229166666,
      "learning_rate": 0.0003,
      "loss": 12.8989,
      "loss/aux_loss": 0.04811663068830967,
      "loss/crossentropy": 2.9415274262428284,
      "loss/logits": 0.9684463948011398,
      "step": 9680
    },
    {
      "epoch": 0.0969,
      "grad_norm": 10.5,
      "grad_norm_var": 53.12389322916667,
      "learning_rate": 0.0003,
      "loss": 12.8548,
      "loss/aux_loss": 0.048127869702875616,
      "loss/crossentropy": 2.8381851077079774,
      "loss/logits": 0.9528964549303055,
      "step": 9690
    },
    {
      "epoch": 0.097,
      "grad_norm": 10.625,
      "grad_norm_var": 51.1869140625,
      "learning_rate": 0.0003,
      "loss": 12.8864,
      "loss/aux_loss": 0.04811157062649727,
      "loss/crossentropy": 2.917622911930084,
      "loss/logits": 1.0014064520597459,
      "step": 9700
    },
    {
      "epoch": 0.0971,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.356884765625,
      "learning_rate": 0.0003,
      "loss": 12.97,
      "loss/aux_loss": 0.04812054745852947,
      "loss/crossentropy": 2.870450019836426,
      "loss/logits": 0.990039375424385,
      "step": 9710
    },
    {
      "epoch": 0.0972,
      "grad_norm": 9.75,
      "grad_norm_var": 0.4280598958333333,
      "learning_rate": 0.0003,
      "loss": 12.8376,
      "loss/aux_loss": 0.048113865032792094,
      "loss/crossentropy": 2.947874927520752,
      "loss/logits": 1.01834077835083,
      "step": 9720
    },
    {
      "epoch": 0.0973,
      "grad_norm": 9.75,
      "grad_norm_var": 0.202587890625,
      "learning_rate": 0.0003,
      "loss": 12.6772,
      "loss/aux_loss": 0.04811162706464529,
      "loss/crossentropy": 2.6616825222969056,
      "loss/logits": 0.922445324063301,
      "step": 9730
    },
    {
      "epoch": 0.0974,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.23567708333333334,
      "learning_rate": 0.0003,
      "loss": 12.8276,
      "loss/aux_loss": 0.048115427419543264,
      "loss/crossentropy": 2.8596638798713685,
      "loss/logits": 0.9671652972698211,
      "step": 9740
    },
    {
      "epoch": 0.0975,
      "grad_norm": 9.4375,
      "grad_norm_var": 0.27980143229166665,
      "learning_rate": 0.0003,
      "loss": 12.8823,
      "loss/aux_loss": 0.048122276365756986,
      "loss/crossentropy": 2.9232805013656615,
      "loss/logits": 0.9951166033744812,
      "step": 9750
    },
    {
      "epoch": 0.0976,
      "grad_norm": 9.375,
      "grad_norm_var": 0.2384765625,
      "learning_rate": 0.0003,
      "loss": 12.8269,
      "loss/aux_loss": 0.04811736922711134,
      "loss/crossentropy": 3.0413878917694093,
      "loss/logits": 1.0016505420207977,
      "step": 9760
    },
    {
      "epoch": 0.0977,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.24529622395833334,
      "learning_rate": 0.0003,
      "loss": 12.8884,
      "loss/aux_loss": 0.048109458200633524,
      "loss/crossentropy": 2.893119239807129,
      "loss/logits": 1.0159206092357635,
      "step": 9770
    },
    {
      "epoch": 0.0978,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.20045572916666668,
      "learning_rate": 0.0003,
      "loss": 12.8463,
      "loss/aux_loss": 0.048116378486156464,
      "loss/crossentropy": 3.002572274208069,
      "loss/logits": 1.0260325849056244,
      "step": 9780
    },
    {
      "epoch": 0.0979,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.1884765625,
      "learning_rate": 0.0003,
      "loss": 12.7471,
      "loss/aux_loss": 0.04811564590781927,
      "loss/crossentropy": 2.8663101851940156,
      "loss/logits": 0.945113542675972,
      "step": 9790
    },
    {
      "epoch": 0.098,
      "grad_norm": 9.9375,
      "grad_norm_var": 0.36041666666666666,
      "learning_rate": 0.0003,
      "loss": 13.0079,
      "loss/aux_loss": 0.0481245506554842,
      "loss/crossentropy": 2.7454223036766052,
      "loss/logits": 0.9564665943384171,
      "step": 9800
    },
    {
      "epoch": 0.0981,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.4278645833333333,
      "learning_rate": 0.0003,
      "loss": 12.8525,
      "loss/aux_loss": 0.04811416696757078,
      "loss/crossentropy": 2.8844858169555665,
      "loss/logits": 0.9936564028263092,
      "step": 9810
    },
    {
      "epoch": 0.0982,
      "grad_norm": 9.5,
      "grad_norm_var": 0.221728515625,
      "learning_rate": 0.0003,
      "loss": 12.8522,
      "loss/aux_loss": 0.048113705776631835,
      "loss/crossentropy": 2.937456488609314,
      "loss/logits": 0.9975145667791366,
      "step": 9820
    },
    {
      "epoch": 0.0983,
      "grad_norm": 9.1875,
      "grad_norm_var": 0.23318684895833333,
      "learning_rate": 0.0003,
      "loss": 12.948,
      "loss/aux_loss": 0.04812261760234833,
      "loss/crossentropy": 2.863471287488937,
      "loss/logits": 0.9870826095342636,
      "step": 9830
    },
    {
      "epoch": 0.0984,
      "grad_norm": 9.9375,
      "grad_norm_var": 0.4388020833333333,
      "learning_rate": 0.0003,
      "loss": 12.785,
      "loss/aux_loss": 0.04811761137098074,
      "loss/crossentropy": 2.860468626022339,
      "loss/logits": 0.9974869579076767,
      "step": 9840
    },
    {
      "epoch": 0.0985,
      "grad_norm": 10.875,
      "grad_norm_var": 0.39108072916666664,
      "learning_rate": 0.0003,
      "loss": 12.9577,
      "loss/aux_loss": 0.04811706598848105,
      "loss/crossentropy": 2.8506002187728883,
      "loss/logits": 1.000709992647171,
      "step": 9850
    },
    {
      "epoch": 0.0986,
      "grad_norm": 9.0,
      "grad_norm_var": 0.254931640625,
      "learning_rate": 0.0003,
      "loss": 12.5998,
      "loss/aux_loss": 0.04811438079923391,
      "loss/crossentropy": 2.918227458000183,
      "loss/logits": 0.9769401401281357,
      "step": 9860
    },
    {
      "epoch": 0.0987,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.31295572916666664,
      "learning_rate": 0.0003,
      "loss": 12.979,
      "loss/aux_loss": 0.04811355788260698,
      "loss/crossentropy": 2.909677565097809,
      "loss/logits": 1.0252159029245376,
      "step": 9870
    },
    {
      "epoch": 0.0988,
      "grad_norm": 10.4375,
      "grad_norm_var": 0.2921223958333333,
      "learning_rate": 0.0003,
      "loss": 12.8383,
      "loss/aux_loss": 0.04811448734253645,
      "loss/crossentropy": 2.835783588886261,
      "loss/logits": 1.0406290709972381,
      "step": 9880
    },
    {
      "epoch": 0.0989,
      "grad_norm": 10.1875,
      "grad_norm_var": 1.6822265625,
      "learning_rate": 0.0003,
      "loss": 12.7556,
      "loss/aux_loss": 0.04814105350524187,
      "loss/crossentropy": 2.7648268580436706,
      "loss/logits": 0.9558891981840134,
      "step": 9890
    },
    {
      "epoch": 0.099,
      "grad_norm": 10.4375,
      "grad_norm_var": 1.9072916666666666,
      "learning_rate": 0.0003,
      "loss": 12.7867,
      "loss/aux_loss": 0.04811670910567045,
      "loss/crossentropy": 2.68316650390625,
      "loss/logits": 0.9622927576303482,
      "step": 9900
    },
    {
      "epoch": 0.0991,
      "grad_norm": 10.125,
      "grad_norm_var": 0.46608072916666665,
      "learning_rate": 0.0003,
      "loss": 12.8684,
      "loss/aux_loss": 0.04812458418309688,
      "loss/crossentropy": 2.880593103170395,
      "loss/logits": 0.9721406042575836,
      "step": 9910
    },
    {
      "epoch": 0.0992,
      "grad_norm": 10.5,
      "grad_norm_var": 0.55546875,
      "learning_rate": 0.0003,
      "loss": 12.817,
      "loss/aux_loss": 0.048123272694647314,
      "loss/crossentropy": 2.6709973573684693,
      "loss/logits": 0.9354108065366745,
      "step": 9920
    },
    {
      "epoch": 0.0993,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.395166015625,
      "learning_rate": 0.0003,
      "loss": 12.8799,
      "loss/aux_loss": 0.04812105931341648,
      "loss/crossentropy": 2.934725469350815,
      "loss/logits": 0.9813075840473175,
      "step": 9930
    },
    {
      "epoch": 0.0994,
      "grad_norm": 9.625,
      "grad_norm_var": 0.6903483072916666,
      "learning_rate": 0.0003,
      "loss": 12.903,
      "loss/aux_loss": 0.048118251748383044,
      "loss/crossentropy": 2.8453499555587767,
      "loss/logits": 0.9796870052814484,
      "step": 9940
    },
    {
      "epoch": 0.0995,
      "grad_norm": 14.625,
      "grad_norm_var": 2.387223307291667,
      "learning_rate": 0.0003,
      "loss": 12.8252,
      "loss/aux_loss": 0.048117080517113206,
      "loss/crossentropy": 2.8250075817108153,
      "loss/logits": 0.9736212283372879,
      "step": 9950
    },
    {
      "epoch": 0.0996,
      "grad_norm": 9.875,
      "grad_norm_var": 1.3822265625,
      "learning_rate": 0.0003,
      "loss": 12.6306,
      "loss/aux_loss": 0.04811842925846577,
      "loss/crossentropy": 2.854235601425171,
      "loss/logits": 1.007426416873932,
      "step": 9960
    },
    {
      "epoch": 0.0997,
      "grad_norm": 9.875,
      "grad_norm_var": 0.3648274739583333,
      "learning_rate": 0.0003,
      "loss": 12.6579,
      "loss/aux_loss": 0.04811596740037203,
      "loss/crossentropy": 2.898962616920471,
      "loss/logits": 0.9763563752174378,
      "step": 9970
    },
    {
      "epoch": 0.0998,
      "grad_norm": 10.5,
      "grad_norm_var": 0.172900390625,
      "learning_rate": 0.0003,
      "loss": 12.788,
      "loss/aux_loss": 0.048104763589799406,
      "loss/crossentropy": 2.9158723652362823,
      "loss/logits": 1.0095852971076966,
      "step": 9980
    },
    {
      "epoch": 0.0999,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.2770182291666667,
      "learning_rate": 0.0003,
      "loss": 12.7328,
      "loss/aux_loss": 0.04811613652855158,
      "loss/crossentropy": 2.781576532125473,
      "loss/logits": 1.0038779705762864,
      "step": 9990
    },
    {
      "epoch": 0.1,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.6130208333333333,
      "learning_rate": 0.0003,
      "loss": 12.8425,
      "loss/aux_loss": 0.048115148395299914,
      "loss/crossentropy": 2.7442554593086244,
      "loss/logits": 0.9685165584087372,
      "step": 10000
    },
    {
      "epoch": 0.1001,
      "grad_norm": 10.25,
      "grad_norm_var": 1.0940104166666667,
      "learning_rate": 0.0003,
      "loss": 12.7596,
      "loss/aux_loss": 0.04810796473175287,
      "loss/crossentropy": 2.8970122635364532,
      "loss/logits": 0.9651453495025635,
      "step": 10010
    },
    {
      "epoch": 0.1002,
      "grad_norm": 10.875,
      "grad_norm_var": 0.8113932291666667,
      "learning_rate": 0.0003,
      "loss": 13.0034,
      "loss/aux_loss": 0.048116610012948514,
      "loss/crossentropy": 2.872769057750702,
      "loss/logits": 1.0002406895160676,
      "step": 10020
    },
    {
      "epoch": 0.1003,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.6697265625,
      "learning_rate": 0.0003,
      "loss": 12.7285,
      "loss/aux_loss": 0.04810873456299305,
      "loss/crossentropy": 2.888649785518646,
      "loss/logits": 0.9968151926994324,
      "step": 10030
    },
    {
      "epoch": 0.1004,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.540625,
      "learning_rate": 0.0003,
      "loss": 12.8715,
      "loss/aux_loss": 0.048114927113056184,
      "loss/crossentropy": 2.9668263673782347,
      "loss/logits": 1.0093841701745987,
      "step": 10040
    },
    {
      "epoch": 0.1005,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.202587890625,
      "learning_rate": 0.0003,
      "loss": 12.871,
      "loss/aux_loss": 0.048109718784689906,
      "loss/crossentropy": 2.841026210784912,
      "loss/logits": 0.9876527488231659,
      "step": 10050
    },
    {
      "epoch": 0.1006,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.4266764322916667,
      "learning_rate": 0.0003,
      "loss": 12.7901,
      "loss/aux_loss": 0.04810853134840727,
      "loss/crossentropy": 2.692527735233307,
      "loss/logits": 0.9895975649356842,
      "step": 10060
    },
    {
      "epoch": 0.1007,
      "grad_norm": 9.875,
      "grad_norm_var": 0.4041015625,
      "learning_rate": 0.0003,
      "loss": 12.4866,
      "loss/aux_loss": 0.04811131805181503,
      "loss/crossentropy": 2.908632504940033,
      "loss/logits": 0.9596006900072098,
      "step": 10070
    },
    {
      "epoch": 0.1008,
      "grad_norm": 10.125,
      "grad_norm_var": 0.3046875,
      "learning_rate": 0.0003,
      "loss": 12.7782,
      "loss/aux_loss": 0.04811954293400049,
      "loss/crossentropy": 2.901764976978302,
      "loss/logits": 1.0220121264457702,
      "step": 10080
    },
    {
      "epoch": 0.1009,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.45358072916666664,
      "learning_rate": 0.0003,
      "loss": 12.8296,
      "loss/aux_loss": 0.04812715277075767,
      "loss/crossentropy": 2.7433866381645204,
      "loss/logits": 0.9685066968202591,
      "step": 10090
    },
    {
      "epoch": 0.101,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.4431640625,
      "learning_rate": 0.0003,
      "loss": 12.7263,
      "loss/aux_loss": 0.04812118727713823,
      "loss/crossentropy": 2.9564905166625977,
      "loss/logits": 1.0407138913869858,
      "step": 10100
    },
    {
      "epoch": 0.1011,
      "grad_norm": 11.125,
      "grad_norm_var": 0.3551432291666667,
      "learning_rate": 0.0003,
      "loss": 12.8901,
      "loss/aux_loss": 0.04811162799596787,
      "loss/crossentropy": 2.962075352668762,
      "loss/logits": 1.002569890022278,
      "step": 10110
    },
    {
      "epoch": 0.1012,
      "grad_norm": 9.75,
      "grad_norm_var": 0.42185872395833335,
      "learning_rate": 0.0003,
      "loss": 12.777,
      "loss/aux_loss": 0.04811493325978518,
      "loss/crossentropy": 2.9621083974838256,
      "loss/logits": 1.0220870167016982,
      "step": 10120
    },
    {
      "epoch": 0.1013,
      "grad_norm": 70.5,
      "grad_norm_var": 225.11183268229166,
      "learning_rate": 0.0003,
      "loss": 12.8111,
      "loss/aux_loss": 0.04811273105442524,
      "loss/crossentropy": 2.8190457224845886,
      "loss/logits": 0.9978448241949082,
      "step": 10130
    },
    {
      "epoch": 0.1014,
      "grad_norm": 9.75,
      "grad_norm_var": 225.50514322916666,
      "learning_rate": 0.0003,
      "loss": 12.8321,
      "loss/aux_loss": 0.0481122450903058,
      "loss/crossentropy": 2.7599350273609162,
      "loss/logits": 0.9731186151504516,
      "step": 10140
    },
    {
      "epoch": 0.1015,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.35271809895833334,
      "learning_rate": 0.0003,
      "loss": 12.7794,
      "loss/aux_loss": 0.0481121052056551,
      "loss/crossentropy": 2.918788194656372,
      "loss/logits": 1.0331996023654937,
      "step": 10150
    },
    {
      "epoch": 0.1016,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.2916666666666667,
      "learning_rate": 0.0003,
      "loss": 12.9847,
      "loss/aux_loss": 0.04810354914516211,
      "loss/crossentropy": 2.9620222568511965,
      "loss/logits": 0.9895435065031052,
      "step": 10160
    },
    {
      "epoch": 0.1017,
      "grad_norm": 10.1875,
      "grad_norm_var": 61.03513997395833,
      "learning_rate": 0.0003,
      "loss": 12.905,
      "loss/aux_loss": 0.048123286291956904,
      "loss/crossentropy": 2.8044037401676176,
      "loss/logits": 0.9406631171703339,
      "step": 10170
    },
    {
      "epoch": 0.1018,
      "grad_norm": 10.5,
      "grad_norm_var": 0.23118489583333332,
      "learning_rate": 0.0003,
      "loss": 12.838,
      "loss/aux_loss": 0.04811715167015791,
      "loss/crossentropy": 2.957458180189133,
      "loss/logits": 0.9943399399518966,
      "step": 10180
    },
    {
      "epoch": 0.1019,
      "grad_norm": 12.125,
      "grad_norm_var": 8.0984375,
      "learning_rate": 0.0003,
      "loss": 12.8759,
      "loss/aux_loss": 0.048108558543026446,
      "loss/crossentropy": 2.867668330669403,
      "loss/logits": 0.9879345417022705,
      "step": 10190
    },
    {
      "epoch": 0.102,
      "grad_norm": 10.125,
      "grad_norm_var": 7.892301432291666,
      "learning_rate": 0.0003,
      "loss": 12.9061,
      "loss/aux_loss": 0.04811856150627136,
      "loss/crossentropy": 2.870317333936691,
      "loss/logits": 1.0022278010845185,
      "step": 10200
    },
    {
      "epoch": 0.1021,
      "grad_norm": 10.125,
      "grad_norm_var": 0.1166015625,
      "learning_rate": 0.0003,
      "loss": 12.7326,
      "loss/aux_loss": 0.048116784729063514,
      "loss/crossentropy": 2.678470027446747,
      "loss/logits": 0.9406646758317947,
      "step": 10210
    },
    {
      "epoch": 0.1022,
      "grad_norm": 11.0,
      "grad_norm_var": 1.2061848958333334,
      "learning_rate": 0.0003,
      "loss": 12.7671,
      "loss/aux_loss": 0.04811875224113464,
      "loss/crossentropy": 2.9115442454814913,
      "loss/logits": 0.9856185555458069,
      "step": 10220
    },
    {
      "epoch": 0.1023,
      "grad_norm": 10.3125,
      "grad_norm_var": 2.476676432291667,
      "learning_rate": 0.0003,
      "loss": 12.8463,
      "loss/aux_loss": 0.048114926740527156,
      "loss/crossentropy": 2.987521970272064,
      "loss/logits": 0.9880728483200073,
      "step": 10230
    },
    {
      "epoch": 0.1024,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.4239583333333333,
      "learning_rate": 0.0003,
      "loss": 12.9066,
      "loss/aux_loss": 0.04811114761978388,
      "loss/crossentropy": 2.957077658176422,
      "loss/logits": 1.0159188747406005,
      "step": 10240
    },
    {
      "epoch": 0.1025,
      "grad_norm": 10.25,
      "grad_norm_var": 0.19348958333333333,
      "learning_rate": 0.0003,
      "loss": 12.8744,
      "loss/aux_loss": 0.04811904225498438,
      "loss/crossentropy": 2.9327427983283996,
      "loss/logits": 1.014840191602707,
      "step": 10250
    },
    {
      "epoch": 0.1026,
      "grad_norm": 11.25,
      "grad_norm_var": 26.683854166666666,
      "learning_rate": 0.0003,
      "loss": 12.8864,
      "loss/aux_loss": 0.04811773095279932,
      "loss/crossentropy": 2.9283841848373413,
      "loss/logits": 0.9840510159730911,
      "step": 10260
    },
    {
      "epoch": 0.1027,
      "grad_norm": 9.6875,
      "grad_norm_var": 5.591129557291667,
      "learning_rate": 0.0003,
      "loss": 12.7431,
      "loss/aux_loss": 0.04809635002166033,
      "loss/crossentropy": 2.9701969385147096,
      "loss/logits": 1.00972381234169,
      "step": 10270
    },
    {
      "epoch": 0.1028,
      "grad_norm": 9.875,
      "grad_norm_var": 0.2659993489583333,
      "learning_rate": 0.0003,
      "loss": 12.6803,
      "loss/aux_loss": 0.04810932390391827,
      "loss/crossentropy": 2.9193489074707033,
      "loss/logits": 0.9834885329008103,
      "step": 10280
    },
    {
      "epoch": 0.1029,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.2775390625,
      "learning_rate": 0.0003,
      "loss": 12.8644,
      "loss/aux_loss": 0.048101594857871535,
      "loss/crossentropy": 2.9100057601928713,
      "loss/logits": 0.99757040143013,
      "step": 10290
    },
    {
      "epoch": 0.103,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.3106770833333333,
      "learning_rate": 0.0003,
      "loss": 12.6547,
      "loss/aux_loss": 0.04812427274882793,
      "loss/crossentropy": 2.7211422979831696,
      "loss/logits": 0.9326405107975007,
      "step": 10300
    },
    {
      "epoch": 0.1031,
      "grad_norm": 10.75,
      "grad_norm_var": 0.27029622395833336,
      "learning_rate": 0.0003,
      "loss": 12.9066,
      "loss/aux_loss": 0.04811542592942715,
      "loss/crossentropy": 2.8410415768623354,
      "loss/logits": 0.9540263682603836,
      "step": 10310
    },
    {
      "epoch": 0.1032,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.152587890625,
      "learning_rate": 0.0003,
      "loss": 12.8612,
      "loss/aux_loss": 0.048105557821691035,
      "loss/crossentropy": 2.894010055065155,
      "loss/logits": 0.9962664604187011,
      "step": 10320
    },
    {
      "epoch": 0.1033,
      "grad_norm": 10.625,
      "grad_norm_var": 0.5556640625,
      "learning_rate": 0.0003,
      "loss": 12.7817,
      "loss/aux_loss": 0.04811650700867176,
      "loss/crossentropy": 2.7931331276893614,
      "loss/logits": 0.9934678196907043,
      "step": 10330
    },
    {
      "epoch": 0.1034,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.115087890625,
      "learning_rate": 0.0003,
      "loss": 12.6721,
      "loss/aux_loss": 0.04811523836106062,
      "loss/crossentropy": 2.8752257347106935,
      "loss/logits": 0.9926656931638718,
      "step": 10340
    },
    {
      "epoch": 0.1035,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.208837890625,
      "learning_rate": 0.0003,
      "loss": 12.747,
      "loss/aux_loss": 0.04811122994869947,
      "loss/crossentropy": 2.863996922969818,
      "loss/logits": 0.9837069183588028,
      "step": 10350
    },
    {
      "epoch": 0.1036,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.19959309895833333,
      "learning_rate": 0.0003,
      "loss": 12.7221,
      "loss/aux_loss": 0.048110642656683925,
      "loss/crossentropy": 2.9583349347114565,
      "loss/logits": 0.9609038531780243,
      "step": 10360
    },
    {
      "epoch": 0.1037,
      "grad_norm": 11.625,
      "grad_norm_var": 0.349072265625,
      "learning_rate": 0.0003,
      "loss": 12.8269,
      "loss/aux_loss": 0.04811428822577,
      "loss/crossentropy": 2.875106942653656,
      "loss/logits": 0.9508922189474106,
      "step": 10370
    },
    {
      "epoch": 0.1038,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.5851399739583333,
      "learning_rate": 0.0003,
      "loss": 12.7956,
      "loss/aux_loss": 0.04812815226614475,
      "loss/crossentropy": 2.9032375514507294,
      "loss/logits": 0.9839789032936096,
      "step": 10380
    },
    {
      "epoch": 0.1039,
      "grad_norm": 10.75,
      "grad_norm_var": 25.269124348958332,
      "learning_rate": 0.0003,
      "loss": 12.8725,
      "loss/aux_loss": 0.048113728314638136,
      "loss/crossentropy": 2.811239331960678,
      "loss/logits": 0.9782313734292984,
      "step": 10390
    },
    {
      "epoch": 0.104,
      "grad_norm": 10.8125,
      "grad_norm_var": 25.748811848958333,
      "learning_rate": 0.0003,
      "loss": 12.5987,
      "loss/aux_loss": 0.04810786601155996,
      "loss/crossentropy": 2.8436325669288633,
      "loss/logits": 0.9547698825597764,
      "step": 10400
    },
    {
      "epoch": 0.1041,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.17962239583333334,
      "learning_rate": 0.0003,
      "loss": 12.6758,
      "loss/aux_loss": 0.04811085946857929,
      "loss/crossentropy": 2.827778089046478,
      "loss/logits": 0.9550431787967681,
      "step": 10410
    },
    {
      "epoch": 0.1042,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.919384765625,
      "learning_rate": 0.0003,
      "loss": 12.8482,
      "loss/aux_loss": 0.04811614342033863,
      "loss/crossentropy": 3.0204949617385863,
      "loss/logits": 0.9995712280273438,
      "step": 10420
    },
    {
      "epoch": 0.1043,
      "grad_norm": 10.125,
      "grad_norm_var": 0.5180826822916667,
      "learning_rate": 0.0003,
      "loss": 12.6728,
      "loss/aux_loss": 0.04812094569206238,
      "loss/crossentropy": 3.012200677394867,
      "loss/logits": 0.9757115840911865,
      "step": 10430
    },
    {
      "epoch": 0.1044,
      "grad_norm": 9.75,
      "grad_norm_var": 0.284619140625,
      "learning_rate": 0.0003,
      "loss": 12.7465,
      "loss/aux_loss": 0.0481198638677597,
      "loss/crossentropy": 2.8174231171607973,
      "loss/logits": 0.9774721026420593,
      "step": 10440
    },
    {
      "epoch": 0.1045,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.229931640625,
      "learning_rate": 0.0003,
      "loss": 12.7017,
      "loss/aux_loss": 0.04811002127826214,
      "loss/crossentropy": 2.955516219139099,
      "loss/logits": 0.9981975615024566,
      "step": 10450
    },
    {
      "epoch": 0.1046,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.4632649739583333,
      "learning_rate": 0.0003,
      "loss": 12.8212,
      "loss/aux_loss": 0.048105720058083536,
      "loss/crossentropy": 2.8493134498596193,
      "loss/logits": 1.0022914230823516,
      "step": 10460
    },
    {
      "epoch": 0.1047,
      "grad_norm": 10.4375,
      "grad_norm_var": 17.641145833333333,
      "learning_rate": 0.0003,
      "loss": 12.8144,
      "loss/aux_loss": 0.04811700396239758,
      "loss/crossentropy": 2.865918278694153,
      "loss/logits": 1.011181029677391,
      "step": 10470
    },
    {
      "epoch": 0.1048,
      "grad_norm": 10.5625,
      "grad_norm_var": 1.2333333333333334,
      "learning_rate": 0.0003,
      "loss": 12.7668,
      "loss/aux_loss": 0.048107659071683885,
      "loss/crossentropy": 2.9243461012840273,
      "loss/logits": 1.0033222287893295,
      "step": 10480
    },
    {
      "epoch": 0.1049,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.43645833333333334,
      "learning_rate": 0.0003,
      "loss": 12.7835,
      "loss/aux_loss": 0.04813041500747204,
      "loss/crossentropy": 2.799642193317413,
      "loss/logits": 0.9750822395086288,
      "step": 10490
    },
    {
      "epoch": 0.105,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.3960774739583333,
      "learning_rate": 0.0003,
      "loss": 12.6303,
      "loss/aux_loss": 0.048102636635303495,
      "loss/crossentropy": 2.842100405693054,
      "loss/logits": 0.9673471480607987,
      "step": 10500
    },
    {
      "epoch": 0.1051,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.19264322916666668,
      "learning_rate": 0.0003,
      "loss": 12.64,
      "loss/aux_loss": 0.04811730049550533,
      "loss/crossentropy": 2.735097426176071,
      "loss/logits": 0.953799894452095,
      "step": 10510
    },
    {
      "epoch": 0.1052,
      "grad_norm": 9.5,
      "grad_norm_var": 0.428125,
      "learning_rate": 0.0003,
      "loss": 12.767,
      "loss/aux_loss": 0.04810708742588758,
      "loss/crossentropy": 3.0010022163391112,
      "loss/logits": 1.0266100823879243,
      "step": 10520
    },
    {
      "epoch": 0.1053,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.37083333333333335,
      "learning_rate": 0.0003,
      "loss": 12.6364,
      "loss/aux_loss": 0.04811326451599598,
      "loss/crossentropy": 2.8574136972427366,
      "loss/logits": 0.9649319559335708,
      "step": 10530
    },
    {
      "epoch": 0.1054,
      "grad_norm": 9.75,
      "grad_norm_var": 0.5776041666666667,
      "learning_rate": 0.0003,
      "loss": 12.8414,
      "loss/aux_loss": 0.048117882758378985,
      "loss/crossentropy": 2.8915890574455263,
      "loss/logits": 1.019568595290184,
      "step": 10540
    },
    {
      "epoch": 0.1055,
      "grad_norm": 10.125,
      "grad_norm_var": 0.26027018229166665,
      "learning_rate": 0.0003,
      "loss": 12.6664,
      "loss/aux_loss": 0.04811375327408314,
      "loss/crossentropy": 2.851538288593292,
      "loss/logits": 0.9997588336467743,
      "step": 10550
    },
    {
      "epoch": 0.1056,
      "grad_norm": 10.0,
      "grad_norm_var": 0.20358072916666667,
      "learning_rate": 0.0003,
      "loss": 12.8045,
      "loss/aux_loss": 0.04811806846410036,
      "loss/crossentropy": 2.9150373101234437,
      "loss/logits": 0.9894289702177048,
      "step": 10560
    },
    {
      "epoch": 0.1057,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.12083333333333333,
      "learning_rate": 0.0003,
      "loss": 12.7669,
      "loss/aux_loss": 0.048116890527307984,
      "loss/crossentropy": 2.8022518932819365,
      "loss/logits": 0.9851718157529831,
      "step": 10570
    },
    {
      "epoch": 0.1058,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.23697916666666666,
      "learning_rate": 0.0003,
      "loss": 12.9142,
      "loss/aux_loss": 0.04811734985560179,
      "loss/crossentropy": 2.915334862470627,
      "loss/logits": 1.051106184720993,
      "step": 10580
    },
    {
      "epoch": 0.1059,
      "grad_norm": 9.9375,
      "grad_norm_var": 0.47068684895833335,
      "learning_rate": 0.0003,
      "loss": 12.7202,
      "loss/aux_loss": 0.04810705240815878,
      "loss/crossentropy": 2.683490252494812,
      "loss/logits": 0.9757168561220169,
      "step": 10590
    },
    {
      "epoch": 0.106,
      "grad_norm": 11.625,
      "grad_norm_var": 14.690869140625,
      "learning_rate": 0.0003,
      "loss": 12.9961,
      "loss/aux_loss": 0.04812338836491108,
      "loss/crossentropy": 2.8796960532665254,
      "loss/logits": 1.0100533604621886,
      "step": 10600
    },
    {
      "epoch": 0.1061,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.6958333333333333,
      "learning_rate": 0.0003,
      "loss": 12.6616,
      "loss/aux_loss": 0.04811020065099001,
      "loss/crossentropy": 2.790817213058472,
      "loss/logits": 0.9659003525972366,
      "step": 10610
    },
    {
      "epoch": 0.1062,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.41171875,
      "learning_rate": 0.0003,
      "loss": 12.6359,
      "loss/aux_loss": 0.04811752960085869,
      "loss/crossentropy": 2.971816051006317,
      "loss/logits": 0.9964886039495469,
      "step": 10620
    },
    {
      "epoch": 0.1063,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.350244140625,
      "learning_rate": 0.0003,
      "loss": 12.842,
      "loss/aux_loss": 0.04811201822012663,
      "loss/crossentropy": 2.986808705329895,
      "loss/logits": 0.9862239271402359,
      "step": 10630
    },
    {
      "epoch": 0.1064,
      "grad_norm": 10.5,
      "grad_norm_var": 0.33318684895833334,
      "learning_rate": 0.0003,
      "loss": 12.6619,
      "loss/aux_loss": 0.048111039027571675,
      "loss/crossentropy": 2.8363620817661284,
      "loss/logits": 0.9908882945775985,
      "step": 10640
    },
    {
      "epoch": 0.1065,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.436962890625,
      "learning_rate": 0.0003,
      "loss": 12.5936,
      "loss/aux_loss": 0.04811495747417212,
      "loss/crossentropy": 2.7697442412376403,
      "loss/logits": 0.9236278921365738,
      "step": 10650
    },
    {
      "epoch": 0.1066,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.24451497395833333,
      "learning_rate": 0.0003,
      "loss": 12.8339,
      "loss/aux_loss": 0.04810470268130303,
      "loss/crossentropy": 2.695315259695053,
      "loss/logits": 0.9890154510736465,
      "step": 10660
    },
    {
      "epoch": 0.1067,
      "grad_norm": 10.5,
      "grad_norm_var": 0.371337890625,
      "learning_rate": 0.0003,
      "loss": 12.6645,
      "loss/aux_loss": 0.04811508543789387,
      "loss/crossentropy": 2.8011455297470094,
      "loss/logits": 0.9550657361745835,
      "step": 10670
    },
    {
      "epoch": 0.1068,
      "grad_norm": 10.25,
      "grad_norm_var": 1.6645833333333333,
      "learning_rate": 0.0003,
      "loss": 12.6319,
      "loss/aux_loss": 0.048115532658994195,
      "loss/crossentropy": 2.857553493976593,
      "loss/logits": 0.9820433109998703,
      "step": 10680
    },
    {
      "epoch": 0.1069,
      "grad_norm": 10.8125,
      "grad_norm_var": 1.7983723958333333,
      "learning_rate": 0.0003,
      "loss": 12.742,
      "loss/aux_loss": 0.04811100009828806,
      "loss/crossentropy": 2.743243044614792,
      "loss/logits": 0.9736525624990463,
      "step": 10690
    },
    {
      "epoch": 0.107,
      "grad_norm": 9.625,
      "grad_norm_var": 0.21183268229166666,
      "learning_rate": 0.0003,
      "loss": 12.5406,
      "loss/aux_loss": 0.048111391440033915,
      "loss/crossentropy": 2.8312166213989256,
      "loss/logits": 0.9848694235086441,
      "step": 10700
    },
    {
      "epoch": 0.1071,
      "grad_norm": 11.0,
      "grad_norm_var": 0.32198893229166664,
      "learning_rate": 0.0003,
      "loss": 12.6608,
      "loss/aux_loss": 0.04810557756572962,
      "loss/crossentropy": 2.7473709881305695,
      "loss/logits": 0.9552412897348403,
      "step": 10710
    },
    {
      "epoch": 0.1072,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.30271809895833335,
      "learning_rate": 0.0003,
      "loss": 12.5961,
      "loss/aux_loss": 0.048110843263566495,
      "loss/crossentropy": 2.7141247391700745,
      "loss/logits": 0.9736550092697144,
      "step": 10720
    },
    {
      "epoch": 0.1073,
      "grad_norm": 9.3125,
      "grad_norm_var": 0.1681640625,
      "learning_rate": 0.0003,
      "loss": 12.5023,
      "loss/aux_loss": 0.048104040697216986,
      "loss/crossentropy": 2.6945619106292726,
      "loss/logits": 0.9484582245349884,
      "step": 10730
    },
    {
      "epoch": 0.1074,
      "grad_norm": 10.5,
      "grad_norm_var": 0.28177083333333336,
      "learning_rate": 0.0003,
      "loss": 12.6278,
      "loss/aux_loss": 0.04810405727475882,
      "loss/crossentropy": 2.8070200264453886,
      "loss/logits": 0.9321490287780761,
      "step": 10740
    },
    {
      "epoch": 0.1075,
      "grad_norm": 9.5,
      "grad_norm_var": 0.199853515625,
      "learning_rate": 0.0003,
      "loss": 12.7025,
      "loss/aux_loss": 0.04810698907822371,
      "loss/crossentropy": 2.9952612042427065,
      "loss/logits": 0.9933030098676682,
      "step": 10750
    },
    {
      "epoch": 0.1076,
      "grad_norm": 9.875,
      "grad_norm_var": 0.6831868489583334,
      "learning_rate": 0.0003,
      "loss": 12.6858,
      "loss/aux_loss": 0.048116383515298365,
      "loss/crossentropy": 2.80760772228241,
      "loss/logits": 0.9752837151288987,
      "step": 10760
    },
    {
      "epoch": 0.1077,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.7341145833333333,
      "learning_rate": 0.0003,
      "loss": 12.6131,
      "loss/aux_loss": 0.04810668155550957,
      "loss/crossentropy": 2.941310775279999,
      "loss/logits": 0.9818355232477188,
      "step": 10770
    },
    {
      "epoch": 0.1078,
      "grad_norm": 9.375,
      "grad_norm_var": 0.39264322916666666,
      "learning_rate": 0.0003,
      "loss": 12.5573,
      "loss/aux_loss": 0.048113299161195756,
      "loss/crossentropy": 2.860517716407776,
      "loss/logits": 0.9614722609519959,
      "step": 10780
    },
    {
      "epoch": 0.1079,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.18787434895833333,
      "learning_rate": 0.0003,
      "loss": 12.6124,
      "loss/aux_loss": 0.04811013750731945,
      "loss/crossentropy": 2.760462909936905,
      "loss/logits": 0.9715398788452149,
      "step": 10790
    },
    {
      "epoch": 0.108,
      "grad_norm": 10.75,
      "grad_norm_var": 0.36248372395833334,
      "learning_rate": 0.0003,
      "loss": 12.6471,
      "loss/aux_loss": 0.04810702111572027,
      "loss/crossentropy": 2.9887078046798705,
      "loss/logits": 0.9805259108543396,
      "step": 10800
    },
    {
      "epoch": 0.1081,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.2743326822916667,
      "learning_rate": 0.0003,
      "loss": 12.653,
      "loss/aux_loss": 0.048103836551308635,
      "loss/crossentropy": 2.8864383697509766,
      "loss/logits": 0.9688400447368621,
      "step": 10810
    },
    {
      "epoch": 0.1082,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.5113932291666666,
      "learning_rate": 0.0003,
      "loss": 12.7579,
      "loss/aux_loss": 0.04811310451477766,
      "loss/crossentropy": 2.869203519821167,
      "loss/logits": 0.9728466540575027,
      "step": 10820
    },
    {
      "epoch": 0.1083,
      "grad_norm": 10.125,
      "grad_norm_var": 0.35703125,
      "learning_rate": 0.0003,
      "loss": 12.7857,
      "loss/aux_loss": 0.04811171405017376,
      "loss/crossentropy": 2.8055492877960204,
      "loss/logits": 0.9609241902828216,
      "step": 10830
    },
    {
      "epoch": 0.1084,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.5317708333333333,
      "learning_rate": 0.0003,
      "loss": 12.6272,
      "loss/aux_loss": 0.04810267500579357,
      "loss/crossentropy": 2.8873426795005797,
      "loss/logits": 0.983044245839119,
      "step": 10840
    },
    {
      "epoch": 0.1085,
      "grad_norm": 12.375,
      "grad_norm_var": 1.7999837239583334,
      "learning_rate": 0.0003,
      "loss": 12.5848,
      "loss/aux_loss": 0.0481255043298006,
      "loss/crossentropy": 2.8434741854667664,
      "loss/logits": 0.9674687087535858,
      "step": 10850
    },
    {
      "epoch": 0.1086,
      "grad_norm": 10.875,
      "grad_norm_var": 1.5106608072916667,
      "learning_rate": 0.0003,
      "loss": 12.7505,
      "loss/aux_loss": 0.04811022691428661,
      "loss/crossentropy": 2.7955089688301085,
      "loss/logits": 0.9789073407649994,
      "step": 10860
    },
    {
      "epoch": 0.1087,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.23956705729166666,
      "learning_rate": 0.0003,
      "loss": 12.7856,
      "loss/aux_loss": 0.048125218600034714,
      "loss/crossentropy": 2.7512724816799166,
      "loss/logits": 0.9434742718935013,
      "step": 10870
    },
    {
      "epoch": 0.1088,
      "grad_norm": 10.5,
      "grad_norm_var": 0.4942708333333333,
      "learning_rate": 0.0003,
      "loss": 12.8403,
      "loss/aux_loss": 0.048105237260460856,
      "loss/crossentropy": 3.1708402156829836,
      "loss/logits": 0.9876413464546203,
      "step": 10880
    },
    {
      "epoch": 0.1089,
      "grad_norm": 11.5,
      "grad_norm_var": 0.288525390625,
      "learning_rate": 0.0003,
      "loss": 12.4812,
      "loss/aux_loss": 0.04810988549143076,
      "loss/crossentropy": 2.802176779508591,
      "loss/logits": 0.9748163193464279,
      "step": 10890
    },
    {
      "epoch": 0.109,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.287744140625,
      "learning_rate": 0.0003,
      "loss": 12.5199,
      "loss/aux_loss": 0.04810547549277544,
      "loss/crossentropy": 2.9589218378067015,
      "loss/logits": 0.9759902417659759,
      "step": 10900
    },
    {
      "epoch": 0.1091,
      "grad_norm": 11.25,
      "grad_norm_var": 0.5187337239583333,
      "learning_rate": 0.0003,
      "loss": 12.6455,
      "loss/aux_loss": 0.048122298903763294,
      "loss/crossentropy": 2.7537475407123564,
      "loss/logits": 0.968425664305687,
      "step": 10910
    },
    {
      "epoch": 0.1092,
      "grad_norm": 10.9375,
      "grad_norm_var": 3.849853515625,
      "learning_rate": 0.0003,
      "loss": 12.6097,
      "loss/aux_loss": 0.04810692425817251,
      "loss/crossentropy": 2.87729851603508,
      "loss/logits": 0.988306000828743,
      "step": 10920
    },
    {
      "epoch": 0.1093,
      "grad_norm": 11.625,
      "grad_norm_var": 3.958056640625,
      "learning_rate": 0.0003,
      "loss": 12.4243,
      "loss/aux_loss": 0.04811464417725801,
      "loss/crossentropy": 2.823906672000885,
      "loss/logits": 0.9596776217222214,
      "step": 10930
    },
    {
      "epoch": 0.1094,
      "grad_norm": 10.125,
      "grad_norm_var": 0.39576822916666665,
      "learning_rate": 0.0003,
      "loss": 12.6005,
      "loss/aux_loss": 0.04811041634529829,
      "loss/crossentropy": 2.8116785049438477,
      "loss/logits": 1.0132469624280929,
      "step": 10940
    },
    {
      "epoch": 0.1095,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.43483072916666665,
      "learning_rate": 0.0003,
      "loss": 12.7462,
      "loss/aux_loss": 0.04810987431555987,
      "loss/crossentropy": 2.908396100997925,
      "loss/logits": 1.008555829524994,
      "step": 10950
    },
    {
      "epoch": 0.1096,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.51640625,
      "learning_rate": 0.0003,
      "loss": 12.6827,
      "loss/aux_loss": 0.0481119841337204,
      "loss/crossentropy": 2.865977716445923,
      "loss/logits": 0.969117721915245,
      "step": 10960
    },
    {
      "epoch": 0.1097,
      "grad_norm": 10.4375,
      "grad_norm_var": 0.4945149739583333,
      "learning_rate": 0.0003,
      "loss": 12.5983,
      "loss/aux_loss": 0.048109224624931814,
      "loss/crossentropy": 2.9365819096565247,
      "loss/logits": 0.9682926207780838,
      "step": 10970
    },
    {
      "epoch": 0.1098,
      "grad_norm": 9.875,
      "grad_norm_var": 0.481494140625,
      "learning_rate": 0.0003,
      "loss": 12.6494,
      "loss/aux_loss": 0.048102812469005586,
      "loss/crossentropy": 2.924280512332916,
      "loss/logits": 1.0038185507059096,
      "step": 10980
    },
    {
      "epoch": 0.1099,
      "grad_norm": 11.1875,
      "grad_norm_var": 1.7367024739583334,
      "learning_rate": 0.0003,
      "loss": 12.9254,
      "loss/aux_loss": 0.048106090165674686,
      "loss/crossentropy": 2.9131445050239564,
      "loss/logits": 0.9844058066606521,
      "step": 10990
    },
    {
      "epoch": 0.11,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.44264322916666665,
      "learning_rate": 0.0003,
      "loss": 12.5432,
      "loss/aux_loss": 0.04811704996973276,
      "loss/crossentropy": 2.814534968137741,
      "loss/logits": 0.9921759486198425,
      "step": 11000
    },
    {
      "epoch": 0.1101,
      "grad_norm": 10.5,
      "grad_norm_var": 0.370947265625,
      "learning_rate": 0.0003,
      "loss": 12.7211,
      "loss/aux_loss": 0.048108032904565334,
      "loss/crossentropy": 2.7905489981174467,
      "loss/logits": 0.9878934472799301,
      "step": 11010
    },
    {
      "epoch": 0.1102,
      "grad_norm": 11.8125,
      "grad_norm_var": 9.125895182291666,
      "learning_rate": 0.0003,
      "loss": 12.6461,
      "loss/aux_loss": 0.048117210157215595,
      "loss/crossentropy": 2.8903677582740785,
      "loss/logits": 0.9732258021831512,
      "step": 11020
    },
    {
      "epoch": 0.1103,
      "grad_norm": 9.1875,
      "grad_norm_var": 9.377197265625,
      "learning_rate": 0.0003,
      "loss": 12.6081,
      "loss/aux_loss": 0.04811104368418455,
      "loss/crossentropy": 2.719060683250427,
      "loss/logits": 0.9554944217205048,
      "step": 11030
    },
    {
      "epoch": 0.1104,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.5860514322916667,
      "learning_rate": 0.0003,
      "loss": 12.7441,
      "loss/aux_loss": 0.04811680149286986,
      "loss/crossentropy": 2.81855326294899,
      "loss/logits": 0.976987361907959,
      "step": 11040
    },
    {
      "epoch": 0.1105,
      "grad_norm": 9.625,
      "grad_norm_var": 0.6400390625,
      "learning_rate": 0.0003,
      "loss": 12.6213,
      "loss/aux_loss": 0.0481078302487731,
      "loss/crossentropy": 2.97838671207428,
      "loss/logits": 0.9554787337779999,
      "step": 11050
    },
    {
      "epoch": 0.1106,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.20818684895833334,
      "learning_rate": 0.0003,
      "loss": 12.5692,
      "loss/aux_loss": 0.04810439124703407,
      "loss/crossentropy": 2.821098101139069,
      "loss/logits": 0.9252155363559723,
      "step": 11060
    },
    {
      "epoch": 0.1107,
      "grad_norm": 10.0625,
      "grad_norm_var": 1.1117024739583334,
      "learning_rate": 0.0003,
      "loss": 12.6105,
      "loss/aux_loss": 0.048108091577887535,
      "loss/crossentropy": 2.782370573282242,
      "loss/logits": 0.9402445912361145,
      "step": 11070
    },
    {
      "epoch": 0.1108,
      "grad_norm": 10.875,
      "grad_norm_var": 0.4554524739583333,
      "learning_rate": 0.0003,
      "loss": 12.7023,
      "loss/aux_loss": 0.04811048619449139,
      "loss/crossentropy": 2.903420704603195,
      "loss/logits": 1.0490208446979523,
      "step": 11080
    },
    {
      "epoch": 0.1109,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.378369140625,
      "learning_rate": 0.0003,
      "loss": 12.529,
      "loss/aux_loss": 0.04811018593609333,
      "loss/crossentropy": 2.9194815278053285,
      "loss/logits": 1.0058273494243621,
      "step": 11090
    },
    {
      "epoch": 0.111,
      "grad_norm": 11.625,
      "grad_norm_var": 0.28587239583333335,
      "learning_rate": 0.0003,
      "loss": 12.6302,
      "loss/aux_loss": 0.04811076112091541,
      "loss/crossentropy": 2.787671518325806,
      "loss/logits": 0.9877743035554886,
      "step": 11100
    },
    {
      "epoch": 0.1111,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.23982747395833334,
      "learning_rate": 0.0003,
      "loss": 12.7033,
      "loss/aux_loss": 0.04810548275709152,
      "loss/crossentropy": 2.9209081172943114,
      "loss/logits": 1.001340913772583,
      "step": 11110
    },
    {
      "epoch": 0.1112,
      "grad_norm": 9.25,
      "grad_norm_var": 0.25677083333333334,
      "learning_rate": 0.0003,
      "loss": 12.6145,
      "loss/aux_loss": 0.04811436515301466,
      "loss/crossentropy": 2.8942541658878325,
      "loss/logits": 0.9485535502433777,
      "step": 11120
    },
    {
      "epoch": 0.1113,
      "grad_norm": 9.875,
      "grad_norm_var": 0.2587890625,
      "learning_rate": 0.0003,
      "loss": 12.5613,
      "loss/aux_loss": 0.048104191198945045,
      "loss/crossentropy": 2.803705060482025,
      "loss/logits": 0.9647155731916428,
      "step": 11130
    },
    {
      "epoch": 0.1114,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.25729166666666664,
      "learning_rate": 0.0003,
      "loss": 12.5791,
      "loss/aux_loss": 0.04812238048762083,
      "loss/crossentropy": 2.862819027900696,
      "loss/logits": 0.9601949125528335,
      "step": 11140
    },
    {
      "epoch": 0.1115,
      "grad_norm": 11.125,
      "grad_norm_var": 0.23370768229166666,
      "learning_rate": 0.0003,
      "loss": 12.5839,
      "loss/aux_loss": 0.04810948688536883,
      "loss/crossentropy": 2.8555395185947416,
      "loss/logits": 0.9564761400222779,
      "step": 11150
    },
    {
      "epoch": 0.1116,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.2872233072916667,
      "learning_rate": 0.0003,
      "loss": 12.6588,
      "loss/aux_loss": 0.0481093930080533,
      "loss/crossentropy": 2.9155186653137206,
      "loss/logits": 0.9658820390701294,
      "step": 11160
    },
    {
      "epoch": 0.1117,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.20045572916666668,
      "learning_rate": 0.0003,
      "loss": 12.777,
      "loss/aux_loss": 0.048106205835938456,
      "loss/crossentropy": 2.8000992953777315,
      "loss/logits": 0.9923090279102326,
      "step": 11170
    },
    {
      "epoch": 0.1118,
      "grad_norm": 11.75,
      "grad_norm_var": 0.3815104166666667,
      "learning_rate": 0.0003,
      "loss": 12.6665,
      "loss/aux_loss": 0.048104862496256826,
      "loss/crossentropy": 2.849539339542389,
      "loss/logits": 0.973883080482483,
      "step": 11180
    },
    {
      "epoch": 0.1119,
      "grad_norm": 10.625,
      "grad_norm_var": 0.39739583333333334,
      "learning_rate": 0.0003,
      "loss": 12.4681,
      "loss/aux_loss": 0.048110177554190156,
      "loss/crossentropy": 2.8586711943149568,
      "loss/logits": 1.001354029774666,
      "step": 11190
    },
    {
      "epoch": 0.112,
      "grad_norm": 19.0,
      "grad_norm_var": 5.034358723958333,
      "learning_rate": 0.0003,
      "loss": 12.638,
      "loss/aux_loss": 0.04811324365437031,
      "loss/crossentropy": 2.8593406438827516,
      "loss/logits": 0.9571125656366348,
      "step": 11200
    },
    {
      "epoch": 0.1121,
      "grad_norm": 10.4375,
      "grad_norm_var": 4.9947265625,
      "learning_rate": 0.0003,
      "loss": 12.5001,
      "loss/aux_loss": 0.04811281282454729,
      "loss/crossentropy": 3.0845739006996156,
      "loss/logits": 0.9708561331033707,
      "step": 11210
    },
    {
      "epoch": 0.1122,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.21243489583333333,
      "learning_rate": 0.0003,
      "loss": 12.6438,
      "loss/aux_loss": 0.04810171201825142,
      "loss/crossentropy": 2.9789989948272706,
      "loss/logits": 0.9724924474954605,
      "step": 11220
    },
    {
      "epoch": 0.1123,
      "grad_norm": 10.625,
      "grad_norm_var": 0.251416015625,
      "learning_rate": 0.0003,
      "loss": 12.8096,
      "loss/aux_loss": 0.04811390731483698,
      "loss/crossentropy": 2.897776019573212,
      "loss/logits": 1.0156351894140243,
      "step": 11230
    },
    {
      "epoch": 0.1124,
      "grad_norm": 10.6875,
      "grad_norm_var": 1.221337890625,
      "learning_rate": 0.0003,
      "loss": 12.5675,
      "loss/aux_loss": 0.04811619278043509,
      "loss/crossentropy": 2.7954994082450866,
      "loss/logits": 0.9756214946508408,
      "step": 11240
    },
    {
      "epoch": 0.1125,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.25983072916666666,
      "learning_rate": 0.0003,
      "loss": 12.5928,
      "loss/aux_loss": 0.04811410661786795,
      "loss/crossentropy": 2.7457215189933777,
      "loss/logits": 0.9541913717985153,
      "step": 11250
    },
    {
      "epoch": 0.1126,
      "grad_norm": 10.5,
      "grad_norm_var": 0.23084309895833333,
      "learning_rate": 0.0003,
      "loss": 12.634,
      "loss/aux_loss": 0.0481100007891655,
      "loss/crossentropy": 2.8804012298583985,
      "loss/logits": 0.9697092175483704,
      "step": 11260
    },
    {
      "epoch": 0.1127,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.7613118489583334,
      "learning_rate": 0.0003,
      "loss": 12.5108,
      "loss/aux_loss": 0.04810825977474451,
      "loss/crossentropy": 2.989805257320404,
      "loss/logits": 1.0063245952129365,
      "step": 11270
    },
    {
      "epoch": 0.1128,
      "grad_norm": 10.75,
      "grad_norm_var": 5.937483723958334,
      "learning_rate": 0.0003,
      "loss": 12.7367,
      "loss/aux_loss": 0.048129872791469096,
      "loss/crossentropy": 2.910978400707245,
      "loss/logits": 0.9753200441598893,
      "step": 11280
    },
    {
      "epoch": 0.1129,
      "grad_norm": 10.25,
      "grad_norm_var": 0.63359375,
      "learning_rate": 0.0003,
      "loss": 12.6325,
      "loss/aux_loss": 0.048113250732421876,
      "loss/crossentropy": 2.76353098154068,
      "loss/logits": 0.966698682308197,
      "step": 11290
    },
    {
      "epoch": 0.113,
      "grad_norm": 9.9375,
      "grad_norm_var": 0.629931640625,
      "learning_rate": 0.0003,
      "loss": 12.5728,
      "loss/aux_loss": 0.04810833781957626,
      "loss/crossentropy": 2.8197692394256593,
      "loss/logits": 0.9561370402574539,
      "step": 11300
    },
    {
      "epoch": 0.1131,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.20364583333333333,
      "learning_rate": 0.0003,
      "loss": 12.8143,
      "loss/aux_loss": 0.04810529686510563,
      "loss/crossentropy": 2.8484480023384093,
      "loss/logits": 0.9861988663673401,
      "step": 11310
    },
    {
      "epoch": 0.1132,
      "grad_norm": 10.75,
      "grad_norm_var": 0.278369140625,
      "learning_rate": 0.0003,
      "loss": 12.6227,
      "loss/aux_loss": 0.04811426196247339,
      "loss/crossentropy": 2.833006477355957,
      "loss/logits": 0.9779454618692398,
      "step": 11320
    },
    {
      "epoch": 0.1133,
      "grad_norm": 15.25,
      "grad_norm_var": 1.6007649739583334,
      "learning_rate": 0.0003,
      "loss": 12.369,
      "loss/aux_loss": 0.048116072081029415,
      "loss/crossentropy": 2.728998416662216,
      "loss/logits": 0.9195287644863128,
      "step": 11330
    },
    {
      "epoch": 0.1134,
      "grad_norm": 10.3125,
      "grad_norm_var": 1.529931640625,
      "learning_rate": 0.0003,
      "loss": 12.6997,
      "loss/aux_loss": 0.04811266250908375,
      "loss/crossentropy": 2.7394905209541323,
      "loss/logits": 0.9578628540039062,
      "step": 11340
    },
    {
      "epoch": 0.1135,
      "grad_norm": 10.125,
      "grad_norm_var": 0.7983723958333333,
      "learning_rate": 0.0003,
      "loss": 12.4926,
      "loss/aux_loss": 0.04810461904853582,
      "loss/crossentropy": 2.8682806730270385,
      "loss/logits": 1.0078667521476745,
      "step": 11350
    },
    {
      "epoch": 0.1136,
      "grad_norm": 9.625,
      "grad_norm_var": 0.842431640625,
      "learning_rate": 0.0003,
      "loss": 12.688,
      "loss/aux_loss": 0.0481068329885602,
      "loss/crossentropy": 2.8801401615142823,
      "loss/logits": 0.9915682733058929,
      "step": 11360
    },
    {
      "epoch": 0.1137,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.3640625,
      "learning_rate": 0.0003,
      "loss": 12.449,
      "loss/aux_loss": 0.048105799593031406,
      "loss/crossentropy": 2.9282567858695985,
      "loss/logits": 0.9672238737344742,
      "step": 11370
    },
    {
      "epoch": 0.1138,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.28274739583333336,
      "learning_rate": 0.0003,
      "loss": 12.5677,
      "loss/aux_loss": 0.04810627568513155,
      "loss/crossentropy": 2.8078087627887727,
      "loss/logits": 0.9780084967613221,
      "step": 11380
    },
    {
      "epoch": 0.1139,
      "grad_norm": 10.875,
      "grad_norm_var": 3.143684895833333,
      "learning_rate": 0.0003,
      "loss": 12.5506,
      "loss/aux_loss": 0.048108652047812936,
      "loss/crossentropy": 2.987882399559021,
      "loss/logits": 0.972921484708786,
      "step": 11390
    },
    {
      "epoch": 0.114,
      "grad_norm": 10.1875,
      "grad_norm_var": 2.8686848958333333,
      "learning_rate": 0.0003,
      "loss": 12.6501,
      "loss/aux_loss": 0.04810910746455192,
      "loss/crossentropy": 3.1420127391815185,
      "loss/logits": 1.0203659981489182,
      "step": 11400
    },
    {
      "epoch": 0.1141,
      "grad_norm": 11.25,
      "grad_norm_var": 0.37265625,
      "learning_rate": 0.0003,
      "loss": 12.6042,
      "loss/aux_loss": 0.04811469428241253,
      "loss/crossentropy": 2.939081585407257,
      "loss/logits": 0.9754122138023377,
      "step": 11410
    },
    {
      "epoch": 0.1142,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.5501139322916667,
      "learning_rate": 0.0003,
      "loss": 12.4749,
      "loss/aux_loss": 0.048111149854958055,
      "loss/crossentropy": 2.8218182921409607,
      "loss/logits": 0.9850091069936753,
      "step": 11420
    },
    {
      "epoch": 0.1143,
      "grad_norm": 9.625,
      "grad_norm_var": 0.5001139322916667,
      "learning_rate": 0.0003,
      "loss": 12.7164,
      "loss/aux_loss": 0.04811033252626658,
      "loss/crossentropy": 2.908424949645996,
      "loss/logits": 0.9455067425966263,
      "step": 11430
    },
    {
      "epoch": 0.1144,
      "grad_norm": 10.625,
      "grad_norm_var": 0.8135416666666667,
      "learning_rate": 0.0003,
      "loss": 12.617,
      "loss/aux_loss": 0.04811215177178383,
      "loss/crossentropy": 2.83238645195961,
      "loss/logits": 0.9909904628992081,
      "step": 11440
    },
    {
      "epoch": 0.1145,
      "grad_norm": 10.625,
      "grad_norm_var": 75.9525390625,
      "learning_rate": 0.0003,
      "loss": 12.631,
      "loss/aux_loss": 0.04813397005200386,
      "loss/crossentropy": 2.8597318053245546,
      "loss/logits": 0.9930762708187103,
      "step": 11450
    },
    {
      "epoch": 0.1146,
      "grad_norm": 9.0625,
      "grad_norm_var": 0.27076822916666665,
      "learning_rate": 0.0003,
      "loss": 12.7103,
      "loss/aux_loss": 0.04811841379851103,
      "loss/crossentropy": 2.7436058163642882,
      "loss/logits": 0.9644762337207794,
      "step": 11460
    },
    {
      "epoch": 0.1147,
      "grad_norm": 9.9375,
      "grad_norm_var": 0.5945149739583333,
      "learning_rate": 0.0003,
      "loss": 12.7142,
      "loss/aux_loss": 0.04810911137610674,
      "loss/crossentropy": 2.85939040184021,
      "loss/logits": 0.9520360499620437,
      "step": 11470
    },
    {
      "epoch": 0.1148,
      "grad_norm": 10.5,
      "grad_norm_var": 0.4886555989583333,
      "learning_rate": 0.0003,
      "loss": 12.5397,
      "loss/aux_loss": 0.04810511395335197,
      "loss/crossentropy": 2.976986992359161,
      "loss/logits": 0.9621847212314606,
      "step": 11480
    },
    {
      "epoch": 0.1149,
      "grad_norm": 10.25,
      "grad_norm_var": 0.429150390625,
      "learning_rate": 0.0003,
      "loss": 12.3119,
      "loss/aux_loss": 0.048113946430385114,
      "loss/crossentropy": 2.851515471935272,
      "loss/logits": 0.9701724350452423,
      "step": 11490
    },
    {
      "epoch": 0.115,
      "grad_norm": 10.875,
      "grad_norm_var": 0.6905598958333333,
      "learning_rate": 0.0003,
      "loss": 12.5609,
      "loss/aux_loss": 0.048105195350945,
      "loss/crossentropy": 2.8894742131233215,
      "loss/logits": 0.9788044720888138,
      "step": 11500
    },
    {
      "epoch": 0.1151,
      "grad_norm": 10.25,
      "grad_norm_var": 0.508837890625,
      "learning_rate": 0.0003,
      "loss": 12.6204,
      "loss/aux_loss": 0.04811161942780018,
      "loss/crossentropy": 2.7808387517929076,
      "loss/logits": 0.9664526283740997,
      "step": 11510
    },
    {
      "epoch": 0.1152,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.2964680989583333,
      "learning_rate": 0.0003,
      "loss": 12.5533,
      "loss/aux_loss": 0.048106780648231505,
      "loss/crossentropy": 3.0173611760139467,
      "loss/logits": 0.9817897409200669,
      "step": 11520
    },
    {
      "epoch": 0.1153,
      "grad_norm": 12.375,
      "grad_norm_var": 0.4494140625,
      "learning_rate": 0.0003,
      "loss": 12.7684,
      "loss/aux_loss": 0.04811464920639992,
      "loss/crossentropy": 2.9131483495235444,
      "loss/logits": 0.9585329800844192,
      "step": 11530
    },
    {
      "epoch": 0.1154,
      "grad_norm": 10.75,
      "grad_norm_var": 0.5989420572916667,
      "learning_rate": 0.0003,
      "loss": 12.5183,
      "loss/aux_loss": 0.04811756443232298,
      "loss/crossentropy": 2.868135905265808,
      "loss/logits": 0.9498421907424927,
      "step": 11540
    },
    {
      "epoch": 0.1155,
      "grad_norm": 10.4375,
      "grad_norm_var": 0.6488932291666667,
      "learning_rate": 0.0003,
      "loss": 12.5642,
      "loss/aux_loss": 0.0480995262041688,
      "loss/crossentropy": 2.7917768478393556,
      "loss/logits": 0.9568525284528733,
      "step": 11550
    },
    {
      "epoch": 0.1156,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.334228515625,
      "learning_rate": 0.0003,
      "loss": 12.4884,
      "loss/aux_loss": 0.04810049049556255,
      "loss/crossentropy": 2.9180258393287657,
      "loss/logits": 0.98627108335495,
      "step": 11560
    },
    {
      "epoch": 0.1157,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.5395833333333333,
      "learning_rate": 0.0003,
      "loss": 12.627,
      "loss/aux_loss": 0.0481100594624877,
      "loss/crossentropy": 2.81765558719635,
      "loss/logits": 0.9568387240171432,
      "step": 11570
    },
    {
      "epoch": 0.1158,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.17472330729166666,
      "learning_rate": 0.0003,
      "loss": 12.7317,
      "loss/aux_loss": 0.04811111558228731,
      "loss/crossentropy": 2.8285086691379546,
      "loss/logits": 0.9868262588977814,
      "step": 11580
    },
    {
      "epoch": 0.1159,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.332666015625,
      "learning_rate": 0.0003,
      "loss": 12.3661,
      "loss/aux_loss": 0.04810287747532129,
      "loss/crossentropy": 2.7959317326545716,
      "loss/logits": 0.9438671588897705,
      "step": 11590
    },
    {
      "epoch": 0.116,
      "grad_norm": 11.0,
      "grad_norm_var": 0.46013997395833334,
      "learning_rate": 0.0003,
      "loss": 12.5853,
      "loss/aux_loss": 0.04810447972267866,
      "loss/crossentropy": 2.96794798374176,
      "loss/logits": 0.9699487566947937,
      "step": 11600
    },
    {
      "epoch": 0.1161,
      "grad_norm": 9.9375,
      "grad_norm_var": 0.2872233072916667,
      "learning_rate": 0.0003,
      "loss": 12.5827,
      "loss/aux_loss": 0.04810726400464773,
      "loss/crossentropy": 2.7267133831977843,
      "loss/logits": 0.9387221932411194,
      "step": 11610
    },
    {
      "epoch": 0.1162,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.2567057291666667,
      "learning_rate": 0.0003,
      "loss": 12.621,
      "loss/aux_loss": 0.04810353182256222,
      "loss/crossentropy": 2.8360018610954283,
      "loss/logits": 0.9253288894891739,
      "step": 11620
    },
    {
      "epoch": 0.1163,
      "grad_norm": 11.25,
      "grad_norm_var": 0.2911295572916667,
      "learning_rate": 0.0003,
      "loss": 12.5106,
      "loss/aux_loss": 0.048119408451020716,
      "loss/crossentropy": 2.794688510894775,
      "loss/logits": 0.9578901708126069,
      "step": 11630
    },
    {
      "epoch": 0.1164,
      "grad_norm": 11.375,
      "grad_norm_var": 0.43722330729166664,
      "learning_rate": 0.0003,
      "loss": 12.6836,
      "loss/aux_loss": 0.04810473546385765,
      "loss/crossentropy": 2.8710934042930605,
      "loss/logits": 0.9788650065660477,
      "step": 11640
    },
    {
      "epoch": 0.1165,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.3859375,
      "learning_rate": 0.0003,
      "loss": 12.6164,
      "loss/aux_loss": 0.04809908457100391,
      "loss/crossentropy": 2.807088649272919,
      "loss/logits": 0.9633297890424728,
      "step": 11650
    },
    {
      "epoch": 0.1166,
      "grad_norm": 9.6875,
      "grad_norm_var": 0.3400390625,
      "learning_rate": 0.0003,
      "loss": 12.648,
      "loss/aux_loss": 0.04809819832444191,
      "loss/crossentropy": 2.9749920845031737,
      "loss/logits": 1.0201595097780227,
      "step": 11660
    },
    {
      "epoch": 0.1167,
      "grad_norm": 11.875,
      "grad_norm_var": 2.988785807291667,
      "learning_rate": 0.0003,
      "loss": 12.4478,
      "loss/aux_loss": 0.04812034796923399,
      "loss/crossentropy": 2.62253178358078,
      "loss/logits": 0.9186932921409607,
      "step": 11670
    },
    {
      "epoch": 0.1168,
      "grad_norm": 11.9375,
      "grad_norm_var": 12.179622395833333,
      "learning_rate": 0.0003,
      "loss": 12.4319,
      "loss/aux_loss": 0.04812979437410832,
      "loss/crossentropy": 2.857901084423065,
      "loss/logits": 0.9803258359432221,
      "step": 11680
    },
    {
      "epoch": 0.1169,
      "grad_norm": 11.1875,
      "grad_norm_var": 12.487353515625,
      "learning_rate": 0.0003,
      "loss": 12.792,
      "loss/aux_loss": 0.04811025280505419,
      "loss/crossentropy": 2.872191935777664,
      "loss/logits": 0.9423937231302262,
      "step": 11690
    },
    {
      "epoch": 0.117,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.14036458333333332,
      "learning_rate": 0.0003,
      "loss": 12.5762,
      "loss/aux_loss": 0.04811386782675982,
      "loss/crossentropy": 2.741291904449463,
      "loss/logits": 0.9453139632940293,
      "step": 11700
    },
    {
      "epoch": 0.1171,
      "grad_norm": 10.75,
      "grad_norm_var": 0.21795247395833334,
      "learning_rate": 0.0003,
      "loss": 12.3318,
      "loss/aux_loss": 0.04810644257813692,
      "loss/crossentropy": 2.9782674610614777,
      "loss/logits": 0.9474372059106827,
      "step": 11710
    },
    {
      "epoch": 0.1172,
      "grad_norm": 9.9375,
      "grad_norm_var": 0.3042805989583333,
      "learning_rate": 0.0003,
      "loss": 12.6985,
      "loss/aux_loss": 0.04810058567672968,
      "loss/crossentropy": 2.759519326686859,
      "loss/logits": 1.003102535009384,
      "step": 11720
    },
    {
      "epoch": 0.1173,
      "grad_norm": 10.5625,
      "grad_norm_var": 2.947379557291667,
      "learning_rate": 0.0003,
      "loss": 12.5665,
      "loss/aux_loss": 0.04811586532741785,
      "loss/crossentropy": 2.885226249694824,
      "loss/logits": 0.9729419648647308,
      "step": 11730
    },
    {
      "epoch": 0.1174,
      "grad_norm": 10.9375,
      "grad_norm_var": 2.6150390625,
      "learning_rate": 0.0003,
      "loss": 12.5392,
      "loss/aux_loss": 0.04810945596545935,
      "loss/crossentropy": 2.859631586074829,
      "loss/logits": 0.9514502733945847,
      "step": 11740
    },
    {
      "epoch": 0.1175,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.47701822916666664,
      "learning_rate": 0.0003,
      "loss": 12.6717,
      "loss/aux_loss": 0.048104429990053175,
      "loss/crossentropy": 2.885056400299072,
      "loss/logits": 0.9942733883857727,
      "step": 11750
    },
    {
      "epoch": 0.1176,
      "grad_norm": 10.5,
      "grad_norm_var": 0.6020182291666667,
      "learning_rate": 0.0003,
      "loss": 12.6648,
      "loss/aux_loss": 0.04809593297541141,
      "loss/crossentropy": 2.9696100473403932,
      "loss/logits": 0.9882340937852859,
      "step": 11760
    },
    {
      "epoch": 0.1177,
      "grad_norm": 11.125,
      "grad_norm_var": 0.21451822916666666,
      "learning_rate": 0.0003,
      "loss": 12.4929,
      "loss/aux_loss": 0.04809958972036839,
      "loss/crossentropy": 2.844915008544922,
      "loss/logits": 0.983967337012291,
      "step": 11770
    },
    {
      "epoch": 0.1178,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.245556640625,
      "learning_rate": 0.0003,
      "loss": 12.4835,
      "loss/aux_loss": 0.048105498775839806,
      "loss/crossentropy": 2.9103447675704954,
      "loss/logits": 0.9672578752040863,
      "step": 11780
    },
    {
      "epoch": 0.1179,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.106884765625,
      "learning_rate": 0.0003,
      "loss": 12.599,
      "loss/aux_loss": 0.04810230545699597,
      "loss/crossentropy": 2.8057246923446657,
      "loss/logits": 0.9675930976867676,
      "step": 11790
    },
    {
      "epoch": 0.118,
      "grad_norm": 11.25,
      "grad_norm_var": 0.14348958333333334,
      "learning_rate": 0.0003,
      "loss": 12.4241,
      "loss/aux_loss": 0.04811300784349441,
      "loss/crossentropy": 2.794022238254547,
      "loss/logits": 0.9394135266542435,
      "step": 11800
    },
    {
      "epoch": 0.1181,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.31197916666666664,
      "learning_rate": 0.0003,
      "loss": 12.5517,
      "loss/aux_loss": 0.04811709113419056,
      "loss/crossentropy": 2.727192759513855,
      "loss/logits": 0.9235861957073211,
      "step": 11810
    },
    {
      "epoch": 0.1182,
      "grad_norm": 10.75,
      "grad_norm_var": 0.4572265625,
      "learning_rate": 0.0003,
      "loss": 12.4864,
      "loss/aux_loss": 0.048109428584575654,
      "loss/crossentropy": 2.7515438914299013,
      "loss/logits": 0.9708627730607986,
      "step": 11820
    },
    {
      "epoch": 0.1183,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.426025390625,
      "learning_rate": 0.0003,
      "loss": 12.4548,
      "loss/aux_loss": 0.04810903538018465,
      "loss/crossentropy": 2.889864444732666,
      "loss/logits": 0.9854389071464539,
      "step": 11830
    },
    {
      "epoch": 0.1184,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.20703125,
      "learning_rate": 0.0003,
      "loss": 12.6243,
      "loss/aux_loss": 0.04810080174356699,
      "loss/crossentropy": 2.85439276099205,
      "loss/logits": 0.9542811691761017,
      "step": 11840
    },
    {
      "epoch": 0.1185,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.21979166666666666,
      "learning_rate": 0.0003,
      "loss": 12.6767,
      "loss/aux_loss": 0.048108363337814805,
      "loss/crossentropy": 2.8335661768913267,
      "loss/logits": 0.9943309754133225,
      "step": 11850
    },
    {
      "epoch": 0.1186,
      "grad_norm": 10.3125,
      "grad_norm_var": 34.180843098958334,
      "learning_rate": 0.0003,
      "loss": 12.4189,
      "loss/aux_loss": 0.048121347464621066,
      "loss/crossentropy": 2.8601845264434815,
      "loss/logits": 0.9276136964559555,
      "step": 11860
    },
    {
      "epoch": 0.1187,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.24295247395833333,
      "learning_rate": 0.0003,
      "loss": 12.5005,
      "loss/aux_loss": 0.04811071082949638,
      "loss/crossentropy": 2.7520765900611877,
      "loss/logits": 0.9491381376981736,
      "step": 11870
    },
    {
      "epoch": 0.1188,
      "grad_norm": 10.0,
      "grad_norm_var": 0.1697265625,
      "learning_rate": 0.0003,
      "loss": 12.5049,
      "loss/aux_loss": 0.048104492016136646,
      "loss/crossentropy": 3.0041671991348267,
      "loss/logits": 1.0042832434177398,
      "step": 11880
    },
    {
      "epoch": 0.1189,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.12849934895833334,
      "learning_rate": 0.0003,
      "loss": 12.5701,
      "loss/aux_loss": 0.048117601312696934,
      "loss/crossentropy": 2.745959347486496,
      "loss/logits": 0.9276633858680725,
      "step": 11890
    },
    {
      "epoch": 0.119,
      "grad_norm": 10.125,
      "grad_norm_var": 0.20514322916666666,
      "learning_rate": 0.0003,
      "loss": 12.4645,
      "loss/aux_loss": 0.04810411240905523,
      "loss/crossentropy": 2.842986249923706,
      "loss/logits": 0.9896512359380722,
      "step": 11900
    },
    {
      "epoch": 0.1191,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.43463541666666666,
      "learning_rate": 0.0003,
      "loss": 12.5719,
      "loss/aux_loss": 0.04811199139803648,
      "loss/crossentropy": 2.7681937336921694,
      "loss/logits": 0.9506595671176911,
      "step": 11910
    },
    {
      "epoch": 0.1192,
      "grad_norm": 11.375,
      "grad_norm_var": 0.27263997395833334,
      "learning_rate": 0.0003,
      "loss": 12.6075,
      "loss/aux_loss": 0.04810190089046955,
      "loss/crossentropy": 2.9162669658660887,
      "loss/logits": 0.9811139643192291,
      "step": 11920
    },
    {
      "epoch": 0.1193,
      "grad_norm": 10.625,
      "grad_norm_var": 0.19724934895833332,
      "learning_rate": 0.0003,
      "loss": 12.5182,
      "loss/aux_loss": 0.04810644220560789,
      "loss/crossentropy": 2.889602208137512,
      "loss/logits": 0.9657979607582092,
      "step": 11930
    },
    {
      "epoch": 0.1194,
      "grad_norm": 10.4375,
      "grad_norm_var": 0.27317708333333335,
      "learning_rate": 0.0003,
      "loss": 12.4569,
      "loss/aux_loss": 0.04809871483594179,
      "loss/crossentropy": 3.0264495491981505,
      "loss/logits": 0.9761357963085174,
      "step": 11940
    },
    {
      "epoch": 0.1195,
      "grad_norm": 10.375,
      "grad_norm_var": 0.12862955729166667,
      "learning_rate": 0.0003,
      "loss": 12.4498,
      "loss/aux_loss": 0.04811019022017717,
      "loss/crossentropy": 2.784598481655121,
      "loss/logits": 0.9536922335624695,
      "step": 11950
    },
    {
      "epoch": 0.1196,
      "grad_norm": 10.875,
      "grad_norm_var": 24.016780598958334,
      "learning_rate": 0.0003,
      "loss": 12.4946,
      "loss/aux_loss": 0.04811384323984384,
      "loss/crossentropy": 2.9115478515625,
      "loss/logits": 0.9744400382041931,
      "step": 11960
    },
    {
      "epoch": 0.1197,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.674072265625,
      "learning_rate": 0.0003,
      "loss": 12.5965,
      "loss/aux_loss": 0.04810780603438616,
      "loss/crossentropy": 2.894571363925934,
      "loss/logits": 0.9742325752973556,
      "step": 11970
    },
    {
      "epoch": 0.1198,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.30911458333333336,
      "learning_rate": 0.0003,
      "loss": 12.6002,
      "loss/aux_loss": 0.04811006467789412,
      "loss/crossentropy": 3.06647070646286,
      "loss/logits": 0.9646219074726105,
      "step": 11980
    },
    {
      "epoch": 0.1199,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.217041015625,
      "learning_rate": 0.0003,
      "loss": 12.3748,
      "loss/aux_loss": 0.04810543842613697,
      "loss/crossentropy": 2.722061502933502,
      "loss/logits": 0.9802715986967087,
      "step": 11990
    },
    {
      "epoch": 0.12,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.42649739583333335,
      "learning_rate": 0.0003,
      "loss": 12.5784,
      "loss/aux_loss": 0.04810118656605482,
      "loss/crossentropy": 2.83687162399292,
      "loss/logits": 0.9512553691864014,
      "step": 12000
    },
    {
      "epoch": 0.1201,
      "grad_norm": 11.125,
      "grad_norm_var": 0.24733072916666668,
      "learning_rate": 0.0003,
      "loss": 12.3364,
      "loss/aux_loss": 0.04810278117656708,
      "loss/crossentropy": 2.744813871383667,
      "loss/logits": 0.9523531854152679,
      "step": 12010
    },
    {
      "epoch": 0.1202,
      "grad_norm": 10.75,
      "grad_norm_var": 0.23214518229166667,
      "learning_rate": 0.0003,
      "loss": 12.6001,
      "loss/aux_loss": 0.04810234196484089,
      "loss/crossentropy": 2.830919635295868,
      "loss/logits": 0.9435950011014939,
      "step": 12020
    },
    {
      "epoch": 0.1203,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.23201497395833334,
      "learning_rate": 0.0003,
      "loss": 12.5726,
      "loss/aux_loss": 0.04810579065233469,
      "loss/crossentropy": 2.802901232242584,
      "loss/logits": 0.971744042634964,
      "step": 12030
    },
    {
      "epoch": 0.1204,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.30206705729166666,
      "learning_rate": 0.0003,
      "loss": 12.6394,
      "loss/aux_loss": 0.04810426253825426,
      "loss/crossentropy": 2.839026927947998,
      "loss/logits": 0.971143838763237,
      "step": 12040
    },
    {
      "epoch": 0.1205,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.19895833333333332,
      "learning_rate": 0.0003,
      "loss": 12.5642,
      "loss/aux_loss": 0.04810550380498171,
      "loss/crossentropy": 2.8231468319892885,
      "loss/logits": 0.9654949724674224,
      "step": 12050
    },
    {
      "epoch": 0.1206,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.17420247395833333,
      "learning_rate": 0.0003,
      "loss": 12.3904,
      "loss/aux_loss": 0.048108019307255744,
      "loss/crossentropy": 3.012854266166687,
      "loss/logits": 0.9883525311946869,
      "step": 12060
    },
    {
      "epoch": 0.1207,
      "grad_norm": 11.125,
      "grad_norm_var": 0.268603515625,
      "learning_rate": 0.0003,
      "loss": 12.5321,
      "loss/aux_loss": 0.04810563083738088,
      "loss/crossentropy": 2.70223063826561,
      "loss/logits": 0.9730505347251892,
      "step": 12070
    },
    {
      "epoch": 0.1208,
      "grad_norm": 10.875,
      "grad_norm_var": 0.271728515625,
      "learning_rate": 0.0003,
      "loss": 12.5535,
      "loss/aux_loss": 0.04810192938894033,
      "loss/crossentropy": 3.0259074330329896,
      "loss/logits": 0.9854034870862961,
      "step": 12080
    },
    {
      "epoch": 0.1209,
      "grad_norm": 10.375,
      "grad_norm_var": 0.17161458333333332,
      "learning_rate": 0.0003,
      "loss": 12.765,
      "loss/aux_loss": 0.04810161255300045,
      "loss/crossentropy": 2.875988984107971,
      "loss/logits": 0.9918344229459762,
      "step": 12090
    },
    {
      "epoch": 0.121,
      "grad_norm": 11.375,
      "grad_norm_var": 0.19635416666666666,
      "learning_rate": 0.0003,
      "loss": 12.623,
      "loss/aux_loss": 0.048103974759578706,
      "loss/crossentropy": 2.742973780632019,
      "loss/logits": 0.9306074976921082,
      "step": 12100
    },
    {
      "epoch": 0.1211,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.22024739583333333,
      "learning_rate": 0.0003,
      "loss": 12.5789,
      "loss/aux_loss": 0.04811310023069382,
      "loss/crossentropy": 2.705821967124939,
      "loss/logits": 0.9371457666158676,
      "step": 12110
    },
    {
      "epoch": 0.1212,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.9910807291666667,
      "learning_rate": 0.0003,
      "loss": 12.353,
      "loss/aux_loss": 0.04810843821614981,
      "loss/crossentropy": 2.6658570945262907,
      "loss/logits": 0.9095493495464325,
      "step": 12120
    },
    {
      "epoch": 0.1213,
      "grad_norm": 10.5625,
      "grad_norm_var": 1.1050618489583333,
      "learning_rate": 0.0003,
      "loss": 12.6082,
      "loss/aux_loss": 0.04810453653335571,
      "loss/crossentropy": 2.8400238871574404,
      "loss/logits": 0.9993251740932465,
      "step": 12130
    },
    {
      "epoch": 0.1214,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.3003743489583333,
      "learning_rate": 0.0003,
      "loss": 12.293,
      "loss/aux_loss": 0.04811606556177139,
      "loss/crossentropy": 2.8960613369941712,
      "loss/logits": 0.9764822989702224,
      "step": 12140
    },
    {
      "epoch": 0.1215,
      "grad_norm": 10.25,
      "grad_norm_var": 0.29244791666666664,
      "learning_rate": 0.0003,
      "loss": 12.4496,
      "loss/aux_loss": 0.048100278712809086,
      "loss/crossentropy": 3.0011345863342287,
      "loss/logits": 0.9704394817352295,
      "step": 12150
    },
    {
      "epoch": 0.1216,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.4044270833333333,
      "learning_rate": 0.0003,
      "loss": 12.5732,
      "loss/aux_loss": 0.0481085266917944,
      "loss/crossentropy": 2.7692679166793823,
      "loss/logits": 0.9632198810577393,
      "step": 12160
    },
    {
      "epoch": 0.1217,
      "grad_norm": 11.0,
      "grad_norm_var": 0.24609375,
      "learning_rate": 0.0003,
      "loss": 12.4976,
      "loss/aux_loss": 0.04810815379023552,
      "loss/crossentropy": 2.8866684079170226,
      "loss/logits": 0.9551214545965194,
      "step": 12170
    },
    {
      "epoch": 0.1218,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.23318684895833333,
      "learning_rate": 0.0003,
      "loss": 12.5185,
      "loss/aux_loss": 0.048101365193724634,
      "loss/crossentropy": 2.8655909061431886,
      "loss/logits": 0.9533731818199158,
      "step": 12180
    },
    {
      "epoch": 0.1219,
      "grad_norm": 11.0,
      "grad_norm_var": 0.8066243489583333,
      "learning_rate": 0.0003,
      "loss": 12.6911,
      "loss/aux_loss": 0.04811571817845106,
      "loss/crossentropy": 2.8677718937397003,
      "loss/logits": 0.976726308465004,
      "step": 12190
    },
    {
      "epoch": 0.122,
      "grad_norm": 10.4375,
      "grad_norm_var": 1.0106770833333334,
      "learning_rate": 0.0003,
      "loss": 12.5852,
      "loss/aux_loss": 0.048111325688660146,
      "loss/crossentropy": 2.756421709060669,
      "loss/logits": 0.9976501137018203,
      "step": 12200
    },
    {
      "epoch": 0.1221,
      "grad_norm": 10.3125,
      "grad_norm_var": 1.3247233072916667,
      "learning_rate": 0.0003,
      "loss": 12.5394,
      "loss/aux_loss": 0.04810780212283135,
      "loss/crossentropy": 2.9484314799308775,
      "loss/logits": 0.9888930469751358,
      "step": 12210
    },
    {
      "epoch": 0.1222,
      "grad_norm": 11.25,
      "grad_norm_var": 1.724853515625,
      "learning_rate": 0.0003,
      "loss": 12.658,
      "loss/aux_loss": 0.048103698343038556,
      "loss/crossentropy": 2.8530756711959837,
      "loss/logits": 0.961388236284256,
      "step": 12220
    },
    {
      "epoch": 0.1223,
      "grad_norm": 10.375,
      "grad_norm_var": 0.7403645833333333,
      "learning_rate": 0.0003,
      "loss": 12.6152,
      "loss/aux_loss": 0.048111156560480595,
      "loss/crossentropy": 2.7180242002010346,
      "loss/logits": 0.9586433321237564,
      "step": 12230
    },
    {
      "epoch": 0.1224,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.7048014322916667,
      "learning_rate": 0.0003,
      "loss": 12.4559,
      "loss/aux_loss": 0.048110079020261765,
      "loss/crossentropy": 2.9755612432956697,
      "loss/logits": 0.9319843083620072,
      "step": 12240
    },
    {
      "epoch": 0.1225,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.697119140625,
      "learning_rate": 0.0003,
      "loss": 12.4664,
      "loss/aux_loss": 0.048104499280452725,
      "loss/crossentropy": 2.828293478488922,
      "loss/logits": 0.9228764444589614,
      "step": 12250
    },
    {
      "epoch": 0.1226,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.234228515625,
      "learning_rate": 0.0003,
      "loss": 12.6363,
      "loss/aux_loss": 0.048111573606729505,
      "loss/crossentropy": 2.9271127223968505,
      "loss/logits": 0.9774176150560379,
      "step": 12260
    },
    {
      "epoch": 0.1227,
      "grad_norm": 12.75,
      "grad_norm_var": 8.608968098958334,
      "learning_rate": 0.0003,
      "loss": 12.3807,
      "loss/aux_loss": 0.048101313598454,
      "loss/crossentropy": 2.63518745303154,
      "loss/logits": 0.9886480629444122,
      "step": 12270
    },
    {
      "epoch": 0.1228,
      "grad_norm": 10.3125,
      "grad_norm_var": 9.355712890625,
      "learning_rate": 0.0003,
      "loss": 12.6403,
      "loss/aux_loss": 0.04810824524611235,
      "loss/crossentropy": 2.950111997127533,
      "loss/logits": 0.9644519031047821,
      "step": 12280
    },
    {
      "epoch": 0.1229,
      "grad_norm": 11.0,
      "grad_norm_var": 1.6855305989583333,
      "learning_rate": 0.0003,
      "loss": 12.6324,
      "loss/aux_loss": 0.048108363337814805,
      "loss/crossentropy": 3.013728940486908,
      "loss/logits": 0.999145370721817,
      "step": 12290
    },
    {
      "epoch": 0.123,
      "grad_norm": 10.5,
      "grad_norm_var": 0.28904622395833335,
      "learning_rate": 0.0003,
      "loss": 12.5458,
      "loss/aux_loss": 0.048100477643311025,
      "loss/crossentropy": 2.722964417934418,
      "loss/logits": 0.9335471302270889,
      "step": 12300
    },
    {
      "epoch": 0.1231,
      "grad_norm": 11.875,
      "grad_norm_var": 0.453125,
      "learning_rate": 0.0003,
      "loss": 12.4757,
      "loss/aux_loss": 0.04810597654432058,
      "loss/crossentropy": 2.820869207382202,
      "loss/logits": 0.9774489820003509,
      "step": 12310
    },
    {
      "epoch": 0.1232,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.27316080729166664,
      "learning_rate": 0.0003,
      "loss": 12.4025,
      "loss/aux_loss": 0.04810553044080734,
      "loss/crossentropy": 2.7451001048088073,
      "loss/logits": 0.9624879866838455,
      "step": 12320
    },
    {
      "epoch": 0.1233,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.25857747395833336,
      "learning_rate": 0.0003,
      "loss": 12.4356,
      "loss/aux_loss": 0.04811267796903849,
      "loss/crossentropy": 2.917902183532715,
      "loss/logits": 0.9623291105031967,
      "step": 12330
    },
    {
      "epoch": 0.1234,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.24842122395833333,
      "learning_rate": 0.0003,
      "loss": 12.5192,
      "loss/aux_loss": 0.04810788352042437,
      "loss/crossentropy": 2.9027243733406065,
      "loss/logits": 0.9865126490592957,
      "step": 12340
    },
    {
      "epoch": 0.1235,
      "grad_norm": 10.875,
      "grad_norm_var": 0.14217122395833334,
      "learning_rate": 0.0003,
      "loss": 12.6416,
      "loss/aux_loss": 0.04810071587562561,
      "loss/crossentropy": 2.8123831510543824,
      "loss/logits": 0.9990533202886581,
      "step": 12350
    },
    {
      "epoch": 0.1236,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.07185872395833333,
      "learning_rate": 0.0003,
      "loss": 12.417,
      "loss/aux_loss": 0.04809997137635946,
      "loss/crossentropy": 2.8776489377021788,
      "loss/logits": 0.9396691709756851,
      "step": 12360
    },
    {
      "epoch": 0.1237,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.17771809895833332,
      "learning_rate": 0.0003,
      "loss": 12.4562,
      "loss/aux_loss": 0.048106643930077554,
      "loss/crossentropy": 2.726925420761108,
      "loss/logits": 0.9575481981039047,
      "step": 12370
    },
    {
      "epoch": 0.1238,
      "grad_norm": 10.625,
      "grad_norm_var": 0.34427083333333336,
      "learning_rate": 0.0003,
      "loss": 12.5861,
      "loss/aux_loss": 0.0481028001755476,
      "loss/crossentropy": 2.8643892288208006,
      "loss/logits": 0.9604303538799286,
      "step": 12380
    },
    {
      "epoch": 0.1239,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.17838541666666666,
      "learning_rate": 0.0003,
      "loss": 12.5781,
      "loss/aux_loss": 0.04810880180448294,
      "loss/crossentropy": 2.9660362005233765,
      "loss/logits": 0.9596373349428177,
      "step": 12390
    },
    {
      "epoch": 0.124,
      "grad_norm": 10.625,
      "grad_norm_var": 0.1931640625,
      "learning_rate": 0.0003,
      "loss": 12.6396,
      "loss/aux_loss": 0.04811811447143555,
      "loss/crossentropy": 2.980528914928436,
      "loss/logits": 0.9617955178022385,
      "step": 12400
    },
    {
      "epoch": 0.1241,
      "grad_norm": 11.625,
      "grad_norm_var": 1.4231770833333333,
      "learning_rate": 0.0003,
      "loss": 12.6891,
      "loss/aux_loss": 0.048112993128597736,
      "loss/crossentropy": 2.9703574776649475,
      "loss/logits": 0.973251935839653,
      "step": 12410
    },
    {
      "epoch": 0.1242,
      "grad_norm": 10.375,
      "grad_norm_var": 1.4962890625,
      "learning_rate": 0.0003,
      "loss": 12.3924,
      "loss/aux_loss": 0.04811142534017563,
      "loss/crossentropy": 2.6934870958328245,
      "loss/logits": 0.9628842860460282,
      "step": 12420
    },
    {
      "epoch": 0.1243,
      "grad_norm": 31.75,
      "grad_norm_var": 27.332747395833334,
      "learning_rate": 0.0003,
      "loss": 12.5895,
      "loss/aux_loss": 0.04810582157224417,
      "loss/crossentropy": 2.749896514415741,
      "loss/logits": 0.9580157309770584,
      "step": 12430
    },
    {
      "epoch": 0.1244,
      "grad_norm": 10.375,
      "grad_norm_var": 27.559879557291666,
      "learning_rate": 0.0003,
      "loss": 12.5005,
      "loss/aux_loss": 0.04812322128564119,
      "loss/crossentropy": 2.8022406458854676,
      "loss/logits": 0.9580208510160446,
      "step": 12440
    },
    {
      "epoch": 0.1245,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.3863118489583333,
      "learning_rate": 0.0003,
      "loss": 12.5714,
      "loss/aux_loss": 0.048095401376485825,
      "loss/crossentropy": 2.8494678735733032,
      "loss/logits": 0.9524266660213471,
      "step": 12450
    },
    {
      "epoch": 0.1246,
      "grad_norm": 10.0,
      "grad_norm_var": 0.20271809895833334,
      "learning_rate": 0.0003,
      "loss": 12.5446,
      "loss/aux_loss": 0.04811746347695589,
      "loss/crossentropy": 2.8464840769767763,
      "loss/logits": 0.9794892787933349,
      "step": 12460
    },
    {
      "epoch": 0.1247,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.3634765625,
      "learning_rate": 0.0003,
      "loss": 12.5093,
      "loss/aux_loss": 0.04810458458960056,
      "loss/crossentropy": 2.8821428060531615,
      "loss/logits": 0.9548739582300186,
      "step": 12470
    },
    {
      "epoch": 0.1248,
      "grad_norm": 10.25,
      "grad_norm_var": 158.55701497395833,
      "learning_rate": 0.0003,
      "loss": 12.5456,
      "loss/aux_loss": 0.04812399763613939,
      "loss/crossentropy": 2.8613539934158325,
      "loss/logits": 0.9762499183416367,
      "step": 12480
    },
    {
      "epoch": 0.1249,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.5799479166666667,
      "learning_rate": 0.0003,
      "loss": 12.5057,
      "loss/aux_loss": 0.04810742326080799,
      "loss/crossentropy": 2.865919351577759,
      "loss/logits": 0.9773925930261612,
      "step": 12490
    },
    {
      "epoch": 0.125,
      "grad_norm": 10.375,
      "grad_norm_var": 0.40623372395833335,
      "learning_rate": 0.0003,
      "loss": 12.4343,
      "loss/aux_loss": 0.04811244308948517,
      "loss/crossentropy": 2.7066974461078646,
      "loss/logits": 0.9389273285865783,
      "step": 12500
    },
    {
      "epoch": 0.1251,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.38670247395833335,
      "learning_rate": 0.0003,
      "loss": 12.4011,
      "loss/aux_loss": 0.04809202216565609,
      "loss/crossentropy": 2.9026967763900755,
      "loss/logits": 0.969332093000412,
      "step": 12510
    },
    {
      "epoch": 0.1252,
      "grad_norm": 10.875,
      "grad_norm_var": 0.6098958333333333,
      "learning_rate": 0.0003,
      "loss": 12.4336,
      "loss/aux_loss": 0.04811373949050903,
      "loss/crossentropy": 2.665140724182129,
      "loss/logits": 0.9239953130483627,
      "step": 12520
    },
    {
      "epoch": 0.1253,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.7331868489583333,
      "learning_rate": 0.0003,
      "loss": 12.6341,
      "loss/aux_loss": 0.04810454789549112,
      "loss/crossentropy": 2.8536665797233582,
      "loss/logits": 0.9737724870443344,
      "step": 12530
    },
    {
      "epoch": 0.1254,
      "grad_norm": 10.75,
      "grad_norm_var": 0.253125,
      "learning_rate": 0.0003,
      "loss": 12.2721,
      "loss/aux_loss": 0.04812637399882078,
      "loss/crossentropy": 2.623065769672394,
      "loss/logits": 0.9491947621107102,
      "step": 12540
    },
    {
      "epoch": 0.1255,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.291259765625,
      "learning_rate": 0.0003,
      "loss": 12.346,
      "loss/aux_loss": 0.04810612387955189,
      "loss/crossentropy": 2.8949776351451875,
      "loss/logits": 0.9749656409025192,
      "step": 12550
    },
    {
      "epoch": 0.1256,
      "grad_norm": 9.875,
      "grad_norm_var": 0.20358072916666667,
      "learning_rate": 0.0003,
      "loss": 12.39,
      "loss/aux_loss": 0.048107765056192874,
      "loss/crossentropy": 2.9021278619766235,
      "loss/logits": 0.9786544352769851,
      "step": 12560
    },
    {
      "epoch": 0.1257,
      "grad_norm": 10.4375,
      "grad_norm_var": 0.23723958333333334,
      "learning_rate": 0.0003,
      "loss": 12.377,
      "loss/aux_loss": 0.04810867067426443,
      "loss/crossentropy": 2.6891712307929994,
      "loss/logits": 0.9230633974075317,
      "step": 12570
    },
    {
      "epoch": 0.1258,
      "grad_norm": 10.5,
      "grad_norm_var": 0.12057291666666667,
      "learning_rate": 0.0003,
      "loss": 12.5812,
      "loss/aux_loss": 0.04811552707105875,
      "loss/crossentropy": 2.969293546676636,
      "loss/logits": 0.9738602817058564,
      "step": 12580
    },
    {
      "epoch": 0.1259,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.17498372395833334,
      "learning_rate": 0.0003,
      "loss": 12.4027,
      "loss/aux_loss": 0.04809841345995665,
      "loss/crossentropy": 2.835331308841705,
      "loss/logits": 0.9679557770490647,
      "step": 12590
    },
    {
      "epoch": 0.126,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.237744140625,
      "learning_rate": 0.0003,
      "loss": 12.5829,
      "loss/aux_loss": 0.048117955774068834,
      "loss/crossentropy": 2.8491066575050352,
      "loss/logits": 0.910678106546402,
      "step": 12600
    },
    {
      "epoch": 0.1261,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.4869791666666667,
      "learning_rate": 0.0003,
      "loss": 12.5276,
      "loss/aux_loss": 0.04809832703322172,
      "loss/crossentropy": 2.8928737163543703,
      "loss/logits": 0.9363324135541916,
      "step": 12610
    },
    {
      "epoch": 0.1262,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.4989420572916667,
      "learning_rate": 0.0003,
      "loss": 12.4322,
      "loss/aux_loss": 0.04810363110154867,
      "loss/crossentropy": 2.8710333466529847,
      "loss/logits": 0.9906549990177155,
      "step": 12620
    },
    {
      "epoch": 0.1263,
      "grad_norm": 11.25,
      "grad_norm_var": 0.16053059895833333,
      "learning_rate": 0.0003,
      "loss": 12.4911,
      "loss/aux_loss": 0.04810148868709803,
      "loss/crossentropy": 2.8756853461265566,
      "loss/logits": 0.9440797507762909,
      "step": 12630
    },
    {
      "epoch": 0.1264,
      "grad_norm": 18.375,
      "grad_norm_var": 7.615625,
      "learning_rate": 0.0003,
      "loss": 12.4571,
      "loss/aux_loss": 0.04810570180416107,
      "loss/crossentropy": 2.6758979201316833,
      "loss/logits": 0.9320230633020401,
      "step": 12640
    },
    {
      "epoch": 0.1265,
      "grad_norm": 10.3125,
      "grad_norm_var": 4.074983723958334,
      "learning_rate": 0.0003,
      "loss": 12.4666,
      "loss/aux_loss": 0.048111373744905,
      "loss/crossentropy": 2.842112112045288,
      "loss/logits": 0.9325708895921707,
      "step": 12650
    },
    {
      "epoch": 0.1266,
      "grad_norm": 10.0,
      "grad_norm_var": 1.2192708333333333,
      "learning_rate": 0.0003,
      "loss": 12.2817,
      "loss/aux_loss": 0.04809804186224938,
      "loss/crossentropy": 2.9903613328933716,
      "loss/logits": 0.9794372290372848,
      "step": 12660
    },
    {
      "epoch": 0.1267,
      "grad_norm": 10.375,
      "grad_norm_var": 0.468212890625,
      "learning_rate": 0.0003,
      "loss": 12.3768,
      "loss/aux_loss": 0.048095152527093885,
      "loss/crossentropy": 2.74501034617424,
      "loss/logits": 0.9036791056394577,
      "step": 12670
    },
    {
      "epoch": 0.1268,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.32578125,
      "learning_rate": 0.0003,
      "loss": 12.654,
      "loss/aux_loss": 0.04810344278812408,
      "loss/crossentropy": 2.962386405467987,
      "loss/logits": 0.9665306150913239,
      "step": 12680
    },
    {
      "epoch": 0.1269,
      "grad_norm": 11.75,
      "grad_norm_var": 0.36183268229166665,
      "learning_rate": 0.0003,
      "loss": 12.4222,
      "loss/aux_loss": 0.04809885267168283,
      "loss/crossentropy": 2.909253853559494,
      "loss/logits": 0.9747259318828583,
      "step": 12690
    },
    {
      "epoch": 0.127,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.2843098958333333,
      "learning_rate": 0.0003,
      "loss": 12.5564,
      "loss/aux_loss": 0.048109317757189275,
      "loss/crossentropy": 2.8867732286453247,
      "loss/logits": 0.9507931470870972,
      "step": 12700
    },
    {
      "epoch": 0.1271,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.38409830729166666,
      "learning_rate": 0.0003,
      "loss": 12.4902,
      "loss/aux_loss": 0.04810472708195448,
      "loss/crossentropy": 2.6750588059425353,
      "loss/logits": 0.9369807064533233,
      "step": 12710
    },
    {
      "epoch": 0.1272,
      "grad_norm": 11.375,
      "grad_norm_var": 0.54609375,
      "learning_rate": 0.0003,
      "loss": 12.48,
      "loss/aux_loss": 0.048105572909116746,
      "loss/crossentropy": 2.9057799935340882,
      "loss/logits": 0.9927403450012207,
      "step": 12720
    },
    {
      "epoch": 0.1273,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.3148274739583333,
      "learning_rate": 0.0003,
      "loss": 12.5244,
      "loss/aux_loss": 0.04810297396034002,
      "loss/crossentropy": 2.9415181994438173,
      "loss/logits": 0.9982303559780121,
      "step": 12730
    },
    {
      "epoch": 0.1274,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.1697265625,
      "learning_rate": 0.0003,
      "loss": 12.403,
      "loss/aux_loss": 0.04809920433908701,
      "loss/crossentropy": 2.903778100013733,
      "loss/logits": 0.970294651389122,
      "step": 12740
    },
    {
      "epoch": 0.1275,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.15050455729166667,
      "learning_rate": 0.0003,
      "loss": 12.455,
      "loss/aux_loss": 0.048093832843005654,
      "loss/crossentropy": 2.9087541341781615,
      "loss/logits": 0.9725099325180053,
      "step": 12750
    },
    {
      "epoch": 0.1276,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.13274739583333334,
      "learning_rate": 0.0003,
      "loss": 12.5525,
      "loss/aux_loss": 0.04810660276561975,
      "loss/crossentropy": 2.792685878276825,
      "loss/logits": 0.9733223885297775,
      "step": 12760
    },
    {
      "epoch": 0.1277,
      "grad_norm": 11.375,
      "grad_norm_var": 0.18019205729166668,
      "learning_rate": 0.0003,
      "loss": 12.559,
      "loss/aux_loss": 0.04810384083539247,
      "loss/crossentropy": 2.8665752828121187,
      "loss/logits": 0.9338672608137131,
      "step": 12770
    },
    {
      "epoch": 0.1278,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.3889973958333333,
      "learning_rate": 0.0003,
      "loss": 12.4119,
      "loss/aux_loss": 0.048106889240443707,
      "loss/crossentropy": 2.8227752327919005,
      "loss/logits": 0.9450346022844315,
      "step": 12780
    },
    {
      "epoch": 0.1279,
      "grad_norm": 11.125,
      "grad_norm_var": 0.29791666666666666,
      "learning_rate": 0.0003,
      "loss": 12.6173,
      "loss/aux_loss": 0.048102630861103536,
      "loss/crossentropy": 2.9129024147987366,
      "loss/logits": 0.9713657557964325,
      "step": 12790
    },
    {
      "epoch": 0.128,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.18274739583333333,
      "learning_rate": 0.0003,
      "loss": 12.326,
      "loss/aux_loss": 0.04809645600616932,
      "loss/crossentropy": 2.8920622408390044,
      "loss/logits": 0.954812154173851,
      "step": 12800
    },
    {
      "epoch": 0.1281,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.17420247395833333,
      "learning_rate": 0.0003,
      "loss": 12.2345,
      "loss/aux_loss": 0.04810621030628681,
      "loss/crossentropy": 2.7076722204685213,
      "loss/logits": 0.9177807062864304,
      "step": 12810
    },
    {
      "epoch": 0.1282,
      "grad_norm": 10.0,
      "grad_norm_var": 0.6026041666666667,
      "learning_rate": 0.0003,
      "loss": 12.4786,
      "loss/aux_loss": 0.048109995760023595,
      "loss/crossentropy": 2.8327449679374697,
      "loss/logits": 0.9546353191137313,
      "step": 12820
    },
    {
      "epoch": 0.1283,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.8191243489583333,
      "learning_rate": 0.0003,
      "loss": 12.5182,
      "loss/aux_loss": 0.048099367320537566,
      "loss/crossentropy": 2.9235777378082277,
      "loss/logits": 0.9615249812602997,
      "step": 12830
    },
    {
      "epoch": 0.1284,
      "grad_norm": 11.25,
      "grad_norm_var": 3.563134765625,
      "learning_rate": 0.0003,
      "loss": 12.3886,
      "loss/aux_loss": 0.04810474757105112,
      "loss/crossentropy": 2.7467468440532685,
      "loss/logits": 0.9554690361022949,
      "step": 12840
    },
    {
      "epoch": 0.1285,
      "grad_norm": 11.625,
      "grad_norm_var": 0.36666666666666664,
      "learning_rate": 0.0003,
      "loss": 12.4959,
      "loss/aux_loss": 0.04810317847877741,
      "loss/crossentropy": 2.9639437079429625,
      "loss/logits": 0.9639540314674377,
      "step": 12850
    },
    {
      "epoch": 0.1286,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.5353515625,
      "learning_rate": 0.0003,
      "loss": 12.4018,
      "loss/aux_loss": 0.04811002798378468,
      "loss/crossentropy": 2.7028500497341157,
      "loss/logits": 0.9559302479028702,
      "step": 12860
    },
    {
      "epoch": 0.1287,
      "grad_norm": 11.5,
      "grad_norm_var": 53.47472330729167,
      "learning_rate": 0.0003,
      "loss": 12.5657,
      "loss/aux_loss": 0.04811037741601467,
      "loss/crossentropy": 2.924159586429596,
      "loss/logits": 0.9749170869588852,
      "step": 12870
    },
    {
      "epoch": 0.1288,
      "grad_norm": 10.4375,
      "grad_norm_var": 53.731103515625,
      "learning_rate": 0.0003,
      "loss": 12.3255,
      "loss/aux_loss": 0.048108428902924064,
      "loss/crossentropy": 2.763288676738739,
      "loss/logits": 0.9064864754676819,
      "step": 12880
    },
    {
      "epoch": 0.1289,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.22604166666666667,
      "learning_rate": 0.0003,
      "loss": 12.2636,
      "loss/aux_loss": 0.048106398433446884,
      "loss/crossentropy": 2.785652810335159,
      "loss/logits": 0.9184371441602707,
      "step": 12890
    },
    {
      "epoch": 0.129,
      "grad_norm": 10.625,
      "grad_norm_var": 0.30514322916666664,
      "learning_rate": 0.0003,
      "loss": 12.3059,
      "loss/aux_loss": 0.048100420646369456,
      "loss/crossentropy": 2.790884238481522,
      "loss/logits": 0.9849524915218353,
      "step": 12900
    },
    {
      "epoch": 0.1291,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.179150390625,
      "learning_rate": 0.0003,
      "loss": 12.4044,
      "loss/aux_loss": 0.048105467297136786,
      "loss/crossentropy": 2.791968286037445,
      "loss/logits": 0.9593799233436584,
      "step": 12910
    },
    {
      "epoch": 0.1292,
      "grad_norm": 10.25,
      "grad_norm_var": 0.3337890625,
      "learning_rate": 0.0003,
      "loss": 12.4358,
      "loss/aux_loss": 0.04811060018837452,
      "loss/crossentropy": 2.9321176767349244,
      "loss/logits": 0.9812934130430222,
      "step": 12920
    },
    {
      "epoch": 0.1293,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.22784830729166666,
      "learning_rate": 0.0003,
      "loss": 12.4753,
      "loss/aux_loss": 0.04810346253216267,
      "loss/crossentropy": 2.8504304766654966,
      "loss/logits": 0.9624378353357315,
      "step": 12930
    },
    {
      "epoch": 0.1294,
      "grad_norm": 18.75,
      "grad_norm_var": 4.043229166666666,
      "learning_rate": 0.0003,
      "loss": 12.5174,
      "loss/aux_loss": 0.048096288181841376,
      "loss/crossentropy": 2.861344063282013,
      "loss/logits": 0.9707422107458115,
      "step": 12940
    },
    {
      "epoch": 0.1295,
      "grad_norm": 11.1875,
      "grad_norm_var": 3.975455729166667,
      "learning_rate": 0.0003,
      "loss": 12.413,
      "loss/aux_loss": 0.048110200092196465,
      "loss/crossentropy": 2.8129209518432616,
      "loss/logits": 0.9287580490112305,
      "step": 12950
    },
    {
      "epoch": 0.1296,
      "grad_norm": 11.0,
      "grad_norm_var": 0.25338541666666664,
      "learning_rate": 0.0003,
      "loss": 12.3644,
      "loss/aux_loss": 0.04810931608080864,
      "loss/crossentropy": 2.802262395620346,
      "loss/logits": 0.9195797771215439,
      "step": 12960
    },
    {
      "epoch": 0.1297,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.5309895833333333,
      "learning_rate": 0.0003,
      "loss": 12.3496,
      "loss/aux_loss": 0.048108757846057414,
      "loss/crossentropy": 3.0164557695388794,
      "loss/logits": 0.9846212476491928,
      "step": 12970
    },
    {
      "epoch": 0.1298,
      "grad_norm": 10.875,
      "grad_norm_var": 0.4212890625,
      "learning_rate": 0.0003,
      "loss": 12.382,
      "loss/aux_loss": 0.04810013268142939,
      "loss/crossentropy": 2.9002213299274446,
      "loss/logits": 0.9503946632146836,
      "step": 12980
    },
    {
      "epoch": 0.1299,
      "grad_norm": 10.375,
      "grad_norm_var": 0.15167643229166666,
      "learning_rate": 0.0003,
      "loss": 12.3921,
      "loss/aux_loss": 0.048111158050596715,
      "loss/crossentropy": 2.7677676558494566,
      "loss/logits": 0.921833261847496,
      "step": 12990
    },
    {
      "epoch": 0.13,
      "grad_norm": 10.75,
      "grad_norm_var": 0.388525390625,
      "learning_rate": 0.0003,
      "loss": 12.3999,
      "loss/aux_loss": 0.048099796287715435,
      "loss/crossentropy": 2.906938135623932,
      "loss/logits": 0.9610762029886246,
      "step": 13000
    },
    {
      "epoch": 0.1301,
      "grad_norm": 10.0625,
      "grad_norm_var": 0.36139322916666666,
      "learning_rate": 0.0003,
      "loss": 12.6066,
      "loss/aux_loss": 0.04810947496443987,
      "loss/crossentropy": 2.892643666267395,
      "loss/logits": 0.9925059139728546,
      "step": 13010
    },
    {
      "epoch": 0.1302,
      "grad_norm": 10.875,
      "grad_norm_var": 0.160400390625,
      "learning_rate": 0.0003,
      "loss": 12.2514,
      "loss/aux_loss": 0.048100730404257774,
      "loss/crossentropy": 2.7110345482826235,
      "loss/logits": 0.931193083524704,
      "step": 13020
    },
    {
      "epoch": 0.1303,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.546337890625,
      "learning_rate": 0.0003,
      "loss": 12.7064,
      "loss/aux_loss": 0.04810579176992178,
      "loss/crossentropy": 2.92630649805069,
      "loss/logits": 0.9686931163072586,
      "step": 13030
    },
    {
      "epoch": 0.1304,
      "grad_norm": 10.5,
      "grad_norm_var": 0.7660807291666667,
      "learning_rate": 0.0003,
      "loss": 12.1971,
      "loss/aux_loss": 0.04810760095715523,
      "loss/crossentropy": 2.778294336795807,
      "loss/logits": 0.9471270084381104,
      "step": 13040
    },
    {
      "epoch": 0.1305,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.5150390625,
      "learning_rate": 0.0003,
      "loss": 12.5498,
      "loss/aux_loss": 0.048095237277448175,
      "loss/crossentropy": 2.8965494871139525,
      "loss/logits": 0.9763620316982269,
      "step": 13050
    },
    {
      "epoch": 0.1306,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.3341145833333333,
      "learning_rate": 0.0003,
      "loss": 12.268,
      "loss/aux_loss": 0.04810608047991991,
      "loss/crossentropy": 2.704496759176254,
      "loss/logits": 0.9139129340648651,
      "step": 13060
    },
    {
      "epoch": 0.1307,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.2833333333333333,
      "learning_rate": 0.0003,
      "loss": 12.3673,
      "loss/aux_loss": 0.04811034444719553,
      "loss/crossentropy": 2.8740296959877014,
      "loss/logits": 0.9611405491828918,
      "step": 13070
    },
    {
      "epoch": 0.1308,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.19138997395833332,
      "learning_rate": 0.0003,
      "loss": 12.4817,
      "loss/aux_loss": 0.048108231462538245,
      "loss/crossentropy": 2.746237635612488,
      "loss/logits": 0.9631420075893402,
      "step": 13080
    },
    {
      "epoch": 0.1309,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.26484375,
      "learning_rate": 0.0003,
      "loss": 12.4288,
      "loss/aux_loss": 0.048110059648752215,
      "loss/crossentropy": 2.974073600769043,
      "loss/logits": 0.964441043138504,
      "step": 13090
    },
    {
      "epoch": 0.131,
      "grad_norm": 11.75,
      "grad_norm_var": 0.20130208333333333,
      "learning_rate": 0.0003,
      "loss": 12.4907,
      "loss/aux_loss": 0.04810066521167755,
      "loss/crossentropy": 2.760193109512329,
      "loss/logits": 0.9369175344705581,
      "step": 13100
    },
    {
      "epoch": 0.1311,
      "grad_norm": 11.125,
      "grad_norm_var": 1.0639973958333333,
      "learning_rate": 0.0003,
      "loss": 12.464,
      "loss/aux_loss": 0.04809979852288961,
      "loss/crossentropy": 2.846820616722107,
      "loss/logits": 0.9538910329341889,
      "step": 13110
    },
    {
      "epoch": 0.1312,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.8995930989583333,
      "learning_rate": 0.0003,
      "loss": 12.4394,
      "loss/aux_loss": 0.048106100782752036,
      "loss/crossentropy": 2.9314664363861085,
      "loss/logits": 0.94806087911129,
      "step": 13120
    },
    {
      "epoch": 0.1313,
      "grad_norm": 11.375,
      "grad_norm_var": 0.4202962239583333,
      "learning_rate": 0.0003,
      "loss": 12.3422,
      "loss/aux_loss": 0.0481000566855073,
      "loss/crossentropy": 2.8791940450668334,
      "loss/logits": 0.9509881615638733,
      "step": 13130
    },
    {
      "epoch": 0.1314,
      "grad_norm": 10.125,
      "grad_norm_var": 0.27615559895833336,
      "learning_rate": 0.0003,
      "loss": 12.4757,
      "loss/aux_loss": 0.048098215088248256,
      "loss/crossentropy": 2.9675530552864076,
      "loss/logits": 0.9818042993545533,
      "step": 13140
    },
    {
      "epoch": 0.1315,
      "grad_norm": 10.625,
      "grad_norm_var": 0.2618326822916667,
      "learning_rate": 0.0003,
      "loss": 12.336,
      "loss/aux_loss": 0.04810485653579235,
      "loss/crossentropy": 2.804446077346802,
      "loss/logits": 0.9385320395231247,
      "step": 13150
    },
    {
      "epoch": 0.1316,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.24368489583333333,
      "learning_rate": 0.0003,
      "loss": 12.4802,
      "loss/aux_loss": 0.04809897020459175,
      "loss/crossentropy": 2.8940049529075624,
      "loss/logits": 0.9573934972286224,
      "step": 13160
    },
    {
      "epoch": 0.1317,
      "grad_norm": 10.625,
      "grad_norm_var": 0.30271809895833335,
      "learning_rate": 0.0003,
      "loss": 12.3512,
      "loss/aux_loss": 0.04811223279684782,
      "loss/crossentropy": 2.7365167438983917,
      "loss/logits": 0.9326226800680161,
      "step": 13170
    },
    {
      "epoch": 0.1318,
      "grad_norm": 10.625,
      "grad_norm_var": 0.19765625,
      "learning_rate": 0.0003,
      "loss": 12.4848,
      "loss/aux_loss": 0.048102138377726075,
      "loss/crossentropy": 2.780118942260742,
      "loss/logits": 0.9540079593658447,
      "step": 13180
    },
    {
      "epoch": 0.1319,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.9747233072916667,
      "learning_rate": 0.0003,
      "loss": 12.3066,
      "loss/aux_loss": 0.0481060640886426,
      "loss/crossentropy": 2.848835837841034,
      "loss/logits": 0.9211630582809448,
      "step": 13190
    },
    {
      "epoch": 0.132,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.92421875,
      "learning_rate": 0.0003,
      "loss": 12.4287,
      "loss/aux_loss": 0.048100389540195465,
      "loss/crossentropy": 2.8563956737518312,
      "loss/logits": 0.9615561842918396,
      "step": 13200
    },
    {
      "epoch": 0.1321,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.39296875,
      "learning_rate": 0.0003,
      "loss": 12.4611,
      "loss/aux_loss": 0.04809982106089592,
      "loss/crossentropy": 2.99262011051178,
      "loss/logits": 0.9975022733211517,
      "step": 13210
    },
    {
      "epoch": 0.1322,
      "grad_norm": 10.0,
      "grad_norm_var": 0.5723795572916667,
      "learning_rate": 0.0003,
      "loss": 12.3749,
      "loss/aux_loss": 0.048114350996911526,
      "loss/crossentropy": 2.715546762943268,
      "loss/logits": 0.9087715715169906,
      "step": 13220
    },
    {
      "epoch": 0.1323,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.8630045572916667,
      "learning_rate": 0.0003,
      "loss": 12.3739,
      "loss/aux_loss": 0.048113764822483064,
      "loss/crossentropy": 2.8105762124061586,
      "loss/logits": 0.9538555532693863,
      "step": 13230
    },
    {
      "epoch": 0.1324,
      "grad_norm": 11.9375,
      "grad_norm_var": 19.576025390625,
      "learning_rate": 0.0003,
      "loss": 12.2992,
      "loss/aux_loss": 0.04810525067150593,
      "loss/crossentropy": 2.91482892036438,
      "loss/logits": 0.9708419471979142,
      "step": 13240
    },
    {
      "epoch": 0.1325,
      "grad_norm": 11.375,
      "grad_norm_var": 0.3712076822916667,
      "learning_rate": 0.0003,
      "loss": 12.35,
      "loss/aux_loss": 0.04810534752905369,
      "loss/crossentropy": 2.8350456237792967,
      "loss/logits": 0.9504047840833664,
      "step": 13250
    },
    {
      "epoch": 0.1326,
      "grad_norm": 10.75,
      "grad_norm_var": 0.229931640625,
      "learning_rate": 0.0003,
      "loss": 12.5435,
      "loss/aux_loss": 0.048105095699429515,
      "loss/crossentropy": 2.9701404571533203,
      "loss/logits": 0.9582396388053894,
      "step": 13260
    },
    {
      "epoch": 0.1327,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.201416015625,
      "learning_rate": 0.0003,
      "loss": 12.3695,
      "loss/aux_loss": 0.04809423070400953,
      "loss/crossentropy": 2.981611502170563,
      "loss/logits": 0.9848940640687942,
      "step": 13270
    },
    {
      "epoch": 0.1328,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.204931640625,
      "learning_rate": 0.0003,
      "loss": 12.2578,
      "loss/aux_loss": 0.04810588490217924,
      "loss/crossentropy": 2.786838227510452,
      "loss/logits": 0.9377759993076324,
      "step": 13280
    },
    {
      "epoch": 0.1329,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.354541015625,
      "learning_rate": 0.0003,
      "loss": 12.4597,
      "loss/aux_loss": 0.04810259565711021,
      "loss/crossentropy": 2.8435731649398805,
      "loss/logits": 0.9304347574710846,
      "step": 13290
    },
    {
      "epoch": 0.133,
      "grad_norm": 10.625,
      "grad_norm_var": 0.2581868489583333,
      "learning_rate": 0.0003,
      "loss": 12.3977,
      "loss/aux_loss": 0.0481047386303544,
      "loss/crossentropy": 2.893440508842468,
      "loss/logits": 0.9740776270627975,
      "step": 13300
    },
    {
      "epoch": 0.1331,
      "grad_norm": 10.3125,
      "grad_norm_var": 1.2949055989583333,
      "learning_rate": 0.0003,
      "loss": 12.3455,
      "loss/aux_loss": 0.04810352213680744,
      "loss/crossentropy": 2.6359397768974304,
      "loss/logits": 0.9171884417533874,
      "step": 13310
    },
    {
      "epoch": 0.1332,
      "grad_norm": 12.1875,
      "grad_norm_var": 1.2700358072916667,
      "learning_rate": 0.0003,
      "loss": 12.3154,
      "loss/aux_loss": 0.0481058057397604,
      "loss/crossentropy": 2.766212022304535,
      "loss/logits": 0.9359346807003022,
      "step": 13320
    },
    {
      "epoch": 0.1333,
      "grad_norm": 10.0,
      "grad_norm_var": 0.6723307291666667,
      "learning_rate": 0.0003,
      "loss": 12.4084,
      "loss/aux_loss": 0.048116312362253666,
      "loss/crossentropy": 2.84612637758255,
      "loss/logits": 0.939299488067627,
      "step": 13330
    },
    {
      "epoch": 0.1334,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.555322265625,
      "learning_rate": 0.0003,
      "loss": 12.4866,
      "loss/aux_loss": 0.04810191094875336,
      "loss/crossentropy": 2.958892011642456,
      "loss/logits": 0.9613621711730957,
      "step": 13340
    },
    {
      "epoch": 0.1335,
      "grad_norm": 10.875,
      "grad_norm_var": 0.30149739583333335,
      "learning_rate": 0.0003,
      "loss": 12.4951,
      "loss/aux_loss": 0.04811299704015255,
      "loss/crossentropy": 2.949324941635132,
      "loss/logits": 0.9427460253238678,
      "step": 13350
    },
    {
      "epoch": 0.1336,
      "grad_norm": 10.0,
      "grad_norm_var": 0.17420247395833333,
      "learning_rate": 0.0003,
      "loss": 12.3633,
      "loss/aux_loss": 0.04811058808118105,
      "loss/crossentropy": 2.9030325174331666,
      "loss/logits": 0.9233207911252975,
      "step": 13360
    },
    {
      "epoch": 0.1337,
      "grad_norm": 12.625,
      "grad_norm_var": 0.3277180989583333,
      "learning_rate": 0.0003,
      "loss": 12.1642,
      "loss/aux_loss": 0.04810114298015833,
      "loss/crossentropy": 2.709307849407196,
      "loss/logits": 0.9239124625921249,
      "step": 13370
    },
    {
      "epoch": 0.1338,
      "grad_norm": 10.625,
      "grad_norm_var": 0.30514322916666664,
      "learning_rate": 0.0003,
      "loss": 12.4912,
      "loss/aux_loss": 0.04811024907976389,
      "loss/crossentropy": 2.8618651926517487,
      "loss/logits": 0.9447506815195084,
      "step": 13380
    },
    {
      "epoch": 0.1339,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.19166666666666668,
      "learning_rate": 0.0003,
      "loss": 12.4706,
      "loss/aux_loss": 0.04810334574431181,
      "loss/crossentropy": 2.9332224130630493,
      "loss/logits": 0.9420458465814591,
      "step": 13390
    },
    {
      "epoch": 0.134,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.23748372395833334,
      "learning_rate": 0.0003,
      "loss": 12.2177,
      "loss/aux_loss": 0.04811100345104933,
      "loss/crossentropy": 2.896355766057968,
      "loss/logits": 0.9644664227962494,
      "step": 13400
    },
    {
      "epoch": 0.1341,
      "grad_norm": 11.0,
      "grad_norm_var": 0.44021809895833336,
      "learning_rate": 0.0003,
      "loss": 12.4903,
      "loss/aux_loss": 0.04810348581522703,
      "loss/crossentropy": 2.7759104132652284,
      "loss/logits": 0.9495417177677155,
      "step": 13410
    },
    {
      "epoch": 0.1342,
      "grad_norm": 10.0,
      "grad_norm_var": 0.492822265625,
      "learning_rate": 0.0003,
      "loss": 12.4067,
      "loss/aux_loss": 0.04810683950781822,
      "loss/crossentropy": 2.804324197769165,
      "loss/logits": 0.9235481023788452,
      "step": 13420
    },
    {
      "epoch": 0.1343,
      "grad_norm": 10.75,
      "grad_norm_var": 1.1260416666666666,
      "learning_rate": 0.0003,
      "loss": 12.2612,
      "loss/aux_loss": 0.04810345564037562,
      "loss/crossentropy": 2.7631209015846254,
      "loss/logits": 0.966147831082344,
      "step": 13430
    },
    {
      "epoch": 0.1344,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.8817545572916666,
      "learning_rate": 0.0003,
      "loss": 12.3751,
      "loss/aux_loss": 0.048112759739160536,
      "loss/crossentropy": 2.9659682273864747,
      "loss/logits": 0.9447232961654664,
      "step": 13440
    },
    {
      "epoch": 0.1345,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.4984212239583333,
      "learning_rate": 0.0003,
      "loss": 12.3162,
      "loss/aux_loss": 0.048107668198645114,
      "loss/crossentropy": 2.83985230922699,
      "loss/logits": 0.9504481822252273,
      "step": 13450
    },
    {
      "epoch": 0.1346,
      "grad_norm": 10.625,
      "grad_norm_var": 0.3667805989583333,
      "learning_rate": 0.0003,
      "loss": 12.1897,
      "loss/aux_loss": 0.04810948856174946,
      "loss/crossentropy": 2.7549479007720947,
      "loss/logits": 0.9273734211921691,
      "step": 13460
    },
    {
      "epoch": 0.1347,
      "grad_norm": 12.375,
      "grad_norm_var": 0.31764322916666665,
      "learning_rate": 0.0003,
      "loss": 12.2581,
      "loss/aux_loss": 0.0481115635484457,
      "loss/crossentropy": 2.7301569998264315,
      "loss/logits": 0.9274598181247711,
      "step": 13470
    },
    {
      "epoch": 0.1348,
      "grad_norm": 11.625,
      "grad_norm_var": 0.32146809895833334,
      "learning_rate": 0.0003,
      "loss": 12.2671,
      "loss/aux_loss": 0.04809574782848358,
      "loss/crossentropy": 2.7924930095672607,
      "loss/logits": 0.9410725235939026,
      "step": 13480
    },
    {
      "epoch": 0.1349,
      "grad_norm": 12.375,
      "grad_norm_var": 0.30520833333333336,
      "learning_rate": 0.0003,
      "loss": 12.4427,
      "loss/aux_loss": 0.048100709170103076,
      "loss/crossentropy": 2.8529832124710084,
      "loss/logits": 0.964218020439148,
      "step": 13490
    },
    {
      "epoch": 0.135,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.48019205729166664,
      "learning_rate": 0.0003,
      "loss": 12.5486,
      "loss/aux_loss": 0.04810782596468925,
      "loss/crossentropy": 2.767691594362259,
      "loss/logits": 0.9534753412008286,
      "step": 13500
    },
    {
      "epoch": 0.1351,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.3384765625,
      "learning_rate": 0.0003,
      "loss": 12.4671,
      "loss/aux_loss": 0.048108152486383914,
      "loss/crossentropy": 2.840370202064514,
      "loss/logits": 0.9720666646957398,
      "step": 13510
    },
    {
      "epoch": 0.1352,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.40232747395833335,
      "learning_rate": 0.0003,
      "loss": 12.3131,
      "loss/aux_loss": 0.04810761827975511,
      "loss/crossentropy": 2.7722171783447265,
      "loss/logits": 0.919560182094574,
      "step": 13520
    },
    {
      "epoch": 0.1353,
      "grad_norm": 11.125,
      "grad_norm_var": 0.27265625,
      "learning_rate": 0.0003,
      "loss": 12.3471,
      "loss/aux_loss": 0.048098478280007836,
      "loss/crossentropy": 2.7604997634887694,
      "loss/logits": 0.9506667792797089,
      "step": 13530
    },
    {
      "epoch": 0.1354,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.23385416666666667,
      "learning_rate": 0.0003,
      "loss": 12.5057,
      "loss/aux_loss": 0.048096814006567,
      "loss/crossentropy": 2.93693727850914,
      "loss/logits": 1.006801837682724,
      "step": 13540
    },
    {
      "epoch": 0.1355,
      "grad_norm": 10.5,
      "grad_norm_var": 0.23357747395833334,
      "learning_rate": 0.0003,
      "loss": 12.4151,
      "loss/aux_loss": 0.04810099713504314,
      "loss/crossentropy": 2.9465499818325043,
      "loss/logits": 0.9544957995414733,
      "step": 13550
    },
    {
      "epoch": 0.1356,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.29322916666666665,
      "learning_rate": 0.0003,
      "loss": 12.4663,
      "loss/aux_loss": 0.04810344949364662,
      "loss/crossentropy": 2.783466875553131,
      "loss/logits": 0.982630443572998,
      "step": 13560
    },
    {
      "epoch": 0.1357,
      "grad_norm": 12.0,
      "grad_norm_var": 0.36451822916666665,
      "learning_rate": 0.0003,
      "loss": 12.3713,
      "loss/aux_loss": 0.04810951203107834,
      "loss/crossentropy": 2.66209716796875,
      "loss/logits": 0.9058698862791061,
      "step": 13570
    },
    {
      "epoch": 0.1358,
      "grad_norm": 12.125,
      "grad_norm_var": 0.5755208333333334,
      "learning_rate": 0.0003,
      "loss": 12.4161,
      "loss/aux_loss": 0.04810614287853241,
      "loss/crossentropy": 2.793833488225937,
      "loss/logits": 0.908539018034935,
      "step": 13580
    },
    {
      "epoch": 0.1359,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.36495768229166664,
      "learning_rate": 0.0003,
      "loss": 12.4122,
      "loss/aux_loss": 0.048112927563488485,
      "loss/crossentropy": 2.7475938618183138,
      "loss/logits": 0.9510286509990692,
      "step": 13590
    },
    {
      "epoch": 0.136,
      "grad_norm": 11.375,
      "grad_norm_var": 0.23639322916666666,
      "learning_rate": 0.0003,
      "loss": 12.2558,
      "loss/aux_loss": 0.048097974807024005,
      "loss/crossentropy": 2.8546653985977173,
      "loss/logits": 0.9764155447483063,
      "step": 13600
    },
    {
      "epoch": 0.1361,
      "grad_norm": 10.25,
      "grad_norm_var": 0.2652180989583333,
      "learning_rate": 0.0003,
      "loss": 12.3507,
      "loss/aux_loss": 0.048107730224728584,
      "loss/crossentropy": 2.7831094443798063,
      "loss/logits": 0.933989730477333,
      "step": 13610
    },
    {
      "epoch": 0.1362,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.27076822916666665,
      "learning_rate": 0.0003,
      "loss": 12.4364,
      "loss/aux_loss": 0.04810614828020334,
      "loss/crossentropy": 2.8577419936656954,
      "loss/logits": 0.9404568552970887,
      "step": 13620
    },
    {
      "epoch": 0.1363,
      "grad_norm": 10.875,
      "grad_norm_var": 0.12902018229166667,
      "learning_rate": 0.0003,
      "loss": 12.2498,
      "loss/aux_loss": 0.04811039827764034,
      "loss/crossentropy": 2.732570058107376,
      "loss/logits": 0.9277025848627091,
      "step": 13630
    },
    {
      "epoch": 0.1364,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.34055989583333335,
      "learning_rate": 0.0003,
      "loss": 12.2871,
      "loss/aux_loss": 0.04810627643018961,
      "loss/crossentropy": 2.8617196679115295,
      "loss/logits": 0.9472320884466171,
      "step": 13640
    },
    {
      "epoch": 0.1365,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.4354166666666667,
      "learning_rate": 0.0003,
      "loss": 12.2645,
      "loss/aux_loss": 0.048111869394779204,
      "loss/crossentropy": 2.8335381925106047,
      "loss/logits": 0.9731518387794494,
      "step": 13650
    },
    {
      "epoch": 0.1366,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.267822265625,
      "learning_rate": 0.0003,
      "loss": 12.1778,
      "loss/aux_loss": 0.048117116838693616,
      "loss/crossentropy": 2.772057569026947,
      "loss/logits": 0.9199839055538177,
      "step": 13660
    },
    {
      "epoch": 0.1367,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.24348958333333334,
      "learning_rate": 0.0003,
      "loss": 12.2065,
      "loss/aux_loss": 0.04810203909873963,
      "loss/crossentropy": 2.8068443894386292,
      "loss/logits": 0.9232182204723358,
      "step": 13670
    },
    {
      "epoch": 0.1368,
      "grad_norm": 10.875,
      "grad_norm_var": 0.48639322916666666,
      "learning_rate": 0.0003,
      "loss": 12.304,
      "loss/aux_loss": 0.048113486543297765,
      "loss/crossentropy": 2.8098415970802306,
      "loss/logits": 0.9973312526941299,
      "step": 13680
    },
    {
      "epoch": 0.1369,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.769775390625,
      "learning_rate": 0.0003,
      "loss": 12.3701,
      "loss/aux_loss": 0.048099438101053237,
      "loss/crossentropy": 2.9046237051486967,
      "loss/logits": 0.9579191863536834,
      "step": 13690
    },
    {
      "epoch": 0.137,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.4046875,
      "learning_rate": 0.0003,
      "loss": 12.563,
      "loss/aux_loss": 0.04810395799577236,
      "loss/crossentropy": 2.983587795495987,
      "loss/logits": 0.9559501677751541,
      "step": 13700
    },
    {
      "epoch": 0.1371,
      "grad_norm": 10.25,
      "grad_norm_var": 0.6278483072916666,
      "learning_rate": 0.0003,
      "loss": 12.2734,
      "loss/aux_loss": 0.04810773227363825,
      "loss/crossentropy": 2.8191973209381103,
      "loss/logits": 0.92610003054142,
      "step": 13710
    },
    {
      "epoch": 0.1372,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.46066080729166664,
      "learning_rate": 0.0003,
      "loss": 12.3531,
      "loss/aux_loss": 0.04809810016304254,
      "loss/crossentropy": 2.871203887462616,
      "loss/logits": 0.9389143049716949,
      "step": 13720
    },
    {
      "epoch": 0.1373,
      "grad_norm": 11.125,
      "grad_norm_var": 0.2565104166666667,
      "learning_rate": 0.0003,
      "loss": 12.2326,
      "loss/aux_loss": 0.04810184333473444,
      "loss/crossentropy": 2.794565808773041,
      "loss/logits": 0.9445665180683136,
      "step": 13730
    },
    {
      "epoch": 0.1374,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.22604166666666667,
      "learning_rate": 0.0003,
      "loss": 12.3533,
      "loss/aux_loss": 0.048102909699082375,
      "loss/crossentropy": 2.8416384637355803,
      "loss/logits": 0.9654471457004548,
      "step": 13740
    },
    {
      "epoch": 0.1375,
      "grad_norm": 10.1875,
      "grad_norm_var": 0.3582682291666667,
      "learning_rate": 0.0003,
      "loss": 12.327,
      "loss/aux_loss": 0.04810390882194042,
      "loss/crossentropy": 2.8315653204917908,
      "loss/logits": 0.9377313375473022,
      "step": 13750
    },
    {
      "epoch": 0.1376,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.36769205729166665,
      "learning_rate": 0.0003,
      "loss": 12.4527,
      "loss/aux_loss": 0.04810698907822371,
      "loss/crossentropy": 2.719471883773804,
      "loss/logits": 0.9382916927337647,
      "step": 13760
    },
    {
      "epoch": 0.1377,
      "grad_norm": 11.125,
      "grad_norm_var": 0.21555989583333332,
      "learning_rate": 0.0003,
      "loss": 12.2269,
      "loss/aux_loss": 0.048097971081733706,
      "loss/crossentropy": 2.861399304866791,
      "loss/logits": 0.9493412613868714,
      "step": 13770
    },
    {
      "epoch": 0.1378,
      "grad_norm": 11.75,
      "grad_norm_var": 0.6538899739583334,
      "learning_rate": 0.0003,
      "loss": 12.3158,
      "loss/aux_loss": 0.048107971996068956,
      "loss/crossentropy": 2.840020203590393,
      "loss/logits": 0.9154278337955475,
      "step": 13780
    },
    {
      "epoch": 0.1379,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.37862955729166664,
      "learning_rate": 0.0003,
      "loss": 12.3169,
      "loss/aux_loss": 0.04810533430427313,
      "loss/crossentropy": 2.7927276849746705,
      "loss/logits": 0.9583002328872681,
      "step": 13790
    },
    {
      "epoch": 0.138,
      "grad_norm": 11.0,
      "grad_norm_var": 0.22161458333333334,
      "learning_rate": 0.0003,
      "loss": 12.3317,
      "loss/aux_loss": 0.04810004401952028,
      "loss/crossentropy": 2.894696593284607,
      "loss/logits": 0.9791848719120025,
      "step": 13800
    },
    {
      "epoch": 0.1381,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.30201822916666665,
      "learning_rate": 0.0003,
      "loss": 12.3781,
      "loss/aux_loss": 0.04811547808349133,
      "loss/crossentropy": 2.8908798456192017,
      "loss/logits": 0.894439697265625,
      "step": 13810
    },
    {
      "epoch": 0.1382,
      "grad_norm": 12.0,
      "grad_norm_var": 0.24230143229166667,
      "learning_rate": 0.0003,
      "loss": 12.3648,
      "loss/aux_loss": 0.048103314451873304,
      "loss/crossentropy": 2.6465035498142244,
      "loss/logits": 0.9376543581485748,
      "step": 13820
    },
    {
      "epoch": 0.1383,
      "grad_norm": 11.375,
      "grad_norm_var": 0.21555989583333332,
      "learning_rate": 0.0003,
      "loss": 12.3217,
      "loss/aux_loss": 0.048104156740009785,
      "loss/crossentropy": 2.957222414016724,
      "loss/logits": 0.9343441456556321,
      "step": 13830
    },
    {
      "epoch": 0.1384,
      "grad_norm": 10.5,
      "grad_norm_var": 0.33697916666666666,
      "learning_rate": 0.0003,
      "loss": 12.1056,
      "loss/aux_loss": 0.04809317253530025,
      "loss/crossentropy": 2.6575527429580688,
      "loss/logits": 0.9211295455694198,
      "step": 13840
    },
    {
      "epoch": 0.1385,
      "grad_norm": 12.25,
      "grad_norm_var": 0.41139322916666665,
      "learning_rate": 0.0003,
      "loss": 12.3165,
      "loss/aux_loss": 0.04810005649924278,
      "loss/crossentropy": 2.8109684944152833,
      "loss/logits": 0.9039525598287582,
      "step": 13850
    },
    {
      "epoch": 0.1386,
      "grad_norm": 11.125,
      "grad_norm_var": 0.30462239583333334,
      "learning_rate": 0.0003,
      "loss": 12.4473,
      "loss/aux_loss": 0.048096515238285065,
      "loss/crossentropy": 2.7612143099308013,
      "loss/logits": 0.9181933552026749,
      "step": 13860
    },
    {
      "epoch": 0.1387,
      "grad_norm": 10.4375,
      "grad_norm_var": 0.15623372395833332,
      "learning_rate": 0.0003,
      "loss": 12.3176,
      "loss/aux_loss": 0.04810582865029574,
      "loss/crossentropy": 2.8384499669075014,
      "loss/logits": 0.9379000872373581,
      "step": 13870
    },
    {
      "epoch": 0.1388,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.33839518229166665,
      "learning_rate": 0.0003,
      "loss": 12.2429,
      "loss/aux_loss": 0.04810143150389194,
      "loss/crossentropy": 2.819534254074097,
      "loss/logits": 0.9464493721723557,
      "step": 13880
    },
    {
      "epoch": 0.1389,
      "grad_norm": 10.625,
      "grad_norm_var": 0.3815104166666667,
      "learning_rate": 0.0003,
      "loss": 12.5049,
      "loss/aux_loss": 0.04809562023729086,
      "loss/crossentropy": 2.858844381570816,
      "loss/logits": 0.9540527880191803,
      "step": 13890
    },
    {
      "epoch": 0.139,
      "grad_norm": 11.5,
      "grad_norm_var": 0.4141764322916667,
      "learning_rate": 0.0003,
      "loss": 12.3641,
      "loss/aux_loss": 0.04810257162898779,
      "loss/crossentropy": 2.8486937463283537,
      "loss/logits": 0.962219363451004,
      "step": 13900
    },
    {
      "epoch": 0.1391,
      "grad_norm": 10.75,
      "grad_norm_var": 0.2528483072916667,
      "learning_rate": 0.0003,
      "loss": 12.3461,
      "loss/aux_loss": 0.048107230477035044,
      "loss/crossentropy": 2.6285312592983248,
      "loss/logits": 0.9440800845623016,
      "step": 13910
    },
    {
      "epoch": 0.1392,
      "grad_norm": 11.5,
      "grad_norm_var": 0.6181640625,
      "learning_rate": 0.0003,
      "loss": 12.2632,
      "loss/aux_loss": 0.048101754114031794,
      "loss/crossentropy": 2.7042616248130797,
      "loss/logits": 0.911108523607254,
      "step": 13920
    },
    {
      "epoch": 0.1393,
      "grad_norm": 10.5,
      "grad_norm_var": 0.391650390625,
      "learning_rate": 0.0003,
      "loss": 12.4164,
      "loss/aux_loss": 0.048104698024690154,
      "loss/crossentropy": 2.760655826330185,
      "loss/logits": 0.9386287301778793,
      "step": 13930
    },
    {
      "epoch": 0.1394,
      "grad_norm": 11.375,
      "grad_norm_var": 0.17526041666666667,
      "learning_rate": 0.0003,
      "loss": 12.3058,
      "loss/aux_loss": 0.04810354206711054,
      "loss/crossentropy": 2.8063110530376436,
      "loss/logits": 0.9448209255933762,
      "step": 13940
    },
    {
      "epoch": 0.1395,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.106494140625,
      "learning_rate": 0.0003,
      "loss": 12.3086,
      "loss/aux_loss": 0.048095726780593394,
      "loss/crossentropy": 2.791933035850525,
      "loss/logits": 0.9196500927209854,
      "step": 13950
    },
    {
      "epoch": 0.1396,
      "grad_norm": 11.125,
      "grad_norm_var": 0.4676432291666667,
      "learning_rate": 0.0003,
      "loss": 12.4126,
      "loss/aux_loss": 0.04809935782104731,
      "loss/crossentropy": 2.8098475694656373,
      "loss/logits": 0.9401834368705749,
      "step": 13960
    },
    {
      "epoch": 0.1397,
      "grad_norm": 11.75,
      "grad_norm_var": 0.23430989583333334,
      "learning_rate": 0.0003,
      "loss": 11.9704,
      "loss/aux_loss": 0.04809695854783058,
      "loss/crossentropy": 2.8572974622249605,
      "loss/logits": 0.9450656235218048,
      "step": 13970
    },
    {
      "epoch": 0.1398,
      "grad_norm": 11.5,
      "grad_norm_var": 0.5817708333333333,
      "learning_rate": 0.0003,
      "loss": 12.2933,
      "loss/aux_loss": 0.04811172261834144,
      "loss/crossentropy": 2.7184654772281647,
      "loss/logits": 1.0148230105638505,
      "step": 13980
    },
    {
      "epoch": 0.1399,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.6473307291666667,
      "learning_rate": 0.0003,
      "loss": 12.3804,
      "loss/aux_loss": 0.048092580400407314,
      "loss/crossentropy": 2.8070730805397033,
      "loss/logits": 0.9323766380548477,
      "step": 13990
    },
    {
      "epoch": 0.14,
      "grad_norm": 12.4375,
      "grad_norm_var": 7.025260416666667,
      "learning_rate": 0.0003,
      "loss": 12.5511,
      "loss/aux_loss": 0.048104867339134216,
      "loss/crossentropy": 2.888067865371704,
      "loss/logits": 0.9707460403442383,
      "step": 14000
    },
    {
      "epoch": 0.1401,
      "grad_norm": 10.375,
      "grad_norm_var": 6.564957682291666,
      "learning_rate": 0.0003,
      "loss": 12.2582,
      "loss/aux_loss": 0.04810222536325455,
      "loss/crossentropy": 2.671162748336792,
      "loss/logits": 0.9309888124465943,
      "step": 14010
    },
    {
      "epoch": 0.1402,
      "grad_norm": 12.25,
      "grad_norm_var": 0.7313639322916666,
      "learning_rate": 0.0003,
      "loss": 12.3619,
      "loss/aux_loss": 0.04810118060559034,
      "loss/crossentropy": 2.8578037440776827,
      "loss/logits": 0.9234833359718323,
      "step": 14020
    },
    {
      "epoch": 0.1403,
      "grad_norm": 9.875,
      "grad_norm_var": 0.919775390625,
      "learning_rate": 0.0003,
      "loss": 12.2416,
      "loss/aux_loss": 0.04809358064085245,
      "loss/crossentropy": 2.9598345518112184,
      "loss/logits": 0.9572826653718949,
      "step": 14030
    },
    {
      "epoch": 0.1404,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.23748372395833334,
      "learning_rate": 0.0003,
      "loss": 12.2382,
      "loss/aux_loss": 0.04810269232839346,
      "loss/crossentropy": 2.7237884759902955,
      "loss/logits": 0.9275262981653214,
      "step": 14040
    },
    {
      "epoch": 0.1405,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.4171875,
      "learning_rate": 0.0003,
      "loss": 12.6322,
      "loss/aux_loss": 0.04810795094817877,
      "loss/crossentropy": 2.8176922678947447,
      "loss/logits": 0.9676473349332809,
      "step": 14050
    },
    {
      "epoch": 0.1406,
      "grad_norm": 11.0,
      "grad_norm_var": 0.517431640625,
      "learning_rate": 0.0003,
      "loss": 12.3324,
      "loss/aux_loss": 0.04809824340045452,
      "loss/crossentropy": 2.830560302734375,
      "loss/logits": 0.9444521218538284,
      "step": 14060
    },
    {
      "epoch": 0.1407,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.38448893229166664,
      "learning_rate": 0.0003,
      "loss": 12.2942,
      "loss/aux_loss": 0.048107242211699486,
      "loss/crossentropy": 2.8280949234962462,
      "loss/logits": 0.9159689843654633,
      "step": 14070
    },
    {
      "epoch": 0.1408,
      "grad_norm": 10.8125,
      "grad_norm_var": 21.600244140625,
      "learning_rate": 0.0003,
      "loss": 12.1401,
      "loss/aux_loss": 0.048114721104502677,
      "loss/crossentropy": 2.805542439222336,
      "loss/logits": 0.9222520262002945,
      "step": 14080
    },
    {
      "epoch": 0.1409,
      "grad_norm": 10.875,
      "grad_norm_var": 0.7968587239583333,
      "learning_rate": 0.0003,
      "loss": 12.3523,
      "loss/aux_loss": 0.048097500950098036,
      "loss/crossentropy": 2.820968973636627,
      "loss/logits": 0.9572250634431839,
      "step": 14090
    },
    {
      "epoch": 0.141,
      "grad_norm": 10.375,
      "grad_norm_var": 0.4398274739583333,
      "learning_rate": 0.0003,
      "loss": 12.3109,
      "loss/aux_loss": 0.04811274372041226,
      "loss/crossentropy": 2.873396396636963,
      "loss/logits": 0.9583924978971481,
      "step": 14100
    },
    {
      "epoch": 0.1411,
      "grad_norm": 11.0,
      "grad_norm_var": 0.26886393229166666,
      "learning_rate": 0.0003,
      "loss": 12.4389,
      "loss/aux_loss": 0.04809671007096768,
      "loss/crossentropy": 2.81766881942749,
      "loss/logits": 0.9768635481595993,
      "step": 14110
    },
    {
      "epoch": 0.1412,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.1962890625,
      "learning_rate": 0.0003,
      "loss": 12.124,
      "loss/aux_loss": 0.048110161907970905,
      "loss/crossentropy": 2.7933003425598146,
      "loss/logits": 0.9018822848796845,
      "step": 14120
    },
    {
      "epoch": 0.1413,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.478369140625,
      "learning_rate": 0.0003,
      "loss": 12.3726,
      "loss/aux_loss": 0.04809680469334125,
      "loss/crossentropy": 2.961318391561508,
      "loss/logits": 0.9694911539554596,
      "step": 14130
    },
    {
      "epoch": 0.1414,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.30388997395833334,
      "learning_rate": 0.0003,
      "loss": 12.3803,
      "loss/aux_loss": 0.048111779242753984,
      "loss/crossentropy": 2.7930466175079345,
      "loss/logits": 0.9387133151292801,
      "step": 14140
    },
    {
      "epoch": 0.1415,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.327587890625,
      "learning_rate": 0.0003,
      "loss": 12.3241,
      "loss/aux_loss": 0.048099853470921515,
      "loss/crossentropy": 2.7507693111896514,
      "loss/logits": 0.923522162437439,
      "step": 14150
    },
    {
      "epoch": 0.1416,
      "grad_norm": 9.8125,
      "grad_norm_var": 0.2556640625,
      "learning_rate": 0.0003,
      "loss": 12.1408,
      "loss/aux_loss": 0.04810427725315094,
      "loss/crossentropy": 2.591277301311493,
      "loss/logits": 0.9115919172763824,
      "step": 14160
    },
    {
      "epoch": 0.1417,
      "grad_norm": 10.75,
      "grad_norm_var": 0.335009765625,
      "learning_rate": 0.0003,
      "loss": 12.3768,
      "loss/aux_loss": 0.04809947330504656,
      "loss/crossentropy": 2.9588594675064086,
      "loss/logits": 0.9485181331634521,
      "step": 14170
    },
    {
      "epoch": 0.1418,
      "grad_norm": 10.75,
      "grad_norm_var": 0.44698893229166664,
      "learning_rate": 0.0003,
      "loss": 12.4181,
      "loss/aux_loss": 0.04810207560658455,
      "loss/crossentropy": 2.9570438385009767,
      "loss/logits": 0.939887073636055,
      "step": 14180
    },
    {
      "epoch": 0.1419,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.3916015625,
      "learning_rate": 0.0003,
      "loss": 12.401,
      "loss/aux_loss": 0.0481014484539628,
      "loss/crossentropy": 2.912750172615051,
      "loss/logits": 0.9410306662321091,
      "step": 14190
    },
    {
      "epoch": 0.142,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.2747395833333333,
      "learning_rate": 0.0003,
      "loss": 12.3249,
      "loss/aux_loss": 0.04810392800718546,
      "loss/crossentropy": 2.840937912464142,
      "loss/logits": 0.9358460456132889,
      "step": 14200
    },
    {
      "epoch": 0.1421,
      "grad_norm": 10.875,
      "grad_norm_var": 0.3424479166666667,
      "learning_rate": 0.0003,
      "loss": 12.1907,
      "loss/aux_loss": 0.048108947835862635,
      "loss/crossentropy": 2.7028416991233826,
      "loss/logits": 0.9135666370391846,
      "step": 14210
    },
    {
      "epoch": 0.1422,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.391650390625,
      "learning_rate": 0.0003,
      "loss": 12.2893,
      "loss/aux_loss": 0.04810764603316784,
      "loss/crossentropy": 2.7547565340995788,
      "loss/logits": 0.9308681100606918,
      "step": 14220
    },
    {
      "epoch": 0.1423,
      "grad_norm": 11.625,
      "grad_norm_var": 0.134228515625,
      "learning_rate": 0.0003,
      "loss": 12.4046,
      "loss/aux_loss": 0.0481036901473999,
      "loss/crossentropy": 2.8777437806129456,
      "loss/logits": 0.9518471479415893,
      "step": 14230
    },
    {
      "epoch": 0.1424,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.343603515625,
      "learning_rate": 0.0003,
      "loss": 12.2732,
      "loss/aux_loss": 0.04810591135174036,
      "loss/crossentropy": 2.758294236660004,
      "loss/logits": 0.9424175173044205,
      "step": 14240
    },
    {
      "epoch": 0.1425,
      "grad_norm": 11.0,
      "grad_norm_var": 0.365087890625,
      "learning_rate": 0.0003,
      "loss": 12.2751,
      "loss/aux_loss": 0.04810457993298769,
      "loss/crossentropy": 2.7782435297966,
      "loss/logits": 0.9354342728853225,
      "step": 14250
    },
    {
      "epoch": 0.1426,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.2275390625,
      "learning_rate": 0.0003,
      "loss": 12.3644,
      "loss/aux_loss": 0.04809907414019108,
      "loss/crossentropy": 2.6942915558815,
      "loss/logits": 0.9781391233205795,
      "step": 14260
    },
    {
      "epoch": 0.1427,
      "grad_norm": 11.25,
      "grad_norm_var": 0.15818684895833332,
      "learning_rate": 0.0003,
      "loss": 12.2785,
      "loss/aux_loss": 0.04809475652873516,
      "loss/crossentropy": 2.8013816356658934,
      "loss/logits": 0.9540988564491272,
      "step": 14270
    },
    {
      "epoch": 0.1428,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.174072265625,
      "learning_rate": 0.0003,
      "loss": 12.274,
      "loss/aux_loss": 0.048094392754137516,
      "loss/crossentropy": 2.7784948647022247,
      "loss/logits": 0.9767741382122039,
      "step": 14280
    },
    {
      "epoch": 0.1429,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.49412434895833335,
      "learning_rate": 0.0003,
      "loss": 12.0625,
      "loss/aux_loss": 0.04810249712318182,
      "loss/crossentropy": 2.7680072247982026,
      "loss/logits": 0.9276201993227005,
      "step": 14290
    },
    {
      "epoch": 0.143,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.6501139322916667,
      "learning_rate": 0.0003,
      "loss": 12.377,
      "loss/aux_loss": 0.04810411389917135,
      "loss/crossentropy": 2.857174110412598,
      "loss/logits": 0.9727380841970443,
      "step": 14300
    },
    {
      "epoch": 0.1431,
      "grad_norm": 10.25,
      "grad_norm_var": 0.37890625,
      "learning_rate": 0.0003,
      "loss": 12.3747,
      "loss/aux_loss": 0.04810033030807972,
      "loss/crossentropy": 2.8648359537124635,
      "loss/logits": 0.9480609089136124,
      "step": 14310
    },
    {
      "epoch": 0.1432,
      "grad_norm": 11.125,
      "grad_norm_var": 0.42630208333333336,
      "learning_rate": 0.0003,
      "loss": 12.3662,
      "loss/aux_loss": 0.04809709247201681,
      "loss/crossentropy": 2.898632252216339,
      "loss/logits": 0.9568489253520965,
      "step": 14320
    },
    {
      "epoch": 0.1433,
      "grad_norm": 12.375,
      "grad_norm_var": 0.4400390625,
      "learning_rate": 0.0003,
      "loss": 12.0264,
      "loss/aux_loss": 0.048100917227566244,
      "loss/crossentropy": 2.740042132139206,
      "loss/logits": 0.9168058276176453,
      "step": 14330
    },
    {
      "epoch": 0.1434,
      "grad_norm": 11.5,
      "grad_norm_var": 0.25909830729166666,
      "learning_rate": 0.0003,
      "loss": 12.2735,
      "loss/aux_loss": 0.048106574639678004,
      "loss/crossentropy": 2.599212634563446,
      "loss/logits": 0.9046968847513199,
      "step": 14340
    },
    {
      "epoch": 0.1435,
      "grad_norm": 11.375,
      "grad_norm_var": 0.18430989583333332,
      "learning_rate": 0.0003,
      "loss": 12.3895,
      "loss/aux_loss": 0.0481049045920372,
      "loss/crossentropy": 2.817890876531601,
      "loss/logits": 0.9239292711019516,
      "step": 14350
    },
    {
      "epoch": 0.1436,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.17701822916666668,
      "learning_rate": 0.0003,
      "loss": 12.1993,
      "loss/aux_loss": 0.048096088133752345,
      "loss/crossentropy": 2.841284441947937,
      "loss/logits": 0.9078822374343872,
      "step": 14360
    },
    {
      "epoch": 0.1437,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.334228515625,
      "learning_rate": 0.0003,
      "loss": 12.2995,
      "loss/aux_loss": 0.04810677636414766,
      "loss/crossentropy": 2.8144130051136016,
      "loss/logits": 0.9448065549135208,
      "step": 14370
    },
    {
      "epoch": 0.1438,
      "grad_norm": 10.75,
      "grad_norm_var": 0.499462890625,
      "learning_rate": 0.0003,
      "loss": 12.3904,
      "loss/aux_loss": 0.048093562759459016,
      "loss/crossentropy": 2.7329901337623594,
      "loss/logits": 0.9095306128263474,
      "step": 14380
    },
    {
      "epoch": 0.1439,
      "grad_norm": 11.0,
      "grad_norm_var": 0.3337890625,
      "learning_rate": 0.0003,
      "loss": 12.3279,
      "loss/aux_loss": 0.048103582486510275,
      "loss/crossentropy": 2.7921825289726256,
      "loss/logits": 0.8989864021539689,
      "step": 14390
    },
    {
      "epoch": 0.144,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.3791015625,
      "learning_rate": 0.0003,
      "loss": 12.2123,
      "loss/aux_loss": 0.04809750877320766,
      "loss/crossentropy": 2.757075470685959,
      "loss/logits": 0.9241562187671661,
      "step": 14400
    },
    {
      "epoch": 0.1441,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.3485514322916667,
      "learning_rate": 0.0003,
      "loss": 12.2931,
      "loss/aux_loss": 0.04810139331966638,
      "loss/crossentropy": 2.7922261476516725,
      "loss/logits": 0.9176064521074295,
      "step": 14410
    },
    {
      "epoch": 0.1442,
      "grad_norm": 11.875,
      "grad_norm_var": 0.3316243489583333,
      "learning_rate": 0.0003,
      "loss": 12.254,
      "loss/aux_loss": 0.04809432700276375,
      "loss/crossentropy": 2.699055606126785,
      "loss/logits": 0.922983717918396,
      "step": 14420
    },
    {
      "epoch": 0.1443,
      "grad_norm": 13.25,
      "grad_norm_var": 0.5127604166666667,
      "learning_rate": 0.0003,
      "loss": 12.3069,
      "loss/aux_loss": 0.04811172112822533,
      "loss/crossentropy": 2.6716023087501526,
      "loss/logits": 0.916047015786171,
      "step": 14430
    },
    {
      "epoch": 0.1444,
      "grad_norm": 12.0,
      "grad_norm_var": 0.5277180989583333,
      "learning_rate": 0.0003,
      "loss": 12.063,
      "loss/aux_loss": 0.048108107224106786,
      "loss/crossentropy": 2.722955423593521,
      "loss/logits": 0.9298226207494735,
      "step": 14440
    },
    {
      "epoch": 0.1445,
      "grad_norm": 12.0,
      "grad_norm_var": 0.6900390625,
      "learning_rate": 0.0003,
      "loss": 12.4038,
      "loss/aux_loss": 0.04810595251619816,
      "loss/crossentropy": 2.758984863758087,
      "loss/logits": 0.9555283427238465,
      "step": 14450
    },
    {
      "epoch": 0.1446,
      "grad_norm": 10.5,
      "grad_norm_var": 1.40625,
      "learning_rate": 0.0003,
      "loss": 12.2967,
      "loss/aux_loss": 0.04809891190379858,
      "loss/crossentropy": 2.9647063076496125,
      "loss/logits": 0.9323074251413346,
      "step": 14460
    },
    {
      "epoch": 0.1447,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.2816243489583333,
      "learning_rate": 0.0003,
      "loss": 12.1597,
      "loss/aux_loss": 0.048092216812074186,
      "loss/crossentropy": 2.825933372974396,
      "loss/logits": 0.9327166765928269,
      "step": 14470
    },
    {
      "epoch": 0.1448,
      "grad_norm": 11.625,
      "grad_norm_var": 0.21927083333333333,
      "learning_rate": 0.0003,
      "loss": 12.1911,
      "loss/aux_loss": 0.048105007782578466,
      "loss/crossentropy": 2.8361350774765013,
      "loss/logits": 0.9484387129545212,
      "step": 14480
    },
    {
      "epoch": 0.1449,
      "grad_norm": 12.125,
      "grad_norm_var": 0.44895833333333335,
      "learning_rate": 0.0003,
      "loss": 12.2172,
      "loss/aux_loss": 0.04810567460954189,
      "loss/crossentropy": 3.038946294784546,
      "loss/logits": 0.93484668135643,
      "step": 14490
    },
    {
      "epoch": 0.145,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.190625,
      "learning_rate": 0.0003,
      "loss": 12.0355,
      "loss/aux_loss": 0.04809667877852917,
      "loss/crossentropy": 2.7166079699993135,
      "loss/logits": 0.9272844552993774,
      "step": 14500
    },
    {
      "epoch": 0.1451,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.3563639322916667,
      "learning_rate": 0.0003,
      "loss": 12.1147,
      "loss/aux_loss": 0.04810612741857767,
      "loss/crossentropy": 2.8721679210662843,
      "loss/logits": 0.9418263047933578,
      "step": 14510
    },
    {
      "epoch": 0.1452,
      "grad_norm": 13.75,
      "grad_norm_var": 0.8372395833333334,
      "learning_rate": 0.0003,
      "loss": 12.294,
      "loss/aux_loss": 0.0481014546006918,
      "loss/crossentropy": 2.8245011150836943,
      "loss/logits": 0.9494610846042633,
      "step": 14520
    },
    {
      "epoch": 0.1453,
      "grad_norm": 12.375,
      "grad_norm_var": 0.6234375,
      "learning_rate": 0.0003,
      "loss": 12.4112,
      "loss/aux_loss": 0.048096208833158016,
      "loss/crossentropy": 2.841428017616272,
      "loss/logits": 0.9481588363647461,
      "step": 14530
    },
    {
      "epoch": 0.1454,
      "grad_norm": 11.625,
      "grad_norm_var": 0.2752604166666667,
      "learning_rate": 0.0003,
      "loss": 12.3017,
      "loss/aux_loss": 0.048103177733719346,
      "loss/crossentropy": 2.8085617065429687,
      "loss/logits": 0.9153319448232651,
      "step": 14540
    },
    {
      "epoch": 0.1455,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.7103515625,
      "learning_rate": 0.0003,
      "loss": 12.0693,
      "loss/aux_loss": 0.04810036141425371,
      "loss/crossentropy": 2.780474007129669,
      "loss/logits": 0.9415223807096481,
      "step": 14550
    },
    {
      "epoch": 0.1456,
      "grad_norm": 13.25,
      "grad_norm_var": 0.590087890625,
      "learning_rate": 0.0003,
      "loss": 12.2025,
      "loss/aux_loss": 0.04810147602111101,
      "loss/crossentropy": 2.99658949971199,
      "loss/logits": 0.9620972305536271,
      "step": 14560
    },
    {
      "epoch": 0.1457,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.5958170572916667,
      "learning_rate": 0.0003,
      "loss": 12.2627,
      "loss/aux_loss": 0.04810364861041307,
      "loss/crossentropy": 2.804142338037491,
      "loss/logits": 0.9306607961654663,
      "step": 14570
    },
    {
      "epoch": 0.1458,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.718212890625,
      "learning_rate": 0.0003,
      "loss": 12.2289,
      "loss/aux_loss": 0.048095517046749595,
      "loss/crossentropy": 2.887796187400818,
      "loss/logits": 0.9498396337032318,
      "step": 14580
    },
    {
      "epoch": 0.1459,
      "grad_norm": 10.4375,
      "grad_norm_var": 224.5869140625,
      "learning_rate": 0.0003,
      "loss": 12.2851,
      "loss/aux_loss": 0.04810778181999922,
      "loss/crossentropy": 2.8193862557411196,
      "loss/logits": 0.9181474059820175,
      "step": 14590
    },
    {
      "epoch": 0.146,
      "grad_norm": 10.625,
      "grad_norm_var": 0.9703125,
      "learning_rate": 0.0003,
      "loss": 12.3751,
      "loss/aux_loss": 0.048111128620803356,
      "loss/crossentropy": 2.8784336388111114,
      "loss/logits": 0.9728086590766907,
      "step": 14600
    },
    {
      "epoch": 0.1461,
      "grad_norm": 11.25,
      "grad_norm_var": 1.16015625,
      "learning_rate": 0.0003,
      "loss": 12.307,
      "loss/aux_loss": 0.0481025354936719,
      "loss/crossentropy": 2.7547997891902924,
      "loss/logits": 0.9490894585847854,
      "step": 14610
    },
    {
      "epoch": 0.1462,
      "grad_norm": 10.5,
      "grad_norm_var": 0.7546875,
      "learning_rate": 0.0003,
      "loss": 12.2052,
      "loss/aux_loss": 0.04810136090964079,
      "loss/crossentropy": 2.8345041155815123,
      "loss/logits": 0.932789009809494,
      "step": 14620
    },
    {
      "epoch": 0.1463,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.5806640625,
      "learning_rate": 0.0003,
      "loss": 12.3757,
      "loss/aux_loss": 0.048109573498368266,
      "loss/crossentropy": 2.812575626373291,
      "loss/logits": 0.909963321685791,
      "step": 14630
    },
    {
      "epoch": 0.1464,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.7407389322916667,
      "learning_rate": 0.0003,
      "loss": 12.3286,
      "loss/aux_loss": 0.04808946587145328,
      "loss/crossentropy": 3.0018001079559324,
      "loss/logits": 0.9122880339622498,
      "step": 14640
    },
    {
      "epoch": 0.1465,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.2999348958333333,
      "learning_rate": 0.0003,
      "loss": 12.2271,
      "loss/aux_loss": 0.04810205716639757,
      "loss/crossentropy": 2.813987505435944,
      "loss/logits": 0.9646568685770035,
      "step": 14650
    },
    {
      "epoch": 0.1466,
      "grad_norm": 11.375,
      "grad_norm_var": 0.30130208333333336,
      "learning_rate": 0.0003,
      "loss": 12.3144,
      "loss/aux_loss": 0.04810758735984564,
      "loss/crossentropy": 2.8299679458141327,
      "loss/logits": 0.986625736951828,
      "step": 14660
    },
    {
      "epoch": 0.1467,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.448291015625,
      "learning_rate": 0.0003,
      "loss": 12.1161,
      "loss/aux_loss": 0.04809447340667248,
      "loss/crossentropy": 2.72513552904129,
      "loss/logits": 0.9294513940811158,
      "step": 14670
    },
    {
      "epoch": 0.1468,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.6794270833333333,
      "learning_rate": 0.0003,
      "loss": 12.3315,
      "loss/aux_loss": 0.048106583207845686,
      "loss/crossentropy": 2.876382863521576,
      "loss/logits": 0.9856162458658219,
      "step": 14680
    },
    {
      "epoch": 0.1469,
      "grad_norm": 11.625,
      "grad_norm_var": 0.43483072916666665,
      "learning_rate": 0.0003,
      "loss": 12.2266,
      "loss/aux_loss": 0.04810109194368124,
      "loss/crossentropy": 2.7526570439338682,
      "loss/logits": 0.9561353415250778,
      "step": 14690
    },
    {
      "epoch": 0.147,
      "grad_norm": 10.5,
      "grad_norm_var": 0.3259765625,
      "learning_rate": 0.0003,
      "loss": 12.2576,
      "loss/aux_loss": 0.04809536933898926,
      "loss/crossentropy": 2.841619998216629,
      "loss/logits": 0.9037140548229218,
      "step": 14700
    },
    {
      "epoch": 0.1471,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.17081705729166666,
      "learning_rate": 0.0003,
      "loss": 12.1134,
      "loss/aux_loss": 0.04811270516365766,
      "loss/crossentropy": 2.8084808826446532,
      "loss/logits": 0.8835839122533798,
      "step": 14710
    },
    {
      "epoch": 0.1472,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.15703125,
      "learning_rate": 0.0003,
      "loss": 12.362,
      "loss/aux_loss": 0.04809713140130043,
      "loss/crossentropy": 2.7635149002075194,
      "loss/logits": 0.9131356865167618,
      "step": 14720
    },
    {
      "epoch": 0.1473,
      "grad_norm": 37.75,
      "grad_norm_var": 43.606754557291666,
      "learning_rate": 0.0003,
      "loss": 12.3082,
      "loss/aux_loss": 0.04809991512447596,
      "loss/crossentropy": 2.6443506985902787,
      "loss/logits": 0.9391460686922073,
      "step": 14730
    },
    {
      "epoch": 0.1474,
      "grad_norm": 10.75,
      "grad_norm_var": 43.39609375,
      "learning_rate": 0.0003,
      "loss": 12.1862,
      "loss/aux_loss": 0.048105531558394435,
      "loss/crossentropy": 2.745135086774826,
      "loss/logits": 0.9022040009498596,
      "step": 14740
    },
    {
      "epoch": 0.1475,
      "grad_norm": 11.125,
      "grad_norm_var": 0.849072265625,
      "learning_rate": 0.0003,
      "loss": 12.2467,
      "loss/aux_loss": 0.04809885751456022,
      "loss/crossentropy": 2.8118128538131715,
      "loss/logits": 0.9468438357114792,
      "step": 14750
    },
    {
      "epoch": 0.1476,
      "grad_norm": 10.75,
      "grad_norm_var": 0.8421223958333334,
      "learning_rate": 0.0003,
      "loss": 12.2405,
      "loss/aux_loss": 0.04809672348201275,
      "loss/crossentropy": 2.9226966857910157,
      "loss/logits": 0.9427454113960266,
      "step": 14760
    },
    {
      "epoch": 0.1477,
      "grad_norm": 10.75,
      "grad_norm_var": 0.402978515625,
      "learning_rate": 0.0003,
      "loss": 12.0438,
      "loss/aux_loss": 0.04809822179377079,
      "loss/crossentropy": 2.7584859311580656,
      "loss/logits": 0.9179711043834686,
      "step": 14770
    },
    {
      "epoch": 0.1478,
      "grad_norm": 10.75,
      "grad_norm_var": 0.32941080729166666,
      "learning_rate": 0.0003,
      "loss": 12.2503,
      "loss/aux_loss": 0.04809885416179895,
      "loss/crossentropy": 2.9167349338531494,
      "loss/logits": 0.9420515596866608,
      "step": 14780
    },
    {
      "epoch": 0.1479,
      "grad_norm": 11.625,
      "grad_norm_var": 8.384098307291667,
      "learning_rate": 0.0003,
      "loss": 12.296,
      "loss/aux_loss": 0.04811673872172832,
      "loss/crossentropy": 2.6683114945888518,
      "loss/logits": 0.9089529395103455,
      "step": 14790
    },
    {
      "epoch": 0.148,
      "grad_norm": 11.0625,
      "grad_norm_var": 8.616145833333333,
      "learning_rate": 0.0003,
      "loss": 12.4053,
      "loss/aux_loss": 0.048098386451601985,
      "loss/crossentropy": 2.920657384395599,
      "loss/logits": 0.954785504937172,
      "step": 14800
    },
    {
      "epoch": 0.1481,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.6645182291666667,
      "learning_rate": 0.0003,
      "loss": 12.32,
      "loss/aux_loss": 0.048104028962552545,
      "loss/crossentropy": 2.8948807239532472,
      "loss/logits": 0.9660200357437134,
      "step": 14810
    },
    {
      "epoch": 0.1482,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.3228515625,
      "learning_rate": 0.0003,
      "loss": 12.2445,
      "loss/aux_loss": 0.04809078220278025,
      "loss/crossentropy": 2.6194146156311033,
      "loss/logits": 0.9160060435533524,
      "step": 14820
    },
    {
      "epoch": 0.1483,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.3328125,
      "learning_rate": 0.0003,
      "loss": 12.2885,
      "loss/aux_loss": 0.048103746958076954,
      "loss/crossentropy": 2.754777866601944,
      "loss/logits": 0.949258816242218,
      "step": 14830
    },
    {
      "epoch": 0.1484,
      "grad_norm": 11.8125,
      "grad_norm_var": 19.371077473958334,
      "learning_rate": 0.0003,
      "loss": 12.3542,
      "loss/aux_loss": 0.0480975853279233,
      "loss/crossentropy": 2.8865331768989564,
      "loss/logits": 0.9503841429948807,
      "step": 14840
    },
    {
      "epoch": 0.1485,
      "grad_norm": 11.5625,
      "grad_norm_var": 19.502978515625,
      "learning_rate": 0.0003,
      "loss": 12.2103,
      "loss/aux_loss": 0.04809964876621962,
      "loss/crossentropy": 2.8561151921749115,
      "loss/logits": 0.9401407986879349,
      "step": 14850
    },
    {
      "epoch": 0.1486,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.692431640625,
      "learning_rate": 0.0003,
      "loss": 12.2275,
      "loss/aux_loss": 0.04810830354690552,
      "loss/crossentropy": 2.8200284421443937,
      "loss/logits": 0.9532903909683228,
      "step": 14860
    },
    {
      "epoch": 0.1487,
      "grad_norm": 12.4375,
      "grad_norm_var": 20.823421223958334,
      "learning_rate": 0.0003,
      "loss": 12.2273,
      "loss/aux_loss": 0.04810541290789842,
      "loss/crossentropy": 2.6964865624904633,
      "loss/logits": 0.9282492130994797,
      "step": 14870
    },
    {
      "epoch": 0.1488,
      "grad_norm": 12.4375,
      "grad_norm_var": 20.870247395833335,
      "learning_rate": 0.0003,
      "loss": 12.3184,
      "loss/aux_loss": 0.04810648560523987,
      "loss/crossentropy": 2.8158532321453094,
      "loss/logits": 0.9431109875440598,
      "step": 14880
    },
    {
      "epoch": 0.1489,
      "grad_norm": 10.5,
      "grad_norm_var": 0.601025390625,
      "learning_rate": 0.0003,
      "loss": 12.2071,
      "loss/aux_loss": 0.048101908154785634,
      "loss/crossentropy": 2.803946614265442,
      "loss/logits": 0.9242048561573029,
      "step": 14890
    },
    {
      "epoch": 0.149,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.7249348958333334,
      "learning_rate": 0.0003,
      "loss": 12.0886,
      "loss/aux_loss": 0.04810064677149058,
      "loss/crossentropy": 2.778617113828659,
      "loss/logits": 0.9423558235168457,
      "step": 14900
    },
    {
      "epoch": 0.1491,
      "grad_norm": 11.75,
      "grad_norm_var": 0.5096354166666667,
      "learning_rate": 0.0003,
      "loss": 12.1908,
      "loss/aux_loss": 0.0481045451015234,
      "loss/crossentropy": 2.854165458679199,
      "loss/logits": 0.9379553228616715,
      "step": 14910
    },
    {
      "epoch": 0.1492,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.46848958333333335,
      "learning_rate": 0.0003,
      "loss": 12.4479,
      "loss/aux_loss": 0.04809947554022074,
      "loss/crossentropy": 2.8008215487003327,
      "loss/logits": 0.9356680005788803,
      "step": 14920
    },
    {
      "epoch": 0.1493,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.13587239583333333,
      "learning_rate": 0.0003,
      "loss": 12.0882,
      "loss/aux_loss": 0.04809720925986767,
      "loss/crossentropy": 2.7476901531219484,
      "loss/logits": 0.9420498043298722,
      "step": 14930
    },
    {
      "epoch": 0.1494,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.208447265625,
      "learning_rate": 0.0003,
      "loss": 12.2413,
      "loss/aux_loss": 0.0480950940400362,
      "loss/crossentropy": 2.864052379131317,
      "loss/logits": 0.9272116690874099,
      "step": 14940
    },
    {
      "epoch": 0.1495,
      "grad_norm": 11.375,
      "grad_norm_var": 0.311181640625,
      "learning_rate": 0.0003,
      "loss": 12.2616,
      "loss/aux_loss": 0.04809942021965981,
      "loss/crossentropy": 2.9187353610992433,
      "loss/logits": 0.9510285437107087,
      "step": 14950
    },
    {
      "epoch": 0.1496,
      "grad_norm": 11.9375,
      "grad_norm_var": 47.15206705729167,
      "learning_rate": 0.0003,
      "loss": 12.3457,
      "loss/aux_loss": 0.04811178985983133,
      "loss/crossentropy": 2.7071347713470457,
      "loss/logits": 0.9264847010374069,
      "step": 14960
    },
    {
      "epoch": 0.1497,
      "grad_norm": 10.875,
      "grad_norm_var": 0.9809895833333333,
      "learning_rate": 0.0003,
      "loss": 12.0873,
      "loss/aux_loss": 0.048096916265785696,
      "loss/crossentropy": 2.8192372739315035,
      "loss/logits": 0.961195969581604,
      "step": 14970
    },
    {
      "epoch": 0.1498,
      "grad_norm": 11.0,
      "grad_norm_var": 0.7156087239583333,
      "learning_rate": 0.0003,
      "loss": 12.113,
      "loss/aux_loss": 0.04811111818999052,
      "loss/crossentropy": 2.698056328296661,
      "loss/logits": 0.9076811641454696,
      "step": 14980
    },
    {
      "epoch": 0.1499,
      "grad_norm": 12.0,
      "grad_norm_var": 269.00714518229165,
      "learning_rate": 0.0003,
      "loss": 12.3343,
      "loss/aux_loss": 0.048099159449338916,
      "loss/crossentropy": 2.7637811422348024,
      "loss/logits": 0.968485102057457,
      "step": 14990
    },
    {
      "epoch": 0.15,
      "grad_norm": 11.375,
      "grad_norm_var": 269.80128580729166,
      "learning_rate": 0.0003,
      "loss": 12.4506,
      "loss/aux_loss": 0.04810250028967857,
      "loss/crossentropy": 2.8541912317276,
      "loss/logits": 0.987116688489914,
      "step": 15000
    },
    {
      "epoch": 0.1501,
      "grad_norm": 10.75,
      "grad_norm_var": 0.6130208333333333,
      "learning_rate": 0.0003,
      "loss": 12.2255,
      "loss/aux_loss": 0.048107155971229075,
      "loss/crossentropy": 2.7818135201931,
      "loss/logits": 0.9167533338069915,
      "step": 15010
    },
    {
      "epoch": 0.1502,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.13170572916666667,
      "learning_rate": 0.0003,
      "loss": 12.356,
      "loss/aux_loss": 0.04810172915458679,
      "loss/crossentropy": 2.940346974134445,
      "loss/logits": 0.952643695473671,
      "step": 15020
    },
    {
      "epoch": 0.1503,
      "grad_norm": 12.125,
      "grad_norm_var": 0.5635416666666667,
      "learning_rate": 0.0003,
      "loss": 12.2117,
      "loss/aux_loss": 0.04809871483594179,
      "loss/crossentropy": 2.7255462646484374,
      "loss/logits": 0.9134910553693771,
      "step": 15030
    },
    {
      "epoch": 0.1504,
      "grad_norm": 12.0,
      "grad_norm_var": 0.5828125,
      "learning_rate": 0.0003,
      "loss": 12.197,
      "loss/aux_loss": 0.04809676483273506,
      "loss/crossentropy": 2.9399500370025633,
      "loss/logits": 0.9335614711046218,
      "step": 15040
    },
    {
      "epoch": 0.1505,
      "grad_norm": 11.75,
      "grad_norm_var": 0.296337890625,
      "learning_rate": 0.0003,
      "loss": 12.2855,
      "loss/aux_loss": 0.048100493475794794,
      "loss/crossentropy": 2.83375204205513,
      "loss/logits": 0.9076710551977157,
      "step": 15050
    },
    {
      "epoch": 0.1506,
      "grad_norm": 10.125,
      "grad_norm_var": 1.1322916666666667,
      "learning_rate": 0.0003,
      "loss": 12.1571,
      "loss/aux_loss": 0.0481040021404624,
      "loss/crossentropy": 2.9388111233711243,
      "loss/logits": 0.9607951223850251,
      "step": 15060
    },
    {
      "epoch": 0.1507,
      "grad_norm": 11.875,
      "grad_norm_var": 0.3541666666666667,
      "learning_rate": 0.0003,
      "loss": 12.4012,
      "loss/aux_loss": 0.04810583982616663,
      "loss/crossentropy": 2.875928044319153,
      "loss/logits": 0.9627457737922669,
      "step": 15070
    },
    {
      "epoch": 0.1508,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.32786458333333335,
      "learning_rate": 0.0003,
      "loss": 12.2652,
      "loss/aux_loss": 0.04809319153428078,
      "loss/crossentropy": 2.9540405869483948,
      "loss/logits": 0.9330450028181076,
      "step": 15080
    },
    {
      "epoch": 0.1509,
      "grad_norm": 11.625,
      "grad_norm_var": 0.32760416666666664,
      "learning_rate": 0.0003,
      "loss": 12.1051,
      "loss/aux_loss": 0.048104870691895486,
      "loss/crossentropy": 2.8114062428474424,
      "loss/logits": 0.9364354491233826,
      "step": 15090
    },
    {
      "epoch": 0.151,
      "grad_norm": 12.0,
      "grad_norm_var": 36.4619140625,
      "learning_rate": 0.0003,
      "loss": 12.2164,
      "loss/aux_loss": 0.04811019506305456,
      "loss/crossentropy": 2.859804928302765,
      "loss/logits": 0.9465476185083389,
      "step": 15100
    },
    {
      "epoch": 0.1511,
      "grad_norm": 10.9375,
      "grad_norm_var": 35.42526041666667,
      "learning_rate": 0.0003,
      "loss": 12.3094,
      "loss/aux_loss": 0.04809868466109037,
      "loss/crossentropy": 2.8438979148864747,
      "loss/logits": 0.8984570145606995,
      "step": 15110
    },
    {
      "epoch": 0.1512,
      "grad_norm": 12.3125,
      "grad_norm_var": 1.280712890625,
      "learning_rate": 0.0003,
      "loss": 12.2106,
      "loss/aux_loss": 0.048102298937737945,
      "loss/crossentropy": 2.8705235600471495,
      "loss/logits": 0.9498428493738175,
      "step": 15120
    },
    {
      "epoch": 0.1513,
      "grad_norm": 10.9375,
      "grad_norm_var": 1.2218098958333334,
      "learning_rate": 0.0003,
      "loss": 12.208,
      "loss/aux_loss": 0.04809999018907547,
      "loss/crossentropy": 2.90715229511261,
      "loss/logits": 0.9575346529483795,
      "step": 15130
    },
    {
      "epoch": 0.1514,
      "grad_norm": 13.125,
      "grad_norm_var": 0.46145833333333336,
      "learning_rate": 0.0003,
      "loss": 12.2519,
      "loss/aux_loss": 0.04809638075530529,
      "loss/crossentropy": 2.7828579187393188,
      "loss/logits": 0.9503386884927749,
      "step": 15140
    },
    {
      "epoch": 0.1515,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.3907389322916667,
      "learning_rate": 0.0003,
      "loss": 12.2184,
      "loss/aux_loss": 0.04810054805129767,
      "loss/crossentropy": 2.871291196346283,
      "loss/logits": 0.9457465648651123,
      "step": 15150
    },
    {
      "epoch": 0.1516,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.328369140625,
      "learning_rate": 0.0003,
      "loss": 12.1969,
      "loss/aux_loss": 0.04810226745903492,
      "loss/crossentropy": 2.773683416843414,
      "loss/logits": 0.9155610114336014,
      "step": 15160
    },
    {
      "epoch": 0.1517,
      "grad_norm": 10.875,
      "grad_norm_var": 0.39036458333333335,
      "learning_rate": 0.0003,
      "loss": 12.1309,
      "loss/aux_loss": 0.04810235556215048,
      "loss/crossentropy": 2.908278775215149,
      "loss/logits": 0.9158676236867904,
      "step": 15170
    },
    {
      "epoch": 0.1518,
      "grad_norm": 10.875,
      "grad_norm_var": 0.24264322916666667,
      "learning_rate": 0.0003,
      "loss": 12.1781,
      "loss/aux_loss": 0.04809516854584217,
      "loss/crossentropy": 2.737054407596588,
      "loss/logits": 0.9324061542749404,
      "step": 15180
    },
    {
      "epoch": 0.1519,
      "grad_norm": 10.6875,
      "grad_norm_var": 24.646354166666665,
      "learning_rate": 0.0003,
      "loss": 12.1106,
      "loss/aux_loss": 0.048110068589448926,
      "loss/crossentropy": 2.820358157157898,
      "loss/logits": 0.937472653388977,
      "step": 15190
    },
    {
      "epoch": 0.152,
      "grad_norm": 12.1875,
      "grad_norm_var": 1.719384765625,
      "learning_rate": 0.0003,
      "loss": 12.1341,
      "loss/aux_loss": 0.04811493624001741,
      "loss/crossentropy": 2.8123875498771667,
      "loss/logits": 0.915363097190857,
      "step": 15200
    },
    {
      "epoch": 0.1521,
      "grad_norm": 11.0625,
      "grad_norm_var": 1.6275390625,
      "learning_rate": 0.0003,
      "loss": 12.0856,
      "loss/aux_loss": 0.048097194731235506,
      "loss/crossentropy": 2.9831456780433654,
      "loss/logits": 0.9460885792970657,
      "step": 15210
    },
    {
      "epoch": 0.1522,
      "grad_norm": 10.25,
      "grad_norm_var": 0.3004557291666667,
      "learning_rate": 0.0003,
      "loss": 11.8513,
      "loss/aux_loss": 0.04810490664094687,
      "loss/crossentropy": 2.7776617228984835,
      "loss/logits": 0.9056734681129456,
      "step": 15220
    },
    {
      "epoch": 0.1523,
      "grad_norm": 11.25,
      "grad_norm_var": 0.22263997395833332,
      "learning_rate": 0.0003,
      "loss": 12.0605,
      "loss/aux_loss": 0.04809698183089495,
      "loss/crossentropy": 2.8233635425567627,
      "loss/logits": 0.9389057904481888,
      "step": 15230
    },
    {
      "epoch": 0.1524,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.4488118489583333,
      "learning_rate": 0.0003,
      "loss": 12.1783,
      "loss/aux_loss": 0.048117165453732014,
      "loss/crossentropy": 2.66759774684906,
      "loss/logits": 0.9018658816814422,
      "step": 15240
    },
    {
      "epoch": 0.1525,
      "grad_norm": 11.75,
      "grad_norm_var": 0.46295572916666666,
      "learning_rate": 0.0003,
      "loss": 12.1848,
      "loss/aux_loss": 0.048101647198200224,
      "loss/crossentropy": 2.803697109222412,
      "loss/logits": 0.9530074447393417,
      "step": 15250
    },
    {
      "epoch": 0.1526,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.25930989583333336,
      "learning_rate": 0.0003,
      "loss": 12.1231,
      "loss/aux_loss": 0.04810661189258099,
      "loss/crossentropy": 2.847998285293579,
      "loss/logits": 0.9225472122430801,
      "step": 15260
    },
    {
      "epoch": 0.1527,
      "grad_norm": 11.75,
      "grad_norm_var": 0.14837239583333334,
      "learning_rate": 0.0003,
      "loss": 12.2114,
      "loss/aux_loss": 0.048101527616381645,
      "loss/crossentropy": 2.8020704984664917,
      "loss/logits": 0.9532386660575867,
      "step": 15270
    },
    {
      "epoch": 0.1528,
      "grad_norm": 11.625,
      "grad_norm_var": 0.20701497395833332,
      "learning_rate": 0.0003,
      "loss": 11.9737,
      "loss/aux_loss": 0.0480971185490489,
      "loss/crossentropy": 2.984708344936371,
      "loss/logits": 0.9079653114080429,
      "step": 15280
    },
    {
      "epoch": 0.1529,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.22057291666666667,
      "learning_rate": 0.0003,
      "loss": 12.3004,
      "loss/aux_loss": 0.0480941278859973,
      "loss/crossentropy": 2.877718913555145,
      "loss/logits": 0.9893636494874954,
      "step": 15290
    },
    {
      "epoch": 0.153,
      "grad_norm": 11.0,
      "grad_norm_var": 0.5619791666666667,
      "learning_rate": 0.0003,
      "loss": 12.3488,
      "loss/aux_loss": 0.04810192976146936,
      "loss/crossentropy": 2.6575785517692565,
      "loss/logits": 0.9273690760135651,
      "step": 15300
    },
    {
      "epoch": 0.1531,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.675,
      "learning_rate": 0.0003,
      "loss": 12.3104,
      "loss/aux_loss": 0.048097644187510016,
      "loss/crossentropy": 2.748287373781204,
      "loss/logits": 0.948896062374115,
      "step": 15310
    },
    {
      "epoch": 0.1532,
      "grad_norm": 11.125,
      "grad_norm_var": 0.31953125,
      "learning_rate": 0.0003,
      "loss": 12.2604,
      "loss/aux_loss": 0.04810179900377989,
      "loss/crossentropy": 2.7924574255943297,
      "loss/logits": 0.9476647943258285,
      "step": 15320
    },
    {
      "epoch": 0.1533,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.2618326822916667,
      "learning_rate": 0.0003,
      "loss": 12.1864,
      "loss/aux_loss": 0.04809467382729053,
      "loss/crossentropy": 2.8050376057624815,
      "loss/logits": 0.9532152026891708,
      "step": 15330
    },
    {
      "epoch": 0.1534,
      "grad_norm": 11.625,
      "grad_norm_var": 0.29140625,
      "learning_rate": 0.0003,
      "loss": 12.347,
      "loss/aux_loss": 0.04810280818492174,
      "loss/crossentropy": 2.8835896611213685,
      "loss/logits": 0.9571986377239228,
      "step": 15340
    },
    {
      "epoch": 0.1535,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.18333333333333332,
      "learning_rate": 0.0003,
      "loss": 12.2084,
      "loss/aux_loss": 0.04809752386063337,
      "loss/crossentropy": 2.749102717638016,
      "loss/logits": 0.9065598905086517,
      "step": 15350
    },
    {
      "epoch": 0.1536,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.21979166666666666,
      "learning_rate": 0.0003,
      "loss": 12.0297,
      "loss/aux_loss": 0.04811021964997053,
      "loss/crossentropy": 2.9079548954963683,
      "loss/logits": 0.9038378298282623,
      "step": 15360
    },
    {
      "epoch": 0.1537,
      "grad_norm": 11.625,
      "grad_norm_var": 0.38743489583333335,
      "learning_rate": 0.0003,
      "loss": 12.2798,
      "loss/aux_loss": 0.04810038134455681,
      "loss/crossentropy": 2.696992439031601,
      "loss/logits": 0.9243462920188904,
      "step": 15370
    },
    {
      "epoch": 0.1538,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.419775390625,
      "learning_rate": 0.0003,
      "loss": 12.3808,
      "loss/aux_loss": 0.048097037523984906,
      "loss/crossentropy": 2.955533170700073,
      "loss/logits": 0.962461119890213,
      "step": 15380
    },
    {
      "epoch": 0.1539,
      "grad_norm": 11.625,
      "grad_norm_var": 0.4515462239583333,
      "learning_rate": 0.0003,
      "loss": 12.255,
      "loss/aux_loss": 0.04808609709143639,
      "loss/crossentropy": 2.8893189787864686,
      "loss/logits": 0.9806782245635987,
      "step": 15390
    },
    {
      "epoch": 0.154,
      "grad_norm": 13.125,
      "grad_norm_var": 0.5421875,
      "learning_rate": 0.0003,
      "loss": 12.2583,
      "loss/aux_loss": 0.048098246194422246,
      "loss/crossentropy": 3.016023313999176,
      "loss/logits": 0.9697432667016983,
      "step": 15400
    },
    {
      "epoch": 0.1541,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.5311848958333333,
      "learning_rate": 0.0003,
      "loss": 12.2399,
      "loss/aux_loss": 0.04809315577149391,
      "loss/crossentropy": 2.803581511974335,
      "loss/logits": 0.9420624375343323,
      "step": 15410
    },
    {
      "epoch": 0.1542,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.371728515625,
      "learning_rate": 0.0003,
      "loss": 12.2796,
      "loss/aux_loss": 0.04809564612805843,
      "loss/crossentropy": 2.9065362393856047,
      "loss/logits": 0.9607432782649994,
      "step": 15420
    },
    {
      "epoch": 0.1543,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.4650390625,
      "learning_rate": 0.0003,
      "loss": 12.2096,
      "loss/aux_loss": 0.04809183832257986,
      "loss/crossentropy": 2.902686321735382,
      "loss/logits": 0.9689311563968659,
      "step": 15430
    },
    {
      "epoch": 0.1544,
      "grad_norm": 15.0,
      "grad_norm_var": 3.1499837239583335,
      "learning_rate": 0.0003,
      "loss": 12.1702,
      "loss/aux_loss": 0.04809550140053034,
      "loss/crossentropy": 2.842085200548172,
      "loss/logits": 0.9201117724180221,
      "step": 15440
    },
    {
      "epoch": 0.1545,
      "grad_norm": 12.0,
      "grad_norm_var": 3.273811848958333,
      "learning_rate": 0.0003,
      "loss": 12.4202,
      "loss/aux_loss": 0.048114397749304774,
      "loss/crossentropy": 2.8335028886795044,
      "loss/logits": 0.9513376891613007,
      "step": 15450
    },
    {
      "epoch": 0.1546,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.345166015625,
      "learning_rate": 0.0003,
      "loss": 12.2035,
      "loss/aux_loss": 0.04809577390551567,
      "loss/crossentropy": 2.7710729837417603,
      "loss/logits": 0.9169834047555924,
      "step": 15460
    },
    {
      "epoch": 0.1547,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.6999837239583333,
      "learning_rate": 0.0003,
      "loss": 12.0555,
      "loss/aux_loss": 0.04811387322843075,
      "loss/crossentropy": 2.7559852480888365,
      "loss/logits": 0.8992862313985824,
      "step": 15470
    },
    {
      "epoch": 0.1548,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.3203125,
      "learning_rate": 0.0003,
      "loss": 12.2393,
      "loss/aux_loss": 0.048102208971977235,
      "loss/crossentropy": 2.8739076018333436,
      "loss/logits": 0.8997802734375,
      "step": 15480
    },
    {
      "epoch": 0.1549,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.24777018229166667,
      "learning_rate": 0.0003,
      "loss": 12.3324,
      "loss/aux_loss": 0.04809423796832561,
      "loss/crossentropy": 2.89512904882431,
      "loss/logits": 0.9646374642848968,
      "step": 15490
    },
    {
      "epoch": 0.155,
      "grad_norm": 11.6875,
      "grad_norm_var": 10.139436848958333,
      "learning_rate": 0.0003,
      "loss": 12.278,
      "loss/aux_loss": 0.04810593910515308,
      "loss/crossentropy": 2.809836542606354,
      "loss/logits": 0.9548726409673691,
      "step": 15500
    },
    {
      "epoch": 0.1551,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.4507649739583333,
      "learning_rate": 0.0003,
      "loss": 12.1395,
      "loss/aux_loss": 0.048092353343963626,
      "loss/crossentropy": 2.638697361946106,
      "loss/logits": 0.9311948031187057,
      "step": 15510
    },
    {
      "epoch": 0.1552,
      "grad_norm": 11.625,
      "grad_norm_var": 0.28359375,
      "learning_rate": 0.0003,
      "loss": 12.2342,
      "loss/aux_loss": 0.048095655255019666,
      "loss/crossentropy": 2.988735723495483,
      "loss/logits": 0.9588959008455277,
      "step": 15520
    },
    {
      "epoch": 0.1553,
      "grad_norm": 13.375,
      "grad_norm_var": 150.09296875,
      "learning_rate": 0.0003,
      "loss": 12.2716,
      "loss/aux_loss": 0.04810060281306505,
      "loss/crossentropy": 2.6777639269828795,
      "loss/logits": 0.9254604041576385,
      "step": 15530
    },
    {
      "epoch": 0.1554,
      "grad_norm": 11.375,
      "grad_norm_var": 0.410791015625,
      "learning_rate": 0.0003,
      "loss": 12.256,
      "loss/aux_loss": 0.04809675142168999,
      "loss/crossentropy": 2.9493250966072084,
      "loss/logits": 0.9647281706333161,
      "step": 15540
    },
    {
      "epoch": 0.1555,
      "grad_norm": 10.125,
      "grad_norm_var": 0.28951822916666664,
      "learning_rate": 0.0003,
      "loss": 12.3685,
      "loss/aux_loss": 0.048103061877191065,
      "loss/crossentropy": 2.8565509915351868,
      "loss/logits": 0.9633009701967239,
      "step": 15550
    },
    {
      "epoch": 0.1556,
      "grad_norm": 10.875,
      "grad_norm_var": 0.7700520833333333,
      "learning_rate": 0.0003,
      "loss": 12.2548,
      "loss/aux_loss": 0.04810278750956058,
      "loss/crossentropy": 2.889665186405182,
      "loss/logits": 0.9235396683216095,
      "step": 15560
    },
    {
      "epoch": 0.1557,
      "grad_norm": 11.5,
      "grad_norm_var": 0.8440104166666667,
      "learning_rate": 0.0003,
      "loss": 12.3396,
      "loss/aux_loss": 0.04810402244329452,
      "loss/crossentropy": 2.737299156188965,
      "loss/logits": 0.9336203277111054,
      "step": 15570
    },
    {
      "epoch": 0.1558,
      "grad_norm": 11.125,
      "grad_norm_var": 0.8192708333333333,
      "learning_rate": 0.0003,
      "loss": 12.1569,
      "loss/aux_loss": 0.048098998703062536,
      "loss/crossentropy": 2.78268221616745,
      "loss/logits": 0.9026233315467834,
      "step": 15580
    },
    {
      "epoch": 0.1559,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.13162434895833333,
      "learning_rate": 0.0003,
      "loss": 12.2533,
      "loss/aux_loss": 0.048094463720917704,
      "loss/crossentropy": 2.901452112197876,
      "loss/logits": 0.9481937050819397,
      "step": 15590
    },
    {
      "epoch": 0.156,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.5333170572916667,
      "learning_rate": 0.0003,
      "loss": 12.2767,
      "loss/aux_loss": 0.048098971135914326,
      "loss/crossentropy": 2.8950270414352417,
      "loss/logits": 0.9641896247863769,
      "step": 15600
    },
    {
      "epoch": 0.1561,
      "grad_norm": 11.625,
      "grad_norm_var": 0.34178059895833335,
      "learning_rate": 0.0003,
      "loss": 11.981,
      "loss/aux_loss": 0.04809776470065117,
      "loss/crossentropy": 2.802956283092499,
      "loss/logits": 0.920897588133812,
      "step": 15610
    },
    {
      "epoch": 0.1562,
      "grad_norm": 10.4375,
      "grad_norm_var": 0.1875,
      "learning_rate": 0.0003,
      "loss": 12.2279,
      "loss/aux_loss": 0.04809428732842207,
      "loss/crossentropy": 2.8816702008247375,
      "loss/logits": 0.9599309653043747,
      "step": 15620
    },
    {
      "epoch": 0.1563,
      "grad_norm": 11.5,
      "grad_norm_var": 0.2686848958333333,
      "learning_rate": 0.0003,
      "loss": 12.1109,
      "loss/aux_loss": 0.04809434395283461,
      "loss/crossentropy": 2.7398535430431368,
      "loss/logits": 0.8981555104255676,
      "step": 15630
    },
    {
      "epoch": 0.1564,
      "grad_norm": 10.875,
      "grad_norm_var": 0.31451822916666666,
      "learning_rate": 0.0003,
      "loss": 12.081,
      "loss/aux_loss": 0.04809578433632851,
      "loss/crossentropy": 2.823803460597992,
      "loss/logits": 0.937409034371376,
      "step": 15640
    },
    {
      "epoch": 0.1565,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.3103515625,
      "learning_rate": 0.0003,
      "loss": 12.0933,
      "loss/aux_loss": 0.04810278974473477,
      "loss/crossentropy": 2.9505991697311402,
      "loss/logits": 0.9344629585742951,
      "step": 15650
    },
    {
      "epoch": 0.1566,
      "grad_norm": 11.25,
      "grad_norm_var": 0.3744140625,
      "learning_rate": 0.0003,
      "loss": 12.1932,
      "loss/aux_loss": 0.04810452219098806,
      "loss/crossentropy": 2.92813218832016,
      "loss/logits": 0.9079012930393219,
      "step": 15660
    },
    {
      "epoch": 0.1567,
      "grad_norm": 11.125,
      "grad_norm_var": 0.23697916666666666,
      "learning_rate": 0.0003,
      "loss": 12.1024,
      "loss/aux_loss": 0.04809817671775818,
      "loss/crossentropy": 2.5720150113105773,
      "loss/logits": 0.9325621664524079,
      "step": 15670
    },
    {
      "epoch": 0.1568,
      "grad_norm": 12.375,
      "grad_norm_var": 0.33515625,
      "learning_rate": 0.0003,
      "loss": 12.0574,
      "loss/aux_loss": 0.04810387324541807,
      "loss/crossentropy": 2.8633701324462892,
      "loss/logits": 0.9684804528951645,
      "step": 15680
    },
    {
      "epoch": 0.1569,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.33006184895833335,
      "learning_rate": 0.0003,
      "loss": 12.3274,
      "loss/aux_loss": 0.04809674210846424,
      "loss/crossentropy": 2.86969450712204,
      "loss/logits": 0.9554843038320542,
      "step": 15690
    },
    {
      "epoch": 0.157,
      "grad_norm": 10.125,
      "grad_norm_var": 0.33839518229166665,
      "learning_rate": 0.0003,
      "loss": 12.1372,
      "loss/aux_loss": 0.0481055686250329,
      "loss/crossentropy": 2.640603184700012,
      "loss/logits": 0.8951573967933655,
      "step": 15700
    },
    {
      "epoch": 0.1571,
      "grad_norm": 12.5,
      "grad_norm_var": 0.44244791666666666,
      "learning_rate": 0.0003,
      "loss": 12.2587,
      "loss/aux_loss": 0.04809990283101797,
      "loss/crossentropy": 2.864989972114563,
      "loss/logits": 0.9769071489572525,
      "step": 15710
    },
    {
      "epoch": 0.1572,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.28515625,
      "learning_rate": 0.0003,
      "loss": 12.0975,
      "loss/aux_loss": 0.0480915404856205,
      "loss/crossentropy": 2.7617894768714906,
      "loss/logits": 0.9289013177156449,
      "step": 15720
    },
    {
      "epoch": 0.1573,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.19816080729166666,
      "learning_rate": 0.0003,
      "loss": 12.2621,
      "loss/aux_loss": 0.0480972645804286,
      "loss/crossentropy": 2.8848094820976256,
      "loss/logits": 0.9512290894985199,
      "step": 15730
    },
    {
      "epoch": 0.1574,
      "grad_norm": 12.0,
      "grad_norm_var": 0.5363118489583333,
      "learning_rate": 0.0003,
      "loss": 12.2609,
      "loss/aux_loss": 0.04810263868421316,
      "loss/crossentropy": 2.94705730676651,
      "loss/logits": 0.9353223860263824,
      "step": 15740
    },
    {
      "epoch": 0.1575,
      "grad_norm": 10.875,
      "grad_norm_var": 0.45364583333333336,
      "learning_rate": 0.0003,
      "loss": 12.0892,
      "loss/aux_loss": 0.048098064586520196,
      "loss/crossentropy": 2.923324429988861,
      "loss/logits": 0.9398457109928131,
      "step": 15750
    },
    {
      "epoch": 0.1576,
      "grad_norm": 11.375,
      "grad_norm_var": 0.22135416666666666,
      "learning_rate": 0.0003,
      "loss": 12.0815,
      "loss/aux_loss": 0.048105406761169436,
      "loss/crossentropy": 2.720612233877182,
      "loss/logits": 0.8936576157808304,
      "step": 15760
    },
    {
      "epoch": 0.1577,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.3462890625,
      "learning_rate": 0.0003,
      "loss": 12.2061,
      "loss/aux_loss": 0.04810209292918444,
      "loss/crossentropy": 2.7888991832733154,
      "loss/logits": 0.9135987132787704,
      "step": 15770
    },
    {
      "epoch": 0.1578,
      "grad_norm": 11.875,
      "grad_norm_var": 0.219775390625,
      "learning_rate": 0.0003,
      "loss": 12.2186,
      "loss/aux_loss": 0.048100620880723,
      "loss/crossentropy": 2.94092253446579,
      "loss/logits": 0.9436818659305573,
      "step": 15780
    },
    {
      "epoch": 0.1579,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.28566080729166665,
      "learning_rate": 0.0003,
      "loss": 12.2812,
      "loss/aux_loss": 0.04810180887579918,
      "loss/crossentropy": 2.6856593787670135,
      "loss/logits": 0.890146228671074,
      "step": 15790
    },
    {
      "epoch": 0.158,
      "grad_norm": 10.75,
      "grad_norm_var": 0.4161458333333333,
      "learning_rate": 0.0003,
      "loss": 12.1282,
      "loss/aux_loss": 0.04810675587505102,
      "loss/crossentropy": 2.824471127986908,
      "loss/logits": 0.8990681618452072,
      "step": 15800
    },
    {
      "epoch": 0.1581,
      "grad_norm": 11.25,
      "grad_norm_var": 0.27706705729166664,
      "learning_rate": 0.0003,
      "loss": 12.2103,
      "loss/aux_loss": 0.04810557030141353,
      "loss/crossentropy": 2.780168378353119,
      "loss/logits": 0.9444521903991699,
      "step": 15810
    },
    {
      "epoch": 0.1582,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.5145670572916666,
      "learning_rate": 0.0003,
      "loss": 12.1687,
      "loss/aux_loss": 0.04809657074511051,
      "loss/crossentropy": 2.8092296421527863,
      "loss/logits": 0.9068554252386093,
      "step": 15820
    },
    {
      "epoch": 0.1583,
      "grad_norm": 11.25,
      "grad_norm_var": 0.6791015625,
      "learning_rate": 0.0003,
      "loss": 11.9178,
      "loss/aux_loss": 0.04810602068901062,
      "loss/crossentropy": 2.8012136101722716,
      "loss/logits": 0.8847994655370712,
      "step": 15830
    },
    {
      "epoch": 0.1584,
      "grad_norm": 10.875,
      "grad_norm_var": 0.4574055989583333,
      "learning_rate": 0.0003,
      "loss": 12.1666,
      "loss/aux_loss": 0.04810144230723381,
      "loss/crossentropy": 2.838590919971466,
      "loss/logits": 0.9268758982419968,
      "step": 15840
    },
    {
      "epoch": 0.1585,
      "grad_norm": 12.1875,
      "grad_norm_var": 18.598893229166666,
      "learning_rate": 0.0003,
      "loss": 12.1954,
      "loss/aux_loss": 0.04810195360332727,
      "loss/crossentropy": 2.9161871790885927,
      "loss/logits": 0.9759931951761246,
      "step": 15850
    },
    {
      "epoch": 0.1586,
      "grad_norm": 12.25,
      "grad_norm_var": 0.5593587239583333,
      "learning_rate": 0.0003,
      "loss": 12.1365,
      "loss/aux_loss": 0.04810574501752853,
      "loss/crossentropy": 2.8291844010353087,
      "loss/logits": 0.9489723861217498,
      "step": 15860
    },
    {
      "epoch": 0.1587,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.30050455729166664,
      "learning_rate": 0.0003,
      "loss": 12.0479,
      "loss/aux_loss": 0.04810310564935207,
      "loss/crossentropy": 2.7364535570144652,
      "loss/logits": 0.9301041215658188,
      "step": 15870
    },
    {
      "epoch": 0.1588,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.43865559895833334,
      "learning_rate": 0.0003,
      "loss": 12.1076,
      "loss/aux_loss": 0.04809244927018881,
      "loss/crossentropy": 2.7394683599472045,
      "loss/logits": 0.9101533353328705,
      "step": 15880
    },
    {
      "epoch": 0.1589,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.44453125,
      "learning_rate": 0.0003,
      "loss": 12.134,
      "loss/aux_loss": 0.04809813145548105,
      "loss/crossentropy": 2.774601572751999,
      "loss/logits": 0.9330229997634888,
      "step": 15890
    },
    {
      "epoch": 0.159,
      "grad_norm": 10.4375,
      "grad_norm_var": 1.927978515625,
      "learning_rate": 0.0003,
      "loss": 12.1558,
      "loss/aux_loss": 0.048109999299049376,
      "loss/crossentropy": 2.6731720924377442,
      "loss/logits": 0.8847457319498062,
      "step": 15900
    },
    {
      "epoch": 0.1591,
      "grad_norm": 11.875,
      "grad_norm_var": 1.7113932291666667,
      "learning_rate": 0.0003,
      "loss": 12.1998,
      "loss/aux_loss": 0.04809703305363655,
      "loss/crossentropy": 2.887303102016449,
      "loss/logits": 0.9333222597837448,
      "step": 15910
    },
    {
      "epoch": 0.1592,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.3822265625,
      "learning_rate": 0.0003,
      "loss": 12.2916,
      "loss/aux_loss": 0.04809732548892498,
      "loss/crossentropy": 2.969210720062256,
      "loss/logits": 0.9471912950277328,
      "step": 15920
    },
    {
      "epoch": 0.1593,
      "grad_norm": 10.4375,
      "grad_norm_var": 0.4900390625,
      "learning_rate": 0.0003,
      "loss": 12.078,
      "loss/aux_loss": 0.0480979910120368,
      "loss/crossentropy": 2.7797336280345917,
      "loss/logits": 0.8907982796430588,
      "step": 15930
    },
    {
      "epoch": 0.1594,
      "grad_norm": 10.4375,
      "grad_norm_var": 0.3692708333333333,
      "learning_rate": 0.0003,
      "loss": 12.0424,
      "loss/aux_loss": 0.048096719570457934,
      "loss/crossentropy": 2.7327013194561003,
      "loss/logits": 0.898812472820282,
      "step": 15940
    },
    {
      "epoch": 0.1595,
      "grad_norm": 15.3125,
      "grad_norm_var": 124.77394205729166,
      "learning_rate": 0.0003,
      "loss": 12.2458,
      "loss/aux_loss": 0.04809980187565088,
      "loss/crossentropy": 2.7992530286312105,
      "loss/logits": 0.9126897126436233,
      "step": 15950
    },
    {
      "epoch": 0.1596,
      "grad_norm": 11.0,
      "grad_norm_var": 125.29425455729167,
      "learning_rate": 0.0003,
      "loss": 12.3109,
      "loss/aux_loss": 0.04810700826346874,
      "loss/crossentropy": 2.7022558569908144,
      "loss/logits": 0.965540987253189,
      "step": 15960
    },
    {
      "epoch": 0.1597,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.098291015625,
      "learning_rate": 0.0003,
      "loss": 11.9925,
      "loss/aux_loss": 0.04811773002147675,
      "loss/crossentropy": 2.837008905410767,
      "loss/logits": 0.9231843024492263,
      "step": 15970
    },
    {
      "epoch": 0.1598,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.2630208333333333,
      "learning_rate": 0.0003,
      "loss": 12.165,
      "loss/aux_loss": 0.04810309894382954,
      "loss/crossentropy": 2.728328824043274,
      "loss/logits": 0.9210437297821045,
      "step": 15980
    },
    {
      "epoch": 0.1599,
      "grad_norm": 11.0,
      "grad_norm_var": 0.19295247395833334,
      "learning_rate": 0.0003,
      "loss": 12.4097,
      "loss/aux_loss": 0.048101219907402994,
      "loss/crossentropy": 2.9919423699378966,
      "loss/logits": 0.926442277431488,
      "step": 15990
    },
    {
      "epoch": 0.16,
      "grad_norm": 10.875,
      "grad_norm_var": 0.126025390625,
      "learning_rate": 0.0003,
      "loss": 12.2974,
      "loss/aux_loss": 0.04809750020503998,
      "loss/crossentropy": 2.9499990582466125,
      "loss/logits": 0.987061333656311,
      "step": 16000
    },
    {
      "epoch": 0.1601,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.20911458333333333,
      "learning_rate": 0.0003,
      "loss": 12.2875,
      "loss/aux_loss": 0.04809744451195001,
      "loss/crossentropy": 2.8682973265647886,
      "loss/logits": 0.9318195432424545,
      "step": 16010
    },
    {
      "epoch": 0.1602,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.2109375,
      "learning_rate": 0.0003,
      "loss": 12.1403,
      "loss/aux_loss": 0.0480994550511241,
      "loss/crossentropy": 2.770287108421326,
      "loss/logits": 0.8830248892307282,
      "step": 16020
    },
    {
      "epoch": 0.1603,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.4239420572916667,
      "learning_rate": 0.0003,
      "loss": 12.1359,
      "loss/aux_loss": 0.04810148365795612,
      "loss/crossentropy": 2.974120169878006,
      "loss/logits": 0.9349057674407959,
      "step": 16030
    },
    {
      "epoch": 0.1604,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.47734375,
      "learning_rate": 0.0003,
      "loss": 12.0298,
      "loss/aux_loss": 0.048095306381583214,
      "loss/crossentropy": 2.8043901443481447,
      "loss/logits": 0.9003081053495408,
      "step": 16040
    },
    {
      "epoch": 0.1605,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.278759765625,
      "learning_rate": 0.0003,
      "loss": 12.2773,
      "loss/aux_loss": 0.04809126928448677,
      "loss/crossentropy": 2.9143420457839966,
      "loss/logits": 0.9333951026201248,
      "step": 16050
    },
    {
      "epoch": 0.1606,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.4009765625,
      "learning_rate": 0.0003,
      "loss": 12.0947,
      "loss/aux_loss": 0.048095472529530524,
      "loss/crossentropy": 2.952311336994171,
      "loss/logits": 0.9581076145172119,
      "step": 16060
    },
    {
      "epoch": 0.1607,
      "grad_norm": 11.125,
      "grad_norm_var": 0.2712890625,
      "learning_rate": 0.0003,
      "loss": 12.2128,
      "loss/aux_loss": 0.048100481182336806,
      "loss/crossentropy": 2.8516422152519225,
      "loss/logits": 0.9667297631502152,
      "step": 16070
    },
    {
      "epoch": 0.1608,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.1984375,
      "learning_rate": 0.0003,
      "loss": 12.2553,
      "loss/aux_loss": 0.04809715617448092,
      "loss/crossentropy": 2.77035049200058,
      "loss/logits": 0.9237784296274185,
      "step": 16080
    },
    {
      "epoch": 0.1609,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.3114420572916667,
      "learning_rate": 0.0003,
      "loss": 12.0383,
      "loss/aux_loss": 0.04809458721429109,
      "loss/crossentropy": 2.816128599643707,
      "loss/logits": 0.9450860530138016,
      "step": 16090
    },
    {
      "epoch": 0.161,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.33839518229166665,
      "learning_rate": 0.0003,
      "loss": 12.1705,
      "loss/aux_loss": 0.048097101412713526,
      "loss/crossentropy": 2.6644342601299287,
      "loss/logits": 0.9285436570644379,
      "step": 16100
    },
    {
      "epoch": 0.1611,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.247900390625,
      "learning_rate": 0.0003,
      "loss": 12.3188,
      "loss/aux_loss": 0.0481021337211132,
      "loss/crossentropy": 2.8370134472846984,
      "loss/logits": 0.9432329386472702,
      "step": 16110
    },
    {
      "epoch": 0.1612,
      "grad_norm": 11.375,
      "grad_norm_var": 0.17928059895833334,
      "learning_rate": 0.0003,
      "loss": 12.2744,
      "loss/aux_loss": 0.04810014273971319,
      "loss/crossentropy": 2.829314595460892,
      "loss/logits": 0.9058397889137269,
      "step": 16120
    },
    {
      "epoch": 0.1613,
      "grad_norm": 11.625,
      "grad_norm_var": 0.3004557291666667,
      "learning_rate": 0.0003,
      "loss": 12.1699,
      "loss/aux_loss": 0.048092078790068625,
      "loss/crossentropy": 2.7174839854240416,
      "loss/logits": 0.9196837037801743,
      "step": 16130
    },
    {
      "epoch": 0.1614,
      "grad_norm": 10.625,
      "grad_norm_var": 0.5082682291666667,
      "learning_rate": 0.0003,
      "loss": 12.1341,
      "loss/aux_loss": 0.04810208380222321,
      "loss/crossentropy": 2.823376166820526,
      "loss/logits": 0.9344120264053345,
      "step": 16140
    },
    {
      "epoch": 0.1615,
      "grad_norm": 10.75,
      "grad_norm_var": 0.36847330729166666,
      "learning_rate": 0.0003,
      "loss": 12.1209,
      "loss/aux_loss": 0.04809723366051912,
      "loss/crossentropy": 2.7950705885887146,
      "loss/logits": 0.9158975452184677,
      "step": 16150
    },
    {
      "epoch": 0.1616,
      "grad_norm": 11.25,
      "grad_norm_var": 0.3140625,
      "learning_rate": 0.0003,
      "loss": 12.1399,
      "loss/aux_loss": 0.04809668511152267,
      "loss/crossentropy": 2.8807433605194093,
      "loss/logits": 0.9192746669054032,
      "step": 16160
    },
    {
      "epoch": 0.1617,
      "grad_norm": 13.375,
      "grad_norm_var": 0.4009765625,
      "learning_rate": 0.0003,
      "loss": 12.2518,
      "loss/aux_loss": 0.04810331519693136,
      "loss/crossentropy": 2.7547273516654966,
      "loss/logits": 0.9467386364936828,
      "step": 16170
    },
    {
      "epoch": 0.1618,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.496875,
      "learning_rate": 0.0003,
      "loss": 12.2401,
      "loss/aux_loss": 0.04808684252202511,
      "loss/crossentropy": 2.847959554195404,
      "loss/logits": 0.9240302503108978,
      "step": 16180
    },
    {
      "epoch": 0.1619,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.312353515625,
      "learning_rate": 0.0003,
      "loss": 12.2344,
      "loss/aux_loss": 0.048099389672279357,
      "loss/crossentropy": 2.845101058483124,
      "loss/logits": 0.942423290014267,
      "step": 16190
    },
    {
      "epoch": 0.162,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.22029622395833334,
      "learning_rate": 0.0003,
      "loss": 11.9915,
      "loss/aux_loss": 0.04809580724686384,
      "loss/crossentropy": 2.7099331617355347,
      "loss/logits": 0.9017234027385712,
      "step": 16200
    },
    {
      "epoch": 0.1621,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.5179524739583333,
      "learning_rate": 0.0003,
      "loss": 11.9946,
      "loss/aux_loss": 0.048097424954175946,
      "loss/crossentropy": 2.884207457304001,
      "loss/logits": 0.8981190234422683,
      "step": 16210
    },
    {
      "epoch": 0.1622,
      "grad_norm": 11.875,
      "grad_norm_var": 0.238134765625,
      "learning_rate": 0.0003,
      "loss": 12.2356,
      "loss/aux_loss": 0.04810638912022114,
      "loss/crossentropy": 2.747766560316086,
      "loss/logits": 0.9162409037351609,
      "step": 16220
    },
    {
      "epoch": 0.1623,
      "grad_norm": 10.5,
      "grad_norm_var": 0.13644205729166667,
      "learning_rate": 0.0003,
      "loss": 11.9741,
      "loss/aux_loss": 0.04809376634657383,
      "loss/crossentropy": 2.8902024030685425,
      "loss/logits": 0.936252373456955,
      "step": 16230
    },
    {
      "epoch": 0.1624,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.366259765625,
      "learning_rate": 0.0003,
      "loss": 12.3348,
      "loss/aux_loss": 0.048098774440586564,
      "loss/crossentropy": 2.803633749485016,
      "loss/logits": 0.973576670885086,
      "step": 16240
    },
    {
      "epoch": 0.1625,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.278369140625,
      "learning_rate": 0.0003,
      "loss": 12.0583,
      "loss/aux_loss": 0.04810395650565624,
      "loss/crossentropy": 2.8404315412044525,
      "loss/logits": 0.9931963056325912,
      "step": 16250
    },
    {
      "epoch": 0.1626,
      "grad_norm": 12.375,
      "grad_norm_var": 0.3738932291666667,
      "learning_rate": 0.0003,
      "loss": 12.1916,
      "loss/aux_loss": 0.048100400157272814,
      "loss/crossentropy": 2.768079376220703,
      "loss/logits": 0.9406552851200104,
      "step": 16260
    },
    {
      "epoch": 0.1627,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.28899739583333334,
      "learning_rate": 0.0003,
      "loss": 12.0582,
      "loss/aux_loss": 0.04809861071407795,
      "loss/crossentropy": 2.713436472415924,
      "loss/logits": 0.9488321393728256,
      "step": 16270
    },
    {
      "epoch": 0.1628,
      "grad_norm": 11.375,
      "grad_norm_var": 0.380322265625,
      "learning_rate": 0.0003,
      "loss": 12.0068,
      "loss/aux_loss": 0.04809640850871801,
      "loss/crossentropy": 2.780947434902191,
      "loss/logits": 0.9337312400341033,
      "step": 16280
    },
    {
      "epoch": 0.1629,
      "grad_norm": 11.875,
      "grad_norm_var": 0.439306640625,
      "learning_rate": 0.0003,
      "loss": 12.1232,
      "loss/aux_loss": 0.04809816125780344,
      "loss/crossentropy": 2.8880489349365233,
      "loss/logits": 0.929016700387001,
      "step": 16290
    },
    {
      "epoch": 0.163,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.3094889322916667,
      "learning_rate": 0.0003,
      "loss": 11.988,
      "loss/aux_loss": 0.048106462322175504,
      "loss/crossentropy": 2.9447537541389464,
      "loss/logits": 0.9289344936609268,
      "step": 16300
    },
    {
      "epoch": 0.1631,
      "grad_norm": 11.5625,
      "grad_norm_var": 19.153059895833334,
      "learning_rate": 0.0003,
      "loss": 12.2841,
      "loss/aux_loss": 0.04810431189835072,
      "loss/crossentropy": 2.7848674178123476,
      "loss/logits": 0.9472992300987244,
      "step": 16310
    },
    {
      "epoch": 0.1632,
      "grad_norm": 12.0,
      "grad_norm_var": 17.702604166666667,
      "learning_rate": 0.0003,
      "loss": 12.2275,
      "loss/aux_loss": 0.04810850899666548,
      "loss/crossentropy": 2.7362507581710815,
      "loss/logits": 0.9090913355350494,
      "step": 16320
    },
    {
      "epoch": 0.1633,
      "grad_norm": 10.5,
      "grad_norm_var": 1.0449055989583333,
      "learning_rate": 0.0003,
      "loss": 12.1755,
      "loss/aux_loss": 0.04809928461909294,
      "loss/crossentropy": 2.870719301700592,
      "loss/logits": 0.953993484377861,
      "step": 16330
    },
    {
      "epoch": 0.1634,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.270166015625,
      "learning_rate": 0.0003,
      "loss": 12.1613,
      "loss/aux_loss": 0.04809772912412882,
      "loss/crossentropy": 2.730927813053131,
      "loss/logits": 0.9100559711456299,
      "step": 16340
    },
    {
      "epoch": 0.1635,
      "grad_norm": 12.625,
      "grad_norm_var": 0.6403483072916667,
      "learning_rate": 0.0003,
      "loss": 11.9033,
      "loss/aux_loss": 0.04809962585568428,
      "loss/crossentropy": 2.6463473558425905,
      "loss/logits": 0.8951964765787125,
      "step": 16350
    },
    {
      "epoch": 0.1636,
      "grad_norm": 11.0,
      "grad_norm_var": 0.9075520833333334,
      "learning_rate": 0.0003,
      "loss": 12.2224,
      "loss/aux_loss": 0.04809305313974619,
      "loss/crossentropy": 2.7235575318336487,
      "loss/logits": 0.9235330730676651,
      "step": 16360
    },
    {
      "epoch": 0.1637,
      "grad_norm": 11.125,
      "grad_norm_var": 0.47433268229166664,
      "learning_rate": 0.0003,
      "loss": 12.0492,
      "loss/aux_loss": 0.04809541571885347,
      "loss/crossentropy": 2.8656546056270598,
      "loss/logits": 0.9521847158670426,
      "step": 16370
    },
    {
      "epoch": 0.1638,
      "grad_norm": 11.625,
      "grad_norm_var": 0.34256184895833336,
      "learning_rate": 0.0003,
      "loss": 12.1038,
      "loss/aux_loss": 0.048089108802378176,
      "loss/crossentropy": 2.8255446553230286,
      "loss/logits": 0.8946599334478378,
      "step": 16380
    },
    {
      "epoch": 0.1639,
      "grad_norm": 11.75,
      "grad_norm_var": 0.49581705729166664,
      "learning_rate": 0.0003,
      "loss": 12.1369,
      "loss/aux_loss": 0.04810045957565308,
      "loss/crossentropy": 2.6379716813564302,
      "loss/logits": 0.9489578425884246,
      "step": 16390
    },
    {
      "epoch": 0.164,
      "grad_norm": 10.4375,
      "grad_norm_var": 0.5274576822916667,
      "learning_rate": 0.0003,
      "loss": 12.1495,
      "loss/aux_loss": 0.0480981033295393,
      "loss/crossentropy": 2.691847151517868,
      "loss/logits": 0.9181078314781189,
      "step": 16400
    },
    {
      "epoch": 0.1641,
      "grad_norm": 11.25,
      "grad_norm_var": 6.025,
      "learning_rate": 0.0003,
      "loss": 12.1718,
      "loss/aux_loss": 0.048096432350575924,
      "loss/crossentropy": 2.829243075847626,
      "loss/logits": 0.9195181250572204,
      "step": 16410
    },
    {
      "epoch": 0.1642,
      "grad_norm": 11.25,
      "grad_norm_var": 2.2655598958333334,
      "learning_rate": 0.0003,
      "loss": 12.1507,
      "loss/aux_loss": 0.04810443092137575,
      "loss/crossentropy": 2.794591999053955,
      "loss/logits": 0.9034171938896179,
      "step": 16420
    },
    {
      "epoch": 0.1643,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.42604166666666665,
      "learning_rate": 0.0003,
      "loss": 12.0589,
      "loss/aux_loss": 0.0480903310701251,
      "loss/crossentropy": 2.806131112575531,
      "loss/logits": 0.9333689689636231,
      "step": 16430
    },
    {
      "epoch": 0.1644,
      "grad_norm": 12.875,
      "grad_norm_var": 0.47291666666666665,
      "learning_rate": 0.0003,
      "loss": 12.1076,
      "loss/aux_loss": 0.04809165094047785,
      "loss/crossentropy": 3.009689784049988,
      "loss/logits": 0.9455327719449997,
      "step": 16440
    },
    {
      "epoch": 0.1645,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.6640462239583333,
      "learning_rate": 0.0003,
      "loss": 12.1808,
      "loss/aux_loss": 0.04810215122997761,
      "loss/crossentropy": 2.7933058738708496,
      "loss/logits": 0.8973431855440139,
      "step": 16450
    },
    {
      "epoch": 0.1646,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.501025390625,
      "learning_rate": 0.0003,
      "loss": 11.9219,
      "loss/aux_loss": 0.04809769950807095,
      "loss/crossentropy": 2.6854580640792847,
      "loss/logits": 0.9056837558746338,
      "step": 16460
    },
    {
      "epoch": 0.1647,
      "grad_norm": 12.5,
      "grad_norm_var": 0.2234375,
      "learning_rate": 0.0003,
      "loss": 12.1113,
      "loss/aux_loss": 0.048105937987565996,
      "loss/crossentropy": 2.7549439489841463,
      "loss/logits": 0.917845630645752,
      "step": 16470
    },
    {
      "epoch": 0.1648,
      "grad_norm": 11.75,
      "grad_norm_var": 0.2669270833333333,
      "learning_rate": 0.0003,
      "loss": 12.1535,
      "loss/aux_loss": 0.048096487298607826,
      "loss/crossentropy": 2.927453136444092,
      "loss/logits": 0.9296642661094665,
      "step": 16480
    },
    {
      "epoch": 0.1649,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.35442708333333334,
      "learning_rate": 0.0003,
      "loss": 12.0322,
      "loss/aux_loss": 0.048098070360720155,
      "loss/crossentropy": 2.93691543340683,
      "loss/logits": 0.9586718380451202,
      "step": 16490
    },
    {
      "epoch": 0.165,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.5493326822916667,
      "learning_rate": 0.0003,
      "loss": 12.214,
      "loss/aux_loss": 0.04809797964990139,
      "loss/crossentropy": 2.7319608986377717,
      "loss/logits": 0.9313073545694351,
      "step": 16500
    },
    {
      "epoch": 0.1651,
      "grad_norm": 11.0625,
      "grad_norm_var": 17.5791015625,
      "learning_rate": 0.0003,
      "loss": 12.113,
      "loss/aux_loss": 0.048102827928960326,
      "loss/crossentropy": 2.8502477288246153,
      "loss/logits": 0.9453782886266708,
      "step": 16510
    },
    {
      "epoch": 0.1652,
      "grad_norm": 10.875,
      "grad_norm_var": 0.16378580729166667,
      "learning_rate": 0.0003,
      "loss": 12.0053,
      "loss/aux_loss": 0.04810033868998289,
      "loss/crossentropy": 2.5949636459350587,
      "loss/logits": 0.8820204049348831,
      "step": 16520
    },
    {
      "epoch": 0.1653,
      "grad_norm": 11.125,
      "grad_norm_var": 0.48943684895833334,
      "learning_rate": 0.0003,
      "loss": 12.1139,
      "loss/aux_loss": 0.04809820037335157,
      "loss/crossentropy": 2.789997029304504,
      "loss/logits": 0.9239853471517563,
      "step": 16530
    },
    {
      "epoch": 0.1654,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.37180989583333335,
      "learning_rate": 0.0003,
      "loss": 12.3409,
      "loss/aux_loss": 0.04809273220598698,
      "loss/crossentropy": 2.9401179909706117,
      "loss/logits": 0.9572012543678283,
      "step": 16540
    },
    {
      "epoch": 0.1655,
      "grad_norm": 11.375,
      "grad_norm_var": 0.5218587239583333,
      "learning_rate": 0.0003,
      "loss": 12.111,
      "loss/aux_loss": 0.04809644967317581,
      "loss/crossentropy": 2.735247939825058,
      "loss/logits": 0.9140194296836853,
      "step": 16550
    },
    {
      "epoch": 0.1656,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.6286295572916667,
      "learning_rate": 0.0003,
      "loss": 12.1088,
      "loss/aux_loss": 0.048106629587709906,
      "loss/crossentropy": 2.5925142049789427,
      "loss/logits": 0.8779049098491669,
      "step": 16560
    },
    {
      "epoch": 0.1657,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.7202473958333333,
      "learning_rate": 0.0003,
      "loss": 12.0626,
      "loss/aux_loss": 0.048098241165280345,
      "loss/crossentropy": 2.78861083984375,
      "loss/logits": 0.9169972121715546,
      "step": 16570
    },
    {
      "epoch": 0.1658,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.7563639322916667,
      "learning_rate": 0.0003,
      "loss": 12.0808,
      "loss/aux_loss": 0.04810166098177433,
      "loss/crossentropy": 2.8476951360702514,
      "loss/logits": 0.9255498439073563,
      "step": 16580
    },
    {
      "epoch": 0.1659,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.8036458333333333,
      "learning_rate": 0.0003,
      "loss": 11.9856,
      "loss/aux_loss": 0.048094157315790656,
      "loss/crossentropy": 2.7307428240776064,
      "loss/logits": 0.9049693077802659,
      "step": 16590
    },
    {
      "epoch": 0.166,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.491650390625,
      "learning_rate": 0.0003,
      "loss": 12.0904,
      "loss/aux_loss": 0.048098260350525376,
      "loss/crossentropy": 2.7222547829151154,
      "loss/logits": 0.9318049371242523,
      "step": 16600
    },
    {
      "epoch": 0.1661,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.5280598958333333,
      "learning_rate": 0.0003,
      "loss": 12.0952,
      "loss/aux_loss": 0.04809851739555597,
      "loss/crossentropy": 2.6276703774929047,
      "loss/logits": 0.8886691600084304,
      "step": 16610
    },
    {
      "epoch": 0.1662,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.40260416666666665,
      "learning_rate": 0.0003,
      "loss": 12.1522,
      "loss/aux_loss": 0.048096096701920034,
      "loss/crossentropy": 2.756567734479904,
      "loss/logits": 0.9005006104707718,
      "step": 16620
    },
    {
      "epoch": 0.1663,
      "grad_norm": 12.25,
      "grad_norm_var": 0.397119140625,
      "learning_rate": 0.0003,
      "loss": 12.0698,
      "loss/aux_loss": 0.04808939378708601,
      "loss/crossentropy": 2.8644691705703735,
      "loss/logits": 0.9494952738285065,
      "step": 16630
    },
    {
      "epoch": 0.1664,
      "grad_norm": 10.875,
      "grad_norm_var": 0.304150390625,
      "learning_rate": 0.0003,
      "loss": 11.9855,
      "loss/aux_loss": 0.04809617009013891,
      "loss/crossentropy": 2.8036171019077303,
      "loss/logits": 0.9411976546049118,
      "step": 16640
    },
    {
      "epoch": 0.1665,
      "grad_norm": 11.8125,
      "grad_norm_var": 1.0863932291666667,
      "learning_rate": 0.0003,
      "loss": 12.1059,
      "loss/aux_loss": 0.04810191765427589,
      "loss/crossentropy": 2.8542271971702577,
      "loss/logits": 0.941945058107376,
      "step": 16650
    },
    {
      "epoch": 0.1666,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.356103515625,
      "learning_rate": 0.0003,
      "loss": 12.1667,
      "loss/aux_loss": 0.048105718195438386,
      "loss/crossentropy": 2.759011608362198,
      "loss/logits": 0.911252424120903,
      "step": 16660
    },
    {
      "epoch": 0.1667,
      "grad_norm": 10.5,
      "grad_norm_var": 0.34140625,
      "learning_rate": 0.0003,
      "loss": 12.019,
      "loss/aux_loss": 0.048089655488729476,
      "loss/crossentropy": 2.7977048456668854,
      "loss/logits": 0.9163706332445145,
      "step": 16670
    },
    {
      "epoch": 0.1668,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.4,
      "learning_rate": 0.0003,
      "loss": 12.0449,
      "loss/aux_loss": 0.04810653738677502,
      "loss/crossentropy": 2.8017389357089995,
      "loss/logits": 0.9295397102832794,
      "step": 16680
    },
    {
      "epoch": 0.1669,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.34420572916666664,
      "learning_rate": 0.0003,
      "loss": 12.1962,
      "loss/aux_loss": 0.04809100721031427,
      "loss/crossentropy": 2.8505070567131043,
      "loss/logits": 0.9185640811920166,
      "step": 16690
    },
    {
      "epoch": 0.167,
      "grad_norm": 12.8125,
      "grad_norm_var": 1.0841145833333334,
      "learning_rate": 0.0003,
      "loss": 12.0777,
      "loss/aux_loss": 0.048104220815002915,
      "loss/crossentropy": 2.6532647252082824,
      "loss/logits": 0.9005499392747879,
      "step": 16700
    },
    {
      "epoch": 0.1671,
      "grad_norm": 11.25,
      "grad_norm_var": 1.1744140625,
      "learning_rate": 0.0003,
      "loss": 11.9404,
      "loss/aux_loss": 0.04809899311512709,
      "loss/crossentropy": 2.7995954275131227,
      "loss/logits": 0.906044989824295,
      "step": 16710
    },
    {
      "epoch": 0.1672,
      "grad_norm": 11.625,
      "grad_norm_var": 0.7273274739583333,
      "learning_rate": 0.0003,
      "loss": 11.93,
      "loss/aux_loss": 0.04809800013899803,
      "loss/crossentropy": 2.867034387588501,
      "loss/logits": 0.908442784845829,
      "step": 16720
    },
    {
      "epoch": 0.1673,
      "grad_norm": 12.5,
      "grad_norm_var": 0.760400390625,
      "learning_rate": 0.0003,
      "loss": 11.9833,
      "loss/aux_loss": 0.048098081909120086,
      "loss/crossentropy": 2.7534588992595674,
      "loss/logits": 0.9382378399372101,
      "step": 16730
    },
    {
      "epoch": 0.1674,
      "grad_norm": 12.0,
      "grad_norm_var": 0.29791666666666666,
      "learning_rate": 0.0003,
      "loss": 12.1122,
      "loss/aux_loss": 0.04809783697128296,
      "loss/crossentropy": 2.8023226737976072,
      "loss/logits": 0.9453730881214142,
      "step": 16740
    },
    {
      "epoch": 0.1675,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.24816080729166667,
      "learning_rate": 0.0003,
      "loss": 12.0329,
      "loss/aux_loss": 0.04809421058744192,
      "loss/crossentropy": 2.7011972665786743,
      "loss/logits": 0.9254505336284637,
      "step": 16750
    },
    {
      "epoch": 0.1676,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.3059895833333333,
      "learning_rate": 0.0003,
      "loss": 12.1991,
      "loss/aux_loss": 0.048098991997539996,
      "loss/crossentropy": 2.923702526092529,
      "loss/logits": 0.9767153590917588,
      "step": 16760
    },
    {
      "epoch": 0.1677,
      "grad_norm": 11.0,
      "grad_norm_var": 0.4400390625,
      "learning_rate": 0.0003,
      "loss": 12.2559,
      "loss/aux_loss": 0.048096513748168944,
      "loss/crossentropy": 2.9745861649513246,
      "loss/logits": 0.9630038678646088,
      "step": 16770
    },
    {
      "epoch": 0.1678,
      "grad_norm": 10.625,
      "grad_norm_var": 0.424072265625,
      "learning_rate": 0.0003,
      "loss": 12.0234,
      "loss/aux_loss": 0.048099739477038383,
      "loss/crossentropy": 2.6956757068634034,
      "loss/logits": 0.9454267978668213,
      "step": 16780
    },
    {
      "epoch": 0.1679,
      "grad_norm": 12.0,
      "grad_norm_var": 0.2275390625,
      "learning_rate": 0.0003,
      "loss": 12.1579,
      "loss/aux_loss": 0.04809470549225807,
      "loss/crossentropy": 2.8803565382957457,
      "loss/logits": 0.9466471463441849,
      "step": 16790
    },
    {
      "epoch": 0.168,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.3606770833333333,
      "learning_rate": 0.0003,
      "loss": 12.0702,
      "loss/aux_loss": 0.048100711591541764,
      "loss/crossentropy": 2.769081395864487,
      "loss/logits": 0.9133290886878968,
      "step": 16800
    },
    {
      "epoch": 0.1681,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.29542643229166665,
      "learning_rate": 0.0003,
      "loss": 12.026,
      "loss/aux_loss": 0.04810358509421349,
      "loss/crossentropy": 2.6967382431030273,
      "loss/logits": 0.9303892910480499,
      "step": 16810
    },
    {
      "epoch": 0.1682,
      "grad_norm": 12.0,
      "grad_norm_var": 0.1791015625,
      "learning_rate": 0.0003,
      "loss": 12.2407,
      "loss/aux_loss": 0.04810531884431839,
      "loss/crossentropy": 2.7483027279376984,
      "loss/logits": 0.9215909510850906,
      "step": 16820
    },
    {
      "epoch": 0.1683,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.4901041666666667,
      "learning_rate": 0.0003,
      "loss": 12.0529,
      "loss/aux_loss": 0.04809485897421837,
      "loss/crossentropy": 2.6491159200668335,
      "loss/logits": 0.8965664654970169,
      "step": 16830
    },
    {
      "epoch": 0.1684,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.496728515625,
      "learning_rate": 0.0003,
      "loss": 12.0189,
      "loss/aux_loss": 0.04810217395424843,
      "loss/crossentropy": 2.8553712725639344,
      "loss/logits": 0.9247318297624588,
      "step": 16840
    },
    {
      "epoch": 0.1685,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.19192708333333333,
      "learning_rate": 0.0003,
      "loss": 12.2266,
      "loss/aux_loss": 0.04810085538774729,
      "loss/crossentropy": 2.841351580619812,
      "loss/logits": 0.9316177189350128,
      "step": 16850
    },
    {
      "epoch": 0.1686,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.28097330729166664,
      "learning_rate": 0.0003,
      "loss": 12.166,
      "loss/aux_loss": 0.04810477644205093,
      "loss/crossentropy": 2.816389191150665,
      "loss/logits": 0.9328649133443833,
      "step": 16860
    },
    {
      "epoch": 0.1687,
      "grad_norm": 11.25,
      "grad_norm_var": 0.2598958333333333,
      "learning_rate": 0.0003,
      "loss": 12.0411,
      "loss/aux_loss": 0.04809478260576725,
      "loss/crossentropy": 2.9236293196678163,
      "loss/logits": 0.9430270612239837,
      "step": 16870
    },
    {
      "epoch": 0.1688,
      "grad_norm": 11.0,
      "grad_norm_var": 0.2899576822916667,
      "learning_rate": 0.0003,
      "loss": 11.9808,
      "loss/aux_loss": 0.0481045238673687,
      "loss/crossentropy": 2.7350330710411073,
      "loss/logits": 0.8710766971111298,
      "step": 16880
    },
    {
      "epoch": 0.1689,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.5572265625,
      "learning_rate": 0.0003,
      "loss": 12.021,
      "loss/aux_loss": 0.048098239861428735,
      "loss/crossentropy": 2.7996289134025574,
      "loss/logits": 0.8801421314477921,
      "step": 16890
    },
    {
      "epoch": 0.169,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.31573893229166666,
      "learning_rate": 0.0003,
      "loss": 12.0939,
      "loss/aux_loss": 0.048104897141456604,
      "loss/crossentropy": 2.7211228966712953,
      "loss/logits": 0.9303423374891281,
      "step": 16900
    },
    {
      "epoch": 0.1691,
      "grad_norm": 12.5,
      "grad_norm_var": 0.6618326822916667,
      "learning_rate": 0.0003,
      "loss": 12.0377,
      "loss/aux_loss": 0.04810284618288278,
      "loss/crossentropy": 2.7154513716697695,
      "loss/logits": 0.9080936968326568,
      "step": 16910
    },
    {
      "epoch": 0.1692,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.7940104166666667,
      "learning_rate": 0.0003,
      "loss": 12.0661,
      "loss/aux_loss": 0.0480948593467474,
      "loss/crossentropy": 2.756969064474106,
      "loss/logits": 0.9487773150205612,
      "step": 16920
    },
    {
      "epoch": 0.1693,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.402197265625,
      "learning_rate": 0.0003,
      "loss": 12.1444,
      "loss/aux_loss": 0.04810402132570744,
      "loss/crossentropy": 2.7484578788280487,
      "loss/logits": 0.9173682719469071,
      "step": 16930
    },
    {
      "epoch": 0.1694,
      "grad_norm": 12.125,
      "grad_norm_var": 0.2416015625,
      "learning_rate": 0.0003,
      "loss": 12.0027,
      "loss/aux_loss": 0.04809407070279122,
      "loss/crossentropy": 2.719779831171036,
      "loss/logits": 0.9158334016799927,
      "step": 16940
    },
    {
      "epoch": 0.1695,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.28203125,
      "learning_rate": 0.0003,
      "loss": 12.0734,
      "loss/aux_loss": 0.04810118954628706,
      "loss/crossentropy": 2.806976354122162,
      "loss/logits": 0.8893602877855301,
      "step": 16950
    },
    {
      "epoch": 0.1696,
      "grad_norm": 11.25,
      "grad_norm_var": 1.8876139322916667,
      "learning_rate": 0.0003,
      "loss": 12.0654,
      "loss/aux_loss": 0.04809729289263487,
      "loss/crossentropy": 2.8548884272575377,
      "loss/logits": 0.9692226439714432,
      "step": 16960
    },
    {
      "epoch": 0.1697,
      "grad_norm": 10.5625,
      "grad_norm_var": 0.314697265625,
      "learning_rate": 0.0003,
      "loss": 12.1883,
      "loss/aux_loss": 0.048106925748288634,
      "loss/crossentropy": 2.9143474459648133,
      "loss/logits": 0.9318220674991607,
      "step": 16970
    },
    {
      "epoch": 0.1698,
      "grad_norm": 12.625,
      "grad_norm_var": 1.1700358072916666,
      "learning_rate": 0.0003,
      "loss": 11.9753,
      "loss/aux_loss": 0.04809020813554525,
      "loss/crossentropy": 2.8300904273986816,
      "loss/logits": 0.9694455862045288,
      "step": 16980
    },
    {
      "epoch": 0.1699,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.403125,
      "learning_rate": 0.0003,
      "loss": 12.2506,
      "loss/aux_loss": 0.048101211339235304,
      "loss/crossentropy": 2.794898247718811,
      "loss/logits": 0.9496973544359207,
      "step": 16990
    },
    {
      "epoch": 0.17,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.43333333333333335,
      "learning_rate": 0.0003,
      "loss": 12.101,
      "loss/aux_loss": 0.04809295553714037,
      "loss/crossentropy": 3.0219761967658996,
      "loss/logits": 0.9177909851074219,
      "step": 17000
    },
    {
      "epoch": 0.1701,
      "grad_norm": 15.75,
      "grad_norm_var": 96.87667643229166,
      "learning_rate": 0.0003,
      "loss": 12.0937,
      "loss/aux_loss": 0.0481051966547966,
      "loss/crossentropy": 2.9502204298973083,
      "loss/logits": 0.9211991935968399,
      "step": 17010
    },
    {
      "epoch": 0.1702,
      "grad_norm": 11.75,
      "grad_norm_var": 2.8739420572916665,
      "learning_rate": 0.0003,
      "loss": 12.0823,
      "loss/aux_loss": 0.04810426589101553,
      "loss/crossentropy": 2.6327461183071135,
      "loss/logits": 0.923973485827446,
      "step": 17020
    },
    {
      "epoch": 0.1703,
      "grad_norm": 11.375,
      "grad_norm_var": 1.0531087239583334,
      "learning_rate": 0.0003,
      "loss": 12.0928,
      "loss/aux_loss": 0.04810360558331013,
      "loss/crossentropy": 3.002879500389099,
      "loss/logits": 0.9532357782125473,
      "step": 17030
    },
    {
      "epoch": 0.1704,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.63046875,
      "learning_rate": 0.0003,
      "loss": 12.0248,
      "loss/aux_loss": 0.0480900751426816,
      "loss/crossentropy": 2.7537549138069153,
      "loss/logits": 0.9276573568582535,
      "step": 17040
    },
    {
      "epoch": 0.1705,
      "grad_norm": 13.375,
      "grad_norm_var": 1.6624837239583334,
      "learning_rate": 0.0003,
      "loss": 12.0054,
      "loss/aux_loss": 0.04810062348842621,
      "loss/crossentropy": 2.884317523241043,
      "loss/logits": 0.9326794624328614,
      "step": 17050
    },
    {
      "epoch": 0.1706,
      "grad_norm": 11.5,
      "grad_norm_var": 1.736181640625,
      "learning_rate": 0.0003,
      "loss": 11.8953,
      "loss/aux_loss": 0.04811934363096952,
      "loss/crossentropy": 2.6659162402153016,
      "loss/logits": 0.8868398576974869,
      "step": 17060
    },
    {
      "epoch": 0.1707,
      "grad_norm": 11.875,
      "grad_norm_var": 0.5770833333333333,
      "learning_rate": 0.0003,
      "loss": 12.0149,
      "loss/aux_loss": 0.04809251334518194,
      "loss/crossentropy": 2.749342954158783,
      "loss/logits": 0.9031396269798279,
      "step": 17070
    },
    {
      "epoch": 0.1708,
      "grad_norm": 11.875,
      "grad_norm_var": 0.2526041666666667,
      "learning_rate": 0.0003,
      "loss": 12.1526,
      "loss/aux_loss": 0.048104824125766756,
      "loss/crossentropy": 2.856028115749359,
      "loss/logits": 0.959146237373352,
      "step": 17080
    },
    {
      "epoch": 0.1709,
      "grad_norm": 11.625,
      "grad_norm_var": 0.1916015625,
      "learning_rate": 0.0003,
      "loss": 12.0983,
      "loss/aux_loss": 0.04809093903750181,
      "loss/crossentropy": 2.8145798802375794,
      "loss/logits": 0.9006113916635513,
      "step": 17090
    },
    {
      "epoch": 0.171,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.22337239583333332,
      "learning_rate": 0.0003,
      "loss": 12.1089,
      "loss/aux_loss": 0.04809470176696777,
      "loss/crossentropy": 2.878612220287323,
      "loss/logits": 0.9135033786296844,
      "step": 17100
    },
    {
      "epoch": 0.1711,
      "grad_norm": 11.375,
      "grad_norm_var": 54.241129557291664,
      "learning_rate": 0.0003,
      "loss": 12.0472,
      "loss/aux_loss": 0.048102441057562825,
      "loss/crossentropy": 2.811024880409241,
      "loss/logits": 0.8989885419607162,
      "step": 17110
    },
    {
      "epoch": 0.1712,
      "grad_norm": 11.5,
      "grad_norm_var": 0.40206705729166664,
      "learning_rate": 0.0003,
      "loss": 12.1958,
      "loss/aux_loss": 0.048090110532939434,
      "loss/crossentropy": 2.8124298572540285,
      "loss/logits": 0.9289597928524017,
      "step": 17120
    },
    {
      "epoch": 0.1713,
      "grad_norm": 11.625,
      "grad_norm_var": 0.2353515625,
      "learning_rate": 0.0003,
      "loss": 11.8911,
      "loss/aux_loss": 0.04809228479862213,
      "loss/crossentropy": 2.876737803220749,
      "loss/logits": 0.9436014890670776,
      "step": 17130
    },
    {
      "epoch": 0.1714,
      "grad_norm": 11.375,
      "grad_norm_var": 0.2886555989583333,
      "learning_rate": 0.0003,
      "loss": 11.9557,
      "loss/aux_loss": 0.048099903389811516,
      "loss/crossentropy": 2.8804137110710144,
      "loss/logits": 0.938829579949379,
      "step": 17140
    },
    {
      "epoch": 0.1715,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.260791015625,
      "learning_rate": 0.0003,
      "loss": 11.852,
      "loss/aux_loss": 0.04809135273098945,
      "loss/crossentropy": 2.7023903012275694,
      "loss/logits": 0.8962929219007492,
      "step": 17150
    },
    {
      "epoch": 0.1716,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.3447265625,
      "learning_rate": 0.0003,
      "loss": 12.158,
      "loss/aux_loss": 0.048096888884902,
      "loss/crossentropy": 2.827605813741684,
      "loss/logits": 0.9441530287265778,
      "step": 17160
    },
    {
      "epoch": 0.1717,
      "grad_norm": 13.5,
      "grad_norm_var": 0.7931640625,
      "learning_rate": 0.0003,
      "loss": 12.1546,
      "loss/aux_loss": 0.048093185387551786,
      "loss/crossentropy": 2.814880883693695,
      "loss/logits": 0.9108005404472351,
      "step": 17170
    },
    {
      "epoch": 0.1718,
      "grad_norm": 11.625,
      "grad_norm_var": 3.0380208333333334,
      "learning_rate": 0.0003,
      "loss": 11.962,
      "loss/aux_loss": 0.04810141772031784,
      "loss/crossentropy": 2.7444641530513763,
      "loss/logits": 0.9487886667251587,
      "step": 17180
    },
    {
      "epoch": 0.1719,
      "grad_norm": 11.6875,
      "grad_norm_var": 2.831770833333333,
      "learning_rate": 0.0003,
      "loss": 12.1348,
      "loss/aux_loss": 0.04809289593249559,
      "loss/crossentropy": 2.7105092108249664,
      "loss/logits": 0.9182222783565521,
      "step": 17190
    },
    {
      "epoch": 0.172,
      "grad_norm": 11.375,
      "grad_norm_var": 0.474853515625,
      "learning_rate": 0.0003,
      "loss": 12.1075,
      "loss/aux_loss": 0.048097463138401506,
      "loss/crossentropy": 2.8113415241241455,
      "loss/logits": 0.9427078306674957,
      "step": 17200
    },
    {
      "epoch": 0.1721,
      "grad_norm": 12.375,
      "grad_norm_var": 0.2786458333333333,
      "learning_rate": 0.0003,
      "loss": 12.14,
      "loss/aux_loss": 0.04809903036803007,
      "loss/crossentropy": 2.9176873922348023,
      "loss/logits": 0.9191664904356003,
      "step": 17210
    },
    {
      "epoch": 0.1722,
      "grad_norm": 10.3125,
      "grad_norm_var": 0.5504557291666666,
      "learning_rate": 0.0003,
      "loss": 12.0308,
      "loss/aux_loss": 0.04809430036693811,
      "loss/crossentropy": 2.64280886054039,
      "loss/logits": 0.8799058675765992,
      "step": 17220
    },
    {
      "epoch": 0.1723,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.4051432291666667,
      "learning_rate": 0.0003,
      "loss": 12.1222,
      "loss/aux_loss": 0.048100571148097515,
      "loss/crossentropy": 2.9199374198913572,
      "loss/logits": 0.9405399680137634,
      "step": 17230
    },
    {
      "epoch": 0.1724,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.29464518229166664,
      "learning_rate": 0.0003,
      "loss": 12.2574,
      "loss/aux_loss": 0.04809443484991789,
      "loss/crossentropy": 2.7939966559410094,
      "loss/logits": 0.9183706283569336,
      "step": 17240
    },
    {
      "epoch": 0.1725,
      "grad_norm": 12.0,
      "grad_norm_var": 0.2562337239583333,
      "learning_rate": 0.0003,
      "loss": 12.0131,
      "loss/aux_loss": 0.048107451759278774,
      "loss/crossentropy": 2.779514318704605,
      "loss/logits": 0.9068025201559067,
      "step": 17250
    },
    {
      "epoch": 0.1726,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.39108072916666664,
      "learning_rate": 0.0003,
      "loss": 11.9615,
      "loss/aux_loss": 0.04809543266892433,
      "loss/crossentropy": 2.817984676361084,
      "loss/logits": 0.9144764870405198,
      "step": 17260
    },
    {
      "epoch": 0.1727,
      "grad_norm": 11.625,
      "grad_norm_var": 2.011458333333333,
      "learning_rate": 0.0003,
      "loss": 11.9494,
      "loss/aux_loss": 0.04809968285262585,
      "loss/crossentropy": 2.9492964446544647,
      "loss/logits": 0.9344431668519974,
      "step": 17270
    },
    {
      "epoch": 0.1728,
      "grad_norm": 13.0,
      "grad_norm_var": 2.0067545572916665,
      "learning_rate": 0.0003,
      "loss": 11.9271,
      "loss/aux_loss": 0.04809718765318394,
      "loss/crossentropy": 2.7608347654342653,
      "loss/logits": 0.9011356472969055,
      "step": 17280
    },
    {
      "epoch": 0.1729,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.7468098958333333,
      "learning_rate": 0.0003,
      "loss": 12.0838,
      "loss/aux_loss": 0.048104557767510416,
      "loss/crossentropy": 2.7879473209381103,
      "loss/logits": 0.9154693454504013,
      "step": 17290
    },
    {
      "epoch": 0.173,
      "grad_norm": 11.625,
      "grad_norm_var": 0.749072265625,
      "learning_rate": 0.0003,
      "loss": 11.9908,
      "loss/aux_loss": 0.048098857142031194,
      "loss/crossentropy": 2.6744504272937775,
      "loss/logits": 0.8712642341852188,
      "step": 17300
    },
    {
      "epoch": 0.1731,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.38671875,
      "learning_rate": 0.0003,
      "loss": 12.1573,
      "loss/aux_loss": 0.048095573857426646,
      "loss/crossentropy": 3.0483207941055297,
      "loss/logits": 0.93597452044487,
      "step": 17310
    },
    {
      "epoch": 0.1732,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.15818684895833332,
      "learning_rate": 0.0003,
      "loss": 11.8331,
      "loss/aux_loss": 0.04809464327991009,
      "loss/crossentropy": 2.7563810288906097,
      "loss/logits": 0.8930452913045883,
      "step": 17320
    },
    {
      "epoch": 0.1733,
      "grad_norm": 11.875,
      "grad_norm_var": 50.563395182291664,
      "learning_rate": 0.0003,
      "loss": 12.0362,
      "loss/aux_loss": 0.048101813159883024,
      "loss/crossentropy": 2.807816767692566,
      "loss/logits": 0.9140335559844971,
      "step": 17330
    },
    {
      "epoch": 0.1734,
      "grad_norm": 12.125,
      "grad_norm_var": 50.9265625,
      "learning_rate": 0.0003,
      "loss": 11.9131,
      "loss/aux_loss": 0.048089164309203625,
      "loss/crossentropy": 2.7212966203689577,
      "loss/logits": 0.9433120638132095,
      "step": 17340
    },
    {
      "epoch": 0.1735,
      "grad_norm": 12.25,
      "grad_norm_var": 0.15402018229166667,
      "learning_rate": 0.0003,
      "loss": 12.1065,
      "loss/aux_loss": 0.04809843562543392,
      "loss/crossentropy": 2.6257729053497316,
      "loss/logits": 0.8846357733011245,
      "step": 17350
    },
    {
      "epoch": 0.1736,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.445166015625,
      "learning_rate": 0.0003,
      "loss": 12.0886,
      "loss/aux_loss": 0.04810376763343811,
      "loss/crossentropy": 2.8265872836112975,
      "loss/logits": 0.9571549206972122,
      "step": 17360
    },
    {
      "epoch": 0.1737,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.4348958333333333,
      "learning_rate": 0.0003,
      "loss": 12.0218,
      "loss/aux_loss": 0.04809571448713541,
      "loss/crossentropy": 2.695615494251251,
      "loss/logits": 0.9150578171014786,
      "step": 17370
    },
    {
      "epoch": 0.1738,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.46139322916666664,
      "learning_rate": 0.0003,
      "loss": 12.2693,
      "loss/aux_loss": 0.04809955190867186,
      "loss/crossentropy": 2.6700818240642548,
      "loss/logits": 0.9094936668872833,
      "step": 17380
    },
    {
      "epoch": 0.1739,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.7393229166666667,
      "learning_rate": 0.0003,
      "loss": 12.0212,
      "loss/aux_loss": 0.048098945058882236,
      "loss/crossentropy": 2.7970273315906526,
      "loss/logits": 0.8984217762947082,
      "step": 17390
    },
    {
      "epoch": 0.174,
      "grad_norm": 12.8125,
      "grad_norm_var": 1.09375,
      "learning_rate": 0.0003,
      "loss": 12.0838,
      "loss/aux_loss": 0.048093376122415064,
      "loss/crossentropy": 2.8114991784095764,
      "loss/logits": 0.8884566456079483,
      "step": 17400
    },
    {
      "epoch": 0.1741,
      "grad_norm": 12.375,
      "grad_norm_var": 1.1936848958333333,
      "learning_rate": 0.0003,
      "loss": 12.0995,
      "loss/aux_loss": 0.04810470137745142,
      "loss/crossentropy": 2.7583046913146974,
      "loss/logits": 0.9460157155990601,
      "step": 17410
    },
    {
      "epoch": 0.1742,
      "grad_norm": 25.875,
      "grad_norm_var": 12.618733723958334,
      "learning_rate": 0.0003,
      "loss": 12.1705,
      "loss/aux_loss": 0.04809574950486421,
      "loss/crossentropy": 2.821639972925186,
      "loss/logits": 0.920597642660141,
      "step": 17420
    },
    {
      "epoch": 0.1743,
      "grad_norm": 12.0,
      "grad_norm_var": 13.774593098958333,
      "learning_rate": 0.0003,
      "loss": 12.1343,
      "loss/aux_loss": 0.04809047318994999,
      "loss/crossentropy": 2.9120493054389955,
      "loss/logits": 0.9170797854661942,
      "step": 17430
    },
    {
      "epoch": 0.1744,
      "grad_norm": 12.4375,
      "grad_norm_var": 2.804541015625,
      "learning_rate": 0.0003,
      "loss": 12.0075,
      "loss/aux_loss": 0.0480960488319397,
      "loss/crossentropy": 2.7624635457992555,
      "loss/logits": 0.8919235855340958,
      "step": 17440
    },
    {
      "epoch": 0.1745,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.469775390625,
      "learning_rate": 0.0003,
      "loss": 12.1544,
      "loss/aux_loss": 0.048093258403241634,
      "loss/crossentropy": 2.8480118989944456,
      "loss/logits": 0.9208219617605209,
      "step": 17450
    },
    {
      "epoch": 0.1746,
      "grad_norm": 10.875,
      "grad_norm_var": 0.167041015625,
      "learning_rate": 0.0003,
      "loss": 12.038,
      "loss/aux_loss": 0.048100156150758265,
      "loss/crossentropy": 2.81412872672081,
      "loss/logits": 0.925744378566742,
      "step": 17460
    },
    {
      "epoch": 0.1747,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.22317708333333333,
      "learning_rate": 0.0003,
      "loss": 12.0594,
      "loss/aux_loss": 0.04808522202074528,
      "loss/crossentropy": 2.782361996173859,
      "loss/logits": 0.9385877996683121,
      "step": 17470
    },
    {
      "epoch": 0.1748,
      "grad_norm": 12.3125,
      "grad_norm_var": 23.0869140625,
      "learning_rate": 0.0003,
      "loss": 12.1986,
      "loss/aux_loss": 0.04810808375477791,
      "loss/crossentropy": 2.819118005037308,
      "loss/logits": 0.9407922476530075,
      "step": 17480
    },
    {
      "epoch": 0.1749,
      "grad_norm": 11.5625,
      "grad_norm_var": 22.847119140625,
      "learning_rate": 0.0003,
      "loss": 11.9801,
      "loss/aux_loss": 0.04809485077857971,
      "loss/crossentropy": 2.8491112112998964,
      "loss/logits": 0.9401687920093537,
      "step": 17490
    },
    {
      "epoch": 0.175,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.262744140625,
      "learning_rate": 0.0003,
      "loss": 11.9604,
      "loss/aux_loss": 0.04808875843882561,
      "loss/crossentropy": 2.8413546562194822,
      "loss/logits": 0.9534878820180893,
      "step": 17500
    },
    {
      "epoch": 0.1751,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.3395182291666667,
      "learning_rate": 0.0003,
      "loss": 12.1045,
      "loss/aux_loss": 0.048095555044710636,
      "loss/crossentropy": 2.7935108840465546,
      "loss/logits": 0.9017595887184143,
      "step": 17510
    },
    {
      "epoch": 0.1752,
      "grad_norm": 11.0,
      "grad_norm_var": 0.33274739583333335,
      "learning_rate": 0.0003,
      "loss": 12.0272,
      "loss/aux_loss": 0.04809608049690724,
      "loss/crossentropy": 2.933014285564423,
      "loss/logits": 0.9154089689254761,
      "step": 17520
    },
    {
      "epoch": 0.1753,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.2848307291666667,
      "learning_rate": 0.0003,
      "loss": 12.0961,
      "loss/aux_loss": 0.04810178428888321,
      "loss/crossentropy": 2.8541224718093874,
      "loss/logits": 0.9548793703317642,
      "step": 17530
    },
    {
      "epoch": 0.1754,
      "grad_norm": 10.6875,
      "grad_norm_var": 0.43307291666666664,
      "learning_rate": 0.0003,
      "loss": 12.0888,
      "loss/aux_loss": 0.04808586481958628,
      "loss/crossentropy": 2.7221501886844637,
      "loss/logits": 0.9254509091377259,
      "step": 17540
    },
    {
      "epoch": 0.1755,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.595556640625,
      "learning_rate": 0.0003,
      "loss": 11.8596,
      "loss/aux_loss": 0.04811476822942495,
      "loss/crossentropy": 2.8995654344558717,
      "loss/logits": 0.9064432740211487,
      "step": 17550
    },
    {
      "epoch": 0.1756,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.382666015625,
      "learning_rate": 0.0003,
      "loss": 11.7278,
      "loss/aux_loss": 0.048095325380563735,
      "loss/crossentropy": 2.797735607624054,
      "loss/logits": 0.8821221351623535,
      "step": 17560
    },
    {
      "epoch": 0.1757,
      "grad_norm": 11.125,
      "grad_norm_var": 0.3997395833333333,
      "learning_rate": 0.0003,
      "loss": 11.8596,
      "loss/aux_loss": 0.04810337759554386,
      "loss/crossentropy": 2.7168959975242615,
      "loss/logits": 0.8649186968803406,
      "step": 17570
    },
    {
      "epoch": 0.1758,
      "grad_norm": 12.0,
      "grad_norm_var": 0.5856608072916667,
      "learning_rate": 0.0003,
      "loss": 12.1123,
      "loss/aux_loss": 0.0481048546731472,
      "loss/crossentropy": 2.896924364566803,
      "loss/logits": 0.9432176023721695,
      "step": 17580
    },
    {
      "epoch": 0.1759,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.663916015625,
      "learning_rate": 0.0003,
      "loss": 12.1182,
      "loss/aux_loss": 0.048101380653679374,
      "loss/crossentropy": 2.7174128890037537,
      "loss/logits": 0.8965833187103271,
      "step": 17590
    },
    {
      "epoch": 0.176,
      "grad_norm": 12.0625,
      "grad_norm_var": 33.6681640625,
      "learning_rate": 0.0003,
      "loss": 12.0515,
      "loss/aux_loss": 0.04809325095266104,
      "loss/crossentropy": 2.6860816717147826,
      "loss/logits": 0.9306042581796646,
      "step": 17600
    },
    {
      "epoch": 0.1761,
      "grad_norm": 11.0,
      "grad_norm_var": 32.864583333333336,
      "learning_rate": 0.0003,
      "loss": 12.0491,
      "loss/aux_loss": 0.04810206014662981,
      "loss/crossentropy": 2.795276200771332,
      "loss/logits": 0.9053617566823959,
      "step": 17610
    },
    {
      "epoch": 0.1762,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.749462890625,
      "learning_rate": 0.0003,
      "loss": 11.947,
      "loss/aux_loss": 0.04809454921633005,
      "loss/crossentropy": 2.6671301662921905,
      "loss/logits": 0.9019128113985062,
      "step": 17620
    },
    {
      "epoch": 0.1763,
      "grad_norm": 12.75,
      "grad_norm_var": 0.48318684895833336,
      "learning_rate": 0.0003,
      "loss": 12.1508,
      "loss/aux_loss": 0.04808996580541134,
      "loss/crossentropy": 2.8986705422401426,
      "loss/logits": 0.9507706761360168,
      "step": 17630
    },
    {
      "epoch": 0.1764,
      "grad_norm": 11.75,
      "grad_norm_var": 1.9614420572916667,
      "learning_rate": 0.0003,
      "loss": 11.9558,
      "loss/aux_loss": 0.04809357337653637,
      "loss/crossentropy": 2.818922591209412,
      "loss/logits": 0.890010553598404,
      "step": 17640
    },
    {
      "epoch": 0.1765,
      "grad_norm": 11.25,
      "grad_norm_var": 2.1322265625,
      "learning_rate": 0.0003,
      "loss": 11.9349,
      "loss/aux_loss": 0.04809540584683418,
      "loss/crossentropy": 2.8297097086906433,
      "loss/logits": 0.9366719990968704,
      "step": 17650
    },
    {
      "epoch": 0.1766,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.9899576822916667,
      "learning_rate": 0.0003,
      "loss": 12.1478,
      "loss/aux_loss": 0.048089148849248885,
      "loss/crossentropy": 2.843839108943939,
      "loss/logits": 0.9119983077049255,
      "step": 17660
    },
    {
      "epoch": 0.1767,
      "grad_norm": 12.0,
      "grad_norm_var": 0.7913899739583333,
      "learning_rate": 0.0003,
      "loss": 12.1032,
      "loss/aux_loss": 0.04810617808252573,
      "loss/crossentropy": 2.8277599930763246,
      "loss/logits": 0.9263883680105209,
      "step": 17670
    },
    {
      "epoch": 0.1768,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.5104166666666666,
      "learning_rate": 0.0003,
      "loss": 12.0376,
      "loss/aux_loss": 0.0480927873402834,
      "loss/crossentropy": 2.8370666086673735,
      "loss/logits": 0.9011499643325805,
      "step": 17680
    },
    {
      "epoch": 0.1769,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.5216145833333333,
      "learning_rate": 0.0003,
      "loss": 11.9335,
      "loss/aux_loss": 0.048093126900494096,
      "loss/crossentropy": 2.7675021648406983,
      "loss/logits": 0.8972540199756622,
      "step": 17690
    },
    {
      "epoch": 0.177,
      "grad_norm": 11.75,
      "grad_norm_var": 0.34739583333333335,
      "learning_rate": 0.0003,
      "loss": 11.8338,
      "loss/aux_loss": 0.04809641428291798,
      "loss/crossentropy": 2.691696697473526,
      "loss/logits": 0.8934990376234054,
      "step": 17700
    },
    {
      "epoch": 0.1771,
      "grad_norm": 12.125,
      "grad_norm_var": 0.236572265625,
      "learning_rate": 0.0003,
      "loss": 11.9839,
      "loss/aux_loss": 0.04809584002941847,
      "loss/crossentropy": 2.9292188465595244,
      "loss/logits": 0.9080984503030777,
      "step": 17710
    },
    {
      "epoch": 0.1772,
      "grad_norm": 13.25,
      "grad_norm_var": 0.27786458333333336,
      "learning_rate": 0.0003,
      "loss": 12.0181,
      "loss/aux_loss": 0.048103841580450536,
      "loss/crossentropy": 2.6175199866294863,
      "loss/logits": 0.9136331707239151,
      "step": 17720
    },
    {
      "epoch": 0.1773,
      "grad_norm": 12.75,
      "grad_norm_var": 0.5515625,
      "learning_rate": 0.0003,
      "loss": 11.9502,
      "loss/aux_loss": 0.04809474535286427,
      "loss/crossentropy": 2.9119593143463134,
      "loss/logits": 0.9304135531187058,
      "step": 17730
    },
    {
      "epoch": 0.1774,
      "grad_norm": 11.5,
      "grad_norm_var": 0.445947265625,
      "learning_rate": 0.0003,
      "loss": 12.0916,
      "loss/aux_loss": 0.0480996023863554,
      "loss/crossentropy": 2.8041651487350463,
      "loss/logits": 0.9179874926805496,
      "step": 17740
    },
    {
      "epoch": 0.1775,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.238916015625,
      "learning_rate": 0.0003,
      "loss": 11.9421,
      "loss/aux_loss": 0.04809048194438219,
      "loss/crossentropy": 2.9143458247184753,
      "loss/logits": 0.9369097352027893,
      "step": 17750
    },
    {
      "epoch": 0.1776,
      "grad_norm": 12.875,
      "grad_norm_var": 0.49993489583333334,
      "learning_rate": 0.0003,
      "loss": 12.0297,
      "loss/aux_loss": 0.04809221494942904,
      "loss/crossentropy": 2.77188703417778,
      "loss/logits": 0.8611804962158203,
      "step": 17760
    },
    {
      "epoch": 0.1777,
      "grad_norm": 19.0,
      "grad_norm_var": 3.628889973958333,
      "learning_rate": 0.0003,
      "loss": 12.1735,
      "loss/aux_loss": 0.04809418804943562,
      "loss/crossentropy": 2.866736590862274,
      "loss/logits": 0.9347006261348725,
      "step": 17770
    },
    {
      "epoch": 0.1778,
      "grad_norm": 11.125,
      "grad_norm_var": 3.622509765625,
      "learning_rate": 0.0003,
      "loss": 11.8912,
      "loss/aux_loss": 0.048098650947213176,
      "loss/crossentropy": 2.8250136613845824,
      "loss/logits": 0.945642602443695,
      "step": 17780
    },
    {
      "epoch": 0.1779,
      "grad_norm": 11.125,
      "grad_norm_var": 0.2462890625,
      "learning_rate": 0.0003,
      "loss": 12.0138,
      "loss/aux_loss": 0.0481024345383048,
      "loss/crossentropy": 2.750953811407089,
      "loss/logits": 0.8871120661497116,
      "step": 17790
    },
    {
      "epoch": 0.178,
      "grad_norm": 12.25,
      "grad_norm_var": 109.72862955729167,
      "learning_rate": 0.0003,
      "loss": 11.8782,
      "loss/aux_loss": 0.048107188753783704,
      "loss/crossentropy": 2.9277958452701567,
      "loss/logits": 0.9459708213806153,
      "step": 17800
    },
    {
      "epoch": 0.1781,
      "grad_norm": 13.8125,
      "grad_norm_var": 3.061393229166667,
      "learning_rate": 0.0003,
      "loss": 12.0301,
      "loss/aux_loss": 0.048091620206832886,
      "loss/crossentropy": 2.8570632517337797,
      "loss/logits": 0.9262526482343674,
      "step": 17810
    },
    {
      "epoch": 0.1782,
      "grad_norm": 10.5625,
      "grad_norm_var": 3.207275390625,
      "learning_rate": 0.0003,
      "loss": 12.0702,
      "loss/aux_loss": 0.0481030935421586,
      "loss/crossentropy": 2.7938737750053404,
      "loss/logits": 0.9401546657085419,
      "step": 17820
    },
    {
      "epoch": 0.1783,
      "grad_norm": 11.875,
      "grad_norm_var": 2.024853515625,
      "learning_rate": 0.0003,
      "loss": 11.9894,
      "loss/aux_loss": 0.04810605850070715,
      "loss/crossentropy": 2.67935990691185,
      "loss/logits": 0.8830744028091431,
      "step": 17830
    },
    {
      "epoch": 0.1784,
      "grad_norm": 12.8125,
      "grad_norm_var": 4.722900390625,
      "learning_rate": 0.0003,
      "loss": 12.0205,
      "loss/aux_loss": 0.04809609260410071,
      "loss/crossentropy": 2.708746474981308,
      "loss/logits": 0.9178021907806396,
      "step": 17840
    },
    {
      "epoch": 0.1785,
      "grad_norm": 11.1875,
      "grad_norm_var": 4.58671875,
      "learning_rate": 0.0003,
      "loss": 12.012,
      "loss/aux_loss": 0.04809623472392559,
      "loss/crossentropy": 2.7406187474727632,
      "loss/logits": 0.9204235941171646,
      "step": 17850
    },
    {
      "epoch": 0.1786,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.156103515625,
      "learning_rate": 0.0003,
      "loss": 12.0759,
      "loss/aux_loss": 0.04808931238949299,
      "loss/crossentropy": 2.822909486293793,
      "loss/logits": 0.9199528455734253,
      "step": 17860
    },
    {
      "epoch": 0.1787,
      "grad_norm": 11.75,
      "grad_norm_var": 0.38331705729166665,
      "learning_rate": 0.0003,
      "loss": 12.0255,
      "loss/aux_loss": 0.048098467849195005,
      "loss/crossentropy": 2.9027469515800477,
      "loss/logits": 0.9527244418859482,
      "step": 17870
    },
    {
      "epoch": 0.1788,
      "grad_norm": 11.375,
      "grad_norm_var": 0.349462890625,
      "learning_rate": 0.0003,
      "loss": 11.9763,
      "loss/aux_loss": 0.048094440065324304,
      "loss/crossentropy": 2.8290345549583433,
      "loss/logits": 0.965818139910698,
      "step": 17880
    },
    {
      "epoch": 0.1789,
      "grad_norm": 12.0625,
      "grad_norm_var": 15.248681640625,
      "learning_rate": 0.0003,
      "loss": 11.9306,
      "loss/aux_loss": 0.048097760416567326,
      "loss/crossentropy": 2.7043901085853577,
      "loss/logits": 0.8894819289445877,
      "step": 17890
    },
    {
      "epoch": 0.179,
      "grad_norm": 12.25,
      "grad_norm_var": 14.694791666666667,
      "learning_rate": 0.0003,
      "loss": 12.1708,
      "loss/aux_loss": 0.04809524416923523,
      "loss/crossentropy": 2.865119767189026,
      "loss/logits": 0.9330274909734726,
      "step": 17900
    },
    {
      "epoch": 0.1791,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.23487955729166668,
      "learning_rate": 0.0003,
      "loss": 11.9219,
      "loss/aux_loss": 0.04810286946594715,
      "loss/crossentropy": 2.8617121458053587,
      "loss/logits": 0.9211963266134262,
      "step": 17910
    },
    {
      "epoch": 0.1792,
      "grad_norm": 13.125,
      "grad_norm_var": 0.25826822916666664,
      "learning_rate": 0.0003,
      "loss": 12.1026,
      "loss/aux_loss": 0.048097353614866736,
      "loss/crossentropy": 2.9374179244041443,
      "loss/logits": 0.946164458990097,
      "step": 17920
    },
    {
      "epoch": 0.1793,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.9634765625,
      "learning_rate": 0.0003,
      "loss": 11.9333,
      "loss/aux_loss": 0.04809586051851511,
      "loss/crossentropy": 2.804642015695572,
      "loss/logits": 0.884665310382843,
      "step": 17930
    },
    {
      "epoch": 0.1794,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.7452473958333333,
      "learning_rate": 0.0003,
      "loss": 12.1827,
      "loss/aux_loss": 0.04808973409235477,
      "loss/crossentropy": 2.782781344652176,
      "loss/logits": 0.9129390954971314,
      "step": 17940
    },
    {
      "epoch": 0.1795,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.424853515625,
      "learning_rate": 0.0003,
      "loss": 11.9763,
      "loss/aux_loss": 0.04808917623013258,
      "loss/crossentropy": 2.7897274017333986,
      "loss/logits": 0.8996834605932236,
      "step": 17950
    },
    {
      "epoch": 0.1796,
      "grad_norm": 11.625,
      "grad_norm_var": 0.5186848958333333,
      "learning_rate": 0.0003,
      "loss": 12.0981,
      "loss/aux_loss": 0.048086441680788995,
      "loss/crossentropy": 2.7038078784942625,
      "loss/logits": 0.8972001552581788,
      "step": 17960
    },
    {
      "epoch": 0.1797,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.19088541666666667,
      "learning_rate": 0.0003,
      "loss": 12.2017,
      "loss/aux_loss": 0.04809106402099132,
      "loss/crossentropy": 2.738478219509125,
      "loss/logits": 0.9567953556776047,
      "step": 17970
    },
    {
      "epoch": 0.1798,
      "grad_norm": 11.25,
      "grad_norm_var": 0.3150390625,
      "learning_rate": 0.0003,
      "loss": 12.2132,
      "loss/aux_loss": 0.04809019956737757,
      "loss/crossentropy": 2.894696664810181,
      "loss/logits": 0.9616926342248917,
      "step": 17980
    },
    {
      "epoch": 0.1799,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.292041015625,
      "learning_rate": 0.0003,
      "loss": 12.0304,
      "loss/aux_loss": 0.048091168701648715,
      "loss/crossentropy": 2.8822677552700045,
      "loss/logits": 0.9124285817146301,
      "step": 17990
    },
    {
      "epoch": 0.18,
      "grad_norm": 11.375,
      "grad_norm_var": 0.322119140625,
      "learning_rate": 0.0003,
      "loss": 11.8724,
      "loss/aux_loss": 0.04809627775102854,
      "loss/crossentropy": 2.790885365009308,
      "loss/logits": 0.9168848097324371,
      "step": 18000
    },
    {
      "epoch": 0.1801,
      "grad_norm": 11.0,
      "grad_norm_var": 0.28318684895833335,
      "learning_rate": 0.0003,
      "loss": 12.1473,
      "loss/aux_loss": 0.048096579127013685,
      "loss/crossentropy": 2.8502917110919954,
      "loss/logits": 0.9435136646032334,
      "step": 18010
    },
    {
      "epoch": 0.1802,
      "grad_norm": 11.0,
      "grad_norm_var": 0.3889973958333333,
      "learning_rate": 0.0003,
      "loss": 11.9018,
      "loss/aux_loss": 0.04810248874127865,
      "loss/crossentropy": 2.7946541905403137,
      "loss/logits": 0.9097151190042496,
      "step": 18020
    },
    {
      "epoch": 0.1803,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.19581705729166668,
      "learning_rate": 0.0003,
      "loss": 11.9168,
      "loss/aux_loss": 0.048086031526327136,
      "loss/crossentropy": 2.8708603501319887,
      "loss/logits": 0.9378985464572906,
      "step": 18030
    },
    {
      "epoch": 0.1804,
      "grad_norm": 11.25,
      "grad_norm_var": 0.4671223958333333,
      "learning_rate": 0.0003,
      "loss": 12.0196,
      "loss/aux_loss": 0.04809171762317419,
      "loss/crossentropy": 2.757344883680344,
      "loss/logits": 0.9077586501836776,
      "step": 18040
    },
    {
      "epoch": 0.1805,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.5227701822916667,
      "learning_rate": 0.0003,
      "loss": 12.1929,
      "loss/aux_loss": 0.04808536898344755,
      "loss/crossentropy": 2.9499477982521056,
      "loss/logits": 0.938400462269783,
      "step": 18050
    },
    {
      "epoch": 0.1806,
      "grad_norm": 11.125,
      "grad_norm_var": 0.259619140625,
      "learning_rate": 0.0003,
      "loss": 11.8522,
      "loss/aux_loss": 0.04810300972312689,
      "loss/crossentropy": 2.7223174929618836,
      "loss/logits": 0.9064554870128632,
      "step": 18060
    },
    {
      "epoch": 0.1807,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.19680989583333333,
      "learning_rate": 0.0003,
      "loss": 12.0087,
      "loss/aux_loss": 0.048086580634117124,
      "loss/crossentropy": 2.81934916973114,
      "loss/logits": 0.932407483458519,
      "step": 18070
    },
    {
      "epoch": 0.1808,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.4161295572916667,
      "learning_rate": 0.0003,
      "loss": 11.9218,
      "loss/aux_loss": 0.048097232170403,
      "loss/crossentropy": 2.783638632297516,
      "loss/logits": 0.9202796012163162,
      "step": 18080
    },
    {
      "epoch": 0.1809,
      "grad_norm": 12.0,
      "grad_norm_var": 4.4009765625,
      "learning_rate": 0.0003,
      "loss": 12.0502,
      "loss/aux_loss": 0.04810140375047922,
      "loss/crossentropy": 2.8965428352355955,
      "loss/logits": 0.9300930172204971,
      "step": 18090
    },
    {
      "epoch": 0.181,
      "grad_norm": 11.9375,
      "grad_norm_var": 4.006770833333333,
      "learning_rate": 0.0003,
      "loss": 12.2106,
      "loss/aux_loss": 0.04809464998543263,
      "loss/crossentropy": 2.82760112285614,
      "loss/logits": 0.9162612468004226,
      "step": 18100
    },
    {
      "epoch": 0.1811,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.7079264322916666,
      "learning_rate": 0.0003,
      "loss": 11.9327,
      "loss/aux_loss": 0.04809616301208734,
      "loss/crossentropy": 2.9348750352859496,
      "loss/logits": 0.908600127696991,
      "step": 18110
    },
    {
      "epoch": 0.1812,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.5577473958333333,
      "learning_rate": 0.0003,
      "loss": 12.0074,
      "loss/aux_loss": 0.0480873541906476,
      "loss/crossentropy": 2.8367616474628448,
      "loss/logits": 0.9282374233007431,
      "step": 18120
    },
    {
      "epoch": 0.1813,
      "grad_norm": 12.125,
      "grad_norm_var": 0.3374837239583333,
      "learning_rate": 0.0003,
      "loss": 12.0499,
      "loss/aux_loss": 0.04810123294591904,
      "loss/crossentropy": 2.811716413497925,
      "loss/logits": 0.8937458395957947,
      "step": 18130
    },
    {
      "epoch": 0.1814,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.340478515625,
      "learning_rate": 0.0003,
      "loss": 12.0357,
      "loss/aux_loss": 0.04809012711048126,
      "loss/crossentropy": 2.7347005784511564,
      "loss/logits": 0.8987887173891067,
      "step": 18140
    },
    {
      "epoch": 0.1815,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.4512858072916667,
      "learning_rate": 0.0003,
      "loss": 12.0446,
      "loss/aux_loss": 0.048095178604125974,
      "loss/crossentropy": 2.792975926399231,
      "loss/logits": 0.936535793542862,
      "step": 18150
    },
    {
      "epoch": 0.1816,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.1978515625,
      "learning_rate": 0.0003,
      "loss": 12.1014,
      "loss/aux_loss": 0.048092770390212536,
      "loss/crossentropy": 2.6440272629261017,
      "loss/logits": 0.9145908206701279,
      "step": 18160
    },
    {
      "epoch": 0.1817,
      "grad_norm": 11.0,
      "grad_norm_var": 0.27858072916666665,
      "learning_rate": 0.0003,
      "loss": 11.801,
      "loss/aux_loss": 0.04809875432401896,
      "loss/crossentropy": 2.7408132016658784,
      "loss/logits": 0.8750650644302368,
      "step": 18170
    },
    {
      "epoch": 0.1818,
      "grad_norm": 11.4375,
      "grad_norm_var": 1.0853515625,
      "learning_rate": 0.0003,
      "loss": 12.1041,
      "loss/aux_loss": 0.04810262303799391,
      "loss/crossentropy": 2.7091507375240327,
      "loss/logits": 0.9323061019182205,
      "step": 18180
    },
    {
      "epoch": 0.1819,
      "grad_norm": 11.8125,
      "grad_norm_var": 1.352197265625,
      "learning_rate": 0.0003,
      "loss": 12.1093,
      "loss/aux_loss": 0.04809154383838177,
      "loss/crossentropy": 2.9365743041038512,
      "loss/logits": 0.9312824219465256,
      "step": 18190
    },
    {
      "epoch": 0.182,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.7645670572916666,
      "learning_rate": 0.0003,
      "loss": 11.9302,
      "loss/aux_loss": 0.04810417983680963,
      "loss/crossentropy": 2.696337890625,
      "loss/logits": 0.9121669709682465,
      "step": 18200
    },
    {
      "epoch": 0.1821,
      "grad_norm": 11.5,
      "grad_norm_var": 0.37180989583333335,
      "learning_rate": 0.0003,
      "loss": 12.1331,
      "loss/aux_loss": 0.04809307269752026,
      "loss/crossentropy": 2.718644219636917,
      "loss/logits": 0.9004943788051605,
      "step": 18210
    },
    {
      "epoch": 0.1822,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.5102701822916667,
      "learning_rate": 0.0003,
      "loss": 11.953,
      "loss/aux_loss": 0.04809835311025381,
      "loss/crossentropy": 2.907946026325226,
      "loss/logits": 0.9023657441139221,
      "step": 18220
    },
    {
      "epoch": 0.1823,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.429541015625,
      "learning_rate": 0.0003,
      "loss": 11.7626,
      "loss/aux_loss": 0.04809815175831318,
      "loss/crossentropy": 2.7833638072013853,
      "loss/logits": 0.9019864350557327,
      "step": 18230
    },
    {
      "epoch": 0.1824,
      "grad_norm": 12.0,
      "grad_norm_var": 0.9494791666666667,
      "learning_rate": 0.0003,
      "loss": 12.1544,
      "loss/aux_loss": 0.04810196273028851,
      "loss/crossentropy": 2.856829822063446,
      "loss/logits": 0.8836144953966141,
      "step": 18240
    },
    {
      "epoch": 0.1825,
      "grad_norm": 12.0,
      "grad_norm_var": 0.853125,
      "learning_rate": 0.0003,
      "loss": 11.7924,
      "loss/aux_loss": 0.04810160342603922,
      "loss/crossentropy": 2.8368868112564085,
      "loss/logits": 0.9327179700136184,
      "step": 18250
    },
    {
      "epoch": 0.1826,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.25323893229166666,
      "learning_rate": 0.0003,
      "loss": 12.1253,
      "loss/aux_loss": 0.04810277093201876,
      "loss/crossentropy": 2.7802767038345335,
      "loss/logits": 0.8940910458564758,
      "step": 18260
    },
    {
      "epoch": 0.1827,
      "grad_norm": 12.0,
      "grad_norm_var": 0.2759765625,
      "learning_rate": 0.0003,
      "loss": 11.9725,
      "loss/aux_loss": 0.04809536635875702,
      "loss/crossentropy": 2.845566821098328,
      "loss/logits": 0.9107513338327408,
      "step": 18270
    },
    {
      "epoch": 0.1828,
      "grad_norm": 11.375,
      "grad_norm_var": 0.4071451822916667,
      "learning_rate": 0.0003,
      "loss": 11.985,
      "loss/aux_loss": 0.04809177704155445,
      "loss/crossentropy": 2.708817595243454,
      "loss/logits": 0.8630902379751205,
      "step": 18280
    },
    {
      "epoch": 0.1829,
      "grad_norm": 11.5,
      "grad_norm_var": 0.27708333333333335,
      "learning_rate": 0.0003,
      "loss": 11.8368,
      "loss/aux_loss": 0.04809412229806185,
      "loss/crossentropy": 2.6290226101875307,
      "loss/logits": 0.927997687458992,
      "step": 18290
    },
    {
      "epoch": 0.183,
      "grad_norm": 11.0,
      "grad_norm_var": 0.5557291666666667,
      "learning_rate": 0.0003,
      "loss": 12.079,
      "loss/aux_loss": 0.04809760414063931,
      "loss/crossentropy": 2.820905792713165,
      "loss/logits": 0.9419155091047287,
      "step": 18300
    },
    {
      "epoch": 0.1831,
      "grad_norm": 21.875,
      "grad_norm_var": 389.9878743489583,
      "learning_rate": 0.0003,
      "loss": 12.2556,
      "loss/aux_loss": 0.04809573795646429,
      "loss/crossentropy": 2.8808292627334593,
      "loss/logits": 0.9127176314592361,
      "step": 18310
    },
    {
      "epoch": 0.1832,
      "grad_norm": 11.5625,
      "grad_norm_var": 6.450374348958333,
      "learning_rate": 0.0003,
      "loss": 11.9252,
      "loss/aux_loss": 0.04810270164161921,
      "loss/crossentropy": 2.638647198677063,
      "loss/logits": 0.8678022742271423,
      "step": 18320
    },
    {
      "epoch": 0.1833,
      "grad_norm": 12.5,
      "grad_norm_var": 0.24576822916666666,
      "learning_rate": 0.0003,
      "loss": 11.9287,
      "loss/aux_loss": 0.048086739145219326,
      "loss/crossentropy": 2.7931796431541445,
      "loss/logits": 0.9423355519771576,
      "step": 18330
    },
    {
      "epoch": 0.1834,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.28878580729166664,
      "learning_rate": 0.0003,
      "loss": 11.8476,
      "loss/aux_loss": 0.04810136705636978,
      "loss/crossentropy": 2.7460675835609436,
      "loss/logits": 0.9129256516695022,
      "step": 18340
    },
    {
      "epoch": 0.1835,
      "grad_norm": 11.625,
      "grad_norm_var": 0.39264322916666666,
      "learning_rate": 0.0003,
      "loss": 12.1094,
      "loss/aux_loss": 0.04808819629251957,
      "loss/crossentropy": 2.9586320996284483,
      "loss/logits": 0.926827785372734,
      "step": 18350
    },
    {
      "epoch": 0.1836,
      "grad_norm": 12.25,
      "grad_norm_var": 0.271728515625,
      "learning_rate": 0.0003,
      "loss": 12.0495,
      "loss/aux_loss": 0.04808443989604712,
      "loss/crossentropy": 2.8124279379844666,
      "loss/logits": 0.929901072382927,
      "step": 18360
    },
    {
      "epoch": 0.1837,
      "grad_norm": 11.5,
      "grad_norm_var": 0.550244140625,
      "learning_rate": 0.0003,
      "loss": 12.1857,
      "loss/aux_loss": 0.04809539690613747,
      "loss/crossentropy": 2.9786995530128477,
      "loss/logits": 0.9320331394672394,
      "step": 18370
    },
    {
      "epoch": 0.1838,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.5140625,
      "learning_rate": 0.0003,
      "loss": 11.9399,
      "loss/aux_loss": 0.048090987093746665,
      "loss/crossentropy": 2.921971356868744,
      "loss/logits": 0.9322270661592483,
      "step": 18380
    },
    {
      "epoch": 0.1839,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.30416666666666664,
      "learning_rate": 0.0003,
      "loss": 12.0165,
      "loss/aux_loss": 0.04809644818305969,
      "loss/crossentropy": 2.7656728088855744,
      "loss/logits": 0.8962883800268173,
      "step": 18390
    },
    {
      "epoch": 0.184,
      "grad_norm": 11.25,
      "grad_norm_var": 0.3473307291666667,
      "learning_rate": 0.0003,
      "loss": 11.9019,
      "loss/aux_loss": 0.048087817057967185,
      "loss/crossentropy": 2.9055333137512207,
      "loss/logits": 0.903611746430397,
      "step": 18400
    },
    {
      "epoch": 0.1841,
      "grad_norm": 11.125,
      "grad_norm_var": 0.43697916666666664,
      "learning_rate": 0.0003,
      "loss": 11.9844,
      "loss/aux_loss": 0.04810544457286596,
      "loss/crossentropy": 2.788058453798294,
      "loss/logits": 0.9051843047142029,
      "step": 18410
    },
    {
      "epoch": 0.1842,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.15729166666666666,
      "learning_rate": 0.0003,
      "loss": 11.8739,
      "loss/aux_loss": 0.0480987248942256,
      "loss/crossentropy": 2.725960999727249,
      "loss/logits": 0.9009216666221619,
      "step": 18420
    },
    {
      "epoch": 0.1843,
      "grad_norm": 11.5,
      "grad_norm_var": 0.0900390625,
      "learning_rate": 0.0003,
      "loss": 12.0252,
      "loss/aux_loss": 0.04809308275580406,
      "loss/crossentropy": 2.8324514091014863,
      "loss/logits": 0.9101878136396409,
      "step": 18430
    },
    {
      "epoch": 0.1844,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.235791015625,
      "learning_rate": 0.0003,
      "loss": 12.037,
      "loss/aux_loss": 0.04810200035572052,
      "loss/crossentropy": 2.7521001577377318,
      "loss/logits": 0.8864558875560761,
      "step": 18440
    },
    {
      "epoch": 0.1845,
      "grad_norm": 11.75,
      "grad_norm_var": 0.21951497395833333,
      "learning_rate": 0.0003,
      "loss": 11.9625,
      "loss/aux_loss": 0.04809632524847984,
      "loss/crossentropy": 2.670381647348404,
      "loss/logits": 0.9308747231960297,
      "step": 18450
    },
    {
      "epoch": 0.1846,
      "grad_norm": 11.75,
      "grad_norm_var": 7.765999348958333,
      "learning_rate": 0.0003,
      "loss": 11.9008,
      "loss/aux_loss": 0.04809861965477467,
      "loss/crossentropy": 2.729556679725647,
      "loss/logits": 0.9098370641469955,
      "step": 18460
    },
    {
      "epoch": 0.1847,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.390087890625,
      "learning_rate": 0.0003,
      "loss": 11.92,
      "loss/aux_loss": 0.04810507521033287,
      "loss/crossentropy": 2.72969531416893,
      "loss/logits": 0.8956705331802368,
      "step": 18470
    },
    {
      "epoch": 0.1848,
      "grad_norm": 11.375,
      "grad_norm_var": 0.366650390625,
      "learning_rate": 0.0003,
      "loss": 12.1006,
      "loss/aux_loss": 0.048082930594682695,
      "loss/crossentropy": 2.878212571144104,
      "loss/logits": 0.9402207374572754,
      "step": 18480
    },
    {
      "epoch": 0.1849,
      "grad_norm": 12.375,
      "grad_norm_var": 0.27316080729166664,
      "learning_rate": 0.0003,
      "loss": 11.9182,
      "loss/aux_loss": 0.048104613274335864,
      "loss/crossentropy": 2.8093533754348754,
      "loss/logits": 0.9267432987689972,
      "step": 18490
    },
    {
      "epoch": 0.185,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.45089518229166664,
      "learning_rate": 0.0003,
      "loss": 12.0427,
      "loss/aux_loss": 0.04809886794537306,
      "loss/crossentropy": 2.8468139350414274,
      "loss/logits": 0.9497668504714966,
      "step": 18500
    },
    {
      "epoch": 0.1851,
      "grad_norm": 11.875,
      "grad_norm_var": 0.48409830729166664,
      "learning_rate": 0.0003,
      "loss": 12.2465,
      "loss/aux_loss": 0.04809215907007456,
      "loss/crossentropy": 2.7852579593658446,
      "loss/logits": 0.9196423381567002,
      "step": 18510
    },
    {
      "epoch": 0.1852,
      "grad_norm": 11.875,
      "grad_norm_var": 0.42701822916666665,
      "learning_rate": 0.0003,
      "loss": 11.7951,
      "loss/aux_loss": 0.04809624664485455,
      "loss/crossentropy": 2.7887323558330537,
      "loss/logits": 0.9103799790143967,
      "step": 18520
    },
    {
      "epoch": 0.1853,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.4661458333333333,
      "learning_rate": 0.0003,
      "loss": 12.0625,
      "loss/aux_loss": 0.04808788318186998,
      "loss/crossentropy": 2.808869343996048,
      "loss/logits": 0.9083440005779266,
      "step": 18530
    },
    {
      "epoch": 0.1854,
      "grad_norm": 10.8125,
      "grad_norm_var": 0.3947265625,
      "learning_rate": 0.0003,
      "loss": 11.8269,
      "loss/aux_loss": 0.04810307510197163,
      "loss/crossentropy": 2.657493585348129,
      "loss/logits": 0.9473574429750442,
      "step": 18540
    },
    {
      "epoch": 0.1855,
      "grad_norm": 11.75,
      "grad_norm_var": 0.34036458333333336,
      "learning_rate": 0.0003,
      "loss": 11.9915,
      "loss/aux_loss": 0.048092805035412314,
      "loss/crossentropy": 2.809315764904022,
      "loss/logits": 0.9260794132947922,
      "step": 18550
    },
    {
      "epoch": 0.1856,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.19920247395833332,
      "learning_rate": 0.0003,
      "loss": 11.99,
      "loss/aux_loss": 0.04810086619108915,
      "loss/crossentropy": 2.834631139039993,
      "loss/logits": 0.8880037814378738,
      "step": 18560
    },
    {
      "epoch": 0.1857,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.27447916666666666,
      "learning_rate": 0.0003,
      "loss": 12.0215,
      "loss/aux_loss": 0.04809237774461508,
      "loss/crossentropy": 2.82566694021225,
      "loss/logits": 0.9089670658111573,
      "step": 18570
    },
    {
      "epoch": 0.1858,
      "grad_norm": 11.25,
      "grad_norm_var": 0.4634765625,
      "learning_rate": 0.0003,
      "loss": 11.9482,
      "loss/aux_loss": 0.048088868334889415,
      "loss/crossentropy": 2.8229294657707213,
      "loss/logits": 0.9378566771745682,
      "step": 18580
    },
    {
      "epoch": 0.1859,
      "grad_norm": 12.5,
      "grad_norm_var": 0.2718587239583333,
      "learning_rate": 0.0003,
      "loss": 11.8611,
      "loss/aux_loss": 0.04808779731392861,
      "loss/crossentropy": 2.7925811648368835,
      "loss/logits": 0.9152165412902832,
      "step": 18590
    },
    {
      "epoch": 0.186,
      "grad_norm": 12.875,
      "grad_norm_var": 0.2869140625,
      "learning_rate": 0.0003,
      "loss": 11.9566,
      "loss/aux_loss": 0.04808272887021303,
      "loss/crossentropy": 2.84689114689827,
      "loss/logits": 0.9415480852127075,
      "step": 18600
    },
    {
      "epoch": 0.1861,
      "grad_norm": 12.625,
      "grad_norm_var": 0.47389322916666665,
      "learning_rate": 0.0003,
      "loss": 12.017,
      "loss/aux_loss": 0.0480954147875309,
      "loss/crossentropy": 2.9054375171661375,
      "loss/logits": 0.9320352107286454,
      "step": 18610
    },
    {
      "epoch": 0.1862,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.4014973958333333,
      "learning_rate": 0.0003,
      "loss": 11.9752,
      "loss/aux_loss": 0.04809523019939661,
      "loss/crossentropy": 2.8620842158794404,
      "loss/logits": 0.9115070551633835,
      "step": 18620
    },
    {
      "epoch": 0.1863,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.3343587239583333,
      "learning_rate": 0.0003,
      "loss": 11.9462,
      "loss/aux_loss": 0.04809815548360348,
      "loss/crossentropy": 2.799818730354309,
      "loss/logits": 0.9180498957633972,
      "step": 18630
    },
    {
      "epoch": 0.1864,
      "grad_norm": 10.75,
      "grad_norm_var": 0.3402180989583333,
      "learning_rate": 0.0003,
      "loss": 12.1313,
      "loss/aux_loss": 0.048090537264943126,
      "loss/crossentropy": 2.9112443208694456,
      "loss/logits": 0.9628580302000046,
      "step": 18640
    },
    {
      "epoch": 0.1865,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.3275390625,
      "learning_rate": 0.0003,
      "loss": 11.8097,
      "loss/aux_loss": 0.04809784088283777,
      "loss/crossentropy": 2.7898995995521547,
      "loss/logits": 0.8758876919746399,
      "step": 18650
    },
    {
      "epoch": 0.1866,
      "grad_norm": 11.25,
      "grad_norm_var": 0.355712890625,
      "learning_rate": 0.0003,
      "loss": 11.9504,
      "loss/aux_loss": 0.04809091240167618,
      "loss/crossentropy": 2.883331334590912,
      "loss/logits": 0.9137732326984406,
      "step": 18660
    },
    {
      "epoch": 0.1867,
      "grad_norm": 10.875,
      "grad_norm_var": 0.2604166666666667,
      "learning_rate": 0.0003,
      "loss": 11.9183,
      "loss/aux_loss": 0.04810288343578577,
      "loss/crossentropy": 2.827151381969452,
      "loss/logits": 0.9118337035179138,
      "step": 18670
    },
    {
      "epoch": 0.1868,
      "grad_norm": 12.5,
      "grad_norm_var": 0.5574055989583333,
      "learning_rate": 0.0003,
      "loss": 11.7425,
      "loss/aux_loss": 0.048099182173609735,
      "loss/crossentropy": 2.751882565021515,
      "loss/logits": 0.915845838189125,
      "step": 18680
    },
    {
      "epoch": 0.1869,
      "grad_norm": 18.25,
      "grad_norm_var": 2.970572916666667,
      "learning_rate": 0.0003,
      "loss": 11.9627,
      "loss/aux_loss": 0.04809111282229424,
      "loss/crossentropy": 2.8157127261161805,
      "loss/logits": 0.8805839955806732,
      "step": 18690
    },
    {
      "epoch": 0.187,
      "grad_norm": 11.75,
      "grad_norm_var": 6.431103515625,
      "learning_rate": 0.0003,
      "loss": 12.0129,
      "loss/aux_loss": 0.04809790011495352,
      "loss/crossentropy": 2.9344887137413025,
      "loss/logits": 0.9546463966369629,
      "step": 18700
    },
    {
      "epoch": 0.1871,
      "grad_norm": 13.0,
      "grad_norm_var": 4.466927083333333,
      "learning_rate": 0.0003,
      "loss": 11.8991,
      "loss/aux_loss": 0.048103202134370804,
      "loss/crossentropy": 2.6000198304653166,
      "loss/logits": 0.8983616352081298,
      "step": 18710
    },
    {
      "epoch": 0.1872,
      "grad_norm": 10.75,
      "grad_norm_var": 1.0605305989583333,
      "learning_rate": 0.0003,
      "loss": 11.8265,
      "loss/aux_loss": 0.048097947239875795,
      "loss/crossentropy": 2.74048707485199,
      "loss/logits": 0.9315300911664963,
      "step": 18720
    },
    {
      "epoch": 0.1873,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.9038899739583334,
      "learning_rate": 0.0003,
      "loss": 11.8877,
      "loss/aux_loss": 0.04809299129992724,
      "loss/crossentropy": 2.6987858176231385,
      "loss/logits": 0.8788728475570678,
      "step": 18730
    },
    {
      "epoch": 0.1874,
      "grad_norm": 10.875,
      "grad_norm_var": 1.0518229166666666,
      "learning_rate": 0.0003,
      "loss": 11.9914,
      "loss/aux_loss": 0.04809512048959732,
      "loss/crossentropy": 2.7466448664665224,
      "loss/logits": 0.9056605339050293,
      "step": 18740
    },
    {
      "epoch": 0.1875,
      "grad_norm": 11.375,
      "grad_norm_var": 0.5421223958333333,
      "learning_rate": 0.0003,
      "loss": 12.0469,
      "loss/aux_loss": 0.04808540716767311,
      "loss/crossentropy": 2.8385793924331666,
      "loss/logits": 0.9397071808576584,
      "step": 18750
    },
    {
      "epoch": 0.1876,
      "grad_norm": 12.125,
      "grad_norm_var": 0.2952962239583333,
      "learning_rate": 0.0003,
      "loss": 11.9745,
      "loss/aux_loss": 0.04808508455753326,
      "loss/crossentropy": 2.7859063267707826,
      "loss/logits": 0.9249111205339432,
      "step": 18760
    },
    {
      "epoch": 0.1877,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.253369140625,
      "learning_rate": 0.0003,
      "loss": 11.9344,
      "loss/aux_loss": 0.048101603612303735,
      "loss/crossentropy": 2.96168977022171,
      "loss/logits": 0.9427939087152482,
      "step": 18770
    },
    {
      "epoch": 0.1878,
      "grad_norm": 12.125,
      "grad_norm_var": 0.23474934895833333,
      "learning_rate": 0.0003,
      "loss": 11.8409,
      "loss/aux_loss": 0.04809587094932795,
      "loss/crossentropy": 2.6832815647125243,
      "loss/logits": 0.8893307328224183,
      "step": 18780
    },
    {
      "epoch": 0.1879,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.46925455729166665,
      "learning_rate": 0.0003,
      "loss": 11.8433,
      "loss/aux_loss": 0.048098374903202054,
      "loss/crossentropy": 2.973353409767151,
      "loss/logits": 0.9185240358114243,
      "step": 18790
    },
    {
      "epoch": 0.188,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.385009765625,
      "learning_rate": 0.0003,
      "loss": 11.8279,
      "loss/aux_loss": 0.04809072986245155,
      "loss/crossentropy": 2.883065390586853,
      "loss/logits": 0.8887928575277328,
      "step": 18800
    },
    {
      "epoch": 0.1881,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.1421875,
      "learning_rate": 0.0003,
      "loss": 12.0192,
      "loss/aux_loss": 0.04809522368013859,
      "loss/crossentropy": 2.8153730273246764,
      "loss/logits": 0.8990904957056045,
      "step": 18810
    },
    {
      "epoch": 0.1882,
      "grad_norm": 12.125,
      "grad_norm_var": 0.44524739583333334,
      "learning_rate": 0.0003,
      "loss": 12.0603,
      "loss/aux_loss": 0.04809008222073317,
      "loss/crossentropy": 2.917261230945587,
      "loss/logits": 0.9583010584115982,
      "step": 18820
    },
    {
      "epoch": 0.1883,
      "grad_norm": 12.125,
      "grad_norm_var": 0.4032389322916667,
      "learning_rate": 0.0003,
      "loss": 12.0391,
      "loss/aux_loss": 0.04809148814529181,
      "loss/crossentropy": 2.7239452958106996,
      "loss/logits": 0.9369824826717377,
      "step": 18830
    },
    {
      "epoch": 0.1884,
      "grad_norm": 12.375,
      "grad_norm_var": 0.9059895833333333,
      "learning_rate": 0.0003,
      "loss": 11.9066,
      "loss/aux_loss": 0.04810024816542864,
      "loss/crossentropy": 2.6165760159492493,
      "loss/logits": 0.8547280013561249,
      "step": 18840
    },
    {
      "epoch": 0.1885,
      "grad_norm": 17.25,
      "grad_norm_var": 2.301497395833333,
      "learning_rate": 0.0003,
      "loss": 11.9055,
      "loss/aux_loss": 0.048094492405653,
      "loss/crossentropy": 3.0237093448638914,
      "loss/logits": 0.9564484775066375,
      "step": 18850
    },
    {
      "epoch": 0.1886,
      "grad_norm": 11.4375,
      "grad_norm_var": 2.128059895833333,
      "learning_rate": 0.0003,
      "loss": 12.0438,
      "loss/aux_loss": 0.04808449726551771,
      "loss/crossentropy": 2.8197420120239256,
      "loss/logits": 0.9342156380414963,
      "step": 18860
    },
    {
      "epoch": 0.1887,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.26691080729166666,
      "learning_rate": 0.0003,
      "loss": 11.826,
      "loss/aux_loss": 0.04809930399060249,
      "loss/crossentropy": 2.7798034250736237,
      "loss/logits": 0.8755748480558395,
      "step": 18870
    },
    {
      "epoch": 0.1888,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.35545247395833335,
      "learning_rate": 0.0003,
      "loss": 11.6886,
      "loss/aux_loss": 0.04809543527662754,
      "loss/crossentropy": 2.8541658937931063,
      "loss/logits": 0.892428070306778,
      "step": 18880
    },
    {
      "epoch": 0.1889,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.32224934895833335,
      "learning_rate": 0.0003,
      "loss": 11.7692,
      "loss/aux_loss": 0.04810644872486591,
      "loss/crossentropy": 2.7232487499713898,
      "loss/logits": 0.9081037282943726,
      "step": 18890
    },
    {
      "epoch": 0.189,
      "grad_norm": 11.375,
      "grad_norm_var": 0.2938639322916667,
      "learning_rate": 0.0003,
      "loss": 11.9456,
      "loss/aux_loss": 0.04808319099247456,
      "loss/crossentropy": 2.5981625437736513,
      "loss/logits": 0.8822880685329437,
      "step": 18900
    },
    {
      "epoch": 0.1891,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.36456705729166666,
      "learning_rate": 0.0003,
      "loss": 11.9909,
      "loss/aux_loss": 0.048096727766096595,
      "loss/crossentropy": 2.718340504169464,
      "loss/logits": 0.8984918922185898,
      "step": 18910
    },
    {
      "epoch": 0.1892,
      "grad_norm": 12.5,
      "grad_norm_var": 0.4791015625,
      "learning_rate": 0.0003,
      "loss": 12.0497,
      "loss/aux_loss": 0.048100071772933004,
      "loss/crossentropy": 2.914843189716339,
      "loss/logits": 0.9236764490604401,
      "step": 18920
    },
    {
      "epoch": 0.1893,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.5247395833333334,
      "learning_rate": 0.0003,
      "loss": 11.8306,
      "loss/aux_loss": 0.0480832876637578,
      "loss/crossentropy": 2.8327117800712585,
      "loss/logits": 0.9310741007328034,
      "step": 18930
    },
    {
      "epoch": 0.1894,
      "grad_norm": 10.875,
      "grad_norm_var": 0.3282389322916667,
      "learning_rate": 0.0003,
      "loss": 11.8084,
      "loss/aux_loss": 0.048092326149344444,
      "loss/crossentropy": 2.8622347712516785,
      "loss/logits": 0.8887595921754837,
      "step": 18940
    },
    {
      "epoch": 0.1895,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.4891764322916667,
      "learning_rate": 0.0003,
      "loss": 11.9539,
      "loss/aux_loss": 0.048091747984290126,
      "loss/crossentropy": 2.8625791549682615,
      "loss/logits": 0.9395757526159286,
      "step": 18950
    },
    {
      "epoch": 0.1896,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.24073893229166668,
      "learning_rate": 0.0003,
      "loss": 11.8872,
      "loss/aux_loss": 0.04809561818838119,
      "loss/crossentropy": 2.93541020154953,
      "loss/logits": 0.9296731561422348,
      "step": 18960
    },
    {
      "epoch": 0.1897,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.5176432291666667,
      "learning_rate": 0.0003,
      "loss": 11.926,
      "loss/aux_loss": 0.04809174351394176,
      "loss/crossentropy": 2.85881884098053,
      "loss/logits": 0.9174812495708465,
      "step": 18970
    },
    {
      "epoch": 0.1898,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.49375,
      "learning_rate": 0.0003,
      "loss": 11.9255,
      "loss/aux_loss": 0.04810503609478474,
      "loss/crossentropy": 2.7044818341732024,
      "loss/logits": 0.9038681089878082,
      "step": 18980
    },
    {
      "epoch": 0.1899,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.323291015625,
      "learning_rate": 0.0003,
      "loss": 11.934,
      "loss/aux_loss": 0.04808723460882902,
      "loss/crossentropy": 2.8215215682983397,
      "loss/logits": 0.8740798741579056,
      "step": 18990
    },
    {
      "epoch": 0.19,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.5848795572916666,
      "learning_rate": 0.0003,
      "loss": 11.9942,
      "loss/aux_loss": 0.04809704348444939,
      "loss/crossentropy": 2.9540371537208556,
      "loss/logits": 0.9380867898464202,
      "step": 19000
    },
    {
      "epoch": 0.1901,
      "grad_norm": 11.875,
      "grad_norm_var": 35.141927083333336,
      "learning_rate": 0.0003,
      "loss": 12.117,
      "loss/aux_loss": 0.04809831455349922,
      "loss/crossentropy": 2.848419559001923,
      "loss/logits": 0.9661454766988754,
      "step": 19010
    },
    {
      "epoch": 0.1902,
      "grad_norm": 11.75,
      "grad_norm_var": 1.568212890625,
      "learning_rate": 0.0003,
      "loss": 12.1233,
      "loss/aux_loss": 0.048095112666487694,
      "loss/crossentropy": 2.914617598056793,
      "loss/logits": 0.940568807721138,
      "step": 19020
    },
    {
      "epoch": 0.1903,
      "grad_norm": 12.75,
      "grad_norm_var": 1.885791015625,
      "learning_rate": 0.0003,
      "loss": 12.0781,
      "loss/aux_loss": 0.04809290152043104,
      "loss/crossentropy": 2.9060685276985168,
      "loss/logits": 0.9084505170583725,
      "step": 19030
    },
    {
      "epoch": 0.1904,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.547509765625,
      "learning_rate": 0.0003,
      "loss": 11.8626,
      "loss/aux_loss": 0.04809753466397524,
      "loss/crossentropy": 2.8450966238975526,
      "loss/logits": 0.9347045987844467,
      "step": 19040
    },
    {
      "epoch": 0.1905,
      "grad_norm": 11.75,
      "grad_norm_var": 0.421728515625,
      "learning_rate": 0.0003,
      "loss": 11.786,
      "loss/aux_loss": 0.04809632711112499,
      "loss/crossentropy": 2.6032280802726744,
      "loss/logits": 0.8754363477230072,
      "step": 19050
    },
    {
      "epoch": 0.1906,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.266650390625,
      "learning_rate": 0.0003,
      "loss": 11.9427,
      "loss/aux_loss": 0.048089970275759696,
      "loss/crossentropy": 2.8427577376365663,
      "loss/logits": 0.9292992860078811,
      "step": 19060
    },
    {
      "epoch": 0.1907,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.29099934895833335,
      "learning_rate": 0.0003,
      "loss": 12.0185,
      "loss/aux_loss": 0.04809428974986076,
      "loss/crossentropy": 2.9434940934181215,
      "loss/logits": 0.8928971856832504,
      "step": 19070
    },
    {
      "epoch": 0.1908,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.7889973958333333,
      "learning_rate": 0.0003,
      "loss": 11.742,
      "loss/aux_loss": 0.048089478723704816,
      "loss/crossentropy": 2.7458222687244414,
      "loss/logits": 0.9186016976833343,
      "step": 19080
    },
    {
      "epoch": 0.1909,
      "grad_norm": 11.0625,
      "grad_norm_var": 1.5890462239583334,
      "learning_rate": 0.0003,
      "loss": 12.0539,
      "loss/aux_loss": 0.048099744878709313,
      "loss/crossentropy": 2.829107737541199,
      "loss/logits": 0.9015246391296386,
      "step": 19090
    },
    {
      "epoch": 0.191,
      "grad_norm": 11.375,
      "grad_norm_var": 1.597900390625,
      "learning_rate": 0.0003,
      "loss": 11.939,
      "loss/aux_loss": 0.04808116909116507,
      "loss/crossentropy": 2.874987268447876,
      "loss/logits": 0.9092469424009323,
      "step": 19100
    },
    {
      "epoch": 0.1911,
      "grad_norm": 11.625,
      "grad_norm_var": 0.36912434895833335,
      "learning_rate": 0.0003,
      "loss": 11.9227,
      "loss/aux_loss": 0.04809539634734392,
      "loss/crossentropy": 2.7079729199409486,
      "loss/logits": 0.9122515827417373,
      "step": 19110
    },
    {
      "epoch": 0.1912,
      "grad_norm": 11.1875,
      "grad_norm_var": 0.3335774739583333,
      "learning_rate": 0.0003,
      "loss": 12.094,
      "loss/aux_loss": 0.0480892339721322,
      "loss/crossentropy": 2.6642766416072847,
      "loss/logits": 0.9355534881353378,
      "step": 19120
    },
    {
      "epoch": 0.1913,
      "grad_norm": 12.75,
      "grad_norm_var": 0.28631184895833334,
      "learning_rate": 0.0003,
      "loss": 11.8506,
      "loss/aux_loss": 0.04809222798794508,
      "loss/crossentropy": 2.581315791606903,
      "loss/logits": 0.8726950109004974,
      "step": 19130
    },
    {
      "epoch": 0.1914,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.19993489583333332,
      "learning_rate": 0.0003,
      "loss": 11.9463,
      "loss/aux_loss": 0.0480927174910903,
      "loss/crossentropy": 2.8361901879310607,
      "loss/logits": 0.93881676197052,
      "step": 19140
    },
    {
      "epoch": 0.1915,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.3233723958333333,
      "learning_rate": 0.0003,
      "loss": 11.8851,
      "loss/aux_loss": 0.04809240084141493,
      "loss/crossentropy": 2.772093939781189,
      "loss/logits": 0.895565664768219,
      "step": 19150
    },
    {
      "epoch": 0.1916,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.42941080729166664,
      "learning_rate": 0.0003,
      "loss": 11.8773,
      "loss/aux_loss": 0.04808843210339546,
      "loss/crossentropy": 2.7380272090435027,
      "loss/logits": 0.8849580556154251,
      "step": 19160
    },
    {
      "epoch": 0.1917,
      "grad_norm": 11.375,
      "grad_norm_var": 0.6075520833333333,
      "learning_rate": 0.0003,
      "loss": 12.0319,
      "loss/aux_loss": 0.04809383936226368,
      "loss/crossentropy": 2.679046392440796,
      "loss/logits": 0.9247982114553451,
      "step": 19170
    },
    {
      "epoch": 0.1918,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.51875,
      "learning_rate": 0.0003,
      "loss": 11.9646,
      "loss/aux_loss": 0.0480990482494235,
      "loss/crossentropy": 2.8308603882789614,
      "loss/logits": 0.9139487504959106,
      "step": 19180
    },
    {
      "epoch": 0.1919,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.8937337239583333,
      "learning_rate": 0.0003,
      "loss": 11.9498,
      "loss/aux_loss": 0.04809563048183918,
      "loss/crossentropy": 2.868353658914566,
      "loss/logits": 0.9112594306468964,
      "step": 19190
    },
    {
      "epoch": 0.192,
      "grad_norm": 11.75,
      "grad_norm_var": 178.2056640625,
      "learning_rate": 0.0003,
      "loss": 11.9624,
      "loss/aux_loss": 0.04809640198945999,
      "loss/crossentropy": 2.875636076927185,
      "loss/logits": 0.9370063930749893,
      "step": 19200
    },
    {
      "epoch": 0.1921,
      "grad_norm": 11.625,
      "grad_norm_var": 0.4247233072916667,
      "learning_rate": 0.0003,
      "loss": 11.9338,
      "loss/aux_loss": 0.048091776110231875,
      "loss/crossentropy": 2.885943067073822,
      "loss/logits": 0.9205142021179199,
      "step": 19210
    },
    {
      "epoch": 0.1922,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.292431640625,
      "learning_rate": 0.0003,
      "loss": 11.841,
      "loss/aux_loss": 0.04809496812522411,
      "loss/crossentropy": 2.5971029341220855,
      "loss/logits": 0.8990915536880493,
      "step": 19220
    },
    {
      "epoch": 0.1923,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.3155598958333333,
      "learning_rate": 0.0003,
      "loss": 11.9581,
      "loss/aux_loss": 0.048088048957288264,
      "loss/crossentropy": 2.8906711101531983,
      "loss/logits": 0.9080457538366318,
      "step": 19230
    },
    {
      "epoch": 0.1924,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.363134765625,
      "learning_rate": 0.0003,
      "loss": 11.9134,
      "loss/aux_loss": 0.04809061922132969,
      "loss/crossentropy": 2.7267106890678408,
      "loss/logits": 0.8822133630514145,
      "step": 19240
    },
    {
      "epoch": 0.1925,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.18854166666666666,
      "learning_rate": 0.0003,
      "loss": 11.9539,
      "loss/aux_loss": 0.04809251707047224,
      "loss/crossentropy": 2.834822082519531,
      "loss/logits": 0.9051540076732636,
      "step": 19250
    },
    {
      "epoch": 0.1926,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.3575520833333333,
      "learning_rate": 0.0003,
      "loss": 11.8532,
      "loss/aux_loss": 0.04809150565415621,
      "loss/crossentropy": 2.673792243003845,
      "loss/logits": 0.8930087149143219,
      "step": 19260
    },
    {
      "epoch": 0.1927,
      "grad_norm": 11.625,
      "grad_norm_var": 0.376025390625,
      "learning_rate": 0.0003,
      "loss": 11.8667,
      "loss/aux_loss": 0.04809306338429451,
      "loss/crossentropy": 2.8607924938201905,
      "loss/logits": 0.8900872558355332,
      "step": 19270
    },
    {
      "epoch": 0.1928,
      "grad_norm": 12.125,
      "grad_norm_var": 0.15714518229166666,
      "learning_rate": 0.0003,
      "loss": 11.9148,
      "loss/aux_loss": 0.04807972889393568,
      "loss/crossentropy": 2.803767132759094,
      "loss/logits": 0.9348350763320923,
      "step": 19280
    },
    {
      "epoch": 0.1929,
      "grad_norm": 11.125,
      "grad_norm_var": 0.41067708333333336,
      "learning_rate": 0.0003,
      "loss": 11.8139,
      "loss/aux_loss": 0.04809964876621962,
      "loss/crossentropy": 2.7644663214683534,
      "loss/logits": 0.9412413388490677,
      "step": 19290
    },
    {
      "epoch": 0.193,
      "grad_norm": 11.9375,
      "grad_norm_var": 15.3375,
      "learning_rate": 0.0003,
      "loss": 11.8668,
      "loss/aux_loss": 0.04809567742049694,
      "loss/crossentropy": 2.687431216239929,
      "loss/logits": 0.8960238516330719,
      "step": 19300
    },
    {
      "epoch": 0.1931,
      "grad_norm": 12.5,
      "grad_norm_var": 14.444645182291667,
      "learning_rate": 0.0003,
      "loss": 12.0495,
      "loss/aux_loss": 0.04808875881135464,
      "loss/crossentropy": 2.8696415305137633,
      "loss/logits": 0.9359003514051437,
      "step": 19310
    },
    {
      "epoch": 0.1932,
      "grad_norm": 14.25,
      "grad_norm_var": 0.6895182291666667,
      "learning_rate": 0.0003,
      "loss": 11.8149,
      "loss/aux_loss": 0.048093396797776224,
      "loss/crossentropy": 2.7438224017620088,
      "loss/logits": 0.9250198155641556,
      "step": 19320
    },
    {
      "epoch": 0.1933,
      "grad_norm": 11.5625,
      "grad_norm_var": 1.2317057291666667,
      "learning_rate": 0.0003,
      "loss": 11.9555,
      "loss/aux_loss": 0.0480903297662735,
      "loss/crossentropy": 2.8425944447517395,
      "loss/logits": 0.9191201657056809,
      "step": 19330
    },
    {
      "epoch": 0.1934,
      "grad_norm": 13.375,
      "grad_norm_var": 0.6511555989583333,
      "learning_rate": 0.0003,
      "loss": 11.8307,
      "loss/aux_loss": 0.04809546768665314,
      "loss/crossentropy": 2.794313246011734,
      "loss/logits": 0.8963600903749466,
      "step": 19340
    },
    {
      "epoch": 0.1935,
      "grad_norm": 11.6875,
      "grad_norm_var": 4.347135416666666,
      "learning_rate": 0.0003,
      "loss": 11.9059,
      "loss/aux_loss": 0.048097337037324904,
      "loss/crossentropy": 2.8060832381248475,
      "loss/logits": 0.923801937699318,
      "step": 19350
    },
    {
      "epoch": 0.1936,
      "grad_norm": 11.25,
      "grad_norm_var": 0.4930826822916667,
      "learning_rate": 0.0003,
      "loss": 12.0551,
      "loss/aux_loss": 0.048092464171350005,
      "loss/crossentropy": 2.737381660938263,
      "loss/logits": 0.9238520950078964,
      "step": 19360
    },
    {
      "epoch": 0.1937,
      "grad_norm": 12.0,
      "grad_norm_var": 2.992431640625,
      "learning_rate": 0.0003,
      "loss": 11.9236,
      "loss/aux_loss": 0.04809140842407942,
      "loss/crossentropy": 2.7283401012420656,
      "loss/logits": 0.9115884095430374,
      "step": 19370
    },
    {
      "epoch": 0.1938,
      "grad_norm": 13.25,
      "grad_norm_var": 3.064306640625,
      "learning_rate": 0.0003,
      "loss": 11.9373,
      "loss/aux_loss": 0.04809054136276245,
      "loss/crossentropy": 2.9607500314712523,
      "loss/logits": 0.9213700443506241,
      "step": 19380
    },
    {
      "epoch": 0.1939,
      "grad_norm": 12.5,
      "grad_norm_var": 0.5308430989583334,
      "learning_rate": 0.0003,
      "loss": 12.0326,
      "loss/aux_loss": 0.04808128047734499,
      "loss/crossentropy": 2.966229736804962,
      "loss/logits": 0.9744098156690597,
      "step": 19390
    },
    {
      "epoch": 0.194,
      "grad_norm": 11.75,
      "grad_norm_var": 8.039697265625,
      "learning_rate": 0.0003,
      "loss": 11.8697,
      "loss/aux_loss": 0.04811720736324787,
      "loss/crossentropy": 2.8290202260017394,
      "loss/logits": 0.9148620575666427,
      "step": 19400
    },
    {
      "epoch": 0.1941,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.25983072916666666,
      "learning_rate": 0.0003,
      "loss": 11.81,
      "loss/aux_loss": 0.0480983579531312,
      "loss/crossentropy": 2.618745720386505,
      "loss/logits": 0.8423079371452331,
      "step": 19410
    },
    {
      "epoch": 0.1942,
      "grad_norm": 11.875,
      "grad_norm_var": 15.804671223958334,
      "learning_rate": 0.0003,
      "loss": 11.8575,
      "loss/aux_loss": 0.048095330409705636,
      "loss/crossentropy": 2.8630192160606383,
      "loss/logits": 0.9032826870679855,
      "step": 19420
    },
    {
      "epoch": 0.1943,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.23776041666666667,
      "learning_rate": 0.0003,
      "loss": 11.8413,
      "loss/aux_loss": 0.04809598363935948,
      "loss/crossentropy": 2.714806389808655,
      "loss/logits": 0.8757014304399491,
      "step": 19430
    },
    {
      "epoch": 0.1944,
      "grad_norm": 12.0,
      "grad_norm_var": 0.3473307291666667,
      "learning_rate": 0.0003,
      "loss": 11.9041,
      "loss/aux_loss": 0.04809326659888029,
      "loss/crossentropy": 2.81378653049469,
      "loss/logits": 0.9226094603538513,
      "step": 19440
    },
    {
      "epoch": 0.1945,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.469384765625,
      "learning_rate": 0.0003,
      "loss": 12.0162,
      "loss/aux_loss": 0.04810178130865097,
      "loss/crossentropy": 2.7176017642021177,
      "loss/logits": 0.8890448838472367,
      "step": 19450
    },
    {
      "epoch": 0.1946,
      "grad_norm": 12.25,
      "grad_norm_var": 0.7030598958333333,
      "learning_rate": 0.0003,
      "loss": 11.8237,
      "loss/aux_loss": 0.048099988326430324,
      "loss/crossentropy": 2.578825032711029,
      "loss/logits": 0.8693708449602127,
      "step": 19460
    },
    {
      "epoch": 0.1947,
      "grad_norm": 11.875,
      "grad_norm_var": 0.24191080729166667,
      "learning_rate": 0.0003,
      "loss": 11.9591,
      "loss/aux_loss": 0.04810124989598989,
      "loss/crossentropy": 2.919858819246292,
      "loss/logits": 0.9405999302864074,
      "step": 19470
    },
    {
      "epoch": 0.1948,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.07786458333333333,
      "learning_rate": 0.0003,
      "loss": 11.876,
      "loss/aux_loss": 0.04809066876769066,
      "loss/crossentropy": 2.830302083492279,
      "loss/logits": 0.9027499586343766,
      "step": 19480
    },
    {
      "epoch": 0.1949,
      "grad_norm": 11.8125,
      "grad_norm_var": 2.059830729166667,
      "learning_rate": 0.0003,
      "loss": 11.879,
      "loss/aux_loss": 0.04809845667332411,
      "loss/crossentropy": 2.846599793434143,
      "loss/logits": 0.8904654294252395,
      "step": 19490
    },
    {
      "epoch": 0.195,
      "grad_norm": 11.6875,
      "grad_norm_var": 1.7852701822916666,
      "learning_rate": 0.0003,
      "loss": 11.9823,
      "loss/aux_loss": 0.048098682425916195,
      "loss/crossentropy": 2.6993426620960235,
      "loss/logits": 0.9028889060020446,
      "step": 19500
    },
    {
      "epoch": 0.1951,
      "grad_norm": 11.5,
      "grad_norm_var": 0.4869140625,
      "learning_rate": 0.0003,
      "loss": 11.8731,
      "loss/aux_loss": 0.04808852486312389,
      "loss/crossentropy": 2.9450518250465394,
      "loss/logits": 0.923612329363823,
      "step": 19510
    },
    {
      "epoch": 0.1952,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.6424479166666667,
      "learning_rate": 0.0003,
      "loss": 11.9629,
      "loss/aux_loss": 0.048087956570088866,
      "loss/crossentropy": 2.7310150384902956,
      "loss/logits": 0.8867404013872147,
      "step": 19520
    },
    {
      "epoch": 0.1953,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.7098307291666667,
      "learning_rate": 0.0003,
      "loss": 11.9431,
      "loss/aux_loss": 0.04809447377920151,
      "loss/crossentropy": 2.7376580953598024,
      "loss/logits": 0.9287895351648331,
      "step": 19530
    },
    {
      "epoch": 0.1954,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.45078125,
      "learning_rate": 0.0003,
      "loss": 11.9501,
      "loss/aux_loss": 0.04808611460030079,
      "loss/crossentropy": 2.8004270434379577,
      "loss/logits": 0.9067860126495362,
      "step": 19540
    },
    {
      "epoch": 0.1955,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.2916015625,
      "learning_rate": 0.0003,
      "loss": 11.8895,
      "loss/aux_loss": 0.048095055297017096,
      "loss/crossentropy": 2.7705915451049803,
      "loss/logits": 0.8861099511384964,
      "step": 19550
    },
    {
      "epoch": 0.1956,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.3238118489583333,
      "learning_rate": 0.0003,
      "loss": 11.8624,
      "loss/aux_loss": 0.048082451336085796,
      "loss/crossentropy": 2.7829070925712585,
      "loss/logits": 0.9209084331989288,
      "step": 19560
    },
    {
      "epoch": 0.1957,
      "grad_norm": 11.6875,
      "grad_norm_var": 48.423893229166666,
      "learning_rate": 0.0003,
      "loss": 11.8985,
      "loss/aux_loss": 0.048102785088121894,
      "loss/crossentropy": 2.795788884162903,
      "loss/logits": 0.9219643086194992,
      "step": 19570
    },
    {
      "epoch": 0.1958,
      "grad_norm": 12.0,
      "grad_norm_var": 0.17649739583333332,
      "learning_rate": 0.0003,
      "loss": 11.8718,
      "loss/aux_loss": 0.04808918442577124,
      "loss/crossentropy": 2.6786233842372895,
      "loss/logits": 0.8851831436157227,
      "step": 19580
    },
    {
      "epoch": 0.1959,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.28958333333333336,
      "learning_rate": 0.0003,
      "loss": 11.9507,
      "loss/aux_loss": 0.048088375851511954,
      "loss/crossentropy": 2.7911401748657227,
      "loss/logits": 0.9245690137147904,
      "step": 19590
    },
    {
      "epoch": 0.196,
      "grad_norm": 12.0,
      "grad_norm_var": 0.4019368489583333,
      "learning_rate": 0.0003,
      "loss": 12.0528,
      "loss/aux_loss": 0.04808861836791038,
      "loss/crossentropy": 2.89783319234848,
      "loss/logits": 0.9419608056545258,
      "step": 19600
    },
    {
      "epoch": 0.1961,
      "grad_norm": 12.25,
      "grad_norm_var": 4.918733723958334,
      "learning_rate": 0.0003,
      "loss": 11.9651,
      "loss/aux_loss": 0.048108036443591115,
      "loss/crossentropy": 2.7094775795936585,
      "loss/logits": 0.8831329464912414,
      "step": 19610
    },
    {
      "epoch": 0.1962,
      "grad_norm": 13.75,
      "grad_norm_var": 0.55234375,
      "learning_rate": 0.0003,
      "loss": 11.9267,
      "loss/aux_loss": 0.048093420639634135,
      "loss/crossentropy": 2.6996466517448425,
      "loss/logits": 0.8816385596990586,
      "step": 19620
    },
    {
      "epoch": 0.1963,
      "grad_norm": 11.875,
      "grad_norm_var": 0.6469889322916667,
      "learning_rate": 0.0003,
      "loss": 12.072,
      "loss/aux_loss": 0.0480880755931139,
      "loss/crossentropy": 2.9747036695480347,
      "loss/logits": 0.9532156825065613,
      "step": 19630
    },
    {
      "epoch": 0.1964,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.18776041666666668,
      "learning_rate": 0.0003,
      "loss": 11.9037,
      "loss/aux_loss": 0.04809441566467285,
      "loss/crossentropy": 2.816385340690613,
      "loss/logits": 0.8943806827068329,
      "step": 19640
    },
    {
      "epoch": 0.1965,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.3033854166666667,
      "learning_rate": 0.0003,
      "loss": 11.8965,
      "loss/aux_loss": 0.04809524808079004,
      "loss/crossentropy": 2.786463499069214,
      "loss/logits": 0.8947435468435287,
      "step": 19650
    },
    {
      "epoch": 0.1966,
      "grad_norm": 11.5,
      "grad_norm_var": 0.31443684895833335,
      "learning_rate": 0.0003,
      "loss": 11.9229,
      "loss/aux_loss": 0.04809077382087708,
      "loss/crossentropy": 2.635916793346405,
      "loss/logits": 0.8936503291130066,
      "step": 19660
    },
    {
      "epoch": 0.1967,
      "grad_norm": 11.9375,
      "grad_norm_var": 74.60792643229166,
      "learning_rate": 0.0003,
      "loss": 11.9338,
      "loss/aux_loss": 0.04811822287738323,
      "loss/crossentropy": 2.851349139213562,
      "loss/logits": 0.9552539438009262,
      "step": 19670
    },
    {
      "epoch": 0.1968,
      "grad_norm": 13.3125,
      "grad_norm_var": 539.7253743489583,
      "learning_rate": 0.0003,
      "loss": 11.8808,
      "loss/aux_loss": 0.04809991996735334,
      "loss/crossentropy": 2.686124062538147,
      "loss/logits": 0.8603927254676819,
      "step": 19680
    },
    {
      "epoch": 0.1969,
      "grad_norm": 11.125,
      "grad_norm_var": 2.3004557291666665,
      "learning_rate": 0.0003,
      "loss": 12.0303,
      "loss/aux_loss": 0.048102331534028056,
      "loss/crossentropy": 2.856088125705719,
      "loss/logits": 0.8935580879449845,
      "step": 19690
    },
    {
      "epoch": 0.197,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.290625,
      "learning_rate": 0.0003,
      "loss": 11.6799,
      "loss/aux_loss": 0.04809893500059843,
      "loss/crossentropy": 2.4471123695373533,
      "loss/logits": 0.8147686392068862,
      "step": 19700
    },
    {
      "epoch": 0.1971,
      "grad_norm": 15.0,
      "grad_norm_var": 36.69993489583333,
      "learning_rate": 0.0003,
      "loss": 11.9236,
      "loss/aux_loss": 0.048108641244471076,
      "loss/crossentropy": 2.7717926442623138,
      "loss/logits": 0.9015519857406616,
      "step": 19710
    },
    {
      "epoch": 0.1972,
      "grad_norm": 11.4375,
      "grad_norm_var": 35.6734375,
      "learning_rate": 0.0003,
      "loss": 11.9069,
      "loss/aux_loss": 0.04808454010635614,
      "loss/crossentropy": 2.759740972518921,
      "loss/logits": 0.916330274939537,
      "step": 19720
    },
    {
      "epoch": 0.1973,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.5555826822916666,
      "learning_rate": 0.0003,
      "loss": 11.8078,
      "loss/aux_loss": 0.04809134602546692,
      "loss/crossentropy": 2.824735289812088,
      "loss/logits": 0.915794974565506,
      "step": 19730
    },
    {
      "epoch": 0.1974,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.36354166666666665,
      "learning_rate": 0.0003,
      "loss": 12.0126,
      "loss/aux_loss": 0.04809140507131815,
      "loss/crossentropy": 2.8288570284843444,
      "loss/logits": 0.899117162823677,
      "step": 19740
    },
    {
      "epoch": 0.1975,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.6856608072916667,
      "learning_rate": 0.0003,
      "loss": 12.0629,
      "loss/aux_loss": 0.04809539392590523,
      "loss/crossentropy": 2.808449399471283,
      "loss/logits": 0.9411624908447266,
      "step": 19750
    },
    {
      "epoch": 0.1976,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.8481608072916667,
      "learning_rate": 0.0003,
      "loss": 11.8754,
      "loss/aux_loss": 0.04808392804116011,
      "loss/crossentropy": 2.8559494376182557,
      "loss/logits": 0.8965466380119324,
      "step": 19760
    },
    {
      "epoch": 0.1977,
      "grad_norm": 12.25,
      "grad_norm_var": 0.3729166666666667,
      "learning_rate": 0.0003,
      "loss": 11.7598,
      "loss/aux_loss": 0.048097134567797184,
      "loss/crossentropy": 2.6028787732124328,
      "loss/logits": 0.883382824063301,
      "step": 19770
    },
    {
      "epoch": 0.1978,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.375,
      "learning_rate": 0.0003,
      "loss": 12.0172,
      "loss/aux_loss": 0.0480909226462245,
      "loss/crossentropy": 2.745894658565521,
      "loss/logits": 0.8921247333288193,
      "step": 19780
    },
    {
      "epoch": 0.1979,
      "grad_norm": 11.875,
      "grad_norm_var": 0.14869791666666668,
      "learning_rate": 0.0003,
      "loss": 11.9666,
      "loss/aux_loss": 0.04809285439550877,
      "loss/crossentropy": 2.7850330114364623,
      "loss/logits": 0.912046593427658,
      "step": 19790
    },
    {
      "epoch": 0.198,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.4832682291666667,
      "learning_rate": 0.0003,
      "loss": 11.9582,
      "loss/aux_loss": 0.048090188205242156,
      "loss/crossentropy": 2.5545909225940706,
      "loss/logits": 0.8726184368133545,
      "step": 19800
    },
    {
      "epoch": 0.1981,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.6088541666666667,
      "learning_rate": 0.0003,
      "loss": 11.8976,
      "loss/aux_loss": 0.04808424971997738,
      "loss/crossentropy": 2.764713633060455,
      "loss/logits": 0.9010277688503265,
      "step": 19810
    },
    {
      "epoch": 0.1982,
      "grad_norm": 11.75,
      "grad_norm_var": 0.27005208333333336,
      "learning_rate": 0.0003,
      "loss": 11.933,
      "loss/aux_loss": 0.048095231875777245,
      "loss/crossentropy": 2.8057524442672728,
      "loss/logits": 0.912197208404541,
      "step": 19820
    },
    {
      "epoch": 0.1983,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.286962890625,
      "learning_rate": 0.0003,
      "loss": 11.8571,
      "loss/aux_loss": 0.048092585243284705,
      "loss/crossentropy": 2.7631799936294557,
      "loss/logits": 0.9289673507213593,
      "step": 19830
    },
    {
      "epoch": 0.1984,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.17291666666666666,
      "learning_rate": 0.0003,
      "loss": 11.7907,
      "loss/aux_loss": 0.04810852501541376,
      "loss/crossentropy": 2.6866043627262117,
      "loss/logits": 0.905146250128746,
      "step": 19840
    },
    {
      "epoch": 0.1985,
      "grad_norm": 11.5,
      "grad_norm_var": 0.29816080729166666,
      "learning_rate": 0.0003,
      "loss": 11.8136,
      "loss/aux_loss": 0.048087861575186255,
      "loss/crossentropy": 2.9205057621002197,
      "loss/logits": 0.8634889364242554,
      "step": 19850
    },
    {
      "epoch": 0.1986,
      "grad_norm": 12.0,
      "grad_norm_var": 0.5166015625,
      "learning_rate": 0.0003,
      "loss": 12.0486,
      "loss/aux_loss": 0.0480953972786665,
      "loss/crossentropy": 2.9846151471138,
      "loss/logits": 0.929237163066864,
      "step": 19860
    },
    {
      "epoch": 0.1987,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.6348307291666667,
      "learning_rate": 0.0003,
      "loss": 11.9695,
      "loss/aux_loss": 0.0481043117120862,
      "loss/crossentropy": 2.7358814120292663,
      "loss/logits": 0.8989768654108048,
      "step": 19870
    },
    {
      "epoch": 0.1988,
      "grad_norm": 13.5625,
      "grad_norm_var": 4.075260416666667,
      "learning_rate": 0.0003,
      "loss": 12.0024,
      "loss/aux_loss": 0.04810099173337221,
      "loss/crossentropy": 2.8778868198394774,
      "loss/logits": 0.945749819278717,
      "step": 19880
    },
    {
      "epoch": 0.1989,
      "grad_norm": 12.5,
      "grad_norm_var": 0.3583170572916667,
      "learning_rate": 0.0003,
      "loss": 11.8718,
      "loss/aux_loss": 0.04808882363140583,
      "loss/crossentropy": 2.848455381393433,
      "loss/logits": 0.9049903869628906,
      "step": 19890
    },
    {
      "epoch": 0.199,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.24680989583333332,
      "learning_rate": 0.0003,
      "loss": 11.8808,
      "loss/aux_loss": 0.04809690471738577,
      "loss/crossentropy": 2.8279551804065703,
      "loss/logits": 0.9005701452493667,
      "step": 19900
    },
    {
      "epoch": 0.1991,
      "grad_norm": 11.5,
      "grad_norm_var": 0.353369140625,
      "learning_rate": 0.0003,
      "loss": 11.9659,
      "loss/aux_loss": 0.04810180887579918,
      "loss/crossentropy": 2.8082579135894776,
      "loss/logits": 0.9061174720525742,
      "step": 19910
    },
    {
      "epoch": 0.1992,
      "grad_norm": 13.25,
      "grad_norm_var": 0.4071451822916667,
      "learning_rate": 0.0003,
      "loss": 11.7249,
      "loss/aux_loss": 0.0480797978118062,
      "loss/crossentropy": 2.827571380138397,
      "loss/logits": 0.8759961783885956,
      "step": 19920
    },
    {
      "epoch": 0.1993,
      "grad_norm": 11.875,
      "grad_norm_var": 0.49192708333333335,
      "learning_rate": 0.0003,
      "loss": 12.0004,
      "loss/aux_loss": 0.04808774013072252,
      "loss/crossentropy": 2.8538602709770204,
      "loss/logits": 0.9502677023410797,
      "step": 19930
    },
    {
      "epoch": 0.1994,
      "grad_norm": 12.5,
      "grad_norm_var": 0.41868489583333335,
      "learning_rate": 0.0003,
      "loss": 11.6786,
      "loss/aux_loss": 0.04809605274349451,
      "loss/crossentropy": 2.667774814367294,
      "loss/logits": 0.8690688908100128,
      "step": 19940
    },
    {
      "epoch": 0.1995,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.18214518229166668,
      "learning_rate": 0.0003,
      "loss": 11.7086,
      "loss/aux_loss": 0.04809432104229927,
      "loss/crossentropy": 2.7703699648380278,
      "loss/logits": 0.8963902860879898,
      "step": 19950
    },
    {
      "epoch": 0.1996,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.4400390625,
      "learning_rate": 0.0003,
      "loss": 11.8438,
      "loss/aux_loss": 0.04808981604874134,
      "loss/crossentropy": 2.852495664358139,
      "loss/logits": 0.9264784097671509,
      "step": 19960
    },
    {
      "epoch": 0.1997,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.5706868489583333,
      "learning_rate": 0.0003,
      "loss": 11.8371,
      "loss/aux_loss": 0.04808941353112459,
      "loss/crossentropy": 2.6668283939361572,
      "loss/logits": 0.8973574638366699,
      "step": 19970
    },
    {
      "epoch": 0.1998,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.645556640625,
      "learning_rate": 0.0003,
      "loss": 12.0197,
      "loss/aux_loss": 0.04809361547231674,
      "loss/crossentropy": 2.7544242978096007,
      "loss/logits": 0.9390354514122009,
      "step": 19980
    },
    {
      "epoch": 0.1999,
      "grad_norm": 13.5,
      "grad_norm_var": 0.3184733072916667,
      "learning_rate": 0.0003,
      "loss": 11.998,
      "loss/aux_loss": 0.04809475131332874,
      "loss/crossentropy": 2.8074730575084685,
      "loss/logits": 0.8892990052700043,
      "step": 19990
    },
    {
      "epoch": 0.2,
      "grad_norm": 12.375,
      "grad_norm_var": 0.36795247395833336,
      "learning_rate": 0.0003,
      "loss": 11.8505,
      "loss/aux_loss": 0.04809391163289547,
      "loss/crossentropy": 2.663703387975693,
      "loss/logits": 0.8925030082464218,
      "step": 20000
    },
    {
      "epoch": 0.2001,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.281494140625,
      "learning_rate": 0.0003,
      "loss": 11.9197,
      "loss/aux_loss": 0.048094058968126775,
      "loss/crossentropy": 2.886281728744507,
      "loss/logits": 0.8830851048231125,
      "step": 20010
    },
    {
      "epoch": 0.2002,
      "grad_norm": 11.75,
      "grad_norm_var": 0.480322265625,
      "learning_rate": 0.0003,
      "loss": 11.8763,
      "loss/aux_loss": 0.04809100497514009,
      "loss/crossentropy": 2.7841232419013977,
      "loss/logits": 0.8877080678939819,
      "step": 20020
    },
    {
      "epoch": 0.2003,
      "grad_norm": 11.125,
      "grad_norm_var": 3.560660807291667,
      "learning_rate": 0.0003,
      "loss": 11.629,
      "loss/aux_loss": 0.048091770894825456,
      "loss/crossentropy": 2.6575345516204836,
      "loss/logits": 0.8857085227966308,
      "step": 20030
    },
    {
      "epoch": 0.2004,
      "grad_norm": 12.8125,
      "grad_norm_var": 3.2007649739583335,
      "learning_rate": 0.0003,
      "loss": 11.8182,
      "loss/aux_loss": 0.0480912720784545,
      "loss/crossentropy": 2.7816062927246095,
      "loss/logits": 0.8824679642915726,
      "step": 20040
    },
    {
      "epoch": 0.2005,
      "grad_norm": 11.375,
      "grad_norm_var": 0.8089680989583333,
      "learning_rate": 0.0003,
      "loss": 11.8584,
      "loss/aux_loss": 0.048090060241520405,
      "loss/crossentropy": 2.7619201481342315,
      "loss/logits": 0.8898406118154526,
      "step": 20050
    },
    {
      "epoch": 0.2006,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.8502604166666666,
      "learning_rate": 0.0003,
      "loss": 11.7573,
      "loss/aux_loss": 0.04808730930089951,
      "loss/crossentropy": 2.752053952217102,
      "loss/logits": 0.9270232617855072,
      "step": 20060
    },
    {
      "epoch": 0.2007,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.26287434895833334,
      "learning_rate": 0.0003,
      "loss": 11.9228,
      "loss/aux_loss": 0.04809353221207857,
      "loss/crossentropy": 2.749705493450165,
      "loss/logits": 0.9575551152229309,
      "step": 20070
    },
    {
      "epoch": 0.2008,
      "grad_norm": 12.25,
      "grad_norm_var": 0.28489583333333335,
      "learning_rate": 0.0003,
      "loss": 11.7852,
      "loss/aux_loss": 0.04809745699167252,
      "loss/crossentropy": 2.6136541962623596,
      "loss/logits": 0.9018281251192093,
      "step": 20080
    },
    {
      "epoch": 0.2009,
      "grad_norm": 11.375,
      "grad_norm_var": 0.24264322916666667,
      "learning_rate": 0.0003,
      "loss": 11.6765,
      "loss/aux_loss": 0.04809559304267168,
      "loss/crossentropy": 2.757488173246384,
      "loss/logits": 0.9004332274198532,
      "step": 20090
    },
    {
      "epoch": 0.201,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.10154622395833333,
      "learning_rate": 0.0003,
      "loss": 11.942,
      "loss/aux_loss": 0.04809119962155819,
      "loss/crossentropy": 2.8438161253929137,
      "loss/logits": 0.9208786696195602,
      "step": 20100
    },
    {
      "epoch": 0.2011,
      "grad_norm": 10.8125,
      "grad_norm_var": 1.2364583333333334,
      "learning_rate": 0.0003,
      "loss": 11.8541,
      "loss/aux_loss": 0.048097537644207475,
      "loss/crossentropy": 2.763727468252182,
      "loss/logits": 0.9115354359149933,
      "step": 20110
    },
    {
      "epoch": 0.2012,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.5036295572916667,
      "learning_rate": 0.0003,
      "loss": 11.8807,
      "loss/aux_loss": 0.04808099064975977,
      "loss/crossentropy": 2.8801899015903474,
      "loss/logits": 0.9038815647363663,
      "step": 20120
    },
    {
      "epoch": 0.2013,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.41848958333333336,
      "learning_rate": 0.0003,
      "loss": 11.9244,
      "loss/aux_loss": 0.048102755844593045,
      "loss/crossentropy": 2.9221291661262514,
      "loss/logits": 0.9072444885969162,
      "step": 20130
    },
    {
      "epoch": 0.2014,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.21223958333333334,
      "learning_rate": 0.0003,
      "loss": 11.7636,
      "loss/aux_loss": 0.04809268806129694,
      "loss/crossentropy": 2.69385387301445,
      "loss/logits": 0.9101363003253937,
      "step": 20140
    },
    {
      "epoch": 0.2015,
      "grad_norm": 11.75,
      "grad_norm_var": 0.7202962239583334,
      "learning_rate": 0.0003,
      "loss": 11.82,
      "loss/aux_loss": 0.04809230994433165,
      "loss/crossentropy": 2.800033277273178,
      "loss/logits": 0.9162040054798126,
      "step": 20150
    },
    {
      "epoch": 0.2016,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.5473795572916667,
      "learning_rate": 0.0003,
      "loss": 11.9676,
      "loss/aux_loss": 0.04809824600815773,
      "loss/crossentropy": 2.828506714105606,
      "loss/logits": 0.8795387417078018,
      "step": 20160
    },
    {
      "epoch": 0.2017,
      "grad_norm": 11.75,
      "grad_norm_var": 0.40305989583333335,
      "learning_rate": 0.0003,
      "loss": 11.9633,
      "loss/aux_loss": 0.0480917414650321,
      "loss/crossentropy": 2.8800631880760195,
      "loss/logits": 0.875808122754097,
      "step": 20170
    },
    {
      "epoch": 0.2018,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.460009765625,
      "learning_rate": 0.0003,
      "loss": 11.8485,
      "loss/aux_loss": 0.04808654151856899,
      "loss/crossentropy": 2.7784875988960267,
      "loss/logits": 0.9081717103719711,
      "step": 20180
    },
    {
      "epoch": 0.2019,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.23917643229166666,
      "learning_rate": 0.0003,
      "loss": 11.8831,
      "loss/aux_loss": 0.04809090811759233,
      "loss/crossentropy": 2.8120036482810975,
      "loss/logits": 0.9035557597875595,
      "step": 20190
    },
    {
      "epoch": 0.202,
      "grad_norm": 11.625,
      "grad_norm_var": 0.2228515625,
      "learning_rate": 0.0003,
      "loss": 11.8836,
      "loss/aux_loss": 0.048092659749090674,
      "loss/crossentropy": 2.607446867227554,
      "loss/logits": 0.9118954926729202,
      "step": 20200
    },
    {
      "epoch": 0.2021,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.41139322916666665,
      "learning_rate": 0.0003,
      "loss": 11.9498,
      "loss/aux_loss": 0.04809481520205736,
      "loss/crossentropy": 2.781216490268707,
      "loss/logits": 0.88041250705719,
      "step": 20210
    },
    {
      "epoch": 0.2022,
      "grad_norm": 12.5625,
      "grad_norm_var": 1.6801432291666667,
      "learning_rate": 0.0003,
      "loss": 12.0076,
      "loss/aux_loss": 0.04808514565229416,
      "loss/crossentropy": 2.691144472360611,
      "loss/logits": 0.9039320826530457,
      "step": 20220
    },
    {
      "epoch": 0.2023,
      "grad_norm": 12.875,
      "grad_norm_var": 1.501416015625,
      "learning_rate": 0.0003,
      "loss": 11.8567,
      "loss/aux_loss": 0.048104914277791976,
      "loss/crossentropy": 2.6379098296165466,
      "loss/logits": 0.8757845312356949,
      "step": 20230
    },
    {
      "epoch": 0.2024,
      "grad_norm": 11.625,
      "grad_norm_var": 165.79401041666668,
      "learning_rate": 0.0003,
      "loss": 11.967,
      "loss/aux_loss": 0.0480836084112525,
      "loss/crossentropy": 2.774720752239227,
      "loss/logits": 0.8843321442604065,
      "step": 20240
    },
    {
      "epoch": 0.2025,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.454931640625,
      "learning_rate": 0.0003,
      "loss": 11.9247,
      "loss/aux_loss": 0.04810081459581852,
      "loss/crossentropy": 2.810983347892761,
      "loss/logits": 0.9296145677566529,
      "step": 20250
    },
    {
      "epoch": 0.2026,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.36795247395833336,
      "learning_rate": 0.0003,
      "loss": 11.6745,
      "loss/aux_loss": 0.04808822646737099,
      "loss/crossentropy": 2.684907627105713,
      "loss/logits": 0.8728846788406373,
      "step": 20260
    },
    {
      "epoch": 0.2027,
      "grad_norm": 12.375,
      "grad_norm_var": 0.21339518229166668,
      "learning_rate": 0.0003,
      "loss": 11.9664,
      "loss/aux_loss": 0.048096506483852865,
      "loss/crossentropy": 2.8471142053604126,
      "loss/logits": 0.9133492529392242,
      "step": 20270
    },
    {
      "epoch": 0.2028,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.7161295572916667,
      "learning_rate": 0.0003,
      "loss": 11.7893,
      "loss/aux_loss": 0.04809205681085586,
      "loss/crossentropy": 2.612596166133881,
      "loss/logits": 0.870291605591774,
      "step": 20280
    },
    {
      "epoch": 0.2029,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.8388020833333333,
      "learning_rate": 0.0003,
      "loss": 11.9102,
      "loss/aux_loss": 0.04809516165405512,
      "loss/crossentropy": 3.0022507131099703,
      "loss/logits": 0.9417583554983139,
      "step": 20290
    },
    {
      "epoch": 0.203,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.9346354166666667,
      "learning_rate": 0.0003,
      "loss": 11.919,
      "loss/aux_loss": 0.048092111200094226,
      "loss/crossentropy": 2.8318777084350586,
      "loss/logits": 0.9274811953306198,
      "step": 20300
    },
    {
      "epoch": 0.2031,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.48639322916666666,
      "learning_rate": 0.0003,
      "loss": 11.8993,
      "loss/aux_loss": 0.04809704571962357,
      "loss/crossentropy": 2.653505039215088,
      "loss/logits": 0.8742677927017212,
      "step": 20310
    },
    {
      "epoch": 0.2032,
      "grad_norm": 11.875,
      "grad_norm_var": 0.3296875,
      "learning_rate": 0.0003,
      "loss": 11.8204,
      "loss/aux_loss": 0.04809397198259831,
      "loss/crossentropy": 2.8869922399520873,
      "loss/logits": 0.9349960386753082,
      "step": 20320
    },
    {
      "epoch": 0.2033,
      "grad_norm": 12.625,
      "grad_norm_var": 0.4853515625,
      "learning_rate": 0.0003,
      "loss": 11.7685,
      "loss/aux_loss": 0.04808988757431507,
      "loss/crossentropy": 2.713202327489853,
      "loss/logits": 0.9036098659038544,
      "step": 20330
    },
    {
      "epoch": 0.2034,
      "grad_norm": 11.25,
      "grad_norm_var": 0.31243489583333334,
      "learning_rate": 0.0003,
      "loss": 11.783,
      "loss/aux_loss": 0.04809346310794353,
      "loss/crossentropy": 2.7694801688194275,
      "loss/logits": 0.9182763814926147,
      "step": 20340
    },
    {
      "epoch": 0.2035,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.44308268229166664,
      "learning_rate": 0.0003,
      "loss": 11.8069,
      "loss/aux_loss": 0.04808987472206354,
      "loss/crossentropy": 2.7956194162368773,
      "loss/logits": 0.8902797639369965,
      "step": 20350
    },
    {
      "epoch": 0.2036,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.18567708333333333,
      "learning_rate": 0.0003,
      "loss": 11.8991,
      "loss/aux_loss": 0.048092426359653474,
      "loss/crossentropy": 2.7856826066970823,
      "loss/logits": 0.8947367310523987,
      "step": 20360
    },
    {
      "epoch": 0.2037,
      "grad_norm": 11.8125,
      "grad_norm_var": 7.349739583333333,
      "learning_rate": 0.0003,
      "loss": 11.8399,
      "loss/aux_loss": 0.04809611644595861,
      "loss/crossentropy": 2.7929181456565857,
      "loss/logits": 0.9144560486078263,
      "step": 20370
    },
    {
      "epoch": 0.2038,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5590983072916667,
      "learning_rate": 0.0003,
      "loss": 11.8832,
      "loss/aux_loss": 0.04809699356555939,
      "loss/crossentropy": 2.8222780883312226,
      "loss/logits": 0.8883333146572113,
      "step": 20380
    },
    {
      "epoch": 0.2039,
      "grad_norm": 12.0625,
      "grad_norm_var": 7.416650390625,
      "learning_rate": 0.0003,
      "loss": 11.7412,
      "loss/aux_loss": 0.048093249835073945,
      "loss/crossentropy": 2.8504996478557585,
      "loss/logits": 0.9075500249862671,
      "step": 20390
    },
    {
      "epoch": 0.204,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.23331705729166666,
      "learning_rate": 0.0003,
      "loss": 12.0127,
      "loss/aux_loss": 0.04809419121593237,
      "loss/crossentropy": 2.8577288150787354,
      "loss/logits": 0.902344498038292,
      "step": 20400
    },
    {
      "epoch": 0.2041,
      "grad_norm": 12.5,
      "grad_norm_var": 77.52389322916666,
      "learning_rate": 0.0003,
      "loss": 11.7763,
      "loss/aux_loss": 0.04809053186327219,
      "loss/crossentropy": 2.835852700471878,
      "loss/logits": 0.9226241886615754,
      "step": 20410
    },
    {
      "epoch": 0.2042,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.4442057291666667,
      "learning_rate": 0.0003,
      "loss": 11.8972,
      "loss/aux_loss": 0.04809423293918371,
      "loss/crossentropy": 2.8161026298999787,
      "loss/logits": 0.926646676659584,
      "step": 20420
    },
    {
      "epoch": 0.2043,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.691650390625,
      "learning_rate": 0.0003,
      "loss": 11.8844,
      "loss/aux_loss": 0.04809097535908222,
      "loss/crossentropy": 2.763902723789215,
      "loss/logits": 0.9052618652582168,
      "step": 20430
    },
    {
      "epoch": 0.2044,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.6910807291666666,
      "learning_rate": 0.0003,
      "loss": 11.7705,
      "loss/aux_loss": 0.04810637105256319,
      "loss/crossentropy": 2.6885470867156984,
      "loss/logits": 0.8763923466205596,
      "step": 20440
    },
    {
      "epoch": 0.2045,
      "grad_norm": 13.8125,
      "grad_norm_var": 56.29894205729167,
      "learning_rate": 0.0003,
      "loss": 11.9226,
      "loss/aux_loss": 0.048100747354328635,
      "loss/crossentropy": 2.8076935350894927,
      "loss/logits": 0.894736310839653,
      "step": 20450
    },
    {
      "epoch": 0.2046,
      "grad_norm": 12.8125,
      "grad_norm_var": 54.62161458333333,
      "learning_rate": 0.0003,
      "loss": 11.8524,
      "loss/aux_loss": 0.0480956481769681,
      "loss/crossentropy": 2.8430003762245177,
      "loss/logits": 0.9245178937911988,
      "step": 20460
    },
    {
      "epoch": 0.2047,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.391650390625,
      "learning_rate": 0.0003,
      "loss": 11.7571,
      "loss/aux_loss": 0.04809457026422024,
      "loss/crossentropy": 2.6352721631526945,
      "loss/logits": 0.8530379116535187,
      "step": 20470
    },
    {
      "epoch": 0.2048,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.6627604166666666,
      "learning_rate": 0.0003,
      "loss": 11.9712,
      "loss/aux_loss": 0.04810174349695444,
      "loss/crossentropy": 2.8618993282318117,
      "loss/logits": 0.8944301903247833,
      "step": 20480
    },
    {
      "epoch": 0.2049,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.7,
      "learning_rate": 0.0003,
      "loss": 11.951,
      "loss/aux_loss": 0.04809792432934046,
      "loss/crossentropy": 2.7998989462852477,
      "loss/logits": 0.8966112703084945,
      "step": 20490
    },
    {
      "epoch": 0.205,
      "grad_norm": 13.625,
      "grad_norm_var": 0.350244140625,
      "learning_rate": 0.0003,
      "loss": 12.0158,
      "loss/aux_loss": 0.04808657988905907,
      "loss/crossentropy": 2.919311285018921,
      "loss/logits": 0.9131373822689056,
      "step": 20500
    },
    {
      "epoch": 0.2051,
      "grad_norm": 11.625,
      "grad_norm_var": 0.4176432291666667,
      "learning_rate": 0.0003,
      "loss": 11.8259,
      "loss/aux_loss": 0.04808542001992464,
      "loss/crossentropy": 2.8769485354423523,
      "loss/logits": 0.9414841264486313,
      "step": 20510
    },
    {
      "epoch": 0.2052,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.343994140625,
      "learning_rate": 0.0003,
      "loss": 11.9157,
      "loss/aux_loss": 0.04809294939041138,
      "loss/crossentropy": 2.6883323431015014,
      "loss/logits": 0.8925897628068924,
      "step": 20520
    },
    {
      "epoch": 0.2053,
      "grad_norm": 11.25,
      "grad_norm_var": 0.4405598958333333,
      "learning_rate": 0.0003,
      "loss": 11.9364,
      "loss/aux_loss": 0.04809175301343203,
      "loss/crossentropy": 2.723712849617004,
      "loss/logits": 0.8805695950984955,
      "step": 20530
    },
    {
      "epoch": 0.2054,
      "grad_norm": 12.25,
      "grad_norm_var": 0.5085774739583333,
      "learning_rate": 0.0003,
      "loss": 11.7972,
      "loss/aux_loss": 0.04808581694960594,
      "loss/crossentropy": 2.7969413816928865,
      "loss/logits": 0.8847203850746155,
      "step": 20540
    },
    {
      "epoch": 0.2055,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.1775390625,
      "learning_rate": 0.0003,
      "loss": 11.8719,
      "loss/aux_loss": 0.04808731451630592,
      "loss/crossentropy": 2.7113927245140075,
      "loss/logits": 0.8873605281114578,
      "step": 20550
    },
    {
      "epoch": 0.2056,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.39837239583333334,
      "learning_rate": 0.0003,
      "loss": 11.7171,
      "loss/aux_loss": 0.048092583753168584,
      "loss/crossentropy": 2.7325293242931368,
      "loss/logits": 0.8983477979898453,
      "step": 20560
    },
    {
      "epoch": 0.2057,
      "grad_norm": 12.25,
      "grad_norm_var": 0.3421223958333333,
      "learning_rate": 0.0003,
      "loss": 11.791,
      "loss/aux_loss": 0.048091687634587287,
      "loss/crossentropy": 2.744081234931946,
      "loss/logits": 0.9124333083629608,
      "step": 20570
    },
    {
      "epoch": 0.2058,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.3817057291666667,
      "learning_rate": 0.0003,
      "loss": 11.8137,
      "loss/aux_loss": 0.04810182899236679,
      "loss/crossentropy": 2.82774156332016,
      "loss/logits": 0.9164555937051773,
      "step": 20580
    },
    {
      "epoch": 0.2059,
      "grad_norm": 12.9375,
      "grad_norm_var": 2.7134765625,
      "learning_rate": 0.0003,
      "loss": 11.7681,
      "loss/aux_loss": 0.04808175358921289,
      "loss/crossentropy": 2.7752291679382326,
      "loss/logits": 0.923569667339325,
      "step": 20590
    },
    {
      "epoch": 0.206,
      "grad_norm": 11.875,
      "grad_norm_var": 2.0637858072916666,
      "learning_rate": 0.0003,
      "loss": 11.8039,
      "loss/aux_loss": 0.04809446018189192,
      "loss/crossentropy": 2.7302875399589537,
      "loss/logits": 0.9092204391956329,
      "step": 20600
    },
    {
      "epoch": 0.2061,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.3763020833333333,
      "learning_rate": 0.0003,
      "loss": 11.7904,
      "loss/aux_loss": 0.04808835070580244,
      "loss/crossentropy": 2.9346749424934386,
      "loss/logits": 0.8693037539720535,
      "step": 20610
    },
    {
      "epoch": 0.2062,
      "grad_norm": 11.625,
      "grad_norm_var": 0.2877604166666667,
      "learning_rate": 0.0003,
      "loss": 11.7153,
      "loss/aux_loss": 0.04808915480971336,
      "loss/crossentropy": 2.891802728176117,
      "loss/logits": 0.872070437669754,
      "step": 20620
    },
    {
      "epoch": 0.2063,
      "grad_norm": 12.25,
      "grad_norm_var": 43.424739583333334,
      "learning_rate": 0.0003,
      "loss": 11.8111,
      "loss/aux_loss": 0.0481000667437911,
      "loss/crossentropy": 2.752538466453552,
      "loss/logits": 0.910025691986084,
      "step": 20630
    },
    {
      "epoch": 0.2064,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.3419270833333333,
      "learning_rate": 0.0003,
      "loss": 11.7758,
      "loss/aux_loss": 0.04808867033571005,
      "loss/crossentropy": 2.816843068599701,
      "loss/logits": 0.8870363384485245,
      "step": 20640
    },
    {
      "epoch": 0.2065,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.27537434895833335,
      "learning_rate": 0.0003,
      "loss": 11.9281,
      "loss/aux_loss": 0.04809427950531244,
      "loss/crossentropy": 2.798200511932373,
      "loss/logits": 0.9375192672014236,
      "step": 20650
    },
    {
      "epoch": 0.2066,
      "grad_norm": 12.375,
      "grad_norm_var": 3.9953125,
      "learning_rate": 0.0003,
      "loss": 11.9466,
      "loss/aux_loss": 0.048091378435492514,
      "loss/crossentropy": 2.707651823759079,
      "loss/logits": 0.8876151233911515,
      "step": 20660
    },
    {
      "epoch": 0.2067,
      "grad_norm": 12.5,
      "grad_norm_var": 1.7358723958333333,
      "learning_rate": 0.0003,
      "loss": 11.8981,
      "loss/aux_loss": 0.048106171749532224,
      "loss/crossentropy": 2.697846329212189,
      "loss/logits": 0.9072348445653915,
      "step": 20670
    },
    {
      "epoch": 0.2068,
      "grad_norm": 13.0,
      "grad_norm_var": 1.8640625,
      "learning_rate": 0.0003,
      "loss": 11.7331,
      "loss/aux_loss": 0.04809394646435976,
      "loss/crossentropy": 2.8085982382297514,
      "loss/logits": 0.8863144606351853,
      "step": 20680
    },
    {
      "epoch": 0.2069,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.5259765625,
      "learning_rate": 0.0003,
      "loss": 11.6847,
      "loss/aux_loss": 0.048090824671089646,
      "loss/crossentropy": 2.688712340593338,
      "loss/logits": 0.9194134473800659,
      "step": 20690
    },
    {
      "epoch": 0.207,
      "grad_norm": 12.25,
      "grad_norm_var": 0.43430989583333335,
      "learning_rate": 0.0003,
      "loss": 11.8249,
      "loss/aux_loss": 0.048093540407717225,
      "loss/crossentropy": 2.8308887600898744,
      "loss/logits": 0.9012588620185852,
      "step": 20700
    },
    {
      "epoch": 0.2071,
      "grad_norm": 12.625,
      "grad_norm_var": 0.38483072916666666,
      "learning_rate": 0.0003,
      "loss": 11.8041,
      "loss/aux_loss": 0.04809002298861742,
      "loss/crossentropy": 2.7663665294647215,
      "loss/logits": 0.8768691569566727,
      "step": 20710
    },
    {
      "epoch": 0.2072,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.8957682291666667,
      "learning_rate": 0.0003,
      "loss": 11.7693,
      "loss/aux_loss": 0.0480813292786479,
      "loss/crossentropy": 2.7900067985057833,
      "loss/logits": 0.9126892119646073,
      "step": 20720
    },
    {
      "epoch": 0.2073,
      "grad_norm": 11.25,
      "grad_norm_var": 0.735400390625,
      "learning_rate": 0.0003,
      "loss": 11.8439,
      "loss/aux_loss": 0.04809948187321424,
      "loss/crossentropy": 2.7565189003944397,
      "loss/logits": 0.8766478002071381,
      "step": 20730
    },
    {
      "epoch": 0.2074,
      "grad_norm": 12.125,
      "grad_norm_var": 0.45558268229166665,
      "learning_rate": 0.0003,
      "loss": 11.8518,
      "loss/aux_loss": 0.048083253763616086,
      "loss/crossentropy": 2.7713675141334533,
      "loss/logits": 0.8875041484832764,
      "step": 20740
    },
    {
      "epoch": 0.2075,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.9202962239583333,
      "learning_rate": 0.0003,
      "loss": 11.9413,
      "loss/aux_loss": 0.04809508752077818,
      "loss/crossentropy": 2.937278914451599,
      "loss/logits": 0.9425408929586411,
      "step": 20750
    },
    {
      "epoch": 0.2076,
      "grad_norm": 11.5,
      "grad_norm_var": 0.9744140625,
      "learning_rate": 0.0003,
      "loss": 11.9612,
      "loss/aux_loss": 0.04808584563434124,
      "loss/crossentropy": 2.837298500537872,
      "loss/logits": 0.9269993782043457,
      "step": 20760
    },
    {
      "epoch": 0.2077,
      "grad_norm": 12.0,
      "grad_norm_var": 0.24420572916666666,
      "learning_rate": 0.0003,
      "loss": 11.8762,
      "loss/aux_loss": 0.0480938971042633,
      "loss/crossentropy": 2.7334739685058596,
      "loss/logits": 0.8894063144922256,
      "step": 20770
    },
    {
      "epoch": 0.2078,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.2652180989583333,
      "learning_rate": 0.0003,
      "loss": 11.8865,
      "loss/aux_loss": 0.04807817693799734,
      "loss/crossentropy": 2.7916306495666503,
      "loss/logits": 0.9009652465581894,
      "step": 20780
    },
    {
      "epoch": 0.2079,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.24921875,
      "learning_rate": 0.0003,
      "loss": 11.8028,
      "loss/aux_loss": 0.0480882965028286,
      "loss/crossentropy": 2.7257829308509827,
      "loss/logits": 0.9154664635658264,
      "step": 20790
    },
    {
      "epoch": 0.208,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.2400390625,
      "learning_rate": 0.0003,
      "loss": 12.0261,
      "loss/aux_loss": 0.048092817142605784,
      "loss/crossentropy": 2.7954021215438845,
      "loss/logits": 0.9113053381443024,
      "step": 20800
    },
    {
      "epoch": 0.2081,
      "grad_norm": 13.0,
      "grad_norm_var": 0.2259765625,
      "learning_rate": 0.0003,
      "loss": 11.7759,
      "loss/aux_loss": 0.04809394646435976,
      "loss/crossentropy": 2.8197373390197753,
      "loss/logits": 0.8813621670007705,
      "step": 20810
    },
    {
      "epoch": 0.2082,
      "grad_norm": 19.5,
      "grad_norm_var": 3.6874348958333334,
      "learning_rate": 0.0003,
      "loss": 11.6814,
      "loss/aux_loss": 0.0480814166367054,
      "loss/crossentropy": 2.817176288366318,
      "loss/logits": 0.9225684970617294,
      "step": 20820
    },
    {
      "epoch": 0.2083,
      "grad_norm": 13.0625,
      "grad_norm_var": 4.002718098958334,
      "learning_rate": 0.0003,
      "loss": 12.0019,
      "loss/aux_loss": 0.0480852359905839,
      "loss/crossentropy": 2.668290489912033,
      "loss/logits": 0.9053199380636215,
      "step": 20830
    },
    {
      "epoch": 0.2084,
      "grad_norm": 11.875,
      "grad_norm_var": 0.613134765625,
      "learning_rate": 0.0003,
      "loss": 11.8592,
      "loss/aux_loss": 0.04809372667223215,
      "loss/crossentropy": 2.7935187935829164,
      "loss/logits": 0.8976625889539719,
      "step": 20840
    },
    {
      "epoch": 0.2085,
      "grad_norm": 13.125,
      "grad_norm_var": 0.438134765625,
      "learning_rate": 0.0003,
      "loss": 11.6427,
      "loss/aux_loss": 0.04809672702103853,
      "loss/crossentropy": 2.868895101547241,
      "loss/logits": 0.8949025511741638,
      "step": 20850
    },
    {
      "epoch": 0.2086,
      "grad_norm": 12.375,
      "grad_norm_var": 0.442822265625,
      "learning_rate": 0.0003,
      "loss": 11.7802,
      "loss/aux_loss": 0.04807591456919909,
      "loss/crossentropy": 2.884802359342575,
      "loss/logits": 0.88098503947258,
      "step": 20860
    },
    {
      "epoch": 0.2087,
      "grad_norm": 11.875,
      "grad_norm_var": 0.331103515625,
      "learning_rate": 0.0003,
      "loss": 11.8061,
      "loss/aux_loss": 0.048096058703958985,
      "loss/crossentropy": 2.86653151512146,
      "loss/logits": 0.9177994340658188,
      "step": 20870
    },
    {
      "epoch": 0.2088,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.1890625,
      "learning_rate": 0.0003,
      "loss": 11.6698,
      "loss/aux_loss": 0.04808076079934835,
      "loss/crossentropy": 2.669018977880478,
      "loss/logits": 0.8996531933546066,
      "step": 20880
    },
    {
      "epoch": 0.2089,
      "grad_norm": 11.375,
      "grad_norm_var": 0.10584309895833334,
      "learning_rate": 0.0003,
      "loss": 11.7736,
      "loss/aux_loss": 0.048097938485443595,
      "loss/crossentropy": 2.814938074350357,
      "loss/logits": 0.8803753167390823,
      "step": 20890
    },
    {
      "epoch": 0.209,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.249462890625,
      "learning_rate": 0.0003,
      "loss": 11.8773,
      "loss/aux_loss": 0.048087738640606406,
      "loss/crossentropy": 2.8559614181518556,
      "loss/logits": 0.924946254491806,
      "step": 20900
    },
    {
      "epoch": 0.2091,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.45677083333333335,
      "learning_rate": 0.0003,
      "loss": 11.7792,
      "loss/aux_loss": 0.04809671528637409,
      "loss/crossentropy": 2.833332586288452,
      "loss/logits": 0.9064707219600677,
      "step": 20910
    },
    {
      "epoch": 0.2092,
      "grad_norm": 12.875,
      "grad_norm_var": 0.45115559895833335,
      "learning_rate": 0.0003,
      "loss": 11.6766,
      "loss/aux_loss": 0.048085590824484825,
      "loss/crossentropy": 2.6808117508888243,
      "loss/logits": 0.8879122287034988,
      "step": 20920
    },
    {
      "epoch": 0.2093,
      "grad_norm": 13.0,
      "grad_norm_var": 0.3841145833333333,
      "learning_rate": 0.0003,
      "loss": 11.926,
      "loss/aux_loss": 0.048085760325193405,
      "loss/crossentropy": 2.8332987904548643,
      "loss/logits": 0.9374050021171569,
      "step": 20930
    },
    {
      "epoch": 0.2094,
      "grad_norm": 12.375,
      "grad_norm_var": 0.48125,
      "learning_rate": 0.0003,
      "loss": 11.7561,
      "loss/aux_loss": 0.0480853458866477,
      "loss/crossentropy": 2.8423936545848845,
      "loss/logits": 0.9064114809036254,
      "step": 20940
    },
    {
      "epoch": 0.2095,
      "grad_norm": 12.25,
      "grad_norm_var": 0.6079264322916667,
      "learning_rate": 0.0003,
      "loss": 11.7373,
      "loss/aux_loss": 0.048095690459012984,
      "loss/crossentropy": 2.6432439744472505,
      "loss/logits": 0.8873191922903061,
      "step": 20950
    },
    {
      "epoch": 0.2096,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.54296875,
      "learning_rate": 0.0003,
      "loss": 11.7411,
      "loss/aux_loss": 0.04809337351471186,
      "loss/crossentropy": 2.7309992611408234,
      "loss/logits": 0.8804535895586014,
      "step": 20960
    },
    {
      "epoch": 0.2097,
      "grad_norm": 12.0,
      "grad_norm_var": 0.32734375,
      "learning_rate": 0.0003,
      "loss": 11.8208,
      "loss/aux_loss": 0.04809424672275782,
      "loss/crossentropy": 2.733998316526413,
      "loss/logits": 0.8988215506076813,
      "step": 20970
    },
    {
      "epoch": 0.2098,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.21222330729166666,
      "learning_rate": 0.0003,
      "loss": 11.896,
      "loss/aux_loss": 0.04808952175080776,
      "loss/crossentropy": 2.5865807056427004,
      "loss/logits": 0.854627400636673,
      "step": 20980
    },
    {
      "epoch": 0.2099,
      "grad_norm": 12.375,
      "grad_norm_var": 0.38645833333333335,
      "learning_rate": 0.0003,
      "loss": 11.8622,
      "loss/aux_loss": 0.04808156508952379,
      "loss/crossentropy": 2.851080930233002,
      "loss/logits": 0.9109200239181519,
      "step": 20990
    },
    {
      "epoch": 0.21,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.49661458333333336,
      "learning_rate": 0.0003,
      "loss": 11.7082,
      "loss/aux_loss": 0.04808969963341951,
      "loss/crossentropy": 2.84299578666687,
      "loss/logits": 0.8802772104740143,
      "step": 21000
    },
    {
      "epoch": 0.2101,
      "grad_norm": 12.375,
      "grad_norm_var": 0.5040201822916667,
      "learning_rate": 0.0003,
      "loss": 11.8945,
      "loss/aux_loss": 0.048087981343269345,
      "loss/crossentropy": 2.6353746175765993,
      "loss/logits": 0.8833418905735015,
      "step": 21010
    },
    {
      "epoch": 0.2102,
      "grad_norm": 11.75,
      "grad_norm_var": 0.4593098958333333,
      "learning_rate": 0.0003,
      "loss": 11.6485,
      "loss/aux_loss": 0.048100402019917964,
      "loss/crossentropy": 2.8276872038841248,
      "loss/logits": 0.9351934552192688,
      "step": 21020
    },
    {
      "epoch": 0.2103,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.4083170572916667,
      "learning_rate": 0.0003,
      "loss": 11.6644,
      "loss/aux_loss": 0.048088280111551286,
      "loss/crossentropy": 2.8238101243972777,
      "loss/logits": 0.8919139176607132,
      "step": 21030
    },
    {
      "epoch": 0.2104,
      "grad_norm": 11.375,
      "grad_norm_var": 0.4735514322916667,
      "learning_rate": 0.0003,
      "loss": 11.6249,
      "loss/aux_loss": 0.04809662196785212,
      "loss/crossentropy": 2.7005931556224825,
      "loss/logits": 0.8710683017969132,
      "step": 21040
    },
    {
      "epoch": 0.2105,
      "grad_norm": 12.0,
      "grad_norm_var": 0.3633951822916667,
      "learning_rate": 0.0003,
      "loss": 11.895,
      "loss/aux_loss": 0.048086578585207464,
      "loss/crossentropy": 2.9533318161964415,
      "loss/logits": 0.9189774692058563,
      "step": 21050
    },
    {
      "epoch": 0.2106,
      "grad_norm": 13.0,
      "grad_norm_var": 0.34542643229166664,
      "learning_rate": 0.0003,
      "loss": 11.933,
      "loss/aux_loss": 0.04809347465634346,
      "loss/crossentropy": 2.7933754503726957,
      "loss/logits": 0.8989807814359665,
      "step": 21060
    },
    {
      "epoch": 0.2107,
      "grad_norm": 11.625,
      "grad_norm_var": 0.3900390625,
      "learning_rate": 0.0003,
      "loss": 11.7229,
      "loss/aux_loss": 0.048093566112220286,
      "loss/crossentropy": 2.909538185596466,
      "loss/logits": 0.9254848033189773,
      "step": 21070
    },
    {
      "epoch": 0.2108,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.48483072916666664,
      "learning_rate": 0.0003,
      "loss": 11.8718,
      "loss/aux_loss": 0.048095266707241534,
      "loss/crossentropy": 2.77746034860611,
      "loss/logits": 0.8918098568916321,
      "step": 21080
    },
    {
      "epoch": 0.2109,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.5109375,
      "learning_rate": 0.0003,
      "loss": 11.8693,
      "loss/aux_loss": 0.04808137100189924,
      "loss/crossentropy": 2.8595972299575805,
      "loss/logits": 0.9113215535879136,
      "step": 21090
    },
    {
      "epoch": 0.211,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.226416015625,
      "learning_rate": 0.0003,
      "loss": 11.7439,
      "loss/aux_loss": 0.04809752646833658,
      "loss/crossentropy": 2.8955005407333374,
      "loss/logits": 0.9018853276968002,
      "step": 21100
    },
    {
      "epoch": 0.2111,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.44021809895833336,
      "learning_rate": 0.0003,
      "loss": 11.8998,
      "loss/aux_loss": 0.04808686450123787,
      "loss/crossentropy": 2.8281142473220826,
      "loss/logits": 0.9361472398042678,
      "step": 21110
    },
    {
      "epoch": 0.2112,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.7166015625,
      "learning_rate": 0.0003,
      "loss": 11.9078,
      "loss/aux_loss": 0.04808351919054985,
      "loss/crossentropy": 2.8331224858760833,
      "loss/logits": 0.925226366519928,
      "step": 21120
    },
    {
      "epoch": 0.2113,
      "grad_norm": 12.25,
      "grad_norm_var": 0.20045572916666668,
      "learning_rate": 0.0003,
      "loss": 11.8609,
      "loss/aux_loss": 0.048093733564019206,
      "loss/crossentropy": 2.7209898710250853,
      "loss/logits": 0.9094552010297775,
      "step": 21130
    },
    {
      "epoch": 0.2114,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.3734212239583333,
      "learning_rate": 0.0003,
      "loss": 11.8317,
      "loss/aux_loss": 0.04808988496661186,
      "loss/crossentropy": 2.7308087766170503,
      "loss/logits": 0.875358846783638,
      "step": 21140
    },
    {
      "epoch": 0.2115,
      "grad_norm": 11.875,
      "grad_norm_var": 1.264306640625,
      "learning_rate": 0.0003,
      "loss": 11.7752,
      "loss/aux_loss": 0.04809015057981014,
      "loss/crossentropy": 2.744631814956665,
      "loss/logits": 0.890999186038971,
      "step": 21150
    },
    {
      "epoch": 0.2116,
      "grad_norm": 11.3125,
      "grad_norm_var": 1.3072916666666667,
      "learning_rate": 0.0003,
      "loss": 11.7284,
      "loss/aux_loss": 0.04809484537690878,
      "loss/crossentropy": 2.7210877299308778,
      "loss/logits": 0.8934634417295456,
      "step": 21160
    },
    {
      "epoch": 0.2117,
      "grad_norm": 13.75,
      "grad_norm_var": 0.718603515625,
      "learning_rate": 0.0003,
      "loss": 11.6448,
      "loss/aux_loss": 0.04808205626904964,
      "loss/crossentropy": 2.6400113105773926,
      "loss/logits": 0.8528676211833954,
      "step": 21170
    },
    {
      "epoch": 0.2118,
      "grad_norm": 11.625,
      "grad_norm_var": 0.5536295572916666,
      "learning_rate": 0.0003,
      "loss": 11.881,
      "loss/aux_loss": 0.0481026129797101,
      "loss/crossentropy": 2.7602346658706667,
      "loss/logits": 0.8984622836112977,
      "step": 21180
    },
    {
      "epoch": 0.2119,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.2978515625,
      "learning_rate": 0.0003,
      "loss": 11.9188,
      "loss/aux_loss": 0.04807357918471098,
      "loss/crossentropy": 2.9864767670631407,
      "loss/logits": 0.9314229309558868,
      "step": 21190
    },
    {
      "epoch": 0.212,
      "grad_norm": 12.0,
      "grad_norm_var": 0.6145182291666667,
      "learning_rate": 0.0003,
      "loss": 12.0001,
      "loss/aux_loss": 0.048103776201605795,
      "loss/crossentropy": 2.816402053833008,
      "loss/logits": 0.904208105802536,
      "step": 21200
    },
    {
      "epoch": 0.2121,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.7231608072916667,
      "learning_rate": 0.0003,
      "loss": 11.7257,
      "loss/aux_loss": 0.048085693083703515,
      "loss/crossentropy": 2.708358186483383,
      "loss/logits": 0.898724827170372,
      "step": 21210
    },
    {
      "epoch": 0.2122,
      "grad_norm": 12.0,
      "grad_norm_var": 15.506103515625,
      "learning_rate": 0.0003,
      "loss": 11.7972,
      "loss/aux_loss": 0.04809206072241068,
      "loss/crossentropy": 2.744321119785309,
      "loss/logits": 0.9206572264432907,
      "step": 21220
    },
    {
      "epoch": 0.2123,
      "grad_norm": 14.3125,
      "grad_norm_var": 14.617041015625,
      "learning_rate": 0.0003,
      "loss": 11.7268,
      "loss/aux_loss": 0.048096605204045774,
      "loss/crossentropy": 2.72475118637085,
      "loss/logits": 0.874206417798996,
      "step": 21230
    },
    {
      "epoch": 0.2124,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.4019368489583333,
      "learning_rate": 0.0003,
      "loss": 11.8328,
      "loss/aux_loss": 0.04808426145464182,
      "loss/crossentropy": 2.815295088291168,
      "loss/logits": 0.9246113210916519,
      "step": 21240
    },
    {
      "epoch": 0.2125,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.375634765625,
      "learning_rate": 0.0003,
      "loss": 11.8002,
      "loss/aux_loss": 0.048097210749983785,
      "loss/crossentropy": 2.5762141942977905,
      "loss/logits": 0.8894416421651841,
      "step": 21250
    },
    {
      "epoch": 0.2126,
      "grad_norm": 13.0,
      "grad_norm_var": 0.410400390625,
      "learning_rate": 0.0003,
      "loss": 11.8324,
      "loss/aux_loss": 0.048088593408465385,
      "loss/crossentropy": 2.783554768562317,
      "loss/logits": 0.8944692641496659,
      "step": 21260
    },
    {
      "epoch": 0.2127,
      "grad_norm": 12.375,
      "grad_norm_var": 0.23956705729166666,
      "learning_rate": 0.0003,
      "loss": 11.9322,
      "loss/aux_loss": 0.048084756731987,
      "loss/crossentropy": 2.8908560514450072,
      "loss/logits": 0.9285173654556275,
      "step": 21270
    },
    {
      "epoch": 0.2128,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.3651041666666667,
      "learning_rate": 0.0003,
      "loss": 11.7035,
      "loss/aux_loss": 0.04809834379702806,
      "loss/crossentropy": 2.7666608333587646,
      "loss/logits": 0.8596565514802933,
      "step": 21280
    },
    {
      "epoch": 0.2129,
      "grad_norm": 13.125,
      "grad_norm_var": 0.397900390625,
      "learning_rate": 0.0003,
      "loss": 11.8816,
      "loss/aux_loss": 0.048090608604252336,
      "loss/crossentropy": 2.7386081337928774,
      "loss/logits": 0.8871663898229599,
      "step": 21290
    },
    {
      "epoch": 0.213,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.5919108072916667,
      "learning_rate": 0.0003,
      "loss": 11.6848,
      "loss/aux_loss": 0.04808788150548935,
      "loss/crossentropy": 2.851125454902649,
      "loss/logits": 0.9087550818920136,
      "step": 21300
    },
    {
      "epoch": 0.2131,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.3337890625,
      "learning_rate": 0.0003,
      "loss": 11.6448,
      "loss/aux_loss": 0.0480893436819315,
      "loss/crossentropy": 3.0054169058799745,
      "loss/logits": 0.9328852593898773,
      "step": 21310
    },
    {
      "epoch": 0.2132,
      "grad_norm": 11.75,
      "grad_norm_var": 0.529931640625,
      "learning_rate": 0.0003,
      "loss": 11.6956,
      "loss/aux_loss": 0.048091666772961617,
      "loss/crossentropy": 2.760949170589447,
      "loss/logits": 0.8893462926149368,
      "step": 21320
    },
    {
      "epoch": 0.2133,
      "grad_norm": 13.125,
      "grad_norm_var": 0.3516764322916667,
      "learning_rate": 0.0003,
      "loss": 11.8081,
      "loss/aux_loss": 0.0480879507958889,
      "loss/crossentropy": 2.766853415966034,
      "loss/logits": 0.8801511764526367,
      "step": 21330
    },
    {
      "epoch": 0.2134,
      "grad_norm": 12.125,
      "grad_norm_var": 0.45193684895833336,
      "learning_rate": 0.0003,
      "loss": 11.8681,
      "loss/aux_loss": 0.04809288065880537,
      "loss/crossentropy": 2.6554811358451844,
      "loss/logits": 0.911386126279831,
      "step": 21340
    },
    {
      "epoch": 0.2135,
      "grad_norm": 12.375,
      "grad_norm_var": 0.4337076822916667,
      "learning_rate": 0.0003,
      "loss": 12.0507,
      "loss/aux_loss": 0.04808918032795191,
      "loss/crossentropy": 2.887453854084015,
      "loss/logits": 0.9052879035472869,
      "step": 21350
    },
    {
      "epoch": 0.2136,
      "grad_norm": 12.0,
      "grad_norm_var": 0.5317708333333333,
      "learning_rate": 0.0003,
      "loss": 11.7237,
      "loss/aux_loss": 0.04809961635619402,
      "loss/crossentropy": 2.739542376995087,
      "loss/logits": 0.9075916647911072,
      "step": 21360
    },
    {
      "epoch": 0.2137,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.486181640625,
      "learning_rate": 0.0003,
      "loss": 11.827,
      "loss/aux_loss": 0.048078613728284834,
      "loss/crossentropy": 2.7362434446811674,
      "loss/logits": 0.8810094386339188,
      "step": 21370
    },
    {
      "epoch": 0.2138,
      "grad_norm": 12.5625,
      "grad_norm_var": 1.4038899739583333,
      "learning_rate": 0.0003,
      "loss": 11.8722,
      "loss/aux_loss": 0.048095672950148584,
      "loss/crossentropy": 2.9124315857887266,
      "loss/logits": 0.9393705606460572,
      "step": 21380
    },
    {
      "epoch": 0.2139,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.784228515625,
      "learning_rate": 0.0003,
      "loss": 11.753,
      "loss/aux_loss": 0.04809557497501373,
      "loss/crossentropy": 2.7900996267795564,
      "loss/logits": 0.9042523264884949,
      "step": 21390
    },
    {
      "epoch": 0.214,
      "grad_norm": 12.75,
      "grad_norm_var": 41.506184895833336,
      "learning_rate": 0.0003,
      "loss": 11.8063,
      "loss/aux_loss": 0.048089190199971196,
      "loss/crossentropy": 2.750228983163834,
      "loss/logits": 0.889886274933815,
      "step": 21400
    },
    {
      "epoch": 0.2141,
      "grad_norm": 11.875,
      "grad_norm_var": 42.12511393229167,
      "learning_rate": 0.0003,
      "loss": 11.889,
      "loss/aux_loss": 0.04809757433831692,
      "loss/crossentropy": 2.798718500137329,
      "loss/logits": 0.9059660851955413,
      "step": 21410
    },
    {
      "epoch": 0.2142,
      "grad_norm": 12.625,
      "grad_norm_var": 3.5251139322916667,
      "learning_rate": 0.0003,
      "loss": 11.7521,
      "loss/aux_loss": 0.048101062327623366,
      "loss/crossentropy": 2.8062780797481537,
      "loss/logits": 0.9037539154291153,
      "step": 21420
    },
    {
      "epoch": 0.2143,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.24088541666666666,
      "learning_rate": 0.0003,
      "loss": 11.6689,
      "loss/aux_loss": 0.048091071844100955,
      "loss/crossentropy": 2.7986648082733154,
      "loss/logits": 0.8963402301073075,
      "step": 21430
    },
    {
      "epoch": 0.2144,
      "grad_norm": 12.0,
      "grad_norm_var": 0.26614583333333336,
      "learning_rate": 0.0003,
      "loss": 12.0498,
      "loss/aux_loss": 0.04808345343917608,
      "loss/crossentropy": 2.9033891916275025,
      "loss/logits": 0.9560538738965988,
      "step": 21440
    },
    {
      "epoch": 0.2145,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.37862955729166664,
      "learning_rate": 0.0003,
      "loss": 11.8566,
      "loss/aux_loss": 0.04810182619839907,
      "loss/crossentropy": 2.799178421497345,
      "loss/logits": 0.9117594748735428,
      "step": 21450
    },
    {
      "epoch": 0.2146,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.5555826822916666,
      "learning_rate": 0.0003,
      "loss": 11.9289,
      "loss/aux_loss": 0.04809532649815083,
      "loss/crossentropy": 2.7515031695365906,
      "loss/logits": 0.9373772829771042,
      "step": 21460
    },
    {
      "epoch": 0.2147,
      "grad_norm": 11.875,
      "grad_norm_var": 0.7036458333333333,
      "learning_rate": 0.0003,
      "loss": 11.8032,
      "loss/aux_loss": 0.048093835823237896,
      "loss/crossentropy": 2.7646782994270325,
      "loss/logits": 0.911266279220581,
      "step": 21470
    },
    {
      "epoch": 0.2148,
      "grad_norm": 11.75,
      "grad_norm_var": 0.17369791666666667,
      "learning_rate": 0.0003,
      "loss": 11.914,
      "loss/aux_loss": 0.04809645172208547,
      "loss/crossentropy": 2.7859348595142364,
      "loss/logits": 0.875312551856041,
      "step": 21480
    },
    {
      "epoch": 0.2149,
      "grad_norm": 12.5625,
      "grad_norm_var": 2.250260416666667,
      "learning_rate": 0.0003,
      "loss": 11.8084,
      "loss/aux_loss": 0.048092559166252616,
      "loss/crossentropy": 2.886737060546875,
      "loss/logits": 0.8639699459075928,
      "step": 21490
    },
    {
      "epoch": 0.215,
      "grad_norm": 11.75,
      "grad_norm_var": 2.191145833333333,
      "learning_rate": 0.0003,
      "loss": 11.7606,
      "loss/aux_loss": 0.04809298049658537,
      "loss/crossentropy": 2.9002821505069734,
      "loss/logits": 0.9444745779037476,
      "step": 21500
    },
    {
      "epoch": 0.2151,
      "grad_norm": 12.625,
      "grad_norm_var": 0.410400390625,
      "learning_rate": 0.0003,
      "loss": 11.8001,
      "loss/aux_loss": 0.048099953681230545,
      "loss/crossentropy": 2.702463275194168,
      "loss/logits": 0.9036620557308197,
      "step": 21510
    },
    {
      "epoch": 0.2152,
      "grad_norm": 11.875,
      "grad_norm_var": 0.33474934895833336,
      "learning_rate": 0.0003,
      "loss": 11.88,
      "loss/aux_loss": 0.048086378164589404,
      "loss/crossentropy": 2.7439981400966644,
      "loss/logits": 0.9525706797838212,
      "step": 21520
    },
    {
      "epoch": 0.2153,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.21770833333333334,
      "learning_rate": 0.0003,
      "loss": 11.7527,
      "loss/aux_loss": 0.04810568634420633,
      "loss/crossentropy": 2.6959027111530305,
      "loss/logits": 0.8563485085964203,
      "step": 21530
    },
    {
      "epoch": 0.2154,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.26925455729166664,
      "learning_rate": 0.0003,
      "loss": 11.8753,
      "loss/aux_loss": 0.04807868674397468,
      "loss/crossentropy": 2.769312971830368,
      "loss/logits": 0.9261300444602967,
      "step": 21540
    },
    {
      "epoch": 0.2155,
      "grad_norm": 12.5,
      "grad_norm_var": 23.747770182291667,
      "learning_rate": 0.0003,
      "loss": 11.9234,
      "loss/aux_loss": 0.04809074979275465,
      "loss/crossentropy": 2.858646285533905,
      "loss/logits": 0.9108448445796966,
      "step": 21550
    },
    {
      "epoch": 0.2156,
      "grad_norm": 12.875,
      "grad_norm_var": 23.503125,
      "learning_rate": 0.0003,
      "loss": 11.8421,
      "loss/aux_loss": 0.04809603709727526,
      "loss/crossentropy": 2.884668844938278,
      "loss/logits": 0.9331677317619324,
      "step": 21560
    },
    {
      "epoch": 0.2157,
      "grad_norm": 13.5,
      "grad_norm_var": 1.2812337239583333,
      "learning_rate": 0.0003,
      "loss": 11.7742,
      "loss/aux_loss": 0.04808317497372627,
      "loss/crossentropy": 2.7802948713302613,
      "loss/logits": 0.9503753989934921,
      "step": 21570
    },
    {
      "epoch": 0.2158,
      "grad_norm": 20.625,
      "grad_norm_var": 4.628059895833333,
      "learning_rate": 0.0003,
      "loss": 11.8258,
      "loss/aux_loss": 0.04808113072067499,
      "loss/crossentropy": 2.7815487384796143,
      "loss/logits": 0.9218122154474259,
      "step": 21580
    },
    {
      "epoch": 0.2159,
      "grad_norm": 14.9375,
      "grad_norm_var": 4.69609375,
      "learning_rate": 0.0003,
      "loss": 11.7204,
      "loss/aux_loss": 0.048096010275185105,
      "loss/crossentropy": 2.831838434934616,
      "loss/logits": 0.8932915806770325,
      "step": 21590
    },
    {
      "epoch": 0.216,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.756103515625,
      "learning_rate": 0.0003,
      "loss": 11.7068,
      "loss/aux_loss": 0.048090577125549316,
      "loss/crossentropy": 2.818828046321869,
      "loss/logits": 0.9055852591991425,
      "step": 21600
    },
    {
      "epoch": 0.2161,
      "grad_norm": 12.75,
      "grad_norm_var": 0.34889322916666665,
      "learning_rate": 0.0003,
      "loss": 11.8699,
      "loss/aux_loss": 0.04809344317764044,
      "loss/crossentropy": 2.725664830207825,
      "loss/logits": 0.9231677383184433,
      "step": 21610
    },
    {
      "epoch": 0.2162,
      "grad_norm": 13.625,
      "grad_norm_var": 0.6227701822916667,
      "learning_rate": 0.0003,
      "loss": 11.8195,
      "loss/aux_loss": 0.04809017200022936,
      "loss/crossentropy": 2.7314105927944183,
      "loss/logits": 0.9009778618812561,
      "step": 21620
    },
    {
      "epoch": 0.2163,
      "grad_norm": 12.375,
      "grad_norm_var": 3.8499348958333335,
      "learning_rate": 0.0003,
      "loss": 11.7735,
      "loss/aux_loss": 0.04809233695268631,
      "loss/crossentropy": 2.7671496987342836,
      "loss/logits": 0.9043550729751587,
      "step": 21630
    },
    {
      "epoch": 0.2164,
      "grad_norm": 13.125,
      "grad_norm_var": 4.204166666666667,
      "learning_rate": 0.0003,
      "loss": 11.7381,
      "loss/aux_loss": 0.04809225425124168,
      "loss/crossentropy": 2.715823769569397,
      "loss/logits": 0.8934505701065063,
      "step": 21640
    },
    {
      "epoch": 0.2165,
      "grad_norm": 13.5625,
      "grad_norm_var": 1.0377604166666667,
      "learning_rate": 0.0003,
      "loss": 11.8044,
      "loss/aux_loss": 0.04808531980961561,
      "loss/crossentropy": 2.7514367580413817,
      "loss/logits": 0.9063582092523574,
      "step": 21650
    },
    {
      "epoch": 0.2166,
      "grad_norm": 12.5,
      "grad_norm_var": 0.4020182291666667,
      "learning_rate": 0.0003,
      "loss": 11.6973,
      "loss/aux_loss": 0.04809113219380379,
      "loss/crossentropy": 2.71242498755455,
      "loss/logits": 0.9035886704921723,
      "step": 21660
    },
    {
      "epoch": 0.2167,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.5839680989583333,
      "learning_rate": 0.0003,
      "loss": 11.6988,
      "loss/aux_loss": 0.0480911111459136,
      "loss/crossentropy": 2.934883952140808,
      "loss/logits": 0.8832208603620529,
      "step": 21670
    },
    {
      "epoch": 0.2168,
      "grad_norm": 12.25,
      "grad_norm_var": 0.632666015625,
      "learning_rate": 0.0003,
      "loss": 11.7549,
      "loss/aux_loss": 0.048089130967855456,
      "loss/crossentropy": 2.677219772338867,
      "loss/logits": 0.8748012632131577,
      "step": 21680
    },
    {
      "epoch": 0.2169,
      "grad_norm": 11.75,
      "grad_norm_var": 0.5957682291666667,
      "learning_rate": 0.0003,
      "loss": 11.874,
      "loss/aux_loss": 0.0480881916359067,
      "loss/crossentropy": 2.8454249918460848,
      "loss/logits": 0.8973806709051132,
      "step": 21690
    },
    {
      "epoch": 0.217,
      "grad_norm": 11.625,
      "grad_norm_var": 0.42552083333333335,
      "learning_rate": 0.0003,
      "loss": 11.8774,
      "loss/aux_loss": 0.04809354934841394,
      "loss/crossentropy": 2.930919277667999,
      "loss/logits": 0.9322040349245071,
      "step": 21700
    },
    {
      "epoch": 0.2171,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.38229166666666664,
      "learning_rate": 0.0003,
      "loss": 11.8088,
      "loss/aux_loss": 0.04809126667678356,
      "loss/crossentropy": 2.709583592414856,
      "loss/logits": 0.8984523087739944,
      "step": 21710
    },
    {
      "epoch": 0.2172,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.3509765625,
      "learning_rate": 0.0003,
      "loss": 11.8755,
      "loss/aux_loss": 0.04808931071311236,
      "loss/crossentropy": 2.797287333011627,
      "loss/logits": 0.8914159804582595,
      "step": 21720
    },
    {
      "epoch": 0.2173,
      "grad_norm": 12.0,
      "grad_norm_var": 0.3853515625,
      "learning_rate": 0.0003,
      "loss": 11.7927,
      "loss/aux_loss": 0.0480969849973917,
      "loss/crossentropy": 2.6972643613815306,
      "loss/logits": 0.8642873585224151,
      "step": 21730
    },
    {
      "epoch": 0.2174,
      "grad_norm": 12.375,
      "grad_norm_var": 0.453369140625,
      "learning_rate": 0.0003,
      "loss": 11.7777,
      "loss/aux_loss": 0.04809529315680265,
      "loss/crossentropy": 2.7677155137062073,
      "loss/logits": 0.8832725346088409,
      "step": 21740
    },
    {
      "epoch": 0.2175,
      "grad_norm": 11.5,
      "grad_norm_var": 0.34739583333333335,
      "learning_rate": 0.0003,
      "loss": 11.9139,
      "loss/aux_loss": 0.048091381415724756,
      "loss/crossentropy": 2.799149090051651,
      "loss/logits": 0.887069022655487,
      "step": 21750
    },
    {
      "epoch": 0.2176,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.17076822916666667,
      "learning_rate": 0.0003,
      "loss": 11.8353,
      "loss/aux_loss": 0.04808845948427916,
      "loss/crossentropy": 3.0753382325172423,
      "loss/logits": 0.945702788233757,
      "step": 21760
    },
    {
      "epoch": 0.2177,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.2087890625,
      "learning_rate": 0.0003,
      "loss": 11.6985,
      "loss/aux_loss": 0.048092255368828773,
      "loss/crossentropy": 2.6490719497203825,
      "loss/logits": 0.8540039539337159,
      "step": 21770
    },
    {
      "epoch": 0.2178,
      "grad_norm": 12.625,
      "grad_norm_var": 0.19583333333333333,
      "learning_rate": 0.0003,
      "loss": 11.8542,
      "loss/aux_loss": 0.048097673989832404,
      "loss/crossentropy": 2.8406033515930176,
      "loss/logits": 0.8934641659259797,
      "step": 21780
    },
    {
      "epoch": 0.2179,
      "grad_norm": 14.25,
      "grad_norm_var": 0.6061848958333333,
      "learning_rate": 0.0003,
      "loss": 11.8071,
      "loss/aux_loss": 0.048086115159094334,
      "loss/crossentropy": 2.8944154620170592,
      "loss/logits": 0.9081297039985656,
      "step": 21790
    },
    {
      "epoch": 0.218,
      "grad_norm": 13.0,
      "grad_norm_var": 14.662955729166667,
      "learning_rate": 0.0003,
      "loss": 11.9785,
      "loss/aux_loss": 0.04810140430927277,
      "loss/crossentropy": 2.7707842707633974,
      "loss/logits": 0.8933016210794449,
      "step": 21800
    },
    {
      "epoch": 0.2181,
      "grad_norm": 12.25,
      "grad_norm_var": 14.276676432291667,
      "learning_rate": 0.0003,
      "loss": 12.1024,
      "loss/aux_loss": 0.04808119479566812,
      "loss/crossentropy": 2.8384734869003294,
      "loss/logits": 0.9208894163370133,
      "step": 21810
    },
    {
      "epoch": 0.2182,
      "grad_norm": 12.625,
      "grad_norm_var": 0.46243489583333336,
      "learning_rate": 0.0003,
      "loss": 11.9,
      "loss/aux_loss": 0.048093420639634135,
      "loss/crossentropy": 2.710639762878418,
      "loss/logits": 0.894580963253975,
      "step": 21820
    },
    {
      "epoch": 0.2183,
      "grad_norm": 12.5,
      "grad_norm_var": 1.1384765625,
      "learning_rate": 0.0003,
      "loss": 11.6904,
      "loss/aux_loss": 0.048085536994040015,
      "loss/crossentropy": 2.621820467710495,
      "loss/logits": 0.8434902101755142,
      "step": 21830
    },
    {
      "epoch": 0.2184,
      "grad_norm": 14.875,
      "grad_norm_var": 24.766910807291666,
      "learning_rate": 0.0003,
      "loss": 11.8784,
      "loss/aux_loss": 0.04809453897178173,
      "loss/crossentropy": 2.8327670872211455,
      "loss/logits": 0.9073660403490067,
      "step": 21840
    },
    {
      "epoch": 0.2185,
      "grad_norm": 13.875,
      "grad_norm_var": 24.213134765625,
      "learning_rate": 0.0003,
      "loss": 11.6735,
      "loss/aux_loss": 0.04809699393808842,
      "loss/crossentropy": 2.730017304420471,
      "loss/logits": 0.9322267979383468,
      "step": 21850
    },
    {
      "epoch": 0.2186,
      "grad_norm": 12.4375,
      "grad_norm_var": 1.146875,
      "learning_rate": 0.0003,
      "loss": 11.6376,
      "loss/aux_loss": 0.04807912241667509,
      "loss/crossentropy": 2.786021035909653,
      "loss/logits": 0.8863259345293045,
      "step": 21860
    },
    {
      "epoch": 0.2187,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.44114583333333335,
      "learning_rate": 0.0003,
      "loss": 11.588,
      "loss/aux_loss": 0.04809343423694372,
      "loss/crossentropy": 2.709645652770996,
      "loss/logits": 0.8401134133338928,
      "step": 21870
    },
    {
      "epoch": 0.2188,
      "grad_norm": 12.5,
      "grad_norm_var": 0.619775390625,
      "learning_rate": 0.0003,
      "loss": 11.6378,
      "loss/aux_loss": 0.048089167289435866,
      "loss/crossentropy": 2.9162204384803774,
      "loss/logits": 0.8603705197572709,
      "step": 21880
    },
    {
      "epoch": 0.2189,
      "grad_norm": 12.125,
      "grad_norm_var": 0.441259765625,
      "learning_rate": 0.0003,
      "loss": 11.8368,
      "loss/aux_loss": 0.048093576729297635,
      "loss/crossentropy": 2.6666926383972167,
      "loss/logits": 0.909285506606102,
      "step": 21890
    },
    {
      "epoch": 0.219,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.28880208333333335,
      "learning_rate": 0.0003,
      "loss": 11.8581,
      "loss/aux_loss": 0.04808791261166334,
      "loss/crossentropy": 2.8666730880737306,
      "loss/logits": 0.9074492365121841,
      "step": 21900
    },
    {
      "epoch": 0.2191,
      "grad_norm": 13.375,
      "grad_norm_var": 0.5520670572916667,
      "learning_rate": 0.0003,
      "loss": 11.7345,
      "loss/aux_loss": 0.04809127487242222,
      "loss/crossentropy": 2.749277150630951,
      "loss/logits": 0.9035682111978531,
      "step": 21910
    },
    {
      "epoch": 0.2192,
      "grad_norm": 12.75,
      "grad_norm_var": 0.36399739583333335,
      "learning_rate": 0.0003,
      "loss": 11.7659,
      "loss/aux_loss": 0.048089764453470706,
      "loss/crossentropy": 2.681344139575958,
      "loss/logits": 0.900179210305214,
      "step": 21920
    },
    {
      "epoch": 0.2193,
      "grad_norm": 11.8125,
      "grad_norm_var": 1.0594889322916667,
      "learning_rate": 0.0003,
      "loss": 11.7378,
      "loss/aux_loss": 0.0481033293530345,
      "loss/crossentropy": 2.6201368153095244,
      "loss/logits": 0.8585344612598419,
      "step": 21930
    },
    {
      "epoch": 0.2194,
      "grad_norm": 13.375,
      "grad_norm_var": 1.4016764322916666,
      "learning_rate": 0.0003,
      "loss": 11.9075,
      "loss/aux_loss": 0.04807730689644814,
      "loss/crossentropy": 2.8310318291187286,
      "loss/logits": 0.9102666884660721,
      "step": 21940
    },
    {
      "epoch": 0.2195,
      "grad_norm": 12.75,
      "grad_norm_var": 0.6691243489583333,
      "learning_rate": 0.0003,
      "loss": 11.6649,
      "loss/aux_loss": 0.048088141903281215,
      "loss/crossentropy": 2.9216031610965727,
      "loss/logits": 0.9007417112588882,
      "step": 21950
    },
    {
      "epoch": 0.2196,
      "grad_norm": 12.0,
      "grad_norm_var": 0.5438639322916666,
      "learning_rate": 0.0003,
      "loss": 11.7617,
      "loss/aux_loss": 0.04808661881834268,
      "loss/crossentropy": 2.839560979604721,
      "loss/logits": 0.8860168516635895,
      "step": 21960
    },
    {
      "epoch": 0.2197,
      "grad_norm": 11.8125,
      "grad_norm_var": 3.3452473958333333,
      "learning_rate": 0.0003,
      "loss": 11.7196,
      "loss/aux_loss": 0.048084485530853274,
      "loss/crossentropy": 2.7600815176963804,
      "loss/logits": 0.880821418762207,
      "step": 21970
    },
    {
      "epoch": 0.2198,
      "grad_norm": 11.5,
      "grad_norm_var": 0.5484375,
      "learning_rate": 0.0003,
      "loss": 11.8505,
      "loss/aux_loss": 0.04809036664664745,
      "loss/crossentropy": 2.9518965005874636,
      "loss/logits": 0.8992276877164841,
      "step": 21980
    },
    {
      "epoch": 0.2199,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.8442057291666667,
      "learning_rate": 0.0003,
      "loss": 11.7163,
      "loss/aux_loss": 0.04808600507676601,
      "loss/crossentropy": 2.7657691895961762,
      "loss/logits": 0.9018583208322525,
      "step": 21990
    },
    {
      "epoch": 0.22,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.9114583333333334,
      "learning_rate": 0.0003,
      "loss": 11.6793,
      "loss/aux_loss": 0.048087524622678755,
      "loss/crossentropy": 2.6612784922122956,
      "loss/logits": 0.8721506536006928,
      "step": 22000
    },
    {
      "epoch": 0.2201,
      "grad_norm": 12.375,
      "grad_norm_var": 0.41848958333333336,
      "learning_rate": 0.0003,
      "loss": 11.9123,
      "loss/aux_loss": 0.04809351172298193,
      "loss/crossentropy": 2.81771005988121,
      "loss/logits": 0.9572886168956757,
      "step": 22010
    },
    {
      "epoch": 0.2202,
      "grad_norm": 12.6875,
      "grad_norm_var": 6.704622395833334,
      "learning_rate": 0.0003,
      "loss": 11.8047,
      "loss/aux_loss": 0.04809220097959042,
      "loss/crossentropy": 2.817577600479126,
      "loss/logits": 0.8661315441131592,
      "step": 22020
    },
    {
      "epoch": 0.2203,
      "grad_norm": 13.125,
      "grad_norm_var": 5.740364583333333,
      "learning_rate": 0.0003,
      "loss": 11.9214,
      "loss/aux_loss": 0.04808165710419417,
      "loss/crossentropy": 2.768628853559494,
      "loss/logits": 0.8950851440429688,
      "step": 22030
    },
    {
      "epoch": 0.2204,
      "grad_norm": 12.3125,
      "grad_norm_var": 22.538785807291667,
      "learning_rate": 0.0003,
      "loss": 11.9163,
      "loss/aux_loss": 0.04808369372040033,
      "loss/crossentropy": 2.7819134533405303,
      "loss/logits": 0.8844695091247559,
      "step": 22040
    },
    {
      "epoch": 0.2205,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.431884765625,
      "learning_rate": 0.0003,
      "loss": 11.7862,
      "loss/aux_loss": 0.048092160001397134,
      "loss/crossentropy": 2.9033903241157533,
      "loss/logits": 0.9348111391067505,
      "step": 22050
    },
    {
      "epoch": 0.2206,
      "grad_norm": 11.875,
      "grad_norm_var": 0.6830729166666667,
      "learning_rate": 0.0003,
      "loss": 11.7504,
      "loss/aux_loss": 0.04808596298098564,
      "loss/crossentropy": 2.782503831386566,
      "loss/logits": 0.8899946212768555,
      "step": 22060
    },
    {
      "epoch": 0.2207,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.4663899739583333,
      "learning_rate": 0.0003,
      "loss": 11.7566,
      "loss/aux_loss": 0.048095478489995,
      "loss/crossentropy": 2.7743342220783234,
      "loss/logits": 0.8939844936132431,
      "step": 22070
    },
    {
      "epoch": 0.2208,
      "grad_norm": 12.375,
      "grad_norm_var": 0.262744140625,
      "learning_rate": 0.0003,
      "loss": 11.8283,
      "loss/aux_loss": 0.04808841645717621,
      "loss/crossentropy": 2.554595720767975,
      "loss/logits": 0.8608134061098098,
      "step": 22080
    },
    {
      "epoch": 0.2209,
      "grad_norm": 12.375,
      "grad_norm_var": 0.2847493489583333,
      "learning_rate": 0.0003,
      "loss": 11.8984,
      "loss/aux_loss": 0.048084456473588943,
      "loss/crossentropy": 2.8617907404899596,
      "loss/logits": 0.9006909459829331,
      "step": 22090
    },
    {
      "epoch": 0.221,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.272509765625,
      "learning_rate": 0.0003,
      "loss": 11.6435,
      "loss/aux_loss": 0.04809146206825972,
      "loss/crossentropy": 2.5811066746711733,
      "loss/logits": 0.8601150065660477,
      "step": 22100
    },
    {
      "epoch": 0.2211,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.3798014322916667,
      "learning_rate": 0.0003,
      "loss": 11.8274,
      "loss/aux_loss": 0.04808408990502357,
      "loss/crossentropy": 2.7892317831516267,
      "loss/logits": 0.905488446354866,
      "step": 22110
    },
    {
      "epoch": 0.2212,
      "grad_norm": 12.5,
      "grad_norm_var": 0.2619140625,
      "learning_rate": 0.0003,
      "loss": 11.6912,
      "loss/aux_loss": 0.048095279932022096,
      "loss/crossentropy": 2.7180880904197693,
      "loss/logits": 0.8672394514083862,
      "step": 22120
    },
    {
      "epoch": 0.2213,
      "grad_norm": 12.375,
      "grad_norm_var": 0.29607747395833334,
      "learning_rate": 0.0003,
      "loss": 11.8284,
      "loss/aux_loss": 0.048083136044442656,
      "loss/crossentropy": 2.751019012928009,
      "loss/logits": 0.8794708341360092,
      "step": 22130
    },
    {
      "epoch": 0.2214,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.1525390625,
      "learning_rate": 0.0003,
      "loss": 11.8437,
      "loss/aux_loss": 0.04808746688067913,
      "loss/crossentropy": 2.961369812488556,
      "loss/logits": 0.8975703865289688,
      "step": 22140
    },
    {
      "epoch": 0.2215,
      "grad_norm": 12.5,
      "grad_norm_var": 0.28045247395833334,
      "learning_rate": 0.0003,
      "loss": 11.7406,
      "loss/aux_loss": 0.04809634368866682,
      "loss/crossentropy": 2.7276877880096437,
      "loss/logits": 0.8959174305200577,
      "step": 22150
    },
    {
      "epoch": 0.2216,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.389697265625,
      "learning_rate": 0.0003,
      "loss": 11.7637,
      "loss/aux_loss": 0.04808992594480514,
      "loss/crossentropy": 2.621533715724945,
      "loss/logits": 0.8763752758502961,
      "step": 22160
    },
    {
      "epoch": 0.2217,
      "grad_norm": 13.5,
      "grad_norm_var": 0.34347330729166664,
      "learning_rate": 0.0003,
      "loss": 11.6706,
      "loss/aux_loss": 0.04809186160564423,
      "loss/crossentropy": 2.7217795610427857,
      "loss/logits": 0.8898161560297012,
      "step": 22170
    },
    {
      "epoch": 0.2218,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.601025390625,
      "learning_rate": 0.0003,
      "loss": 11.6356,
      "loss/aux_loss": 0.04809278640896082,
      "loss/crossentropy": 2.7290789067745207,
      "loss/logits": 0.8597593367099762,
      "step": 22180
    },
    {
      "epoch": 0.2219,
      "grad_norm": 12.375,
      "grad_norm_var": 0.43359375,
      "learning_rate": 0.0003,
      "loss": 11.7534,
      "loss/aux_loss": 0.04809238947927952,
      "loss/crossentropy": 2.707075160741806,
      "loss/logits": 0.8652425140142441,
      "step": 22190
    },
    {
      "epoch": 0.222,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.35885416666666664,
      "learning_rate": 0.0003,
      "loss": 11.6756,
      "loss/aux_loss": 0.04808915685862303,
      "loss/crossentropy": 2.8292889297008514,
      "loss/logits": 0.8936943262815475,
      "step": 22200
    },
    {
      "epoch": 0.2221,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.37180989583333335,
      "learning_rate": 0.0003,
      "loss": 11.825,
      "loss/aux_loss": 0.048080139234662055,
      "loss/crossentropy": 2.70860413312912,
      "loss/logits": 0.8934529781341553,
      "step": 22210
    },
    {
      "epoch": 0.2222,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.28566080729166665,
      "learning_rate": 0.0003,
      "loss": 11.7766,
      "loss/aux_loss": 0.04809638597071171,
      "loss/crossentropy": 2.704670661687851,
      "loss/logits": 0.8709723800420761,
      "step": 22220
    },
    {
      "epoch": 0.2223,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.307666015625,
      "learning_rate": 0.0003,
      "loss": 11.6679,
      "loss/aux_loss": 0.04809023775160313,
      "loss/crossentropy": 2.6749909996986387,
      "loss/logits": 0.9050649791955948,
      "step": 22230
    },
    {
      "epoch": 0.2224,
      "grad_norm": 12.625,
      "grad_norm_var": 0.3921875,
      "learning_rate": 0.0003,
      "loss": 11.7514,
      "loss/aux_loss": 0.04809599500149488,
      "loss/crossentropy": 2.760683298110962,
      "loss/logits": 0.8826134830713273,
      "step": 22240
    },
    {
      "epoch": 0.2225,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.2234375,
      "learning_rate": 0.0003,
      "loss": 11.9613,
      "loss/aux_loss": 0.048089191876351835,
      "loss/crossentropy": 2.767944025993347,
      "loss/logits": 0.8672012895345688,
      "step": 22250
    },
    {
      "epoch": 0.2226,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.4613118489583333,
      "learning_rate": 0.0003,
      "loss": 11.7787,
      "loss/aux_loss": 0.0480911660939455,
      "loss/crossentropy": 2.735838997364044,
      "loss/logits": 0.8864156484603882,
      "step": 22260
    },
    {
      "epoch": 0.2227,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.26223958333333336,
      "learning_rate": 0.0003,
      "loss": 11.7865,
      "loss/aux_loss": 0.04808713924139738,
      "loss/crossentropy": 2.83599910736084,
      "loss/logits": 0.9017521053552627,
      "step": 22270
    },
    {
      "epoch": 0.2228,
      "grad_norm": 10.9375,
      "grad_norm_var": 0.37473958333333335,
      "learning_rate": 0.0003,
      "loss": 11.7516,
      "loss/aux_loss": 0.0480857228860259,
      "loss/crossentropy": 2.830791783332825,
      "loss/logits": 0.9194071799516678,
      "step": 22280
    },
    {
      "epoch": 0.2229,
      "grad_norm": 13.5,
      "grad_norm_var": 0.6660807291666667,
      "learning_rate": 0.0003,
      "loss": 11.8099,
      "loss/aux_loss": 0.04808124005794525,
      "loss/crossentropy": 2.8348045706748963,
      "loss/logits": 0.903641340136528,
      "step": 22290
    },
    {
      "epoch": 0.223,
      "grad_norm": 13.1875,
      "grad_norm_var": 1.6406087239583333,
      "learning_rate": 0.0003,
      "loss": 11.8544,
      "loss/aux_loss": 0.04809259995818138,
      "loss/crossentropy": 2.897055411338806,
      "loss/logits": 0.9287648230791092,
      "step": 22300
    },
    {
      "epoch": 0.2231,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.3203125,
      "learning_rate": 0.0003,
      "loss": 11.7389,
      "loss/aux_loss": 0.048087797872722146,
      "loss/crossentropy": 2.8019288659095762,
      "loss/logits": 0.8725453674793243,
      "step": 22310
    },
    {
      "epoch": 0.2232,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.9932291666666667,
      "learning_rate": 0.0003,
      "loss": 11.8846,
      "loss/aux_loss": 0.048088356666266915,
      "loss/crossentropy": 2.6834902286529543,
      "loss/logits": 0.8782364130020142,
      "step": 22320
    },
    {
      "epoch": 0.2233,
      "grad_norm": 12.4375,
      "grad_norm_var": 1.0511555989583334,
      "learning_rate": 0.0003,
      "loss": 11.7531,
      "loss/aux_loss": 0.048094474151730536,
      "loss/crossentropy": 2.6937114894390106,
      "loss/logits": 0.8777317255735397,
      "step": 22330
    },
    {
      "epoch": 0.2234,
      "grad_norm": 13.0,
      "grad_norm_var": 0.5492024739583333,
      "learning_rate": 0.0003,
      "loss": 11.6566,
      "loss/aux_loss": 0.048084880039095876,
      "loss/crossentropy": 2.72471564412117,
      "loss/logits": 0.8733905553817749,
      "step": 22340
    },
    {
      "epoch": 0.2235,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.867431640625,
      "learning_rate": 0.0003,
      "loss": 11.6595,
      "loss/aux_loss": 0.048089952766895296,
      "loss/crossentropy": 2.840152883529663,
      "loss/logits": 0.9174001008272171,
      "step": 22350
    },
    {
      "epoch": 0.2236,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.560400390625,
      "learning_rate": 0.0003,
      "loss": 11.7196,
      "loss/aux_loss": 0.0480857165530324,
      "loss/crossentropy": 2.8605542302131655,
      "loss/logits": 0.9183370441198349,
      "step": 22360
    },
    {
      "epoch": 0.2237,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.40740559895833334,
      "learning_rate": 0.0003,
      "loss": 11.7638,
      "loss/aux_loss": 0.048090421594679356,
      "loss/crossentropy": 2.639111566543579,
      "loss/logits": 0.8860017955303192,
      "step": 22370
    },
    {
      "epoch": 0.2238,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.20128580729166667,
      "learning_rate": 0.0003,
      "loss": 11.9126,
      "loss/aux_loss": 0.04809177350252867,
      "loss/crossentropy": 2.785674238204956,
      "loss/logits": 0.8810646086931229,
      "step": 22380
    },
    {
      "epoch": 0.2239,
      "grad_norm": 12.5,
      "grad_norm_var": 0.218603515625,
      "learning_rate": 0.0003,
      "loss": 11.6681,
      "loss/aux_loss": 0.048096783272922036,
      "loss/crossentropy": 2.7202962040901184,
      "loss/logits": 0.8531753093004226,
      "step": 22390
    },
    {
      "epoch": 0.224,
      "grad_norm": 13.4375,
      "grad_norm_var": 2.6541015625,
      "learning_rate": 0.0003,
      "loss": 11.9144,
      "loss/aux_loss": 0.0480857115238905,
      "loss/crossentropy": 2.794497346878052,
      "loss/logits": 0.8948001682758331,
      "step": 22400
    },
    {
      "epoch": 0.2241,
      "grad_norm": 16.75,
      "grad_norm_var": 3.6030598958333333,
      "learning_rate": 0.0003,
      "loss": 11.7171,
      "loss/aux_loss": 0.04808383211493492,
      "loss/crossentropy": 2.809972804784775,
      "loss/logits": 0.9038825124502182,
      "step": 22410
    },
    {
      "epoch": 0.2242,
      "grad_norm": 13.25,
      "grad_norm_var": 1.80625,
      "learning_rate": 0.0003,
      "loss": 11.4694,
      "loss/aux_loss": 0.04809340089559555,
      "loss/crossentropy": 2.78351212143898,
      "loss/logits": 0.8861901849508286,
      "step": 22420
    },
    {
      "epoch": 0.2243,
      "grad_norm": 12.125,
      "grad_norm_var": 0.8671223958333333,
      "learning_rate": 0.0003,
      "loss": 11.6393,
      "loss/aux_loss": 0.04809296205639839,
      "loss/crossentropy": 2.749815273284912,
      "loss/logits": 0.9010616183280945,
      "step": 22430
    },
    {
      "epoch": 0.2244,
      "grad_norm": 12.0,
      "grad_norm_var": 9.208837890625,
      "learning_rate": 0.0003,
      "loss": 11.7555,
      "loss/aux_loss": 0.04808775205165148,
      "loss/crossentropy": 2.968637430667877,
      "loss/logits": 0.9231620490550995,
      "step": 22440
    },
    {
      "epoch": 0.2245,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.4400390625,
      "learning_rate": 0.0003,
      "loss": 11.6987,
      "loss/aux_loss": 0.0480935113504529,
      "loss/crossentropy": 2.851404082775116,
      "loss/logits": 0.897919625043869,
      "step": 22450
    },
    {
      "epoch": 0.2246,
      "grad_norm": 11.875,
      "grad_norm_var": 0.2806640625,
      "learning_rate": 0.0003,
      "loss": 11.7398,
      "loss/aux_loss": 0.04809074774384499,
      "loss/crossentropy": 2.65076659321785,
      "loss/logits": 0.8881769001483917,
      "step": 22460
    },
    {
      "epoch": 0.2247,
      "grad_norm": 12.0625,
      "grad_norm_var": 1.1931640625,
      "learning_rate": 0.0003,
      "loss": 11.6777,
      "loss/aux_loss": 0.04809971358627081,
      "loss/crossentropy": 2.645810514688492,
      "loss/logits": 0.8362853050231933,
      "step": 22470
    },
    {
      "epoch": 0.2248,
      "grad_norm": 14.8125,
      "grad_norm_var": 103.21354166666667,
      "learning_rate": 0.0003,
      "loss": 11.8468,
      "loss/aux_loss": 0.048092149384319785,
      "loss/crossentropy": 2.8907059490680695,
      "loss/logits": 0.8786774843931198,
      "step": 22480
    },
    {
      "epoch": 0.2249,
      "grad_norm": 13.0625,
      "grad_norm_var": 100.78019205729167,
      "learning_rate": 0.0003,
      "loss": 11.7205,
      "loss/aux_loss": 0.04809787534177303,
      "loss/crossentropy": 2.716031605005264,
      "loss/logits": 0.8944111734628677,
      "step": 22490
    },
    {
      "epoch": 0.225,
      "grad_norm": 13.75,
      "grad_norm_var": 1.50625,
      "learning_rate": 0.0003,
      "loss": 11.6669,
      "loss/aux_loss": 0.048082894459366796,
      "loss/crossentropy": 2.7395161747932435,
      "loss/logits": 0.8643982857465744,
      "step": 22500
    },
    {
      "epoch": 0.2251,
      "grad_norm": 12.375,
      "grad_norm_var": 1.5290201822916667,
      "learning_rate": 0.0003,
      "loss": 11.5853,
      "loss/aux_loss": 0.04808229207992554,
      "loss/crossentropy": 2.7536255359649657,
      "loss/logits": 0.881432518362999,
      "step": 22510
    },
    {
      "epoch": 0.2252,
      "grad_norm": 11.625,
      "grad_norm_var": 0.448681640625,
      "learning_rate": 0.0003,
      "loss": 11.7597,
      "loss/aux_loss": 0.04810373391956091,
      "loss/crossentropy": 2.747165524959564,
      "loss/logits": 0.8833198219537735,
      "step": 22520
    },
    {
      "epoch": 0.2253,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.46432291666666664,
      "learning_rate": 0.0003,
      "loss": 11.8328,
      "loss/aux_loss": 0.04809314012527466,
      "loss/crossentropy": 2.67395840883255,
      "loss/logits": 0.9117985635995864,
      "step": 22530
    },
    {
      "epoch": 0.2254,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.15987955729166667,
      "learning_rate": 0.0003,
      "loss": 11.6949,
      "loss/aux_loss": 0.04808804150670767,
      "loss/crossentropy": 2.7599778056144713,
      "loss/logits": 0.8923967123031616,
      "step": 22540
    },
    {
      "epoch": 0.2255,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.5255045572916667,
      "learning_rate": 0.0003,
      "loss": 11.6803,
      "loss/aux_loss": 0.0480937123298645,
      "loss/crossentropy": 2.731845957040787,
      "loss/logits": 0.9252343803644181,
      "step": 22550
    },
    {
      "epoch": 0.2256,
      "grad_norm": 13.125,
      "grad_norm_var": 0.7700520833333333,
      "learning_rate": 0.0003,
      "loss": 11.8578,
      "loss/aux_loss": 0.04808880146592855,
      "loss/crossentropy": 2.9239902973175047,
      "loss/logits": 0.8844455033540726,
      "step": 22560
    },
    {
      "epoch": 0.2257,
      "grad_norm": 11.625,
      "grad_norm_var": 1.0207682291666667,
      "learning_rate": 0.0003,
      "loss": 11.7067,
      "loss/aux_loss": 0.04809002634137869,
      "loss/crossentropy": 2.89136780500412,
      "loss/logits": 0.9194484144449234,
      "step": 22570
    },
    {
      "epoch": 0.2258,
      "grad_norm": 12.0625,
      "grad_norm_var": 1.0624348958333334,
      "learning_rate": 0.0003,
      "loss": 11.5666,
      "loss/aux_loss": 0.048089371994137764,
      "loss/crossentropy": 2.775197160243988,
      "loss/logits": 0.8997502565383911,
      "step": 22580
    },
    {
      "epoch": 0.2259,
      "grad_norm": 11.9375,
      "grad_norm_var": 2.983056640625,
      "learning_rate": 0.0003,
      "loss": 11.7513,
      "loss/aux_loss": 0.04809422306716442,
      "loss/crossentropy": 2.7966256499290467,
      "loss/logits": 0.8797528147697449,
      "step": 22590
    },
    {
      "epoch": 0.226,
      "grad_norm": 11.6875,
      "grad_norm_var": 1.4276041666666666,
      "learning_rate": 0.0003,
      "loss": 11.6478,
      "loss/aux_loss": 0.048089210875332355,
      "loss/crossentropy": 2.7377444982528685,
      "loss/logits": 0.9153787553310394,
      "step": 22600
    },
    {
      "epoch": 0.2261,
      "grad_norm": 14.75,
      "grad_norm_var": 0.5952962239583334,
      "learning_rate": 0.0003,
      "loss": 11.7362,
      "loss/aux_loss": 0.0480865390971303,
      "loss/crossentropy": 2.7379279255867006,
      "loss/logits": 0.8918594628572464,
      "step": 22610
    },
    {
      "epoch": 0.2262,
      "grad_norm": 14.25,
      "grad_norm_var": 2.0085774739583333,
      "learning_rate": 0.0003,
      "loss": 11.7772,
      "loss/aux_loss": 0.048102805577218535,
      "loss/crossentropy": 2.7676973700523377,
      "loss/logits": 0.9144205540418625,
      "step": 22620
    },
    {
      "epoch": 0.2263,
      "grad_norm": 11.625,
      "grad_norm_var": 0.8378743489583333,
      "learning_rate": 0.0003,
      "loss": 11.7351,
      "loss/aux_loss": 0.04808990322053432,
      "loss/crossentropy": 2.763928699493408,
      "loss/logits": 0.9580153465270996,
      "step": 22630
    },
    {
      "epoch": 0.2264,
      "grad_norm": 11.875,
      "grad_norm_var": 0.2749837239583333,
      "learning_rate": 0.0003,
      "loss": 11.7633,
      "loss/aux_loss": 0.04808971676975489,
      "loss/crossentropy": 2.798508107662201,
      "loss/logits": 0.9377011686563492,
      "step": 22640
    },
    {
      "epoch": 0.2265,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.5379557291666667,
      "learning_rate": 0.0003,
      "loss": 11.6478,
      "loss/aux_loss": 0.04807438086718321,
      "loss/crossentropy": 2.628761428594589,
      "loss/logits": 0.901868748664856,
      "step": 22650
    },
    {
      "epoch": 0.2266,
      "grad_norm": 11.625,
      "grad_norm_var": 0.8390462239583333,
      "learning_rate": 0.0003,
      "loss": 11.7954,
      "loss/aux_loss": 0.04809013176709413,
      "loss/crossentropy": 2.828604358434677,
      "loss/logits": 0.9256632804870606,
      "step": 22660
    },
    {
      "epoch": 0.2267,
      "grad_norm": 12.625,
      "grad_norm_var": 0.5305826822916667,
      "learning_rate": 0.0003,
      "loss": 11.6155,
      "loss/aux_loss": 0.048091720603406427,
      "loss/crossentropy": 2.6923003435134887,
      "loss/logits": 0.9034017592668533,
      "step": 22670
    },
    {
      "epoch": 0.2268,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.2908854166666667,
      "learning_rate": 0.0003,
      "loss": 11.7298,
      "loss/aux_loss": 0.04808386079967022,
      "loss/crossentropy": 2.871219742298126,
      "loss/logits": 0.9219763696193695,
      "step": 22680
    },
    {
      "epoch": 0.2269,
      "grad_norm": 12.375,
      "grad_norm_var": 0.4014973958333333,
      "learning_rate": 0.0003,
      "loss": 11.6765,
      "loss/aux_loss": 0.048084440641105175,
      "loss/crossentropy": 2.6931581676006315,
      "loss/logits": 0.8805693238973618,
      "step": 22690
    },
    {
      "epoch": 0.227,
      "grad_norm": 13.6875,
      "grad_norm_var": 1.3969889322916667,
      "learning_rate": 0.0003,
      "loss": 11.7598,
      "loss/aux_loss": 0.04809512868523598,
      "loss/crossentropy": 2.6413376092910767,
      "loss/logits": 0.8963235735893249,
      "step": 22700
    },
    {
      "epoch": 0.2271,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.39296875,
      "learning_rate": 0.0003,
      "loss": 11.8279,
      "loss/aux_loss": 0.04809400998055935,
      "loss/crossentropy": 2.791292655467987,
      "loss/logits": 0.8894282549619674,
      "step": 22710
    },
    {
      "epoch": 0.2272,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.3333333333333333,
      "learning_rate": 0.0003,
      "loss": 11.8071,
      "loss/aux_loss": 0.048091070353984834,
      "loss/crossentropy": 2.6207732558250427,
      "loss/logits": 0.8468140810728073,
      "step": 22720
    },
    {
      "epoch": 0.2273,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.35128580729166664,
      "learning_rate": 0.0003,
      "loss": 11.6102,
      "loss/aux_loss": 0.04808534793555737,
      "loss/crossentropy": 2.6754838645458223,
      "loss/logits": 0.9055883139371872,
      "step": 22730
    },
    {
      "epoch": 0.2274,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.44217122395833336,
      "learning_rate": 0.0003,
      "loss": 11.5479,
      "loss/aux_loss": 0.04807910211384296,
      "loss/crossentropy": 2.8112324655056,
      "loss/logits": 0.8994197815656662,
      "step": 22740
    },
    {
      "epoch": 0.2275,
      "grad_norm": 13.75,
      "grad_norm_var": 192.89264322916668,
      "learning_rate": 0.0003,
      "loss": 11.6927,
      "loss/aux_loss": 0.04809170123189688,
      "loss/crossentropy": 2.8299485445022583,
      "loss/logits": 0.8875698268413543,
      "step": 22750
    },
    {
      "epoch": 0.2276,
      "grad_norm": 13.125,
      "grad_norm_var": 1.995947265625,
      "learning_rate": 0.0003,
      "loss": 11.9368,
      "loss/aux_loss": 0.04808708317577839,
      "loss/crossentropy": 2.8931700348854066,
      "loss/logits": 0.9314892888069153,
      "step": 22760
    },
    {
      "epoch": 0.2277,
      "grad_norm": 13.5,
      "grad_norm_var": 0.3824055989583333,
      "learning_rate": 0.0003,
      "loss": 11.7043,
      "loss/aux_loss": 0.048081159219145776,
      "loss/crossentropy": 2.8375320076942443,
      "loss/logits": 0.8928394854068756,
      "step": 22770
    },
    {
      "epoch": 0.2278,
      "grad_norm": 13.5,
      "grad_norm_var": 0.5559895833333334,
      "learning_rate": 0.0003,
      "loss": 11.6841,
      "loss/aux_loss": 0.048088202998042104,
      "loss/crossentropy": 2.8470484018325806,
      "loss/logits": 0.8978864282369614,
      "step": 22780
    },
    {
      "epoch": 0.2279,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.7514973958333333,
      "learning_rate": 0.0003,
      "loss": 11.7581,
      "loss/aux_loss": 0.048088363744318484,
      "loss/crossentropy": 2.70345995426178,
      "loss/logits": 0.8970031559467315,
      "step": 22790
    },
    {
      "epoch": 0.228,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.5981770833333333,
      "learning_rate": 0.0003,
      "loss": 11.7236,
      "loss/aux_loss": 0.048087395168840884,
      "loss/crossentropy": 2.7649930655956267,
      "loss/logits": 0.877352437376976,
      "step": 22800
    },
    {
      "epoch": 0.2281,
      "grad_norm": 12.5,
      "grad_norm_var": 0.2879557291666667,
      "learning_rate": 0.0003,
      "loss": 11.7192,
      "loss/aux_loss": 0.048083343915641306,
      "loss/crossentropy": 2.756735974550247,
      "loss/logits": 0.8518844783306122,
      "step": 22810
    },
    {
      "epoch": 0.2282,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.23995768229166667,
      "learning_rate": 0.0003,
      "loss": 11.7118,
      "loss/aux_loss": 0.04808799996972084,
      "loss/crossentropy": 2.756363260746002,
      "loss/logits": 0.907541635632515,
      "step": 22820
    },
    {
      "epoch": 0.2283,
      "grad_norm": 13.25,
      "grad_norm_var": 33.850244140625,
      "learning_rate": 0.0003,
      "loss": 11.7879,
      "loss/aux_loss": 0.04809822123497724,
      "loss/crossentropy": 2.733557677268982,
      "loss/logits": 0.896966302394867,
      "step": 22830
    },
    {
      "epoch": 0.2284,
      "grad_norm": 12.25,
      "grad_norm_var": 32.6337890625,
      "learning_rate": 0.0003,
      "loss": 11.7543,
      "loss/aux_loss": 0.0481018140912056,
      "loss/crossentropy": 2.759879392385483,
      "loss/logits": 0.8836588621139526,
      "step": 22840
    },
    {
      "epoch": 0.2285,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.12433268229166666,
      "learning_rate": 0.0003,
      "loss": 11.7755,
      "loss/aux_loss": 0.04808047190308571,
      "loss/crossentropy": 2.8531015515327454,
      "loss/logits": 0.9062738597393036,
      "step": 22850
    },
    {
      "epoch": 0.2286,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.10519205729166667,
      "learning_rate": 0.0003,
      "loss": 11.682,
      "loss/aux_loss": 0.04810410905629396,
      "loss/crossentropy": 2.9115795135498046,
      "loss/logits": 0.9097014546394349,
      "step": 22860
    },
    {
      "epoch": 0.2287,
      "grad_norm": 13.1875,
      "grad_norm_var": 2.2611979166666667,
      "learning_rate": 0.0003,
      "loss": 11.6901,
      "loss/aux_loss": 0.048095389269292355,
      "loss/crossentropy": 2.8267542123794556,
      "loss/logits": 0.9044133692979812,
      "step": 22870
    },
    {
      "epoch": 0.2288,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.6259765625,
      "learning_rate": 0.0003,
      "loss": 11.541,
      "loss/aux_loss": 0.04808672312647104,
      "loss/crossentropy": 2.6773048043251038,
      "loss/logits": 0.876294469833374,
      "step": 22880
    },
    {
      "epoch": 0.2289,
      "grad_norm": 12.5,
      "grad_norm_var": 0.6655598958333333,
      "learning_rate": 0.0003,
      "loss": 11.7934,
      "loss/aux_loss": 0.04808298200368881,
      "loss/crossentropy": 2.837724781036377,
      "loss/logits": 0.9370515316724777,
      "step": 22890
    },
    {
      "epoch": 0.229,
      "grad_norm": 11.875,
      "grad_norm_var": 0.620556640625,
      "learning_rate": 0.0003,
      "loss": 11.8536,
      "loss/aux_loss": 0.04808994997292757,
      "loss/crossentropy": 2.795435976982117,
      "loss/logits": 0.8800392180681229,
      "step": 22900
    },
    {
      "epoch": 0.2291,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.425634765625,
      "learning_rate": 0.0003,
      "loss": 11.5746,
      "loss/aux_loss": 0.04808636344969273,
      "loss/crossentropy": 2.9793556809425352,
      "loss/logits": 0.86444131731987,
      "step": 22910
    },
    {
      "epoch": 0.2292,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.29375,
      "learning_rate": 0.0003,
      "loss": 11.7719,
      "loss/aux_loss": 0.048105028085410596,
      "loss/crossentropy": 2.7319081902503966,
      "loss/logits": 0.8803468406200409,
      "step": 22920
    },
    {
      "epoch": 0.2293,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.30441080729166664,
      "learning_rate": 0.0003,
      "loss": 11.8234,
      "loss/aux_loss": 0.04808462020009756,
      "loss/crossentropy": 2.821427547931671,
      "loss/logits": 0.8934536874294281,
      "step": 22930
    },
    {
      "epoch": 0.2294,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.47537434895833336,
      "learning_rate": 0.0003,
      "loss": 11.7563,
      "loss/aux_loss": 0.048085405677556994,
      "loss/crossentropy": 2.751129651069641,
      "loss/logits": 0.9135142832994461,
      "step": 22940
    },
    {
      "epoch": 0.2295,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.386181640625,
      "learning_rate": 0.0003,
      "loss": 11.6328,
      "loss/aux_loss": 0.04809577204287052,
      "loss/crossentropy": 2.6600105464458466,
      "loss/logits": 0.8954817146062851,
      "step": 22950
    },
    {
      "epoch": 0.2296,
      "grad_norm": 12.25,
      "grad_norm_var": 0.460400390625,
      "learning_rate": 0.0003,
      "loss": 11.9641,
      "loss/aux_loss": 0.04808154255151749,
      "loss/crossentropy": 2.909790873527527,
      "loss/logits": 0.9102999448776246,
      "step": 22960
    },
    {
      "epoch": 0.2297,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.38483072916666666,
      "learning_rate": 0.0003,
      "loss": 11.5812,
      "loss/aux_loss": 0.04809312988072634,
      "loss/crossentropy": 2.7076492428779604,
      "loss/logits": 0.8611445337533951,
      "step": 22970
    },
    {
      "epoch": 0.2298,
      "grad_norm": 12.625,
      "grad_norm_var": 1.0254557291666666,
      "learning_rate": 0.0003,
      "loss": 11.8651,
      "loss/aux_loss": 0.0480959540233016,
      "loss/crossentropy": 2.900135505199432,
      "loss/logits": 0.8992374151945114,
      "step": 22980
    },
    {
      "epoch": 0.2299,
      "grad_norm": 11.5,
      "grad_norm_var": 1.0036458333333333,
      "learning_rate": 0.0003,
      "loss": 11.787,
      "loss/aux_loss": 0.0480839628726244,
      "loss/crossentropy": 2.7226045966148376,
      "loss/logits": 0.9184604525566101,
      "step": 22990
    },
    {
      "epoch": 0.23,
      "grad_norm": 12.625,
      "grad_norm_var": 0.5655598958333333,
      "learning_rate": 0.0003,
      "loss": 11.6746,
      "loss/aux_loss": 0.0480868011713028,
      "loss/crossentropy": 2.7485710740089417,
      "loss/logits": 0.8804697394371033,
      "step": 23000
    },
    {
      "epoch": 0.2301,
      "grad_norm": 12.75,
      "grad_norm_var": 0.434228515625,
      "learning_rate": 0.0003,
      "loss": 11.6392,
      "loss/aux_loss": 0.04808677285909653,
      "loss/crossentropy": 2.898291528224945,
      "loss/logits": 0.8929012924432754,
      "step": 23010
    },
    {
      "epoch": 0.2302,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.2840983072916667,
      "learning_rate": 0.0003,
      "loss": 11.7874,
      "loss/aux_loss": 0.04808888360857964,
      "loss/crossentropy": 2.7599457263946534,
      "loss/logits": 0.9127897024154663,
      "step": 23020
    },
    {
      "epoch": 0.2303,
      "grad_norm": 12.625,
      "grad_norm_var": 0.23567708333333334,
      "learning_rate": 0.0003,
      "loss": 11.8279,
      "loss/aux_loss": 0.04809257406741381,
      "loss/crossentropy": 2.8466604590415954,
      "loss/logits": 0.9271048754453659,
      "step": 23030
    },
    {
      "epoch": 0.2304,
      "grad_norm": 12.375,
      "grad_norm_var": 0.42942708333333335,
      "learning_rate": 0.0003,
      "loss": 11.5945,
      "loss/aux_loss": 0.04807973112910986,
      "loss/crossentropy": 2.6964468479156496,
      "loss/logits": 0.8535116940736771,
      "step": 23040
    },
    {
      "epoch": 0.2305,
      "grad_norm": 12.5,
      "grad_norm_var": 0.4483723958333333,
      "learning_rate": 0.0003,
      "loss": 11.7818,
      "loss/aux_loss": 0.04808500371873379,
      "loss/crossentropy": 2.773308277130127,
      "loss/logits": 0.8800354272127151,
      "step": 23050
    },
    {
      "epoch": 0.2306,
      "grad_norm": 13.0,
      "grad_norm_var": 0.8705729166666667,
      "learning_rate": 0.0003,
      "loss": 11.7319,
      "loss/aux_loss": 0.04808144625276327,
      "loss/crossentropy": 2.7295325756073,
      "loss/logits": 0.9066801935434341,
      "step": 23060
    },
    {
      "epoch": 0.2307,
      "grad_norm": 12.375,
      "grad_norm_var": 0.8344889322916667,
      "learning_rate": 0.0003,
      "loss": 11.7069,
      "loss/aux_loss": 0.048089582659304145,
      "loss/crossentropy": 2.673926168680191,
      "loss/logits": 0.8846386224031448,
      "step": 23070
    },
    {
      "epoch": 0.2308,
      "grad_norm": 12.75,
      "grad_norm_var": 0.4093098958333333,
      "learning_rate": 0.0003,
      "loss": 11.6815,
      "loss/aux_loss": 0.048079993948340415,
      "loss/crossentropy": 2.838780736923218,
      "loss/logits": 0.8946847975254059,
      "step": 23080
    },
    {
      "epoch": 0.2309,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.2999348958333333,
      "learning_rate": 0.0003,
      "loss": 11.76,
      "loss/aux_loss": 0.04808596204966307,
      "loss/crossentropy": 2.7160808563232424,
      "loss/logits": 0.9145932257175445,
      "step": 23090
    },
    {
      "epoch": 0.231,
      "grad_norm": 11.75,
      "grad_norm_var": 0.32493489583333335,
      "learning_rate": 0.0003,
      "loss": 11.6019,
      "loss/aux_loss": 0.04809281267225742,
      "loss/crossentropy": 2.861774879693985,
      "loss/logits": 0.8780633181333541,
      "step": 23100
    },
    {
      "epoch": 0.2311,
      "grad_norm": 11.875,
      "grad_norm_var": 0.43802083333333336,
      "learning_rate": 0.0003,
      "loss": 11.8316,
      "loss/aux_loss": 0.04808343816548586,
      "loss/crossentropy": 2.7952277660369873,
      "loss/logits": 0.9055339187383652,
      "step": 23110
    },
    {
      "epoch": 0.2312,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.670947265625,
      "learning_rate": 0.0003,
      "loss": 11.8885,
      "loss/aux_loss": 0.048087695986032485,
      "loss/crossentropy": 2.7752737283706663,
      "loss/logits": 0.9146613448858261,
      "step": 23120
    },
    {
      "epoch": 0.2313,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.6710774739583333,
      "learning_rate": 0.0003,
      "loss": 11.7875,
      "loss/aux_loss": 0.04809215571731329,
      "loss/crossentropy": 2.8519309163093567,
      "loss/logits": 0.9128359079360961,
      "step": 23130
    },
    {
      "epoch": 0.2314,
      "grad_norm": 13.25,
      "grad_norm_var": 0.5870930989583333,
      "learning_rate": 0.0003,
      "loss": 11.5688,
      "loss/aux_loss": 0.04807926807552576,
      "loss/crossentropy": 2.764670741558075,
      "loss/logits": 0.9091036021709442,
      "step": 23140
    },
    {
      "epoch": 0.2315,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.349072265625,
      "learning_rate": 0.0003,
      "loss": 11.7851,
      "loss/aux_loss": 0.04807650428265333,
      "loss/crossentropy": 2.707452893257141,
      "loss/logits": 0.894105252623558,
      "step": 23150
    },
    {
      "epoch": 0.2316,
      "grad_norm": 13.0625,
      "grad_norm_var": 133.3056640625,
      "learning_rate": 0.0003,
      "loss": 11.6686,
      "loss/aux_loss": 0.04811877477914095,
      "loss/crossentropy": 2.869442331790924,
      "loss/logits": 0.8912162572145462,
      "step": 23160
    },
    {
      "epoch": 0.2317,
      "grad_norm": 12.6875,
      "grad_norm_var": 131.73795572916666,
      "learning_rate": 0.0003,
      "loss": 11.8418,
      "loss/aux_loss": 0.0480883814394474,
      "loss/crossentropy": 2.8353028416633608,
      "loss/logits": 0.9513318210840225,
      "step": 23170
    },
    {
      "epoch": 0.2318,
      "grad_norm": 12.75,
      "grad_norm_var": 2.652718098958333,
      "learning_rate": 0.0003,
      "loss": 11.6498,
      "loss/aux_loss": 0.0480922332033515,
      "loss/crossentropy": 2.7743508577346803,
      "loss/logits": 0.9048791795969009,
      "step": 23180
    },
    {
      "epoch": 0.2319,
      "grad_norm": 12.125,
      "grad_norm_var": 2.579931640625,
      "learning_rate": 0.0003,
      "loss": 11.5636,
      "loss/aux_loss": 0.04809550289064646,
      "loss/crossentropy": 2.796035075187683,
      "loss/logits": 0.8494812101125717,
      "step": 23190
    },
    {
      "epoch": 0.232,
      "grad_norm": 13.5,
      "grad_norm_var": 0.26764322916666666,
      "learning_rate": 0.0003,
      "loss": 11.8704,
      "loss/aux_loss": 0.048094166442751884,
      "loss/crossentropy": 2.6794604539871214,
      "loss/logits": 0.9145378708839417,
      "step": 23200
    },
    {
      "epoch": 0.2321,
      "grad_norm": 13.125,
      "grad_norm_var": 0.4744791666666667,
      "learning_rate": 0.0003,
      "loss": 11.7678,
      "loss/aux_loss": 0.04808245878666639,
      "loss/crossentropy": 2.75232680439949,
      "loss/logits": 0.8650152295827865,
      "step": 23210
    },
    {
      "epoch": 0.2322,
      "grad_norm": 11.625,
      "grad_norm_var": 0.46243489583333336,
      "learning_rate": 0.0003,
      "loss": 11.6645,
      "loss/aux_loss": 0.04808831550180912,
      "loss/crossentropy": 2.7722482800483705,
      "loss/logits": 0.8622186064720154,
      "step": 23220
    },
    {
      "epoch": 0.2323,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.834619140625,
      "learning_rate": 0.0003,
      "loss": 11.7358,
      "loss/aux_loss": 0.04809358511120081,
      "loss/crossentropy": 2.8247627317905426,
      "loss/logits": 0.8922833681106568,
      "step": 23230
    },
    {
      "epoch": 0.2324,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.651806640625,
      "learning_rate": 0.0003,
      "loss": 11.6687,
      "loss/aux_loss": 0.048091284930706024,
      "loss/crossentropy": 2.7717152774333953,
      "loss/logits": 0.8566128462553024,
      "step": 23240
    },
    {
      "epoch": 0.2325,
      "grad_norm": 12.25,
      "grad_norm_var": 0.3120930989583333,
      "learning_rate": 0.0003,
      "loss": 11.6438,
      "loss/aux_loss": 0.04808084759861231,
      "loss/crossentropy": 2.743647050857544,
      "loss/logits": 0.8860394328832626,
      "step": 23250
    },
    {
      "epoch": 0.2326,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.2906087239583333,
      "learning_rate": 0.0003,
      "loss": 11.7391,
      "loss/aux_loss": 0.04808401893824339,
      "loss/crossentropy": 2.8058079719543456,
      "loss/logits": 0.9324862480163574,
      "step": 23260
    },
    {
      "epoch": 0.2327,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.28878580729166664,
      "learning_rate": 0.0003,
      "loss": 11.6006,
      "loss/aux_loss": 0.04809973333030939,
      "loss/crossentropy": 2.797436898946762,
      "loss/logits": 0.8818973273038864,
      "step": 23270
    },
    {
      "epoch": 0.2328,
      "grad_norm": 12.375,
      "grad_norm_var": 0.17237955729166668,
      "learning_rate": 0.0003,
      "loss": 11.6795,
      "loss/aux_loss": 0.04809030685573816,
      "loss/crossentropy": 2.8836780309677126,
      "loss/logits": 0.9173092126846314,
      "step": 23280
    },
    {
      "epoch": 0.2329,
      "grad_norm": 12.125,
      "grad_norm_var": 0.27786458333333336,
      "learning_rate": 0.0003,
      "loss": 11.6142,
      "loss/aux_loss": 0.04809027072042227,
      "loss/crossentropy": 2.829053020477295,
      "loss/logits": 0.8915682911872864,
      "step": 23290
    },
    {
      "epoch": 0.233,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.172509765625,
      "learning_rate": 0.0003,
      "loss": 11.7196,
      "loss/aux_loss": 0.04808690585196018,
      "loss/crossentropy": 2.793965721130371,
      "loss/logits": 0.8819243282079696,
      "step": 23300
    },
    {
      "epoch": 0.2331,
      "grad_norm": 11.625,
      "grad_norm_var": 0.4320149739583333,
      "learning_rate": 0.0003,
      "loss": 11.7091,
      "loss/aux_loss": 0.04808926545083523,
      "loss/crossentropy": 2.5778140842914583,
      "loss/logits": 0.8577252298593521,
      "step": 23310
    },
    {
      "epoch": 0.2332,
      "grad_norm": 13.375,
      "grad_norm_var": 0.718212890625,
      "learning_rate": 0.0003,
      "loss": 11.8099,
      "loss/aux_loss": 0.04810008257627487,
      "loss/crossentropy": 2.9423258543014525,
      "loss/logits": 0.9043860971927643,
      "step": 23320
    },
    {
      "epoch": 0.2333,
      "grad_norm": 13.0,
      "grad_norm_var": 0.8684895833333334,
      "learning_rate": 0.0003,
      "loss": 11.5931,
      "loss/aux_loss": 0.04809061642736197,
      "loss/crossentropy": 2.75088050365448,
      "loss/logits": 0.8834013044834137,
      "step": 23330
    },
    {
      "epoch": 0.2334,
      "grad_norm": 12.375,
      "grad_norm_var": 0.7817057291666667,
      "learning_rate": 0.0003,
      "loss": 11.6771,
      "loss/aux_loss": 0.0480886397883296,
      "loss/crossentropy": 2.788175332546234,
      "loss/logits": 0.9197595477104187,
      "step": 23340
    },
    {
      "epoch": 0.2335,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.45305989583333334,
      "learning_rate": 0.0003,
      "loss": 11.807,
      "loss/aux_loss": 0.04809667635709047,
      "loss/crossentropy": 2.8132767200469972,
      "loss/logits": 0.8944458961486816,
      "step": 23350
    },
    {
      "epoch": 0.2336,
      "grad_norm": 11.625,
      "grad_norm_var": 0.40729166666666666,
      "learning_rate": 0.0003,
      "loss": 11.7539,
      "loss/aux_loss": 0.0480756500735879,
      "loss/crossentropy": 2.86536762714386,
      "loss/logits": 0.876064345240593,
      "step": 23360
    },
    {
      "epoch": 0.2337,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.5337076822916667,
      "learning_rate": 0.0003,
      "loss": 11.6954,
      "loss/aux_loss": 0.048088740557432175,
      "loss/crossentropy": 2.861802363395691,
      "loss/logits": 0.8744904607534408,
      "step": 23370
    },
    {
      "epoch": 0.2338,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.4778645833333333,
      "learning_rate": 0.0003,
      "loss": 11.7553,
      "loss/aux_loss": 0.0480877548456192,
      "loss/crossentropy": 2.8678762316703796,
      "loss/logits": 0.9301058530807496,
      "step": 23380
    },
    {
      "epoch": 0.2339,
      "grad_norm": 12.625,
      "grad_norm_var": 0.28899739583333334,
      "learning_rate": 0.0003,
      "loss": 11.7144,
      "loss/aux_loss": 0.04808529950678349,
      "loss/crossentropy": 2.858980119228363,
      "loss/logits": 0.877686470746994,
      "step": 23390
    },
    {
      "epoch": 0.234,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.184619140625,
      "learning_rate": 0.0003,
      "loss": 11.6092,
      "loss/aux_loss": 0.048086689226329325,
      "loss/crossentropy": 2.603729021549225,
      "loss/logits": 0.850713437795639,
      "step": 23400
    },
    {
      "epoch": 0.2341,
      "grad_norm": 12.25,
      "grad_norm_var": 1.2035807291666667,
      "learning_rate": 0.0003,
      "loss": 11.6522,
      "loss/aux_loss": 0.048092365451157096,
      "loss/crossentropy": 2.9920172095298767,
      "loss/logits": 0.8820174932479858,
      "step": 23410
    },
    {
      "epoch": 0.2342,
      "grad_norm": 12.5,
      "grad_norm_var": 0.3931640625,
      "learning_rate": 0.0003,
      "loss": 11.7154,
      "loss/aux_loss": 0.048093152418732646,
      "loss/crossentropy": 2.6669042885303496,
      "loss/logits": 0.8748789399862289,
      "step": 23420
    },
    {
      "epoch": 0.2343,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.329150390625,
      "learning_rate": 0.0003,
      "loss": 11.6354,
      "loss/aux_loss": 0.04808267038315535,
      "loss/crossentropy": 2.6751941323280333,
      "loss/logits": 0.8559034675359726,
      "step": 23430
    },
    {
      "epoch": 0.2344,
      "grad_norm": 11.625,
      "grad_norm_var": 0.696728515625,
      "learning_rate": 0.0003,
      "loss": 11.6513,
      "loss/aux_loss": 0.048090195283293724,
      "loss/crossentropy": 2.750403940677643,
      "loss/logits": 0.8850887566804886,
      "step": 23440
    },
    {
      "epoch": 0.2345,
      "grad_norm": 12.375,
      "grad_norm_var": 0.2567545572916667,
      "learning_rate": 0.0003,
      "loss": 11.8244,
      "loss/aux_loss": 0.048084620386362076,
      "loss/crossentropy": 2.9328520774841307,
      "loss/logits": 0.9011586248874665,
      "step": 23450
    },
    {
      "epoch": 0.2346,
      "grad_norm": 12.75,
      "grad_norm_var": 0.09739583333333333,
      "learning_rate": 0.0003,
      "loss": 11.6918,
      "loss/aux_loss": 0.04808659795671701,
      "loss/crossentropy": 2.7696239829063414,
      "loss/logits": 0.8988734126091004,
      "step": 23460
    },
    {
      "epoch": 0.2347,
      "grad_norm": 13.125,
      "grad_norm_var": 0.332666015625,
      "learning_rate": 0.0003,
      "loss": 11.8292,
      "loss/aux_loss": 0.0480822155252099,
      "loss/crossentropy": 2.910421371459961,
      "loss/logits": 0.900927659869194,
      "step": 23470
    },
    {
      "epoch": 0.2348,
      "grad_norm": 12.125,
      "grad_norm_var": 0.54921875,
      "learning_rate": 0.0003,
      "loss": 11.6806,
      "loss/aux_loss": 0.04809327684342861,
      "loss/crossentropy": 2.8524921536445618,
      "loss/logits": 0.9137292951345444,
      "step": 23480
    },
    {
      "epoch": 0.2349,
      "grad_norm": 13.875,
      "grad_norm_var": 2.0796223958333333,
      "learning_rate": 0.0003,
      "loss": 11.7016,
      "loss/aux_loss": 0.048085125908255574,
      "loss/crossentropy": 2.680436742305756,
      "loss/logits": 0.8520400941371917,
      "step": 23490
    },
    {
      "epoch": 0.235,
      "grad_norm": 12.8125,
      "grad_norm_var": 2.0036295572916667,
      "learning_rate": 0.0003,
      "loss": 11.7285,
      "loss/aux_loss": 0.04808577839285135,
      "loss/crossentropy": 2.6893193125724792,
      "loss/logits": 0.8656334489583969,
      "step": 23500
    },
    {
      "epoch": 0.2351,
      "grad_norm": 12.25,
      "grad_norm_var": 0.3738932291666667,
      "learning_rate": 0.0003,
      "loss": 11.7499,
      "loss/aux_loss": 0.048086671903729436,
      "loss/crossentropy": 2.8467262983322144,
      "loss/logits": 0.8982198029756546,
      "step": 23510
    },
    {
      "epoch": 0.2352,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.202197265625,
      "learning_rate": 0.0003,
      "loss": 11.8075,
      "loss/aux_loss": 0.04808525312691927,
      "loss/crossentropy": 2.8524319410324095,
      "loss/logits": 0.8897974759340286,
      "step": 23520
    },
    {
      "epoch": 0.2353,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.5054524739583334,
      "learning_rate": 0.0003,
      "loss": 11.951,
      "loss/aux_loss": 0.048080182448029515,
      "loss/crossentropy": 2.7926797032356263,
      "loss/logits": 0.8885494351387024,
      "step": 23530
    },
    {
      "epoch": 0.2354,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.5848307291666667,
      "learning_rate": 0.0003,
      "loss": 11.5039,
      "loss/aux_loss": 0.048084812425076964,
      "loss/crossentropy": 2.79399893283844,
      "loss/logits": 0.8674466758966446,
      "step": 23540
    },
    {
      "epoch": 0.2355,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.29816080729166666,
      "learning_rate": 0.0003,
      "loss": 11.7157,
      "loss/aux_loss": 0.048091997392475605,
      "loss/crossentropy": 2.812830251455307,
      "loss/logits": 0.8933589518070221,
      "step": 23550
    },
    {
      "epoch": 0.2356,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.20045572916666668,
      "learning_rate": 0.0003,
      "loss": 11.6117,
      "loss/aux_loss": 0.048093314096331594,
      "loss/crossentropy": 2.773878538608551,
      "loss/logits": 0.8754092365503311,
      "step": 23560
    },
    {
      "epoch": 0.2357,
      "grad_norm": 13.75,
      "grad_norm_var": 1.3430826822916666,
      "learning_rate": 0.0003,
      "loss": 11.7499,
      "loss/aux_loss": 0.04808519445359707,
      "loss/crossentropy": 2.888442850112915,
      "loss/logits": 0.8818228989839554,
      "step": 23570
    },
    {
      "epoch": 0.2358,
      "grad_norm": 12.5625,
      "grad_norm_var": 1.249072265625,
      "learning_rate": 0.0003,
      "loss": 11.8386,
      "loss/aux_loss": 0.04807713199406862,
      "loss/crossentropy": 2.6926519870758057,
      "loss/logits": 0.8780468791723252,
      "step": 23580
    },
    {
      "epoch": 0.2359,
      "grad_norm": 12.0,
      "grad_norm_var": 0.44166666666666665,
      "learning_rate": 0.0003,
      "loss": 11.6326,
      "loss/aux_loss": 0.048089764825999734,
      "loss/crossentropy": 2.6616145730018617,
      "loss/logits": 0.8930239170789719,
      "step": 23590
    },
    {
      "epoch": 0.236,
      "grad_norm": 12.625,
      "grad_norm_var": 0.453125,
      "learning_rate": 0.0003,
      "loss": 11.7866,
      "loss/aux_loss": 0.048086699284613135,
      "loss/crossentropy": 2.7168304443359377,
      "loss/logits": 0.8998159736394882,
      "step": 23600
    },
    {
      "epoch": 0.2361,
      "grad_norm": 13.5,
      "grad_norm_var": 0.5286295572916667,
      "learning_rate": 0.0003,
      "loss": 11.906,
      "loss/aux_loss": 0.048088240809738635,
      "loss/crossentropy": 2.7172608613967895,
      "loss/logits": 0.8923117220401764,
      "step": 23610
    },
    {
      "epoch": 0.2362,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.30104166666666665,
      "learning_rate": 0.0003,
      "loss": 11.5223,
      "loss/aux_loss": 0.04808646198362112,
      "loss/crossentropy": 2.706549334526062,
      "loss/logits": 0.9012427359819413,
      "step": 23620
    },
    {
      "epoch": 0.2363,
      "grad_norm": 12.625,
      "grad_norm_var": 0.30572916666666666,
      "learning_rate": 0.0003,
      "loss": 11.6055,
      "loss/aux_loss": 0.04809609428048134,
      "loss/crossentropy": 2.7896106839179993,
      "loss/logits": 0.8902231156826019,
      "step": 23630
    },
    {
      "epoch": 0.2364,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.37233072916666665,
      "learning_rate": 0.0003,
      "loss": 11.962,
      "loss/aux_loss": 0.048088495060801505,
      "loss/crossentropy": 3.007174789905548,
      "loss/logits": 0.9304111152887344,
      "step": 23640
    },
    {
      "epoch": 0.2365,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.286181640625,
      "learning_rate": 0.0003,
      "loss": 11.5338,
      "loss/aux_loss": 0.04809539187699556,
      "loss/crossentropy": 2.633792459964752,
      "loss/logits": 0.8579708755016326,
      "step": 23650
    },
    {
      "epoch": 0.2366,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.7730305989583334,
      "learning_rate": 0.0003,
      "loss": 11.6288,
      "loss/aux_loss": 0.048088702373206615,
      "loss/crossentropy": 2.738995945453644,
      "loss/logits": 0.8920851528644562,
      "step": 23660
    },
    {
      "epoch": 0.2367,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.74921875,
      "learning_rate": 0.0003,
      "loss": 11.7406,
      "loss/aux_loss": 0.04808499738574028,
      "loss/crossentropy": 2.750992178916931,
      "loss/logits": 0.8741905808448791,
      "step": 23670
    },
    {
      "epoch": 0.2368,
      "grad_norm": 12.5,
      "grad_norm_var": 0.7702473958333333,
      "learning_rate": 0.0003,
      "loss": 11.7279,
      "loss/aux_loss": 0.04809374678879976,
      "loss/crossentropy": 3.0117597341537476,
      "loss/logits": 0.9128781437873841,
      "step": 23680
    },
    {
      "epoch": 0.2369,
      "grad_norm": 12.375,
      "grad_norm_var": 1.1684733072916667,
      "learning_rate": 0.0003,
      "loss": 11.6513,
      "loss/aux_loss": 0.04808376375585795,
      "loss/crossentropy": 2.730088675022125,
      "loss/logits": 0.8473275810480118,
      "step": 23690
    },
    {
      "epoch": 0.237,
      "grad_norm": 11.5625,
      "grad_norm_var": 1.056494140625,
      "learning_rate": 0.0003,
      "loss": 11.8007,
      "loss/aux_loss": 0.048095212876796724,
      "loss/crossentropy": 2.7834979057312013,
      "loss/logits": 0.8746491730213165,
      "step": 23700
    },
    {
      "epoch": 0.2371,
      "grad_norm": 13.875,
      "grad_norm_var": 1.337353515625,
      "learning_rate": 0.0003,
      "loss": 11.5859,
      "loss/aux_loss": 0.048090392164885996,
      "loss/crossentropy": 2.772467577457428,
      "loss/logits": 0.9062090307474137,
      "step": 23710
    },
    {
      "epoch": 0.2372,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.7644368489583333,
      "learning_rate": 0.0003,
      "loss": 11.674,
      "loss/aux_loss": 0.048084620386362076,
      "loss/crossentropy": 2.814483368396759,
      "loss/logits": 0.9223452210426331,
      "step": 23720
    },
    {
      "epoch": 0.2373,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.1921875,
      "learning_rate": 0.0003,
      "loss": 11.652,
      "loss/aux_loss": 0.048086386919021604,
      "loss/crossentropy": 2.937320578098297,
      "loss/logits": 0.867486959695816,
      "step": 23730
    },
    {
      "epoch": 0.2374,
      "grad_norm": 13.375,
      "grad_norm_var": 0.28098958333333335,
      "learning_rate": 0.0003,
      "loss": 11.6409,
      "loss/aux_loss": 0.048084064945578577,
      "loss/crossentropy": 2.8077134013175966,
      "loss/logits": 0.8964003264904022,
      "step": 23740
    },
    {
      "epoch": 0.2375,
      "grad_norm": 12.6875,
      "grad_norm_var": 1.6445149739583333,
      "learning_rate": 0.0003,
      "loss": 11.8131,
      "loss/aux_loss": 0.048087784089148045,
      "loss/crossentropy": 2.9468029141426086,
      "loss/logits": 0.9184634208679199,
      "step": 23750
    },
    {
      "epoch": 0.2376,
      "grad_norm": 11.625,
      "grad_norm_var": 1.9526041666666667,
      "learning_rate": 0.0003,
      "loss": 11.7089,
      "loss/aux_loss": 0.04808371346443892,
      "loss/crossentropy": 2.8894827246665953,
      "loss/logits": 0.8926361262798309,
      "step": 23760
    },
    {
      "epoch": 0.2377,
      "grad_norm": 11.375,
      "grad_norm_var": 0.48899739583333335,
      "learning_rate": 0.0003,
      "loss": 11.7193,
      "loss/aux_loss": 0.04808234348893166,
      "loss/crossentropy": 2.8240739822387697,
      "loss/logits": 0.8710032075643539,
      "step": 23770
    },
    {
      "epoch": 0.2378,
      "grad_norm": 13.5,
      "grad_norm_var": 2.7316243489583334,
      "learning_rate": 0.0003,
      "loss": 11.5324,
      "loss/aux_loss": 0.0480916004627943,
      "loss/crossentropy": 2.7174317240715027,
      "loss/logits": 0.8585263520479203,
      "step": 23780
    },
    {
      "epoch": 0.2379,
      "grad_norm": 12.0,
      "grad_norm_var": 2.7860514322916665,
      "learning_rate": 0.0003,
      "loss": 11.8451,
      "loss/aux_loss": 0.048090549744665624,
      "loss/crossentropy": 2.843950593471527,
      "loss/logits": 0.9064037382602692,
      "step": 23790
    },
    {
      "epoch": 0.238,
      "grad_norm": 12.125,
      "grad_norm_var": 0.31365559895833334,
      "learning_rate": 0.0003,
      "loss": 11.7494,
      "loss/aux_loss": 0.04807556625455618,
      "loss/crossentropy": 2.704611933231354,
      "loss/logits": 0.8805167257785798,
      "step": 23800
    },
    {
      "epoch": 0.2381,
      "grad_norm": 13.0,
      "grad_norm_var": 0.40826822916666666,
      "learning_rate": 0.0003,
      "loss": 11.5183,
      "loss/aux_loss": 0.04808481372892857,
      "loss/crossentropy": 2.536171966791153,
      "loss/logits": 0.8397417157888413,
      "step": 23810
    },
    {
      "epoch": 0.2382,
      "grad_norm": 12.5,
      "grad_norm_var": 0.27545572916666666,
      "learning_rate": 0.0003,
      "loss": 11.6364,
      "loss/aux_loss": 0.048093268647789955,
      "loss/crossentropy": 2.7942283511161805,
      "loss/logits": 0.8568087071180344,
      "step": 23820
    },
    {
      "epoch": 0.2383,
      "grad_norm": 12.25,
      "grad_norm_var": 0.4332682291666667,
      "learning_rate": 0.0003,
      "loss": 11.6525,
      "loss/aux_loss": 0.048078492656350134,
      "loss/crossentropy": 2.7623124718666077,
      "loss/logits": 0.891291829943657,
      "step": 23830
    },
    {
      "epoch": 0.2384,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.34152018229166664,
      "learning_rate": 0.0003,
      "loss": 11.7087,
      "loss/aux_loss": 0.048094586841762064,
      "loss/crossentropy": 2.678860205411911,
      "loss/logits": 0.8403998255729676,
      "step": 23840
    },
    {
      "epoch": 0.2385,
      "grad_norm": 13.375,
      "grad_norm_var": 0.4306640625,
      "learning_rate": 0.0003,
      "loss": 11.8878,
      "loss/aux_loss": 0.04808190613985062,
      "loss/crossentropy": 2.858857882022858,
      "loss/logits": 0.8940188169479371,
      "step": 23850
    },
    {
      "epoch": 0.2386,
      "grad_norm": 12.375,
      "grad_norm_var": 14.811832682291667,
      "learning_rate": 0.0003,
      "loss": 11.7931,
      "loss/aux_loss": 0.048093811981379984,
      "loss/crossentropy": 2.911667358875275,
      "loss/logits": 0.911825567483902,
      "step": 23860
    },
    {
      "epoch": 0.2387,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.6860514322916667,
      "learning_rate": 0.0003,
      "loss": 11.6265,
      "loss/aux_loss": 0.04809156283736229,
      "loss/crossentropy": 2.897962212562561,
      "loss/logits": 0.9157760441303253,
      "step": 23870
    },
    {
      "epoch": 0.2388,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.5841145833333333,
      "learning_rate": 0.0003,
      "loss": 11.6992,
      "loss/aux_loss": 0.048074356466531756,
      "loss/crossentropy": 2.6709546744823456,
      "loss/logits": 0.892021319270134,
      "step": 23880
    },
    {
      "epoch": 0.2389,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.5063639322916667,
      "learning_rate": 0.0003,
      "loss": 11.9177,
      "loss/aux_loss": 0.04809843823313713,
      "loss/crossentropy": 2.818812572956085,
      "loss/logits": 0.9256382822990418,
      "step": 23890
    },
    {
      "epoch": 0.239,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.2604166666666667,
      "learning_rate": 0.0003,
      "loss": 11.6635,
      "loss/aux_loss": 0.048081925325095656,
      "loss/crossentropy": 2.768986976146698,
      "loss/logits": 0.8817100405693055,
      "step": 23900
    },
    {
      "epoch": 0.2391,
      "grad_norm": 13.0,
      "grad_norm_var": 1.490869140625,
      "learning_rate": 0.0003,
      "loss": 11.6234,
      "loss/aux_loss": 0.048085336573421955,
      "loss/crossentropy": 2.748648244142532,
      "loss/logits": 0.9171183824539184,
      "step": 23910
    },
    {
      "epoch": 0.2392,
      "grad_norm": 12.25,
      "grad_norm_var": 1.4512858072916666,
      "learning_rate": 0.0003,
      "loss": 11.7612,
      "loss/aux_loss": 0.04809110928326845,
      "loss/crossentropy": 2.7163472533226014,
      "loss/logits": 0.8676630944013596,
      "step": 23920
    },
    {
      "epoch": 0.2393,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.746728515625,
      "learning_rate": 0.0003,
      "loss": 11.7462,
      "loss/aux_loss": 0.048089482076466086,
      "loss/crossentropy": 2.930872416496277,
      "loss/logits": 0.9010693699121475,
      "step": 23930
    },
    {
      "epoch": 0.2394,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.5486979166666667,
      "learning_rate": 0.0003,
      "loss": 11.896,
      "loss/aux_loss": 0.048085294850170615,
      "loss/crossentropy": 2.798089528083801,
      "loss/logits": 0.8853724330663681,
      "step": 23940
    },
    {
      "epoch": 0.2395,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.3851399739583333,
      "learning_rate": 0.0003,
      "loss": 11.6158,
      "loss/aux_loss": 0.04808676280081272,
      "loss/crossentropy": 2.726479697227478,
      "loss/logits": 0.8973057448863984,
      "step": 23950
    },
    {
      "epoch": 0.2396,
      "grad_norm": 14.25,
      "grad_norm_var": 0.3282389322916667,
      "learning_rate": 0.0003,
      "loss": 11.7098,
      "loss/aux_loss": 0.048084568418562415,
      "loss/crossentropy": 2.6635270595550535,
      "loss/logits": 0.8485010534524917,
      "step": 23960
    },
    {
      "epoch": 0.2397,
      "grad_norm": 11.5,
      "grad_norm_var": 0.7620930989583333,
      "learning_rate": 0.0003,
      "loss": 11.5762,
      "loss/aux_loss": 0.048088745586574076,
      "loss/crossentropy": 2.744753432273865,
      "loss/logits": 0.8812153309583663,
      "step": 23970
    },
    {
      "epoch": 0.2398,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.4384765625,
      "learning_rate": 0.0003,
      "loss": 11.7152,
      "loss/aux_loss": 0.04808169640600681,
      "loss/crossentropy": 2.7333896338939665,
      "loss/logits": 0.9171457648277282,
      "step": 23980
    },
    {
      "epoch": 0.2399,
      "grad_norm": 29.5,
      "grad_norm_var": 19.277067057291667,
      "learning_rate": 0.0003,
      "loss": 11.5902,
      "loss/aux_loss": 0.04808990899473429,
      "loss/crossentropy": 2.865362215042114,
      "loss/logits": 0.8600284993648529,
      "step": 23990
    },
    {
      "epoch": 0.24,
      "grad_norm": 12.6875,
      "grad_norm_var": 18.717171223958335,
      "learning_rate": 0.0003,
      "loss": 11.785,
      "loss/aux_loss": 0.04809808786958456,
      "loss/crossentropy": 2.812199038267136,
      "loss/logits": 0.8720352232456208,
      "step": 24000
    },
    {
      "epoch": 0.2401,
      "grad_norm": 11.875,
      "grad_norm_var": 0.16744791666666667,
      "learning_rate": 0.0003,
      "loss": 11.6551,
      "loss/aux_loss": 0.04809410627931356,
      "loss/crossentropy": 2.7996535181999205,
      "loss/logits": 0.9151755809783936,
      "step": 24010
    },
    {
      "epoch": 0.2402,
      "grad_norm": 13.125,
      "grad_norm_var": 0.5535807291666667,
      "learning_rate": 0.0003,
      "loss": 11.7477,
      "loss/aux_loss": 0.04809091780334711,
      "loss/crossentropy": 2.7805619120597838,
      "loss/logits": 0.9082524001598358,
      "step": 24020
    },
    {
      "epoch": 0.2403,
      "grad_norm": 13.25,
      "grad_norm_var": 0.4984375,
      "learning_rate": 0.0003,
      "loss": 11.6539,
      "loss/aux_loss": 0.04808855000883341,
      "loss/crossentropy": 2.7244292974472044,
      "loss/logits": 0.8969215124845504,
      "step": 24030
    },
    {
      "epoch": 0.2404,
      "grad_norm": 11.4375,
      "grad_norm_var": 0.6372395833333333,
      "learning_rate": 0.0003,
      "loss": 11.8925,
      "loss/aux_loss": 0.04808660857379436,
      "loss/crossentropy": 2.8658366203308105,
      "loss/logits": 0.9359738051891326,
      "step": 24040
    },
    {
      "epoch": 0.2405,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.3150390625,
      "learning_rate": 0.0003,
      "loss": 11.6215,
      "loss/aux_loss": 0.0480943713337183,
      "loss/crossentropy": 2.7264646887779236,
      "loss/logits": 0.8683656752109528,
      "step": 24050
    },
    {
      "epoch": 0.2406,
      "grad_norm": 13.625,
      "grad_norm_var": 0.8895182291666667,
      "learning_rate": 0.0003,
      "loss": 11.6396,
      "loss/aux_loss": 0.04809534400701523,
      "loss/crossentropy": 2.7673123121261596,
      "loss/logits": 0.8471581250429153,
      "step": 24060
    },
    {
      "epoch": 0.2407,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.6770182291666667,
      "learning_rate": 0.0003,
      "loss": 11.6868,
      "loss/aux_loss": 0.04808705560863018,
      "loss/crossentropy": 2.7488048553466795,
      "loss/logits": 0.918352234363556,
      "step": 24070
    },
    {
      "epoch": 0.2408,
      "grad_norm": 11.75,
      "grad_norm_var": 0.4117024739583333,
      "learning_rate": 0.0003,
      "loss": 11.6628,
      "loss/aux_loss": 0.048093785718083384,
      "loss/crossentropy": 2.8444491744041445,
      "loss/logits": 0.8840048730373382,
      "step": 24080
    },
    {
      "epoch": 0.2409,
      "grad_norm": 12.0,
      "grad_norm_var": 0.461962890625,
      "learning_rate": 0.0003,
      "loss": 11.5886,
      "loss/aux_loss": 0.04807962272316217,
      "loss/crossentropy": 2.580649846792221,
      "loss/logits": 0.8638424456119538,
      "step": 24090
    },
    {
      "epoch": 0.241,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.3580729166666667,
      "learning_rate": 0.0003,
      "loss": 11.7413,
      "loss/aux_loss": 0.04808608740568161,
      "loss/crossentropy": 2.8323341250419616,
      "loss/logits": 0.8996293157339096,
      "step": 24100
    },
    {
      "epoch": 0.2411,
      "grad_norm": 12.3125,
      "grad_norm_var": 1.4559895833333334,
      "learning_rate": 0.0003,
      "loss": 11.6987,
      "loss/aux_loss": 0.048095569014549255,
      "loss/crossentropy": 2.7775806427001952,
      "loss/logits": 0.8833230465650559,
      "step": 24110
    },
    {
      "epoch": 0.2412,
      "grad_norm": 12.75,
      "grad_norm_var": 0.4014973958333333,
      "learning_rate": 0.0003,
      "loss": 11.5617,
      "loss/aux_loss": 0.04807928055524826,
      "loss/crossentropy": 2.7209652066230774,
      "loss/logits": 0.8995220333337783,
      "step": 24120
    },
    {
      "epoch": 0.2413,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.43951822916666666,
      "learning_rate": 0.0003,
      "loss": 11.6276,
      "loss/aux_loss": 0.04808956161141396,
      "loss/crossentropy": 2.757280480861664,
      "loss/logits": 0.8826348453760147,
      "step": 24130
    },
    {
      "epoch": 0.2414,
      "grad_norm": 12.75,
      "grad_norm_var": 0.33177083333333335,
      "learning_rate": 0.0003,
      "loss": 11.5764,
      "loss/aux_loss": 0.048085734620690344,
      "loss/crossentropy": 2.783533537387848,
      "loss/logits": 0.8649254590272903,
      "step": 24140
    },
    {
      "epoch": 0.2415,
      "grad_norm": 12.75,
      "grad_norm_var": 3.777327473958333,
      "learning_rate": 0.0003,
      "loss": 11.6753,
      "loss/aux_loss": 0.04808969590812921,
      "loss/crossentropy": 2.678688037395477,
      "loss/logits": 0.8812060475349426,
      "step": 24150
    },
    {
      "epoch": 0.2416,
      "grad_norm": 13.5625,
      "grad_norm_var": 3.59375,
      "learning_rate": 0.0003,
      "loss": 11.5482,
      "loss/aux_loss": 0.0480934102088213,
      "loss/crossentropy": 2.7929326593875885,
      "loss/logits": 0.8826883345842361,
      "step": 24160
    },
    {
      "epoch": 0.2417,
      "grad_norm": 12.125,
      "grad_norm_var": 0.3504557291666667,
      "learning_rate": 0.0003,
      "loss": 11.3805,
      "loss/aux_loss": 0.04809669218957424,
      "loss/crossentropy": 2.5945322930812837,
      "loss/logits": 0.8391418486833573,
      "step": 24170
    },
    {
      "epoch": 0.2418,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.5546712239583333,
      "learning_rate": 0.0003,
      "loss": 11.5907,
      "loss/aux_loss": 0.04808249343186617,
      "loss/crossentropy": 2.734819310903549,
      "loss/logits": 0.8693808823823929,
      "step": 24180
    },
    {
      "epoch": 0.2419,
      "grad_norm": 12.0,
      "grad_norm_var": 0.388525390625,
      "learning_rate": 0.0003,
      "loss": 11.6518,
      "loss/aux_loss": 0.04808155260980129,
      "loss/crossentropy": 2.7737566351890566,
      "loss/logits": 0.8870420664548874,
      "step": 24190
    },
    {
      "epoch": 0.242,
      "grad_norm": 12.5,
      "grad_norm_var": 0.5936848958333333,
      "learning_rate": 0.0003,
      "loss": 11.6452,
      "loss/aux_loss": 0.04808844365179539,
      "loss/crossentropy": 2.78323655128479,
      "loss/logits": 0.8678434014320373,
      "step": 24200
    },
    {
      "epoch": 0.2421,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.5105305989583333,
      "learning_rate": 0.0003,
      "loss": 11.4859,
      "loss/aux_loss": 0.0480864379554987,
      "loss/crossentropy": 2.769151270389557,
      "loss/logits": 0.8635666728019714,
      "step": 24210
    },
    {
      "epoch": 0.2422,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.23917643229166666,
      "learning_rate": 0.0003,
      "loss": 11.772,
      "loss/aux_loss": 0.048094228468835355,
      "loss/crossentropy": 2.812956178188324,
      "loss/logits": 0.9112226068973541,
      "step": 24220
    },
    {
      "epoch": 0.2423,
      "grad_norm": 11.75,
      "grad_norm_var": 0.328759765625,
      "learning_rate": 0.0003,
      "loss": 11.669,
      "loss/aux_loss": 0.04808081742376089,
      "loss/crossentropy": 2.7633156895637514,
      "loss/logits": 0.8465212196111679,
      "step": 24230
    },
    {
      "epoch": 0.2424,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.5065104166666666,
      "learning_rate": 0.0003,
      "loss": 11.6417,
      "loss/aux_loss": 0.04809690322726965,
      "loss/crossentropy": 2.744890737533569,
      "loss/logits": 0.9320186167955399,
      "step": 24240
    },
    {
      "epoch": 0.2425,
      "grad_norm": 12.125,
      "grad_norm_var": 4.525374348958334,
      "learning_rate": 0.0003,
      "loss": 11.8212,
      "loss/aux_loss": 0.04809857420623302,
      "loss/crossentropy": 2.7761366605758666,
      "loss/logits": 0.8958946943283081,
      "step": 24250
    },
    {
      "epoch": 0.2426,
      "grad_norm": 13.0,
      "grad_norm_var": 0.2875,
      "learning_rate": 0.0003,
      "loss": 11.631,
      "loss/aux_loss": 0.04808212518692016,
      "loss/crossentropy": 2.8316932320594788,
      "loss/logits": 0.8923729687929154,
      "step": 24260
    },
    {
      "epoch": 0.2427,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.431884765625,
      "learning_rate": 0.0003,
      "loss": 11.6632,
      "loss/aux_loss": 0.048090006597340106,
      "loss/crossentropy": 2.7280545473098754,
      "loss/logits": 0.8711204528808594,
      "step": 24270
    },
    {
      "epoch": 0.2428,
      "grad_norm": 13.0,
      "grad_norm_var": 0.3106770833333333,
      "learning_rate": 0.0003,
      "loss": 11.6513,
      "loss/aux_loss": 0.048082527332007886,
      "loss/crossentropy": 2.7286766350269316,
      "loss/logits": 0.8891306400299073,
      "step": 24280
    },
    {
      "epoch": 0.2429,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.24837239583333334,
      "learning_rate": 0.0003,
      "loss": 11.6466,
      "loss/aux_loss": 0.048082358203828335,
      "loss/crossentropy": 2.9011032223701476,
      "loss/logits": 0.8931461691856384,
      "step": 24290
    },
    {
      "epoch": 0.243,
      "grad_norm": 12.375,
      "grad_norm_var": 0.2994140625,
      "learning_rate": 0.0003,
      "loss": 11.5106,
      "loss/aux_loss": 0.048092238046228884,
      "loss/crossentropy": 2.682009291648865,
      "loss/logits": 0.8750419646501542,
      "step": 24300
    },
    {
      "epoch": 0.2431,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.26443684895833336,
      "learning_rate": 0.0003,
      "loss": 11.7725,
      "loss/aux_loss": 0.04807449225336313,
      "loss/crossentropy": 2.79811235666275,
      "loss/logits": 0.8686894834041595,
      "step": 24310
    },
    {
      "epoch": 0.2432,
      "grad_norm": 12.125,
      "grad_norm_var": 0.4176432291666667,
      "learning_rate": 0.0003,
      "loss": 11.6726,
      "loss/aux_loss": 0.04808956328779459,
      "loss/crossentropy": 2.6413731455802916,
      "loss/logits": 0.8763428032398224,
      "step": 24320
    },
    {
      "epoch": 0.2433,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.5105305989583333,
      "learning_rate": 0.0003,
      "loss": 11.6373,
      "loss/aux_loss": 0.048085764050483704,
      "loss/crossentropy": 2.6801956832408904,
      "loss/logits": 0.8385010361671448,
      "step": 24330
    },
    {
      "epoch": 0.2434,
      "grad_norm": 12.375,
      "grad_norm_var": 1.7222493489583333,
      "learning_rate": 0.0003,
      "loss": 11.6253,
      "loss/aux_loss": 0.04808337558060884,
      "loss/crossentropy": 2.7743629932403566,
      "loss/logits": 0.9043363749980926,
      "step": 24340
    },
    {
      "epoch": 0.2435,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.13566080729166666,
      "learning_rate": 0.0003,
      "loss": 11.6274,
      "loss/aux_loss": 0.048089998215436934,
      "loss/crossentropy": 2.8051861047744753,
      "loss/logits": 0.8626913219690323,
      "step": 24350
    },
    {
      "epoch": 0.2436,
      "grad_norm": 13.0,
      "grad_norm_var": 0.408447265625,
      "learning_rate": 0.0003,
      "loss": 11.6349,
      "loss/aux_loss": 0.048083267733454706,
      "loss/crossentropy": 2.909751272201538,
      "loss/logits": 0.9241881400346756,
      "step": 24360
    },
    {
      "epoch": 0.2437,
      "grad_norm": 12.75,
      "grad_norm_var": 0.28854166666666664,
      "learning_rate": 0.0003,
      "loss": 11.83,
      "loss/aux_loss": 0.048077669180929664,
      "loss/crossentropy": 2.8290556192398073,
      "loss/logits": 0.8948422998189927,
      "step": 24370
    },
    {
      "epoch": 0.2438,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.49420572916666666,
      "learning_rate": 0.0003,
      "loss": 11.7276,
      "loss/aux_loss": 0.048091036081314084,
      "loss/crossentropy": 2.913513660430908,
      "loss/logits": 0.9211061328649521,
      "step": 24380
    },
    {
      "epoch": 0.2439,
      "grad_norm": 12.5,
      "grad_norm_var": 0.4315104166666667,
      "learning_rate": 0.0003,
      "loss": 11.6142,
      "loss/aux_loss": 0.04808881543576717,
      "loss/crossentropy": 2.8371637940406798,
      "loss/logits": 0.8743333727121353,
      "step": 24390
    },
    {
      "epoch": 0.244,
      "grad_norm": 11.375,
      "grad_norm_var": 0.3895182291666667,
      "learning_rate": 0.0003,
      "loss": 11.6272,
      "loss/aux_loss": 0.04808051008731127,
      "loss/crossentropy": 2.772133195400238,
      "loss/logits": 0.8708338439464569,
      "step": 24400
    },
    {
      "epoch": 0.2441,
      "grad_norm": 15.25,
      "grad_norm_var": 0.8311848958333333,
      "learning_rate": 0.0003,
      "loss": 11.7284,
      "loss/aux_loss": 0.048093300126492974,
      "loss/crossentropy": 2.814771521091461,
      "loss/logits": 0.8521833211183548,
      "step": 24410
    },
    {
      "epoch": 0.2442,
      "grad_norm": 12.125,
      "grad_norm_var": 0.7298014322916667,
      "learning_rate": 0.0003,
      "loss": 11.5798,
      "loss/aux_loss": 0.0480850936844945,
      "loss/crossentropy": 2.5935686111450194,
      "loss/logits": 0.8524984180927276,
      "step": 24420
    },
    {
      "epoch": 0.2443,
      "grad_norm": 13.0,
      "grad_norm_var": 0.20519205729166667,
      "learning_rate": 0.0003,
      "loss": 11.5651,
      "loss/aux_loss": 0.04809098821133375,
      "loss/crossentropy": 2.702817916870117,
      "loss/logits": 0.8753552913665772,
      "step": 24430
    },
    {
      "epoch": 0.2444,
      "grad_norm": 13.125,
      "grad_norm_var": 0.23098958333333333,
      "learning_rate": 0.0003,
      "loss": 11.7146,
      "loss/aux_loss": 0.048081192560493945,
      "loss/crossentropy": 2.789567303657532,
      "loss/logits": 0.8468646883964539,
      "step": 24440
    },
    {
      "epoch": 0.2445,
      "grad_norm": 16.5,
      "grad_norm_var": 1.030712890625,
      "learning_rate": 0.0003,
      "loss": 11.7024,
      "loss/aux_loss": 0.04808731079101562,
      "loss/crossentropy": 2.7426182508468626,
      "loss/logits": 0.8534230351448059,
      "step": 24450
    },
    {
      "epoch": 0.2446,
      "grad_norm": 12.6875,
      "grad_norm_var": 1.5005208333333333,
      "learning_rate": 0.0003,
      "loss": 11.6524,
      "loss/aux_loss": 0.04808608312159777,
      "loss/crossentropy": 2.8565701603889466,
      "loss/logits": 0.8676398396492004,
      "step": 24460
    },
    {
      "epoch": 0.2447,
      "grad_norm": 14.625,
      "grad_norm_var": 1.1264973958333333,
      "learning_rate": 0.0003,
      "loss": 11.4879,
      "loss/aux_loss": 0.048085580207407476,
      "loss/crossentropy": 2.898229694366455,
      "loss/logits": 0.8859318733215332,
      "step": 24470
    },
    {
      "epoch": 0.2448,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.4410807291666667,
      "learning_rate": 0.0003,
      "loss": 11.6515,
      "loss/aux_loss": 0.04807874243706465,
      "loss/crossentropy": 2.850202000141144,
      "loss/logits": 0.88456309735775,
      "step": 24480
    },
    {
      "epoch": 0.2449,
      "grad_norm": 11.375,
      "grad_norm_var": 0.3223958333333333,
      "learning_rate": 0.0003,
      "loss": 11.7189,
      "loss/aux_loss": 0.048079111985862254,
      "loss/crossentropy": 2.808897280693054,
      "loss/logits": 0.8941350758075715,
      "step": 24490
    },
    {
      "epoch": 0.245,
      "grad_norm": 13.0,
      "grad_norm_var": 1.0204264322916667,
      "learning_rate": 0.0003,
      "loss": 11.5987,
      "loss/aux_loss": 0.04809224735945463,
      "loss/crossentropy": 2.7774929463863374,
      "loss/logits": 0.8461995214223862,
      "step": 24500
    },
    {
      "epoch": 0.2451,
      "grad_norm": 13.25,
      "grad_norm_var": 1.1275390625,
      "learning_rate": 0.0003,
      "loss": 11.5477,
      "loss/aux_loss": 0.04809009712189436,
      "loss/crossentropy": 2.791159617900848,
      "loss/logits": 0.8854242950677872,
      "step": 24510
    },
    {
      "epoch": 0.2452,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.5010416666666667,
      "learning_rate": 0.0003,
      "loss": 11.7486,
      "loss/aux_loss": 0.048082375340163706,
      "loss/crossentropy": 2.664378434419632,
      "loss/logits": 0.8719703197479248,
      "step": 24520
    },
    {
      "epoch": 0.2453,
      "grad_norm": 45.25,
      "grad_norm_var": 66.98527018229167,
      "learning_rate": 0.0003,
      "loss": 11.9223,
      "loss/aux_loss": 0.048085335083305834,
      "loss/crossentropy": 2.715837526321411,
      "loss/logits": 0.9175373882055282,
      "step": 24530
    },
    {
      "epoch": 0.2454,
      "grad_norm": 13.1875,
      "grad_norm_var": 64.931103515625,
      "learning_rate": 0.0003,
      "loss": 11.5829,
      "loss/aux_loss": 0.04809392262250185,
      "loss/crossentropy": 2.799639356136322,
      "loss/logits": 0.8938455194234848,
      "step": 24540
    },
    {
      "epoch": 0.2455,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.3728515625,
      "learning_rate": 0.0003,
      "loss": 11.7221,
      "loss/aux_loss": 0.04808378964662552,
      "loss/crossentropy": 2.777541899681091,
      "loss/logits": 0.8686657905578613,
      "step": 24550
    },
    {
      "epoch": 0.2456,
      "grad_norm": 12.875,
      "grad_norm_var": 0.32355143229166666,
      "learning_rate": 0.0003,
      "loss": 11.8611,
      "loss/aux_loss": 0.048089235462248324,
      "loss/crossentropy": 2.872539556026459,
      "loss/logits": 0.9508152902126312,
      "step": 24560
    },
    {
      "epoch": 0.2457,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.30987955729166666,
      "learning_rate": 0.0003,
      "loss": 11.5595,
      "loss/aux_loss": 0.04808945395052433,
      "loss/crossentropy": 2.9004230976104735,
      "loss/logits": 0.9007263153791427,
      "step": 24570
    },
    {
      "epoch": 0.2458,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.2916015625,
      "learning_rate": 0.0003,
      "loss": 11.7691,
      "loss/aux_loss": 0.048084504902362823,
      "loss/crossentropy": 2.81181880235672,
      "loss/logits": 0.8950879544019699,
      "step": 24580
    },
    {
      "epoch": 0.2459,
      "grad_norm": 12.6875,
      "grad_norm_var": 2.4169270833333334,
      "learning_rate": 0.0003,
      "loss": 11.7429,
      "loss/aux_loss": 0.04808555655181408,
      "loss/crossentropy": 2.890042209625244,
      "loss/logits": 0.8888252973556519,
      "step": 24590
    },
    {
      "epoch": 0.246,
      "grad_norm": 13.125,
      "grad_norm_var": 1.9864420572916666,
      "learning_rate": 0.0003,
      "loss": 11.7697,
      "loss/aux_loss": 0.04808424487709999,
      "loss/crossentropy": 2.8062154173851015,
      "loss/logits": 0.8845973283052444,
      "step": 24600
    },
    {
      "epoch": 0.2461,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.47342122395833336,
      "learning_rate": 0.0003,
      "loss": 11.6025,
      "loss/aux_loss": 0.04808759950101375,
      "loss/crossentropy": 2.638791638612747,
      "loss/logits": 0.8616722971200943,
      "step": 24610
    },
    {
      "epoch": 0.2462,
      "grad_norm": 12.0,
      "grad_norm_var": 2.019514973958333,
      "learning_rate": 0.0003,
      "loss": 11.3808,
      "loss/aux_loss": 0.0480861397460103,
      "loss/crossentropy": 2.6739172518253325,
      "loss/logits": 0.857967483997345,
      "step": 24620
    },
    {
      "epoch": 0.2463,
      "grad_norm": 14.125,
      "grad_norm_var": 11.3953125,
      "learning_rate": 0.0003,
      "loss": 11.7237,
      "loss/aux_loss": 0.048097777739167215,
      "loss/crossentropy": 2.6798054337501527,
      "loss/logits": 0.9119128674268723,
      "step": 24630
    },
    {
      "epoch": 0.2464,
      "grad_norm": 12.75,
      "grad_norm_var": 3.7905598958333333,
      "learning_rate": 0.0003,
      "loss": 11.5751,
      "loss/aux_loss": 0.04808594770729542,
      "loss/crossentropy": 2.6202758669853212,
      "loss/logits": 0.8779011040925979,
      "step": 24640
    },
    {
      "epoch": 0.2465,
      "grad_norm": 13.75,
      "grad_norm_var": 4.788004557291667,
      "learning_rate": 0.0003,
      "loss": 11.5291,
      "loss/aux_loss": 0.0480955732986331,
      "loss/crossentropy": 2.6888505935668947,
      "loss/logits": 0.8404242038726807,
      "step": 24650
    },
    {
      "epoch": 0.2466,
      "grad_norm": 11.875,
      "grad_norm_var": 0.5864583333333333,
      "learning_rate": 0.0003,
      "loss": 11.644,
      "loss/aux_loss": 0.0480740413069725,
      "loss/crossentropy": 2.9277888417243956,
      "loss/logits": 0.8985714882612228,
      "step": 24660
    },
    {
      "epoch": 0.2467,
      "grad_norm": 11.5,
      "grad_norm_var": 0.4141764322916667,
      "learning_rate": 0.0003,
      "loss": 11.7472,
      "loss/aux_loss": 0.048084502667188646,
      "loss/crossentropy": 2.661174988746643,
      "loss/logits": 0.8858565300703048,
      "step": 24670
    },
    {
      "epoch": 0.2468,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.5109212239583333,
      "learning_rate": 0.0003,
      "loss": 11.7638,
      "loss/aux_loss": 0.048086884804069994,
      "loss/crossentropy": 2.990370142459869,
      "loss/logits": 0.9090431898832321,
      "step": 24680
    },
    {
      "epoch": 0.2469,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.48333333333333334,
      "learning_rate": 0.0003,
      "loss": 11.7163,
      "loss/aux_loss": 0.04808713924139738,
      "loss/crossentropy": 2.6298464059829714,
      "loss/logits": 0.8759280443191528,
      "step": 24690
    },
    {
      "epoch": 0.247,
      "grad_norm": 13.875,
      "grad_norm_var": 11.1150390625,
      "learning_rate": 0.0003,
      "loss": 11.6638,
      "loss/aux_loss": 0.04808840285986662,
      "loss/crossentropy": 2.8006470084190367,
      "loss/logits": 0.8584316343069076,
      "step": 24700
    },
    {
      "epoch": 0.2471,
      "grad_norm": 14.375,
      "grad_norm_var": 10.780208333333333,
      "learning_rate": 0.0003,
      "loss": 11.7515,
      "loss/aux_loss": 0.04808585830032826,
      "loss/crossentropy": 2.7873790740966795,
      "loss/logits": 0.8926585078239441,
      "step": 24710
    },
    {
      "epoch": 0.2472,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.2879557291666667,
      "learning_rate": 0.0003,
      "loss": 11.6114,
      "loss/aux_loss": 0.048089620657265186,
      "loss/crossentropy": 2.5645355701446535,
      "loss/logits": 0.8463786870241166,
      "step": 24720
    },
    {
      "epoch": 0.2473,
      "grad_norm": 12.25,
      "grad_norm_var": 0.454541015625,
      "learning_rate": 0.0003,
      "loss": 11.6297,
      "loss/aux_loss": 0.04808438029140234,
      "loss/crossentropy": 2.8039010167121887,
      "loss/logits": 0.9113354772329331,
      "step": 24730
    },
    {
      "epoch": 0.2474,
      "grad_norm": 13.5,
      "grad_norm_var": 0.4088541666666667,
      "learning_rate": 0.0003,
      "loss": 11.5603,
      "loss/aux_loss": 0.04807938225567341,
      "loss/crossentropy": 2.6084700644016268,
      "loss/logits": 0.869733153283596,
      "step": 24740
    },
    {
      "epoch": 0.2475,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.48826497395833335,
      "learning_rate": 0.0003,
      "loss": 11.5865,
      "loss/aux_loss": 0.04809128176420927,
      "loss/crossentropy": 2.571286141872406,
      "loss/logits": 0.8443722426891327,
      "step": 24750
    },
    {
      "epoch": 0.2476,
      "grad_norm": 12.875,
      "grad_norm_var": 1.0113932291666667,
      "learning_rate": 0.0003,
      "loss": 11.5163,
      "loss/aux_loss": 0.04808931332081556,
      "loss/crossentropy": 2.765368914604187,
      "loss/logits": 0.8564152508974076,
      "step": 24760
    },
    {
      "epoch": 0.2477,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.372119140625,
      "learning_rate": 0.0003,
      "loss": 11.5343,
      "loss/aux_loss": 0.04808468669652939,
      "loss/crossentropy": 2.847411096096039,
      "loss/logits": 0.9346977740526199,
      "step": 24770
    },
    {
      "epoch": 0.2478,
      "grad_norm": 11.875,
      "grad_norm_var": 0.7286458333333333,
      "learning_rate": 0.0003,
      "loss": 11.6268,
      "loss/aux_loss": 0.0480878546833992,
      "loss/crossentropy": 2.6432011306285856,
      "loss/logits": 0.8749868780374527,
      "step": 24780
    },
    {
      "epoch": 0.2479,
      "grad_norm": 12.875,
      "grad_norm_var": 0.5903483072916667,
      "learning_rate": 0.0003,
      "loss": 11.6199,
      "loss/aux_loss": 0.04810009114444256,
      "loss/crossentropy": 2.712999904155731,
      "loss/logits": 0.8862002283334732,
      "step": 24790
    },
    {
      "epoch": 0.248,
      "grad_norm": 12.125,
      "grad_norm_var": 0.41730143229166666,
      "learning_rate": 0.0003,
      "loss": 11.6145,
      "loss/aux_loss": 0.048082103952765465,
      "loss/crossentropy": 2.768636167049408,
      "loss/logits": 0.862320426106453,
      "step": 24800
    },
    {
      "epoch": 0.2481,
      "grad_norm": 12.875,
      "grad_norm_var": 0.48370768229166666,
      "learning_rate": 0.0003,
      "loss": 11.7063,
      "loss/aux_loss": 0.048084338754415513,
      "loss/crossentropy": 2.689415818452835,
      "loss/logits": 0.8696422547101974,
      "step": 24810
    },
    {
      "epoch": 0.2482,
      "grad_norm": 13.375,
      "grad_norm_var": 0.5311848958333333,
      "learning_rate": 0.0003,
      "loss": 11.7926,
      "loss/aux_loss": 0.04808789137750864,
      "loss/crossentropy": 2.7690405011177064,
      "loss/logits": 0.8735806256532669,
      "step": 24820
    },
    {
      "epoch": 0.2483,
      "grad_norm": 12.875,
      "grad_norm_var": 0.32745768229166666,
      "learning_rate": 0.0003,
      "loss": 11.5478,
      "loss/aux_loss": 0.04808993488550186,
      "loss/crossentropy": 2.7007332861423494,
      "loss/logits": 0.9016262739896774,
      "step": 24830
    },
    {
      "epoch": 0.2484,
      "grad_norm": 13.25,
      "grad_norm_var": 693.0523274739584,
      "learning_rate": 0.0003,
      "loss": 11.5585,
      "loss/aux_loss": 0.04810011051595211,
      "loss/crossentropy": 2.5810685038566588,
      "loss/logits": 0.864134407043457,
      "step": 24840
    },
    {
      "epoch": 0.2485,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.8244140625,
      "learning_rate": 0.0003,
      "loss": 11.6735,
      "loss/aux_loss": 0.048092559725046155,
      "loss/crossentropy": 2.752824580669403,
      "loss/logits": 0.8686655551195145,
      "step": 24850
    },
    {
      "epoch": 0.2486,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.671337890625,
      "learning_rate": 0.0003,
      "loss": 11.8462,
      "loss/aux_loss": 0.04807847458869219,
      "loss/crossentropy": 2.9063711762428284,
      "loss/logits": 0.9188533276319504,
      "step": 24860
    },
    {
      "epoch": 0.2487,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.27459309895833334,
      "learning_rate": 0.0003,
      "loss": 11.644,
      "loss/aux_loss": 0.04809844493865967,
      "loss/crossentropy": 2.7648052334785462,
      "loss/logits": 0.867266783118248,
      "step": 24870
    },
    {
      "epoch": 0.2488,
      "grad_norm": 13.6875,
      "grad_norm_var": 3.9888020833333333,
      "learning_rate": 0.0003,
      "loss": 11.5867,
      "loss/aux_loss": 0.04808073379099369,
      "loss/crossentropy": 2.7701613664627076,
      "loss/logits": 0.9056573390960694,
      "step": 24880
    },
    {
      "epoch": 0.2489,
      "grad_norm": 11.9375,
      "grad_norm_var": 2.978385416666667,
      "learning_rate": 0.0003,
      "loss": 11.5873,
      "loss/aux_loss": 0.04808578360825777,
      "loss/crossentropy": 2.8290310978889464,
      "loss/logits": 0.8755116432905197,
      "step": 24890
    },
    {
      "epoch": 0.249,
      "grad_norm": 13.625,
      "grad_norm_var": 0.8264973958333334,
      "learning_rate": 0.0003,
      "loss": 11.6796,
      "loss/aux_loss": 0.04808125514537096,
      "loss/crossentropy": 2.816509687900543,
      "loss/logits": 0.9027190536260605,
      "step": 24900
    },
    {
      "epoch": 0.2491,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.8419270833333333,
      "learning_rate": 0.0003,
      "loss": 11.5386,
      "loss/aux_loss": 0.0480922881513834,
      "loss/crossentropy": 2.76520716547966,
      "loss/logits": 0.892632269859314,
      "step": 24910
    },
    {
      "epoch": 0.2492,
      "grad_norm": 11.75,
      "grad_norm_var": 0.30193684895833334,
      "learning_rate": 0.0003,
      "loss": 11.693,
      "loss/aux_loss": 0.0480814853683114,
      "loss/crossentropy": 2.720960557460785,
      "loss/logits": 0.8856659799814224,
      "step": 24920
    },
    {
      "epoch": 0.2493,
      "grad_norm": 14.25,
      "grad_norm_var": 0.8380208333333333,
      "learning_rate": 0.0003,
      "loss": 11.5816,
      "loss/aux_loss": 0.04809188954532147,
      "loss/crossentropy": 2.646233397722244,
      "loss/logits": 0.8720506697893142,
      "step": 24930
    },
    {
      "epoch": 0.2494,
      "grad_norm": 12.0625,
      "grad_norm_var": 1.5056640625,
      "learning_rate": 0.0003,
      "loss": 11.7634,
      "loss/aux_loss": 0.04808452129364014,
      "loss/crossentropy": 2.83508540391922,
      "loss/logits": 0.8792938023805619,
      "step": 24940
    },
    {
      "epoch": 0.2495,
      "grad_norm": 12.875,
      "grad_norm_var": 0.49733072916666665,
      "learning_rate": 0.0003,
      "loss": 11.4464,
      "loss/aux_loss": 0.048088039830327035,
      "loss/crossentropy": 2.7586292266845702,
      "loss/logits": 0.8813098579645157,
      "step": 24950
    },
    {
      "epoch": 0.2496,
      "grad_norm": 13.4375,
      "grad_norm_var": 1.2320149739583333,
      "learning_rate": 0.0003,
      "loss": 11.6449,
      "loss/aux_loss": 0.04809652119874954,
      "loss/crossentropy": 2.7922417759895324,
      "loss/logits": 0.9288152068853378,
      "step": 24960
    },
    {
      "epoch": 0.2497,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.31027018229166664,
      "learning_rate": 0.0003,
      "loss": 11.5653,
      "loss/aux_loss": 0.048079832829535006,
      "loss/crossentropy": 2.713176792860031,
      "loss/logits": 0.8755482017993927,
      "step": 24970
    },
    {
      "epoch": 0.2498,
      "grad_norm": 12.625,
      "grad_norm_var": 0.5158854166666667,
      "learning_rate": 0.0003,
      "loss": 11.6771,
      "loss/aux_loss": 0.04808032140135765,
      "loss/crossentropy": 2.844007110595703,
      "loss/logits": 0.8661886304616928,
      "step": 24980
    },
    {
      "epoch": 0.2499,
      "grad_norm": 11.625,
      "grad_norm_var": 0.5384765625,
      "learning_rate": 0.0003,
      "loss": 11.4978,
      "loss/aux_loss": 0.048091298528015615,
      "loss/crossentropy": 2.7953576683998107,
      "loss/logits": 0.8499617218971253,
      "step": 24990
    },
    {
      "epoch": 0.25,
      "grad_norm": 12.875,
      "grad_norm_var": 0.9852701822916666,
      "learning_rate": 0.0003,
      "loss": 11.5883,
      "loss/aux_loss": 0.04808867685496807,
      "loss/crossentropy": 2.528530162572861,
      "loss/logits": 0.854027372598648,
      "step": 25000
    },
    {
      "epoch": 0.2501,
      "grad_norm": 11.25,
      "grad_norm_var": 0.9353515625,
      "learning_rate": 0.0003,
      "loss": 11.6363,
      "loss/aux_loss": 0.04808705858886242,
      "loss/crossentropy": 2.843946361541748,
      "loss/logits": 0.8924509882926941,
      "step": 25010
    },
    {
      "epoch": 0.2502,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.35349934895833335,
      "learning_rate": 0.0003,
      "loss": 11.8235,
      "loss/aux_loss": 0.04808267503976822,
      "loss/crossentropy": 2.891792821884155,
      "loss/logits": 0.9047430366277694,
      "step": 25020
    },
    {
      "epoch": 0.2503,
      "grad_norm": 12.75,
      "grad_norm_var": 0.2886555989583333,
      "learning_rate": 0.0003,
      "loss": 11.6444,
      "loss/aux_loss": 0.048091215640306474,
      "loss/crossentropy": 2.904352879524231,
      "loss/logits": 0.877800577878952,
      "step": 25030
    },
    {
      "epoch": 0.2504,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.33318684895833334,
      "learning_rate": 0.0003,
      "loss": 11.6522,
      "loss/aux_loss": 0.04808731395751238,
      "loss/crossentropy": 2.7148699164390564,
      "loss/logits": 0.8997314661741257,
      "step": 25040
    },
    {
      "epoch": 0.2505,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.37303059895833335,
      "learning_rate": 0.0003,
      "loss": 11.8294,
      "loss/aux_loss": 0.04808868896216154,
      "loss/crossentropy": 2.790895849466324,
      "loss/logits": 0.9084702879190445,
      "step": 25050
    },
    {
      "epoch": 0.2506,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.36920572916666666,
      "learning_rate": 0.0003,
      "loss": 11.7443,
      "loss/aux_loss": 0.04809939563274383,
      "loss/crossentropy": 2.911231255531311,
      "loss/logits": 0.8896218776702881,
      "step": 25060
    },
    {
      "epoch": 0.2507,
      "grad_norm": 13.0,
      "grad_norm_var": 0.3450520833333333,
      "learning_rate": 0.0003,
      "loss": 11.5574,
      "loss/aux_loss": 0.048084039054811,
      "loss/crossentropy": 2.8057745695114136,
      "loss/logits": 0.8932328909635544,
      "step": 25070
    },
    {
      "epoch": 0.2508,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.4593587239583333,
      "learning_rate": 0.0003,
      "loss": 11.8264,
      "loss/aux_loss": 0.04808835387229919,
      "loss/crossentropy": 2.9282448649406434,
      "loss/logits": 0.9194880992174148,
      "step": 25080
    },
    {
      "epoch": 0.2509,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.40167643229166666,
      "learning_rate": 0.0003,
      "loss": 11.5529,
      "loss/aux_loss": 0.04807906914502382,
      "loss/crossentropy": 2.532350409030914,
      "loss/logits": 0.8764607399702072,
      "step": 25090
    },
    {
      "epoch": 0.251,
      "grad_norm": 12.25,
      "grad_norm_var": 0.2752604166666667,
      "learning_rate": 0.0003,
      "loss": 11.5749,
      "loss/aux_loss": 0.048076278157532217,
      "loss/crossentropy": 2.7150728702545166,
      "loss/logits": 0.8551843196153641,
      "step": 25100
    },
    {
      "epoch": 0.2511,
      "grad_norm": 12.375,
      "grad_norm_var": 0.14368489583333333,
      "learning_rate": 0.0003,
      "loss": 11.6707,
      "loss/aux_loss": 0.048083152808249,
      "loss/crossentropy": 2.6560796737670898,
      "loss/logits": 0.8625768065452576,
      "step": 25110
    },
    {
      "epoch": 0.2512,
      "grad_norm": 12.375,
      "grad_norm_var": 0.238525390625,
      "learning_rate": 0.0003,
      "loss": 11.31,
      "loss/aux_loss": 0.04808560535311699,
      "loss/crossentropy": 2.692982625961304,
      "loss/logits": 0.8346902966499329,
      "step": 25120
    },
    {
      "epoch": 0.2513,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.13326822916666667,
      "learning_rate": 0.0003,
      "loss": 11.6084,
      "loss/aux_loss": 0.04809413086622953,
      "loss/crossentropy": 2.8028789699077605,
      "loss/logits": 0.8861746788024902,
      "step": 25130
    },
    {
      "epoch": 0.2514,
      "grad_norm": 13.5,
      "grad_norm_var": 0.17068684895833333,
      "learning_rate": 0.0003,
      "loss": 11.7255,
      "loss/aux_loss": 0.04807902295142412,
      "loss/crossentropy": 2.77418338060379,
      "loss/logits": 0.8591089010238647,
      "step": 25140
    },
    {
      "epoch": 0.2515,
      "grad_norm": 12.0,
      "grad_norm_var": 14.376497395833333,
      "learning_rate": 0.0003,
      "loss": 11.5784,
      "loss/aux_loss": 0.04810504075139761,
      "loss/crossentropy": 2.6118695974349975,
      "loss/logits": 0.8479388684034348,
      "step": 25150
    },
    {
      "epoch": 0.2516,
      "grad_norm": 12.0625,
      "grad_norm_var": 14.047119140625,
      "learning_rate": 0.0003,
      "loss": 11.6321,
      "loss/aux_loss": 0.04807586278766394,
      "loss/crossentropy": 2.8019371032714844,
      "loss/logits": 0.9008934259414673,
      "step": 25160
    },
    {
      "epoch": 0.2517,
      "grad_norm": 12.625,
      "grad_norm_var": 5.012955729166666,
      "learning_rate": 0.0003,
      "loss": 11.6511,
      "loss/aux_loss": 0.048094934225082396,
      "loss/crossentropy": 2.6834351480007173,
      "loss/logits": 0.8760968536138535,
      "step": 25170
    },
    {
      "epoch": 0.2518,
      "grad_norm": 13.3125,
      "grad_norm_var": 2.4541015625,
      "learning_rate": 0.0003,
      "loss": 11.7221,
      "loss/aux_loss": 0.04808460958302021,
      "loss/crossentropy": 2.778984820842743,
      "loss/logits": 0.8968686580657959,
      "step": 25180
    },
    {
      "epoch": 0.2519,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.365625,
      "learning_rate": 0.0003,
      "loss": 11.6415,
      "loss/aux_loss": 0.04808416347950697,
      "loss/crossentropy": 2.6761425912380217,
      "loss/logits": 0.8864099949598312,
      "step": 25190
    },
    {
      "epoch": 0.252,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.19620768229166666,
      "learning_rate": 0.0003,
      "loss": 11.7456,
      "loss/aux_loss": 0.04808526486158371,
      "loss/crossentropy": 2.809593695402145,
      "loss/logits": 0.9087226182222367,
      "step": 25200
    },
    {
      "epoch": 0.2521,
      "grad_norm": 12.875,
      "grad_norm_var": 0.4205729166666667,
      "learning_rate": 0.0003,
      "loss": 11.649,
      "loss/aux_loss": 0.04808737710118294,
      "loss/crossentropy": 2.8328150868415833,
      "loss/logits": 0.8956249594688416,
      "step": 25210
    },
    {
      "epoch": 0.2522,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.3546223958333333,
      "learning_rate": 0.0003,
      "loss": 11.6388,
      "loss/aux_loss": 0.048089083097875115,
      "loss/crossentropy": 2.736672604084015,
      "loss/logits": 0.8746443182229996,
      "step": 25220
    },
    {
      "epoch": 0.2523,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.3624348958333333,
      "learning_rate": 0.0003,
      "loss": 11.6174,
      "loss/aux_loss": 0.04808070510625839,
      "loss/crossentropy": 3.001026463508606,
      "loss/logits": 0.8746398031711579,
      "step": 25230
    },
    {
      "epoch": 0.2524,
      "grad_norm": 12.4375,
      "grad_norm_var": 3.6433430989583333,
      "learning_rate": 0.0003,
      "loss": 11.7027,
      "loss/aux_loss": 0.048089549690485,
      "loss/crossentropy": 2.7485376834869384,
      "loss/logits": 0.8798061728477478,
      "step": 25240
    },
    {
      "epoch": 0.2525,
      "grad_norm": 15.25,
      "grad_norm_var": 1.2581868489583334,
      "learning_rate": 0.0003,
      "loss": 11.8481,
      "loss/aux_loss": 0.048088116385042665,
      "loss/crossentropy": 2.907766008377075,
      "loss/logits": 0.927979850769043,
      "step": 25250
    },
    {
      "epoch": 0.2526,
      "grad_norm": 12.75,
      "grad_norm_var": 0.674853515625,
      "learning_rate": 0.0003,
      "loss": 11.5283,
      "loss/aux_loss": 0.04809806887060404,
      "loss/crossentropy": 2.813064420223236,
      "loss/logits": 0.8849809437990188,
      "step": 25260
    },
    {
      "epoch": 0.2527,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.222119140625,
      "learning_rate": 0.0003,
      "loss": 11.4406,
      "loss/aux_loss": 0.048092986829578875,
      "loss/crossentropy": 2.680801993608475,
      "loss/logits": 0.8623011440038681,
      "step": 25270
    },
    {
      "epoch": 0.2528,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.28541666666666665,
      "learning_rate": 0.0003,
      "loss": 11.6218,
      "loss/aux_loss": 0.04807704258710146,
      "loss/crossentropy": 2.6295208811759947,
      "loss/logits": 0.8690453052520752,
      "step": 25280
    },
    {
      "epoch": 0.2529,
      "grad_norm": 13.0,
      "grad_norm_var": 0.35154622395833335,
      "learning_rate": 0.0003,
      "loss": 11.6239,
      "loss/aux_loss": 0.048089309222996236,
      "loss/crossentropy": 2.666023552417755,
      "loss/logits": 0.8957912296056747,
      "step": 25290
    },
    {
      "epoch": 0.253,
      "grad_norm": 12.875,
      "grad_norm_var": 0.26666666666666666,
      "learning_rate": 0.0003,
      "loss": 11.4241,
      "loss/aux_loss": 0.048083115555346015,
      "loss/crossentropy": 2.83921422958374,
      "loss/logits": 0.883840236067772,
      "step": 25300
    },
    {
      "epoch": 0.2531,
      "grad_norm": 12.625,
      "grad_norm_var": 0.5619791666666667,
      "learning_rate": 0.0003,
      "loss": 11.6852,
      "loss/aux_loss": 0.048087958991527555,
      "loss/crossentropy": 2.8075567483901978,
      "loss/logits": 0.8912134855985642,
      "step": 25310
    },
    {
      "epoch": 0.2532,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.5716145833333334,
      "learning_rate": 0.0003,
      "loss": 11.6948,
      "loss/aux_loss": 0.048075183667242526,
      "loss/crossentropy": 2.834882414340973,
      "loss/logits": 0.9086032390594483,
      "step": 25320
    },
    {
      "epoch": 0.2533,
      "grad_norm": 12.0,
      "grad_norm_var": 0.39993489583333336,
      "learning_rate": 0.0003,
      "loss": 11.5648,
      "loss/aux_loss": 0.04808804150670767,
      "loss/crossentropy": 2.7690355598926546,
      "loss/logits": 0.8761381387710572,
      "step": 25330
    },
    {
      "epoch": 0.2534,
      "grad_norm": 12.8125,
      "grad_norm_var": 208.065625,
      "learning_rate": 0.0003,
      "loss": 11.8033,
      "loss/aux_loss": 0.048099280893802644,
      "loss/crossentropy": 2.8881313681602476,
      "loss/logits": 0.9373392134904861,
      "step": 25340
    },
    {
      "epoch": 0.2535,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.7734212239583333,
      "learning_rate": 0.0003,
      "loss": 11.6623,
      "loss/aux_loss": 0.04808682128787041,
      "loss/crossentropy": 2.7554580926895142,
      "loss/logits": 0.8729925930500031,
      "step": 25350
    },
    {
      "epoch": 0.2536,
      "grad_norm": 12.125,
      "grad_norm_var": 0.687744140625,
      "learning_rate": 0.0003,
      "loss": 11.6251,
      "loss/aux_loss": 0.048085390403866765,
      "loss/crossentropy": 2.6890475332736967,
      "loss/logits": 0.8627552896738052,
      "step": 25360
    },
    {
      "epoch": 0.2537,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.4130045572916667,
      "learning_rate": 0.0003,
      "loss": 11.6627,
      "loss/aux_loss": 0.04808287601917982,
      "loss/crossentropy": 2.9235028862953185,
      "loss/logits": 0.9073904246091843,
      "step": 25370
    },
    {
      "epoch": 0.2538,
      "grad_norm": 12.875,
      "grad_norm_var": 0.6108723958333333,
      "learning_rate": 0.0003,
      "loss": 11.6099,
      "loss/aux_loss": 0.0480959203094244,
      "loss/crossentropy": 2.6273869574069977,
      "loss/logits": 0.8745059370994568,
      "step": 25380
    },
    {
      "epoch": 0.2539,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.6755208333333333,
      "learning_rate": 0.0003,
      "loss": 11.6251,
      "loss/aux_loss": 0.04807964153587818,
      "loss/crossentropy": 2.7656370401382446,
      "loss/logits": 0.8815957188606263,
      "step": 25390
    },
    {
      "epoch": 0.254,
      "grad_norm": 12.8125,
      "grad_norm_var": 4.477018229166666,
      "learning_rate": 0.0003,
      "loss": 11.8206,
      "loss/aux_loss": 0.048090039566159246,
      "loss/crossentropy": 2.8786653161048887,
      "loss/logits": 0.8921761155128479,
      "step": 25400
    },
    {
      "epoch": 0.2541,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.45514322916666666,
      "learning_rate": 0.0003,
      "loss": 11.6351,
      "loss/aux_loss": 0.048083982057869436,
      "loss/crossentropy": 2.8235522508621216,
      "loss/logits": 0.914072972536087,
      "step": 25410
    },
    {
      "epoch": 0.2542,
      "grad_norm": 12.5,
      "grad_norm_var": 0.38671875,
      "learning_rate": 0.0003,
      "loss": 11.5798,
      "loss/aux_loss": 0.04809177853167057,
      "loss/crossentropy": 2.6220124840736387,
      "loss/logits": 0.8807148039340973,
      "step": 25420
    },
    {
      "epoch": 0.2543,
      "grad_norm": 12.875,
      "grad_norm_var": 0.16027018229166667,
      "learning_rate": 0.0003,
      "loss": 11.6279,
      "loss/aux_loss": 0.04809038415551185,
      "loss/crossentropy": 2.70097331404686,
      "loss/logits": 0.8611227154731751,
      "step": 25430
    },
    {
      "epoch": 0.2544,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.840869140625,
      "learning_rate": 0.0003,
      "loss": 11.5793,
      "loss/aux_loss": 0.04807671457529068,
      "loss/crossentropy": 2.6667848229408264,
      "loss/logits": 0.8680727303028106,
      "step": 25440
    },
    {
      "epoch": 0.2545,
      "grad_norm": 12.3125,
      "grad_norm_var": 2.2770670572916667,
      "learning_rate": 0.0003,
      "loss": 11.5694,
      "loss/aux_loss": 0.04809817839413881,
      "loss/crossentropy": 2.905455070734024,
      "loss/logits": 0.9042976140975952,
      "step": 25450
    },
    {
      "epoch": 0.2546,
      "grad_norm": 12.125,
      "grad_norm_var": 1.07265625,
      "learning_rate": 0.0003,
      "loss": 11.7353,
      "loss/aux_loss": 0.04808375872671604,
      "loss/crossentropy": 2.9227493464946748,
      "loss/logits": 0.9188271731138229,
      "step": 25460
    },
    {
      "epoch": 0.2547,
      "grad_norm": 13.75,
      "grad_norm_var": 1.6091145833333333,
      "learning_rate": 0.0003,
      "loss": 11.8679,
      "loss/aux_loss": 0.048084712401032445,
      "loss/crossentropy": 2.888567340373993,
      "loss/logits": 0.8932348757982254,
      "step": 25470
    },
    {
      "epoch": 0.2548,
      "grad_norm": 12.125,
      "grad_norm_var": 2.026416015625,
      "learning_rate": 0.0003,
      "loss": 11.6388,
      "loss/aux_loss": 0.04808471277356148,
      "loss/crossentropy": 2.767711889743805,
      "loss/logits": 0.8723369985818863,
      "step": 25480
    },
    {
      "epoch": 0.2549,
      "grad_norm": 13.0,
      "grad_norm_var": 0.26458333333333334,
      "learning_rate": 0.0003,
      "loss": 11.6305,
      "loss/aux_loss": 0.048084079287946224,
      "loss/crossentropy": 2.7936369240283967,
      "loss/logits": 0.9237923324108124,
      "step": 25490
    },
    {
      "epoch": 0.255,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.2837890625,
      "learning_rate": 0.0003,
      "loss": 11.5733,
      "loss/aux_loss": 0.04808622878044844,
      "loss/crossentropy": 2.749346935749054,
      "loss/logits": 0.9049636125564575,
      "step": 25500
    },
    {
      "epoch": 0.2551,
      "grad_norm": 11.3125,
      "grad_norm_var": 0.6278483072916666,
      "learning_rate": 0.0003,
      "loss": 11.6192,
      "loss/aux_loss": 0.048095759376883505,
      "loss/crossentropy": 2.862506020069122,
      "loss/logits": 0.9004225820302963,
      "step": 25510
    },
    {
      "epoch": 0.2552,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.5340983072916666,
      "learning_rate": 0.0003,
      "loss": 11.6151,
      "loss/aux_loss": 0.048074688762426376,
      "loss/crossentropy": 2.6472591876983644,
      "loss/logits": 0.8818151533603669,
      "step": 25520
    },
    {
      "epoch": 0.2553,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.26764322916666666,
      "learning_rate": 0.0003,
      "loss": 11.7054,
      "loss/aux_loss": 0.048086194694042204,
      "loss/crossentropy": 2.7406247556209564,
      "loss/logits": 0.868209832906723,
      "step": 25530
    },
    {
      "epoch": 0.2554,
      "grad_norm": 12.375,
      "grad_norm_var": 0.19036458333333334,
      "learning_rate": 0.0003,
      "loss": 11.6693,
      "loss/aux_loss": 0.04809033088386059,
      "loss/crossentropy": 2.64967337846756,
      "loss/logits": 0.8649856716394424,
      "step": 25540
    },
    {
      "epoch": 0.2555,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.5400390625,
      "learning_rate": 0.0003,
      "loss": 11.6214,
      "loss/aux_loss": 0.04808993134647608,
      "loss/crossentropy": 2.640416944026947,
      "loss/logits": 0.85947944521904,
      "step": 25550
    },
    {
      "epoch": 0.2556,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.6822265625,
      "learning_rate": 0.0003,
      "loss": 11.5651,
      "loss/aux_loss": 0.04808539263904095,
      "loss/crossentropy": 2.7396462678909304,
      "loss/logits": 0.8959068596363068,
      "step": 25560
    },
    {
      "epoch": 0.2557,
      "grad_norm": 11.5625,
      "grad_norm_var": 1.1291666666666667,
      "learning_rate": 0.0003,
      "loss": 11.3876,
      "loss/aux_loss": 0.048090565018355846,
      "loss/crossentropy": 2.7080013751983643,
      "loss/logits": 0.8827524572610855,
      "step": 25570
    },
    {
      "epoch": 0.2558,
      "grad_norm": 12.375,
      "grad_norm_var": 1.1947916666666667,
      "learning_rate": 0.0003,
      "loss": 11.7393,
      "loss/aux_loss": 0.0480854069814086,
      "loss/crossentropy": 2.8358673214912415,
      "loss/logits": 0.9099754065275192,
      "step": 25580
    },
    {
      "epoch": 0.2559,
      "grad_norm": 12.625,
      "grad_norm_var": 0.8205729166666667,
      "learning_rate": 0.0003,
      "loss": 11.5309,
      "loss/aux_loss": 0.048086575232446194,
      "loss/crossentropy": 2.6382982313632963,
      "loss/logits": 0.8928437829017639,
      "step": 25590
    },
    {
      "epoch": 0.256,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.19763997395833333,
      "learning_rate": 0.0003,
      "loss": 11.5599,
      "loss/aux_loss": 0.0480822779238224,
      "loss/crossentropy": 2.821625292301178,
      "loss/logits": 0.8573364794254303,
      "step": 25600
    },
    {
      "epoch": 0.2561,
      "grad_norm": 12.625,
      "grad_norm_var": 0.8898274739583333,
      "learning_rate": 0.0003,
      "loss": 11.5878,
      "loss/aux_loss": 0.04809480402618647,
      "loss/crossentropy": 2.7832887768745422,
      "loss/logits": 0.8507031291723252,
      "step": 25610
    },
    {
      "epoch": 0.2562,
      "grad_norm": 13.125,
      "grad_norm_var": 0.9608723958333333,
      "learning_rate": 0.0003,
      "loss": 11.5664,
      "loss/aux_loss": 0.04807593021541834,
      "loss/crossentropy": 2.731532007455826,
      "loss/logits": 0.8629953473806381,
      "step": 25620
    },
    {
      "epoch": 0.2563,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.45558268229166665,
      "learning_rate": 0.0003,
      "loss": 11.759,
      "loss/aux_loss": 0.048087543621659276,
      "loss/crossentropy": 2.854618912935257,
      "loss/logits": 0.9120256692171097,
      "step": 25630
    },
    {
      "epoch": 0.2564,
      "grad_norm": 11.5625,
      "grad_norm_var": 0.35390625,
      "learning_rate": 0.0003,
      "loss": 11.6293,
      "loss/aux_loss": 0.04808175507932901,
      "loss/crossentropy": 2.798936349153519,
      "loss/logits": 0.8882687538862228,
      "step": 25640
    },
    {
      "epoch": 0.2565,
      "grad_norm": 12.3125,
      "grad_norm_var": 1.4824055989583333,
      "learning_rate": 0.0003,
      "loss": 11.5947,
      "loss/aux_loss": 0.04808369390666485,
      "loss/crossentropy": 2.745366007089615,
      "loss/logits": 0.8873745143413544,
      "step": 25650
    },
    {
      "epoch": 0.2566,
      "grad_norm": 13.75,
      "grad_norm_var": 1.8715983072916667,
      "learning_rate": 0.0003,
      "loss": 11.6324,
      "loss/aux_loss": 0.04809246361255646,
      "loss/crossentropy": 2.9094391226768495,
      "loss/logits": 0.890197029709816,
      "step": 25660
    },
    {
      "epoch": 0.2567,
      "grad_norm": 13.5,
      "grad_norm_var": 0.9082682291666667,
      "learning_rate": 0.0003,
      "loss": 11.5822,
      "loss/aux_loss": 0.04809121619910002,
      "loss/crossentropy": 2.8318686723709106,
      "loss/logits": 0.8528442829847336,
      "step": 25670
    },
    {
      "epoch": 0.2568,
      "grad_norm": 13.0,
      "grad_norm_var": 0.335400390625,
      "learning_rate": 0.0003,
      "loss": 11.6176,
      "loss/aux_loss": 0.04808668699115515,
      "loss/crossentropy": 2.590553969144821,
      "loss/logits": 0.8228752464056015,
      "step": 25680
    },
    {
      "epoch": 0.2569,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.34427083333333336,
      "learning_rate": 0.0003,
      "loss": 11.8269,
      "loss/aux_loss": 0.04809065740555525,
      "loss/crossentropy": 2.8544575750827788,
      "loss/logits": 0.8806323766708374,
      "step": 25690
    },
    {
      "epoch": 0.257,
      "grad_norm": 13.3125,
      "grad_norm_var": 14.973177083333333,
      "learning_rate": 0.0003,
      "loss": 11.6281,
      "loss/aux_loss": 0.048080390132963655,
      "loss/crossentropy": 2.8158641815185548,
      "loss/logits": 0.9019149035215378,
      "step": 25700
    },
    {
      "epoch": 0.2571,
      "grad_norm": 14.5625,
      "grad_norm_var": 14.9875,
      "learning_rate": 0.0003,
      "loss": 11.7727,
      "loss/aux_loss": 0.04808665197342634,
      "loss/crossentropy": 2.745079851150513,
      "loss/logits": 0.9046284675598144,
      "step": 25710
    },
    {
      "epoch": 0.2572,
      "grad_norm": 13.4375,
      "grad_norm_var": 1.815869140625,
      "learning_rate": 0.0003,
      "loss": 11.6452,
      "loss/aux_loss": 0.048082825168967246,
      "loss/crossentropy": 2.678209352493286,
      "loss/logits": 0.8738999456167221,
      "step": 25720
    },
    {
      "epoch": 0.2573,
      "grad_norm": 12.25,
      "grad_norm_var": 0.8992024739583333,
      "learning_rate": 0.0003,
      "loss": 11.5744,
      "loss/aux_loss": 0.04809469617903232,
      "loss/crossentropy": 2.65126051902771,
      "loss/logits": 0.8762364238500595,
      "step": 25730
    },
    {
      "epoch": 0.2574,
      "grad_norm": 13.25,
      "grad_norm_var": 0.5166015625,
      "learning_rate": 0.0003,
      "loss": 11.5408,
      "loss/aux_loss": 0.04808213766664267,
      "loss/crossentropy": 2.7597130656242372,
      "loss/logits": 0.8789749413728714,
      "step": 25740
    },
    {
      "epoch": 0.2575,
      "grad_norm": 12.875,
      "grad_norm_var": 0.3753743489583333,
      "learning_rate": 0.0003,
      "loss": 11.5427,
      "loss/aux_loss": 0.0480932829901576,
      "loss/crossentropy": 2.783565378189087,
      "loss/logits": 0.8482154309749603,
      "step": 25750
    },
    {
      "epoch": 0.2576,
      "grad_norm": 13.5,
      "grad_norm_var": 0.131103515625,
      "learning_rate": 0.0003,
      "loss": 11.6673,
      "loss/aux_loss": 0.04809057265520096,
      "loss/crossentropy": 2.7950429677963258,
      "loss/logits": 0.8746149778366089,
      "step": 25760
    },
    {
      "epoch": 0.2577,
      "grad_norm": 13.375,
      "grad_norm_var": 0.22864583333333333,
      "learning_rate": 0.0003,
      "loss": 11.7949,
      "loss/aux_loss": 0.04808306787163019,
      "loss/crossentropy": 2.7718122243881225,
      "loss/logits": 0.9080736309289932,
      "step": 25770
    },
    {
      "epoch": 0.2578,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.50625,
      "learning_rate": 0.0003,
      "loss": 11.6395,
      "loss/aux_loss": 0.04808392096310854,
      "loss/crossentropy": 2.849545049667358,
      "loss/logits": 0.9059659481048584,
      "step": 25780
    },
    {
      "epoch": 0.2579,
      "grad_norm": 13.375,
      "grad_norm_var": 0.4791666666666667,
      "learning_rate": 0.0003,
      "loss": 11.6708,
      "loss/aux_loss": 0.048084107041358945,
      "loss/crossentropy": 2.835736083984375,
      "loss/logits": 0.8999375015497207,
      "step": 25790
    },
    {
      "epoch": 0.258,
      "grad_norm": 13.625,
      "grad_norm_var": 0.36638997395833334,
      "learning_rate": 0.0003,
      "loss": 11.6178,
      "loss/aux_loss": 0.048090285435318944,
      "loss/crossentropy": 2.8020094275474547,
      "loss/logits": 0.8916181594133377,
      "step": 25800
    },
    {
      "epoch": 0.2581,
      "grad_norm": 12.375,
      "grad_norm_var": 0.3465983072916667,
      "learning_rate": 0.0003,
      "loss": 11.4354,
      "loss/aux_loss": 0.04808872099965811,
      "loss/crossentropy": 2.652283215522766,
      "loss/logits": 0.8868981301784515,
      "step": 25810
    },
    {
      "epoch": 0.2582,
      "grad_norm": 12.75,
      "grad_norm_var": 0.18787434895833333,
      "learning_rate": 0.0003,
      "loss": 11.6028,
      "loss/aux_loss": 0.04808285553008318,
      "loss/crossentropy": 2.6281425058841705,
      "loss/logits": 0.8745265692472458,
      "step": 25820
    },
    {
      "epoch": 0.2583,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.23671875,
      "learning_rate": 0.0003,
      "loss": 11.7574,
      "loss/aux_loss": 0.048094558902084826,
      "loss/crossentropy": 2.900680327415466,
      "loss/logits": 0.8990511387586594,
      "step": 25830
    },
    {
      "epoch": 0.2584,
      "grad_norm": 13.25,
      "grad_norm_var": 12.904166666666667,
      "learning_rate": 0.0003,
      "loss": 11.5865,
      "loss/aux_loss": 0.0480920797213912,
      "loss/crossentropy": 2.7239894449710844,
      "loss/logits": 0.8879533141851426,
      "step": 25840
    },
    {
      "epoch": 0.2585,
      "grad_norm": 14.3125,
      "grad_norm_var": 12.797379557291666,
      "learning_rate": 0.0003,
      "loss": 11.4818,
      "loss/aux_loss": 0.0480831490829587,
      "loss/crossentropy": 2.729900598526001,
      "loss/logits": 0.8634632736444473,
      "step": 25850
    },
    {
      "epoch": 0.2586,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.5343098958333333,
      "learning_rate": 0.0003,
      "loss": 11.6186,
      "loss/aux_loss": 0.048087738640606406,
      "loss/crossentropy": 2.9004143357276915,
      "loss/logits": 0.9239776521921158,
      "step": 25860
    },
    {
      "epoch": 0.2587,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.45286458333333335,
      "learning_rate": 0.0003,
      "loss": 11.5712,
      "loss/aux_loss": 0.04809346161782742,
      "loss/crossentropy": 2.6097486078739167,
      "loss/logits": 0.8526429146528244,
      "step": 25870
    },
    {
      "epoch": 0.2588,
      "grad_norm": 14.25,
      "grad_norm_var": 0.6369140625,
      "learning_rate": 0.0003,
      "loss": 11.6677,
      "loss/aux_loss": 0.04809065666049719,
      "loss/crossentropy": 2.687888467311859,
      "loss/logits": 0.857833543419838,
      "step": 25880
    },
    {
      "epoch": 0.2589,
      "grad_norm": 13.5,
      "grad_norm_var": 0.5983723958333333,
      "learning_rate": 0.0003,
      "loss": 11.7092,
      "loss/aux_loss": 0.04807872045785189,
      "loss/crossentropy": 2.8037472486495973,
      "loss/logits": 0.8581808120012283,
      "step": 25890
    },
    {
      "epoch": 0.259,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.6403483072916667,
      "learning_rate": 0.0003,
      "loss": 11.6719,
      "loss/aux_loss": 0.04809915721416473,
      "loss/crossentropy": 2.8186557054519654,
      "loss/logits": 0.8756254881620407,
      "step": 25900
    },
    {
      "epoch": 0.2591,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.6071451822916667,
      "learning_rate": 0.0003,
      "loss": 11.6912,
      "loss/aux_loss": 0.04807936530560255,
      "loss/crossentropy": 2.649220663309097,
      "loss/logits": 0.8669601738452911,
      "step": 25910
    },
    {
      "epoch": 0.2592,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.38136393229166665,
      "learning_rate": 0.0003,
      "loss": 11.5527,
      "loss/aux_loss": 0.04808104652911425,
      "loss/crossentropy": 2.690031635761261,
      "loss/logits": 0.8827971279621124,
      "step": 25920
    },
    {
      "epoch": 0.2593,
      "grad_norm": 12.75,
      "grad_norm_var": 0.2999348958333333,
      "learning_rate": 0.0003,
      "loss": 11.5134,
      "loss/aux_loss": 0.04808360021561384,
      "loss/crossentropy": 2.661074286699295,
      "loss/logits": 0.8508890032768249,
      "step": 25930
    },
    {
      "epoch": 0.2594,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.33541666666666664,
      "learning_rate": 0.0003,
      "loss": 11.6292,
      "loss/aux_loss": 0.04808128103613853,
      "loss/crossentropy": 2.8447935700416567,
      "loss/logits": 0.9187151223421097,
      "step": 25940
    },
    {
      "epoch": 0.2595,
      "grad_norm": 13.1875,
      "grad_norm_var": 67.79713541666666,
      "learning_rate": 0.0003,
      "loss": 11.6673,
      "loss/aux_loss": 0.04809282161295414,
      "loss/crossentropy": 2.7433357715606688,
      "loss/logits": 0.8858923971652984,
      "step": 25950
    },
    {
      "epoch": 0.2596,
      "grad_norm": 12.5625,
      "grad_norm_var": 67.778369140625,
      "learning_rate": 0.0003,
      "loss": 11.5163,
      "loss/aux_loss": 0.04808433465659619,
      "loss/crossentropy": 2.951106083393097,
      "loss/logits": 0.8900610029697418,
      "step": 25960
    },
    {
      "epoch": 0.2597,
      "grad_norm": 12.875,
      "grad_norm_var": 0.17355143229166667,
      "learning_rate": 0.0003,
      "loss": 11.6586,
      "loss/aux_loss": 0.048085383325815204,
      "loss/crossentropy": 2.7705465078353884,
      "loss/logits": 0.873355257511139,
      "step": 25970
    },
    {
      "epoch": 0.2598,
      "grad_norm": 12.375,
      "grad_norm_var": 0.315478515625,
      "learning_rate": 0.0003,
      "loss": 11.5712,
      "loss/aux_loss": 0.04809144306927919,
      "loss/crossentropy": 2.6246292769908903,
      "loss/logits": 0.8274095565080642,
      "step": 25980
    },
    {
      "epoch": 0.2599,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.2718098958333333,
      "learning_rate": 0.0003,
      "loss": 11.6178,
      "loss/aux_loss": 0.04809448383748531,
      "loss/crossentropy": 2.7689568281173704,
      "loss/logits": 0.8811231583356858,
      "step": 25990
    },
    {
      "epoch": 0.26,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.435400390625,
      "learning_rate": 0.0003,
      "loss": 11.5572,
      "loss/aux_loss": 0.04808851294219494,
      "loss/crossentropy": 2.837930643558502,
      "loss/logits": 0.8556112885475159,
      "step": 26000
    },
    {
      "epoch": 0.2601,
      "grad_norm": 12.75,
      "grad_norm_var": 0.48951822916666665,
      "learning_rate": 0.0003,
      "loss": 11.4797,
      "loss/aux_loss": 0.04808756932616234,
      "loss/crossentropy": 2.7235122978687287,
      "loss/logits": 0.846416375041008,
      "step": 26010
    },
    {
      "epoch": 0.2602,
      "grad_norm": 12.75,
      "grad_norm_var": 0.22369791666666666,
      "learning_rate": 0.0003,
      "loss": 11.4731,
      "loss/aux_loss": 0.04808957688510418,
      "loss/crossentropy": 2.7550492763519285,
      "loss/logits": 0.8788383483886719,
      "step": 26020
    },
    {
      "epoch": 0.2603,
      "grad_norm": 11.6875,
      "grad_norm_var": 0.282275390625,
      "learning_rate": 0.0003,
      "loss": 11.447,
      "loss/aux_loss": 0.04809210356324911,
      "loss/crossentropy": 2.713481593132019,
      "loss/logits": 0.8958616107702255,
      "step": 26030
    },
    {
      "epoch": 0.2604,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.9640625,
      "learning_rate": 0.0003,
      "loss": 11.7818,
      "loss/aux_loss": 0.04807912241667509,
      "loss/crossentropy": 2.9397593259811403,
      "loss/logits": 0.8796298056840897,
      "step": 26040
    },
    {
      "epoch": 0.2605,
      "grad_norm": 13.375,
      "grad_norm_var": 0.8477701822916667,
      "learning_rate": 0.0003,
      "loss": 11.5145,
      "loss/aux_loss": 0.048083426989614965,
      "loss/crossentropy": 2.6227431118488314,
      "loss/logits": 0.9062366098165512,
      "step": 26050
    },
    {
      "epoch": 0.2606,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.5407389322916667,
      "learning_rate": 0.0003,
      "loss": 11.7285,
      "loss/aux_loss": 0.048087958618998526,
      "loss/crossentropy": 2.8171847641468046,
      "loss/logits": 0.8737149238586426,
      "step": 26060
    },
    {
      "epoch": 0.2607,
      "grad_norm": 13.125,
      "grad_norm_var": 0.6838541666666667,
      "learning_rate": 0.0003,
      "loss": 11.591,
      "loss/aux_loss": 0.04808755628764629,
      "loss/crossentropy": 2.6662391245365145,
      "loss/logits": 0.8623921722173691,
      "step": 26070
    },
    {
      "epoch": 0.2608,
      "grad_norm": 12.875,
      "grad_norm_var": 0.23904622395833333,
      "learning_rate": 0.0003,
      "loss": 11.3801,
      "loss/aux_loss": 0.04808433074504137,
      "loss/crossentropy": 2.7102749705314637,
      "loss/logits": 0.8698142647743226,
      "step": 26080
    },
    {
      "epoch": 0.2609,
      "grad_norm": 12.625,
      "grad_norm_var": 0.2552083333333333,
      "learning_rate": 0.0003,
      "loss": 11.6073,
      "loss/aux_loss": 0.048082430846989155,
      "loss/crossentropy": 2.717993235588074,
      "loss/logits": 0.9071961134672165,
      "step": 26090
    },
    {
      "epoch": 0.261,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.5120930989583333,
      "learning_rate": 0.0003,
      "loss": 11.5483,
      "loss/aux_loss": 0.048091440461575985,
      "loss/crossentropy": 2.642581123113632,
      "loss/logits": 0.8533870339393616,
      "step": 26100
    },
    {
      "epoch": 0.2611,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.5610514322916667,
      "learning_rate": 0.0003,
      "loss": 11.5351,
      "loss/aux_loss": 0.04807432852685452,
      "loss/crossentropy": 2.754035633802414,
      "loss/logits": 0.8514756739139557,
      "step": 26110
    },
    {
      "epoch": 0.2612,
      "grad_norm": 12.75,
      "grad_norm_var": 0.4058430989583333,
      "learning_rate": 0.0003,
      "loss": 11.5255,
      "loss/aux_loss": 0.048089875094592574,
      "loss/crossentropy": 2.742984265089035,
      "loss/logits": 0.8871752589941024,
      "step": 26120
    },
    {
      "epoch": 0.2613,
      "grad_norm": 11.0,
      "grad_norm_var": 0.46640625,
      "learning_rate": 0.0003,
      "loss": 11.619,
      "loss/aux_loss": 0.04808270148932934,
      "loss/crossentropy": 2.87599663734436,
      "loss/logits": 0.887411966919899,
      "step": 26130
    },
    {
      "epoch": 0.2614,
      "grad_norm": 13.875,
      "grad_norm_var": 0.481494140625,
      "learning_rate": 0.0003,
      "loss": 11.7214,
      "loss/aux_loss": 0.04808396827429533,
      "loss/crossentropy": 2.8104442954063416,
      "loss/logits": 0.9045211106538773,
      "step": 26140
    },
    {
      "epoch": 0.2615,
      "grad_norm": 12.5,
      "grad_norm_var": 0.326025390625,
      "learning_rate": 0.0003,
      "loss": 11.5677,
      "loss/aux_loss": 0.048081147111952306,
      "loss/crossentropy": 2.7364437103271486,
      "loss/logits": 0.8579443216323852,
      "step": 26150
    },
    {
      "epoch": 0.2616,
      "grad_norm": 12.5,
      "grad_norm_var": 0.48587239583333336,
      "learning_rate": 0.0003,
      "loss": 11.7239,
      "loss/aux_loss": 0.04808290041983128,
      "loss/crossentropy": 2.8139244556427,
      "loss/logits": 0.9172647058963775,
      "step": 26160
    },
    {
      "epoch": 0.2617,
      "grad_norm": 12.375,
      "grad_norm_var": 0.2626139322916667,
      "learning_rate": 0.0003,
      "loss": 11.6432,
      "loss/aux_loss": 0.04808450732380152,
      "loss/crossentropy": 2.843486213684082,
      "loss/logits": 0.8691521465778351,
      "step": 26170
    },
    {
      "epoch": 0.2618,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.27615559895833336,
      "learning_rate": 0.0003,
      "loss": 11.6097,
      "loss/aux_loss": 0.04808285385370255,
      "loss/crossentropy": 2.858822929859161,
      "loss/logits": 0.9088696330785752,
      "step": 26180
    },
    {
      "epoch": 0.2619,
      "grad_norm": 13.25,
      "grad_norm_var": 5.26015625,
      "learning_rate": 0.0003,
      "loss": 11.6214,
      "loss/aux_loss": 0.048090561851859094,
      "loss/crossentropy": 2.7624371886253356,
      "loss/logits": 0.8909125179052353,
      "step": 26190
    },
    {
      "epoch": 0.262,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.24112955729166666,
      "learning_rate": 0.0003,
      "loss": 11.5151,
      "loss/aux_loss": 0.04809354785829782,
      "loss/crossentropy": 2.7231006741523744,
      "loss/logits": 0.8609473258256912,
      "step": 26200
    },
    {
      "epoch": 0.2621,
      "grad_norm": 12.625,
      "grad_norm_var": 0.21354166666666666,
      "learning_rate": 0.0003,
      "loss": 11.5397,
      "loss/aux_loss": 0.048093443363904954,
      "loss/crossentropy": 2.785054862499237,
      "loss/logits": 0.8880521357059479,
      "step": 26210
    },
    {
      "epoch": 0.2622,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.42849934895833336,
      "learning_rate": 0.0003,
      "loss": 11.6959,
      "loss/aux_loss": 0.04808842465281486,
      "loss/crossentropy": 2.5711670517921448,
      "loss/logits": 0.8366287380456925,
      "step": 26220
    },
    {
      "epoch": 0.2623,
      "grad_norm": 13.125,
      "grad_norm_var": 0.404931640625,
      "learning_rate": 0.0003,
      "loss": 11.5461,
      "loss/aux_loss": 0.04808579571545124,
      "loss/crossentropy": 2.6578098058700563,
      "loss/logits": 0.826743358373642,
      "step": 26230
    },
    {
      "epoch": 0.2624,
      "grad_norm": 12.5,
      "grad_norm_var": 0.44212239583333335,
      "learning_rate": 0.0003,
      "loss": 11.7337,
      "loss/aux_loss": 0.04809788726270199,
      "loss/crossentropy": 2.923408627510071,
      "loss/logits": 0.9030967593193054,
      "step": 26240
    },
    {
      "epoch": 0.2625,
      "grad_norm": 12.375,
      "grad_norm_var": 0.3395182291666667,
      "learning_rate": 0.0003,
      "loss": 11.5184,
      "loss/aux_loss": 0.04807977341115475,
      "loss/crossentropy": 2.7566078901290894,
      "loss/logits": 0.8837383359670639,
      "step": 26250
    },
    {
      "epoch": 0.2626,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.50546875,
      "learning_rate": 0.0003,
      "loss": 11.4649,
      "loss/aux_loss": 0.04808521345257759,
      "loss/crossentropy": 2.762271225452423,
      "loss/logits": 0.849093359708786,
      "step": 26260
    },
    {
      "epoch": 0.2627,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.6986979166666667,
      "learning_rate": 0.0003,
      "loss": 11.5331,
      "loss/aux_loss": 0.04808817598968744,
      "loss/crossentropy": 2.7467776775360107,
      "loss/logits": 0.875149542093277,
      "step": 26270
    },
    {
      "epoch": 0.2628,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4869140625,
      "learning_rate": 0.0003,
      "loss": 11.5921,
      "loss/aux_loss": 0.04808767884969711,
      "loss/crossentropy": 2.7188161492347716,
      "loss/logits": 0.8897079229354858,
      "step": 26280
    },
    {
      "epoch": 0.2629,
      "grad_norm": 14.5625,
      "grad_norm_var": 5.152018229166667,
      "learning_rate": 0.0003,
      "loss": 11.5294,
      "loss/aux_loss": 0.048097186163067816,
      "loss/crossentropy": 2.8574177980422975,
      "loss/logits": 0.8552042752504349,
      "step": 26290
    },
    {
      "epoch": 0.263,
      "grad_norm": 12.625,
      "grad_norm_var": 5.252978515625,
      "learning_rate": 0.0003,
      "loss": 11.7339,
      "loss/aux_loss": 0.04809401351958513,
      "loss/crossentropy": 2.900586748123169,
      "loss/logits": 0.9175508260726929,
      "step": 26300
    },
    {
      "epoch": 0.2631,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.36300455729166664,
      "learning_rate": 0.0003,
      "loss": 11.8741,
      "loss/aux_loss": 0.04807520993053913,
      "loss/crossentropy": 2.955962133407593,
      "loss/logits": 0.8903858751058579,
      "step": 26310
    },
    {
      "epoch": 0.2632,
      "grad_norm": 13.375,
      "grad_norm_var": 0.33006184895833335,
      "learning_rate": 0.0003,
      "loss": 11.6969,
      "loss/aux_loss": 0.04809126146137714,
      "loss/crossentropy": 2.8080713510513307,
      "loss/logits": 0.8494821518659592,
      "step": 26320
    },
    {
      "epoch": 0.2633,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.5207682291666667,
      "learning_rate": 0.0003,
      "loss": 11.6019,
      "loss/aux_loss": 0.04808663856238127,
      "loss/crossentropy": 2.8642470121383665,
      "loss/logits": 0.869270795583725,
      "step": 26330
    },
    {
      "epoch": 0.2634,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.13592122395833334,
      "learning_rate": 0.0003,
      "loss": 11.6974,
      "loss/aux_loss": 0.04808529764413834,
      "loss/crossentropy": 2.7711823523044585,
      "loss/logits": 0.89097281396389,
      "step": 26340
    },
    {
      "epoch": 0.2635,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.22342122395833333,
      "learning_rate": 0.0003,
      "loss": 11.6506,
      "loss/aux_loss": 0.04808674547821283,
      "loss/crossentropy": 2.8846903085708617,
      "loss/logits": 0.8763628363609314,
      "step": 26350
    },
    {
      "epoch": 0.2636,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.3492024739583333,
      "learning_rate": 0.0003,
      "loss": 11.6322,
      "loss/aux_loss": 0.048084713704884055,
      "loss/crossentropy": 2.593327397108078,
      "loss/logits": 0.8438139349222183,
      "step": 26360
    },
    {
      "epoch": 0.2637,
      "grad_norm": 11.875,
      "grad_norm_var": 0.308056640625,
      "learning_rate": 0.0003,
      "loss": 11.7669,
      "loss/aux_loss": 0.048082432709634304,
      "loss/crossentropy": 2.8110472738742827,
      "loss/logits": 0.9003132045269012,
      "step": 26370
    },
    {
      "epoch": 0.2638,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.28177083333333336,
      "learning_rate": 0.0003,
      "loss": 11.6746,
      "loss/aux_loss": 0.04809358026832342,
      "loss/crossentropy": 2.8158118963241576,
      "loss/logits": 0.8962694942951203,
      "step": 26380
    },
    {
      "epoch": 0.2639,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.706103515625,
      "learning_rate": 0.0003,
      "loss": 11.6306,
      "loss/aux_loss": 0.048089638352394104,
      "loss/crossentropy": 2.935623896121979,
      "loss/logits": 0.8567668348550797,
      "step": 26390
    },
    {
      "epoch": 0.264,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.8358723958333333,
      "learning_rate": 0.0003,
      "loss": 11.6547,
      "loss/aux_loss": 0.04807798489928246,
      "loss/crossentropy": 2.7165545761585235,
      "loss/logits": 0.8737062573432922,
      "step": 26400
    },
    {
      "epoch": 0.2641,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.24270833333333333,
      "learning_rate": 0.0003,
      "loss": 11.5237,
      "loss/aux_loss": 0.048086860589683054,
      "loss/crossentropy": 2.733562481403351,
      "loss/logits": 0.8268854200839997,
      "step": 26410
    },
    {
      "epoch": 0.2642,
      "grad_norm": 14.125,
      "grad_norm_var": 0.341650390625,
      "learning_rate": 0.0003,
      "loss": 11.6531,
      "loss/aux_loss": 0.048096845485270025,
      "loss/crossentropy": 2.649859589338303,
      "loss/logits": 0.8604597598314285,
      "step": 26420
    },
    {
      "epoch": 0.2643,
      "grad_norm": 13.5,
      "grad_norm_var": 0.2969889322916667,
      "learning_rate": 0.0003,
      "loss": 11.4639,
      "loss/aux_loss": 0.0480915080755949,
      "loss/crossentropy": 2.7871899247169494,
      "loss/logits": 0.8752772063016891,
      "step": 26430
    },
    {
      "epoch": 0.2644,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.21451822916666666,
      "learning_rate": 0.0003,
      "loss": 11.6634,
      "loss/aux_loss": 0.04808179382234812,
      "loss/crossentropy": 2.647487211227417,
      "loss/logits": 0.8647993594408036,
      "step": 26440
    },
    {
      "epoch": 0.2645,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.248681640625,
      "learning_rate": 0.0003,
      "loss": 11.5747,
      "loss/aux_loss": 0.0480790950357914,
      "loss/crossentropy": 2.751650595664978,
      "loss/logits": 0.9247609049081802,
      "step": 26450
    },
    {
      "epoch": 0.2646,
      "grad_norm": 12.375,
      "grad_norm_var": 0.15052083333333333,
      "learning_rate": 0.0003,
      "loss": 11.3959,
      "loss/aux_loss": 0.04808844346553087,
      "loss/crossentropy": 2.733932113647461,
      "loss/logits": 0.854560700058937,
      "step": 26460
    },
    {
      "epoch": 0.2647,
      "grad_norm": 13.0625,
      "grad_norm_var": 1.4692057291666667,
      "learning_rate": 0.0003,
      "loss": 11.6134,
      "loss/aux_loss": 0.04808341935276985,
      "loss/crossentropy": 2.7537252068519593,
      "loss/logits": 0.8283010810613632,
      "step": 26470
    },
    {
      "epoch": 0.2648,
      "grad_norm": 12.625,
      "grad_norm_var": 0.579541015625,
      "learning_rate": 0.0003,
      "loss": 11.6445,
      "loss/aux_loss": 0.04808064494282007,
      "loss/crossentropy": 2.715360426902771,
      "loss/logits": 0.8789581745862961,
      "step": 26480
    },
    {
      "epoch": 0.2649,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.43683268229166666,
      "learning_rate": 0.0003,
      "loss": 11.5003,
      "loss/aux_loss": 0.04808939713984728,
      "loss/crossentropy": 2.752163290977478,
      "loss/logits": 0.8825481355190277,
      "step": 26490
    },
    {
      "epoch": 0.265,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.44138997395833335,
      "learning_rate": 0.0003,
      "loss": 11.4298,
      "loss/aux_loss": 0.04808378238230944,
      "loss/crossentropy": 2.66518457531929,
      "loss/logits": 0.8795353204011918,
      "step": 26500
    },
    {
      "epoch": 0.2651,
      "grad_norm": 13.375,
      "grad_norm_var": 1.1955729166666667,
      "learning_rate": 0.0003,
      "loss": 11.5447,
      "loss/aux_loss": 0.048084886930882934,
      "loss/crossentropy": 2.7104385554790498,
      "loss/logits": 0.8602730393409729,
      "step": 26510
    },
    {
      "epoch": 0.2652,
      "grad_norm": 12.1875,
      "grad_norm_var": 1.5015462239583333,
      "learning_rate": 0.0003,
      "loss": 11.5465,
      "loss/aux_loss": 0.04808354377746582,
      "loss/crossentropy": 2.6698466658592226,
      "loss/logits": 0.8915825933218002,
      "step": 26520
    },
    {
      "epoch": 0.2653,
      "grad_norm": 13.25,
      "grad_norm_var": 0.8618326822916667,
      "learning_rate": 0.0003,
      "loss": 11.3179,
      "loss/aux_loss": 0.04808184951543808,
      "loss/crossentropy": 2.778967833518982,
      "loss/logits": 0.8605857610702514,
      "step": 26530
    },
    {
      "epoch": 0.2654,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.7886555989583334,
      "learning_rate": 0.0003,
      "loss": 11.6822,
      "loss/aux_loss": 0.04807785861194134,
      "loss/crossentropy": 2.9185683012008665,
      "loss/logits": 0.876692533493042,
      "step": 26540
    },
    {
      "epoch": 0.2655,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.366650390625,
      "learning_rate": 0.0003,
      "loss": 11.6013,
      "loss/aux_loss": 0.04808231629431248,
      "loss/crossentropy": 2.7370326638221742,
      "loss/logits": 0.867209044098854,
      "step": 26550
    },
    {
      "epoch": 0.2656,
      "grad_norm": 14.125,
      "grad_norm_var": 0.47784830729166666,
      "learning_rate": 0.0003,
      "loss": 11.5959,
      "loss/aux_loss": 0.0480883315205574,
      "loss/crossentropy": 2.799232506752014,
      "loss/logits": 0.8930830955505371,
      "step": 26560
    },
    {
      "epoch": 0.2657,
      "grad_norm": 12.125,
      "grad_norm_var": 0.6108723958333333,
      "learning_rate": 0.0003,
      "loss": 11.6437,
      "loss/aux_loss": 0.04807663895189762,
      "loss/crossentropy": 2.7677125334739685,
      "loss/logits": 0.9062906086444855,
      "step": 26570
    },
    {
      "epoch": 0.2658,
      "grad_norm": 12.375,
      "grad_norm_var": 0.232275390625,
      "learning_rate": 0.0003,
      "loss": 11.4253,
      "loss/aux_loss": 0.04809227138757706,
      "loss/crossentropy": 2.684408128261566,
      "loss/logits": 0.878808343410492,
      "step": 26580
    },
    {
      "epoch": 0.2659,
      "grad_norm": 13.75,
      "grad_norm_var": 0.4923014322916667,
      "learning_rate": 0.0003,
      "loss": 11.5427,
      "loss/aux_loss": 0.04807818587869406,
      "loss/crossentropy": 2.9242777824401855,
      "loss/logits": 0.8927222698926925,
      "step": 26590
    },
    {
      "epoch": 0.266,
      "grad_norm": 13.625,
      "grad_norm_var": 0.483056640625,
      "learning_rate": 0.0003,
      "loss": 11.5401,
      "loss/aux_loss": 0.04808124490082264,
      "loss/crossentropy": 2.8354394733905792,
      "loss/logits": 0.8955871939659119,
      "step": 26600
    },
    {
      "epoch": 0.2661,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.9447916666666667,
      "learning_rate": 0.0003,
      "loss": 11.5013,
      "loss/aux_loss": 0.04808798339217901,
      "loss/crossentropy": 2.9905380249023437,
      "loss/logits": 0.9007535576820374,
      "step": 26610
    },
    {
      "epoch": 0.2662,
      "grad_norm": 11.875,
      "grad_norm_var": 0.6120930989583333,
      "learning_rate": 0.0003,
      "loss": 11.4842,
      "loss/aux_loss": 0.04808419458568096,
      "loss/crossentropy": 2.6949995160102844,
      "loss/logits": 0.8447135239839554,
      "step": 26620
    },
    {
      "epoch": 0.2663,
      "grad_norm": 11.5,
      "grad_norm_var": 0.5355305989583333,
      "learning_rate": 0.0003,
      "loss": 11.5274,
      "loss/aux_loss": 0.048078814335167405,
      "loss/crossentropy": 2.6906064808368684,
      "loss/logits": 0.9114213407039642,
      "step": 26630
    },
    {
      "epoch": 0.2664,
      "grad_norm": 15.625,
      "grad_norm_var": 0.9187337239583333,
      "learning_rate": 0.0003,
      "loss": 11.6276,
      "loss/aux_loss": 0.048075567744672296,
      "loss/crossentropy": 2.8382048666477204,
      "loss/logits": 0.8896595865488053,
      "step": 26640
    },
    {
      "epoch": 0.2665,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.5497395833333333,
      "learning_rate": 0.0003,
      "loss": 11.7462,
      "loss/aux_loss": 0.048085755482316014,
      "loss/crossentropy": 2.9384037852287292,
      "loss/logits": 0.8757476270198822,
      "step": 26650
    },
    {
      "epoch": 0.2666,
      "grad_norm": 14.375,
      "grad_norm_var": 0.6030598958333333,
      "learning_rate": 0.0003,
      "loss": 11.578,
      "loss/aux_loss": 0.04808356873691082,
      "loss/crossentropy": 2.7069952189922333,
      "loss/logits": 0.8372669726610183,
      "step": 26660
    },
    {
      "epoch": 0.2667,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.6320149739583333,
      "learning_rate": 0.0003,
      "loss": 11.6305,
      "loss/aux_loss": 0.04808407332748175,
      "loss/crossentropy": 2.866211920976639,
      "loss/logits": 0.926874178647995,
      "step": 26670
    },
    {
      "epoch": 0.2668,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.42649739583333335,
      "learning_rate": 0.0003,
      "loss": 11.512,
      "loss/aux_loss": 0.048087192699313164,
      "loss/crossentropy": 2.779119974374771,
      "loss/logits": 0.8863234221935272,
      "step": 26680
    },
    {
      "epoch": 0.2669,
      "grad_norm": 12.25,
      "grad_norm_var": 5.164957682291667,
      "learning_rate": 0.0003,
      "loss": 11.529,
      "loss/aux_loss": 0.048087614588439465,
      "loss/crossentropy": 2.786206305027008,
      "loss/logits": 0.8752316683530807,
      "step": 26690
    },
    {
      "epoch": 0.267,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.3640625,
      "learning_rate": 0.0003,
      "loss": 11.6246,
      "loss/aux_loss": 0.048085883259773254,
      "loss/crossentropy": 3.017382597923279,
      "loss/logits": 0.9026335388422012,
      "step": 26700
    },
    {
      "epoch": 0.2671,
      "grad_norm": 12.75,
      "grad_norm_var": 0.36847330729166666,
      "learning_rate": 0.0003,
      "loss": 11.7263,
      "loss/aux_loss": 0.04808237832039595,
      "loss/crossentropy": 2.7911539018154143,
      "loss/logits": 0.8946028083562851,
      "step": 26710
    },
    {
      "epoch": 0.2672,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.3453125,
      "learning_rate": 0.0003,
      "loss": 11.5712,
      "loss/aux_loss": 0.04808432050049305,
      "loss/crossentropy": 2.7174662709236146,
      "loss/logits": 0.862998154759407,
      "step": 26720
    },
    {
      "epoch": 0.2673,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.49609375,
      "learning_rate": 0.0003,
      "loss": 11.697,
      "loss/aux_loss": 0.04808508008718491,
      "loss/crossentropy": 2.8050862312316895,
      "loss/logits": 0.8875089168548584,
      "step": 26730
    },
    {
      "epoch": 0.2674,
      "grad_norm": 13.5,
      "grad_norm_var": 0.591650390625,
      "learning_rate": 0.0003,
      "loss": 11.6684,
      "loss/aux_loss": 0.04808866996318102,
      "loss/crossentropy": 2.8705193996429443,
      "loss/logits": 0.8535552382469177,
      "step": 26740
    },
    {
      "epoch": 0.2675,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.2669270833333333,
      "learning_rate": 0.0003,
      "loss": 11.584,
      "loss/aux_loss": 0.04808246474713087,
      "loss/crossentropy": 2.6758610129356386,
      "loss/logits": 0.8840056896209717,
      "step": 26750
    },
    {
      "epoch": 0.2676,
      "grad_norm": 12.25,
      "grad_norm_var": 0.265625,
      "learning_rate": 0.0003,
      "loss": 11.5109,
      "loss/aux_loss": 0.04808396678417921,
      "loss/crossentropy": 2.7247723996639253,
      "loss/logits": 0.8758624956011772,
      "step": 26760
    },
    {
      "epoch": 0.2677,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.5591145833333333,
      "learning_rate": 0.0003,
      "loss": 11.5339,
      "loss/aux_loss": 0.04808528199791908,
      "loss/crossentropy": 2.6667077600955964,
      "loss/logits": 0.8680305898189544,
      "step": 26770
    },
    {
      "epoch": 0.2678,
      "grad_norm": 12.125,
      "grad_norm_var": 0.2708333333333333,
      "learning_rate": 0.0003,
      "loss": 11.5729,
      "loss/aux_loss": 0.048083195276558396,
      "loss/crossentropy": 2.646883499622345,
      "loss/logits": 0.8598526418209076,
      "step": 26780
    },
    {
      "epoch": 0.2679,
      "grad_norm": 12.5,
      "grad_norm_var": 0.31573893229166666,
      "learning_rate": 0.0003,
      "loss": 11.4182,
      "loss/aux_loss": 0.04808151088654995,
      "loss/crossentropy": 2.8521530270576476,
      "loss/logits": 0.8823621451854706,
      "step": 26790
    },
    {
      "epoch": 0.268,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.250634765625,
      "learning_rate": 0.0003,
      "loss": 11.442,
      "loss/aux_loss": 0.0480816463008523,
      "loss/crossentropy": 2.7866445600986482,
      "loss/logits": 0.8612229824066162,
      "step": 26800
    },
    {
      "epoch": 0.2681,
      "grad_norm": 12.75,
      "grad_norm_var": 0.379931640625,
      "learning_rate": 0.0003,
      "loss": 11.5301,
      "loss/aux_loss": 0.048094099201261994,
      "loss/crossentropy": 2.8141289949417114,
      "loss/logits": 0.8547409534454345,
      "step": 26810
    },
    {
      "epoch": 0.2682,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.29933268229166665,
      "learning_rate": 0.0003,
      "loss": 11.7054,
      "loss/aux_loss": 0.048088458552956584,
      "loss/crossentropy": 2.8167191982269286,
      "loss/logits": 0.9029836922883987,
      "step": 26820
    },
    {
      "epoch": 0.2683,
      "grad_norm": 12.75,
      "grad_norm_var": 0.539697265625,
      "learning_rate": 0.0003,
      "loss": 11.5224,
      "loss/aux_loss": 0.0480873117223382,
      "loss/crossentropy": 2.6812549769878387,
      "loss/logits": 0.8772442221641541,
      "step": 26830
    },
    {
      "epoch": 0.2684,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.6906087239583333,
      "learning_rate": 0.0003,
      "loss": 11.565,
      "loss/aux_loss": 0.04808258228003979,
      "loss/crossentropy": 2.7515992164611816,
      "loss/logits": 0.879136735200882,
      "step": 26840
    },
    {
      "epoch": 0.2685,
      "grad_norm": 12.75,
      "grad_norm_var": 1.274462890625,
      "learning_rate": 0.0003,
      "loss": 11.6051,
      "loss/aux_loss": 0.048084885254502295,
      "loss/crossentropy": 2.586995255947113,
      "loss/logits": 0.8740639716386795,
      "step": 26850
    },
    {
      "epoch": 0.2686,
      "grad_norm": 13.5,
      "grad_norm_var": 0.2515625,
      "learning_rate": 0.0003,
      "loss": 11.389,
      "loss/aux_loss": 0.0480819696560502,
      "loss/crossentropy": 2.7247099459171293,
      "loss/logits": 0.8685719013214112,
      "step": 26860
    },
    {
      "epoch": 0.2687,
      "grad_norm": 12.375,
      "grad_norm_var": 72.13385416666667,
      "learning_rate": 0.0003,
      "loss": 11.6388,
      "loss/aux_loss": 0.04809704162180424,
      "loss/crossentropy": 2.6560521006584166,
      "loss/logits": 0.8820772796869278,
      "step": 26870
    },
    {
      "epoch": 0.2688,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.1853515625,
      "learning_rate": 0.0003,
      "loss": 11.6079,
      "loss/aux_loss": 0.04808767940849066,
      "loss/crossentropy": 2.5908863723278044,
      "loss/logits": 0.8665450185537338,
      "step": 26880
    },
    {
      "epoch": 0.2689,
      "grad_norm": 13.125,
      "grad_norm_var": 0.6077473958333334,
      "learning_rate": 0.0003,
      "loss": 11.6409,
      "loss/aux_loss": 0.048092026449739936,
      "loss/crossentropy": 2.7218611598014832,
      "loss/logits": 0.8763234496116639,
      "step": 26890
    },
    {
      "epoch": 0.269,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.35323893229166664,
      "learning_rate": 0.0003,
      "loss": 11.674,
      "loss/aux_loss": 0.04808721747249365,
      "loss/crossentropy": 2.7273535072803496,
      "loss/logits": 0.8680451363325119,
      "step": 26900
    },
    {
      "epoch": 0.2691,
      "grad_norm": 11.75,
      "grad_norm_var": 2.484635416666667,
      "learning_rate": 0.0003,
      "loss": 11.6283,
      "loss/aux_loss": 0.04808290395885706,
      "loss/crossentropy": 2.7846306562423706,
      "loss/logits": 0.909109690785408,
      "step": 26910
    },
    {
      "epoch": 0.2692,
      "grad_norm": 12.25,
      "grad_norm_var": 0.7494140625,
      "learning_rate": 0.0003,
      "loss": 11.3449,
      "loss/aux_loss": 0.04808285906910896,
      "loss/crossentropy": 2.779471981525421,
      "loss/logits": 0.8647771954536438,
      "step": 26920
    },
    {
      "epoch": 0.2693,
      "grad_norm": 13.375,
      "grad_norm_var": 40.298160807291666,
      "learning_rate": 0.0003,
      "loss": 11.5546,
      "loss/aux_loss": 0.0480886047706008,
      "loss/crossentropy": 2.7506704151630403,
      "loss/logits": 0.8976017504930496,
      "step": 26930
    },
    {
      "epoch": 0.2694,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.459619140625,
      "learning_rate": 0.0003,
      "loss": 11.59,
      "loss/aux_loss": 0.04809030499309301,
      "loss/crossentropy": 2.809163624048233,
      "loss/logits": 0.9011189788579941,
      "step": 26940
    },
    {
      "epoch": 0.2695,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.374462890625,
      "learning_rate": 0.0003,
      "loss": 11.6427,
      "loss/aux_loss": 0.04809495285153389,
      "loss/crossentropy": 2.747515672445297,
      "loss/logits": 0.8646955370903016,
      "step": 26950
    },
    {
      "epoch": 0.2696,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.414306640625,
      "learning_rate": 0.0003,
      "loss": 11.4118,
      "loss/aux_loss": 0.048085729405283925,
      "loss/crossentropy": 2.776648241281509,
      "loss/logits": 0.8744494527578354,
      "step": 26960
    },
    {
      "epoch": 0.2697,
      "grad_norm": 12.625,
      "grad_norm_var": 0.496337890625,
      "learning_rate": 0.0003,
      "loss": 11.6107,
      "loss/aux_loss": 0.0480810709297657,
      "loss/crossentropy": 2.7663753151893617,
      "loss/logits": 0.8697874486446381,
      "step": 26970
    },
    {
      "epoch": 0.2698,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.36013997395833336,
      "learning_rate": 0.0003,
      "loss": 11.4819,
      "loss/aux_loss": 0.04809112492948771,
      "loss/crossentropy": 2.5756009936332704,
      "loss/logits": 0.832565313577652,
      "step": 26980
    },
    {
      "epoch": 0.2699,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.3505045572916667,
      "learning_rate": 0.0003,
      "loss": 11.5591,
      "loss/aux_loss": 0.04808456730097532,
      "loss/crossentropy": 2.715240556001663,
      "loss/logits": 0.9006956547498703,
      "step": 26990
    },
    {
      "epoch": 0.27,
      "grad_norm": 12.6875,
      "grad_norm_var": 8.5306640625,
      "learning_rate": 0.0003,
      "loss": 11.3831,
      "loss/aux_loss": 0.04807609599083662,
      "loss/crossentropy": 2.7678284883499145,
      "loss/logits": 0.8785594999790192,
      "step": 27000
    },
    {
      "epoch": 0.2701,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.16300455729166666,
      "learning_rate": 0.0003,
      "loss": 11.6529,
      "loss/aux_loss": 0.0480866638943553,
      "loss/crossentropy": 2.6905364990234375,
      "loss/logits": 0.8590237915515899,
      "step": 27010
    },
    {
      "epoch": 0.2702,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.3159993489583333,
      "learning_rate": 0.0003,
      "loss": 11.6173,
      "loss/aux_loss": 0.048088221624493596,
      "loss/crossentropy": 2.8152272939682006,
      "loss/logits": 0.8619503259658814,
      "step": 27020
    },
    {
      "epoch": 0.2703,
      "grad_norm": 13.375,
      "grad_norm_var": 0.1962890625,
      "learning_rate": 0.0003,
      "loss": 11.6658,
      "loss/aux_loss": 0.04808411095291376,
      "loss/crossentropy": 2.842225217819214,
      "loss/logits": 0.8590496510267258,
      "step": 27030
    },
    {
      "epoch": 0.2704,
      "grad_norm": 13.125,
      "grad_norm_var": 0.583447265625,
      "learning_rate": 0.0003,
      "loss": 11.4641,
      "loss/aux_loss": 0.048092346824705604,
      "loss/crossentropy": 2.7975880026817324,
      "loss/logits": 0.8442713886499404,
      "step": 27040
    },
    {
      "epoch": 0.2705,
      "grad_norm": 12.625,
      "grad_norm_var": 0.9462076822916666,
      "learning_rate": 0.0003,
      "loss": 11.6847,
      "loss/aux_loss": 0.04807819910347462,
      "loss/crossentropy": 2.8695399880409242,
      "loss/logits": 0.9112765967845917,
      "step": 27050
    },
    {
      "epoch": 0.2706,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.490869140625,
      "learning_rate": 0.0003,
      "loss": 11.6033,
      "loss/aux_loss": 0.048083419911563396,
      "loss/crossentropy": 2.5501754522323608,
      "loss/logits": 0.8562157094478607,
      "step": 27060
    },
    {
      "epoch": 0.2707,
      "grad_norm": 13.125,
      "grad_norm_var": 0.5098958333333333,
      "learning_rate": 0.0003,
      "loss": 11.768,
      "loss/aux_loss": 0.04808535445481539,
      "loss/crossentropy": 2.795117211341858,
      "loss/logits": 0.8820730477571488,
      "step": 27070
    },
    {
      "epoch": 0.2708,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.5040201822916667,
      "learning_rate": 0.0003,
      "loss": 11.5046,
      "loss/aux_loss": 0.04808331392705441,
      "loss/crossentropy": 2.6431259870529176,
      "loss/logits": 0.8500302553176879,
      "step": 27080
    },
    {
      "epoch": 0.2709,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.49724934895833334,
      "learning_rate": 0.0003,
      "loss": 11.5656,
      "loss/aux_loss": 0.04808337949216366,
      "loss/crossentropy": 2.9284351587295534,
      "loss/logits": 0.9117402613162995,
      "step": 27090
    },
    {
      "epoch": 0.271,
      "grad_norm": 14.0,
      "grad_norm_var": 0.35857747395833334,
      "learning_rate": 0.0003,
      "loss": 11.4482,
      "loss/aux_loss": 0.048084777966141704,
      "loss/crossentropy": 2.5703269481658935,
      "loss/logits": 0.8528429746627808,
      "step": 27100
    },
    {
      "epoch": 0.2711,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.37916666666666665,
      "learning_rate": 0.0003,
      "loss": 11.4456,
      "loss/aux_loss": 0.04808557964861393,
      "loss/crossentropy": 2.910882604122162,
      "loss/logits": 0.9175168991088867,
      "step": 27110
    },
    {
      "epoch": 0.2712,
      "grad_norm": 14.0,
      "grad_norm_var": 0.4205729166666667,
      "learning_rate": 0.0003,
      "loss": 11.5441,
      "loss/aux_loss": 0.048091310635209085,
      "loss/crossentropy": 2.818699848651886,
      "loss/logits": 0.8743287414312363,
      "step": 27120
    },
    {
      "epoch": 0.2713,
      "grad_norm": 12.375,
      "grad_norm_var": 0.42389322916666666,
      "learning_rate": 0.0003,
      "loss": 11.433,
      "loss/aux_loss": 0.04808477144688368,
      "loss/crossentropy": 2.7713629007339478,
      "loss/logits": 0.8480364233255386,
      "step": 27130
    },
    {
      "epoch": 0.2714,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.49270833333333336,
      "learning_rate": 0.0003,
      "loss": 11.4776,
      "loss/aux_loss": 0.048079821094870565,
      "loss/crossentropy": 2.791437101364136,
      "loss/logits": 0.8964347183704376,
      "step": 27140
    },
    {
      "epoch": 0.2715,
      "grad_norm": 12.75,
      "grad_norm_var": 0.180712890625,
      "learning_rate": 0.0003,
      "loss": 11.6727,
      "loss/aux_loss": 0.04808723647147417,
      "loss/crossentropy": 2.799302804470062,
      "loss/logits": 0.9013757139444352,
      "step": 27150
    },
    {
      "epoch": 0.2716,
      "grad_norm": 11.5,
      "grad_norm_var": 0.32732747395833334,
      "learning_rate": 0.0003,
      "loss": 11.5774,
      "loss/aux_loss": 0.04808212071657181,
      "loss/crossentropy": 2.7711844205856324,
      "loss/logits": 0.8806311905384063,
      "step": 27160
    },
    {
      "epoch": 0.2717,
      "grad_norm": 12.125,
      "grad_norm_var": 0.3702473958333333,
      "learning_rate": 0.0003,
      "loss": 11.6159,
      "loss/aux_loss": 0.04808286111801863,
      "loss/crossentropy": 2.7594713032245637,
      "loss/logits": 0.8914604634046555,
      "step": 27170
    },
    {
      "epoch": 0.2718,
      "grad_norm": 12.75,
      "grad_norm_var": 0.3030598958333333,
      "learning_rate": 0.0003,
      "loss": 11.6285,
      "loss/aux_loss": 0.04807987064123154,
      "loss/crossentropy": 2.8910335302352905,
      "loss/logits": 0.8775747418403625,
      "step": 27180
    },
    {
      "epoch": 0.2719,
      "grad_norm": 13.0,
      "grad_norm_var": 0.7816243489583333,
      "learning_rate": 0.0003,
      "loss": 11.5454,
      "loss/aux_loss": 0.048089956678450105,
      "loss/crossentropy": 2.863065016269684,
      "loss/logits": 0.8842020243406296,
      "step": 27190
    },
    {
      "epoch": 0.272,
      "grad_norm": 12.5,
      "grad_norm_var": 0.403759765625,
      "learning_rate": 0.0003,
      "loss": 11.6229,
      "loss/aux_loss": 0.048087510466575625,
      "loss/crossentropy": 2.7746796369552613,
      "loss/logits": 0.8964880555868149,
      "step": 27200
    },
    {
      "epoch": 0.2721,
      "grad_norm": 11.8125,
      "grad_norm_var": 0.4014973958333333,
      "learning_rate": 0.0003,
      "loss": 11.7884,
      "loss/aux_loss": 0.04808600451797247,
      "loss/crossentropy": 2.9064237117767333,
      "loss/logits": 0.9102618426084519,
      "step": 27210
    },
    {
      "epoch": 0.2722,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.48899739583333335,
      "learning_rate": 0.0003,
      "loss": 11.5522,
      "loss/aux_loss": 0.04808280412107706,
      "loss/crossentropy": 2.8749096155166627,
      "loss/logits": 0.8867197275161743,
      "step": 27220
    },
    {
      "epoch": 0.2723,
      "grad_norm": 13.75,
      "grad_norm_var": 0.46868489583333334,
      "learning_rate": 0.0003,
      "loss": 11.6081,
      "loss/aux_loss": 0.04809102062135935,
      "loss/crossentropy": 2.806208127737045,
      "loss/logits": 0.9116105139255524,
      "step": 27230
    },
    {
      "epoch": 0.2724,
      "grad_norm": 14.25,
      "grad_norm_var": 1.3843098958333333,
      "learning_rate": 0.0003,
      "loss": 11.5575,
      "loss/aux_loss": 0.04807698503136635,
      "loss/crossentropy": 2.9286911368370054,
      "loss/logits": 0.8646731346845626,
      "step": 27240
    },
    {
      "epoch": 0.2725,
      "grad_norm": 13.125,
      "grad_norm_var": 1.3192057291666666,
      "learning_rate": 0.0003,
      "loss": 11.5521,
      "loss/aux_loss": 0.04809784200042486,
      "loss/crossentropy": 2.829662698507309,
      "loss/logits": 0.9164007723331451,
      "step": 27250
    },
    {
      "epoch": 0.2726,
      "grad_norm": 14.5,
      "grad_norm_var": 0.9409993489583334,
      "learning_rate": 0.0003,
      "loss": 11.4188,
      "loss/aux_loss": 0.04808580614626408,
      "loss/crossentropy": 2.5694850265979765,
      "loss/logits": 0.8638879209756851,
      "step": 27260
    },
    {
      "epoch": 0.2727,
      "grad_norm": 12.75,
      "grad_norm_var": 0.5489420572916667,
      "learning_rate": 0.0003,
      "loss": 11.5619,
      "loss/aux_loss": 0.04808543249964714,
      "loss/crossentropy": 2.8475801050662994,
      "loss/logits": 0.8850974351167679,
      "step": 27270
    },
    {
      "epoch": 0.2728,
      "grad_norm": 15.0,
      "grad_norm_var": 2.805712890625,
      "learning_rate": 0.0003,
      "loss": 11.5083,
      "loss/aux_loss": 0.04808332417160273,
      "loss/crossentropy": 2.787931036949158,
      "loss/logits": 0.9341086566448211,
      "step": 27280
    },
    {
      "epoch": 0.2729,
      "grad_norm": 13.125,
      "grad_norm_var": 2.713134765625,
      "learning_rate": 0.0003,
      "loss": 11.6033,
      "loss/aux_loss": 0.048095279932022096,
      "loss/crossentropy": 2.7088790059089662,
      "loss/logits": 0.8688720375299454,
      "step": 27290
    },
    {
      "epoch": 0.273,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.1643229166666667,
      "learning_rate": 0.0003,
      "loss": 11.469,
      "loss/aux_loss": 0.04808818940073252,
      "loss/crossentropy": 2.6304342091083526,
      "loss/logits": 0.8546393603086472,
      "step": 27300
    },
    {
      "epoch": 0.2731,
      "grad_norm": 12.875,
      "grad_norm_var": 0.48170572916666665,
      "learning_rate": 0.0003,
      "loss": 11.4469,
      "loss/aux_loss": 0.048087147809565065,
      "loss/crossentropy": 2.6426671385765075,
      "loss/logits": 0.8355433255434036,
      "step": 27310
    },
    {
      "epoch": 0.2732,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.2900390625,
      "learning_rate": 0.0003,
      "loss": 11.5179,
      "loss/aux_loss": 0.04808585401624441,
      "loss/crossentropy": 2.7217608451843263,
      "loss/logits": 0.8875219106674195,
      "step": 27320
    },
    {
      "epoch": 0.2733,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.5149576822916667,
      "learning_rate": 0.0003,
      "loss": 11.5724,
      "loss/aux_loss": 0.04808675888925791,
      "loss/crossentropy": 2.8080302834510804,
      "loss/logits": 0.8594749808311463,
      "step": 27330
    },
    {
      "epoch": 0.2734,
      "grad_norm": 11.875,
      "grad_norm_var": 0.49947916666666664,
      "learning_rate": 0.0003,
      "loss": 11.4152,
      "loss/aux_loss": 0.048075826838612556,
      "loss/crossentropy": 2.8058014869689942,
      "loss/logits": 0.8780788242816925,
      "step": 27340
    },
    {
      "epoch": 0.2735,
      "grad_norm": 14.75,
      "grad_norm_var": 0.5893229166666667,
      "learning_rate": 0.0003,
      "loss": 11.516,
      "loss/aux_loss": 0.04808777756989002,
      "loss/crossentropy": 2.840649002790451,
      "loss/logits": 0.8928281188011169,
      "step": 27350
    },
    {
      "epoch": 0.2736,
      "grad_norm": 13.25,
      "grad_norm_var": 1.003759765625,
      "learning_rate": 0.0003,
      "loss": 11.5198,
      "loss/aux_loss": 0.048086445592343804,
      "loss/crossentropy": 2.6759494841098785,
      "loss/logits": 0.866712149977684,
      "step": 27360
    },
    {
      "epoch": 0.2737,
      "grad_norm": 12.0625,
      "grad_norm_var": 1.5731770833333334,
      "learning_rate": 0.0003,
      "loss": 11.5458,
      "loss/aux_loss": 0.048074633441865446,
      "loss/crossentropy": 2.805925118923187,
      "loss/logits": 0.8581642717123031,
      "step": 27370
    },
    {
      "epoch": 0.2738,
      "grad_norm": 13.4375,
      "grad_norm_var": 1.6359375,
      "learning_rate": 0.0003,
      "loss": 11.5177,
      "loss/aux_loss": 0.04809354469180107,
      "loss/crossentropy": 2.7967172265052795,
      "loss/logits": 0.8863823890686036,
      "step": 27380
    },
    {
      "epoch": 0.2739,
      "grad_norm": 12.0,
      "grad_norm_var": 0.6683430989583333,
      "learning_rate": 0.0003,
      "loss": 11.4643,
      "loss/aux_loss": 0.04809064380824566,
      "loss/crossentropy": 2.7077986001968384,
      "loss/logits": 0.8588582128286362,
      "step": 27390
    },
    {
      "epoch": 0.274,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.38671875,
      "learning_rate": 0.0003,
      "loss": 11.5795,
      "loss/aux_loss": 0.048084030672907827,
      "loss/crossentropy": 2.750448912382126,
      "loss/logits": 0.8991485238075256,
      "step": 27400
    },
    {
      "epoch": 0.2741,
      "grad_norm": 13.75,
      "grad_norm_var": 0.5129557291666667,
      "learning_rate": 0.0003,
      "loss": 11.5598,
      "loss/aux_loss": 0.048072746582329275,
      "loss/crossentropy": 2.761543083190918,
      "loss/logits": 0.8485326498746872,
      "step": 27410
    },
    {
      "epoch": 0.2742,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.4556640625,
      "learning_rate": 0.0003,
      "loss": 11.3436,
      "loss/aux_loss": 0.048084151931107044,
      "loss/crossentropy": 2.604575699567795,
      "loss/logits": 0.8465295255184173,
      "step": 27420
    },
    {
      "epoch": 0.2743,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.5302083333333333,
      "learning_rate": 0.0003,
      "loss": 11.4867,
      "loss/aux_loss": 0.04809482246637344,
      "loss/crossentropy": 2.54980583190918,
      "loss/logits": 0.8440865933895111,
      "step": 27430
    },
    {
      "epoch": 0.2744,
      "grad_norm": 13.625,
      "grad_norm_var": 4.076285807291667,
      "learning_rate": 0.0003,
      "loss": 11.5182,
      "loss/aux_loss": 0.04807782378047705,
      "loss/crossentropy": 2.7580845236778258,
      "loss/logits": 0.882664081454277,
      "step": 27440
    },
    {
      "epoch": 0.2745,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.379931640625,
      "learning_rate": 0.0003,
      "loss": 11.4551,
      "loss/aux_loss": 0.0480885649099946,
      "loss/crossentropy": 2.777578568458557,
      "loss/logits": 0.87208411693573,
      "step": 27450
    },
    {
      "epoch": 0.2746,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.34427083333333336,
      "learning_rate": 0.0003,
      "loss": 11.4538,
      "loss/aux_loss": 0.04808246586471796,
      "loss/crossentropy": 2.8558852434158326,
      "loss/logits": 0.8860389828681946,
      "step": 27460
    },
    {
      "epoch": 0.2747,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.2786458333333333,
      "learning_rate": 0.0003,
      "loss": 11.5559,
      "loss/aux_loss": 0.048081047087907794,
      "loss/crossentropy": 2.5927527368068697,
      "loss/logits": 0.8575126707553864,
      "step": 27470
    },
    {
      "epoch": 0.2748,
      "grad_norm": 13.25,
      "grad_norm_var": 0.42185872395833335,
      "learning_rate": 0.0003,
      "loss": 11.4521,
      "loss/aux_loss": 0.048087083548307416,
      "loss/crossentropy": 2.752536880970001,
      "loss/logits": 0.8572630852460861,
      "step": 27480
    },
    {
      "epoch": 0.2749,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.46599934895833334,
      "learning_rate": 0.0003,
      "loss": 11.6157,
      "loss/aux_loss": 0.04808045290410519,
      "loss/crossentropy": 2.865806245803833,
      "loss/logits": 0.9061722487211228,
      "step": 27490
    },
    {
      "epoch": 0.275,
      "grad_norm": 12.5,
      "grad_norm_var": 0.45753580729166665,
      "learning_rate": 0.0003,
      "loss": 11.6082,
      "loss/aux_loss": 0.04807562381029129,
      "loss/crossentropy": 2.7103756070137024,
      "loss/logits": 0.9027006924152374,
      "step": 27500
    },
    {
      "epoch": 0.2751,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.322119140625,
      "learning_rate": 0.0003,
      "loss": 11.5937,
      "loss/aux_loss": 0.04807604216039181,
      "loss/crossentropy": 2.841430151462555,
      "loss/logits": 0.8734793215990067,
      "step": 27510
    },
    {
      "epoch": 0.2752,
      "grad_norm": 13.625,
      "grad_norm_var": 1.0101399739583334,
      "learning_rate": 0.0003,
      "loss": 11.642,
      "loss/aux_loss": 0.048089314438402656,
      "loss/crossentropy": 2.8229639172554015,
      "loss/logits": 0.8981556743383408,
      "step": 27520
    },
    {
      "epoch": 0.2753,
      "grad_norm": 13.9375,
      "grad_norm_var": 2.7639973958333335,
      "learning_rate": 0.0003,
      "loss": 11.4326,
      "loss/aux_loss": 0.04808274004608393,
      "loss/crossentropy": 2.5911940157413484,
      "loss/logits": 0.8717542558908462,
      "step": 27530
    },
    {
      "epoch": 0.2754,
      "grad_norm": 13.25,
      "grad_norm_var": 3.187760416666667,
      "learning_rate": 0.0003,
      "loss": 11.459,
      "loss/aux_loss": 0.048087103292346,
      "loss/crossentropy": 2.75337210893631,
      "loss/logits": 0.8438648998737335,
      "step": 27540
    },
    {
      "epoch": 0.2755,
      "grad_norm": 12.625,
      "grad_norm_var": 0.6598795572916667,
      "learning_rate": 0.0003,
      "loss": 11.4768,
      "loss/aux_loss": 0.04808942452073097,
      "loss/crossentropy": 2.6577411115169527,
      "loss/logits": 0.8484239518642426,
      "step": 27550
    },
    {
      "epoch": 0.2756,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.30625,
      "learning_rate": 0.0003,
      "loss": 11.5486,
      "loss/aux_loss": 0.048091153427958486,
      "loss/crossentropy": 2.8733396172523498,
      "loss/logits": 0.8842191725969315,
      "step": 27560
    },
    {
      "epoch": 0.2757,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.292431640625,
      "learning_rate": 0.0003,
      "loss": 11.3524,
      "loss/aux_loss": 0.048078698106110096,
      "loss/crossentropy": 2.8211456060409548,
      "loss/logits": 0.8710596203804016,
      "step": 27570
    },
    {
      "epoch": 0.2758,
      "grad_norm": 12.625,
      "grad_norm_var": 0.356494140625,
      "learning_rate": 0.0003,
      "loss": 11.3923,
      "loss/aux_loss": 0.04809141457080841,
      "loss/crossentropy": 2.810522723197937,
      "loss/logits": 0.9148801237344741,
      "step": 27580
    },
    {
      "epoch": 0.2759,
      "grad_norm": 13.125,
      "grad_norm_var": 0.688525390625,
      "learning_rate": 0.0003,
      "loss": 11.46,
      "loss/aux_loss": 0.04809119552373886,
      "loss/crossentropy": 2.571478694677353,
      "loss/logits": 0.8658771872520447,
      "step": 27590
    },
    {
      "epoch": 0.276,
      "grad_norm": 11.875,
      "grad_norm_var": 0.5340983072916666,
      "learning_rate": 0.0003,
      "loss": 11.4551,
      "loss/aux_loss": 0.04807944148778916,
      "loss/crossentropy": 2.8209518790245056,
      "loss/logits": 0.8891745388507843,
      "step": 27600
    },
    {
      "epoch": 0.2761,
      "grad_norm": 12.0,
      "grad_norm_var": 0.3296875,
      "learning_rate": 0.0003,
      "loss": 11.5451,
      "loss/aux_loss": 0.04807922653853893,
      "loss/crossentropy": 2.714892899990082,
      "loss/logits": 0.9096907198429107,
      "step": 27610
    },
    {
      "epoch": 0.2762,
      "grad_norm": 13.75,
      "grad_norm_var": 0.6673014322916667,
      "learning_rate": 0.0003,
      "loss": 11.5883,
      "loss/aux_loss": 0.04808503799140453,
      "loss/crossentropy": 2.7832123041152954,
      "loss/logits": 0.894438949227333,
      "step": 27620
    },
    {
      "epoch": 0.2763,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.39869791666666665,
      "learning_rate": 0.0003,
      "loss": 11.591,
      "loss/aux_loss": 0.048086524568498136,
      "loss/crossentropy": 2.882674145698547,
      "loss/logits": 0.8659522473812103,
      "step": 27630
    },
    {
      "epoch": 0.2764,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.4231770833333333,
      "learning_rate": 0.0003,
      "loss": 11.5889,
      "loss/aux_loss": 0.048090490885078906,
      "loss/crossentropy": 2.76504762172699,
      "loss/logits": 0.8722820281982422,
      "step": 27640
    },
    {
      "epoch": 0.2765,
      "grad_norm": 13.0,
      "grad_norm_var": 0.4369140625,
      "learning_rate": 0.0003,
      "loss": 11.7117,
      "loss/aux_loss": 0.04808298014104366,
      "loss/crossentropy": 2.773081195354462,
      "loss/logits": 0.8426672071218491,
      "step": 27650
    },
    {
      "epoch": 0.2766,
      "grad_norm": 13.5625,
      "grad_norm_var": 141.33151041666667,
      "learning_rate": 0.0003,
      "loss": 11.678,
      "loss/aux_loss": 0.04809086322784424,
      "loss/crossentropy": 2.782191741466522,
      "loss/logits": 0.882819551229477,
      "step": 27660
    },
    {
      "epoch": 0.2767,
      "grad_norm": 17.5,
      "grad_norm_var": 1.9231608072916666,
      "learning_rate": 0.0003,
      "loss": 11.4237,
      "loss/aux_loss": 0.04807958249002695,
      "loss/crossentropy": 2.6636355757713317,
      "loss/logits": 0.8572327792644501,
      "step": 27670
    },
    {
      "epoch": 0.2768,
      "grad_norm": 13.0,
      "grad_norm_var": 1.603125,
      "learning_rate": 0.0003,
      "loss": 11.4229,
      "loss/aux_loss": 0.0480815913528204,
      "loss/crossentropy": 2.890985882282257,
      "loss/logits": 0.8461414545774459,
      "step": 27680
    },
    {
      "epoch": 0.2769,
      "grad_norm": 13.8125,
      "grad_norm_var": 1.2593098958333333,
      "learning_rate": 0.0003,
      "loss": 11.6608,
      "loss/aux_loss": 0.048087593354284766,
      "loss/crossentropy": 2.839232790470123,
      "loss/logits": 0.8831172704696655,
      "step": 27690
    },
    {
      "epoch": 0.277,
      "grad_norm": 13.1875,
      "grad_norm_var": 1.5706868489583334,
      "learning_rate": 0.0003,
      "loss": 11.5061,
      "loss/aux_loss": 0.04807878881692886,
      "loss/crossentropy": 2.685603749752045,
      "loss/logits": 0.877737945318222,
      "step": 27700
    },
    {
      "epoch": 0.2771,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.9463541666666667,
      "learning_rate": 0.0003,
      "loss": 11.5132,
      "loss/aux_loss": 0.04808571934700012,
      "loss/crossentropy": 2.794572043418884,
      "loss/logits": 0.8642860800027847,
      "step": 27710
    },
    {
      "epoch": 0.2772,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5702473958333333,
      "learning_rate": 0.0003,
      "loss": 11.5303,
      "loss/aux_loss": 0.04808823838829994,
      "loss/crossentropy": 2.8599129617214203,
      "loss/logits": 0.8836135894060135,
      "step": 27720
    },
    {
      "epoch": 0.2773,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.462353515625,
      "learning_rate": 0.0003,
      "loss": 11.5011,
      "loss/aux_loss": 0.048078597895801066,
      "loss/crossentropy": 2.775701862573624,
      "loss/logits": 0.8424900531768799,
      "step": 27730
    },
    {
      "epoch": 0.2774,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.5702962239583333,
      "learning_rate": 0.0003,
      "loss": 11.6663,
      "loss/aux_loss": 0.048077501729130744,
      "loss/crossentropy": 2.7949552178382873,
      "loss/logits": 0.8686194092035293,
      "step": 27740
    },
    {
      "epoch": 0.2775,
      "grad_norm": 13.3125,
      "grad_norm_var": 9.37421875,
      "learning_rate": 0.0003,
      "loss": 11.4591,
      "loss/aux_loss": 0.048088216595351695,
      "loss/crossentropy": 2.655610829591751,
      "loss/logits": 0.853823122382164,
      "step": 27750
    },
    {
      "epoch": 0.2776,
      "grad_norm": 13.5625,
      "grad_norm_var": 1.8868326822916666,
      "learning_rate": 0.0003,
      "loss": 11.6049,
      "loss/aux_loss": 0.04809031039476395,
      "loss/crossentropy": 2.91897075176239,
      "loss/logits": 0.8576211661100388,
      "step": 27760
    },
    {
      "epoch": 0.2777,
      "grad_norm": 12.875,
      "grad_norm_var": 1.4387858072916666,
      "learning_rate": 0.0003,
      "loss": 11.3556,
      "loss/aux_loss": 0.04808913040906191,
      "loss/crossentropy": 2.6004298627376556,
      "loss/logits": 0.8527587816119194,
      "step": 27770
    },
    {
      "epoch": 0.2778,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.44972330729166665,
      "learning_rate": 0.0003,
      "loss": 11.5785,
      "loss/aux_loss": 0.04808642938733101,
      "loss/crossentropy": 2.721281111240387,
      "loss/logits": 0.8621364802122116,
      "step": 27780
    },
    {
      "epoch": 0.2779,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.27024739583333335,
      "learning_rate": 0.0003,
      "loss": 11.4411,
      "loss/aux_loss": 0.04807955492287874,
      "loss/crossentropy": 2.6037085890769958,
      "loss/logits": 0.8568143039941788,
      "step": 27790
    },
    {
      "epoch": 0.278,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.540625,
      "learning_rate": 0.0003,
      "loss": 11.5396,
      "loss/aux_loss": 0.048087948746979234,
      "loss/crossentropy": 2.8853622317314147,
      "loss/logits": 0.8670936018228531,
      "step": 27800
    },
    {
      "epoch": 0.2781,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.20974934895833333,
      "learning_rate": 0.0003,
      "loss": 11.6926,
      "loss/aux_loss": 0.048087144270539284,
      "loss/crossentropy": 2.8916147112846375,
      "loss/logits": 0.9140586674213409,
      "step": 27810
    },
    {
      "epoch": 0.2782,
      "grad_norm": 12.75,
      "grad_norm_var": 0.9538899739583333,
      "learning_rate": 0.0003,
      "loss": 11.4982,
      "loss/aux_loss": 0.048076816648244855,
      "loss/crossentropy": 2.742960512638092,
      "loss/logits": 0.8774885207414627,
      "step": 27820
    },
    {
      "epoch": 0.2783,
      "grad_norm": 13.3125,
      "grad_norm_var": 2.1745930989583333,
      "learning_rate": 0.0003,
      "loss": 11.5583,
      "loss/aux_loss": 0.048096643574535844,
      "loss/crossentropy": 2.8718445897102356,
      "loss/logits": 0.8958581119775773,
      "step": 27830
    },
    {
      "epoch": 0.2784,
      "grad_norm": 14.125,
      "grad_norm_var": 2.208268229166667,
      "learning_rate": 0.0003,
      "loss": 11.7273,
      "loss/aux_loss": 0.04808414224535227,
      "loss/crossentropy": 2.936895763874054,
      "loss/logits": 0.8936193466186524,
      "step": 27840
    },
    {
      "epoch": 0.2785,
      "grad_norm": 12.0625,
      "grad_norm_var": 1.5369140625,
      "learning_rate": 0.0003,
      "loss": 11.42,
      "loss/aux_loss": 0.04808822255581617,
      "loss/crossentropy": 2.812196373939514,
      "loss/logits": 0.8949258029460907,
      "step": 27850
    },
    {
      "epoch": 0.2786,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.7958170572916666,
      "learning_rate": 0.0003,
      "loss": 11.3989,
      "loss/aux_loss": 0.04807552136480808,
      "loss/crossentropy": 2.788651943206787,
      "loss/logits": 0.8348335802555085,
      "step": 27860
    },
    {
      "epoch": 0.2787,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.7613932291666666,
      "learning_rate": 0.0003,
      "loss": 11.5888,
      "loss/aux_loss": 0.048087479919195174,
      "loss/crossentropy": 2.7045384287834167,
      "loss/logits": 0.9338543623685837,
      "step": 27870
    },
    {
      "epoch": 0.2788,
      "grad_norm": 13.25,
      "grad_norm_var": 0.6075520833333333,
      "learning_rate": 0.0003,
      "loss": 11.5237,
      "loss/aux_loss": 0.048085146211087705,
      "loss/crossentropy": 2.7415911316871644,
      "loss/logits": 0.856224250793457,
      "step": 27880
    },
    {
      "epoch": 0.2789,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.38058268229166664,
      "learning_rate": 0.0003,
      "loss": 11.5602,
      "loss/aux_loss": 0.04807989951223135,
      "loss/crossentropy": 2.7379807472229003,
      "loss/logits": 0.8650393694639206,
      "step": 27890
    },
    {
      "epoch": 0.279,
      "grad_norm": 13.0,
      "grad_norm_var": 0.1525390625,
      "learning_rate": 0.0003,
      "loss": 11.608,
      "loss/aux_loss": 0.048083983920514585,
      "loss/crossentropy": 2.8002022445201873,
      "loss/logits": 0.8693450152873993,
      "step": 27900
    },
    {
      "epoch": 0.2791,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.425244140625,
      "learning_rate": 0.0003,
      "loss": 11.5797,
      "loss/aux_loss": 0.04808452669531107,
      "loss/crossentropy": 2.7015219628810883,
      "loss/logits": 0.874952495098114,
      "step": 27910
    },
    {
      "epoch": 0.2792,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.667041015625,
      "learning_rate": 0.0003,
      "loss": 11.5391,
      "loss/aux_loss": 0.04808107353746891,
      "loss/crossentropy": 2.6511988162994387,
      "loss/logits": 0.844877976179123,
      "step": 27920
    },
    {
      "epoch": 0.2793,
      "grad_norm": 16.0,
      "grad_norm_var": 3.456103515625,
      "learning_rate": 0.0003,
      "loss": 11.4723,
      "loss/aux_loss": 0.0480935912579298,
      "loss/crossentropy": 2.69124321937561,
      "loss/logits": 0.8498719304800033,
      "step": 27930
    },
    {
      "epoch": 0.2794,
      "grad_norm": 16.0,
      "grad_norm_var": 2.3822265625,
      "learning_rate": 0.0003,
      "loss": 11.5932,
      "loss/aux_loss": 0.0480877697467804,
      "loss/crossentropy": 2.886867892742157,
      "loss/logits": 0.8901501029729844,
      "step": 27940
    },
    {
      "epoch": 0.2795,
      "grad_norm": 11.75,
      "grad_norm_var": 0.9264973958333333,
      "learning_rate": 0.0003,
      "loss": 11.3919,
      "loss/aux_loss": 0.0480851836502552,
      "loss/crossentropy": 2.5583014130592345,
      "loss/logits": 0.8257781475782394,
      "step": 27950
    },
    {
      "epoch": 0.2796,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.704150390625,
      "learning_rate": 0.0003,
      "loss": 11.349,
      "loss/aux_loss": 0.048085610195994374,
      "loss/crossentropy": 2.756976544857025,
      "loss/logits": 0.8353757977485656,
      "step": 27960
    },
    {
      "epoch": 0.2797,
      "grad_norm": 14.125,
      "grad_norm_var": 0.378369140625,
      "learning_rate": 0.0003,
      "loss": 11.5423,
      "loss/aux_loss": 0.048080562800168994,
      "loss/crossentropy": 2.733251041173935,
      "loss/logits": 0.8563009589910507,
      "step": 27970
    },
    {
      "epoch": 0.2798,
      "grad_norm": 13.375,
      "grad_norm_var": 0.47369791666666666,
      "learning_rate": 0.0003,
      "loss": 11.4917,
      "loss/aux_loss": 0.048089844174683094,
      "loss/crossentropy": 2.684944635629654,
      "loss/logits": 0.8707854568958282,
      "step": 27980
    },
    {
      "epoch": 0.2799,
      "grad_norm": 12.0,
      "grad_norm_var": 0.1666015625,
      "learning_rate": 0.0003,
      "loss": 11.6145,
      "loss/aux_loss": 0.04807740524411201,
      "loss/crossentropy": 2.8147059202194216,
      "loss/logits": 0.8616000026464462,
      "step": 27990
    },
    {
      "epoch": 0.28,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.35989583333333336,
      "learning_rate": 0.0003,
      "loss": 11.605,
      "loss/aux_loss": 0.048080855049192905,
      "loss/crossentropy": 2.7819701194763184,
      "loss/logits": 0.8910420656204223,
      "step": 28000
    },
    {
      "epoch": 0.2801,
      "grad_norm": 12.25,
      "grad_norm_var": 1.1546223958333333,
      "learning_rate": 0.0003,
      "loss": 11.4798,
      "loss/aux_loss": 0.048088941164314745,
      "loss/crossentropy": 2.7400415241718292,
      "loss/logits": 0.8723890751600265,
      "step": 28010
    },
    {
      "epoch": 0.2802,
      "grad_norm": 13.5,
      "grad_norm_var": 0.7181640625,
      "learning_rate": 0.0003,
      "loss": 11.5532,
      "loss/aux_loss": 0.04808063674718142,
      "loss/crossentropy": 2.8234307289123537,
      "loss/logits": 0.8648925483226776,
      "step": 28020
    },
    {
      "epoch": 0.2803,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.7884765625,
      "learning_rate": 0.0003,
      "loss": 11.5742,
      "loss/aux_loss": 0.048078789934515954,
      "loss/crossentropy": 2.8293231964111327,
      "loss/logits": 0.9036984205245971,
      "step": 28030
    },
    {
      "epoch": 0.2804,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.5999348958333334,
      "learning_rate": 0.0003,
      "loss": 11.5579,
      "loss/aux_loss": 0.04807864893227816,
      "loss/crossentropy": 2.8947394490242004,
      "loss/logits": 0.8946270734071732,
      "step": 28040
    },
    {
      "epoch": 0.2805,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.49635416666666665,
      "learning_rate": 0.0003,
      "loss": 11.5083,
      "loss/aux_loss": 0.04808484595268965,
      "loss/crossentropy": 2.6746840596199037,
      "loss/logits": 0.8644850313663482,
      "step": 28050
    },
    {
      "epoch": 0.2806,
      "grad_norm": 12.875,
      "grad_norm_var": 1402.0190104166666,
      "learning_rate": 0.0003,
      "loss": 11.557,
      "loss/aux_loss": 0.048079652898013595,
      "loss/crossentropy": 2.6483142554759977,
      "loss/logits": 0.8723117738962174,
      "step": 28060
    },
    {
      "epoch": 0.2807,
      "grad_norm": 13.1875,
      "grad_norm_var": 1397.2218587239583,
      "learning_rate": 0.0003,
      "loss": 11.4769,
      "loss/aux_loss": 0.04809585195034742,
      "loss/crossentropy": 2.778903841972351,
      "loss/logits": 0.8626104056835174,
      "step": 28070
    },
    {
      "epoch": 0.2808,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.4710774739583333,
      "learning_rate": 0.0003,
      "loss": 11.6971,
      "loss/aux_loss": 0.048076757788658143,
      "loss/crossentropy": 2.6813664495944978,
      "loss/logits": 0.8790749669075012,
      "step": 28080
    },
    {
      "epoch": 0.2809,
      "grad_norm": 13.5,
      "grad_norm_var": 0.48170572916666665,
      "learning_rate": 0.0003,
      "loss": 11.5118,
      "loss/aux_loss": 0.048085582070052625,
      "loss/crossentropy": 2.8408753156661986,
      "loss/logits": 0.8780440986156464,
      "step": 28090
    },
    {
      "epoch": 0.281,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.3015625,
      "learning_rate": 0.0003,
      "loss": 11.3568,
      "loss/aux_loss": 0.04808991327881813,
      "loss/crossentropy": 2.5951784670352938,
      "loss/logits": 0.8443504124879837,
      "step": 28100
    },
    {
      "epoch": 0.2811,
      "grad_norm": 15.0,
      "grad_norm_var": 0.451806640625,
      "learning_rate": 0.0003,
      "loss": 11.5474,
      "loss/aux_loss": 0.048089342564344405,
      "loss/crossentropy": 2.6413574039936067,
      "loss/logits": 0.8657073110342026,
      "step": 28110
    },
    {
      "epoch": 0.2812,
      "grad_norm": 12.375,
      "grad_norm_var": 0.6270182291666667,
      "learning_rate": 0.0003,
      "loss": 11.3937,
      "loss/aux_loss": 0.04809096623212099,
      "loss/crossentropy": 2.7579336047172545,
      "loss/logits": 0.8672685265541077,
      "step": 28120
    },
    {
      "epoch": 0.2813,
      "grad_norm": 12.875,
      "grad_norm_var": 0.3942057291666667,
      "learning_rate": 0.0003,
      "loss": 11.5618,
      "loss/aux_loss": 0.04808580968528986,
      "loss/crossentropy": 2.7464880406856538,
      "loss/logits": 0.8809055328369141,
      "step": 28130
    },
    {
      "epoch": 0.2814,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.3719889322916667,
      "learning_rate": 0.0003,
      "loss": 11.4683,
      "loss/aux_loss": 0.04808620549738407,
      "loss/crossentropy": 2.729203450679779,
      "loss/logits": 0.8312252789735795,
      "step": 28140
    },
    {
      "epoch": 0.2815,
      "grad_norm": 11.9375,
      "grad_norm_var": 4.386832682291667,
      "learning_rate": 0.0003,
      "loss": 11.592,
      "loss/aux_loss": 0.04809138756245375,
      "loss/crossentropy": 2.76963392496109,
      "loss/logits": 0.8744438081979752,
      "step": 28150
    },
    {
      "epoch": 0.2816,
      "grad_norm": 13.0,
      "grad_norm_var": 4.50078125,
      "learning_rate": 0.0003,
      "loss": 11.5057,
      "loss/aux_loss": 0.04808358568698168,
      "loss/crossentropy": 2.7290889263153075,
      "loss/logits": 0.8577259719371796,
      "step": 28160
    },
    {
      "epoch": 0.2817,
      "grad_norm": 12.875,
      "grad_norm_var": 1.4513020833333334,
      "learning_rate": 0.0003,
      "loss": 11.7034,
      "loss/aux_loss": 0.04809059873223305,
      "loss/crossentropy": 2.6322677731513977,
      "loss/logits": 0.8687084138393402,
      "step": 28170
    },
    {
      "epoch": 0.2818,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.6677083333333333,
      "learning_rate": 0.0003,
      "loss": 11.4394,
      "loss/aux_loss": 0.04808175694197416,
      "loss/crossentropy": 2.655596649646759,
      "loss/logits": 0.8649382144212723,
      "step": 28180
    },
    {
      "epoch": 0.2819,
      "grad_norm": 12.375,
      "grad_norm_var": 0.7869140625,
      "learning_rate": 0.0003,
      "loss": 11.5506,
      "loss/aux_loss": 0.048091573640704155,
      "loss/crossentropy": 2.83742733001709,
      "loss/logits": 0.8902147322893142,
      "step": 28190
    },
    {
      "epoch": 0.282,
      "grad_norm": 12.5,
      "grad_norm_var": 0.4087890625,
      "learning_rate": 0.0003,
      "loss": 11.5759,
      "loss/aux_loss": 0.048080408945679665,
      "loss/crossentropy": 2.654254060983658,
      "loss/logits": 0.8351120471954345,
      "step": 28200
    },
    {
      "epoch": 0.2821,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.566650390625,
      "learning_rate": 0.0003,
      "loss": 11.6061,
      "loss/aux_loss": 0.04808955620974302,
      "loss/crossentropy": 2.756123435497284,
      "loss/logits": 0.8621039360761642,
      "step": 28210
    },
    {
      "epoch": 0.2822,
      "grad_norm": 16.125,
      "grad_norm_var": 0.8916666666666667,
      "learning_rate": 0.0003,
      "loss": 11.7105,
      "loss/aux_loss": 0.04808141849935055,
      "loss/crossentropy": 2.6973861932754515,
      "loss/logits": 0.9015775710344315,
      "step": 28220
    },
    {
      "epoch": 0.2823,
      "grad_norm": 13.4375,
      "grad_norm_var": 1.2152180989583334,
      "learning_rate": 0.0003,
      "loss": 11.5418,
      "loss/aux_loss": 0.04808177202939987,
      "loss/crossentropy": 2.7852281630039215,
      "loss/logits": 0.8739712238311768,
      "step": 28230
    },
    {
      "epoch": 0.2824,
      "grad_norm": 12.375,
      "grad_norm_var": 0.35714518229166664,
      "learning_rate": 0.0003,
      "loss": 11.4382,
      "loss/aux_loss": 0.0480819521471858,
      "loss/crossentropy": 2.8439980030059813,
      "loss/logits": 0.8818934857845306,
      "step": 28240
    },
    {
      "epoch": 0.2825,
      "grad_norm": 12.5,
      "grad_norm_var": 0.40310872395833336,
      "learning_rate": 0.0003,
      "loss": 11.3937,
      "loss/aux_loss": 0.04809800013899803,
      "loss/crossentropy": 2.752180802822113,
      "loss/logits": 0.8844646722078323,
      "step": 28250
    },
    {
      "epoch": 0.2826,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.5004557291666667,
      "learning_rate": 0.0003,
      "loss": 11.5381,
      "loss/aux_loss": 0.04807610791176557,
      "loss/crossentropy": 2.587927532196045,
      "loss/logits": 0.8262291848659515,
      "step": 28260
    },
    {
      "epoch": 0.2827,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5624348958333333,
      "learning_rate": 0.0003,
      "loss": 11.3631,
      "loss/aux_loss": 0.04808882139623165,
      "loss/crossentropy": 2.8169186234474184,
      "loss/logits": 0.8660006016492844,
      "step": 28270
    },
    {
      "epoch": 0.2828,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.6494791666666667,
      "learning_rate": 0.0003,
      "loss": 11.7342,
      "loss/aux_loss": 0.04807655774056911,
      "loss/crossentropy": 2.7526882588863373,
      "loss/logits": 0.8869515836238862,
      "step": 28280
    },
    {
      "epoch": 0.2829,
      "grad_norm": 12.5,
      "grad_norm_var": 0.586181640625,
      "learning_rate": 0.0003,
      "loss": 11.759,
      "loss/aux_loss": 0.048088379204273224,
      "loss/crossentropy": 2.7451719284057616,
      "loss/logits": 0.9054650783538818,
      "step": 28290
    },
    {
      "epoch": 0.283,
      "grad_norm": 12.0,
      "grad_norm_var": 0.5676920572916667,
      "learning_rate": 0.0003,
      "loss": 11.4817,
      "loss/aux_loss": 0.04807801488786936,
      "loss/crossentropy": 2.8209929168224335,
      "loss/logits": 0.8833929538726807,
      "step": 28300
    },
    {
      "epoch": 0.2831,
      "grad_norm": 14.375,
      "grad_norm_var": 0.9614420572916667,
      "learning_rate": 0.0003,
      "loss": 11.4367,
      "loss/aux_loss": 0.048084160685539244,
      "loss/crossentropy": 2.6196862697601317,
      "loss/logits": 0.8329427570104599,
      "step": 28310
    },
    {
      "epoch": 0.2832,
      "grad_norm": 13.5,
      "grad_norm_var": 0.5783854166666667,
      "learning_rate": 0.0003,
      "loss": 11.5229,
      "loss/aux_loss": 0.0480828158557415,
      "loss/crossentropy": 2.847772258520126,
      "loss/logits": 0.8690467923879623,
      "step": 28320
    },
    {
      "epoch": 0.2833,
      "grad_norm": 12.125,
      "grad_norm_var": 0.8005045572916667,
      "learning_rate": 0.0003,
      "loss": 11.4262,
      "loss/aux_loss": 0.048074822314083575,
      "loss/crossentropy": 2.687458795309067,
      "loss/logits": 0.8230527967214585,
      "step": 28330
    },
    {
      "epoch": 0.2834,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.592041015625,
      "learning_rate": 0.0003,
      "loss": 11.6375,
      "loss/aux_loss": 0.048090120404958726,
      "loss/crossentropy": 2.898961102962494,
      "loss/logits": 0.8803368806838989,
      "step": 28340
    },
    {
      "epoch": 0.2835,
      "grad_norm": 13.375,
      "grad_norm_var": 0.2587890625,
      "learning_rate": 0.0003,
      "loss": 11.6828,
      "loss/aux_loss": 0.048081318661570546,
      "loss/crossentropy": 2.6955320119857786,
      "loss/logits": 0.8958701252937317,
      "step": 28350
    },
    {
      "epoch": 0.2836,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.29420572916666665,
      "learning_rate": 0.0003,
      "loss": 11.6121,
      "loss/aux_loss": 0.048087548650801185,
      "loss/crossentropy": 2.8415299594402312,
      "loss/logits": 0.8907667517662048,
      "step": 28360
    },
    {
      "epoch": 0.2837,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.29659830729166664,
      "learning_rate": 0.0003,
      "loss": 11.6166,
      "loss/aux_loss": 0.048079358972609045,
      "loss/crossentropy": 2.7396019995212555,
      "loss/logits": 0.8907454043626786,
      "step": 28370
    },
    {
      "epoch": 0.2838,
      "grad_norm": 13.375,
      "grad_norm_var": 0.152978515625,
      "learning_rate": 0.0003,
      "loss": 11.4829,
      "loss/aux_loss": 0.04807760044932365,
      "loss/crossentropy": 2.768324136734009,
      "loss/logits": 0.8386527955532074,
      "step": 28380
    },
    {
      "epoch": 0.2839,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.23865559895833333,
      "learning_rate": 0.0003,
      "loss": 11.6151,
      "loss/aux_loss": 0.048082569241523744,
      "loss/crossentropy": 2.878603792190552,
      "loss/logits": 0.8644590139389038,
      "step": 28390
    },
    {
      "epoch": 0.284,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.49680989583333335,
      "learning_rate": 0.0003,
      "loss": 11.6059,
      "loss/aux_loss": 0.04808495007455349,
      "loss/crossentropy": 2.6303452491760253,
      "loss/logits": 0.8935995787382126,
      "step": 28400
    },
    {
      "epoch": 0.2841,
      "grad_norm": 12.125,
      "grad_norm_var": 0.733056640625,
      "learning_rate": 0.0003,
      "loss": 11.4731,
      "loss/aux_loss": 0.048085509426891805,
      "loss/crossentropy": 2.828030973672867,
      "loss/logits": 0.8445266515016556,
      "step": 28410
    },
    {
      "epoch": 0.2842,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.44503580729166664,
      "learning_rate": 0.0003,
      "loss": 11.4002,
      "loss/aux_loss": 0.04808097891509533,
      "loss/crossentropy": 2.6388884663581846,
      "loss/logits": 0.9015711516141891,
      "step": 28420
    },
    {
      "epoch": 0.2843,
      "grad_norm": 13.75,
      "grad_norm_var": 0.4434733072916667,
      "learning_rate": 0.0003,
      "loss": 11.514,
      "loss/aux_loss": 0.048092016205191615,
      "loss/crossentropy": 2.815828490257263,
      "loss/logits": 0.9084261149168015,
      "step": 28430
    },
    {
      "epoch": 0.2844,
      "grad_norm": 12.625,
      "grad_norm_var": 0.54453125,
      "learning_rate": 0.0003,
      "loss": 11.5181,
      "loss/aux_loss": 0.04807435479015112,
      "loss/crossentropy": 2.7728405237197875,
      "loss/logits": 0.887555119395256,
      "step": 28440
    },
    {
      "epoch": 0.2845,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.42916666666666664,
      "learning_rate": 0.0003,
      "loss": 11.5056,
      "loss/aux_loss": 0.04808815475553274,
      "loss/crossentropy": 2.8544474244117737,
      "loss/logits": 0.8347731292247772,
      "step": 28450
    },
    {
      "epoch": 0.2846,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.5046223958333333,
      "learning_rate": 0.0003,
      "loss": 11.5202,
      "loss/aux_loss": 0.048085703514516354,
      "loss/crossentropy": 2.570024532079697,
      "loss/logits": 0.8466786921024323,
      "step": 28460
    },
    {
      "epoch": 0.2847,
      "grad_norm": 14.375,
      "grad_norm_var": 0.6171223958333333,
      "learning_rate": 0.0003,
      "loss": 11.319,
      "loss/aux_loss": 0.04809032492339611,
      "loss/crossentropy": 2.7953803539276123,
      "loss/logits": 0.8648561179637909,
      "step": 28470
    },
    {
      "epoch": 0.2848,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5113932291666666,
      "learning_rate": 0.0003,
      "loss": 11.452,
      "loss/aux_loss": 0.04808381143957376,
      "loss/crossentropy": 2.7199991762638094,
      "loss/logits": 0.8637189954519272,
      "step": 28480
    },
    {
      "epoch": 0.2849,
      "grad_norm": 12.625,
      "grad_norm_var": 0.410400390625,
      "learning_rate": 0.0003,
      "loss": 11.4654,
      "loss/aux_loss": 0.04808434545993805,
      "loss/crossentropy": 2.8280713319778443,
      "loss/logits": 0.9059916436672211,
      "step": 28490
    },
    {
      "epoch": 0.285,
      "grad_norm": 51.75,
      "grad_norm_var": 95.12967122395834,
      "learning_rate": 0.0003,
      "loss": 11.5128,
      "loss/aux_loss": 0.0480845658108592,
      "loss/crossentropy": 2.858335256576538,
      "loss/logits": 0.9236481755971908,
      "step": 28500
    },
    {
      "epoch": 0.2851,
      "grad_norm": 14.1875,
      "grad_norm_var": 92.11041666666667,
      "learning_rate": 0.0003,
      "loss": 11.5787,
      "loss/aux_loss": 0.04808925464749336,
      "loss/crossentropy": 2.846384787559509,
      "loss/logits": 0.8865832269191742,
      "step": 28510
    },
    {
      "epoch": 0.2852,
      "grad_norm": 13.625,
      "grad_norm_var": 0.3070149739583333,
      "learning_rate": 0.0003,
      "loss": 11.6155,
      "loss/aux_loss": 0.048087059520184994,
      "loss/crossentropy": 2.6891987919807434,
      "loss/logits": 0.8724437922239303,
      "step": 28520
    },
    {
      "epoch": 0.2853,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.28487955729166664,
      "learning_rate": 0.0003,
      "loss": 11.647,
      "loss/aux_loss": 0.04809146039187908,
      "loss/crossentropy": 2.803027904033661,
      "loss/logits": 0.8911570340394974,
      "step": 28530
    },
    {
      "epoch": 0.2854,
      "grad_norm": 13.0,
      "grad_norm_var": 0.46796875,
      "learning_rate": 0.0003,
      "loss": 11.6234,
      "loss/aux_loss": 0.04807390477508307,
      "loss/crossentropy": 2.7482841432094576,
      "loss/logits": 0.8875775545835495,
      "step": 28540
    },
    {
      "epoch": 0.2855,
      "grad_norm": 12.75,
      "grad_norm_var": 55.06139322916667,
      "learning_rate": 0.0003,
      "loss": 11.552,
      "loss/aux_loss": 0.04810281321406364,
      "loss/crossentropy": 2.6797729313373564,
      "loss/logits": 0.8286285102367401,
      "step": 28550
    },
    {
      "epoch": 0.2856,
      "grad_norm": 13.4375,
      "grad_norm_var": 1.0009765625,
      "learning_rate": 0.0003,
      "loss": 11.489,
      "loss/aux_loss": 0.048082736879587175,
      "loss/crossentropy": 2.6085013091564178,
      "loss/logits": 0.8426523476839065,
      "step": 28560
    },
    {
      "epoch": 0.2857,
      "grad_norm": 15.625,
      "grad_norm_var": 0.8051432291666667,
      "learning_rate": 0.0003,
      "loss": 11.5542,
      "loss/aux_loss": 0.04808100238442421,
      "loss/crossentropy": 2.788421058654785,
      "loss/logits": 0.865365993976593,
      "step": 28570
    },
    {
      "epoch": 0.2858,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.9296712239583333,
      "learning_rate": 0.0003,
      "loss": 11.5754,
      "loss/aux_loss": 0.04808872230350971,
      "loss/crossentropy": 2.6733221411705017,
      "loss/logits": 0.8689684510231018,
      "step": 28580
    },
    {
      "epoch": 0.2859,
      "grad_norm": 13.5,
      "grad_norm_var": 0.5859375,
      "learning_rate": 0.0003,
      "loss": 11.3833,
      "loss/aux_loss": 0.048073044046759605,
      "loss/crossentropy": 2.7072140097618105,
      "loss/logits": 0.8347415089607239,
      "step": 28590
    },
    {
      "epoch": 0.286,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.8980305989583334,
      "learning_rate": 0.0003,
      "loss": 11.5353,
      "loss/aux_loss": 0.04807990416884422,
      "loss/crossentropy": 2.6441255509853363,
      "loss/logits": 0.8408429473638535,
      "step": 28600
    },
    {
      "epoch": 0.2861,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.32667643229166665,
      "learning_rate": 0.0003,
      "loss": 11.3859,
      "loss/aux_loss": 0.04808638412505388,
      "loss/crossentropy": 2.8064417958259584,
      "loss/logits": 0.8815937727689743,
      "step": 28610
    },
    {
      "epoch": 0.2862,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.1900390625,
      "learning_rate": 0.0003,
      "loss": 11.3424,
      "loss/aux_loss": 0.04808064606040716,
      "loss/crossentropy": 2.692779916524887,
      "loss/logits": 0.8429404377937317,
      "step": 28620
    },
    {
      "epoch": 0.2863,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.3089680989583333,
      "learning_rate": 0.0003,
      "loss": 11.656,
      "loss/aux_loss": 0.04809319917112589,
      "loss/crossentropy": 2.8748478055000306,
      "loss/logits": 0.9063412040472031,
      "step": 28630
    },
    {
      "epoch": 0.2864,
      "grad_norm": 16.875,
      "grad_norm_var": 13.566650390625,
      "learning_rate": 0.0003,
      "loss": 11.4876,
      "loss/aux_loss": 0.04807700905948877,
      "loss/crossentropy": 2.779051947593689,
      "loss/logits": 0.8662481039762497,
      "step": 28640
    },
    {
      "epoch": 0.2865,
      "grad_norm": 15.0625,
      "grad_norm_var": 12.745426432291667,
      "learning_rate": 0.0003,
      "loss": 11.4317,
      "loss/aux_loss": 0.04808287639170885,
      "loss/crossentropy": 2.825643515586853,
      "loss/logits": 0.8664470076560974,
      "step": 28650
    },
    {
      "epoch": 0.2866,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.5754557291666667,
      "learning_rate": 0.0003,
      "loss": 11.2821,
      "loss/aux_loss": 0.04808809049427509,
      "loss/crossentropy": 2.735125958919525,
      "loss/logits": 0.8850825309753418,
      "step": 28660
    },
    {
      "epoch": 0.2867,
      "grad_norm": 15.0,
      "grad_norm_var": 1.239306640625,
      "learning_rate": 0.0003,
      "loss": 11.6871,
      "loss/aux_loss": 0.04809844307601452,
      "loss/crossentropy": 2.6700200915336607,
      "loss/logits": 0.8919987231492996,
      "step": 28670
    },
    {
      "epoch": 0.2868,
      "grad_norm": 14.75,
      "grad_norm_var": 1.1426432291666666,
      "learning_rate": 0.0003,
      "loss": 11.4459,
      "loss/aux_loss": 0.04808284323662519,
      "loss/crossentropy": 2.639972817897797,
      "loss/logits": 0.8575376510620117,
      "step": 28680
    },
    {
      "epoch": 0.2869,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.633447265625,
      "learning_rate": 0.0003,
      "loss": 11.448,
      "loss/aux_loss": 0.04808585159480572,
      "loss/crossentropy": 2.684755891561508,
      "loss/logits": 0.858421990275383,
      "step": 28690
    },
    {
      "epoch": 0.287,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.0254557291666666,
      "learning_rate": 0.0003,
      "loss": 11.4013,
      "loss/aux_loss": 0.04808926824480295,
      "loss/crossentropy": 2.733264869451523,
      "loss/logits": 0.8662783950567245,
      "step": 28700
    },
    {
      "epoch": 0.2871,
      "grad_norm": 13.125,
      "grad_norm_var": 0.4328125,
      "learning_rate": 0.0003,
      "loss": 11.6559,
      "loss/aux_loss": 0.04808164779096842,
      "loss/crossentropy": 2.625485306978226,
      "loss/logits": 0.8678814113140106,
      "step": 28710
    },
    {
      "epoch": 0.2872,
      "grad_norm": 12.75,
      "grad_norm_var": 0.3489583333333333,
      "learning_rate": 0.0003,
      "loss": 11.5625,
      "loss/aux_loss": 0.048087488114833835,
      "loss/crossentropy": 2.7748125314712526,
      "loss/logits": 0.8737635612487793,
      "step": 28720
    },
    {
      "epoch": 0.2873,
      "grad_norm": 13.75,
      "grad_norm_var": 0.5188639322916667,
      "learning_rate": 0.0003,
      "loss": 11.3701,
      "loss/aux_loss": 0.04807881489396095,
      "loss/crossentropy": 2.825051474571228,
      "loss/logits": 0.869257315993309,
      "step": 28730
    },
    {
      "epoch": 0.2874,
      "grad_norm": 12.75,
      "grad_norm_var": 0.3101399739583333,
      "learning_rate": 0.0003,
      "loss": 11.5001,
      "loss/aux_loss": 0.04808692578226328,
      "loss/crossentropy": 2.682652533054352,
      "loss/logits": 0.8922774195671082,
      "step": 28740
    },
    {
      "epoch": 0.2875,
      "grad_norm": 12.875,
      "grad_norm_var": 0.2384765625,
      "learning_rate": 0.0003,
      "loss": 11.5308,
      "loss/aux_loss": 0.048078923113644124,
      "loss/crossentropy": 2.748230826854706,
      "loss/logits": 0.9064568638801574,
      "step": 28750
    },
    {
      "epoch": 0.2876,
      "grad_norm": 12.375,
      "grad_norm_var": 0.2869140625,
      "learning_rate": 0.0003,
      "loss": 11.4102,
      "loss/aux_loss": 0.0480932604521513,
      "loss/crossentropy": 2.6067364394664763,
      "loss/logits": 0.8314082384109497,
      "step": 28760
    },
    {
      "epoch": 0.2877,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.4200358072916667,
      "learning_rate": 0.0003,
      "loss": 11.4282,
      "loss/aux_loss": 0.04807720612734556,
      "loss/crossentropy": 2.7676464080810548,
      "loss/logits": 0.8628965139389038,
      "step": 28770
    },
    {
      "epoch": 0.2878,
      "grad_norm": 13.5,
      "grad_norm_var": 0.6832682291666666,
      "learning_rate": 0.0003,
      "loss": 11.5929,
      "loss/aux_loss": 0.048078482411801814,
      "loss/crossentropy": 2.7174685835838317,
      "loss/logits": 0.8926462024450302,
      "step": 28780
    },
    {
      "epoch": 0.2879,
      "grad_norm": 13.875,
      "grad_norm_var": 0.73671875,
      "learning_rate": 0.0003,
      "loss": 11.4883,
      "loss/aux_loss": 0.04808929469436407,
      "loss/crossentropy": 2.8711092829704286,
      "loss/logits": 0.9005297362804413,
      "step": 28790
    },
    {
      "epoch": 0.288,
      "grad_norm": 58.75,
      "grad_norm_var": 130.48567708333334,
      "learning_rate": 0.0003,
      "loss": 11.499,
      "loss/aux_loss": 0.04807561915367842,
      "loss/crossentropy": 2.684372991323471,
      "loss/logits": 0.8370014727115631,
      "step": 28800
    },
    {
      "epoch": 0.2881,
      "grad_norm": 12.75,
      "grad_norm_var": 130.08795572916668,
      "learning_rate": 0.0003,
      "loss": 11.4676,
      "loss/aux_loss": 0.04809402357786894,
      "loss/crossentropy": 2.8078381299972532,
      "loss/logits": 0.8840030491352081,
      "step": 28810
    },
    {
      "epoch": 0.2882,
      "grad_norm": 13.25,
      "grad_norm_var": 0.5019368489583333,
      "learning_rate": 0.0003,
      "loss": 11.4451,
      "loss/aux_loss": 0.04808465614914894,
      "loss/crossentropy": 2.681842344999313,
      "loss/logits": 0.882282269001007,
      "step": 28820
    },
    {
      "epoch": 0.2883,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.2556640625,
      "learning_rate": 0.0003,
      "loss": 11.4593,
      "loss/aux_loss": 0.04808338657021523,
      "loss/crossentropy": 2.718055808544159,
      "loss/logits": 0.8846965968608856,
      "step": 28830
    },
    {
      "epoch": 0.2884,
      "grad_norm": 13.625,
      "grad_norm_var": 3.116259765625,
      "learning_rate": 0.0003,
      "loss": 11.4866,
      "loss/aux_loss": 0.048081991448998454,
      "loss/crossentropy": 2.824300652742386,
      "loss/logits": 0.8746830075979233,
      "step": 28840
    },
    {
      "epoch": 0.2885,
      "grad_norm": 13.625,
      "grad_norm_var": 0.311181640625,
      "learning_rate": 0.0003,
      "loss": 11.2453,
      "loss/aux_loss": 0.04808319676667452,
      "loss/crossentropy": 2.759380376338959,
      "loss/logits": 0.8470451653003692,
      "step": 28850
    },
    {
      "epoch": 0.2886,
      "grad_norm": 12.5625,
      "grad_norm_var": 1.086181640625,
      "learning_rate": 0.0003,
      "loss": 11.5076,
      "loss/aux_loss": 0.04808532185852528,
      "loss/crossentropy": 2.7223631918430327,
      "loss/logits": 0.8595778405666351,
      "step": 28860
    },
    {
      "epoch": 0.2887,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.7536458333333333,
      "learning_rate": 0.0003,
      "loss": 11.5933,
      "loss/aux_loss": 0.04808366596698761,
      "loss/crossentropy": 2.6659576177597044,
      "loss/logits": 0.8435241490602493,
      "step": 28870
    },
    {
      "epoch": 0.2888,
      "grad_norm": 12.375,
      "grad_norm_var": 1.361572265625,
      "learning_rate": 0.0003,
      "loss": 11.6656,
      "loss/aux_loss": 0.04809127729386091,
      "loss/crossentropy": 2.731011927127838,
      "loss/logits": 0.8725592494010925,
      "step": 28880
    },
    {
      "epoch": 0.2889,
      "grad_norm": 12.8125,
      "grad_norm_var": 1.0494140625,
      "learning_rate": 0.0003,
      "loss": 11.3996,
      "loss/aux_loss": 0.04808544144034386,
      "loss/crossentropy": 2.852566087245941,
      "loss/logits": 0.9123659133911133,
      "step": 28890
    },
    {
      "epoch": 0.289,
      "grad_norm": 12.625,
      "grad_norm_var": 0.5302083333333333,
      "learning_rate": 0.0003,
      "loss": 11.5145,
      "loss/aux_loss": 0.04808180872350931,
      "loss/crossentropy": 2.8115632593631745,
      "loss/logits": 0.8549628496170044,
      "step": 28900
    },
    {
      "epoch": 0.2891,
      "grad_norm": 12.625,
      "grad_norm_var": 0.4416015625,
      "learning_rate": 0.0003,
      "loss": 11.4916,
      "loss/aux_loss": 0.048086360283195975,
      "loss/crossentropy": 2.8208987712860107,
      "loss/logits": 0.8684911131858826,
      "step": 28910
    },
    {
      "epoch": 0.2892,
      "grad_norm": 12.875,
      "grad_norm_var": 0.306494140625,
      "learning_rate": 0.0003,
      "loss": 11.6515,
      "loss/aux_loss": 0.048084983974695204,
      "loss/crossentropy": 2.82762331366539,
      "loss/logits": 0.8740989983081817,
      "step": 28920
    },
    {
      "epoch": 0.2893,
      "grad_norm": 12.375,
      "grad_norm_var": 0.20428059895833334,
      "learning_rate": 0.0003,
      "loss": 11.3879,
      "loss/aux_loss": 0.048082150518894196,
      "loss/crossentropy": 2.7328701674938203,
      "loss/logits": 0.8231735050678253,
      "step": 28930
    },
    {
      "epoch": 0.2894,
      "grad_norm": 13.375,
      "grad_norm_var": 0.40572916666666664,
      "learning_rate": 0.0003,
      "loss": 11.4964,
      "loss/aux_loss": 0.04808959234505892,
      "loss/crossentropy": 2.681563550233841,
      "loss/logits": 0.8461143642663955,
      "step": 28940
    },
    {
      "epoch": 0.2895,
      "grad_norm": 12.5,
      "grad_norm_var": 0.245947265625,
      "learning_rate": 0.0003,
      "loss": 11.3121,
      "loss/aux_loss": 0.04808651022613049,
      "loss/crossentropy": 2.6562454462051392,
      "loss/logits": 0.8221059828996659,
      "step": 28950
    },
    {
      "epoch": 0.2896,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.122509765625,
      "learning_rate": 0.0003,
      "loss": 11.4933,
      "loss/aux_loss": 0.04808787871152163,
      "loss/crossentropy": 2.725093901157379,
      "loss/logits": 0.8643009692430497,
      "step": 28960
    },
    {
      "epoch": 0.2897,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.23203125,
      "learning_rate": 0.0003,
      "loss": 11.4234,
      "loss/aux_loss": 0.04808852039277554,
      "loss/crossentropy": 2.7337252140045165,
      "loss/logits": 0.8330873519182205,
      "step": 28970
    },
    {
      "epoch": 0.2898,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.406494140625,
      "learning_rate": 0.0003,
      "loss": 11.53,
      "loss/aux_loss": 0.048081529699265955,
      "loss/crossentropy": 2.6677880942821504,
      "loss/logits": 0.8496348142623902,
      "step": 28980
    },
    {
      "epoch": 0.2899,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.3011555989583333,
      "learning_rate": 0.0003,
      "loss": 11.3731,
      "loss/aux_loss": 0.04807930588722229,
      "loss/crossentropy": 2.6456236064434053,
      "loss/logits": 0.8759482502937317,
      "step": 28990
    },
    {
      "epoch": 0.29,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.14021809895833334,
      "learning_rate": 0.0003,
      "loss": 11.5333,
      "loss/aux_loss": 0.048075495101511476,
      "loss/crossentropy": 2.8131125450134276,
      "loss/logits": 0.8634077340364457,
      "step": 29000
    },
    {
      "epoch": 0.2901,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.12342122395833334,
      "learning_rate": 0.0003,
      "loss": 11.5456,
      "loss/aux_loss": 0.04809298645704985,
      "loss/crossentropy": 2.8442670702934265,
      "loss/logits": 0.8695224732160568,
      "step": 29010
    },
    {
      "epoch": 0.2902,
      "grad_norm": 12.25,
      "grad_norm_var": 0.21458333333333332,
      "learning_rate": 0.0003,
      "loss": 11.5506,
      "loss/aux_loss": 0.04808041173964739,
      "loss/crossentropy": 2.5905315399169924,
      "loss/logits": 0.8509000718593598,
      "step": 29020
    },
    {
      "epoch": 0.2903,
      "grad_norm": 12.25,
      "grad_norm_var": 0.5184733072916666,
      "learning_rate": 0.0003,
      "loss": 11.5184,
      "loss/aux_loss": 0.0480886347591877,
      "loss/crossentropy": 2.892964768409729,
      "loss/logits": 0.887509498000145,
      "step": 29030
    },
    {
      "epoch": 0.2904,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.609375,
      "learning_rate": 0.0003,
      "loss": 11.6753,
      "loss/aux_loss": 0.048083288595080376,
      "loss/crossentropy": 2.7917010486125946,
      "loss/logits": 0.9125192284584045,
      "step": 29040
    },
    {
      "epoch": 0.2905,
      "grad_norm": 12.875,
      "grad_norm_var": 0.8778483072916666,
      "learning_rate": 0.0003,
      "loss": 11.4772,
      "loss/aux_loss": 0.04808119647204876,
      "loss/crossentropy": 2.6203967094421388,
      "loss/logits": 0.8430052489042282,
      "step": 29050
    },
    {
      "epoch": 0.2906,
      "grad_norm": 13.125,
      "grad_norm_var": 2.5011555989583334,
      "learning_rate": 0.0003,
      "loss": 11.3984,
      "loss/aux_loss": 0.048092004284262656,
      "loss/crossentropy": 2.7506280064582826,
      "loss/logits": 0.8497364521026611,
      "step": 29060
    },
    {
      "epoch": 0.2907,
      "grad_norm": 13.1875,
      "grad_norm_var": 2.12578125,
      "learning_rate": 0.0003,
      "loss": 11.4993,
      "loss/aux_loss": 0.04808201938867569,
      "loss/crossentropy": 2.765266942977905,
      "loss/logits": 0.8675076127052307,
      "step": 29070
    },
    {
      "epoch": 0.2908,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.17838541666666666,
      "learning_rate": 0.0003,
      "loss": 11.4641,
      "loss/aux_loss": 0.048099024966359136,
      "loss/crossentropy": 2.6994349300861358,
      "loss/logits": 0.8749856293201447,
      "step": 29080
    },
    {
      "epoch": 0.2909,
      "grad_norm": 12.75,
      "grad_norm_var": 0.386962890625,
      "learning_rate": 0.0003,
      "loss": 11.6602,
      "loss/aux_loss": 0.048081963881850244,
      "loss/crossentropy": 2.8470765471458437,
      "loss/logits": 0.9124794363975525,
      "step": 29090
    },
    {
      "epoch": 0.291,
      "grad_norm": 12.75,
      "grad_norm_var": 0.6010416666666667,
      "learning_rate": 0.0003,
      "loss": 11.7205,
      "loss/aux_loss": 0.0480800811201334,
      "loss/crossentropy": 2.632298457622528,
      "loss/logits": 0.8833822071552276,
      "step": 29100
    },
    {
      "epoch": 0.2911,
      "grad_norm": 13.375,
      "grad_norm_var": 0.9180826822916667,
      "learning_rate": 0.0003,
      "loss": 11.5494,
      "loss/aux_loss": 0.0480863980948925,
      "loss/crossentropy": 2.8006245315074922,
      "loss/logits": 0.8473658740520478,
      "step": 29110
    },
    {
      "epoch": 0.2912,
      "grad_norm": 15.375,
      "grad_norm_var": 20.746614583333333,
      "learning_rate": 0.0003,
      "loss": 11.4375,
      "loss/aux_loss": 0.0480819221585989,
      "loss/crossentropy": 2.8713009297847747,
      "loss/logits": 0.8780528694391251,
      "step": 29120
    },
    {
      "epoch": 0.2913,
      "grad_norm": 13.6875,
      "grad_norm_var": 20.1234375,
      "learning_rate": 0.0003,
      "loss": 11.3549,
      "loss/aux_loss": 0.048090817779302596,
      "loss/crossentropy": 2.890332305431366,
      "loss/logits": 0.9046699106693268,
      "step": 29130
    },
    {
      "epoch": 0.2914,
      "grad_norm": 13.25,
      "grad_norm_var": 0.9503743489583333,
      "learning_rate": 0.0003,
      "loss": 11.377,
      "loss/aux_loss": 0.048084873519837854,
      "loss/crossentropy": 2.6816116988658907,
      "loss/logits": 0.8458852350711823,
      "step": 29140
    },
    {
      "epoch": 0.2915,
      "grad_norm": 12.75,
      "grad_norm_var": 0.383447265625,
      "learning_rate": 0.0003,
      "loss": 11.5313,
      "loss/aux_loss": 0.04807651937007904,
      "loss/crossentropy": 2.791849434375763,
      "loss/logits": 0.8508994936943054,
      "step": 29150
    },
    {
      "epoch": 0.2916,
      "grad_norm": 13.75,
      "grad_norm_var": 0.5989583333333334,
      "learning_rate": 0.0003,
      "loss": 11.5582,
      "loss/aux_loss": 0.04808504190295935,
      "loss/crossentropy": 2.727277672290802,
      "loss/logits": 0.8817504495382309,
      "step": 29160
    },
    {
      "epoch": 0.2917,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.3075358072916667,
      "learning_rate": 0.0003,
      "loss": 11.5291,
      "loss/aux_loss": 0.04808583091944456,
      "loss/crossentropy": 2.900036704540253,
      "loss/logits": 0.8793569028377533,
      "step": 29170
    },
    {
      "epoch": 0.2918,
      "grad_norm": 12.1875,
      "grad_norm_var": 1.3009765625,
      "learning_rate": 0.0003,
      "loss": 11.5269,
      "loss/aux_loss": 0.04807761292904615,
      "loss/crossentropy": 2.790689837932587,
      "loss/logits": 0.8850260347127914,
      "step": 29180
    },
    {
      "epoch": 0.2919,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.7283854166666667,
      "learning_rate": 0.0003,
      "loss": 11.454,
      "loss/aux_loss": 0.04808845371007919,
      "loss/crossentropy": 2.3579376369714735,
      "loss/logits": 0.795929902791977,
      "step": 29190
    },
    {
      "epoch": 0.292,
      "grad_norm": 14.0,
      "grad_norm_var": 0.2769368489583333,
      "learning_rate": 0.0003,
      "loss": 11.4508,
      "loss/aux_loss": 0.04808519259095192,
      "loss/crossentropy": 2.759959888458252,
      "loss/logits": 0.8524115920066834,
      "step": 29200
    },
    {
      "epoch": 0.2921,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.40349934895833334,
      "learning_rate": 0.0003,
      "loss": 11.5466,
      "loss/aux_loss": 0.048085874505341054,
      "loss/crossentropy": 2.7660795211791993,
      "loss/logits": 0.8959324955940247,
      "step": 29210
    },
    {
      "epoch": 0.2922,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.9738932291666667,
      "learning_rate": 0.0003,
      "loss": 11.5221,
      "loss/aux_loss": 0.04807844292372465,
      "loss/crossentropy": 2.739389771223068,
      "loss/logits": 0.9002001017332077,
      "step": 29220
    },
    {
      "epoch": 0.2923,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.8861979166666667,
      "learning_rate": 0.0003,
      "loss": 11.604,
      "loss/aux_loss": 0.04809589311480522,
      "loss/crossentropy": 2.8620386838912966,
      "loss/logits": 0.8738722622394561,
      "step": 29230
    },
    {
      "epoch": 0.2924,
      "grad_norm": 13.0,
      "grad_norm_var": 0.8202473958333333,
      "learning_rate": 0.0003,
      "loss": 11.5345,
      "loss/aux_loss": 0.048076955042779444,
      "loss/crossentropy": 2.765863335132599,
      "loss/logits": 0.8648845195770264,
      "step": 29240
    },
    {
      "epoch": 0.2925,
      "grad_norm": 14.125,
      "grad_norm_var": 0.6406087239583333,
      "learning_rate": 0.0003,
      "loss": 11.4273,
      "loss/aux_loss": 0.04808403495699167,
      "loss/crossentropy": 2.6642160415649414,
      "loss/logits": 0.8542217493057251,
      "step": 29250
    },
    {
      "epoch": 0.2926,
      "grad_norm": 14.125,
      "grad_norm_var": 0.6924479166666667,
      "learning_rate": 0.0003,
      "loss": 11.4789,
      "loss/aux_loss": 0.048092410899698734,
      "loss/crossentropy": 2.6984796285629273,
      "loss/logits": 0.865311412513256,
      "step": 29260
    },
    {
      "epoch": 0.2927,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.48125,
      "learning_rate": 0.0003,
      "loss": 11.6032,
      "loss/aux_loss": 0.04807758815586567,
      "loss/crossentropy": 2.764070636034012,
      "loss/logits": 0.9029274463653565,
      "step": 29270
    },
    {
      "epoch": 0.2928,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.37005208333333334,
      "learning_rate": 0.0003,
      "loss": 11.4,
      "loss/aux_loss": 0.04808840956538916,
      "loss/crossentropy": 2.5958930790424346,
      "loss/logits": 0.8585714161396026,
      "step": 29280
    },
    {
      "epoch": 0.2929,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.3031087239583333,
      "learning_rate": 0.0003,
      "loss": 11.3794,
      "loss/aux_loss": 0.048076996393501756,
      "loss/crossentropy": 2.841508948802948,
      "loss/logits": 0.8784020185470581,
      "step": 29290
    },
    {
      "epoch": 0.293,
      "grad_norm": 13.375,
      "grad_norm_var": 1.5706868489583334,
      "learning_rate": 0.0003,
      "loss": 11.445,
      "loss/aux_loss": 0.04809955209493637,
      "loss/crossentropy": 2.80951851606369,
      "loss/logits": 0.8316282510757447,
      "step": 29300
    },
    {
      "epoch": 0.2931,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.7716145833333333,
      "learning_rate": 0.0003,
      "loss": 11.5951,
      "loss/aux_loss": 0.04807936865836382,
      "loss/crossentropy": 2.7189249217510225,
      "loss/logits": 0.8644407778978348,
      "step": 29310
    },
    {
      "epoch": 0.2932,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.5526041666666667,
      "learning_rate": 0.0003,
      "loss": 11.5453,
      "loss/aux_loss": 0.048080489970743656,
      "loss/crossentropy": 2.8331545174121855,
      "loss/logits": 0.8822837799787522,
      "step": 29320
    },
    {
      "epoch": 0.2933,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.23229166666666667,
      "learning_rate": 0.0003,
      "loss": 11.7391,
      "loss/aux_loss": 0.0480887183919549,
      "loss/crossentropy": 2.7327269673347474,
      "loss/logits": 0.8839978009462357,
      "step": 29330
    },
    {
      "epoch": 0.2934,
      "grad_norm": 13.625,
      "grad_norm_var": 0.22654622395833332,
      "learning_rate": 0.0003,
      "loss": 11.4887,
      "loss/aux_loss": 0.04807803481817245,
      "loss/crossentropy": 2.721933346986771,
      "loss/logits": 0.8577464699745179,
      "step": 29340
    },
    {
      "epoch": 0.2935,
      "grad_norm": 13.25,
      "grad_norm_var": 0.18448893229166666,
      "learning_rate": 0.0003,
      "loss": 11.4648,
      "loss/aux_loss": 0.04808668624609709,
      "loss/crossentropy": 2.8373769760131835,
      "loss/logits": 0.8713858962059021,
      "step": 29350
    },
    {
      "epoch": 0.2936,
      "grad_norm": 13.1875,
      "grad_norm_var": 1.0161458333333333,
      "learning_rate": 0.0003,
      "loss": 11.4781,
      "loss/aux_loss": 0.04806650560349226,
      "loss/crossentropy": 2.651980197429657,
      "loss/logits": 0.8469345271587372,
      "step": 29360
    },
    {
      "epoch": 0.2937,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.3165201822916667,
      "learning_rate": 0.0003,
      "loss": 11.4494,
      "loss/aux_loss": 0.048085213825106624,
      "loss/crossentropy": 2.8691640198230743,
      "loss/logits": 0.8683050394058227,
      "step": 29370
    },
    {
      "epoch": 0.2938,
      "grad_norm": 13.75,
      "grad_norm_var": 0.42630208333333336,
      "learning_rate": 0.0003,
      "loss": 11.5254,
      "loss/aux_loss": 0.04808463230729103,
      "loss/crossentropy": 2.6619069993495943,
      "loss/logits": 0.8452241331338882,
      "step": 29380
    },
    {
      "epoch": 0.2939,
      "grad_norm": 12.625,
      "grad_norm_var": 0.3916015625,
      "learning_rate": 0.0003,
      "loss": 11.4964,
      "loss/aux_loss": 0.04807299487292767,
      "loss/crossentropy": 2.63063805103302,
      "loss/logits": 0.8311535373330117,
      "step": 29390
    },
    {
      "epoch": 0.294,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.3087890625,
      "learning_rate": 0.0003,
      "loss": 11.437,
      "loss/aux_loss": 0.048074229061603545,
      "loss/crossentropy": 2.745287525653839,
      "loss/logits": 0.8874899983406067,
      "step": 29400
    },
    {
      "epoch": 0.2941,
      "grad_norm": 13.125,
      "grad_norm_var": 0.2837890625,
      "learning_rate": 0.0003,
      "loss": 11.5053,
      "loss/aux_loss": 0.04808676596730947,
      "loss/crossentropy": 2.740684485435486,
      "loss/logits": 0.8409494936466217,
      "step": 29410
    },
    {
      "epoch": 0.2942,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.21920572916666667,
      "learning_rate": 0.0003,
      "loss": 11.5673,
      "loss/aux_loss": 0.04807845540344715,
      "loss/crossentropy": 2.8806114912033083,
      "loss/logits": 0.8758183747529984,
      "step": 29420
    },
    {
      "epoch": 0.2943,
      "grad_norm": 12.8125,
      "grad_norm_var": 1.0633951822916667,
      "learning_rate": 0.0003,
      "loss": 11.4363,
      "loss/aux_loss": 0.04808698520064354,
      "loss/crossentropy": 2.717182183265686,
      "loss/logits": 0.8745023101568222,
      "step": 29430
    },
    {
      "epoch": 0.2944,
      "grad_norm": 13.25,
      "grad_norm_var": 0.4212890625,
      "learning_rate": 0.0003,
      "loss": 11.5294,
      "loss/aux_loss": 0.048078556172549726,
      "loss/crossentropy": 2.6900423645973204,
      "loss/logits": 0.8533391326665878,
      "step": 29440
    },
    {
      "epoch": 0.2945,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.2962890625,
      "learning_rate": 0.0003,
      "loss": 11.4001,
      "loss/aux_loss": 0.0480863269418478,
      "loss/crossentropy": 2.7647065460681914,
      "loss/logits": 0.8730087608098984,
      "step": 29450
    },
    {
      "epoch": 0.2946,
      "grad_norm": 13.625,
      "grad_norm_var": 1.1960774739583333,
      "learning_rate": 0.0003,
      "loss": 11.5183,
      "loss/aux_loss": 0.0480956656858325,
      "loss/crossentropy": 2.675736755132675,
      "loss/logits": 0.8797785133123398,
      "step": 29460
    },
    {
      "epoch": 0.2947,
      "grad_norm": 12.8125,
      "grad_norm_var": 1.1954264322916666,
      "learning_rate": 0.0003,
      "loss": 11.3158,
      "loss/aux_loss": 0.0480833875015378,
      "loss/crossentropy": 2.6308836817741392,
      "loss/logits": 0.8395634293556213,
      "step": 29470
    },
    {
      "epoch": 0.2948,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.5860514322916667,
      "learning_rate": 0.0003,
      "loss": 11.2813,
      "loss/aux_loss": 0.048089759424328804,
      "loss/crossentropy": 2.599923449754715,
      "loss/logits": 0.8390878111124038,
      "step": 29480
    },
    {
      "epoch": 0.2949,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.5067545572916666,
      "learning_rate": 0.0003,
      "loss": 11.4816,
      "loss/aux_loss": 0.0480830617249012,
      "loss/crossentropy": 2.597203868627548,
      "loss/logits": 0.8285312354564667,
      "step": 29490
    },
    {
      "epoch": 0.295,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.3780598958333333,
      "learning_rate": 0.0003,
      "loss": 11.416,
      "loss/aux_loss": 0.048088861629366875,
      "loss/crossentropy": 2.8947019577026367,
      "loss/logits": 0.8721114903688431,
      "step": 29500
    },
    {
      "epoch": 0.2951,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.34698893229166666,
      "learning_rate": 0.0003,
      "loss": 11.4425,
      "loss/aux_loss": 0.048086998984217644,
      "loss/crossentropy": 2.6360188245773317,
      "loss/logits": 0.848075520992279,
      "step": 29510
    },
    {
      "epoch": 0.2952,
      "grad_norm": 12.125,
      "grad_norm_var": 0.190869140625,
      "learning_rate": 0.0003,
      "loss": 11.3914,
      "loss/aux_loss": 0.04809488840401173,
      "loss/crossentropy": 2.63630353808403,
      "loss/logits": 0.8704184353351593,
      "step": 29520
    },
    {
      "epoch": 0.2953,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.31834309895833335,
      "learning_rate": 0.0003,
      "loss": 11.5943,
      "loss/aux_loss": 0.04807685688138008,
      "loss/crossentropy": 2.7015933096408844,
      "loss/logits": 0.8864135921001435,
      "step": 29530
    },
    {
      "epoch": 0.2954,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.263525390625,
      "learning_rate": 0.0003,
      "loss": 11.5153,
      "loss/aux_loss": 0.04809237774461508,
      "loss/crossentropy": 2.8147780299186707,
      "loss/logits": 0.8690049260854721,
      "step": 29540
    },
    {
      "epoch": 0.2955,
      "grad_norm": 15.375,
      "grad_norm_var": 4.4134765625,
      "learning_rate": 0.0003,
      "loss": 11.5648,
      "loss/aux_loss": 0.048073606193065645,
      "loss/crossentropy": 2.8568318367004393,
      "loss/logits": 0.9089872241020203,
      "step": 29550
    },
    {
      "epoch": 0.2956,
      "grad_norm": 12.125,
      "grad_norm_var": 4.423372395833334,
      "learning_rate": 0.0003,
      "loss": 11.4575,
      "loss/aux_loss": 0.04808273408561945,
      "loss/crossentropy": 2.7235109508037567,
      "loss/logits": 0.8837243676185608,
      "step": 29560
    },
    {
      "epoch": 0.2957,
      "grad_norm": 13.75,
      "grad_norm_var": 0.4041015625,
      "learning_rate": 0.0003,
      "loss": 11.4504,
      "loss/aux_loss": 0.04809108339250088,
      "loss/crossentropy": 2.7183880388736723,
      "loss/logits": 0.8825681626796722,
      "step": 29570
    },
    {
      "epoch": 0.2958,
      "grad_norm": 12.875,
      "grad_norm_var": 0.15149739583333333,
      "learning_rate": 0.0003,
      "loss": 11.4876,
      "loss/aux_loss": 0.04807641636580229,
      "loss/crossentropy": 2.8469328343868257,
      "loss/logits": 0.8711580604314804,
      "step": 29580
    },
    {
      "epoch": 0.2959,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.16300455729166666,
      "learning_rate": 0.0003,
      "loss": 11.5655,
      "loss/aux_loss": 0.04808410815894604,
      "loss/crossentropy": 2.7582703590393067,
      "loss/logits": 0.8958453744649887,
      "step": 29590
    },
    {
      "epoch": 0.296,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.378125,
      "learning_rate": 0.0003,
      "loss": 11.587,
      "loss/aux_loss": 0.048079511523246764,
      "loss/crossentropy": 2.830457305908203,
      "loss/logits": 0.916206705570221,
      "step": 29600
    },
    {
      "epoch": 0.2961,
      "grad_norm": 12.625,
      "grad_norm_var": 0.6526041666666667,
      "learning_rate": 0.0003,
      "loss": 11.3545,
      "loss/aux_loss": 0.048083196952939035,
      "loss/crossentropy": 2.6322430610656737,
      "loss/logits": 0.8604376584291458,
      "step": 29610
    },
    {
      "epoch": 0.2962,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5140625,
      "learning_rate": 0.0003,
      "loss": 11.3875,
      "loss/aux_loss": 0.048088392801582815,
      "loss/crossentropy": 2.7959298372268675,
      "loss/logits": 0.8871166080236434,
      "step": 29620
    },
    {
      "epoch": 0.2963,
      "grad_norm": 18.875,
      "grad_norm_var": 3.191389973958333,
      "learning_rate": 0.0003,
      "loss": 11.3276,
      "loss/aux_loss": 0.04808803517371416,
      "loss/crossentropy": 2.799188733100891,
      "loss/logits": 0.8698725253343582,
      "step": 29630
    },
    {
      "epoch": 0.2964,
      "grad_norm": 14.5625,
      "grad_norm_var": 2.5827962239583333,
      "learning_rate": 0.0003,
      "loss": 11.51,
      "loss/aux_loss": 0.04808425158262253,
      "loss/crossentropy": 2.8158665776252745,
      "loss/logits": 0.8623910456895828,
      "step": 29640
    },
    {
      "epoch": 0.2965,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.7145833333333333,
      "learning_rate": 0.0003,
      "loss": 11.4356,
      "loss/aux_loss": 0.0480889655649662,
      "loss/crossentropy": 2.744274616241455,
      "loss/logits": 0.8680987030267715,
      "step": 29650
    },
    {
      "epoch": 0.2966,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.6032389322916667,
      "learning_rate": 0.0003,
      "loss": 11.3509,
      "loss/aux_loss": 0.04808337744325399,
      "loss/crossentropy": 2.6652339160442353,
      "loss/logits": 0.8523492991924286,
      "step": 29660
    },
    {
      "epoch": 0.2967,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.3489583333333333,
      "learning_rate": 0.0003,
      "loss": 11.4915,
      "loss/aux_loss": 0.04808827750384807,
      "loss/crossentropy": 2.8008382678031922,
      "loss/logits": 0.894950145483017,
      "step": 29670
    },
    {
      "epoch": 0.2968,
      "grad_norm": 15.375,
      "grad_norm_var": 0.7530598958333333,
      "learning_rate": 0.0003,
      "loss": 11.5014,
      "loss/aux_loss": 0.04807999767363071,
      "loss/crossentropy": 2.7002371549606323,
      "loss/logits": 0.8693482935428619,
      "step": 29680
    },
    {
      "epoch": 0.2969,
      "grad_norm": 13.25,
      "grad_norm_var": 0.5391764322916667,
      "learning_rate": 0.0003,
      "loss": 11.474,
      "loss/aux_loss": 0.048070631176233294,
      "loss/crossentropy": 2.921978032588959,
      "loss/logits": 0.899678111076355,
      "step": 29690
    },
    {
      "epoch": 0.297,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.4332682291666667,
      "learning_rate": 0.0003,
      "loss": 11.5034,
      "loss/aux_loss": 0.048087138868868354,
      "loss/crossentropy": 2.7084551751613617,
      "loss/logits": 0.8722521513700485,
      "step": 29700
    },
    {
      "epoch": 0.2971,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.5426432291666666,
      "learning_rate": 0.0003,
      "loss": 11.6086,
      "loss/aux_loss": 0.04807428289204836,
      "loss/crossentropy": 2.5567859768867494,
      "loss/logits": 0.8739277720451355,
      "step": 29710
    },
    {
      "epoch": 0.2972,
      "grad_norm": 12.5,
      "grad_norm_var": 0.34427083333333336,
      "learning_rate": 0.0003,
      "loss": 11.3334,
      "loss/aux_loss": 0.048082271590828896,
      "loss/crossentropy": 2.7359997153282167,
      "loss/logits": 0.8679700314998626,
      "step": 29720
    },
    {
      "epoch": 0.2973,
      "grad_norm": 13.1875,
      "grad_norm_var": 1.246337890625,
      "learning_rate": 0.0003,
      "loss": 11.3988,
      "loss/aux_loss": 0.04808435477316379,
      "loss/crossentropy": 2.658203488588333,
      "loss/logits": 0.8306466698646545,
      "step": 29730
    },
    {
      "epoch": 0.2974,
      "grad_norm": 13.5,
      "grad_norm_var": 0.9030598958333333,
      "learning_rate": 0.0003,
      "loss": 11.5435,
      "loss/aux_loss": 0.048076405003666875,
      "loss/crossentropy": 2.683915287256241,
      "loss/logits": 0.8744410634040832,
      "step": 29740
    },
    {
      "epoch": 0.2975,
      "grad_norm": 16.125,
      "grad_norm_var": 92.749462890625,
      "learning_rate": 0.0003,
      "loss": 11.5341,
      "loss/aux_loss": 0.04808039367198944,
      "loss/crossentropy": 2.7447816848754885,
      "loss/logits": 0.8636388152837753,
      "step": 29750
    },
    {
      "epoch": 0.2976,
      "grad_norm": 12.75,
      "grad_norm_var": 92.86678059895833,
      "learning_rate": 0.0003,
      "loss": 11.381,
      "loss/aux_loss": 0.048084843531250955,
      "loss/crossentropy": 2.6227781534194947,
      "loss/logits": 0.8834515571594238,
      "step": 29760
    },
    {
      "epoch": 0.2977,
      "grad_norm": 12.625,
      "grad_norm_var": 0.331884765625,
      "learning_rate": 0.0003,
      "loss": 11.4901,
      "loss/aux_loss": 0.04807569459080696,
      "loss/crossentropy": 2.6902407228946688,
      "loss/logits": 0.8586381793022155,
      "step": 29770
    },
    {
      "epoch": 0.2978,
      "grad_norm": 13.25,
      "grad_norm_var": 0.506884765625,
      "learning_rate": 0.0003,
      "loss": 11.4579,
      "loss/aux_loss": 0.04808189757168293,
      "loss/crossentropy": 2.9000410437583923,
      "loss/logits": 0.8773433297872544,
      "step": 29780
    },
    {
      "epoch": 0.2979,
      "grad_norm": 12.875,
      "grad_norm_var": 0.5541015625,
      "learning_rate": 0.0003,
      "loss": 11.4549,
      "loss/aux_loss": 0.048081548884510994,
      "loss/crossentropy": 2.702808624505997,
      "loss/logits": 0.8589540451765061,
      "step": 29790
    },
    {
      "epoch": 0.298,
      "grad_norm": 13.125,
      "grad_norm_var": 0.4332682291666667,
      "learning_rate": 0.0003,
      "loss": 11.5048,
      "loss/aux_loss": 0.04808537419885397,
      "loss/crossentropy": 2.7269632279872895,
      "loss/logits": 0.8750491231679917,
      "step": 29800
    },
    {
      "epoch": 0.2981,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.23123372395833333,
      "learning_rate": 0.0003,
      "loss": 11.4269,
      "loss/aux_loss": 0.04808894339948892,
      "loss/crossentropy": 2.5503712058067323,
      "loss/logits": 0.8601103842258453,
      "step": 29810
    },
    {
      "epoch": 0.2982,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.6322265625,
      "learning_rate": 0.0003,
      "loss": 11.4354,
      "loss/aux_loss": 0.048082937858998774,
      "loss/crossentropy": 2.692414093017578,
      "loss/logits": 0.8803679436445236,
      "step": 29820
    },
    {
      "epoch": 0.2983,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.363525390625,
      "learning_rate": 0.0003,
      "loss": 11.4705,
      "loss/aux_loss": 0.048084008321166036,
      "loss/crossentropy": 2.779222333431244,
      "loss/logits": 0.8870409220457077,
      "step": 29830
    },
    {
      "epoch": 0.2984,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.25636393229166665,
      "learning_rate": 0.0003,
      "loss": 11.3471,
      "loss/aux_loss": 0.04808189794421196,
      "loss/crossentropy": 2.8359466314315798,
      "loss/logits": 0.895777115225792,
      "step": 29840
    },
    {
      "epoch": 0.2985,
      "grad_norm": 14.625,
      "grad_norm_var": 0.4911295572916667,
      "learning_rate": 0.0003,
      "loss": 11.5757,
      "loss/aux_loss": 0.048088085278868674,
      "loss/crossentropy": 2.681327813863754,
      "loss/logits": 0.8474095374345779,
      "step": 29850
    },
    {
      "epoch": 0.2986,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.6374837239583333,
      "learning_rate": 0.0003,
      "loss": 11.4771,
      "loss/aux_loss": 0.048079535365104675,
      "loss/crossentropy": 2.74518221616745,
      "loss/logits": 0.8559576362371445,
      "step": 29860
    },
    {
      "epoch": 0.2987,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.528759765625,
      "learning_rate": 0.0003,
      "loss": 11.6162,
      "loss/aux_loss": 0.04807321559637785,
      "loss/crossentropy": 2.8557145297527313,
      "loss/logits": 0.9057471811771393,
      "step": 29870
    },
    {
      "epoch": 0.2988,
      "grad_norm": 12.875,
      "grad_norm_var": 0.8013020833333333,
      "learning_rate": 0.0003,
      "loss": 11.6681,
      "loss/aux_loss": 0.048088300973176956,
      "loss/crossentropy": 2.751220625638962,
      "loss/logits": 0.8958558738231659,
      "step": 29880
    },
    {
      "epoch": 0.2989,
      "grad_norm": 11.75,
      "grad_norm_var": 0.9364583333333333,
      "learning_rate": 0.0003,
      "loss": 11.4696,
      "loss/aux_loss": 0.04808711316436529,
      "loss/crossentropy": 2.7763246476650236,
      "loss/logits": 0.8446446388959885,
      "step": 29890
    },
    {
      "epoch": 0.299,
      "grad_norm": 13.25,
      "grad_norm_var": 0.60078125,
      "learning_rate": 0.0003,
      "loss": 11.3327,
      "loss/aux_loss": 0.048075996339321136,
      "loss/crossentropy": 2.47065726518631,
      "loss/logits": 0.8439252525568008,
      "step": 29900
    },
    {
      "epoch": 0.2991,
      "grad_norm": 13.125,
      "grad_norm_var": 0.4515462239583333,
      "learning_rate": 0.0003,
      "loss": 11.3397,
      "loss/aux_loss": 0.04808225966989994,
      "loss/crossentropy": 2.684304392337799,
      "loss/logits": 0.8657424867153167,
      "step": 29910
    },
    {
      "epoch": 0.2992,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.081884765625,
      "learning_rate": 0.0003,
      "loss": 11.4104,
      "loss/aux_loss": 0.04808203261345625,
      "loss/crossentropy": 2.857515978813171,
      "loss/logits": 0.8850834548473359,
      "step": 29920
    },
    {
      "epoch": 0.2993,
      "grad_norm": 13.625,
      "grad_norm_var": 310.426806640625,
      "learning_rate": 0.0003,
      "loss": 11.3021,
      "loss/aux_loss": 0.04808754250407219,
      "loss/crossentropy": 2.865814244747162,
      "loss/logits": 0.9045403331518174,
      "step": 29930
    },
    {
      "epoch": 0.2994,
      "grad_norm": 13.0625,
      "grad_norm_var": 1.0432291666666667,
      "learning_rate": 0.0003,
      "loss": 11.5943,
      "loss/aux_loss": 0.04808537941426039,
      "loss/crossentropy": 2.7755528509616854,
      "loss/logits": 0.888872966170311,
      "step": 29940
    },
    {
      "epoch": 0.2995,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.2540201822916667,
      "learning_rate": 0.0003,
      "loss": 11.3798,
      "loss/aux_loss": 0.048091139644384384,
      "loss/crossentropy": 2.5855644285678863,
      "loss/logits": 0.8455839395523072,
      "step": 29950
    },
    {
      "epoch": 0.2996,
      "grad_norm": 14.0,
      "grad_norm_var": 1.2926432291666667,
      "learning_rate": 0.0003,
      "loss": 11.4159,
      "loss/aux_loss": 0.04809227306395769,
      "loss/crossentropy": 2.719691050052643,
      "loss/logits": 0.8842676371335983,
      "step": 29960
    },
    {
      "epoch": 0.2997,
      "grad_norm": 13.125,
      "grad_norm_var": 1.37109375,
      "learning_rate": 0.0003,
      "loss": 11.4488,
      "loss/aux_loss": 0.0480900889262557,
      "loss/crossentropy": 2.6705852150917053,
      "loss/logits": 0.8526766896247864,
      "step": 29970
    },
    {
      "epoch": 0.2998,
      "grad_norm": 13.0,
      "grad_norm_var": 0.16365559895833334,
      "learning_rate": 0.0003,
      "loss": 11.4354,
      "loss/aux_loss": 0.04807566087692976,
      "loss/crossentropy": 2.8326764822006227,
      "loss/logits": 0.8908536106348037,
      "step": 29980
    },
    {
      "epoch": 0.2999,
      "grad_norm": 14.25,
      "grad_norm_var": 0.218603515625,
      "learning_rate": 0.0003,
      "loss": 11.4361,
      "loss/aux_loss": 0.04809534475207329,
      "loss/crossentropy": 2.653664433956146,
      "loss/logits": 0.8664328694343567,
      "step": 29990
    },
    {
      "epoch": 0.3,
      "grad_norm": 13.875,
      "grad_norm_var": 16.411393229166666,
      "learning_rate": 0.0003,
      "loss": 11.5995,
      "loss/aux_loss": 0.04808858595788479,
      "loss/crossentropy": 2.733062154054642,
      "loss/logits": 0.8457317858934402,
      "step": 30000
    },
    {
      "epoch": 0.3001,
      "grad_norm": 21.875,
      "grad_norm_var": 2748.9501139322915,
      "learning_rate": 0.0003,
      "loss": 11.4879,
      "loss/aux_loss": 0.0480996148660779,
      "loss/crossentropy": 2.7736578941345216,
      "loss/logits": 0.8403934806585311,
      "step": 30010
    },
    {
      "epoch": 0.3002,
      "grad_norm": 13.125,
      "grad_norm_var": 19.3478515625,
      "learning_rate": 0.0003,
      "loss": 11.4726,
      "loss/aux_loss": 0.048092894814908506,
      "loss/crossentropy": 2.705011248588562,
      "loss/logits": 0.8455720961093902,
      "step": 30020
    },
    {
      "epoch": 0.3003,
      "grad_norm": 12.125,
      "grad_norm_var": 37.18553059895833,
      "learning_rate": 0.0003,
      "loss": 11.4553,
      "loss/aux_loss": 0.04807716105133295,
      "loss/crossentropy": 2.9149852752685548,
      "loss/logits": 0.8917495250701905,
      "step": 30030
    },
    {
      "epoch": 0.3004,
      "grad_norm": 12.1875,
      "grad_norm_var": 37.059488932291664,
      "learning_rate": 0.0003,
      "loss": 11.3983,
      "loss/aux_loss": 0.04808226209133863,
      "loss/crossentropy": 2.841688472032547,
      "loss/logits": 0.8982161253690719,
      "step": 30040
    },
    {
      "epoch": 0.3005,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.34451497395833336,
      "learning_rate": 0.0003,
      "loss": 11.6804,
      "loss/aux_loss": 0.04808265995234251,
      "loss/crossentropy": 2.737361544370651,
      "loss/logits": 0.8148900896310807,
      "step": 30050
    },
    {
      "epoch": 0.3006,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5416015625,
      "learning_rate": 0.0003,
      "loss": 11.6761,
      "loss/aux_loss": 0.04808789361268282,
      "loss/crossentropy": 2.577936816215515,
      "loss/logits": 0.8507110446691513,
      "step": 30060
    },
    {
      "epoch": 0.3007,
      "grad_norm": 15.125,
      "grad_norm_var": 4.1171875,
      "learning_rate": 0.0003,
      "loss": 11.6774,
      "loss/aux_loss": 0.04809730667620897,
      "loss/crossentropy": 2.743165111541748,
      "loss/logits": 0.8715814143419266,
      "step": 30070
    },
    {
      "epoch": 0.3008,
      "grad_norm": 12.625,
      "grad_norm_var": 1.2132649739583334,
      "learning_rate": 0.0003,
      "loss": 11.6082,
      "loss/aux_loss": 0.04807158131152391,
      "loss/crossentropy": 2.795542907714844,
      "loss/logits": 0.8549720883369446,
      "step": 30080
    },
    {
      "epoch": 0.3009,
      "grad_norm": 12.375,
      "grad_norm_var": 0.562744140625,
      "learning_rate": 0.0003,
      "loss": 11.5119,
      "loss/aux_loss": 0.04808140005916357,
      "loss/crossentropy": 2.8126461267471314,
      "loss/logits": 0.8966263324022293,
      "step": 30090
    },
    {
      "epoch": 0.301,
      "grad_norm": 12.75,
      "grad_norm_var": 0.65390625,
      "learning_rate": 0.0003,
      "loss": 11.4426,
      "loss/aux_loss": 0.048090949095785616,
      "loss/crossentropy": 2.7090745508670806,
      "loss/logits": 0.8385947048664093,
      "step": 30100
    },
    {
      "epoch": 0.3011,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.6181640625,
      "learning_rate": 0.0003,
      "loss": 11.5944,
      "loss/aux_loss": 0.04808566849678755,
      "loss/crossentropy": 2.751387929916382,
      "loss/logits": 0.8912309646606446,
      "step": 30110
    },
    {
      "epoch": 0.3012,
      "grad_norm": 13.25,
      "grad_norm_var": 0.54609375,
      "learning_rate": 0.0003,
      "loss": 11.3972,
      "loss/aux_loss": 0.04808124527335167,
      "loss/crossentropy": 2.841317903995514,
      "loss/logits": 0.8788245469331741,
      "step": 30120
    },
    {
      "epoch": 0.3013,
      "grad_norm": 13.375,
      "grad_norm_var": 0.324462890625,
      "learning_rate": 0.0003,
      "loss": 11.5188,
      "loss/aux_loss": 0.04808822274208069,
      "loss/crossentropy": 2.6749501705169676,
      "loss/logits": 0.8571932524442673,
      "step": 30130
    },
    {
      "epoch": 0.3014,
      "grad_norm": 13.0,
      "grad_norm_var": 0.18631184895833333,
      "learning_rate": 0.0003,
      "loss": 11.5919,
      "loss/aux_loss": 0.04807674512267113,
      "loss/crossentropy": 2.8263603806495667,
      "loss/logits": 0.9167416036128998,
      "step": 30140
    },
    {
      "epoch": 0.3015,
      "grad_norm": 13.25,
      "grad_norm_var": 0.5544108072916667,
      "learning_rate": 0.0003,
      "loss": 11.3587,
      "loss/aux_loss": 0.04808600451797247,
      "loss/crossentropy": 2.689769744873047,
      "loss/logits": 0.8513695240020752,
      "step": 30150
    },
    {
      "epoch": 0.3016,
      "grad_norm": 13.5,
      "grad_norm_var": 0.20271809895833334,
      "learning_rate": 0.0003,
      "loss": 11.4439,
      "loss/aux_loss": 0.04808979425579309,
      "loss/crossentropy": 2.705520159006119,
      "loss/logits": 0.8287128508090973,
      "step": 30160
    },
    {
      "epoch": 0.3017,
      "grad_norm": 13.375,
      "grad_norm_var": 0.34373372395833335,
      "learning_rate": 0.0003,
      "loss": 11.3879,
      "loss/aux_loss": 0.04808113612234592,
      "loss/crossentropy": 2.59697830080986,
      "loss/logits": 0.8457653447985649,
      "step": 30170
    },
    {
      "epoch": 0.3018,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.40572916666666664,
      "learning_rate": 0.0003,
      "loss": 11.6186,
      "loss/aux_loss": 0.04808783624321222,
      "loss/crossentropy": 2.7700432360172274,
      "loss/logits": 0.8764997065067291,
      "step": 30180
    },
    {
      "epoch": 0.3019,
      "grad_norm": 13.375,
      "grad_norm_var": 0.5805826822916667,
      "learning_rate": 0.0003,
      "loss": 11.4003,
      "loss/aux_loss": 0.04809058122336864,
      "loss/crossentropy": 2.7070785045623778,
      "loss/logits": 0.8807005375623703,
      "step": 30190
    },
    {
      "epoch": 0.302,
      "grad_norm": 12.0,
      "grad_norm_var": 0.5976399739583333,
      "learning_rate": 0.0003,
      "loss": 11.2816,
      "loss/aux_loss": 0.048085220903158185,
      "loss/crossentropy": 2.625184786319733,
      "loss/logits": 0.8463748693466187,
      "step": 30200
    },
    {
      "epoch": 0.3021,
      "grad_norm": 13.875,
      "grad_norm_var": 0.5113932291666666,
      "learning_rate": 0.0003,
      "loss": 11.4653,
      "loss/aux_loss": 0.04808960650116205,
      "loss/crossentropy": 2.690778136253357,
      "loss/logits": 0.8736082255840302,
      "step": 30210
    },
    {
      "epoch": 0.3022,
      "grad_norm": 13.375,
      "grad_norm_var": 0.38605143229166666,
      "learning_rate": 0.0003,
      "loss": 11.5442,
      "loss/aux_loss": 0.04808677174150944,
      "loss/crossentropy": 2.769177794456482,
      "loss/logits": 0.8669810116291046,
      "step": 30220
    },
    {
      "epoch": 0.3023,
      "grad_norm": 13.875,
      "grad_norm_var": 0.43279622395833334,
      "learning_rate": 0.0003,
      "loss": 11.3678,
      "loss/aux_loss": 0.04807732906192541,
      "loss/crossentropy": 2.66594517827034,
      "loss/logits": 0.8435944467782974,
      "step": 30230
    },
    {
      "epoch": 0.3024,
      "grad_norm": 13.625,
      "grad_norm_var": 0.349462890625,
      "learning_rate": 0.0003,
      "loss": 11.5848,
      "loss/aux_loss": 0.048086778819561006,
      "loss/crossentropy": 2.83836350440979,
      "loss/logits": 0.8659113794565201,
      "step": 30240
    },
    {
      "epoch": 0.3025,
      "grad_norm": 13.5,
      "grad_norm_var": 0.40305989583333335,
      "learning_rate": 0.0003,
      "loss": 11.3988,
      "loss/aux_loss": 0.04808458890765906,
      "loss/crossentropy": 2.716430550813675,
      "loss/logits": 0.8613810330629349,
      "step": 30250
    },
    {
      "epoch": 0.3026,
      "grad_norm": 65.0,
      "grad_norm_var": 168.16276041666666,
      "learning_rate": 0.0003,
      "loss": 11.4989,
      "loss/aux_loss": 0.04808981157839298,
      "loss/crossentropy": 2.8385813772678374,
      "loss/logits": 0.8725706160068512,
      "step": 30260
    },
    {
      "epoch": 0.3027,
      "grad_norm": 13.25,
      "grad_norm_var": 168.298681640625,
      "learning_rate": 0.0003,
      "loss": 11.4201,
      "loss/aux_loss": 0.04808289185166359,
      "loss/crossentropy": 2.7978179454803467,
      "loss/logits": 0.8753843992948532,
      "step": 30270
    },
    {
      "epoch": 0.3028,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.8785807291666666,
      "learning_rate": 0.0003,
      "loss": 11.5324,
      "loss/aux_loss": 0.048077399097383025,
      "loss/crossentropy": 2.7661708891391754,
      "loss/logits": 0.8352512449026108,
      "step": 30280
    },
    {
      "epoch": 0.3029,
      "grad_norm": 14.0,
      "grad_norm_var": 0.48072916666666665,
      "learning_rate": 0.0003,
      "loss": 11.5311,
      "loss/aux_loss": 0.04808757621794939,
      "loss/crossentropy": 2.787020003795624,
      "loss/logits": 0.8474883437156677,
      "step": 30290
    },
    {
      "epoch": 0.303,
      "grad_norm": 13.875,
      "grad_norm_var": 0.32146809895833334,
      "learning_rate": 0.0003,
      "loss": 11.5551,
      "loss/aux_loss": 0.048091338202357295,
      "loss/crossentropy": 2.6601632058620455,
      "loss/logits": 0.8541019320487976,
      "step": 30300
    },
    {
      "epoch": 0.3031,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.6218098958333333,
      "learning_rate": 0.0003,
      "loss": 11.4167,
      "loss/aux_loss": 0.04807760640978813,
      "loss/crossentropy": 2.621816486120224,
      "loss/logits": 0.8466038852930069,
      "step": 30310
    },
    {
      "epoch": 0.3032,
      "grad_norm": 13.5,
      "grad_norm_var": 0.8030598958333334,
      "learning_rate": 0.0003,
      "loss": 11.6232,
      "loss/aux_loss": 0.048088185116648675,
      "loss/crossentropy": 2.719381844997406,
      "loss/logits": 0.853942820429802,
      "step": 30320
    },
    {
      "epoch": 0.3033,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.863134765625,
      "learning_rate": 0.0003,
      "loss": 11.4434,
      "loss/aux_loss": 0.04807737711817026,
      "loss/crossentropy": 2.677357393503189,
      "loss/logits": 0.8405762702226639,
      "step": 30330
    },
    {
      "epoch": 0.3034,
      "grad_norm": 12.875,
      "grad_norm_var": 0.522119140625,
      "learning_rate": 0.0003,
      "loss": 11.3732,
      "loss/aux_loss": 0.04808907844126224,
      "loss/crossentropy": 2.676799476146698,
      "loss/logits": 0.8608356237411499,
      "step": 30340
    },
    {
      "epoch": 0.3035,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.465478515625,
      "learning_rate": 0.0003,
      "loss": 11.5126,
      "loss/aux_loss": 0.048095157742500304,
      "loss/crossentropy": 2.7750605642795563,
      "loss/logits": 0.8369805574417114,
      "step": 30350
    },
    {
      "epoch": 0.3036,
      "grad_norm": 13.125,
      "grad_norm_var": 0.25,
      "learning_rate": 0.0003,
      "loss": 11.4669,
      "loss/aux_loss": 0.04807246904820204,
      "loss/crossentropy": 2.611363673210144,
      "loss/logits": 0.8665720134973526,
      "step": 30360
    },
    {
      "epoch": 0.3037,
      "grad_norm": 12.875,
      "grad_norm_var": 0.29140625,
      "learning_rate": 0.0003,
      "loss": 11.637,
      "loss/aux_loss": 0.048090710304677486,
      "loss/crossentropy": 2.826841878890991,
      "loss/logits": 0.8832567691802978,
      "step": 30370
    },
    {
      "epoch": 0.3038,
      "grad_norm": 14.6875,
      "grad_norm_var": 3.5155598958333334,
      "learning_rate": 0.0003,
      "loss": 11.542,
      "loss/aux_loss": 0.04807953424751758,
      "loss/crossentropy": 2.7730814576148988,
      "loss/logits": 0.8635116755962372,
      "step": 30380
    },
    {
      "epoch": 0.3039,
      "grad_norm": 16.375,
      "grad_norm_var": 3.6962890625,
      "learning_rate": 0.0003,
      "loss": 11.4562,
      "loss/aux_loss": 0.048072515055537224,
      "loss/crossentropy": 2.73685462474823,
      "loss/logits": 0.8686755329370499,
      "step": 30390
    },
    {
      "epoch": 0.304,
      "grad_norm": 14.625,
      "grad_norm_var": 0.9533854166666667,
      "learning_rate": 0.0003,
      "loss": 11.5056,
      "loss/aux_loss": 0.048081375658512115,
      "loss/crossentropy": 2.789488208293915,
      "loss/logits": 0.8672916740179062,
      "step": 30400
    },
    {
      "epoch": 0.3041,
      "grad_norm": 13.375,
      "grad_norm_var": 0.4032389322916667,
      "learning_rate": 0.0003,
      "loss": 11.4649,
      "loss/aux_loss": 0.048084143362939355,
      "loss/crossentropy": 2.8491791486740112,
      "loss/logits": 0.8795545041561127,
      "step": 30410
    },
    {
      "epoch": 0.3042,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.6163899739583333,
      "learning_rate": 0.0003,
      "loss": 11.4793,
      "loss/aux_loss": 0.04807379003614187,
      "loss/crossentropy": 2.7467067003250123,
      "loss/logits": 0.8532693386077881,
      "step": 30420
    },
    {
      "epoch": 0.3043,
      "grad_norm": 12.75,
      "grad_norm_var": 1.0354166666666667,
      "learning_rate": 0.0003,
      "loss": 11.3694,
      "loss/aux_loss": 0.04808585681021214,
      "loss/crossentropy": 2.574428778886795,
      "loss/logits": 0.837331035733223,
      "step": 30430
    },
    {
      "epoch": 0.3044,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.3973795572916667,
      "learning_rate": 0.0003,
      "loss": 11.5313,
      "loss/aux_loss": 0.04808316696435213,
      "loss/crossentropy": 2.8282381296157837,
      "loss/logits": 0.8839503526687622,
      "step": 30440
    },
    {
      "epoch": 0.3045,
      "grad_norm": 14.375,
      "grad_norm_var": 0.5514973958333333,
      "learning_rate": 0.0003,
      "loss": 11.6023,
      "loss/aux_loss": 0.048081176541745665,
      "loss/crossentropy": 2.7252886414527895,
      "loss/logits": 0.8965796858072281,
      "step": 30450
    },
    {
      "epoch": 0.3046,
      "grad_norm": 13.5,
      "grad_norm_var": 0.6479166666666667,
      "learning_rate": 0.0003,
      "loss": 11.549,
      "loss/aux_loss": 0.048083511739969255,
      "loss/crossentropy": 2.711775553226471,
      "loss/logits": 0.8697979748249054,
      "step": 30460
    },
    {
      "epoch": 0.3047,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.903125,
      "learning_rate": 0.0003,
      "loss": 11.5003,
      "loss/aux_loss": 0.048078321292996405,
      "loss/crossentropy": 2.7702556967735292,
      "loss/logits": 0.8688585251569748,
      "step": 30470
    },
    {
      "epoch": 0.3048,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.4832682291666667,
      "learning_rate": 0.0003,
      "loss": 11.461,
      "loss/aux_loss": 0.04808118157088757,
      "loss/crossentropy": 2.677464705705643,
      "loss/logits": 0.8462830722332001,
      "step": 30480
    },
    {
      "epoch": 0.3049,
      "grad_norm": 12.75,
      "grad_norm_var": 0.42213541666666665,
      "learning_rate": 0.0003,
      "loss": 11.3989,
      "loss/aux_loss": 0.04808572474867105,
      "loss/crossentropy": 2.7207378327846525,
      "loss/logits": 0.9032052427530288,
      "step": 30490
    },
    {
      "epoch": 0.305,
      "grad_norm": 13.375,
      "grad_norm_var": 0.32265625,
      "learning_rate": 0.0003,
      "loss": 11.4989,
      "loss/aux_loss": 0.04807707965373993,
      "loss/crossentropy": 2.855698162317276,
      "loss/logits": 0.8542087256908417,
      "step": 30500
    },
    {
      "epoch": 0.3051,
      "grad_norm": 13.125,
      "grad_norm_var": 0.43411458333333336,
      "learning_rate": 0.0003,
      "loss": 11.5808,
      "loss/aux_loss": 0.04808335490524769,
      "loss/crossentropy": 2.7730906128883364,
      "loss/logits": 0.8658265113830567,
      "step": 30510
    },
    {
      "epoch": 0.3052,
      "grad_norm": 13.25,
      "grad_norm_var": 0.4462890625,
      "learning_rate": 0.0003,
      "loss": 11.3824,
      "loss/aux_loss": 0.04808741491287947,
      "loss/crossentropy": 2.6597979426383973,
      "loss/logits": 0.8335691154003143,
      "step": 30520
    },
    {
      "epoch": 0.3053,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.2416015625,
      "learning_rate": 0.0003,
      "loss": 11.5599,
      "loss/aux_loss": 0.0480789877474308,
      "loss/crossentropy": 2.7108544588088987,
      "loss/logits": 0.8437099695205689,
      "step": 30530
    },
    {
      "epoch": 0.3054,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5458333333333333,
      "learning_rate": 0.0003,
      "loss": 11.5408,
      "loss/aux_loss": 0.048078577406704424,
      "loss/crossentropy": 2.8623337388038634,
      "loss/logits": 0.8665123015642167,
      "step": 30540
    },
    {
      "epoch": 0.3055,
      "grad_norm": 13.125,
      "grad_norm_var": 0.7640462239583333,
      "learning_rate": 0.0003,
      "loss": 11.4355,
      "loss/aux_loss": 0.048077302612364294,
      "loss/crossentropy": 2.7096797108650206,
      "loss/logits": 0.8873968094587326,
      "step": 30550
    },
    {
      "epoch": 0.3056,
      "grad_norm": 13.125,
      "grad_norm_var": 0.31105143229166665,
      "learning_rate": 0.0003,
      "loss": 11.4985,
      "loss/aux_loss": 0.048081740364432336,
      "loss/crossentropy": 2.7807741165161133,
      "loss/logits": 0.8777556359767914,
      "step": 30560
    },
    {
      "epoch": 0.3057,
      "grad_norm": 12.75,
      "grad_norm_var": 0.27810872395833336,
      "learning_rate": 0.0003,
      "loss": 11.4167,
      "loss/aux_loss": 0.0480744456872344,
      "loss/crossentropy": 2.8844709157943726,
      "loss/logits": 0.9081658095121383,
      "step": 30570
    },
    {
      "epoch": 0.3058,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.5905598958333333,
      "learning_rate": 0.0003,
      "loss": 11.4081,
      "loss/aux_loss": 0.04809431917965412,
      "loss/crossentropy": 2.6604327261447906,
      "loss/logits": 0.8287265658378601,
      "step": 30580
    },
    {
      "epoch": 0.3059,
      "grad_norm": 13.875,
      "grad_norm_var": 0.40545247395833334,
      "learning_rate": 0.0003,
      "loss": 11.4122,
      "loss/aux_loss": 0.048075050488114356,
      "loss/crossentropy": 2.70709490776062,
      "loss/logits": 0.8873141348361969,
      "step": 30590
    },
    {
      "epoch": 0.306,
      "grad_norm": 13.0,
      "grad_norm_var": 0.313134765625,
      "learning_rate": 0.0003,
      "loss": 11.4442,
      "loss/aux_loss": 0.04807507153600454,
      "loss/crossentropy": 2.7605147421360017,
      "loss/logits": 0.8720807194709778,
      "step": 30600
    },
    {
      "epoch": 0.3061,
      "grad_norm": 13.125,
      "grad_norm_var": 0.3611979166666667,
      "learning_rate": 0.0003,
      "loss": 11.4805,
      "loss/aux_loss": 0.04808742217719555,
      "loss/crossentropy": 2.649176824092865,
      "loss/logits": 0.8440777510404587,
      "step": 30610
    },
    {
      "epoch": 0.3062,
      "grad_norm": 13.875,
      "grad_norm_var": 0.20930989583333334,
      "learning_rate": 0.0003,
      "loss": 11.4971,
      "loss/aux_loss": 0.048072243295609954,
      "loss/crossentropy": 2.8579718112945556,
      "loss/logits": 0.8863743543624878,
      "step": 30620
    },
    {
      "epoch": 0.3063,
      "grad_norm": 12.875,
      "grad_norm_var": 0.15870768229166668,
      "learning_rate": 0.0003,
      "loss": 11.4342,
      "loss/aux_loss": 0.04809508193284273,
      "loss/crossentropy": 2.7085582673549653,
      "loss/logits": 0.855813917517662,
      "step": 30630
    },
    {
      "epoch": 0.3064,
      "grad_norm": 14.625,
      "grad_norm_var": 0.4129557291666667,
      "learning_rate": 0.0003,
      "loss": 11.5658,
      "loss/aux_loss": 0.048079350404441355,
      "loss/crossentropy": 2.8295456767082214,
      "loss/logits": 0.8438192725181579,
      "step": 30640
    },
    {
      "epoch": 0.3065,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.9072265625,
      "learning_rate": 0.0003,
      "loss": 11.2753,
      "loss/aux_loss": 0.048086012713611126,
      "loss/crossentropy": 2.637072730064392,
      "loss/logits": 0.846964082121849,
      "step": 30650
    },
    {
      "epoch": 0.3066,
      "grad_norm": 13.0625,
      "grad_norm_var": 1.236962890625,
      "learning_rate": 0.0003,
      "loss": 11.4979,
      "loss/aux_loss": 0.04808483086526394,
      "loss/crossentropy": 2.7757628083229067,
      "loss/logits": 0.8778376072645188,
      "step": 30660
    },
    {
      "epoch": 0.3067,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.5494140625,
      "learning_rate": 0.0003,
      "loss": 11.4651,
      "loss/aux_loss": 0.048084459826350213,
      "loss/crossentropy": 2.7548458218574523,
      "loss/logits": 0.9005285263061523,
      "step": 30670
    },
    {
      "epoch": 0.3068,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.6807291666666667,
      "learning_rate": 0.0003,
      "loss": 11.6068,
      "loss/aux_loss": 0.048079180717468264,
      "loss/crossentropy": 2.737465226650238,
      "loss/logits": 0.8828152716159821,
      "step": 30680
    },
    {
      "epoch": 0.3069,
      "grad_norm": 13.375,
      "grad_norm_var": 0.46484375,
      "learning_rate": 0.0003,
      "loss": 11.4114,
      "loss/aux_loss": 0.04807949494570494,
      "loss/crossentropy": 2.727854001522064,
      "loss/logits": 0.8459988683462143,
      "step": 30690
    },
    {
      "epoch": 0.307,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.50078125,
      "learning_rate": 0.0003,
      "loss": 11.3173,
      "loss/aux_loss": 0.048087647184729576,
      "loss/crossentropy": 2.7050256431102753,
      "loss/logits": 0.8718531727790833,
      "step": 30700
    },
    {
      "epoch": 0.3071,
      "grad_norm": 12.9375,
      "grad_norm_var": 3.343603515625,
      "learning_rate": 0.0003,
      "loss": 11.4537,
      "loss/aux_loss": 0.048082553595304486,
      "loss/crossentropy": 2.7552569687366484,
      "loss/logits": 0.8774021625518799,
      "step": 30710
    },
    {
      "epoch": 0.3072,
      "grad_norm": 12.4375,
      "grad_norm_var": 1.0231770833333333,
      "learning_rate": 0.0003,
      "loss": 11.3565,
      "loss/aux_loss": 0.04808600023388863,
      "loss/crossentropy": 2.6642140567302706,
      "loss/logits": 0.8275765240192413,
      "step": 30720
    },
    {
      "epoch": 0.3073,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.5879557291666667,
      "learning_rate": 0.0003,
      "loss": 11.5265,
      "loss/aux_loss": 0.04808558952063322,
      "loss/crossentropy": 2.7769883573055267,
      "loss/logits": 0.8872695177793503,
      "step": 30730
    },
    {
      "epoch": 0.3074,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.5175618489583333,
      "learning_rate": 0.0003,
      "loss": 11.4342,
      "loss/aux_loss": 0.048081249184906485,
      "loss/crossentropy": 2.8268501818180085,
      "loss/logits": 0.8817792952060699,
      "step": 30740
    },
    {
      "epoch": 0.3075,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.558447265625,
      "learning_rate": 0.0003,
      "loss": 11.626,
      "loss/aux_loss": 0.048086341470479965,
      "loss/crossentropy": 2.7402640700340273,
      "loss/logits": 0.8773202210664749,
      "step": 30750
    },
    {
      "epoch": 0.3076,
      "grad_norm": 13.875,
      "grad_norm_var": 0.16588541666666667,
      "learning_rate": 0.0003,
      "loss": 11.6524,
      "loss/aux_loss": 0.048075375705957414,
      "loss/crossentropy": 2.6162120938301086,
      "loss/logits": 0.842825299501419,
      "step": 30760
    },
    {
      "epoch": 0.3077,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.40911458333333334,
      "learning_rate": 0.0003,
      "loss": 11.5109,
      "loss/aux_loss": 0.04809289965778589,
      "loss/crossentropy": 2.719909155368805,
      "loss/logits": 0.8441285580396652,
      "step": 30770
    },
    {
      "epoch": 0.3078,
      "grad_norm": 12.875,
      "grad_norm_var": 0.6238932291666667,
      "learning_rate": 0.0003,
      "loss": 11.389,
      "loss/aux_loss": 0.048084799014031884,
      "loss/crossentropy": 2.7028889536857603,
      "loss/logits": 0.8539338052272797,
      "step": 30780
    },
    {
      "epoch": 0.3079,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.3238932291666667,
      "learning_rate": 0.0003,
      "loss": 11.3617,
      "loss/aux_loss": 0.04808486420661211,
      "loss/crossentropy": 2.5718206644058226,
      "loss/logits": 0.8437188386917114,
      "step": 30790
    },
    {
      "epoch": 0.308,
      "grad_norm": 13.5,
      "grad_norm_var": 0.26608072916666664,
      "learning_rate": 0.0003,
      "loss": 11.4156,
      "loss/aux_loss": 0.04808387756347656,
      "loss/crossentropy": 2.6824039578437806,
      "loss/logits": 0.8235249221324921,
      "step": 30800
    },
    {
      "epoch": 0.3081,
      "grad_norm": 13.125,
      "grad_norm_var": 0.27005208333333336,
      "learning_rate": 0.0003,
      "loss": 11.4488,
      "loss/aux_loss": 0.048087064921855924,
      "loss/crossentropy": 2.7326850056648255,
      "loss/logits": 0.8537106692790986,
      "step": 30810
    },
    {
      "epoch": 0.3082,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.23951822916666668,
      "learning_rate": 0.0003,
      "loss": 11.4492,
      "loss/aux_loss": 0.048091364093124866,
      "loss/crossentropy": 2.7636500120162966,
      "loss/logits": 0.8671251088380814,
      "step": 30820
    },
    {
      "epoch": 0.3083,
      "grad_norm": 13.4375,
      "grad_norm_var": 1.5900390625,
      "learning_rate": 0.0003,
      "loss": 11.502,
      "loss/aux_loss": 0.04808245934545994,
      "loss/crossentropy": 2.856794422864914,
      "loss/logits": 0.8604202717542648,
      "step": 30830
    },
    {
      "epoch": 0.3084,
      "grad_norm": 13.5,
      "grad_norm_var": 1.5712076822916667,
      "learning_rate": 0.0003,
      "loss": 11.37,
      "loss/aux_loss": 0.04808021280914545,
      "loss/crossentropy": 2.831040990352631,
      "loss/logits": 0.8481287360191345,
      "step": 30840
    },
    {
      "epoch": 0.3085,
      "grad_norm": 13.75,
      "grad_norm_var": 0.31326497395833336,
      "learning_rate": 0.0003,
      "loss": 11.3802,
      "loss/aux_loss": 0.04808556064963341,
      "loss/crossentropy": 2.7837505459785463,
      "loss/logits": 0.8858030140399933,
      "step": 30850
    },
    {
      "epoch": 0.3086,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.6613118489583333,
      "learning_rate": 0.0003,
      "loss": 11.4733,
      "loss/aux_loss": 0.04808393772691488,
      "loss/crossentropy": 2.646303951740265,
      "loss/logits": 0.8927146643400192,
      "step": 30860
    },
    {
      "epoch": 0.3087,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.0082682291666667,
      "learning_rate": 0.0003,
      "loss": 11.5069,
      "loss/aux_loss": 0.04806661605834961,
      "loss/crossentropy": 2.6964763700962067,
      "loss/logits": 0.8716022908687592,
      "step": 30870
    },
    {
      "epoch": 0.3088,
      "grad_norm": 13.625,
      "grad_norm_var": 1.622509765625,
      "learning_rate": 0.0003,
      "loss": 11.4855,
      "loss/aux_loss": 0.0480882540345192,
      "loss/crossentropy": 2.744866168498993,
      "loss/logits": 0.8746917128562928,
      "step": 30880
    },
    {
      "epoch": 0.3089,
      "grad_norm": 12.375,
      "grad_norm_var": 0.5468098958333333,
      "learning_rate": 0.0003,
      "loss": 11.4911,
      "loss/aux_loss": 0.04807100631296635,
      "loss/crossentropy": 2.820644873380661,
      "loss/logits": 0.8648158997297287,
      "step": 30890
    },
    {
      "epoch": 0.309,
      "grad_norm": 12.875,
      "grad_norm_var": 0.3555826822916667,
      "learning_rate": 0.0003,
      "loss": 11.3729,
      "loss/aux_loss": 0.048082031309604645,
      "loss/crossentropy": 2.7035711348056792,
      "loss/logits": 0.8440298497676849,
      "step": 30900
    },
    {
      "epoch": 0.3091,
      "grad_norm": 13.375,
      "grad_norm_var": 0.3395182291666667,
      "learning_rate": 0.0003,
      "loss": 11.5239,
      "loss/aux_loss": 0.048081082105636594,
      "loss/crossentropy": 2.6476317226886747,
      "loss/logits": 0.8694226413965225,
      "step": 30910
    },
    {
      "epoch": 0.3092,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.27805989583333335,
      "learning_rate": 0.0003,
      "loss": 11.557,
      "loss/aux_loss": 0.04807517770677805,
      "loss/crossentropy": 2.789444291591644,
      "loss/logits": 0.8987109959125519,
      "step": 30920
    },
    {
      "epoch": 0.3093,
      "grad_norm": 13.0,
      "grad_norm_var": 0.448291015625,
      "learning_rate": 0.0003,
      "loss": 11.4581,
      "loss/aux_loss": 0.048085184581577775,
      "loss/crossentropy": 2.8388954520225527,
      "loss/logits": 0.8571620523929596,
      "step": 30930
    },
    {
      "epoch": 0.3094,
      "grad_norm": 13.5625,
      "grad_norm_var": 1.1176432291666667,
      "learning_rate": 0.0003,
      "loss": 11.4472,
      "loss/aux_loss": 0.04808578956872225,
      "loss/crossentropy": 2.7803068816661836,
      "loss/logits": 0.8517871230840683,
      "step": 30940
    },
    {
      "epoch": 0.3095,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.879931640625,
      "learning_rate": 0.0003,
      "loss": 11.2953,
      "loss/aux_loss": 0.048075218498706815,
      "loss/crossentropy": 2.6304258346557616,
      "loss/logits": 0.8701532393693924,
      "step": 30950
    },
    {
      "epoch": 0.3096,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.5738932291666666,
      "learning_rate": 0.0003,
      "loss": 11.4005,
      "loss/aux_loss": 0.04808662962168455,
      "loss/crossentropy": 2.7041739583015443,
      "loss/logits": 0.8431258827447892,
      "step": 30960
    },
    {
      "epoch": 0.3097,
      "grad_norm": 14.625,
      "grad_norm_var": 0.693212890625,
      "learning_rate": 0.0003,
      "loss": 11.1962,
      "loss/aux_loss": 0.04808198884129524,
      "loss/crossentropy": 2.5106098532676695,
      "loss/logits": 0.8334185928106308,
      "step": 30970
    },
    {
      "epoch": 0.3098,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.5868326822916666,
      "learning_rate": 0.0003,
      "loss": 11.3845,
      "loss/aux_loss": 0.04808704257011413,
      "loss/crossentropy": 2.824685072898865,
      "loss/logits": 0.8856196343898773,
      "step": 30980
    },
    {
      "epoch": 0.3099,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5233723958333333,
      "learning_rate": 0.0003,
      "loss": 11.2844,
      "loss/aux_loss": 0.04808703400194645,
      "loss/crossentropy": 2.70513573884964,
      "loss/logits": 0.8594135075807572,
      "step": 30990
    },
    {
      "epoch": 0.31,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.32537434895833334,
      "learning_rate": 0.0003,
      "loss": 11.431,
      "loss/aux_loss": 0.048076413199305536,
      "loss/crossentropy": 2.790517818927765,
      "loss/logits": 0.8762030184268952,
      "step": 31000
    },
    {
      "epoch": 0.3101,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.309375,
      "learning_rate": 0.0003,
      "loss": 11.3837,
      "loss/aux_loss": 0.048087396286427976,
      "loss/crossentropy": 2.823656415939331,
      "loss/logits": 0.8393119305372239,
      "step": 31010
    },
    {
      "epoch": 0.3102,
      "grad_norm": 13.3125,
      "grad_norm_var": 38.86300455729167,
      "learning_rate": 0.0003,
      "loss": 11.455,
      "loss/aux_loss": 0.04807733986526728,
      "loss/crossentropy": 2.8026981115341187,
      "loss/logits": 0.8650432884693146,
      "step": 31020
    },
    {
      "epoch": 0.3103,
      "grad_norm": 17.125,
      "grad_norm_var": 1.2098958333333334,
      "learning_rate": 0.0003,
      "loss": 11.4485,
      "loss/aux_loss": 0.048109233193099496,
      "loss/crossentropy": 2.7331307351589205,
      "loss/logits": 0.8930859625339508,
      "step": 31030
    },
    {
      "epoch": 0.3104,
      "grad_norm": 14.125,
      "grad_norm_var": 1.227587890625,
      "learning_rate": 0.0003,
      "loss": 11.5582,
      "loss/aux_loss": 0.04805864728987217,
      "loss/crossentropy": 2.7618947505950926,
      "loss/logits": 0.858463802933693,
      "step": 31040
    },
    {
      "epoch": 0.3105,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.5054524739583334,
      "learning_rate": 0.0003,
      "loss": 11.2948,
      "loss/aux_loss": 0.048091983795166014,
      "loss/crossentropy": 2.8342044055461884,
      "loss/logits": 0.8382025718688965,
      "step": 31050
    },
    {
      "epoch": 0.3106,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.2530598958333333,
      "learning_rate": 0.0003,
      "loss": 11.3819,
      "loss/aux_loss": 0.04808224979788065,
      "loss/crossentropy": 2.667121487855911,
      "loss/logits": 0.8481329113245011,
      "step": 31060
    },
    {
      "epoch": 0.3107,
      "grad_norm": 13.5,
      "grad_norm_var": 0.192431640625,
      "learning_rate": 0.0003,
      "loss": 11.4812,
      "loss/aux_loss": 0.04808955937623978,
      "loss/crossentropy": 2.6511776447296143,
      "loss/logits": 0.8379587948322296,
      "step": 31070
    },
    {
      "epoch": 0.3108,
      "grad_norm": 12.375,
      "grad_norm_var": 0.3859375,
      "learning_rate": 0.0003,
      "loss": 11.4201,
      "loss/aux_loss": 0.048076062090694906,
      "loss/crossentropy": 2.909103608131409,
      "loss/logits": 0.9112180799245835,
      "step": 31080
    },
    {
      "epoch": 0.3109,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.23605143229166667,
      "learning_rate": 0.0003,
      "loss": 11.5163,
      "loss/aux_loss": 0.04807505179196596,
      "loss/crossentropy": 2.720409429073334,
      "loss/logits": 0.8697555780410766,
      "step": 31090
    },
    {
      "epoch": 0.311,
      "grad_norm": 12.625,
      "grad_norm_var": 0.35149739583333334,
      "learning_rate": 0.0003,
      "loss": 11.3274,
      "loss/aux_loss": 0.04808955602347851,
      "loss/crossentropy": 2.6798146247863768,
      "loss/logits": 0.8508224755525589,
      "step": 31100
    },
    {
      "epoch": 0.3111,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.9098307291666666,
      "learning_rate": 0.0003,
      "loss": 11.2321,
      "loss/aux_loss": 0.048081112653017045,
      "loss/crossentropy": 2.8907525897026063,
      "loss/logits": 0.8622247904539109,
      "step": 31110
    },
    {
      "epoch": 0.3112,
      "grad_norm": 14.0,
      "grad_norm_var": 0.6708333333333333,
      "learning_rate": 0.0003,
      "loss": 11.3221,
      "loss/aux_loss": 0.048092206753790376,
      "loss/crossentropy": 2.5958180367946624,
      "loss/logits": 0.8239250183105469,
      "step": 31120
    },
    {
      "epoch": 0.3113,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5369791666666667,
      "learning_rate": 0.0003,
      "loss": 11.3484,
      "loss/aux_loss": 0.04808017313480377,
      "loss/crossentropy": 2.730751097202301,
      "loss/logits": 0.8445838242769241,
      "step": 31130
    },
    {
      "epoch": 0.3114,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.043212890625,
      "learning_rate": 0.0003,
      "loss": 11.2755,
      "loss/aux_loss": 0.0480805704370141,
      "loss/crossentropy": 2.760500192642212,
      "loss/logits": 0.8478647708892822,
      "step": 31140
    },
    {
      "epoch": 0.3115,
      "grad_norm": 13.625,
      "grad_norm_var": 0.799462890625,
      "learning_rate": 0.0003,
      "loss": 11.5213,
      "loss/aux_loss": 0.048074069805443286,
      "loss/crossentropy": 2.8183942079544066,
      "loss/logits": 0.8743588626384735,
      "step": 31150
    },
    {
      "epoch": 0.3116,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.36053059895833334,
      "learning_rate": 0.0003,
      "loss": 11.3418,
      "loss/aux_loss": 0.048081109300255775,
      "loss/crossentropy": 2.8368311285972596,
      "loss/logits": 0.8868528872728347,
      "step": 31160
    },
    {
      "epoch": 0.3117,
      "grad_norm": 13.75,
      "grad_norm_var": 0.474072265625,
      "learning_rate": 0.0003,
      "loss": 11.3342,
      "loss/aux_loss": 0.048071020655333994,
      "loss/crossentropy": 2.630265325307846,
      "loss/logits": 0.8686846703290939,
      "step": 31170
    },
    {
      "epoch": 0.3118,
      "grad_norm": 13.625,
      "grad_norm_var": 0.22420247395833334,
      "learning_rate": 0.0003,
      "loss": 11.6492,
      "loss/aux_loss": 0.04808335732668638,
      "loss/crossentropy": 2.9368000745773317,
      "loss/logits": 0.8898035645484924,
      "step": 31180
    },
    {
      "epoch": 0.3119,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.237353515625,
      "learning_rate": 0.0003,
      "loss": 11.5728,
      "loss/aux_loss": 0.04807795882225037,
      "loss/crossentropy": 2.8425419092178346,
      "loss/logits": 0.8769685357809067,
      "step": 31190
    },
    {
      "epoch": 0.312,
      "grad_norm": 13.125,
      "grad_norm_var": 0.21145833333333333,
      "learning_rate": 0.0003,
      "loss": 11.5003,
      "loss/aux_loss": 0.04807908125221729,
      "loss/crossentropy": 2.8865275263786314,
      "loss/logits": 0.89976706802845,
      "step": 31200
    },
    {
      "epoch": 0.3121,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.4032389322916667,
      "learning_rate": 0.0003,
      "loss": 11.448,
      "loss/aux_loss": 0.048086687363684176,
      "loss/crossentropy": 2.8929324388504027,
      "loss/logits": 0.8646660923957825,
      "step": 31210
    },
    {
      "epoch": 0.3122,
      "grad_norm": 13.625,
      "grad_norm_var": 3.517041015625,
      "learning_rate": 0.0003,
      "loss": 11.3664,
      "loss/aux_loss": 0.04807643294334411,
      "loss/crossentropy": 2.6457720398902893,
      "loss/logits": 0.8991645514965058,
      "step": 31220
    },
    {
      "epoch": 0.3123,
      "grad_norm": 13.5,
      "grad_norm_var": 3.8999348958333333,
      "learning_rate": 0.0003,
      "loss": 11.4684,
      "loss/aux_loss": 0.04808459933847189,
      "loss/crossentropy": 2.634989720582962,
      "loss/logits": 0.8654608964920044,
      "step": 31230
    },
    {
      "epoch": 0.3124,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.4212890625,
      "learning_rate": 0.0003,
      "loss": 11.719,
      "loss/aux_loss": 0.04808775335550308,
      "loss/crossentropy": 2.8814554154872893,
      "loss/logits": 0.8489186823368072,
      "step": 31240
    },
    {
      "epoch": 0.3125,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.6421223958333333,
      "learning_rate": 0.0003,
      "loss": 11.5017,
      "loss/aux_loss": 0.04807210192084312,
      "loss/crossentropy": 2.8812507152557374,
      "loss/logits": 0.8861448734998703,
      "step": 31250
    },
    {
      "epoch": 0.3126,
      "grad_norm": 13.8125,
      "grad_norm_var": 1.1890625,
      "learning_rate": 0.0003,
      "loss": 11.3459,
      "loss/aux_loss": 0.048083325289189814,
      "loss/crossentropy": 2.6456491708755494,
      "loss/logits": 0.8774872869253159,
      "step": 31260
    },
    {
      "epoch": 0.3127,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.7696451822916667,
      "learning_rate": 0.0003,
      "loss": 11.4124,
      "loss/aux_loss": 0.048082329146564004,
      "loss/crossentropy": 2.855871230363846,
      "loss/logits": 0.8438941597938537,
      "step": 31270
    },
    {
      "epoch": 0.3128,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.7869140625,
      "learning_rate": 0.0003,
      "loss": 11.2841,
      "loss/aux_loss": 0.048089153692126275,
      "loss/crossentropy": 2.7080669164657594,
      "loss/logits": 0.8581030815839767,
      "step": 31280
    },
    {
      "epoch": 0.3129,
      "grad_norm": 13.375,
      "grad_norm_var": 0.5102701822916667,
      "learning_rate": 0.0003,
      "loss": 11.5182,
      "loss/aux_loss": 0.048074636980891226,
      "loss/crossentropy": 2.7201138913631437,
      "loss/logits": 0.8733494013547898,
      "step": 31290
    },
    {
      "epoch": 0.313,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.6463541666666667,
      "learning_rate": 0.0003,
      "loss": 11.5523,
      "loss/aux_loss": 0.04808723703026772,
      "loss/crossentropy": 2.778682363033295,
      "loss/logits": 0.8577165812253952,
      "step": 31300
    },
    {
      "epoch": 0.3131,
      "grad_norm": 13.5,
      "grad_norm_var": 0.2984375,
      "learning_rate": 0.0003,
      "loss": 11.4788,
      "loss/aux_loss": 0.048080189153552055,
      "loss/crossentropy": 2.9088799715042115,
      "loss/logits": 0.8727356672286988,
      "step": 31310
    },
    {
      "epoch": 0.3132,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.17076822916666667,
      "learning_rate": 0.0003,
      "loss": 11.3828,
      "loss/aux_loss": 0.04808860644698143,
      "loss/crossentropy": 2.718260443210602,
      "loss/logits": 0.8305355608463287,
      "step": 31320
    },
    {
      "epoch": 0.3133,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.379541015625,
      "learning_rate": 0.0003,
      "loss": 11.5571,
      "loss/aux_loss": 0.04808090459555388,
      "loss/crossentropy": 2.7178287625312807,
      "loss/logits": 0.8788865208625793,
      "step": 31330
    },
    {
      "epoch": 0.3134,
      "grad_norm": 15.75,
      "grad_norm_var": 1.0238932291666667,
      "learning_rate": 0.0003,
      "loss": 11.3747,
      "loss/aux_loss": 0.04807234313338995,
      "loss/crossentropy": 2.6713554739952086,
      "loss/logits": 0.8787687391042709,
      "step": 31340
    },
    {
      "epoch": 0.3135,
      "grad_norm": 12.8125,
      "grad_norm_var": 1.5390625,
      "learning_rate": 0.0003,
      "loss": 11.3459,
      "loss/aux_loss": 0.04808554369956255,
      "loss/crossentropy": 2.652766835689545,
      "loss/logits": 0.8742602497339249,
      "step": 31350
    },
    {
      "epoch": 0.3136,
      "grad_norm": 13.1875,
      "grad_norm_var": 1.2830729166666666,
      "learning_rate": 0.0003,
      "loss": 11.4199,
      "loss/aux_loss": 0.04807996340095997,
      "loss/crossentropy": 2.7023261964321135,
      "loss/logits": 0.8666334301233292,
      "step": 31360
    },
    {
      "epoch": 0.3137,
      "grad_norm": 11.9375,
      "grad_norm_var": 1.11953125,
      "learning_rate": 0.0003,
      "loss": 11.4297,
      "loss/aux_loss": 0.048081773333251476,
      "loss/crossentropy": 2.786700093746185,
      "loss/logits": 0.902243122458458,
      "step": 31370
    },
    {
      "epoch": 0.3138,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.4800618489583333,
      "learning_rate": 0.0003,
      "loss": 11.4868,
      "loss/aux_loss": 0.048089880496263504,
      "loss/crossentropy": 2.808494824171066,
      "loss/logits": 0.8556656092405319,
      "step": 31380
    },
    {
      "epoch": 0.3139,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.21484375,
      "learning_rate": 0.0003,
      "loss": 11.4171,
      "loss/aux_loss": 0.04808277599513531,
      "loss/crossentropy": 2.771555906534195,
      "loss/logits": 0.8765601277351379,
      "step": 31390
    },
    {
      "epoch": 0.314,
      "grad_norm": 12.6875,
      "grad_norm_var": 1.2710774739583333,
      "learning_rate": 0.0003,
      "loss": 11.6018,
      "loss/aux_loss": 0.048083768039941785,
      "loss/crossentropy": 2.888131785392761,
      "loss/logits": 0.8636642038822174,
      "step": 31400
    },
    {
      "epoch": 0.3141,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.29375,
      "learning_rate": 0.0003,
      "loss": 11.3992,
      "loss/aux_loss": 0.048076036386191845,
      "loss/crossentropy": 2.5779885232448576,
      "loss/logits": 0.8284551709890365,
      "step": 31410
    },
    {
      "epoch": 0.3142,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.45675455729166664,
      "learning_rate": 0.0003,
      "loss": 11.239,
      "loss/aux_loss": 0.0480815326794982,
      "loss/crossentropy": 2.857342076301575,
      "loss/logits": 0.866741943359375,
      "step": 31420
    },
    {
      "epoch": 0.3143,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4875,
      "learning_rate": 0.0003,
      "loss": 11.5045,
      "loss/aux_loss": 0.04808294028043747,
      "loss/crossentropy": 2.730056095123291,
      "loss/logits": 0.8772373676300049,
      "step": 31430
    },
    {
      "epoch": 0.3144,
      "grad_norm": 12.75,
      "grad_norm_var": 0.6671223958333333,
      "learning_rate": 0.0003,
      "loss": 11.4201,
      "loss/aux_loss": 0.0480757225304842,
      "loss/crossentropy": 2.8834362506866453,
      "loss/logits": 0.8785695016384125,
      "step": 31440
    },
    {
      "epoch": 0.3145,
      "grad_norm": 13.125,
      "grad_norm_var": 0.709375,
      "learning_rate": 0.0003,
      "loss": 11.2471,
      "loss/aux_loss": 0.048089978471398356,
      "loss/crossentropy": 2.6122034907341005,
      "loss/logits": 0.8332406580448151,
      "step": 31450
    },
    {
      "epoch": 0.3146,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.6348307291666667,
      "learning_rate": 0.0003,
      "loss": 11.4156,
      "loss/aux_loss": 0.04808205291628838,
      "loss/crossentropy": 2.7532804131507875,
      "loss/logits": 0.8511408418416977,
      "step": 31460
    },
    {
      "epoch": 0.3147,
      "grad_norm": 12.5,
      "grad_norm_var": 1.6400390625,
      "learning_rate": 0.0003,
      "loss": 11.4242,
      "loss/aux_loss": 0.04809170886874199,
      "loss/crossentropy": 2.6764910399913786,
      "loss/logits": 0.8635757118463516,
      "step": 31470
    },
    {
      "epoch": 0.3148,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.8389973958333333,
      "learning_rate": 0.0003,
      "loss": 11.2935,
      "loss/aux_loss": 0.04808271527290344,
      "loss/crossentropy": 2.6128583550453186,
      "loss/logits": 0.8351830154657364,
      "step": 31480
    },
    {
      "epoch": 0.3149,
      "grad_norm": 13.9375,
      "grad_norm_var": 3.76484375,
      "learning_rate": 0.0003,
      "loss": 11.6416,
      "loss/aux_loss": 0.048077508620917794,
      "loss/crossentropy": 2.8005987286567686,
      "loss/logits": 0.9104048877954483,
      "step": 31490
    },
    {
      "epoch": 0.315,
      "grad_norm": 14.75,
      "grad_norm_var": 7.100244140625,
      "learning_rate": 0.0003,
      "loss": 11.474,
      "loss/aux_loss": 0.04809277784079313,
      "loss/crossentropy": 2.739937108755112,
      "loss/logits": 0.8828804194927216,
      "step": 31500
    },
    {
      "epoch": 0.3151,
      "grad_norm": 13.75,
      "grad_norm_var": 5.307926432291667,
      "learning_rate": 0.0003,
      "loss": 11.4576,
      "loss/aux_loss": 0.04807978179305792,
      "loss/crossentropy": 2.912484383583069,
      "loss/logits": 0.9298472136259079,
      "step": 31510
    },
    {
      "epoch": 0.3152,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.0136555989583333,
      "learning_rate": 0.0003,
      "loss": 11.4793,
      "loss/aux_loss": 0.04807396475225687,
      "loss/crossentropy": 2.864921712875366,
      "loss/logits": 0.8761105090379715,
      "step": 31520
    },
    {
      "epoch": 0.3153,
      "grad_norm": 13.0,
      "grad_norm_var": 0.35670572916666665,
      "learning_rate": 0.0003,
      "loss": 11.2979,
      "loss/aux_loss": 0.04808592237532139,
      "loss/crossentropy": 2.7697804093360903,
      "loss/logits": 0.8579605609178543,
      "step": 31530
    },
    {
      "epoch": 0.3154,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5884765625,
      "learning_rate": 0.0003,
      "loss": 11.364,
      "loss/aux_loss": 0.048074756562709806,
      "loss/crossentropy": 2.720014047622681,
      "loss/logits": 0.8563840836286545,
      "step": 31540
    },
    {
      "epoch": 0.3155,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.7206868489583333,
      "learning_rate": 0.0003,
      "loss": 11.3455,
      "loss/aux_loss": 0.048072342202067374,
      "loss/crossentropy": 2.643301236629486,
      "loss/logits": 0.8437513649463654,
      "step": 31550
    },
    {
      "epoch": 0.3156,
      "grad_norm": 38.5,
      "grad_norm_var": 39.195247395833334,
      "learning_rate": 0.0003,
      "loss": 11.5141,
      "loss/aux_loss": 0.04808412864804268,
      "loss/crossentropy": 2.726420682668686,
      "loss/logits": 0.8565041303634644,
      "step": 31560
    },
    {
      "epoch": 0.3157,
      "grad_norm": 13.3125,
      "grad_norm_var": 39.03489583333333,
      "learning_rate": 0.0003,
      "loss": 11.5841,
      "loss/aux_loss": 0.048086312040686606,
      "loss/crossentropy": 2.7990392088890075,
      "loss/logits": 0.866115254163742,
      "step": 31570
    },
    {
      "epoch": 0.3158,
      "grad_norm": 13.375,
      "grad_norm_var": 3.559830729166667,
      "learning_rate": 0.0003,
      "loss": 11.2449,
      "loss/aux_loss": 0.04807570930570364,
      "loss/crossentropy": 2.7598312139511108,
      "loss/logits": 0.848942118883133,
      "step": 31580
    },
    {
      "epoch": 0.3159,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.4830729166666667,
      "learning_rate": 0.0003,
      "loss": 11.4392,
      "loss/aux_loss": 0.04808403309434652,
      "loss/crossentropy": 2.7267268300056458,
      "loss/logits": 0.8826425462961197,
      "step": 31590
    },
    {
      "epoch": 0.316,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.37550455729166665,
      "learning_rate": 0.0003,
      "loss": 11.3998,
      "loss/aux_loss": 0.04807063583284617,
      "loss/crossentropy": 2.776882898807526,
      "loss/logits": 0.8546944618225097,
      "step": 31600
    },
    {
      "epoch": 0.3161,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.8063639322916667,
      "learning_rate": 0.0003,
      "loss": 11.5461,
      "loss/aux_loss": 0.04809814915060997,
      "loss/crossentropy": 2.643150007724762,
      "loss/logits": 0.8487259536981583,
      "step": 31610
    },
    {
      "epoch": 0.3162,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.8200358072916667,
      "learning_rate": 0.0003,
      "loss": 11.357,
      "loss/aux_loss": 0.0480756500735879,
      "loss/crossentropy": 2.7450030565261843,
      "loss/logits": 0.858446741104126,
      "step": 31620
    },
    {
      "epoch": 0.3163,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.8395182291666666,
      "learning_rate": 0.0003,
      "loss": 11.4617,
      "loss/aux_loss": 0.04808495547622442,
      "loss/crossentropy": 2.8632676005363464,
      "loss/logits": 0.8507615506649018,
      "step": 31630
    },
    {
      "epoch": 0.3164,
      "grad_norm": 13.625,
      "grad_norm_var": 0.8075520833333333,
      "learning_rate": 0.0003,
      "loss": 11.3846,
      "loss/aux_loss": 0.048081559129059315,
      "loss/crossentropy": 2.681163477897644,
      "loss/logits": 0.8584868460893631,
      "step": 31640
    },
    {
      "epoch": 0.3165,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.461572265625,
      "learning_rate": 0.0003,
      "loss": 11.3037,
      "loss/aux_loss": 0.04807944130152464,
      "loss/crossentropy": 2.757179379463196,
      "loss/logits": 0.8438855946063996,
      "step": 31650
    },
    {
      "epoch": 0.3166,
      "grad_norm": 13.125,
      "grad_norm_var": 0.30983072916666665,
      "learning_rate": 0.0003,
      "loss": 11.4289,
      "loss/aux_loss": 0.048075127974152566,
      "loss/crossentropy": 2.775540769100189,
      "loss/logits": 0.8543334901332855,
      "step": 31660
    },
    {
      "epoch": 0.3167,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.24178059895833334,
      "learning_rate": 0.0003,
      "loss": 11.3283,
      "loss/aux_loss": 0.04808103535324335,
      "loss/crossentropy": 2.771780288219452,
      "loss/logits": 0.8589775919914245,
      "step": 31670
    },
    {
      "epoch": 0.3168,
      "grad_norm": 12.75,
      "grad_norm_var": 0.22146809895833333,
      "learning_rate": 0.0003,
      "loss": 11.5683,
      "loss/aux_loss": 0.04807479549199343,
      "loss/crossentropy": 2.889441192150116,
      "loss/logits": 0.8831599056720734,
      "step": 31680
    },
    {
      "epoch": 0.3169,
      "grad_norm": 14.5,
      "grad_norm_var": 0.4813639322916667,
      "learning_rate": 0.0003,
      "loss": 11.5118,
      "loss/aux_loss": 0.048088008724153045,
      "loss/crossentropy": 2.794116795063019,
      "loss/logits": 0.8760564774274826,
      "step": 31690
    },
    {
      "epoch": 0.317,
      "grad_norm": 17.875,
      "grad_norm_var": 60.6546875,
      "learning_rate": 0.0003,
      "loss": 11.4563,
      "loss/aux_loss": 0.04808449987322092,
      "loss/crossentropy": 2.7889586448669434,
      "loss/logits": 0.8560769230127334,
      "step": 31700
    },
    {
      "epoch": 0.3171,
      "grad_norm": 13.0,
      "grad_norm_var": 61.812434895833334,
      "learning_rate": 0.0003,
      "loss": 11.4129,
      "loss/aux_loss": 0.048075599037110804,
      "loss/crossentropy": 2.764506447315216,
      "loss/logits": 0.8688730716705322,
      "step": 31710
    },
    {
      "epoch": 0.3172,
      "grad_norm": 12.3125,
      "grad_norm_var": 1.903125,
      "learning_rate": 0.0003,
      "loss": 11.401,
      "loss/aux_loss": 0.04808210451155901,
      "loss/crossentropy": 2.6953455746173858,
      "loss/logits": 0.8976037502288818,
      "step": 31720
    },
    {
      "epoch": 0.3173,
      "grad_norm": 17.75,
      "grad_norm_var": 4.958968098958334,
      "learning_rate": 0.0003,
      "loss": 11.3902,
      "loss/aux_loss": 0.04808040298521519,
      "loss/crossentropy": 2.7925826787948607,
      "loss/logits": 0.8728821247816085,
      "step": 31730
    },
    {
      "epoch": 0.3174,
      "grad_norm": 12.4375,
      "grad_norm_var": 1.7452473958333334,
      "learning_rate": 0.0003,
      "loss": 11.5282,
      "loss/aux_loss": 0.048076373524963856,
      "loss/crossentropy": 2.8562302708625795,
      "loss/logits": 0.8475510686635971,
      "step": 31740
    },
    {
      "epoch": 0.3175,
      "grad_norm": 12.625,
      "grad_norm_var": 0.6619791666666667,
      "learning_rate": 0.0003,
      "loss": 11.366,
      "loss/aux_loss": 0.048085829429328444,
      "loss/crossentropy": 2.649816393852234,
      "loss/logits": 0.8313356369733811,
      "step": 31750
    },
    {
      "epoch": 0.3176,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.8421223958333334,
      "learning_rate": 0.0003,
      "loss": 11.4549,
      "loss/aux_loss": 0.0480808213353157,
      "loss/crossentropy": 2.7275112867355347,
      "loss/logits": 0.8897455483675003,
      "step": 31760
    },
    {
      "epoch": 0.3177,
      "grad_norm": 13.5,
      "grad_norm_var": 0.5714680989583333,
      "learning_rate": 0.0003,
      "loss": 11.3229,
      "loss/aux_loss": 0.048082269914448264,
      "loss/crossentropy": 2.7526735663414,
      "loss/logits": 0.8474861830472946,
      "step": 31770
    },
    {
      "epoch": 0.3178,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.47394205729166666,
      "learning_rate": 0.0003,
      "loss": 11.5803,
      "loss/aux_loss": 0.04808472171425819,
      "loss/crossentropy": 2.834140819311142,
      "loss/logits": 0.8541903674602509,
      "step": 31780
    },
    {
      "epoch": 0.3179,
      "grad_norm": 12.5,
      "grad_norm_var": 0.7118326822916666,
      "learning_rate": 0.0003,
      "loss": 11.3839,
      "loss/aux_loss": 0.04806725513190031,
      "loss/crossentropy": 2.5748830080032348,
      "loss/logits": 0.8210257202386856,
      "step": 31790
    },
    {
      "epoch": 0.318,
      "grad_norm": 13.25,
      "grad_norm_var": 0.6691243489583333,
      "learning_rate": 0.0003,
      "loss": 11.4991,
      "loss/aux_loss": 0.0480900140479207,
      "loss/crossentropy": 2.720593547821045,
      "loss/logits": 0.8570217370986939,
      "step": 31800
    },
    {
      "epoch": 0.3181,
      "grad_norm": 16.375,
      "grad_norm_var": 7.630208333333333,
      "learning_rate": 0.0003,
      "loss": 11.3505,
      "loss/aux_loss": 0.048079617135226724,
      "loss/crossentropy": 2.76233834028244,
      "loss/logits": 0.8391731053590774,
      "step": 31810
    },
    {
      "epoch": 0.3182,
      "grad_norm": 12.125,
      "grad_norm_var": 8.1328125,
      "learning_rate": 0.0003,
      "loss": 11.4925,
      "loss/aux_loss": 0.04807399399578571,
      "loss/crossentropy": 2.793236219882965,
      "loss/logits": 0.8872128367424011,
      "step": 31820
    },
    {
      "epoch": 0.3183,
      "grad_norm": 14.125,
      "grad_norm_var": 0.43527018229166664,
      "learning_rate": 0.0003,
      "loss": 11.4887,
      "loss/aux_loss": 0.048083842545747754,
      "loss/crossentropy": 2.860837161540985,
      "loss/logits": 0.8602665454149246,
      "step": 31830
    },
    {
      "epoch": 0.3184,
      "grad_norm": 14.125,
      "grad_norm_var": 0.341650390625,
      "learning_rate": 0.0003,
      "loss": 11.3578,
      "loss/aux_loss": 0.04807821288704872,
      "loss/crossentropy": 2.7253613471984863,
      "loss/logits": 0.8533663004636765,
      "step": 31840
    },
    {
      "epoch": 0.3185,
      "grad_norm": 15.75,
      "grad_norm_var": 625.615625,
      "learning_rate": 0.0003,
      "loss": 11.595,
      "loss/aux_loss": 0.04808409884572029,
      "loss/crossentropy": 2.833714520931244,
      "loss/logits": 0.8993043005466461,
      "step": 31850
    },
    {
      "epoch": 0.3186,
      "grad_norm": 13.5625,
      "grad_norm_var": 608.6546223958334,
      "learning_rate": 0.0003,
      "loss": 11.3319,
      "loss/aux_loss": 0.048097670264542106,
      "loss/crossentropy": 2.7307827293872835,
      "loss/logits": 0.8190259605646133,
      "step": 31860
    },
    {
      "epoch": 0.3187,
      "grad_norm": 14.375,
      "grad_norm_var": 4.886051432291667,
      "learning_rate": 0.0003,
      "loss": 11.449,
      "loss/aux_loss": 0.04808141943067312,
      "loss/crossentropy": 2.7856150209903716,
      "loss/logits": 0.851562550663948,
      "step": 31870
    },
    {
      "epoch": 0.3188,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.31378580729166666,
      "learning_rate": 0.0003,
      "loss": 11.2744,
      "loss/aux_loss": 0.048080786131322384,
      "loss/crossentropy": 2.759511637687683,
      "loss/logits": 0.8260854959487915,
      "step": 31880
    },
    {
      "epoch": 0.3189,
      "grad_norm": 14.5,
      "grad_norm_var": 0.337353515625,
      "learning_rate": 0.0003,
      "loss": 11.4055,
      "loss/aux_loss": 0.048088025860488416,
      "loss/crossentropy": 2.7933689653873444,
      "loss/logits": 0.8317734956741333,
      "step": 31890
    },
    {
      "epoch": 0.319,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4176432291666667,
      "learning_rate": 0.0003,
      "loss": 11.4489,
      "loss/aux_loss": 0.04807045944035053,
      "loss/crossentropy": 2.671738988161087,
      "loss/logits": 0.8746799319982529,
      "step": 31900
    },
    {
      "epoch": 0.3191,
      "grad_norm": 13.125,
      "grad_norm_var": 0.5280598958333333,
      "learning_rate": 0.0003,
      "loss": 11.4261,
      "loss/aux_loss": 0.04807942863553762,
      "loss/crossentropy": 2.8266174256801606,
      "loss/logits": 0.9010621100664139,
      "step": 31910
    },
    {
      "epoch": 0.3192,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.42823893229166665,
      "learning_rate": 0.0003,
      "loss": 11.3704,
      "loss/aux_loss": 0.04807835109531879,
      "loss/crossentropy": 2.8471252858638763,
      "loss/logits": 0.8496732413768768,
      "step": 31920
    },
    {
      "epoch": 0.3193,
      "grad_norm": 15.25,
      "grad_norm_var": 0.5960774739583333,
      "learning_rate": 0.0003,
      "loss": 11.3404,
      "loss/aux_loss": 0.04808904957026243,
      "loss/crossentropy": 2.7125583946704865,
      "loss/logits": 0.8533723443746567,
      "step": 31930
    },
    {
      "epoch": 0.3194,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.6400390625,
      "learning_rate": 0.0003,
      "loss": 11.526,
      "loss/aux_loss": 0.048076958023011686,
      "loss/crossentropy": 2.847039544582367,
      "loss/logits": 0.8665654867887497,
      "step": 31940
    },
    {
      "epoch": 0.3195,
      "grad_norm": 12.6875,
      "grad_norm_var": 1.1645182291666667,
      "learning_rate": 0.0003,
      "loss": 11.3755,
      "loss/aux_loss": 0.04807892180979252,
      "loss/crossentropy": 2.6123467087745667,
      "loss/logits": 0.8488023519515991,
      "step": 31950
    },
    {
      "epoch": 0.3196,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5695149739583333,
      "learning_rate": 0.0003,
      "loss": 11.3545,
      "loss/aux_loss": 0.048081924021244046,
      "loss/crossentropy": 2.756511354446411,
      "loss/logits": 0.8485715210437774,
      "step": 31960
    },
    {
      "epoch": 0.3197,
      "grad_norm": 11.9375,
      "grad_norm_var": 0.6130045572916667,
      "learning_rate": 0.0003,
      "loss": 11.5651,
      "loss/aux_loss": 0.04808203242719174,
      "loss/crossentropy": 2.696575939655304,
      "loss/logits": 0.8660462826490403,
      "step": 31970
    },
    {
      "epoch": 0.3198,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5766764322916667,
      "learning_rate": 0.0003,
      "loss": 11.5154,
      "loss/aux_loss": 0.048074822314083575,
      "loss/crossentropy": 2.7823503494262694,
      "loss/logits": 0.8631897240877151,
      "step": 31980
    },
    {
      "epoch": 0.3199,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.6207682291666666,
      "learning_rate": 0.0003,
      "loss": 11.4817,
      "loss/aux_loss": 0.048085047490894796,
      "loss/crossentropy": 2.765849894285202,
      "loss/logits": 0.8870153099298477,
      "step": 31990
    },
    {
      "epoch": 0.32,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.352197265625,
      "learning_rate": 0.0003,
      "loss": 11.4848,
      "loss/aux_loss": 0.048076517321169375,
      "loss/crossentropy": 2.818051886558533,
      "loss/logits": 0.8712541669607162,
      "step": 32000
    },
    {
      "epoch": 0.3201,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.294384765625,
      "learning_rate": 0.0003,
      "loss": 11.4565,
      "loss/aux_loss": 0.0480777308344841,
      "loss/crossentropy": 2.7592976331710815,
      "loss/logits": 0.8439573287963867,
      "step": 32010
    },
    {
      "epoch": 0.3202,
      "grad_norm": 15.3125,
      "grad_norm_var": 759.9216145833333,
      "learning_rate": 0.0003,
      "loss": 11.679,
      "loss/aux_loss": 0.04811829086393118,
      "loss/crossentropy": 2.7429904997348786,
      "loss/logits": 0.87835733294487,
      "step": 32020
    },
    {
      "epoch": 0.3203,
      "grad_norm": 12.5625,
      "grad_norm_var": 14.346598307291666,
      "learning_rate": 0.0003,
      "loss": 11.4291,
      "loss/aux_loss": 0.04807977806776762,
      "loss/crossentropy": 2.733081966638565,
      "loss/logits": 0.8281262069940567,
      "step": 32030
    },
    {
      "epoch": 0.3204,
      "grad_norm": 13.0,
      "grad_norm_var": 0.744775390625,
      "learning_rate": 0.0003,
      "loss": 11.2668,
      "loss/aux_loss": 0.04808316174894571,
      "loss/crossentropy": 2.7543557405471804,
      "loss/logits": 0.8591379880905151,
      "step": 32040
    },
    {
      "epoch": 0.3205,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4337076822916667,
      "learning_rate": 0.0003,
      "loss": 11.4739,
      "loss/aux_loss": 0.04808379802852869,
      "loss/crossentropy": 2.8462088823318483,
      "loss/logits": 0.8858730256557464,
      "step": 32050
    },
    {
      "epoch": 0.3206,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.350244140625,
      "learning_rate": 0.0003,
      "loss": 11.5575,
      "loss/aux_loss": 0.04808332268148661,
      "loss/crossentropy": 2.804873597621918,
      "loss/logits": 0.8518771290779114,
      "step": 32060
    },
    {
      "epoch": 0.3207,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.7770182291666666,
      "learning_rate": 0.0003,
      "loss": 11.508,
      "loss/aux_loss": 0.0480858214199543,
      "loss/crossentropy": 2.7543485045433043,
      "loss/logits": 0.8625475555658341,
      "step": 32070
    },
    {
      "epoch": 0.3208,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.5645182291666667,
      "learning_rate": 0.0003,
      "loss": 11.3667,
      "loss/aux_loss": 0.04808385856449604,
      "loss/crossentropy": 2.7623300909996034,
      "loss/logits": 0.838151478767395,
      "step": 32080
    },
    {
      "epoch": 0.3209,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.557275390625,
      "learning_rate": 0.0003,
      "loss": 11.4308,
      "loss/aux_loss": 0.048071561940014364,
      "loss/crossentropy": 2.7351042151451113,
      "loss/logits": 0.8292459070682525,
      "step": 32090
    },
    {
      "epoch": 0.321,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.52890625,
      "learning_rate": 0.0003,
      "loss": 11.4485,
      "loss/aux_loss": 0.048081991448998454,
      "loss/crossentropy": 2.742439067363739,
      "loss/logits": 0.8626155495643616,
      "step": 32100
    },
    {
      "epoch": 0.3211,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.3035807291666667,
      "learning_rate": 0.0003,
      "loss": 11.2873,
      "loss/aux_loss": 0.048089691810309886,
      "loss/crossentropy": 2.7030389070510865,
      "loss/logits": 0.8663504242897033,
      "step": 32110
    },
    {
      "epoch": 0.3212,
      "grad_norm": 12.8125,
      "grad_norm_var": 2.847916666666667,
      "learning_rate": 0.0003,
      "loss": 11.4217,
      "loss/aux_loss": 0.04807127509266138,
      "loss/crossentropy": 2.885518616437912,
      "loss/logits": 0.8689032286405564,
      "step": 32120
    },
    {
      "epoch": 0.3213,
      "grad_norm": 13.0625,
      "grad_norm_var": 2.738655598958333,
      "learning_rate": 0.0003,
      "loss": 11.3219,
      "loss/aux_loss": 0.04809402395039797,
      "loss/crossentropy": 2.8164079904556276,
      "loss/logits": 0.8654607564210892,
      "step": 32130
    },
    {
      "epoch": 0.3214,
      "grad_norm": 16.0,
      "grad_norm_var": 0.8416015625,
      "learning_rate": 0.0003,
      "loss": 11.4046,
      "loss/aux_loss": 0.04806608557701111,
      "loss/crossentropy": 2.7131950318813325,
      "loss/logits": 0.8581384032964706,
      "step": 32140
    },
    {
      "epoch": 0.3215,
      "grad_norm": 13.375,
      "grad_norm_var": 0.9400390625,
      "learning_rate": 0.0003,
      "loss": 11.4208,
      "loss/aux_loss": 0.04809866081923246,
      "loss/crossentropy": 2.64786559343338,
      "loss/logits": 0.8615017741918564,
      "step": 32150
    },
    {
      "epoch": 0.3216,
      "grad_norm": 13.1875,
      "grad_norm_var": 1.1765625,
      "learning_rate": 0.0003,
      "loss": 11.3239,
      "loss/aux_loss": 0.04808507617563009,
      "loss/crossentropy": 2.799293911457062,
      "loss/logits": 0.8632352501153946,
      "step": 32160
    },
    {
      "epoch": 0.3217,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.6638020833333333,
      "learning_rate": 0.0003,
      "loss": 11.6439,
      "loss/aux_loss": 0.048080069571733476,
      "loss/crossentropy": 2.813327169418335,
      "loss/logits": 0.8687012135982514,
      "step": 32170
    },
    {
      "epoch": 0.3218,
      "grad_norm": 14.125,
      "grad_norm_var": 0.4744140625,
      "learning_rate": 0.0003,
      "loss": 11.4474,
      "loss/aux_loss": 0.048083030991256236,
      "loss/crossentropy": 2.8561726570129395,
      "loss/logits": 0.848215913772583,
      "step": 32180
    },
    {
      "epoch": 0.3219,
      "grad_norm": 13.3125,
      "grad_norm_var": 20.351041666666667,
      "learning_rate": 0.0003,
      "loss": 11.3414,
      "loss/aux_loss": 0.04807794373482466,
      "loss/crossentropy": 2.7342350482940674,
      "loss/logits": 0.8707915544509888,
      "step": 32190
    },
    {
      "epoch": 0.322,
      "grad_norm": 12.875,
      "grad_norm_var": 19.792952473958334,
      "learning_rate": 0.0003,
      "loss": 11.4378,
      "loss/aux_loss": 0.04808533620089293,
      "loss/crossentropy": 2.751993161439896,
      "loss/logits": 0.8459922909736634,
      "step": 32200
    },
    {
      "epoch": 0.3221,
      "grad_norm": 14.0,
      "grad_norm_var": 178.95364583333333,
      "learning_rate": 0.0003,
      "loss": 11.4808,
      "loss/aux_loss": 0.048082702048122886,
      "loss/crossentropy": 2.855089473724365,
      "loss/logits": 0.8649806082248688,
      "step": 32210
    },
    {
      "epoch": 0.3222,
      "grad_norm": 14.9375,
      "grad_norm_var": 1.689306640625,
      "learning_rate": 0.0003,
      "loss": 11.4922,
      "loss/aux_loss": 0.04807514175772667,
      "loss/crossentropy": 2.5906433165073395,
      "loss/logits": 0.843293958902359,
      "step": 32220
    },
    {
      "epoch": 0.3223,
      "grad_norm": 12.9375,
      "grad_norm_var": 1.0794108072916666,
      "learning_rate": 0.0003,
      "loss": 11.2442,
      "loss/aux_loss": 0.048078662157058714,
      "loss/crossentropy": 2.815950345993042,
      "loss/logits": 0.8553645879030227,
      "step": 32230
    },
    {
      "epoch": 0.3224,
      "grad_norm": 13.875,
      "grad_norm_var": 0.636962890625,
      "learning_rate": 0.0003,
      "loss": 11.4003,
      "loss/aux_loss": 0.04807271771132946,
      "loss/crossentropy": 2.759478431940079,
      "loss/logits": 0.8785617917776107,
      "step": 32240
    },
    {
      "epoch": 0.3225,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.6570149739583333,
      "learning_rate": 0.0003,
      "loss": 11.34,
      "loss/aux_loss": 0.048083205707371235,
      "loss/crossentropy": 2.76770259141922,
      "loss/logits": 0.8515851318836212,
      "step": 32250
    },
    {
      "epoch": 0.3226,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.5434733072916667,
      "learning_rate": 0.0003,
      "loss": 11.3623,
      "loss/aux_loss": 0.04807707685977221,
      "loss/crossentropy": 2.7345820903778075,
      "loss/logits": 0.8831362873315811,
      "step": 32260
    },
    {
      "epoch": 0.3227,
      "grad_norm": 13.0,
      "grad_norm_var": 0.4853515625,
      "learning_rate": 0.0003,
      "loss": 11.4747,
      "loss/aux_loss": 0.04807059448212385,
      "loss/crossentropy": 2.7904665589332582,
      "loss/logits": 0.8971100717782974,
      "step": 32270
    },
    {
      "epoch": 0.3228,
      "grad_norm": 13.25,
      "grad_norm_var": 0.49114583333333334,
      "learning_rate": 0.0003,
      "loss": 11.4368,
      "loss/aux_loss": 0.04808034915477037,
      "loss/crossentropy": 2.7924468517303467,
      "loss/logits": 0.8524171829223632,
      "step": 32280
    },
    {
      "epoch": 0.3229,
      "grad_norm": 13.4375,
      "grad_norm_var": 3.166145833333333,
      "learning_rate": 0.0003,
      "loss": 11.3999,
      "loss/aux_loss": 0.04808408003300428,
      "loss/crossentropy": 2.6971071362495422,
      "loss/logits": 0.8586209654808045,
      "step": 32290
    },
    {
      "epoch": 0.323,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5126139322916666,
      "learning_rate": 0.0003,
      "loss": 11.4116,
      "loss/aux_loss": 0.048079677298665045,
      "loss/crossentropy": 2.803563630580902,
      "loss/logits": 0.8560720324516297,
      "step": 32300
    },
    {
      "epoch": 0.3231,
      "grad_norm": 12.0625,
      "grad_norm_var": 0.36712239583333334,
      "learning_rate": 0.0003,
      "loss": 11.3175,
      "loss/aux_loss": 0.04807909969240427,
      "loss/crossentropy": 2.779414027929306,
      "loss/logits": 0.8658244550228119,
      "step": 32310
    },
    {
      "epoch": 0.3232,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.3101399739583333,
      "learning_rate": 0.0003,
      "loss": 11.2228,
      "loss/aux_loss": 0.048088131844997405,
      "loss/crossentropy": 2.6179952681064607,
      "loss/logits": 0.81593057513237,
      "step": 32320
    },
    {
      "epoch": 0.3233,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.11521809895833333,
      "learning_rate": 0.0003,
      "loss": 11.397,
      "loss/aux_loss": 0.04808655325323343,
      "loss/crossentropy": 2.8150524377822874,
      "loss/logits": 0.8867930352687836,
      "step": 32330
    },
    {
      "epoch": 0.3234,
      "grad_norm": 13.125,
      "grad_norm_var": 0.21145833333333333,
      "learning_rate": 0.0003,
      "loss": 11.2842,
      "loss/aux_loss": 0.04808272738009691,
      "loss/crossentropy": 2.7270405888557434,
      "loss/logits": 0.8832971513271332,
      "step": 32340
    },
    {
      "epoch": 0.3235,
      "grad_norm": 13.625,
      "grad_norm_var": 1.1784993489583333,
      "learning_rate": 0.0003,
      "loss": 11.5892,
      "loss/aux_loss": 0.0480838356539607,
      "loss/crossentropy": 2.7016100168228148,
      "loss/logits": 0.8885600864887238,
      "step": 32350
    },
    {
      "epoch": 0.3236,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.38605143229166666,
      "learning_rate": 0.0003,
      "loss": 11.2312,
      "loss/aux_loss": 0.0480771854519844,
      "loss/crossentropy": 2.814963674545288,
      "loss/logits": 0.8497733741998672,
      "step": 32360
    },
    {
      "epoch": 0.3237,
      "grad_norm": 13.5,
      "grad_norm_var": 0.35618489583333335,
      "learning_rate": 0.0003,
      "loss": 11.263,
      "loss/aux_loss": 0.048084933497011664,
      "loss/crossentropy": 2.7236967265605925,
      "loss/logits": 0.8645591795444488,
      "step": 32370
    },
    {
      "epoch": 0.3238,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5859212239583333,
      "learning_rate": 0.0003,
      "loss": 11.5835,
      "loss/aux_loss": 0.04807772319763899,
      "loss/crossentropy": 2.7548747062683105,
      "loss/logits": 0.8677338659763336,
      "step": 32380
    },
    {
      "epoch": 0.3239,
      "grad_norm": 14.375,
      "grad_norm_var": 0.41399739583333334,
      "learning_rate": 0.0003,
      "loss": 11.2919,
      "loss/aux_loss": 0.0480786906555295,
      "loss/crossentropy": 2.8514682233333586,
      "loss/logits": 0.850545859336853,
      "step": 32390
    },
    {
      "epoch": 0.324,
      "grad_norm": 12.875,
      "grad_norm_var": 0.6752604166666667,
      "learning_rate": 0.0003,
      "loss": 11.3948,
      "loss/aux_loss": 0.048079483583569525,
      "loss/crossentropy": 2.9048630833625793,
      "loss/logits": 0.8999389052391052,
      "step": 32400
    },
    {
      "epoch": 0.3241,
      "grad_norm": 12.9375,
      "grad_norm_var": 43.757747395833334,
      "learning_rate": 0.0003,
      "loss": 11.3345,
      "loss/aux_loss": 0.04807599056512117,
      "loss/crossentropy": 2.835081601142883,
      "loss/logits": 0.8689920961856842,
      "step": 32410
    },
    {
      "epoch": 0.3242,
      "grad_norm": 13.375,
      "grad_norm_var": 41.23292643229167,
      "learning_rate": 0.0003,
      "loss": 11.4935,
      "loss/aux_loss": 0.04808198846876621,
      "loss/crossentropy": 2.7409429788589477,
      "loss/logits": 0.852924308180809,
      "step": 32420
    },
    {
      "epoch": 0.3243,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.7806640625,
      "learning_rate": 0.0003,
      "loss": 11.3053,
      "loss/aux_loss": 0.04807913806289434,
      "loss/crossentropy": 2.697390305995941,
      "loss/logits": 0.8261424988508225,
      "step": 32430
    },
    {
      "epoch": 0.3244,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.3082682291666667,
      "learning_rate": 0.0003,
      "loss": 11.4026,
      "loss/aux_loss": 0.04807761088013649,
      "loss/crossentropy": 2.8476333379745484,
      "loss/logits": 0.8590798646211624,
      "step": 32440
    },
    {
      "epoch": 0.3245,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.6376139322916666,
      "learning_rate": 0.0003,
      "loss": 11.3744,
      "loss/aux_loss": 0.0480758473277092,
      "loss/crossentropy": 2.7274765491485597,
      "loss/logits": 0.8521047949790954,
      "step": 32450
    },
    {
      "epoch": 0.3246,
      "grad_norm": 12.5,
      "grad_norm_var": 0.79140625,
      "learning_rate": 0.0003,
      "loss": 11.4257,
      "loss/aux_loss": 0.048076083324849604,
      "loss/crossentropy": 2.7871260046958923,
      "loss/logits": 0.8288904428482056,
      "step": 32460
    },
    {
      "epoch": 0.3247,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.2708333333333333,
      "learning_rate": 0.0003,
      "loss": 11.2386,
      "loss/aux_loss": 0.048092946968972684,
      "loss/crossentropy": 2.6454286336898805,
      "loss/logits": 0.8405205219984054,
      "step": 32470
    },
    {
      "epoch": 0.3248,
      "grad_norm": 14.125,
      "grad_norm_var": 0.6605305989583333,
      "learning_rate": 0.0003,
      "loss": 11.4729,
      "loss/aux_loss": 0.048083856143057345,
      "loss/crossentropy": 2.8707290291786194,
      "loss/logits": 0.8646343678236008,
      "step": 32480
    },
    {
      "epoch": 0.3249,
      "grad_norm": 13.125,
      "grad_norm_var": 1.0945149739583333,
      "learning_rate": 0.0003,
      "loss": 11.4695,
      "loss/aux_loss": 0.04808031674474478,
      "loss/crossentropy": 2.734501177072525,
      "loss/logits": 0.8618703633546829,
      "step": 32490
    },
    {
      "epoch": 0.325,
      "grad_norm": 13.625,
      "grad_norm_var": 0.342822265625,
      "learning_rate": 0.0003,
      "loss": 11.3474,
      "loss/aux_loss": 0.0480826249346137,
      "loss/crossentropy": 2.4993535339832307,
      "loss/logits": 0.8169450134038925,
      "step": 32500
    },
    {
      "epoch": 0.3251,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.24256184895833333,
      "learning_rate": 0.0003,
      "loss": 11.1817,
      "loss/aux_loss": 0.04808486234396696,
      "loss/crossentropy": 2.7927271008491514,
      "loss/logits": 0.8319184005260467,
      "step": 32510
    },
    {
      "epoch": 0.3252,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.43333333333333335,
      "learning_rate": 0.0003,
      "loss": 11.4204,
      "loss/aux_loss": 0.048070120811462405,
      "loss/crossentropy": 2.7226893484592436,
      "loss/logits": 0.842848926782608,
      "step": 32520
    },
    {
      "epoch": 0.3253,
      "grad_norm": 14.25,
      "grad_norm_var": 2.196875,
      "learning_rate": 0.0003,
      "loss": 11.338,
      "loss/aux_loss": 0.04808647688478231,
      "loss/crossentropy": 2.754758191108704,
      "loss/logits": 0.8788342326879501,
      "step": 32530
    },
    {
      "epoch": 0.3254,
      "grad_norm": 13.3125,
      "grad_norm_var": 2.3486979166666666,
      "learning_rate": 0.0003,
      "loss": 11.4313,
      "loss/aux_loss": 0.04807833395898342,
      "loss/crossentropy": 2.6338735044002535,
      "loss/logits": 0.8634207069873809,
      "step": 32540
    },
    {
      "epoch": 0.3255,
      "grad_norm": 12.875,
      "grad_norm_var": 0.24036458333333333,
      "learning_rate": 0.0003,
      "loss": 11.3306,
      "loss/aux_loss": 0.04807445779442787,
      "loss/crossentropy": 2.74268923997879,
      "loss/logits": 0.8131024420261384,
      "step": 32550
    },
    {
      "epoch": 0.3256,
      "grad_norm": 13.5,
      "grad_norm_var": 0.3675618489583333,
      "learning_rate": 0.0003,
      "loss": 11.5403,
      "loss/aux_loss": 0.04809182155877352,
      "loss/crossentropy": 2.729319167137146,
      "loss/logits": 0.8604931205511093,
      "step": 32560
    },
    {
      "epoch": 0.3257,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.37159830729166665,
      "learning_rate": 0.0003,
      "loss": 11.2922,
      "loss/aux_loss": 0.04806775096803904,
      "loss/crossentropy": 2.7165225446224213,
      "loss/logits": 0.8697218716144561,
      "step": 32570
    },
    {
      "epoch": 0.3258,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.6143229166666667,
      "learning_rate": 0.0003,
      "loss": 11.5015,
      "loss/aux_loss": 0.04808111321181059,
      "loss/crossentropy": 2.6520249009132386,
      "loss/logits": 0.8677373945713043,
      "step": 32580
    },
    {
      "epoch": 0.3259,
      "grad_norm": 13.5,
      "grad_norm_var": 0.3104166666666667,
      "learning_rate": 0.0003,
      "loss": 11.2081,
      "loss/aux_loss": 0.04808580782264471,
      "loss/crossentropy": 2.626668655872345,
      "loss/logits": 0.8411953181028367,
      "step": 32590
    },
    {
      "epoch": 0.326,
      "grad_norm": 13.375,
      "grad_norm_var": 0.19869791666666667,
      "learning_rate": 0.0003,
      "loss": 11.4345,
      "loss/aux_loss": 0.04807950202375651,
      "loss/crossentropy": 2.6047201275825502,
      "loss/logits": 0.8363840937614441,
      "step": 32600
    },
    {
      "epoch": 0.3261,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.225,
      "learning_rate": 0.0003,
      "loss": 11.4163,
      "loss/aux_loss": 0.04808168914169073,
      "loss/crossentropy": 2.745485466718674,
      "loss/logits": 0.855038857460022,
      "step": 32610
    },
    {
      "epoch": 0.3262,
      "grad_norm": 13.9375,
      "grad_norm_var": 66.59993489583333,
      "learning_rate": 0.0003,
      "loss": 11.5196,
      "loss/aux_loss": 0.048089150339365005,
      "loss/crossentropy": 2.6984958589076995,
      "loss/logits": 0.8720762193202972,
      "step": 32620
    },
    {
      "epoch": 0.3263,
      "grad_norm": 15.25,
      "grad_norm_var": 64.37161458333334,
      "learning_rate": 0.0003,
      "loss": 11.5008,
      "loss/aux_loss": 0.04807731341570616,
      "loss/crossentropy": 2.6679943084716795,
      "loss/logits": 0.859524542093277,
      "step": 32630
    },
    {
      "epoch": 0.3264,
      "grad_norm": 14.0,
      "grad_norm_var": 0.6309733072916667,
      "learning_rate": 0.0003,
      "loss": 11.4637,
      "loss/aux_loss": 0.04808408729732037,
      "loss/crossentropy": 2.699479818344116,
      "loss/logits": 0.84074946641922,
      "step": 32640
    },
    {
      "epoch": 0.3265,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.9561848958333333,
      "learning_rate": 0.0003,
      "loss": 11.3639,
      "loss/aux_loss": 0.04807748533785343,
      "loss/crossentropy": 2.654457098245621,
      "loss/logits": 0.8376824676990509,
      "step": 32650
    },
    {
      "epoch": 0.3266,
      "grad_norm": 13.125,
      "grad_norm_var": 2.091259765625,
      "learning_rate": 0.0003,
      "loss": 11.4042,
      "loss/aux_loss": 0.04807919319719076,
      "loss/crossentropy": 2.6513519108295442,
      "loss/logits": 0.8539661675691604,
      "step": 32660
    },
    {
      "epoch": 0.3267,
      "grad_norm": 13.25,
      "grad_norm_var": 0.7520670572916667,
      "learning_rate": 0.0003,
      "loss": 11.331,
      "loss/aux_loss": 0.04807972591370344,
      "loss/crossentropy": 2.807789134979248,
      "loss/logits": 0.8730264127254486,
      "step": 32670
    },
    {
      "epoch": 0.3268,
      "grad_norm": 15.5,
      "grad_norm_var": 0.9223307291666667,
      "learning_rate": 0.0003,
      "loss": 11.4216,
      "loss/aux_loss": 0.048074715211987494,
      "loss/crossentropy": 2.852227210998535,
      "loss/logits": 0.8674792051315308,
      "step": 32680
    },
    {
      "epoch": 0.3269,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.9957682291666666,
      "learning_rate": 0.0003,
      "loss": 11.4985,
      "loss/aux_loss": 0.04807224553078413,
      "loss/crossentropy": 2.6428285241127014,
      "loss/logits": 0.8319959819316864,
      "step": 32690
    },
    {
      "epoch": 0.327,
      "grad_norm": 12.8125,
      "grad_norm_var": 1.8821451822916666,
      "learning_rate": 0.0003,
      "loss": 11.3336,
      "loss/aux_loss": 0.048086940124630925,
      "loss/crossentropy": 2.7363753497600554,
      "loss/logits": 0.8253339737653732,
      "step": 32700
    },
    {
      "epoch": 0.3271,
      "grad_norm": 15.5625,
      "grad_norm_var": 1.7759765625,
      "learning_rate": 0.0003,
      "loss": 11.5912,
      "loss/aux_loss": 0.04807717055082321,
      "loss/crossentropy": 2.7939674854278564,
      "loss/logits": 0.8734579056501388,
      "step": 32710
    },
    {
      "epoch": 0.3272,
      "grad_norm": 13.8125,
      "grad_norm_var": 1.1382649739583333,
      "learning_rate": 0.0003,
      "loss": 11.3646,
      "loss/aux_loss": 0.04808651357889175,
      "loss/crossentropy": 2.657242488861084,
      "loss/logits": 0.8325454264879226,
      "step": 32720
    },
    {
      "epoch": 0.3273,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.162353515625,
      "learning_rate": 0.0003,
      "loss": 11.3746,
      "loss/aux_loss": 0.048074505664408206,
      "loss/crossentropy": 2.7361601114273073,
      "loss/logits": 0.8744795680046081,
      "step": 32730
    },
    {
      "epoch": 0.3274,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.37237955729166666,
      "learning_rate": 0.0003,
      "loss": 11.2877,
      "loss/aux_loss": 0.04808551985770464,
      "loss/crossentropy": 2.480491054058075,
      "loss/logits": 0.8157087236642837,
      "step": 32740
    },
    {
      "epoch": 0.3275,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.95078125,
      "learning_rate": 0.0003,
      "loss": 11.2748,
      "loss/aux_loss": 0.04807721842080355,
      "loss/crossentropy": 2.7901974260807036,
      "loss/logits": 0.8725056558847427,
      "step": 32750
    },
    {
      "epoch": 0.3276,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.8020670572916667,
      "learning_rate": 0.0003,
      "loss": 11.4644,
      "loss/aux_loss": 0.04809094499796629,
      "loss/crossentropy": 2.6982684254646303,
      "loss/logits": 0.8750581175088883,
      "step": 32760
    },
    {
      "epoch": 0.3277,
      "grad_norm": 14.125,
      "grad_norm_var": 0.9791015625,
      "learning_rate": 0.0003,
      "loss": 11.3499,
      "loss/aux_loss": 0.04807215426117182,
      "loss/crossentropy": 2.56101336479187,
      "loss/logits": 0.859020522236824,
      "step": 32770
    },
    {
      "epoch": 0.3278,
      "grad_norm": 13.4375,
      "grad_norm_var": 1.1011555989583333,
      "learning_rate": 0.0003,
      "loss": 11.3663,
      "loss/aux_loss": 0.048077127523720266,
      "loss/crossentropy": 2.7586211442947386,
      "loss/logits": 0.8794794708490372,
      "step": 32780
    },
    {
      "epoch": 0.3279,
      "grad_norm": 14.625,
      "grad_norm_var": 0.3056640625,
      "learning_rate": 0.0003,
      "loss": 11.575,
      "loss/aux_loss": 0.04807180892676115,
      "loss/crossentropy": 2.8552963852882387,
      "loss/logits": 0.9014603316783905,
      "step": 32790
    },
    {
      "epoch": 0.328,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.448681640625,
      "learning_rate": 0.0003,
      "loss": 11.659,
      "loss/aux_loss": 0.048085894994437696,
      "loss/crossentropy": 2.7301037549972533,
      "loss/logits": 0.8675024837255478,
      "step": 32800
    },
    {
      "epoch": 0.3281,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.2535807291666667,
      "learning_rate": 0.0003,
      "loss": 11.422,
      "loss/aux_loss": 0.04807611275464296,
      "loss/crossentropy": 2.61910994052887,
      "loss/logits": 0.8257275193929672,
      "step": 32810
    },
    {
      "epoch": 0.3282,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.219384765625,
      "learning_rate": 0.0003,
      "loss": 11.3728,
      "loss/aux_loss": 0.04807970225811005,
      "loss/crossentropy": 2.5538667261600496,
      "loss/logits": 0.8033603578805923,
      "step": 32820
    },
    {
      "epoch": 0.3283,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.544384765625,
      "learning_rate": 0.0003,
      "loss": 11.449,
      "loss/aux_loss": 0.048089250549674036,
      "loss/crossentropy": 2.8291757106781006,
      "loss/logits": 0.86662557721138,
      "step": 32830
    },
    {
      "epoch": 0.3284,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.4356608072916667,
      "learning_rate": 0.0003,
      "loss": 11.3986,
      "loss/aux_loss": 0.048079658299684525,
      "loss/crossentropy": 2.6797396779060363,
      "loss/logits": 0.8524430304765701,
      "step": 32840
    },
    {
      "epoch": 0.3285,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.3113932291666667,
      "learning_rate": 0.0003,
      "loss": 11.5521,
      "loss/aux_loss": 0.048092910647392274,
      "loss/crossentropy": 2.8970932602882384,
      "loss/logits": 0.8721674889326095,
      "step": 32850
    },
    {
      "epoch": 0.3286,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.2041015625,
      "learning_rate": 0.0003,
      "loss": 11.3052,
      "loss/aux_loss": 0.04807873163372278,
      "loss/crossentropy": 2.6216281414031983,
      "loss/logits": 0.8397267490625382,
      "step": 32860
    },
    {
      "epoch": 0.3287,
      "grad_norm": 12.5,
      "grad_norm_var": 0.36404622395833336,
      "learning_rate": 0.0003,
      "loss": 11.4758,
      "loss/aux_loss": 0.048077932186424734,
      "loss/crossentropy": 2.8529594242572784,
      "loss/logits": 0.9037439674139023,
      "step": 32870
    },
    {
      "epoch": 0.3288,
      "grad_norm": 12.5,
      "grad_norm_var": 0.39088541666666665,
      "learning_rate": 0.0003,
      "loss": 11.2377,
      "loss/aux_loss": 0.04808652587234974,
      "loss/crossentropy": 2.665499210357666,
      "loss/logits": 0.8454530268907547,
      "step": 32880
    },
    {
      "epoch": 0.3289,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.3072265625,
      "learning_rate": 0.0003,
      "loss": 11.3039,
      "loss/aux_loss": 0.04807148966938257,
      "loss/crossentropy": 2.602234035730362,
      "loss/logits": 0.8243951052427292,
      "step": 32890
    },
    {
      "epoch": 0.329,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.2581868489583333,
      "learning_rate": 0.0003,
      "loss": 11.2624,
      "loss/aux_loss": 0.04808493070304394,
      "loss/crossentropy": 2.7614921808242796,
      "loss/logits": 0.8612099617719651,
      "step": 32900
    },
    {
      "epoch": 0.3291,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5416666666666666,
      "learning_rate": 0.0003,
      "loss": 11.3729,
      "loss/aux_loss": 0.04808545112609863,
      "loss/crossentropy": 2.7853208422660827,
      "loss/logits": 0.8972157269716263,
      "step": 32910
    },
    {
      "epoch": 0.3292,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.808837890625,
      "learning_rate": 0.0003,
      "loss": 11.4716,
      "loss/aux_loss": 0.04807188231498003,
      "loss/crossentropy": 2.709330898523331,
      "loss/logits": 0.8775971084833145,
      "step": 32920
    },
    {
      "epoch": 0.3293,
      "grad_norm": 12.5,
      "grad_norm_var": 0.28411458333333334,
      "learning_rate": 0.0003,
      "loss": 11.3775,
      "loss/aux_loss": 0.04807582814246416,
      "loss/crossentropy": 2.63877277970314,
      "loss/logits": 0.8797126650810242,
      "step": 32930
    },
    {
      "epoch": 0.3294,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.2796875,
      "learning_rate": 0.0003,
      "loss": 11.3529,
      "loss/aux_loss": 0.04808872751891613,
      "loss/crossentropy": 2.681774044036865,
      "loss/logits": 0.862132015824318,
      "step": 32940
    },
    {
      "epoch": 0.3295,
      "grad_norm": 13.625,
      "grad_norm_var": 136.1453125,
      "learning_rate": 0.0003,
      "loss": 11.4708,
      "loss/aux_loss": 0.04807477127760649,
      "loss/crossentropy": 2.7079889833927155,
      "loss/logits": 0.8643805146217346,
      "step": 32950
    },
    {
      "epoch": 0.3296,
      "grad_norm": 14.5,
      "grad_norm_var": 133.14055989583332,
      "learning_rate": 0.0003,
      "loss": 11.4029,
      "loss/aux_loss": 0.04808342196047306,
      "loss/crossentropy": 2.7009809732437136,
      "loss/logits": 0.8897195219993591,
      "step": 32960
    },
    {
      "epoch": 0.3297,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.55703125,
      "learning_rate": 0.0003,
      "loss": 11.4977,
      "loss/aux_loss": 0.04807784240692854,
      "loss/crossentropy": 2.888811504840851,
      "loss/logits": 0.9022614181041717,
      "step": 32970
    },
    {
      "epoch": 0.3298,
      "grad_norm": 13.25,
      "grad_norm_var": 0.7114420572916667,
      "learning_rate": 0.0003,
      "loss": 11.4451,
      "loss/aux_loss": 0.04807289652526379,
      "loss/crossentropy": 2.7488197565078734,
      "loss/logits": 0.8802861243486404,
      "step": 32980
    },
    {
      "epoch": 0.3299,
      "grad_norm": 14.875,
      "grad_norm_var": 1.1337890625,
      "learning_rate": 0.0003,
      "loss": 11.5285,
      "loss/aux_loss": 0.048081624880433084,
      "loss/crossentropy": 2.7710135102272035,
      "loss/logits": 0.8831702828407287,
      "step": 32990
    },
    {
      "epoch": 0.33,
      "grad_norm": 14.0,
      "grad_norm_var": 0.39334309895833336,
      "learning_rate": 0.0003,
      "loss": 11.5182,
      "loss/aux_loss": 0.048084603250026704,
      "loss/crossentropy": 2.920530825853348,
      "loss/logits": 0.8848973125219345,
      "step": 33000
    },
    {
      "epoch": 0.3301,
      "grad_norm": 14.125,
      "grad_norm_var": 0.30911458333333336,
      "learning_rate": 0.0003,
      "loss": 11.2578,
      "loss/aux_loss": 0.04807808380573988,
      "loss/crossentropy": 2.7349561214447022,
      "loss/logits": 0.8306137710809708,
      "step": 33010
    },
    {
      "epoch": 0.3302,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.21013997395833334,
      "learning_rate": 0.0003,
      "loss": 11.3987,
      "loss/aux_loss": 0.04808585941791534,
      "loss/crossentropy": 2.7925686955451967,
      "loss/logits": 0.8563876241445542,
      "step": 33020
    },
    {
      "epoch": 0.3303,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.4200520833333333,
      "learning_rate": 0.0003,
      "loss": 11.4525,
      "loss/aux_loss": 0.048077084310352805,
      "loss/crossentropy": 2.829834222793579,
      "loss/logits": 0.8569678455591202,
      "step": 33030
    },
    {
      "epoch": 0.3304,
      "grad_norm": 13.0625,
      "grad_norm_var": 2.3742024739583334,
      "learning_rate": 0.0003,
      "loss": 11.4428,
      "loss/aux_loss": 0.04808685947209597,
      "loss/crossentropy": 2.6605750918388367,
      "loss/logits": 0.8512579023838043,
      "step": 33040
    },
    {
      "epoch": 0.3305,
      "grad_norm": 13.25,
      "grad_norm_var": 2.8878743489583334,
      "learning_rate": 0.0003,
      "loss": 11.4905,
      "loss/aux_loss": 0.04808191433548927,
      "loss/crossentropy": 2.821686065196991,
      "loss/logits": 0.8521415889263153,
      "step": 33050
    },
    {
      "epoch": 0.3306,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.6442545572916667,
      "learning_rate": 0.0003,
      "loss": 11.448,
      "loss/aux_loss": 0.048077190294861794,
      "loss/crossentropy": 2.784515953063965,
      "loss/logits": 0.8502372175455093,
      "step": 33060
    },
    {
      "epoch": 0.3307,
      "grad_norm": 14.625,
      "grad_norm_var": 1.2645182291666666,
      "learning_rate": 0.0003,
      "loss": 11.298,
      "loss/aux_loss": 0.04808208737522364,
      "loss/crossentropy": 2.7311050057411195,
      "loss/logits": 0.8578761130571365,
      "step": 33070
    },
    {
      "epoch": 0.3308,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.60703125,
      "learning_rate": 0.0003,
      "loss": 11.5828,
      "loss/aux_loss": 0.0480745630338788,
      "loss/crossentropy": 2.7229528069496154,
      "loss/logits": 0.8834622859954834,
      "step": 33080
    },
    {
      "epoch": 0.3309,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.2822265625,
      "learning_rate": 0.0003,
      "loss": 11.3736,
      "loss/aux_loss": 0.048079187795519826,
      "loss/crossentropy": 2.596200668811798,
      "loss/logits": 0.8260492444038391,
      "step": 33090
    },
    {
      "epoch": 0.331,
      "grad_norm": 13.25,
      "grad_norm_var": 0.3492024739583333,
      "learning_rate": 0.0003,
      "loss": 11.4958,
      "loss/aux_loss": 0.04808150306344032,
      "loss/crossentropy": 2.6033548295497893,
      "loss/logits": 0.8426315069198609,
      "step": 33100
    },
    {
      "epoch": 0.3311,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.43019205729166665,
      "learning_rate": 0.0003,
      "loss": 11.1088,
      "loss/aux_loss": 0.048071819357573986,
      "loss/crossentropy": 2.667391049861908,
      "loss/logits": 0.8707249313592911,
      "step": 33110
    },
    {
      "epoch": 0.3312,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5379557291666667,
      "learning_rate": 0.0003,
      "loss": 11.4546,
      "loss/aux_loss": 0.04808641467243433,
      "loss/crossentropy": 2.759235656261444,
      "loss/logits": 0.8834040969610214,
      "step": 33120
    },
    {
      "epoch": 0.3313,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4339680989583333,
      "learning_rate": 0.0003,
      "loss": 11.4916,
      "loss/aux_loss": 0.04807813689112663,
      "loss/crossentropy": 2.7543640404939653,
      "loss/logits": 0.8365322396159172,
      "step": 33130
    },
    {
      "epoch": 0.3314,
      "grad_norm": 14.125,
      "grad_norm_var": 15.084488932291666,
      "learning_rate": 0.0003,
      "loss": 11.4041,
      "loss/aux_loss": 0.048085601069033146,
      "loss/crossentropy": 2.870689940452576,
      "loss/logits": 0.850860208272934,
      "step": 33140
    },
    {
      "epoch": 0.3315,
      "grad_norm": 13.5,
      "grad_norm_var": 15.106705729166666,
      "learning_rate": 0.0003,
      "loss": 11.2983,
      "loss/aux_loss": 0.04808761551976204,
      "loss/crossentropy": 2.716045266389847,
      "loss/logits": 0.8434042870998383,
      "step": 33150
    },
    {
      "epoch": 0.3316,
      "grad_norm": 14.125,
      "grad_norm_var": 0.5707682291666667,
      "learning_rate": 0.0003,
      "loss": 11.5516,
      "loss/aux_loss": 0.04807737655937672,
      "loss/crossentropy": 2.8646560847759246,
      "loss/logits": 0.8435910433530808,
      "step": 33160
    },
    {
      "epoch": 0.3317,
      "grad_norm": 13.4375,
      "grad_norm_var": 1.0468098958333334,
      "learning_rate": 0.0003,
      "loss": 11.2852,
      "loss/aux_loss": 0.04808404687792063,
      "loss/crossentropy": 2.6018213868141173,
      "loss/logits": 0.8262585073709487,
      "step": 33170
    },
    {
      "epoch": 0.3318,
      "grad_norm": 12.75,
      "grad_norm_var": 0.6083333333333333,
      "learning_rate": 0.0003,
      "loss": 11.3755,
      "loss/aux_loss": 0.04808040447533131,
      "loss/crossentropy": 2.752035117149353,
      "loss/logits": 0.8619087725877762,
      "step": 33180
    },
    {
      "epoch": 0.3319,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.5118326822916667,
      "learning_rate": 0.0003,
      "loss": 11.3865,
      "loss/aux_loss": 0.048074712976813316,
      "loss/crossentropy": 2.859244775772095,
      "loss/logits": 0.8745595574378967,
      "step": 33190
    },
    {
      "epoch": 0.332,
      "grad_norm": 14.125,
      "grad_norm_var": 0.625244140625,
      "learning_rate": 0.0003,
      "loss": 11.3773,
      "loss/aux_loss": 0.04807355534285307,
      "loss/crossentropy": 2.8394315361976625,
      "loss/logits": 0.8535150647163391,
      "step": 33200
    },
    {
      "epoch": 0.3321,
      "grad_norm": 14.5,
      "grad_norm_var": 0.6541015625,
      "learning_rate": 0.0003,
      "loss": 11.3814,
      "loss/aux_loss": 0.04808756597340107,
      "loss/crossentropy": 2.8331064164638518,
      "loss/logits": 0.8748747378587722,
      "step": 33210
    },
    {
      "epoch": 0.3322,
      "grad_norm": 14.8125,
      "grad_norm_var": 1.4541015625,
      "learning_rate": 0.0003,
      "loss": 11.6009,
      "loss/aux_loss": 0.048076229728758337,
      "loss/crossentropy": 2.8229152381420137,
      "loss/logits": 0.8776537507772446,
      "step": 33220
    },
    {
      "epoch": 0.3323,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.5733723958333333,
      "learning_rate": 0.0003,
      "loss": 11.453,
      "loss/aux_loss": 0.04807769935578108,
      "loss/crossentropy": 2.744255816936493,
      "loss/logits": 0.8375910878181457,
      "step": 33230
    },
    {
      "epoch": 0.3324,
      "grad_norm": 15.25,
      "grad_norm_var": 1.1174479166666667,
      "learning_rate": 0.0003,
      "loss": 11.5114,
      "loss/aux_loss": 0.048086580075323584,
      "loss/crossentropy": 2.7748912930488587,
      "loss/logits": 0.8750550776720047,
      "step": 33240
    },
    {
      "epoch": 0.3325,
      "grad_norm": 12.75,
      "grad_norm_var": 1.4270182291666667,
      "learning_rate": 0.0003,
      "loss": 11.4482,
      "loss/aux_loss": 0.04807029981166124,
      "loss/crossentropy": 2.785758376121521,
      "loss/logits": 0.8546015530824661,
      "step": 33250
    },
    {
      "epoch": 0.3326,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.21302083333333333,
      "learning_rate": 0.0003,
      "loss": 11.4774,
      "loss/aux_loss": 0.048079310730099675,
      "loss/crossentropy": 2.7421350955963133,
      "loss/logits": 0.858822014927864,
      "step": 33260
    },
    {
      "epoch": 0.3327,
      "grad_norm": 13.625,
      "grad_norm_var": 0.18229166666666666,
      "learning_rate": 0.0003,
      "loss": 11.3066,
      "loss/aux_loss": 0.04808879122138023,
      "loss/crossentropy": 2.7908874809741975,
      "loss/logits": 0.877889646589756,
      "step": 33270
    },
    {
      "epoch": 0.3328,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5369791666666667,
      "learning_rate": 0.0003,
      "loss": 11.4317,
      "loss/aux_loss": 0.048072985000908376,
      "loss/crossentropy": 2.6791608691215516,
      "loss/logits": 0.8541211634874344,
      "step": 33280
    },
    {
      "epoch": 0.3329,
      "grad_norm": 56.0,
      "grad_norm_var": 114.448681640625,
      "learning_rate": 0.0003,
      "loss": 11.4201,
      "loss/aux_loss": 0.0480899965390563,
      "loss/crossentropy": 2.7793687105178835,
      "loss/logits": 0.8533193141222,
      "step": 33290
    },
    {
      "epoch": 0.333,
      "grad_norm": 13.375,
      "grad_norm_var": 113.77381184895833,
      "learning_rate": 0.0003,
      "loss": 11.5771,
      "loss/aux_loss": 0.04808140806853771,
      "loss/crossentropy": 2.759211188554764,
      "loss/logits": 0.847288829088211,
      "step": 33300
    },
    {
      "epoch": 0.3331,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.36139322916666666,
      "learning_rate": 0.0003,
      "loss": 11.5233,
      "loss/aux_loss": 0.04808169547468424,
      "loss/crossentropy": 2.6220255315303804,
      "loss/logits": 0.8704487830400467,
      "step": 33310
    },
    {
      "epoch": 0.3332,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.392431640625,
      "learning_rate": 0.0003,
      "loss": 11.3581,
      "loss/aux_loss": 0.0480834748595953,
      "loss/crossentropy": 2.7258807718753815,
      "loss/logits": 0.8605304449796677,
      "step": 33320
    },
    {
      "epoch": 0.3333,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.46990559895833334,
      "learning_rate": 0.0003,
      "loss": 11.3325,
      "loss/aux_loss": 0.048091739602386954,
      "loss/crossentropy": 2.7206650257110594,
      "loss/logits": 0.8408534616231919,
      "step": 33330
    },
    {
      "epoch": 0.3334,
      "grad_norm": 13.5,
      "grad_norm_var": 0.253759765625,
      "learning_rate": 0.0003,
      "loss": 11.4986,
      "loss/aux_loss": 0.04806930366903543,
      "loss/crossentropy": 2.7812957525253297,
      "loss/logits": 0.855445483326912,
      "step": 33340
    },
    {
      "epoch": 0.3335,
      "grad_norm": 13.625,
      "grad_norm_var": 0.506494140625,
      "learning_rate": 0.0003,
      "loss": 11.4043,
      "loss/aux_loss": 0.04807830974459648,
      "loss/crossentropy": 2.7645578622817992,
      "loss/logits": 0.8752608805894851,
      "step": 33350
    },
    {
      "epoch": 0.3336,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.8958333333333334,
      "learning_rate": 0.0003,
      "loss": 11.386,
      "loss/aux_loss": 0.04809688944369554,
      "loss/crossentropy": 2.757777750492096,
      "loss/logits": 0.8512715846300125,
      "step": 33360
    },
    {
      "epoch": 0.3337,
      "grad_norm": 15.5,
      "grad_norm_var": 0.689306640625,
      "learning_rate": 0.0003,
      "loss": 11.4614,
      "loss/aux_loss": 0.048079153336584565,
      "loss/crossentropy": 2.7252914190292357,
      "loss/logits": 0.8573682248592377,
      "step": 33370
    },
    {
      "epoch": 0.3338,
      "grad_norm": 13.625,
      "grad_norm_var": 1085.8733723958333,
      "learning_rate": 0.0003,
      "loss": 11.4558,
      "loss/aux_loss": 0.04808936920017004,
      "loss/crossentropy": 2.648952716588974,
      "loss/logits": 0.8360880434513092,
      "step": 33380
    },
    {
      "epoch": 0.3339,
      "grad_norm": 14.0,
      "grad_norm_var": 1096.3770182291667,
      "learning_rate": 0.0003,
      "loss": 11.2424,
      "loss/aux_loss": 0.04808183200657368,
      "loss/crossentropy": 2.7101231694221495,
      "loss/logits": 0.8388356804847718,
      "step": 33390
    },
    {
      "epoch": 0.334,
      "grad_norm": 14.0,
      "grad_norm_var": 46.952457682291666,
      "learning_rate": 0.0003,
      "loss": 11.4011,
      "loss/aux_loss": 0.048093979991972444,
      "loss/crossentropy": 2.7197480618953707,
      "loss/logits": 0.8777379095554352,
      "step": 33400
    },
    {
      "epoch": 0.3341,
      "grad_norm": 12.75,
      "grad_norm_var": 0.5402180989583333,
      "learning_rate": 0.0003,
      "loss": 11.3751,
      "loss/aux_loss": 0.04807923678308725,
      "loss/crossentropy": 2.874398422241211,
      "loss/logits": 0.908473339676857,
      "step": 33410
    },
    {
      "epoch": 0.3342,
      "grad_norm": 14.75,
      "grad_norm_var": 0.653759765625,
      "learning_rate": 0.0003,
      "loss": 11.3637,
      "loss/aux_loss": 0.04807525873184204,
      "loss/crossentropy": 2.8315866231918334,
      "loss/logits": 0.8731096774339676,
      "step": 33420
    },
    {
      "epoch": 0.3343,
      "grad_norm": 13.0,
      "grad_norm_var": 0.6478515625,
      "learning_rate": 0.0003,
      "loss": 11.4268,
      "loss/aux_loss": 0.04808218479156494,
      "loss/crossentropy": 2.957446539402008,
      "loss/logits": 0.869893753528595,
      "step": 33430
    },
    {
      "epoch": 0.3344,
      "grad_norm": 12.5,
      "grad_norm_var": 0.5835774739583334,
      "learning_rate": 0.0003,
      "loss": 11.4248,
      "loss/aux_loss": 0.04807921797037125,
      "loss/crossentropy": 2.8220800697803496,
      "loss/logits": 0.8761366009712219,
      "step": 33440
    },
    {
      "epoch": 0.3345,
      "grad_norm": 15.75,
      "grad_norm_var": 0.9004557291666667,
      "learning_rate": 0.0003,
      "loss": 11.4527,
      "loss/aux_loss": 0.04809036403894425,
      "loss/crossentropy": 2.7487100541591643,
      "loss/logits": 0.863110476732254,
      "step": 33450
    },
    {
      "epoch": 0.3346,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.5707682291666667,
      "learning_rate": 0.0003,
      "loss": 11.388,
      "loss/aux_loss": 0.04808029551059008,
      "loss/crossentropy": 2.7007455945014955,
      "loss/logits": 0.8433271735906601,
      "step": 33460
    },
    {
      "epoch": 0.3347,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.30911458333333336,
      "learning_rate": 0.0003,
      "loss": 11.2174,
      "loss/aux_loss": 0.04807520732283592,
      "loss/crossentropy": 2.7608300507068635,
      "loss/logits": 0.8681216955184936,
      "step": 33470
    },
    {
      "epoch": 0.3348,
      "grad_norm": 51.25,
      "grad_norm_var": 86.63619791666666,
      "learning_rate": 0.0003,
      "loss": 11.4039,
      "loss/aux_loss": 0.0480832202360034,
      "loss/crossentropy": 2.7710861444473265,
      "loss/logits": 0.8367562472820282,
      "step": 33480
    },
    {
      "epoch": 0.3349,
      "grad_norm": 12.25,
      "grad_norm_var": 88.547119140625,
      "learning_rate": 0.0003,
      "loss": 11.3695,
      "loss/aux_loss": 0.04809240307658911,
      "loss/crossentropy": 2.803847813606262,
      "loss/logits": 0.862313050031662,
      "step": 33490
    },
    {
      "epoch": 0.335,
      "grad_norm": 12.875,
      "grad_norm_var": 0.628369140625,
      "learning_rate": 0.0003,
      "loss": 11.3663,
      "loss/aux_loss": 0.04807665664702654,
      "loss/crossentropy": 2.6767329633235932,
      "loss/logits": 0.8725397795438766,
      "step": 33500
    },
    {
      "epoch": 0.3351,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.30130208333333336,
      "learning_rate": 0.0003,
      "loss": 11.5062,
      "loss/aux_loss": 0.04808883797377348,
      "loss/crossentropy": 2.7930223047733307,
      "loss/logits": 0.9104775667190552,
      "step": 33510
    },
    {
      "epoch": 0.3352,
      "grad_norm": 13.5,
      "grad_norm_var": 0.264697265625,
      "learning_rate": 0.0003,
      "loss": 11.3642,
      "loss/aux_loss": 0.04807222187519074,
      "loss/crossentropy": 2.809762644767761,
      "loss/logits": 0.858039128780365,
      "step": 33520
    },
    {
      "epoch": 0.3353,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.15755208333333334,
      "learning_rate": 0.0003,
      "loss": 11.3144,
      "loss/aux_loss": 0.04808267746120691,
      "loss/crossentropy": 2.903217875957489,
      "loss/logits": 0.8900675117969513,
      "step": 33530
    },
    {
      "epoch": 0.3354,
      "grad_norm": 13.375,
      "grad_norm_var": 0.2572265625,
      "learning_rate": 0.0003,
      "loss": 11.4675,
      "loss/aux_loss": 0.048075296357274054,
      "loss/crossentropy": 2.8689566016197205,
      "loss/logits": 0.8549737244844436,
      "step": 33540
    },
    {
      "epoch": 0.3355,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.5383951822916667,
      "learning_rate": 0.0003,
      "loss": 11.259,
      "loss/aux_loss": 0.04808174092322588,
      "loss/crossentropy": 2.632620471715927,
      "loss/logits": 0.8442192494869232,
      "step": 33550
    },
    {
      "epoch": 0.3356,
      "grad_norm": 13.5,
      "grad_norm_var": 0.679150390625,
      "learning_rate": 0.0003,
      "loss": 11.506,
      "loss/aux_loss": 0.048078482039272785,
      "loss/crossentropy": 2.8332688093185423,
      "loss/logits": 0.8708831310272217,
      "step": 33560
    },
    {
      "epoch": 0.3357,
      "grad_norm": 13.75,
      "grad_norm_var": 0.7718098958333334,
      "learning_rate": 0.0003,
      "loss": 11.5518,
      "loss/aux_loss": 0.048078897222876546,
      "loss/crossentropy": 2.7509835004806518,
      "loss/logits": 0.8593619883060455,
      "step": 33570
    },
    {
      "epoch": 0.3358,
      "grad_norm": 14.0,
      "grad_norm_var": 1.4572265625,
      "learning_rate": 0.0003,
      "loss": 11.3659,
      "loss/aux_loss": 0.04807315096259117,
      "loss/crossentropy": 2.7531749844551086,
      "loss/logits": 0.8511229604482651,
      "step": 33580
    },
    {
      "epoch": 0.3359,
      "grad_norm": 12.875,
      "grad_norm_var": 0.23118489583333332,
      "learning_rate": 0.0003,
      "loss": 11.5134,
      "loss/aux_loss": 0.04808947648853064,
      "loss/crossentropy": 2.7343482613563537,
      "loss/logits": 0.8925404042005539,
      "step": 33590
    },
    {
      "epoch": 0.336,
      "grad_norm": 12.75,
      "grad_norm_var": 0.47708333333333336,
      "learning_rate": 0.0003,
      "loss": 11.3391,
      "loss/aux_loss": 0.04807898830622435,
      "loss/crossentropy": 2.814681512117386,
      "loss/logits": 0.8659243017435074,
      "step": 33600
    },
    {
      "epoch": 0.3361,
      "grad_norm": 15.0,
      "grad_norm_var": 0.6880208333333333,
      "learning_rate": 0.0003,
      "loss": 11.575,
      "loss/aux_loss": 0.04807465691119432,
      "loss/crossentropy": 2.740473783016205,
      "loss/logits": 0.8824987977743148,
      "step": 33610
    },
    {
      "epoch": 0.3362,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.4078125,
      "learning_rate": 0.0003,
      "loss": 11.3833,
      "loss/aux_loss": 0.04808358158916235,
      "loss/crossentropy": 2.7260211586952208,
      "loss/logits": 0.8684123188257218,
      "step": 33620
    },
    {
      "epoch": 0.3363,
      "grad_norm": 14.125,
      "grad_norm_var": 0.2,
      "learning_rate": 0.0003,
      "loss": 11.3365,
      "loss/aux_loss": 0.048076849430799484,
      "loss/crossentropy": 2.7123505532741548,
      "loss/logits": 0.8516561061143875,
      "step": 33630
    },
    {
      "epoch": 0.3364,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.17185872395833332,
      "learning_rate": 0.0003,
      "loss": 11.2675,
      "loss/aux_loss": 0.048073905520141125,
      "loss/crossentropy": 2.894002687931061,
      "loss/logits": 0.8935140758752823,
      "step": 33640
    },
    {
      "epoch": 0.3365,
      "grad_norm": 14.0,
      "grad_norm_var": 0.661962890625,
      "learning_rate": 0.0003,
      "loss": 11.4262,
      "loss/aux_loss": 0.04808433558791876,
      "loss/crossentropy": 2.725138372182846,
      "loss/logits": 0.8834821820259094,
      "step": 33650
    },
    {
      "epoch": 0.3366,
      "grad_norm": 13.75,
      "grad_norm_var": 0.515625,
      "learning_rate": 0.0003,
      "loss": 11.3247,
      "loss/aux_loss": 0.048078181222081184,
      "loss/crossentropy": 2.6882384717464447,
      "loss/logits": 0.8374345928430558,
      "step": 33660
    },
    {
      "epoch": 0.3367,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.9149576822916666,
      "learning_rate": 0.0003,
      "loss": 11.3953,
      "loss/aux_loss": 0.048090609908103946,
      "loss/crossentropy": 2.7942125260829926,
      "loss/logits": 0.8645864456892014,
      "step": 33670
    },
    {
      "epoch": 0.3368,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.50625,
      "learning_rate": 0.0003,
      "loss": 11.61,
      "loss/aux_loss": 0.04808273129165173,
      "loss/crossentropy": 2.7299344420433043,
      "loss/logits": 0.8819968163967132,
      "step": 33680
    },
    {
      "epoch": 0.3369,
      "grad_norm": 14.0625,
      "grad_norm_var": 4.205843098958334,
      "learning_rate": 0.0003,
      "loss": 11.5101,
      "loss/aux_loss": 0.048078842274844644,
      "loss/crossentropy": 2.6255062937736513,
      "loss/logits": 0.8747300773859024,
      "step": 33690
    },
    {
      "epoch": 0.337,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.42916666666666664,
      "learning_rate": 0.0003,
      "loss": 11.4736,
      "loss/aux_loss": 0.04807350095361471,
      "loss/crossentropy": 2.7771036982536317,
      "loss/logits": 0.8716427236795425,
      "step": 33700
    },
    {
      "epoch": 0.3371,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4578125,
      "learning_rate": 0.0003,
      "loss": 11.5287,
      "loss/aux_loss": 0.04808547291904688,
      "loss/crossentropy": 2.8936782777309418,
      "loss/logits": 0.8637538403272629,
      "step": 33710
    },
    {
      "epoch": 0.3372,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.39817708333333335,
      "learning_rate": 0.0003,
      "loss": 11.4074,
      "loss/aux_loss": 0.04807719625532627,
      "loss/crossentropy": 2.781727874279022,
      "loss/logits": 0.8768081456422806,
      "step": 33720
    },
    {
      "epoch": 0.3373,
      "grad_norm": 14.0625,
      "grad_norm_var": 6.6869140625,
      "learning_rate": 0.0003,
      "loss": 11.4137,
      "loss/aux_loss": 0.04808393493294716,
      "loss/crossentropy": 2.816925013065338,
      "loss/logits": 0.857237920165062,
      "step": 33730
    },
    {
      "epoch": 0.3374,
      "grad_norm": 12.625,
      "grad_norm_var": 0.618603515625,
      "learning_rate": 0.0003,
      "loss": 11.3942,
      "loss/aux_loss": 0.04807567745447159,
      "loss/crossentropy": 2.733104008436203,
      "loss/logits": 0.8575152397155762,
      "step": 33740
    },
    {
      "epoch": 0.3375,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.35130208333333335,
      "learning_rate": 0.0003,
      "loss": 11.4799,
      "loss/aux_loss": 0.04807877670973539,
      "loss/crossentropy": 2.8148476839065553,
      "loss/logits": 0.8529479697346687,
      "step": 33750
    },
    {
      "epoch": 0.3376,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.7265625,
      "learning_rate": 0.0003,
      "loss": 11.327,
      "loss/aux_loss": 0.0480769969522953,
      "loss/crossentropy": 2.7635378301143647,
      "loss/logits": 0.8825518250465393,
      "step": 33760
    },
    {
      "epoch": 0.3377,
      "grad_norm": 13.125,
      "grad_norm_var": 0.34479166666666666,
      "learning_rate": 0.0003,
      "loss": 11.2382,
      "loss/aux_loss": 0.04808934032917023,
      "loss/crossentropy": 2.5587519288063048,
      "loss/logits": 0.803919005393982,
      "step": 33770
    },
    {
      "epoch": 0.3378,
      "grad_norm": 14.9375,
      "grad_norm_var": 3.247900390625,
      "learning_rate": 0.0003,
      "loss": 11.5012,
      "loss/aux_loss": 0.04807521179318428,
      "loss/crossentropy": 2.668776106834412,
      "loss/logits": 0.8375656992197037,
      "step": 33780
    },
    {
      "epoch": 0.3379,
      "grad_norm": 13.75,
      "grad_norm_var": 3.1749837239583334,
      "learning_rate": 0.0003,
      "loss": 11.2613,
      "loss/aux_loss": 0.04808988273143768,
      "loss/crossentropy": 2.650000900030136,
      "loss/logits": 0.8299892216920852,
      "step": 33790
    },
    {
      "epoch": 0.338,
      "grad_norm": 14.75,
      "grad_norm_var": 7.923030598958333,
      "learning_rate": 0.0003,
      "loss": 11.405,
      "loss/aux_loss": 0.04808232057839632,
      "loss/crossentropy": 2.8221355438232423,
      "loss/logits": 0.8894154459238053,
      "step": 33800
    },
    {
      "epoch": 0.3381,
      "grad_norm": 12.625,
      "grad_norm_var": 0.47980143229166666,
      "learning_rate": 0.0003,
      "loss": 11.503,
      "loss/aux_loss": 0.04806968811899424,
      "loss/crossentropy": 2.8208815813064576,
      "loss/logits": 0.896739274263382,
      "step": 33810
    },
    {
      "epoch": 0.3382,
      "grad_norm": 13.375,
      "grad_norm_var": 0.46087239583333334,
      "learning_rate": 0.0003,
      "loss": 11.3597,
      "loss/aux_loss": 0.048082143254578116,
      "loss/crossentropy": 2.549110287427902,
      "loss/logits": 0.8261379420757293,
      "step": 33820
    },
    {
      "epoch": 0.3383,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.6005208333333333,
      "learning_rate": 0.0003,
      "loss": 11.6718,
      "loss/aux_loss": 0.048074525967240336,
      "loss/crossentropy": 2.8008286237716673,
      "loss/logits": 0.9250722289085388,
      "step": 33830
    },
    {
      "epoch": 0.3384,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.25128580729166666,
      "learning_rate": 0.0003,
      "loss": 11.343,
      "loss/aux_loss": 0.04808689635246992,
      "loss/crossentropy": 2.663837468624115,
      "loss/logits": 0.8424749076366425,
      "step": 33840
    },
    {
      "epoch": 0.3385,
      "grad_norm": 13.75,
      "grad_norm_var": 1.8880208333333333,
      "learning_rate": 0.0003,
      "loss": 11.5091,
      "loss/aux_loss": 0.04809404145926237,
      "loss/crossentropy": 2.8522875905036926,
      "loss/logits": 0.8729503244161606,
      "step": 33850
    },
    {
      "epoch": 0.3386,
      "grad_norm": 16.625,
      "grad_norm_var": 0.809228515625,
      "learning_rate": 0.0003,
      "loss": 11.449,
      "loss/aux_loss": 0.04807314351201057,
      "loss/crossentropy": 2.9294650077819826,
      "loss/logits": 0.8873317569494248,
      "step": 33860
    },
    {
      "epoch": 0.3387,
      "grad_norm": 15.0,
      "grad_norm_var": 1.1075358072916666,
      "learning_rate": 0.0003,
      "loss": 11.4419,
      "loss/aux_loss": 0.048078053072094916,
      "loss/crossentropy": 2.893061339855194,
      "loss/logits": 0.9111079752445221,
      "step": 33870
    },
    {
      "epoch": 0.3388,
      "grad_norm": 14.125,
      "grad_norm_var": 2.179541015625,
      "learning_rate": 0.0003,
      "loss": 11.3273,
      "loss/aux_loss": 0.04808342736214399,
      "loss/crossentropy": 2.602770173549652,
      "loss/logits": 0.81967893242836,
      "step": 33880
    },
    {
      "epoch": 0.3389,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.9304524739583333,
      "learning_rate": 0.0003,
      "loss": 11.321,
      "loss/aux_loss": 0.048087199591100215,
      "loss/crossentropy": 2.5976479768753054,
      "loss/logits": 0.8418799489736557,
      "step": 33890
    },
    {
      "epoch": 0.339,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.8169108072916667,
      "learning_rate": 0.0003,
      "loss": 11.3486,
      "loss/aux_loss": 0.04807840995490551,
      "loss/crossentropy": 2.9478099584579467,
      "loss/logits": 0.8819531232118607,
      "step": 33900
    },
    {
      "epoch": 0.3391,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.41326497395833334,
      "learning_rate": 0.0003,
      "loss": 11.2091,
      "loss/aux_loss": 0.04807400442659855,
      "loss/crossentropy": 2.6751762211322783,
      "loss/logits": 0.8382753849029541,
      "step": 33910
    },
    {
      "epoch": 0.3392,
      "grad_norm": 12.5,
      "grad_norm_var": 0.4864420572916667,
      "learning_rate": 0.0003,
      "loss": 11.3863,
      "loss/aux_loss": 0.048082627542316916,
      "loss/crossentropy": 2.67808051109314,
      "loss/logits": 0.8579610645771026,
      "step": 33920
    },
    {
      "epoch": 0.3393,
      "grad_norm": 13.25,
      "grad_norm_var": 1.636572265625,
      "learning_rate": 0.0003,
      "loss": 11.5376,
      "loss/aux_loss": 0.04807865135371685,
      "loss/crossentropy": 2.8202176868915556,
      "loss/logits": 0.8423859208822251,
      "step": 33930
    },
    {
      "epoch": 0.3394,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.4158854166666667,
      "learning_rate": 0.0003,
      "loss": 11.3614,
      "loss/aux_loss": 0.04808816146105528,
      "loss/crossentropy": 2.5449154317378997,
      "loss/logits": 0.8428879886865616,
      "step": 33940
    },
    {
      "epoch": 0.3395,
      "grad_norm": 13.25,
      "grad_norm_var": 0.5692057291666667,
      "learning_rate": 0.0003,
      "loss": 11.22,
      "loss/aux_loss": 0.04808717239648104,
      "loss/crossentropy": 2.7124799370765684,
      "loss/logits": 0.8479482620954514,
      "step": 33950
    },
    {
      "epoch": 0.3396,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.35833333333333334,
      "learning_rate": 0.0003,
      "loss": 11.4288,
      "loss/aux_loss": 0.04808026142418385,
      "loss/crossentropy": 2.769565761089325,
      "loss/logits": 0.8855602651834488,
      "step": 33960
    },
    {
      "epoch": 0.3397,
      "grad_norm": 12.875,
      "grad_norm_var": 0.22849934895833332,
      "learning_rate": 0.0003,
      "loss": 11.3179,
      "loss/aux_loss": 0.04807202909141779,
      "loss/crossentropy": 2.7668771505355836,
      "loss/logits": 0.8770667523145675,
      "step": 33970
    },
    {
      "epoch": 0.3398,
      "grad_norm": 12.625,
      "grad_norm_var": 0.37303059895833335,
      "learning_rate": 0.0003,
      "loss": 11.3418,
      "loss/aux_loss": 0.04808063618838787,
      "loss/crossentropy": 2.774995541572571,
      "loss/logits": 0.8627175658941268,
      "step": 33980
    },
    {
      "epoch": 0.3399,
      "grad_norm": 12.625,
      "grad_norm_var": 0.19869791666666667,
      "learning_rate": 0.0003,
      "loss": 11.2925,
      "loss/aux_loss": 0.04808147568255663,
      "loss/crossentropy": 2.731263720989227,
      "loss/logits": 0.8523558408021927,
      "step": 33990
    },
    {
      "epoch": 0.34,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.6572916666666667,
      "learning_rate": 0.0003,
      "loss": 11.4506,
      "loss/aux_loss": 0.048083949461579324,
      "loss/crossentropy": 2.6820335149765016,
      "loss/logits": 0.8677924752235413,
      "step": 34000
    },
    {
      "epoch": 0.3401,
      "grad_norm": 14.0,
      "grad_norm_var": 0.484619140625,
      "learning_rate": 0.0003,
      "loss": 11.49,
      "loss/aux_loss": 0.04807724487036467,
      "loss/crossentropy": 2.8576271653175356,
      "loss/logits": 0.886279183626175,
      "step": 34010
    },
    {
      "epoch": 0.3402,
      "grad_norm": 13.125,
      "grad_norm_var": 0.33203125,
      "learning_rate": 0.0003,
      "loss": 11.2666,
      "loss/aux_loss": 0.048078724555671214,
      "loss/crossentropy": 2.695602595806122,
      "loss/logits": 0.8482803136110306,
      "step": 34020
    },
    {
      "epoch": 0.3403,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.272900390625,
      "learning_rate": 0.0003,
      "loss": 11.3761,
      "loss/aux_loss": 0.04807147961109877,
      "loss/crossentropy": 2.681200659275055,
      "loss/logits": 0.8647918730974198,
      "step": 34030
    },
    {
      "epoch": 0.3404,
      "grad_norm": 13.1875,
      "grad_norm_var": 21.075764973958332,
      "learning_rate": 0.0003,
      "loss": 11.387,
      "loss/aux_loss": 0.04808759596198797,
      "loss/crossentropy": 2.7159022450447083,
      "loss/logits": 0.8712036728858947,
      "step": 34040
    },
    {
      "epoch": 0.3405,
      "grad_norm": 13.5625,
      "grad_norm_var": 21.0384765625,
      "learning_rate": 0.0003,
      "loss": 11.5856,
      "loss/aux_loss": 0.048080033622682095,
      "loss/crossentropy": 2.847675824165344,
      "loss/logits": 0.8919312745332718,
      "step": 34050
    },
    {
      "epoch": 0.3406,
      "grad_norm": 13.75,
      "grad_norm_var": 0.22180989583333333,
      "learning_rate": 0.0003,
      "loss": 11.4877,
      "loss/aux_loss": 0.048076984100043775,
      "loss/crossentropy": 2.7297983527183534,
      "loss/logits": 0.8955170571804046,
      "step": 34060
    },
    {
      "epoch": 0.3407,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.26712239583333336,
      "learning_rate": 0.0003,
      "loss": 11.4626,
      "loss/aux_loss": 0.048071731068193915,
      "loss/crossentropy": 2.777487003803253,
      "loss/logits": 0.8421605467796326,
      "step": 34070
    },
    {
      "epoch": 0.3408,
      "grad_norm": 16.75,
      "grad_norm_var": 1.576025390625,
      "learning_rate": 0.0003,
      "loss": 11.5644,
      "loss/aux_loss": 0.048079511150717735,
      "loss/crossentropy": 2.791468983888626,
      "loss/logits": 0.8447980105876922,
      "step": 34080
    },
    {
      "epoch": 0.3409,
      "grad_norm": 14.5625,
      "grad_norm_var": 113.454541015625,
      "learning_rate": 0.0003,
      "loss": 11.3856,
      "loss/aux_loss": 0.04809570461511612,
      "loss/crossentropy": 2.746097815036774,
      "loss/logits": 0.8729157716035842,
      "step": 34090
    },
    {
      "epoch": 0.341,
      "grad_norm": 13.125,
      "grad_norm_var": 114.9181640625,
      "learning_rate": 0.0003,
      "loss": 11.2094,
      "loss/aux_loss": 0.04807548206299543,
      "loss/crossentropy": 2.744466412067413,
      "loss/logits": 0.8620479941368103,
      "step": 34100
    },
    {
      "epoch": 0.3411,
      "grad_norm": 13.375,
      "grad_norm_var": 0.9307291666666667,
      "learning_rate": 0.0003,
      "loss": 11.2762,
      "loss/aux_loss": 0.04807662982493639,
      "loss/crossentropy": 2.7420936226844788,
      "loss/logits": 0.8486543864011764,
      "step": 34110
    },
    {
      "epoch": 0.3412,
      "grad_norm": 14.375,
      "grad_norm_var": 0.5926920572916666,
      "learning_rate": 0.0003,
      "loss": 11.3183,
      "loss/aux_loss": 0.04808496292680502,
      "loss/crossentropy": 2.7532592713832855,
      "loss/logits": 0.8521647185087204,
      "step": 34120
    },
    {
      "epoch": 0.3413,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.19479166666666667,
      "learning_rate": 0.0003,
      "loss": 11.4643,
      "loss/aux_loss": 0.04806942287832498,
      "loss/crossentropy": 2.971810203790665,
      "loss/logits": 0.9140418171882629,
      "step": 34130
    },
    {
      "epoch": 0.3414,
      "grad_norm": 13.5,
      "grad_norm_var": 0.6016764322916667,
      "learning_rate": 0.0003,
      "loss": 11.4657,
      "loss/aux_loss": 0.048084068857133386,
      "loss/crossentropy": 2.714846724271774,
      "loss/logits": 0.8961813569068908,
      "step": 34140
    },
    {
      "epoch": 0.3415,
      "grad_norm": 13.125,
      "grad_norm_var": 0.86015625,
      "learning_rate": 0.0003,
      "loss": 11.4352,
      "loss/aux_loss": 0.048082141764461996,
      "loss/crossentropy": 2.7342415273189546,
      "loss/logits": 0.8455929309129715,
      "step": 34150
    },
    {
      "epoch": 0.3416,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.6512858072916666,
      "learning_rate": 0.0003,
      "loss": 11.2724,
      "loss/aux_loss": 0.048071014508605,
      "loss/crossentropy": 2.6547606706619264,
      "loss/logits": 0.8492685943841934,
      "step": 34160
    },
    {
      "epoch": 0.3417,
      "grad_norm": 14.75,
      "grad_norm_var": 1.117431640625,
      "learning_rate": 0.0003,
      "loss": 11.502,
      "loss/aux_loss": 0.04807817898690701,
      "loss/crossentropy": 2.7856763303279877,
      "loss/logits": 0.8842839747667313,
      "step": 34170
    },
    {
      "epoch": 0.3418,
      "grad_norm": 13.375,
      "grad_norm_var": 0.5221354166666666,
      "learning_rate": 0.0003,
      "loss": 11.3981,
      "loss/aux_loss": 0.04807715006172657,
      "loss/crossentropy": 2.708691877126694,
      "loss/logits": 0.8723496258258819,
      "step": 34180
    },
    {
      "epoch": 0.3419,
      "grad_norm": 13.375,
      "grad_norm_var": 0.45362955729166665,
      "learning_rate": 0.0003,
      "loss": 11.3953,
      "loss/aux_loss": 0.04807659070938826,
      "loss/crossentropy": 2.7593763947486876,
      "loss/logits": 0.8531175792217255,
      "step": 34190
    },
    {
      "epoch": 0.342,
      "grad_norm": 13.875,
      "grad_norm_var": 0.21066080729166667,
      "learning_rate": 0.0003,
      "loss": 11.2668,
      "loss/aux_loss": 0.04807346910238266,
      "loss/crossentropy": 2.825400298833847,
      "loss/logits": 0.8504022687673569,
      "step": 34200
    },
    {
      "epoch": 0.3421,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.6419108072916667,
      "learning_rate": 0.0003,
      "loss": 11.3772,
      "loss/aux_loss": 0.048073016293346885,
      "loss/crossentropy": 2.614541435241699,
      "loss/logits": 0.8537357658147812,
      "step": 34210
    },
    {
      "epoch": 0.3422,
      "grad_norm": 16.75,
      "grad_norm_var": 1.0940104166666667,
      "learning_rate": 0.0003,
      "loss": 11.2334,
      "loss/aux_loss": 0.04808624424040318,
      "loss/crossentropy": 2.588237798213959,
      "loss/logits": 0.8261738806962967,
      "step": 34220
    },
    {
      "epoch": 0.3423,
      "grad_norm": 13.6875,
      "grad_norm_var": 1.0035807291666667,
      "learning_rate": 0.0003,
      "loss": 11.3177,
      "loss/aux_loss": 0.04808156695216894,
      "loss/crossentropy": 2.766414910554886,
      "loss/logits": 0.8738790214061737,
      "step": 34230
    },
    {
      "epoch": 0.3424,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.32024739583333334,
      "learning_rate": 0.0003,
      "loss": 11.1505,
      "loss/aux_loss": 0.04807690214365721,
      "loss/crossentropy": 2.6533170878887176,
      "loss/logits": 0.8381021320819855,
      "step": 34240
    },
    {
      "epoch": 0.3425,
      "grad_norm": 13.125,
      "grad_norm_var": 0.4025390625,
      "learning_rate": 0.0003,
      "loss": 11.3866,
      "loss/aux_loss": 0.048076437786221504,
      "loss/crossentropy": 2.852277064323425,
      "loss/logits": 0.8767792642116546,
      "step": 34250
    },
    {
      "epoch": 0.3426,
      "grad_norm": 12.875,
      "grad_norm_var": 0.3776041666666667,
      "learning_rate": 0.0003,
      "loss": 11.3834,
      "loss/aux_loss": 0.04808211978524923,
      "loss/crossentropy": 2.8015721797943116,
      "loss/logits": 0.8706277936697007,
      "step": 34260
    },
    {
      "epoch": 0.3427,
      "grad_norm": 13.125,
      "grad_norm_var": 2.2030598958333334,
      "learning_rate": 0.0003,
      "loss": 11.3862,
      "loss/aux_loss": 0.048078938759863375,
      "loss/crossentropy": 2.790551495552063,
      "loss/logits": 0.8879824995994567,
      "step": 34270
    },
    {
      "epoch": 0.3428,
      "grad_norm": 13.3125,
      "grad_norm_var": 2.0182291666666665,
      "learning_rate": 0.0003,
      "loss": 11.4202,
      "loss/aux_loss": 0.048073595948517324,
      "loss/crossentropy": 2.634516406059265,
      "loss/logits": 0.8375965476036071,
      "step": 34280
    },
    {
      "epoch": 0.3429,
      "grad_norm": 14.5,
      "grad_norm_var": 0.3700358072916667,
      "learning_rate": 0.0003,
      "loss": 11.1732,
      "loss/aux_loss": 0.048077768087387084,
      "loss/crossentropy": 2.8296406984329225,
      "loss/logits": 0.8416439831256867,
      "step": 34290
    },
    {
      "epoch": 0.343,
      "grad_norm": 14.8125,
      "grad_norm_var": 8.235139973958333,
      "learning_rate": 0.0003,
      "loss": 11.4395,
      "loss/aux_loss": 0.04807805363088846,
      "loss/crossentropy": 2.6985132932662963,
      "loss/logits": 0.8508864104747772,
      "step": 34300
    },
    {
      "epoch": 0.3431,
      "grad_norm": 12.8125,
      "grad_norm_var": 8.224934895833334,
      "learning_rate": 0.0003,
      "loss": 11.3689,
      "loss/aux_loss": 0.04808331541717052,
      "loss/crossentropy": 2.7489245235919952,
      "loss/logits": 0.8492704391479492,
      "step": 34310
    },
    {
      "epoch": 0.3432,
      "grad_norm": 15.5,
      "grad_norm_var": 0.6957682291666667,
      "learning_rate": 0.0003,
      "loss": 11.3776,
      "loss/aux_loss": 0.048074118047952655,
      "loss/crossentropy": 2.6718755304813384,
      "loss/logits": 0.8244736731052399,
      "step": 34320
    },
    {
      "epoch": 0.3433,
      "grad_norm": 14.0,
      "grad_norm_var": 0.699853515625,
      "learning_rate": 0.0003,
      "loss": 11.3257,
      "loss/aux_loss": 0.04808854255825281,
      "loss/crossentropy": 2.5519628286361695,
      "loss/logits": 0.8258508026599884,
      "step": 34330
    },
    {
      "epoch": 0.3434,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.9551920572916667,
      "learning_rate": 0.0003,
      "loss": 11.2696,
      "loss/aux_loss": 0.048077429085969924,
      "loss/crossentropy": 2.7307616233825684,
      "loss/logits": 0.8781674951314926,
      "step": 34340
    },
    {
      "epoch": 0.3435,
      "grad_norm": 12.875,
      "grad_norm_var": 0.2400390625,
      "learning_rate": 0.0003,
      "loss": 11.5434,
      "loss/aux_loss": 0.0480849402025342,
      "loss/crossentropy": 2.7033145487308503,
      "loss/logits": 0.8667132765054703,
      "step": 34350
    },
    {
      "epoch": 0.3436,
      "grad_norm": 13.625,
      "grad_norm_var": 0.24348958333333334,
      "learning_rate": 0.0003,
      "loss": 11.2203,
      "loss/aux_loss": 0.048083757422864436,
      "loss/crossentropy": 2.7016442120075226,
      "loss/logits": 0.8575159192085267,
      "step": 34360
    },
    {
      "epoch": 0.3437,
      "grad_norm": 13.25,
      "grad_norm_var": 0.5801432291666667,
      "learning_rate": 0.0003,
      "loss": 11.4771,
      "loss/aux_loss": 0.04808876011520624,
      "loss/crossentropy": 2.7391174018383024,
      "loss/logits": 0.864966481924057,
      "step": 34370
    },
    {
      "epoch": 0.3438,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.8673014322916667,
      "learning_rate": 0.0003,
      "loss": 11.489,
      "loss/aux_loss": 0.04807764030992985,
      "loss/crossentropy": 2.7683672428131105,
      "loss/logits": 0.8739204913377762,
      "step": 34380
    },
    {
      "epoch": 0.3439,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.6416015625,
      "learning_rate": 0.0003,
      "loss": 11.2858,
      "loss/aux_loss": 0.04807857647538185,
      "loss/crossentropy": 2.7284740686416624,
      "loss/logits": 0.8791959375143051,
      "step": 34390
    },
    {
      "epoch": 0.344,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.7230305989583333,
      "learning_rate": 0.0003,
      "loss": 11.4192,
      "loss/aux_loss": 0.04808525741100311,
      "loss/crossentropy": 2.701452487707138,
      "loss/logits": 0.8486621975898743,
      "step": 34400
    },
    {
      "epoch": 0.3441,
      "grad_norm": 14.0,
      "grad_norm_var": 0.49420572916666666,
      "learning_rate": 0.0003,
      "loss": 11.4331,
      "loss/aux_loss": 0.04808118660002947,
      "loss/crossentropy": 2.7283570528030396,
      "loss/logits": 0.8572055399417877,
      "step": 34410
    },
    {
      "epoch": 0.3442,
      "grad_norm": 15.4375,
      "grad_norm_var": 67.07941080729167,
      "learning_rate": 0.0003,
      "loss": 11.4184,
      "loss/aux_loss": 0.04808388836681843,
      "loss/crossentropy": 2.7710089802742006,
      "loss/logits": 0.9001825273036956,
      "step": 34420
    },
    {
      "epoch": 0.3443,
      "grad_norm": 14.375,
      "grad_norm_var": 66.71573893229167,
      "learning_rate": 0.0003,
      "loss": 11.4897,
      "loss/aux_loss": 0.04807852674275637,
      "loss/crossentropy": 2.9153838396072387,
      "loss/logits": 0.9058898121118546,
      "step": 34430
    },
    {
      "epoch": 0.3444,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.4254557291666667,
      "learning_rate": 0.0003,
      "loss": 11.3548,
      "loss/aux_loss": 0.048092870600521566,
      "loss/crossentropy": 2.798048400878906,
      "loss/logits": 0.8726730048656464,
      "step": 34440
    },
    {
      "epoch": 0.3445,
      "grad_norm": 13.125,
      "grad_norm_var": 2.915478515625,
      "learning_rate": 0.0003,
      "loss": 11.3393,
      "loss/aux_loss": 0.04807271007448435,
      "loss/crossentropy": 2.8184443950653075,
      "loss/logits": 0.8590573251247406,
      "step": 34450
    },
    {
      "epoch": 0.3446,
      "grad_norm": 12.625,
      "grad_norm_var": 2.8291015625,
      "learning_rate": 0.0003,
      "loss": 11.3975,
      "loss/aux_loss": 0.048090783134102824,
      "loss/crossentropy": 2.57768235206604,
      "loss/logits": 0.8573962718248367,
      "step": 34460
    },
    {
      "epoch": 0.3447,
      "grad_norm": 15.3125,
      "grad_norm_var": 3.8590983072916667,
      "learning_rate": 0.0003,
      "loss": 11.4101,
      "loss/aux_loss": 0.0480766186490655,
      "loss/crossentropy": 2.7841560423374174,
      "loss/logits": 0.8446702927350997,
      "step": 34470
    },
    {
      "epoch": 0.3448,
      "grad_norm": 13.9375,
      "grad_norm_var": 497.44138997395834,
      "learning_rate": 0.0003,
      "loss": 11.3165,
      "loss/aux_loss": 0.04808448310941458,
      "loss/crossentropy": 2.6943975150585175,
      "loss/logits": 0.8504249632358551,
      "step": 34480
    },
    {
      "epoch": 0.3449,
      "grad_norm": 13.8125,
      "grad_norm_var": 500.03435872395835,
      "learning_rate": 0.0003,
      "loss": 11.4362,
      "loss/aux_loss": 0.04807149842381477,
      "loss/crossentropy": 2.736327660083771,
      "loss/logits": 0.900990754365921,
      "step": 34490
    },
    {
      "epoch": 0.345,
      "grad_norm": 14.0,
      "grad_norm_var": 0.38357747395833336,
      "learning_rate": 0.0003,
      "loss": 11.5657,
      "loss/aux_loss": 0.04809287562966347,
      "loss/crossentropy": 2.7342132091522218,
      "loss/logits": 0.864747279882431,
      "step": 34500
    },
    {
      "epoch": 0.3451,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5598958333333334,
      "learning_rate": 0.0003,
      "loss": 11.3414,
      "loss/aux_loss": 0.04807418640702963,
      "loss/crossentropy": 2.7356625139713286,
      "loss/logits": 0.8603394240140915,
      "step": 34510
    },
    {
      "epoch": 0.3452,
      "grad_norm": 14.75,
      "grad_norm_var": 15.267643229166667,
      "learning_rate": 0.0003,
      "loss": 11.451,
      "loss/aux_loss": 0.048086957447230814,
      "loss/crossentropy": 2.6491969525814056,
      "loss/logits": 0.8844427525997162,
      "step": 34520
    },
    {
      "epoch": 0.3453,
      "grad_norm": 13.125,
      "grad_norm_var": 16.376546223958332,
      "learning_rate": 0.0003,
      "loss": 11.39,
      "loss/aux_loss": 0.048073998652398586,
      "loss/crossentropy": 2.768836522102356,
      "loss/logits": 0.8581522196531296,
      "step": 34530
    },
    {
      "epoch": 0.3454,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.8609212239583334,
      "learning_rate": 0.0003,
      "loss": 11.3267,
      "loss/aux_loss": 0.04808975532650948,
      "loss/crossentropy": 2.5816560626029967,
      "loss/logits": 0.8240507543087006,
      "step": 34540
    },
    {
      "epoch": 0.3455,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.42967122395833335,
      "learning_rate": 0.0003,
      "loss": 11.3352,
      "loss/aux_loss": 0.048081275261938575,
      "loss/crossentropy": 2.775824022293091,
      "loss/logits": 0.8478355586528779,
      "step": 34550
    },
    {
      "epoch": 0.3456,
      "grad_norm": 52.75,
      "grad_norm_var": 95.89368489583333,
      "learning_rate": 0.0003,
      "loss": 11.4611,
      "loss/aux_loss": 0.04807286318391561,
      "loss/crossentropy": 2.7201479375362396,
      "loss/logits": 0.8709542602300644,
      "step": 34560
    },
    {
      "epoch": 0.3457,
      "grad_norm": 13.5625,
      "grad_norm_var": 94.72369791666667,
      "learning_rate": 0.0003,
      "loss": 11.3639,
      "loss/aux_loss": 0.04808838125318289,
      "loss/crossentropy": 2.6683280885219576,
      "loss/logits": 0.8334614604711532,
      "step": 34570
    },
    {
      "epoch": 0.3458,
      "grad_norm": 13.125,
      "grad_norm_var": 0.28828125,
      "learning_rate": 0.0003,
      "loss": 11.2168,
      "loss/aux_loss": 0.048079443350434306,
      "loss/crossentropy": 2.8578147292137146,
      "loss/logits": 0.851711419224739,
      "step": 34580
    },
    {
      "epoch": 0.3459,
      "grad_norm": 14.0,
      "grad_norm_var": 1.5541015625,
      "learning_rate": 0.0003,
      "loss": 11.5112,
      "loss/aux_loss": 0.048081373795866966,
      "loss/crossentropy": 2.717966139316559,
      "loss/logits": 0.8493025034666062,
      "step": 34590
    },
    {
      "epoch": 0.346,
      "grad_norm": 13.1875,
      "grad_norm_var": 1.81953125,
      "learning_rate": 0.0003,
      "loss": 11.344,
      "loss/aux_loss": 0.04807697702199221,
      "loss/crossentropy": 2.6692949771881103,
      "loss/logits": 0.8717973381280899,
      "step": 34600
    },
    {
      "epoch": 0.3461,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.6989583333333333,
      "learning_rate": 0.0003,
      "loss": 11.3426,
      "loss/aux_loss": 0.048083077929913995,
      "loss/crossentropy": 2.7653361916542054,
      "loss/logits": 0.8600286096334457,
      "step": 34610
    },
    {
      "epoch": 0.3462,
      "grad_norm": 15.5,
      "grad_norm_var": 0.632275390625,
      "learning_rate": 0.0003,
      "loss": 11.5035,
      "loss/aux_loss": 0.04807848259806633,
      "loss/crossentropy": 2.6988938450813293,
      "loss/logits": 0.8438379615545273,
      "step": 34620
    },
    {
      "epoch": 0.3463,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.7317057291666667,
      "learning_rate": 0.0003,
      "loss": 11.3984,
      "loss/aux_loss": 0.048082325235009195,
      "loss/crossentropy": 2.8675466597080232,
      "loss/logits": 0.8446835935115814,
      "step": 34630
    },
    {
      "epoch": 0.3464,
      "grad_norm": 13.625,
      "grad_norm_var": 0.482666015625,
      "learning_rate": 0.0003,
      "loss": 11.5275,
      "loss/aux_loss": 0.04808323420584202,
      "loss/crossentropy": 2.6933222889900206,
      "loss/logits": 0.8721669852733612,
      "step": 34640
    },
    {
      "epoch": 0.3465,
      "grad_norm": 13.6875,
      "grad_norm_var": 4.624983723958334,
      "learning_rate": 0.0003,
      "loss": 11.2929,
      "loss/aux_loss": 0.04808050952851772,
      "loss/crossentropy": 2.932732379436493,
      "loss/logits": 0.8866453051567078,
      "step": 34650
    },
    {
      "epoch": 0.3466,
      "grad_norm": 14.0,
      "grad_norm_var": 4.804801432291667,
      "learning_rate": 0.0003,
      "loss": 11.5469,
      "loss/aux_loss": 0.04808491580188275,
      "loss/crossentropy": 2.6847081184387207,
      "loss/logits": 0.8588018774986267,
      "step": 34660
    },
    {
      "epoch": 0.3467,
      "grad_norm": 12.375,
      "grad_norm_var": 0.226025390625,
      "learning_rate": 0.0003,
      "loss": 11.3049,
      "loss/aux_loss": 0.04807180892676115,
      "loss/crossentropy": 2.8481385111808777,
      "loss/logits": 0.8246441930532455,
      "step": 34670
    },
    {
      "epoch": 0.3468,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.1884765625,
      "learning_rate": 0.0003,
      "loss": 11.4136,
      "loss/aux_loss": 0.04807733632624149,
      "loss/crossentropy": 2.7871821761131286,
      "loss/logits": 0.8697138547897338,
      "step": 34680
    },
    {
      "epoch": 0.3469,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.16243489583333334,
      "learning_rate": 0.0003,
      "loss": 11.2759,
      "loss/aux_loss": 0.04808486551046372,
      "loss/crossentropy": 2.7706130504608155,
      "loss/logits": 0.8613585025072098,
      "step": 34690
    },
    {
      "epoch": 0.347,
      "grad_norm": 13.875,
      "grad_norm_var": 0.6391764322916667,
      "learning_rate": 0.0003,
      "loss": 11.2369,
      "loss/aux_loss": 0.048074539937078956,
      "loss/crossentropy": 2.725221812725067,
      "loss/logits": 0.8312882751226425,
      "step": 34700
    },
    {
      "epoch": 0.3471,
      "grad_norm": 14.75,
      "grad_norm_var": 1.1984375,
      "learning_rate": 0.0003,
      "loss": 11.3719,
      "loss/aux_loss": 0.048076304234564306,
      "loss/crossentropy": 2.8168802559375763,
      "loss/logits": 0.8541012018918991,
      "step": 34710
    },
    {
      "epoch": 0.3472,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.8786295572916667,
      "learning_rate": 0.0003,
      "loss": 11.2599,
      "loss/aux_loss": 0.048082977347075936,
      "loss/crossentropy": 2.701399064064026,
      "loss/logits": 0.8401564180850982,
      "step": 34720
    },
    {
      "epoch": 0.3473,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.941259765625,
      "learning_rate": 0.0003,
      "loss": 11.4601,
      "loss/aux_loss": 0.048081225156784056,
      "loss/crossentropy": 2.8854560017585755,
      "loss/logits": 0.8480129152536392,
      "step": 34730
    },
    {
      "epoch": 0.3474,
      "grad_norm": 14.375,
      "grad_norm_var": 0.24881184895833333,
      "learning_rate": 0.0003,
      "loss": 11.4022,
      "loss/aux_loss": 0.048076600581407544,
      "loss/crossentropy": 2.7241687536239625,
      "loss/logits": 0.8581605464220047,
      "step": 34740
    },
    {
      "epoch": 0.3475,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.37472330729166664,
      "learning_rate": 0.0003,
      "loss": 11.3392,
      "loss/aux_loss": 0.04808560237288475,
      "loss/crossentropy": 2.6501355826854707,
      "loss/logits": 0.843683734536171,
      "step": 34750
    },
    {
      "epoch": 0.3476,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.20792643229166666,
      "learning_rate": 0.0003,
      "loss": 11.4091,
      "loss/aux_loss": 0.04806531127542257,
      "loss/crossentropy": 2.753983849287033,
      "loss/logits": 0.8834265947341919,
      "step": 34760
    },
    {
      "epoch": 0.3477,
      "grad_norm": 14.0,
      "grad_norm_var": 0.3792805989583333,
      "learning_rate": 0.0003,
      "loss": 11.5056,
      "loss/aux_loss": 0.04808344487100839,
      "loss/crossentropy": 2.8421459555625916,
      "loss/logits": 0.9221995055675507,
      "step": 34770
    },
    {
      "epoch": 0.3478,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.41119791666666666,
      "learning_rate": 0.0003,
      "loss": 11.3332,
      "loss/aux_loss": 0.04807017482817173,
      "loss/crossentropy": 2.630517715215683,
      "loss/logits": 0.8022065937519074,
      "step": 34780
    },
    {
      "epoch": 0.3479,
      "grad_norm": 13.25,
      "grad_norm_var": 0.37161458333333336,
      "learning_rate": 0.0003,
      "loss": 11.4773,
      "loss/aux_loss": 0.04808255229145288,
      "loss/crossentropy": 2.7792518377304076,
      "loss/logits": 0.8739649176597595,
      "step": 34790
    },
    {
      "epoch": 0.348,
      "grad_norm": 13.25,
      "grad_norm_var": 0.24998372395833332,
      "learning_rate": 0.0003,
      "loss": 11.2592,
      "loss/aux_loss": 0.048081311769783495,
      "loss/crossentropy": 2.8258360862731933,
      "loss/logits": 0.8601921498775482,
      "step": 34800
    },
    {
      "epoch": 0.3481,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.3882649739583333,
      "learning_rate": 0.0003,
      "loss": 11.2427,
      "loss/aux_loss": 0.048077326826751234,
      "loss/crossentropy": 2.804766833782196,
      "loss/logits": 0.8551715075969696,
      "step": 34810
    },
    {
      "epoch": 0.3482,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.44212239583333335,
      "learning_rate": 0.0003,
      "loss": 11.3048,
      "loss/aux_loss": 0.048078553192317484,
      "loss/crossentropy": 2.6608037412166596,
      "loss/logits": 0.8357015043497086,
      "step": 34820
    },
    {
      "epoch": 0.3483,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.230712890625,
      "learning_rate": 0.0003,
      "loss": 11.3251,
      "loss/aux_loss": 0.04808176066726446,
      "loss/crossentropy": 2.824368530511856,
      "loss/logits": 0.8423573106527329,
      "step": 34830
    },
    {
      "epoch": 0.3484,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.2775390625,
      "learning_rate": 0.0003,
      "loss": 11.5143,
      "loss/aux_loss": 0.04807648658752441,
      "loss/crossentropy": 2.8121955931186675,
      "loss/logits": 0.8731589168310165,
      "step": 34840
    },
    {
      "epoch": 0.3485,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.0973958333333333,
      "learning_rate": 0.0003,
      "loss": 11.3939,
      "loss/aux_loss": 0.04807734619826078,
      "loss/crossentropy": 2.754815798997879,
      "loss/logits": 0.8677790522575378,
      "step": 34850
    },
    {
      "epoch": 0.3486,
      "grad_norm": 13.75,
      "grad_norm_var": 1.135791015625,
      "learning_rate": 0.0003,
      "loss": 11.3472,
      "loss/aux_loss": 0.04807490929961204,
      "loss/crossentropy": 2.728018116950989,
      "loss/logits": 0.8459836810827255,
      "step": 34860
    },
    {
      "epoch": 0.3487,
      "grad_norm": 13.75,
      "grad_norm_var": 0.6589680989583333,
      "learning_rate": 0.0003,
      "loss": 11.2925,
      "loss/aux_loss": 0.0480719706043601,
      "loss/crossentropy": 2.681806039810181,
      "loss/logits": 0.8287836849689484,
      "step": 34870
    },
    {
      "epoch": 0.3488,
      "grad_norm": 12.625,
      "grad_norm_var": 0.313916015625,
      "learning_rate": 0.0003,
      "loss": 11.2936,
      "loss/aux_loss": 0.04808789901435375,
      "loss/crossentropy": 2.5996453762054443,
      "loss/logits": 0.8564824372529983,
      "step": 34880
    },
    {
      "epoch": 0.3489,
      "grad_norm": 13.125,
      "grad_norm_var": 0.4479166666666667,
      "learning_rate": 0.0003,
      "loss": 11.417,
      "loss/aux_loss": 0.04807357657700777,
      "loss/crossentropy": 2.754497063159943,
      "loss/logits": 0.8746155887842179,
      "step": 34890
    },
    {
      "epoch": 0.349,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.4731770833333333,
      "learning_rate": 0.0003,
      "loss": 11.3581,
      "loss/aux_loss": 0.04808343891054392,
      "loss/crossentropy": 2.722722589969635,
      "loss/logits": 0.8574351370334625,
      "step": 34900
    },
    {
      "epoch": 0.3491,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.468994140625,
      "learning_rate": 0.0003,
      "loss": 11.2342,
      "loss/aux_loss": 0.04807738587260246,
      "loss/crossentropy": 2.85051429271698,
      "loss/logits": 0.8694952636957168,
      "step": 34910
    },
    {
      "epoch": 0.3492,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.30935872395833336,
      "learning_rate": 0.0003,
      "loss": 11.2306,
      "loss/aux_loss": 0.04808169659227133,
      "loss/crossentropy": 2.581733113527298,
      "loss/logits": 0.8042867451906204,
      "step": 34920
    },
    {
      "epoch": 0.3493,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.36380208333333336,
      "learning_rate": 0.0003,
      "loss": 11.3718,
      "loss/aux_loss": 0.04807847626507282,
      "loss/crossentropy": 2.7856172263622283,
      "loss/logits": 0.8864524632692337,
      "step": 34930
    },
    {
      "epoch": 0.3494,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.5591145833333333,
      "learning_rate": 0.0003,
      "loss": 11.4262,
      "loss/aux_loss": 0.04807476550340652,
      "loss/crossentropy": 2.842118561267853,
      "loss/logits": 0.8961553603410721,
      "step": 34940
    },
    {
      "epoch": 0.3495,
      "grad_norm": 13.125,
      "grad_norm_var": 0.6594889322916667,
      "learning_rate": 0.0003,
      "loss": 11.2777,
      "loss/aux_loss": 0.04807927329093218,
      "loss/crossentropy": 2.732057309150696,
      "loss/logits": 0.8318034172058105,
      "step": 34950
    },
    {
      "epoch": 0.3496,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.6219889322916666,
      "learning_rate": 0.0003,
      "loss": 11.2521,
      "loss/aux_loss": 0.04807781353592873,
      "loss/crossentropy": 2.712051713466644,
      "loss/logits": 0.8508867889642715,
      "step": 34960
    },
    {
      "epoch": 0.3497,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.6476399739583333,
      "learning_rate": 0.0003,
      "loss": 11.2176,
      "loss/aux_loss": 0.04807377476245165,
      "loss/crossentropy": 2.7046292066574096,
      "loss/logits": 0.8390609532594681,
      "step": 34970
    },
    {
      "epoch": 0.3498,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.25201822916666666,
      "learning_rate": 0.0003,
      "loss": 11.3613,
      "loss/aux_loss": 0.04808987118303776,
      "loss/crossentropy": 2.7671579003334044,
      "loss/logits": 0.8521817743778228,
      "step": 34980
    },
    {
      "epoch": 0.3499,
      "grad_norm": 13.125,
      "grad_norm_var": 0.21834309895833334,
      "learning_rate": 0.0003,
      "loss": 11.2822,
      "loss/aux_loss": 0.048079888336360455,
      "loss/crossentropy": 2.6444417238235474,
      "loss/logits": 0.842853182554245,
      "step": 34990
    },
    {
      "epoch": 0.35,
      "grad_norm": 13.125,
      "grad_norm_var": 0.212353515625,
      "learning_rate": 0.0003,
      "loss": 11.2254,
      "loss/aux_loss": 0.04808303378522396,
      "loss/crossentropy": 2.692433053255081,
      "loss/logits": 0.8417773574590683,
      "step": 35000
    },
    {
      "epoch": 0.3501,
      "grad_norm": 14.0,
      "grad_norm_var": 0.2947265625,
      "learning_rate": 0.0003,
      "loss": 11.4454,
      "loss/aux_loss": 0.04807858187705279,
      "loss/crossentropy": 2.7733002305030823,
      "loss/logits": 0.8693195581436157,
      "step": 35010
    },
    {
      "epoch": 0.3502,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.8526041666666667,
      "learning_rate": 0.0003,
      "loss": 11.3941,
      "loss/aux_loss": 0.04808044396340847,
      "loss/crossentropy": 2.615969657897949,
      "loss/logits": 0.8622830808162689,
      "step": 35020
    },
    {
      "epoch": 0.3503,
      "grad_norm": 12.625,
      "grad_norm_var": 0.931494140625,
      "learning_rate": 0.0003,
      "loss": 11.2957,
      "loss/aux_loss": 0.04807266090065241,
      "loss/crossentropy": 2.801264774799347,
      "loss/logits": 0.8435007154941558,
      "step": 35030
    },
    {
      "epoch": 0.3504,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.484619140625,
      "learning_rate": 0.0003,
      "loss": 11.3,
      "loss/aux_loss": 0.04808126632124186,
      "loss/crossentropy": 2.7451845824718477,
      "loss/logits": 0.867804229259491,
      "step": 35040
    },
    {
      "epoch": 0.3505,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.151806640625,
      "learning_rate": 0.0003,
      "loss": 11.346,
      "loss/aux_loss": 0.04807517919689417,
      "loss/crossentropy": 2.8747010231018066,
      "loss/logits": 0.8618029087781907,
      "step": 35050
    },
    {
      "epoch": 0.3506,
      "grad_norm": 14.0,
      "grad_norm_var": 0.3374837239583333,
      "learning_rate": 0.0003,
      "loss": 11.4672,
      "loss/aux_loss": 0.048079409264028074,
      "loss/crossentropy": 2.8339676380157472,
      "loss/logits": 0.856550145149231,
      "step": 35060
    },
    {
      "epoch": 0.3507,
      "grad_norm": 13.5625,
      "grad_norm_var": 1.504931640625,
      "learning_rate": 0.0003,
      "loss": 11.4003,
      "loss/aux_loss": 0.04808185379952192,
      "loss/crossentropy": 2.8066389322280885,
      "loss/logits": 0.897555747628212,
      "step": 35070
    },
    {
      "epoch": 0.3508,
      "grad_norm": 14.875,
      "grad_norm_var": 0.5884765625,
      "learning_rate": 0.0003,
      "loss": 11.546,
      "loss/aux_loss": 0.04807468615472317,
      "loss/crossentropy": 2.8240845441818236,
      "loss/logits": 0.8684464514255523,
      "step": 35080
    },
    {
      "epoch": 0.3509,
      "grad_norm": 15.9375,
      "grad_norm_var": 5.7009765625,
      "learning_rate": 0.0003,
      "loss": 11.3058,
      "loss/aux_loss": 0.04807514958083629,
      "loss/crossentropy": 2.7188303232192994,
      "loss/logits": 0.8454073309898377,
      "step": 35090
    },
    {
      "epoch": 0.351,
      "grad_norm": 13.625,
      "grad_norm_var": 5.8384765625,
      "learning_rate": 0.0003,
      "loss": 11.3441,
      "loss/aux_loss": 0.04809205364435911,
      "loss/crossentropy": 2.6878881573677065,
      "loss/logits": 0.8072956264019012,
      "step": 35100
    },
    {
      "epoch": 0.3511,
      "grad_norm": 12.1875,
      "grad_norm_var": 1.4634765625,
      "learning_rate": 0.0003,
      "loss": 11.3553,
      "loss/aux_loss": 0.048081132024526595,
      "loss/crossentropy": 2.7471259951591493,
      "loss/logits": 0.871997344493866,
      "step": 35110
    },
    {
      "epoch": 0.3512,
      "grad_norm": 14.625,
      "grad_norm_var": 0.869775390625,
      "learning_rate": 0.0003,
      "loss": 11.4906,
      "loss/aux_loss": 0.04808983094990253,
      "loss/crossentropy": 2.767477738857269,
      "loss/logits": 0.8434695929288865,
      "step": 35120
    },
    {
      "epoch": 0.3513,
      "grad_norm": 13.125,
      "grad_norm_var": 0.463916015625,
      "learning_rate": 0.0003,
      "loss": 11.3584,
      "loss/aux_loss": 0.048065770603716376,
      "loss/crossentropy": 2.678995144367218,
      "loss/logits": 0.8505305916070938,
      "step": 35130
    },
    {
      "epoch": 0.3514,
      "grad_norm": 14.625,
      "grad_norm_var": 0.4921875,
      "learning_rate": 0.0003,
      "loss": 11.253,
      "loss/aux_loss": 0.04808024074882269,
      "loss/crossentropy": 2.7573612451553347,
      "loss/logits": 0.8538782745599747,
      "step": 35140
    },
    {
      "epoch": 0.3515,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.5835774739583334,
      "learning_rate": 0.0003,
      "loss": 11.1857,
      "loss/aux_loss": 0.04808320011943579,
      "loss/crossentropy": 2.6276727855205535,
      "loss/logits": 0.8079499483108521,
      "step": 35150
    },
    {
      "epoch": 0.3516,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.0212890625,
      "learning_rate": 0.0003,
      "loss": 11.4222,
      "loss/aux_loss": 0.0480812968686223,
      "loss/crossentropy": 2.6966384649276733,
      "loss/logits": 0.8357253611087799,
      "step": 35160
    },
    {
      "epoch": 0.3517,
      "grad_norm": 13.0,
      "grad_norm_var": 0.9255045572916667,
      "learning_rate": 0.0003,
      "loss": 11.3839,
      "loss/aux_loss": 0.04808384496718645,
      "loss/crossentropy": 2.7424313902854918,
      "loss/logits": 0.8915427207946778,
      "step": 35170
    },
    {
      "epoch": 0.3518,
      "grad_norm": 14.0625,
      "grad_norm_var": 10.929020182291667,
      "learning_rate": 0.0003,
      "loss": 11.3673,
      "loss/aux_loss": 0.048090758919715884,
      "loss/crossentropy": 2.70193572640419,
      "loss/logits": 0.8317285031080246,
      "step": 35180
    },
    {
      "epoch": 0.3519,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.20338541666666668,
      "learning_rate": 0.0003,
      "loss": 11.3432,
      "loss/aux_loss": 0.048075008764863016,
      "loss/crossentropy": 2.724704682826996,
      "loss/logits": 0.8616194367408753,
      "step": 35190
    },
    {
      "epoch": 0.352,
      "grad_norm": 13.25,
      "grad_norm_var": 0.42706705729166666,
      "learning_rate": 0.0003,
      "loss": 11.3289,
      "loss/aux_loss": 0.04808625653386116,
      "loss/crossentropy": 2.6437718331813813,
      "loss/logits": 0.829070645570755,
      "step": 35200
    },
    {
      "epoch": 0.3521,
      "grad_norm": 14.625,
      "grad_norm_var": 0.65625,
      "learning_rate": 0.0003,
      "loss": 11.3784,
      "loss/aux_loss": 0.04808688312768936,
      "loss/crossentropy": 2.8204615235328676,
      "loss/logits": 0.9107112646102905,
      "step": 35210
    },
    {
      "epoch": 0.3522,
      "grad_norm": 15.0,
      "grad_norm_var": 0.6231770833333333,
      "learning_rate": 0.0003,
      "loss": 11.3746,
      "loss/aux_loss": 0.048073959164321424,
      "loss/crossentropy": 2.9584303498268127,
      "loss/logits": 0.8751641631126403,
      "step": 35220
    },
    {
      "epoch": 0.3523,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.447900390625,
      "learning_rate": 0.0003,
      "loss": 11.3529,
      "loss/aux_loss": 0.048080052994191644,
      "loss/crossentropy": 2.8173577427864074,
      "loss/logits": 0.8873382836580277,
      "step": 35230
    },
    {
      "epoch": 0.3524,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.5597493489583333,
      "learning_rate": 0.0003,
      "loss": 11.543,
      "loss/aux_loss": 0.048076377063989637,
      "loss/crossentropy": 2.825025236606598,
      "loss/logits": 0.8857592105865478,
      "step": 35240
    },
    {
      "epoch": 0.3525,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.6442057291666666,
      "learning_rate": 0.0003,
      "loss": 11.3836,
      "loss/aux_loss": 0.048085327818989755,
      "loss/crossentropy": 2.6969442307949065,
      "loss/logits": 0.8094238936901093,
      "step": 35250
    },
    {
      "epoch": 0.3526,
      "grad_norm": 13.875,
      "grad_norm_var": 0.645556640625,
      "learning_rate": 0.0003,
      "loss": 11.3612,
      "loss/aux_loss": 0.04808722659945488,
      "loss/crossentropy": 2.6123400807380674,
      "loss/logits": 0.8106647431850433,
      "step": 35260
    },
    {
      "epoch": 0.3527,
      "grad_norm": 14.125,
      "grad_norm_var": 55.956624348958336,
      "learning_rate": 0.0003,
      "loss": 11.3009,
      "loss/aux_loss": 0.048074896819889544,
      "loss/crossentropy": 2.810643696784973,
      "loss/logits": 0.8637238830327988,
      "step": 35270
    },
    {
      "epoch": 0.3528,
      "grad_norm": 22.625,
      "grad_norm_var": 68.66764322916667,
      "learning_rate": 0.0003,
      "loss": 11.3654,
      "loss/aux_loss": 0.04808924626559019,
      "loss/crossentropy": 2.6293312191963194,
      "loss/logits": 0.8716479748487472,
      "step": 35280
    },
    {
      "epoch": 0.3529,
      "grad_norm": 13.875,
      "grad_norm_var": 7.793082682291667,
      "learning_rate": 0.0003,
      "loss": 11.2959,
      "loss/aux_loss": 0.04808361511677504,
      "loss/crossentropy": 2.6466811537742614,
      "loss/logits": 0.8509993731975556,
      "step": 35290
    },
    {
      "epoch": 0.353,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.49114583333333334,
      "learning_rate": 0.0003,
      "loss": 11.2404,
      "loss/aux_loss": 0.048073071613907815,
      "loss/crossentropy": 2.7615082263946533,
      "loss/logits": 0.8562895059585571,
      "step": 35300
    },
    {
      "epoch": 0.3531,
      "grad_norm": 13.25,
      "grad_norm_var": 0.2009765625,
      "learning_rate": 0.0003,
      "loss": 11.2599,
      "loss/aux_loss": 0.04808885268867016,
      "loss/crossentropy": 2.7079634070396423,
      "loss/logits": 0.8336867898702621,
      "step": 35310
    },
    {
      "epoch": 0.3532,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.14503580729166668,
      "learning_rate": 0.0003,
      "loss": 11.3066,
      "loss/aux_loss": 0.04807536732405424,
      "loss/crossentropy": 2.9801666378974914,
      "loss/logits": 0.8767634421586991,
      "step": 35320
    },
    {
      "epoch": 0.3533,
      "grad_norm": 12.625,
      "grad_norm_var": 0.30245768229166664,
      "learning_rate": 0.0003,
      "loss": 11.538,
      "loss/aux_loss": 0.048068761453032495,
      "loss/crossentropy": 2.752707290649414,
      "loss/logits": 0.878770825266838,
      "step": 35330
    },
    {
      "epoch": 0.3534,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4618326822916667,
      "learning_rate": 0.0003,
      "loss": 11.3234,
      "loss/aux_loss": 0.04809120837599039,
      "loss/crossentropy": 2.751829779148102,
      "loss/logits": 0.8367206364870071,
      "step": 35340
    },
    {
      "epoch": 0.3535,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.6983723958333333,
      "learning_rate": 0.0003,
      "loss": 11.3473,
      "loss/aux_loss": 0.04807098787277937,
      "loss/crossentropy": 2.903922712802887,
      "loss/logits": 0.885872820019722,
      "step": 35350
    },
    {
      "epoch": 0.3536,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.747900390625,
      "learning_rate": 0.0003,
      "loss": 11.2302,
      "loss/aux_loss": 0.04807676579803229,
      "loss/crossentropy": 2.7807978630065917,
      "loss/logits": 0.8654327929019928,
      "step": 35360
    },
    {
      "epoch": 0.3537,
      "grad_norm": 13.75,
      "grad_norm_var": 0.4561848958333333,
      "learning_rate": 0.0003,
      "loss": 11.4295,
      "loss/aux_loss": 0.04808081611990929,
      "loss/crossentropy": 2.8749902486801147,
      "loss/logits": 0.8648800730705262,
      "step": 35370
    },
    {
      "epoch": 0.3538,
      "grad_norm": 14.3125,
      "grad_norm_var": 10.038997395833333,
      "learning_rate": 0.0003,
      "loss": 11.2158,
      "loss/aux_loss": 0.04807778876274824,
      "loss/crossentropy": 2.7491287708282472,
      "loss/logits": 0.8350054025650024,
      "step": 35380
    },
    {
      "epoch": 0.3539,
      "grad_norm": 13.125,
      "grad_norm_var": 0.4544270833333333,
      "learning_rate": 0.0003,
      "loss": 11.3964,
      "loss/aux_loss": 0.048072314076125625,
      "loss/crossentropy": 2.757090598344803,
      "loss/logits": 0.8464928805828095,
      "step": 35390
    },
    {
      "epoch": 0.354,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.3385416666666667,
      "learning_rate": 0.0003,
      "loss": 11.2412,
      "loss/aux_loss": 0.04808321315795183,
      "loss/crossentropy": 2.7094544529914857,
      "loss/logits": 0.8820542007684707,
      "step": 35400
    },
    {
      "epoch": 0.3541,
      "grad_norm": 15.0625,
      "grad_norm_var": 11.601416015625,
      "learning_rate": 0.0003,
      "loss": 11.3299,
      "loss/aux_loss": 0.04808483738452196,
      "loss/crossentropy": 2.7222808599472046,
      "loss/logits": 0.835541981458664,
      "step": 35410
    },
    {
      "epoch": 0.3542,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.7833333333333333,
      "learning_rate": 0.0003,
      "loss": 11.3284,
      "loss/aux_loss": 0.04806767236441374,
      "loss/crossentropy": 2.756817102432251,
      "loss/logits": 0.8438375443220139,
      "step": 35420
    },
    {
      "epoch": 0.3543,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.32076822916666664,
      "learning_rate": 0.0003,
      "loss": 11.1812,
      "loss/aux_loss": 0.04807917140424252,
      "loss/crossentropy": 2.6759197235107424,
      "loss/logits": 0.809447106719017,
      "step": 35430
    },
    {
      "epoch": 0.3544,
      "grad_norm": 13.625,
      "grad_norm_var": 0.32526041666666666,
      "learning_rate": 0.0003,
      "loss": 11.3935,
      "loss/aux_loss": 0.048069739155471324,
      "loss/crossentropy": 2.920281636714935,
      "loss/logits": 0.8890509903430939,
      "step": 35440
    },
    {
      "epoch": 0.3545,
      "grad_norm": 12.75,
      "grad_norm_var": 0.43748372395833335,
      "learning_rate": 0.0003,
      "loss": 11.2958,
      "loss/aux_loss": 0.048088513500988486,
      "loss/crossentropy": 2.5987202882766725,
      "loss/logits": 0.8323431223630905,
      "step": 35450
    },
    {
      "epoch": 0.3546,
      "grad_norm": 20.0,
      "grad_norm_var": 367.611181640625,
      "learning_rate": 0.0003,
      "loss": 11.345,
      "loss/aux_loss": 0.04808755200356245,
      "loss/crossentropy": 2.6423967361450194,
      "loss/logits": 0.849226924777031,
      "step": 35460
    },
    {
      "epoch": 0.3547,
      "grad_norm": 13.125,
      "grad_norm_var": 2.9330729166666667,
      "learning_rate": 0.0003,
      "loss": 11.3632,
      "loss/aux_loss": 0.04807810019701719,
      "loss/crossentropy": 2.7577707767486572,
      "loss/logits": 0.8662696242332458,
      "step": 35470
    },
    {
      "epoch": 0.3548,
      "grad_norm": 13.875,
      "grad_norm_var": 0.524853515625,
      "learning_rate": 0.0003,
      "loss": 11.4028,
      "loss/aux_loss": 0.048086337931454184,
      "loss/crossentropy": 2.615101230144501,
      "loss/logits": 0.836988553404808,
      "step": 35480
    },
    {
      "epoch": 0.3549,
      "grad_norm": 15.125,
      "grad_norm_var": 1.8457682291666666,
      "learning_rate": 0.0003,
      "loss": 11.2295,
      "loss/aux_loss": 0.04806696325540542,
      "loss/crossentropy": 2.6185821652412415,
      "loss/logits": 0.8607719987630844,
      "step": 35490
    },
    {
      "epoch": 0.355,
      "grad_norm": 14.875,
      "grad_norm_var": 1.1585774739583334,
      "learning_rate": 0.0003,
      "loss": 11.3416,
      "loss/aux_loss": 0.04807763248682022,
      "loss/crossentropy": 2.7731160163879394,
      "loss/logits": 0.8407220751047134,
      "step": 35500
    },
    {
      "epoch": 0.3551,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.5738932291666666,
      "learning_rate": 0.0003,
      "loss": 11.3636,
      "loss/aux_loss": 0.04808692019432783,
      "loss/crossentropy": 2.7722087264060975,
      "loss/logits": 0.8629306703805923,
      "step": 35510
    },
    {
      "epoch": 0.3552,
      "grad_norm": 13.875,
      "grad_norm_var": 0.29322916666666665,
      "learning_rate": 0.0003,
      "loss": 11.4107,
      "loss/aux_loss": 0.04807148296386003,
      "loss/crossentropy": 2.8003060460090636,
      "loss/logits": 0.8875281304121018,
      "step": 35520
    },
    {
      "epoch": 0.3553,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.35323893229166664,
      "learning_rate": 0.0003,
      "loss": 11.4067,
      "loss/aux_loss": 0.04808224029839039,
      "loss/crossentropy": 2.701129513978958,
      "loss/logits": 0.8584021329879761,
      "step": 35530
    },
    {
      "epoch": 0.3554,
      "grad_norm": 13.875,
      "grad_norm_var": 0.42888997395833334,
      "learning_rate": 0.0003,
      "loss": 11.4743,
      "loss/aux_loss": 0.048079540766775605,
      "loss/crossentropy": 2.85890337228775,
      "loss/logits": 0.8821686983108521,
      "step": 35540
    },
    {
      "epoch": 0.3555,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.37473958333333335,
      "learning_rate": 0.0003,
      "loss": 11.3944,
      "loss/aux_loss": 0.04807381983846426,
      "loss/crossentropy": 2.7811784029006956,
      "loss/logits": 0.8604174524545669,
      "step": 35550
    },
    {
      "epoch": 0.3556,
      "grad_norm": 14.125,
      "grad_norm_var": 0.4749348958333333,
      "learning_rate": 0.0003,
      "loss": 11.2323,
      "loss/aux_loss": 0.04808265678584576,
      "loss/crossentropy": 2.76348534822464,
      "loss/logits": 0.8644289672374725,
      "step": 35560
    },
    {
      "epoch": 0.3557,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.3317057291666667,
      "learning_rate": 0.0003,
      "loss": 11.3451,
      "loss/aux_loss": 0.048073519952595234,
      "loss/crossentropy": 2.821522521972656,
      "loss/logits": 0.8591786533594131,
      "step": 35570
    },
    {
      "epoch": 0.3558,
      "grad_norm": 16.875,
      "grad_norm_var": 1.5110514322916666,
      "learning_rate": 0.0003,
      "loss": 11.1857,
      "loss/aux_loss": 0.048086483217775824,
      "loss/crossentropy": 2.685242211818695,
      "loss/logits": 0.807622566819191,
      "step": 35580
    },
    {
      "epoch": 0.3559,
      "grad_norm": 11.8125,
      "grad_norm_var": 2.0515625,
      "learning_rate": 0.0003,
      "loss": 11.3026,
      "loss/aux_loss": 0.04807799514383078,
      "loss/crossentropy": 2.5974143624305723,
      "loss/logits": 0.8406628459692002,
      "step": 35590
    },
    {
      "epoch": 0.356,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5382649739583333,
      "learning_rate": 0.0003,
      "loss": 11.3024,
      "loss/aux_loss": 0.04808833636343479,
      "loss/crossentropy": 2.5895915746688845,
      "loss/logits": 0.8398721873760223,
      "step": 35600
    },
    {
      "epoch": 0.3561,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.4663899739583333,
      "learning_rate": 0.0003,
      "loss": 11.2555,
      "loss/aux_loss": 0.04808176904916763,
      "loss/crossentropy": 2.6462597012519837,
      "loss/logits": 0.8560863435268402,
      "step": 35610
    },
    {
      "epoch": 0.3562,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.3993326822916667,
      "learning_rate": 0.0003,
      "loss": 11.3956,
      "loss/aux_loss": 0.04806818459182978,
      "loss/crossentropy": 2.619718074798584,
      "loss/logits": 0.8831523567438125,
      "step": 35620
    },
    {
      "epoch": 0.3563,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.44733072916666666,
      "learning_rate": 0.0003,
      "loss": 11.4719,
      "loss/aux_loss": 0.04808085449039936,
      "loss/crossentropy": 2.7037489295005797,
      "loss/logits": 0.8706602722406387,
      "step": 35630
    },
    {
      "epoch": 0.3564,
      "grad_norm": 14.25,
      "grad_norm_var": 0.613134765625,
      "learning_rate": 0.0003,
      "loss": 11.3119,
      "loss/aux_loss": 0.04807729236781597,
      "loss/crossentropy": 2.698741543292999,
      "loss/logits": 0.877493503689766,
      "step": 35640
    },
    {
      "epoch": 0.3565,
      "grad_norm": 13.5,
      "grad_norm_var": 0.6702962239583333,
      "learning_rate": 0.0003,
      "loss": 11.2573,
      "loss/aux_loss": 0.04807835165411234,
      "loss/crossentropy": 2.6732171416282653,
      "loss/logits": 0.8277383238077164,
      "step": 35650
    },
    {
      "epoch": 0.3566,
      "grad_norm": 13.125,
      "grad_norm_var": 0.20701497395833332,
      "learning_rate": 0.0003,
      "loss": 11.3619,
      "loss/aux_loss": 0.04807893112301827,
      "loss/crossentropy": 2.7110289692878724,
      "loss/logits": 0.8260849803686142,
      "step": 35660
    },
    {
      "epoch": 0.3567,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.23671875,
      "learning_rate": 0.0003,
      "loss": 11.1931,
      "loss/aux_loss": 0.0480891864746809,
      "loss/crossentropy": 2.6819321513175964,
      "loss/logits": 0.8022189557552337,
      "step": 35670
    },
    {
      "epoch": 0.3568,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.42706705729166666,
      "learning_rate": 0.0003,
      "loss": 11.4875,
      "loss/aux_loss": 0.04807867780327797,
      "loss/crossentropy": 2.8046223700046538,
      "loss/logits": 0.8751489996910096,
      "step": 35680
    },
    {
      "epoch": 0.3569,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.2921223958333333,
      "learning_rate": 0.0003,
      "loss": 11.6221,
      "loss/aux_loss": 0.04808136597275734,
      "loss/crossentropy": 2.7549788117408753,
      "loss/logits": 0.8519262999296189,
      "step": 35690
    },
    {
      "epoch": 0.357,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.12630208333333334,
      "learning_rate": 0.0003,
      "loss": 11.265,
      "loss/aux_loss": 0.04808007068932056,
      "loss/crossentropy": 2.647283446788788,
      "loss/logits": 0.8637819319963456,
      "step": 35700
    },
    {
      "epoch": 0.3571,
      "grad_norm": 12.5625,
      "grad_norm_var": 0.23984375,
      "learning_rate": 0.0003,
      "loss": 11.3778,
      "loss/aux_loss": 0.048076775297522543,
      "loss/crossentropy": 2.6670687079429625,
      "loss/logits": 0.8395314335823059,
      "step": 35710
    },
    {
      "epoch": 0.3572,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.4837890625,
      "learning_rate": 0.0003,
      "loss": 11.3448,
      "loss/aux_loss": 0.0480807974934578,
      "loss/crossentropy": 2.8054326295852663,
      "loss/logits": 0.8705591022968292,
      "step": 35720
    },
    {
      "epoch": 0.3573,
      "grad_norm": 13.125,
      "grad_norm_var": 0.4630208333333333,
      "learning_rate": 0.0003,
      "loss": 11.4336,
      "loss/aux_loss": 0.048079059645533564,
      "loss/crossentropy": 2.64428573846817,
      "loss/logits": 0.8815708011388779,
      "step": 35730
    },
    {
      "epoch": 0.3574,
      "grad_norm": 14.125,
      "grad_norm_var": 0.5306640625,
      "learning_rate": 0.0003,
      "loss": 11.3834,
      "loss/aux_loss": 0.048077475652098654,
      "loss/crossentropy": 2.6877181112766264,
      "loss/logits": 0.8534661501646041,
      "step": 35740
    },
    {
      "epoch": 0.3575,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.5773274739583333,
      "learning_rate": 0.0003,
      "loss": 11.1881,
      "loss/aux_loss": 0.04806953519582748,
      "loss/crossentropy": 2.6530270755290983,
      "loss/logits": 0.8448708355426788,
      "step": 35750
    },
    {
      "epoch": 0.3576,
      "grad_norm": 14.5,
      "grad_norm_var": 0.7054524739583333,
      "learning_rate": 0.0003,
      "loss": 11.1465,
      "loss/aux_loss": 0.048080852068960664,
      "loss/crossentropy": 2.6025227308273315,
      "loss/logits": 0.8209551721811295,
      "step": 35760
    },
    {
      "epoch": 0.3577,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.5111979166666667,
      "learning_rate": 0.0003,
      "loss": 11.354,
      "loss/aux_loss": 0.04807685352861881,
      "loss/crossentropy": 2.7108654737472535,
      "loss/logits": 0.8405659079551697,
      "step": 35770
    },
    {
      "epoch": 0.3578,
      "grad_norm": 14.0,
      "grad_norm_var": 0.7598795572916667,
      "learning_rate": 0.0003,
      "loss": 11.3892,
      "loss/aux_loss": 0.048074676841497424,
      "loss/crossentropy": 2.8448933243751524,
      "loss/logits": 0.8365987449884414,
      "step": 35780
    },
    {
      "epoch": 0.3579,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.4903645833333333,
      "learning_rate": 0.0003,
      "loss": 11.2817,
      "loss/aux_loss": 0.04807745218276978,
      "loss/crossentropy": 2.8002660870552063,
      "loss/logits": 0.8614138662815094,
      "step": 35790
    },
    {
      "epoch": 0.358,
      "grad_norm": 12.75,
      "grad_norm_var": 0.8332682291666667,
      "learning_rate": 0.0003,
      "loss": 11.3633,
      "loss/aux_loss": 0.048078560084104535,
      "loss/crossentropy": 2.7766624689102173,
      "loss/logits": 0.8491496801376343,
      "step": 35800
    },
    {
      "epoch": 0.3581,
      "grad_norm": 13.375,
      "grad_norm_var": 3.879541015625,
      "learning_rate": 0.0003,
      "loss": 11.3036,
      "loss/aux_loss": 0.04808343965560198,
      "loss/crossentropy": 2.7654669165611265,
      "loss/logits": 0.8556907385587692,
      "step": 35810
    },
    {
      "epoch": 0.3582,
      "grad_norm": 13.375,
      "grad_norm_var": 0.29099934895833335,
      "learning_rate": 0.0003,
      "loss": 11.3808,
      "loss/aux_loss": 0.04808389656245708,
      "loss/crossentropy": 2.712459546327591,
      "loss/logits": 0.854012405872345,
      "step": 35820
    },
    {
      "epoch": 0.3583,
      "grad_norm": 13.0,
      "grad_norm_var": 0.18097330729166666,
      "learning_rate": 0.0003,
      "loss": 11.3502,
      "loss/aux_loss": 0.04807974956929684,
      "loss/crossentropy": 2.6321381747722628,
      "loss/logits": 0.850381875038147,
      "step": 35830
    },
    {
      "epoch": 0.3584,
      "grad_norm": 12.75,
      "grad_norm_var": 0.41451822916666664,
      "learning_rate": 0.0003,
      "loss": 11.1751,
      "loss/aux_loss": 0.04808203168213367,
      "loss/crossentropy": 2.6016912758350372,
      "loss/logits": 0.8554532587528229,
      "step": 35840
    },
    {
      "epoch": 0.3585,
      "grad_norm": 12.5,
      "grad_norm_var": 0.7824055989583333,
      "learning_rate": 0.0003,
      "loss": 11.4128,
      "loss/aux_loss": 0.04807893205434084,
      "loss/crossentropy": 2.8680613577365874,
      "loss/logits": 0.8510574102401733,
      "step": 35850
    },
    {
      "epoch": 0.3586,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.679541015625,
      "learning_rate": 0.0003,
      "loss": 11.2393,
      "loss/aux_loss": 0.048077529110014436,
      "loss/crossentropy": 2.755670565366745,
      "loss/logits": 0.8600349962711334,
      "step": 35860
    },
    {
      "epoch": 0.3587,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.9173014322916667,
      "learning_rate": 0.0003,
      "loss": 11.3892,
      "loss/aux_loss": 0.048092295043170454,
      "loss/crossentropy": 2.7275496542453768,
      "loss/logits": 0.8351588726043702,
      "step": 35870
    },
    {
      "epoch": 0.3588,
      "grad_norm": 13.0,
      "grad_norm_var": 0.9158854166666667,
      "learning_rate": 0.0003,
      "loss": 11.2862,
      "loss/aux_loss": 0.0480747377499938,
      "loss/crossentropy": 2.7512252271175384,
      "loss/logits": 0.8427632987499237,
      "step": 35880
    },
    {
      "epoch": 0.3589,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.29322916666666665,
      "learning_rate": 0.0003,
      "loss": 11.3548,
      "loss/aux_loss": 0.04807990454137325,
      "loss/crossentropy": 2.873078280687332,
      "loss/logits": 0.8730248123407364,
      "step": 35890
    },
    {
      "epoch": 0.359,
      "grad_norm": 13.5,
      "grad_norm_var": 0.3624348958333333,
      "learning_rate": 0.0003,
      "loss": 11.2026,
      "loss/aux_loss": 0.048082062415778636,
      "loss/crossentropy": 2.740494179725647,
      "loss/logits": 0.8442809909582139,
      "step": 35900
    },
    {
      "epoch": 0.3591,
      "grad_norm": 14.375,
      "grad_norm_var": 0.512744140625,
      "learning_rate": 0.0003,
      "loss": 11.23,
      "loss/aux_loss": 0.048080322705209254,
      "loss/crossentropy": 2.7258496403694155,
      "loss/logits": 0.8964686661958694,
      "step": 35910
    },
    {
      "epoch": 0.3592,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.6156087239583333,
      "learning_rate": 0.0003,
      "loss": 11.332,
      "loss/aux_loss": 0.048071503080427645,
      "loss/crossentropy": 2.664508581161499,
      "loss/logits": 0.8316588670015335,
      "step": 35920
    },
    {
      "epoch": 0.3593,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.14178059895833334,
      "learning_rate": 0.0003,
      "loss": 11.3462,
      "loss/aux_loss": 0.0480843897908926,
      "loss/crossentropy": 2.8054317951202394,
      "loss/logits": 0.8416423499584198,
      "step": 35930
    },
    {
      "epoch": 0.3594,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.1541015625,
      "learning_rate": 0.0003,
      "loss": 11.4479,
      "loss/aux_loss": 0.04807868916541338,
      "loss/crossentropy": 2.6694052278995515,
      "loss/logits": 0.8517626136541366,
      "step": 35940
    },
    {
      "epoch": 0.3595,
      "grad_norm": 17.375,
      "grad_norm_var": 312.1473795572917,
      "learning_rate": 0.0003,
      "loss": 11.422,
      "loss/aux_loss": 0.04807343017309904,
      "loss/crossentropy": 2.7886245131492613,
      "loss/logits": 0.8560446441173554,
      "step": 35950
    },
    {
      "epoch": 0.3596,
      "grad_norm": 15.3125,
      "grad_norm_var": 306.50983072916665,
      "learning_rate": 0.0003,
      "loss": 11.528,
      "loss/aux_loss": 0.0480889055877924,
      "loss/crossentropy": 2.7681180238723755,
      "loss/logits": 0.8745385199785233,
      "step": 35960
    },
    {
      "epoch": 0.3597,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.3260416666666667,
      "learning_rate": 0.0003,
      "loss": 11.4073,
      "loss/aux_loss": 0.048074235394597056,
      "loss/crossentropy": 2.7186142563819886,
      "loss/logits": 0.8708992570638656,
      "step": 35970
    },
    {
      "epoch": 0.3598,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.390087890625,
      "learning_rate": 0.0003,
      "loss": 11.256,
      "loss/aux_loss": 0.048084134608507155,
      "loss/crossentropy": 2.6606498062610626,
      "loss/logits": 0.8529165148735046,
      "step": 35980
    },
    {
      "epoch": 0.3599,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.6249837239583333,
      "learning_rate": 0.0003,
      "loss": 11.4559,
      "loss/aux_loss": 0.04807859268039465,
      "loss/crossentropy": 2.862497079372406,
      "loss/logits": 0.8499436527490616,
      "step": 35990
    },
    {
      "epoch": 0.36,
      "grad_norm": 14.125,
      "grad_norm_var": 0.48899739583333335,
      "learning_rate": 0.0003,
      "loss": 11.4658,
      "loss/aux_loss": 0.04807100892066955,
      "loss/crossentropy": 2.797253680229187,
      "loss/logits": 0.8588318228721619,
      "step": 36000
    },
    {
      "epoch": 0.3601,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.3251139322916667,
      "learning_rate": 0.0003,
      "loss": 11.2969,
      "loss/aux_loss": 0.04807574506849051,
      "loss/crossentropy": 2.5939278662204743,
      "loss/logits": 0.8101026326417923,
      "step": 36010
    },
    {
      "epoch": 0.3602,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.73828125,
      "learning_rate": 0.0003,
      "loss": 11.3092,
      "loss/aux_loss": 0.048069524206221105,
      "loss/crossentropy": 2.8990219116210936,
      "loss/logits": 0.8483186364173889,
      "step": 36020
    },
    {
      "epoch": 0.3603,
      "grad_norm": 13.25,
      "grad_norm_var": 0.36599934895833336,
      "learning_rate": 0.0003,
      "loss": 11.3561,
      "loss/aux_loss": 0.04808562994003296,
      "loss/crossentropy": 2.6316673278808596,
      "loss/logits": 0.8744110763072968,
      "step": 36030
    },
    {
      "epoch": 0.3604,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.48385416666666664,
      "learning_rate": 0.0003,
      "loss": 11.2467,
      "loss/aux_loss": 0.04806984197348356,
      "loss/crossentropy": 2.8506676077842714,
      "loss/logits": 0.8674321442842483,
      "step": 36040
    },
    {
      "epoch": 0.3605,
      "grad_norm": 13.625,
      "grad_norm_var": 0.3028645833333333,
      "learning_rate": 0.0003,
      "loss": 11.374,
      "loss/aux_loss": 0.048074014112353326,
      "loss/crossentropy": 2.6722546577453614,
      "loss/logits": 0.8741536557674408,
      "step": 36050
    },
    {
      "epoch": 0.3606,
      "grad_norm": 14.75,
      "grad_norm_var": 0.3251139322916667,
      "learning_rate": 0.0003,
      "loss": 11.1968,
      "loss/aux_loss": 0.04807903002947569,
      "loss/crossentropy": 2.777270722389221,
      "loss/logits": 0.8541721493005753,
      "step": 36060
    },
    {
      "epoch": 0.3607,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.480322265625,
      "learning_rate": 0.0003,
      "loss": 11.3552,
      "loss/aux_loss": 0.04808016233146191,
      "loss/crossentropy": 2.692441987991333,
      "loss/logits": 0.8523607522249221,
      "step": 36070
    },
    {
      "epoch": 0.3608,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.40896809895833336,
      "learning_rate": 0.0003,
      "loss": 11.2746,
      "loss/aux_loss": 0.048079789616167545,
      "loss/crossentropy": 2.746452260017395,
      "loss/logits": 0.863274747133255,
      "step": 36080
    },
    {
      "epoch": 0.3609,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.583837890625,
      "learning_rate": 0.0003,
      "loss": 11.4223,
      "loss/aux_loss": 0.048079486936330795,
      "loss/crossentropy": 2.662570732831955,
      "loss/logits": 0.8952972948551178,
      "step": 36090
    },
    {
      "epoch": 0.361,
      "grad_norm": 14.875,
      "grad_norm_var": 1.0411295572916666,
      "learning_rate": 0.0003,
      "loss": 11.3986,
      "loss/aux_loss": 0.048073232360184195,
      "loss/crossentropy": 2.687173879146576,
      "loss/logits": 0.8554467290639878,
      "step": 36100
    },
    {
      "epoch": 0.3611,
      "grad_norm": 14.0,
      "grad_norm_var": 0.997509765625,
      "learning_rate": 0.0003,
      "loss": 11.2722,
      "loss/aux_loss": 0.048092739656567574,
      "loss/crossentropy": 2.521233695745468,
      "loss/logits": 0.7955525845289231,
      "step": 36110
    },
    {
      "epoch": 0.3612,
      "grad_norm": 15.125,
      "grad_norm_var": 0.9139973958333333,
      "learning_rate": 0.0003,
      "loss": 11.4461,
      "loss/aux_loss": 0.04807361625134945,
      "loss/crossentropy": 2.970944273471832,
      "loss/logits": 0.8794440478086472,
      "step": 36120
    },
    {
      "epoch": 0.3613,
      "grad_norm": 12.4375,
      "grad_norm_var": 1.252587890625,
      "learning_rate": 0.0003,
      "loss": 11.2798,
      "loss/aux_loss": 0.04807492271065712,
      "loss/crossentropy": 2.717639720439911,
      "loss/logits": 0.8793477922677994,
      "step": 36130
    },
    {
      "epoch": 0.3614,
      "grad_norm": 13.625,
      "grad_norm_var": 0.8056640625,
      "learning_rate": 0.0003,
      "loss": 11.2061,
      "loss/aux_loss": 0.04807124081999063,
      "loss/crossentropy": 2.7465671420097353,
      "loss/logits": 0.8570981532335281,
      "step": 36140
    },
    {
      "epoch": 0.3615,
      "grad_norm": 14.0,
      "grad_norm_var": 0.7410807291666667,
      "learning_rate": 0.0003,
      "loss": 11.4171,
      "loss/aux_loss": 0.04809042625129223,
      "loss/crossentropy": 2.874330496788025,
      "loss/logits": 0.8536765873432159,
      "step": 36150
    },
    {
      "epoch": 0.3616,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.9301920572916667,
      "learning_rate": 0.0003,
      "loss": 11.3739,
      "loss/aux_loss": 0.048077494464814664,
      "loss/crossentropy": 2.586655741930008,
      "loss/logits": 0.8711060285568237,
      "step": 36160
    },
    {
      "epoch": 0.3617,
      "grad_norm": 14.4375,
      "grad_norm_var": 1.490869140625,
      "learning_rate": 0.0003,
      "loss": 11.3623,
      "loss/aux_loss": 0.04806613698601723,
      "loss/crossentropy": 2.5908707082271576,
      "loss/logits": 0.8134723126888275,
      "step": 36170
    },
    {
      "epoch": 0.3618,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.3150390625,
      "learning_rate": 0.0003,
      "loss": 11.4247,
      "loss/aux_loss": 0.048084022291004655,
      "loss/crossentropy": 2.795676851272583,
      "loss/logits": 0.8587139397859573,
      "step": 36180
    },
    {
      "epoch": 0.3619,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.7551920572916667,
      "learning_rate": 0.0003,
      "loss": 11.2165,
      "loss/aux_loss": 0.048082707822322844,
      "loss/crossentropy": 2.8844053208827973,
      "loss/logits": 0.8785182237625122,
      "step": 36190
    },
    {
      "epoch": 0.362,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.3738932291666667,
      "learning_rate": 0.0003,
      "loss": 11.2659,
      "loss/aux_loss": 0.04806621167808771,
      "loss/crossentropy": 2.760159510374069,
      "loss/logits": 0.8577248483896256,
      "step": 36200
    },
    {
      "epoch": 0.3621,
      "grad_norm": 13.375,
      "grad_norm_var": 0.31808268229166664,
      "learning_rate": 0.0003,
      "loss": 11.2366,
      "loss/aux_loss": 0.04807536099106073,
      "loss/crossentropy": 2.608304864168167,
      "loss/logits": 0.829086622595787,
      "step": 36210
    },
    {
      "epoch": 0.3622,
      "grad_norm": 13.875,
      "grad_norm_var": 0.2072265625,
      "learning_rate": 0.0003,
      "loss": 11.4158,
      "loss/aux_loss": 0.04807885363698006,
      "loss/crossentropy": 2.6055088222026823,
      "loss/logits": 0.825168663263321,
      "step": 36220
    },
    {
      "epoch": 0.3623,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.39334309895833336,
      "learning_rate": 0.0003,
      "loss": 11.553,
      "loss/aux_loss": 0.0480809198692441,
      "loss/crossentropy": 2.9127083659172057,
      "loss/logits": 0.8658655256032943,
      "step": 36230
    },
    {
      "epoch": 0.3624,
      "grad_norm": 14.25,
      "grad_norm_var": 0.37213541666666666,
      "learning_rate": 0.0003,
      "loss": 11.2686,
      "loss/aux_loss": 0.048089105263352395,
      "loss/crossentropy": 2.8726187229156492,
      "loss/logits": 0.8607639342546463,
      "step": 36240
    },
    {
      "epoch": 0.3625,
      "grad_norm": 12.9375,
      "grad_norm_var": 1.0445149739583333,
      "learning_rate": 0.0003,
      "loss": 11.2932,
      "loss/aux_loss": 0.04807120338082314,
      "loss/crossentropy": 2.898715019226074,
      "loss/logits": 0.8681466579437256,
      "step": 36250
    },
    {
      "epoch": 0.3626,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.8946451822916667,
      "learning_rate": 0.0003,
      "loss": 11.373,
      "loss/aux_loss": 0.0480785708874464,
      "loss/crossentropy": 2.6757899284362794,
      "loss/logits": 0.8399546831846237,
      "step": 36260
    },
    {
      "epoch": 0.3627,
      "grad_norm": 12.625,
      "grad_norm_var": 0.471728515625,
      "learning_rate": 0.0003,
      "loss": 11.2656,
      "loss/aux_loss": 0.048072914406657216,
      "loss/crossentropy": 2.7273074328899383,
      "loss/logits": 0.834012359380722,
      "step": 36270
    },
    {
      "epoch": 0.3628,
      "grad_norm": 15.625,
      "grad_norm_var": 0.5853515625,
      "learning_rate": 0.0003,
      "loss": 11.3074,
      "loss/aux_loss": 0.04808451887220144,
      "loss/crossentropy": 2.661761927604675,
      "loss/logits": 0.8267664194107056,
      "step": 36280
    },
    {
      "epoch": 0.3629,
      "grad_norm": 13.875,
      "grad_norm_var": 7.678645833333333,
      "learning_rate": 0.0003,
      "loss": 11.1024,
      "loss/aux_loss": 0.04808289129287004,
      "loss/crossentropy": 2.8848253428936004,
      "loss/logits": 0.8689317673444747,
      "step": 36290
    },
    {
      "epoch": 0.363,
      "grad_norm": 13.875,
      "grad_norm_var": 7.61328125,
      "learning_rate": 0.0003,
      "loss": 11.3154,
      "loss/aux_loss": 0.048081953264772895,
      "loss/crossentropy": 2.703933322429657,
      "loss/logits": 0.860775688290596,
      "step": 36300
    },
    {
      "epoch": 0.3631,
      "grad_norm": 12.875,
      "grad_norm_var": 0.6884765625,
      "learning_rate": 0.0003,
      "loss": 11.2708,
      "loss/aux_loss": 0.04807724803686142,
      "loss/crossentropy": 2.715017533302307,
      "loss/logits": 0.8319126725196838,
      "step": 36310
    },
    {
      "epoch": 0.3632,
      "grad_norm": 22.625,
      "grad_norm_var": 5.701936848958334,
      "learning_rate": 0.0003,
      "loss": 11.2363,
      "loss/aux_loss": 0.04807513263076544,
      "loss/crossentropy": 2.829657733440399,
      "loss/logits": 0.8587293684482574,
      "step": 36320
    },
    {
      "epoch": 0.3633,
      "grad_norm": 14.25,
      "grad_norm_var": 4.881184895833333,
      "learning_rate": 0.0003,
      "loss": 11.408,
      "loss/aux_loss": 0.04807958342134953,
      "loss/crossentropy": 2.7696733355522154,
      "loss/logits": 0.8509972572326661,
      "step": 36330
    },
    {
      "epoch": 0.3634,
      "grad_norm": 14.625,
      "grad_norm_var": 0.25388997395833335,
      "learning_rate": 0.0003,
      "loss": 11.3764,
      "loss/aux_loss": 0.04807343930006027,
      "loss/crossentropy": 2.824759781360626,
      "loss/logits": 0.8681064277887345,
      "step": 36340
    },
    {
      "epoch": 0.3635,
      "grad_norm": 13.375,
      "grad_norm_var": 0.49386393229166664,
      "learning_rate": 0.0003,
      "loss": 11.3524,
      "loss/aux_loss": 0.04807184562087059,
      "loss/crossentropy": 2.8086614489555357,
      "loss/logits": 0.8541026085615158,
      "step": 36350
    },
    {
      "epoch": 0.3636,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.5608723958333334,
      "learning_rate": 0.0003,
      "loss": 11.0975,
      "loss/aux_loss": 0.04808126986026764,
      "loss/crossentropy": 2.7107265830039977,
      "loss/logits": 0.8230546474456787,
      "step": 36360
    },
    {
      "epoch": 0.3637,
      "grad_norm": 15.5,
      "grad_norm_var": 0.6462076822916667,
      "learning_rate": 0.0003,
      "loss": 11.2573,
      "loss/aux_loss": 0.048082560300827026,
      "loss/crossentropy": 2.660491919517517,
      "loss/logits": 0.8427970826625824,
      "step": 36370
    },
    {
      "epoch": 0.3638,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.799072265625,
      "learning_rate": 0.0003,
      "loss": 11.3318,
      "loss/aux_loss": 0.048079566471278666,
      "loss/crossentropy": 2.788001722097397,
      "loss/logits": 0.8650757223367691,
      "step": 36380
    },
    {
      "epoch": 0.3639,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.584375,
      "learning_rate": 0.0003,
      "loss": 11.3163,
      "loss/aux_loss": 0.048077472113072874,
      "loss/crossentropy": 2.7954628705978393,
      "loss/logits": 0.8578163594007492,
      "step": 36390
    },
    {
      "epoch": 0.364,
      "grad_norm": 14.0,
      "grad_norm_var": 0.38743489583333335,
      "learning_rate": 0.0003,
      "loss": 11.3133,
      "loss/aux_loss": 0.04807708989828825,
      "loss/crossentropy": 2.665116882324219,
      "loss/logits": 0.8234895557165146,
      "step": 36400
    },
    {
      "epoch": 0.3641,
      "grad_norm": 14.875,
      "grad_norm_var": 0.7328125,
      "learning_rate": 0.0003,
      "loss": 11.5322,
      "loss/aux_loss": 0.04808671064674854,
      "loss/crossentropy": 2.858789348602295,
      "loss/logits": 0.8716346949338913,
      "step": 36410
    },
    {
      "epoch": 0.3642,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.6462890625,
      "learning_rate": 0.0003,
      "loss": 11.1745,
      "loss/aux_loss": 0.048071319982409474,
      "loss/crossentropy": 2.877179265022278,
      "loss/logits": 0.8559047758579255,
      "step": 36420
    },
    {
      "epoch": 0.3643,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.7098958333333333,
      "learning_rate": 0.0003,
      "loss": 11.3668,
      "loss/aux_loss": 0.04808102864772081,
      "loss/crossentropy": 2.699104994535446,
      "loss/logits": 0.8286954373121261,
      "step": 36430
    },
    {
      "epoch": 0.3644,
      "grad_norm": 13.75,
      "grad_norm_var": 0.3348795572916667,
      "learning_rate": 0.0003,
      "loss": 11.3764,
      "loss/aux_loss": 0.04807946030050516,
      "loss/crossentropy": 2.7624664068222047,
      "loss/logits": 0.8778378039598465,
      "step": 36440
    },
    {
      "epoch": 0.3645,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.21614583333333334,
      "learning_rate": 0.0003,
      "loss": 11.4262,
      "loss/aux_loss": 0.04808296486735344,
      "loss/crossentropy": 2.7352758646011353,
      "loss/logits": 0.8656487733125686,
      "step": 36450
    },
    {
      "epoch": 0.3646,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.4103515625,
      "learning_rate": 0.0003,
      "loss": 11.4924,
      "loss/aux_loss": 0.04807944241911173,
      "loss/crossentropy": 2.774025857448578,
      "loss/logits": 0.8716156959533692,
      "step": 36460
    },
    {
      "epoch": 0.3647,
      "grad_norm": 14.125,
      "grad_norm_var": 0.39791666666666664,
      "learning_rate": 0.0003,
      "loss": 11.2264,
      "loss/aux_loss": 0.04807451739907265,
      "loss/crossentropy": 2.8603923201560972,
      "loss/logits": 0.8951089948415756,
      "step": 36470
    },
    {
      "epoch": 0.3648,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.35201822916666664,
      "learning_rate": 0.0003,
      "loss": 11.4953,
      "loss/aux_loss": 0.04807769488543272,
      "loss/crossentropy": 2.6446187674999235,
      "loss/logits": 0.8907380670309066,
      "step": 36480
    },
    {
      "epoch": 0.3649,
      "grad_norm": 12.8125,
      "grad_norm_var": 6.081363932291667,
      "learning_rate": 0.0003,
      "loss": 11.185,
      "loss/aux_loss": 0.048073522932827475,
      "loss/crossentropy": 2.7823033690452577,
      "loss/logits": 0.8572315156459809,
      "step": 36490
    },
    {
      "epoch": 0.365,
      "grad_norm": 14.125,
      "grad_norm_var": 0.465087890625,
      "learning_rate": 0.0003,
      "loss": 11.3351,
      "loss/aux_loss": 0.048076865077018735,
      "loss/crossentropy": 2.7182795643806457,
      "loss/logits": 0.8255507349967957,
      "step": 36500
    },
    {
      "epoch": 0.3651,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.5874348958333333,
      "learning_rate": 0.0003,
      "loss": 11.275,
      "loss/aux_loss": 0.048083111830055716,
      "loss/crossentropy": 2.7402828454971315,
      "loss/logits": 0.8623090296983719,
      "step": 36510
    },
    {
      "epoch": 0.3652,
      "grad_norm": 14.0,
      "grad_norm_var": 0.3395182291666667,
      "learning_rate": 0.0003,
      "loss": 11.3483,
      "loss/aux_loss": 0.04808528944849968,
      "loss/crossentropy": 2.7780889511108398,
      "loss/logits": 0.8970998287200928,
      "step": 36520
    },
    {
      "epoch": 0.3653,
      "grad_norm": 13.75,
      "grad_norm_var": 912.176416015625,
      "learning_rate": 0.0003,
      "loss": 11.3774,
      "loss/aux_loss": 0.04809322264045477,
      "loss/crossentropy": 2.5786903738975524,
      "loss/logits": 0.8551579564809799,
      "step": 36530
    },
    {
      "epoch": 0.3654,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.26666666666666666,
      "learning_rate": 0.0003,
      "loss": 11.3992,
      "loss/aux_loss": 0.04808025564998388,
      "loss/crossentropy": 2.6024239301681518,
      "loss/logits": 0.8405012160539627,
      "step": 36540
    },
    {
      "epoch": 0.3655,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.9311848958333333,
      "learning_rate": 0.0003,
      "loss": 11.1519,
      "loss/aux_loss": 0.04808431137353182,
      "loss/crossentropy": 2.628155159950256,
      "loss/logits": 0.8049672454595566,
      "step": 36550
    },
    {
      "epoch": 0.3656,
      "grad_norm": 15.0,
      "grad_norm_var": 0.49420572916666666,
      "learning_rate": 0.0003,
      "loss": 11.3941,
      "loss/aux_loss": 0.048075790517032146,
      "loss/crossentropy": 2.7668872237205506,
      "loss/logits": 0.838652953505516,
      "step": 36560
    },
    {
      "epoch": 0.3657,
      "grad_norm": 12.625,
      "grad_norm_var": 0.6994140625,
      "learning_rate": 0.0003,
      "loss": 11.3062,
      "loss/aux_loss": 0.04808170460164547,
      "loss/crossentropy": 2.7823184549808504,
      "loss/logits": 0.9078426092863083,
      "step": 36570
    },
    {
      "epoch": 0.3658,
      "grad_norm": 13.0,
      "grad_norm_var": 0.8878743489583333,
      "learning_rate": 0.0003,
      "loss": 11.0968,
      "loss/aux_loss": 0.048066372610628606,
      "loss/crossentropy": 2.6771502017974855,
      "loss/logits": 0.8519851267337799,
      "step": 36580
    },
    {
      "epoch": 0.3659,
      "grad_norm": 13.625,
      "grad_norm_var": 0.6288899739583333,
      "learning_rate": 0.0003,
      "loss": 11.4529,
      "loss/aux_loss": 0.048079500906169415,
      "loss/crossentropy": 2.7219568133354186,
      "loss/logits": 0.8512856423854828,
      "step": 36590
    },
    {
      "epoch": 0.366,
      "grad_norm": 13.375,
      "grad_norm_var": 0.48587239583333336,
      "learning_rate": 0.0003,
      "loss": 11.3979,
      "loss/aux_loss": 0.048080523125827314,
      "loss/crossentropy": 2.677553081512451,
      "loss/logits": 0.8542275846004486,
      "step": 36600
    },
    {
      "epoch": 0.3661,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.35442708333333334,
      "learning_rate": 0.0003,
      "loss": 11.2516,
      "loss/aux_loss": 0.04807436354458332,
      "loss/crossentropy": 2.7150216817855837,
      "loss/logits": 0.8340162307024002,
      "step": 36610
    },
    {
      "epoch": 0.3662,
      "grad_norm": 13.5,
      "grad_norm_var": 13.445686848958333,
      "learning_rate": 0.0003,
      "loss": 11.2813,
      "loss/aux_loss": 0.04808293953537941,
      "loss/crossentropy": 2.7328949213027953,
      "loss/logits": 0.8716106861829758,
      "step": 36620
    },
    {
      "epoch": 0.3663,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.9638020833333333,
      "learning_rate": 0.0003,
      "loss": 11.2869,
      "loss/aux_loss": 0.04808443430811167,
      "loss/crossentropy": 2.728735291957855,
      "loss/logits": 0.8548354119062423,
      "step": 36630
    },
    {
      "epoch": 0.3664,
      "grad_norm": 13.5625,
      "grad_norm_var": 4.690087890625,
      "learning_rate": 0.0003,
      "loss": 11.3094,
      "loss/aux_loss": 0.048085299693048,
      "loss/crossentropy": 2.6517282664775848,
      "loss/logits": 0.8119051426649093,
      "step": 36640
    },
    {
      "epoch": 0.3665,
      "grad_norm": 14.1875,
      "grad_norm_var": 4.356705729166666,
      "learning_rate": 0.0003,
      "loss": 11.3516,
      "loss/aux_loss": 0.04806904401630163,
      "loss/crossentropy": 2.6928380608558653,
      "loss/logits": 0.8894807904958725,
      "step": 36650
    },
    {
      "epoch": 0.3666,
      "grad_norm": 13.25,
      "grad_norm_var": 0.4025390625,
      "learning_rate": 0.0003,
      "loss": 11.1876,
      "loss/aux_loss": 0.04807957727462053,
      "loss/crossentropy": 2.6671720802783967,
      "loss/logits": 0.8575594484806061,
      "step": 36660
    },
    {
      "epoch": 0.3667,
      "grad_norm": 13.625,
      "grad_norm_var": 0.6534993489583333,
      "learning_rate": 0.0003,
      "loss": 11.3217,
      "loss/aux_loss": 0.04807212818413973,
      "loss/crossentropy": 2.920051896572113,
      "loss/logits": 0.9000935316085815,
      "step": 36670
    },
    {
      "epoch": 0.3668,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.578759765625,
      "learning_rate": 0.0003,
      "loss": 11.2754,
      "loss/aux_loss": 0.04808471836149693,
      "loss/crossentropy": 2.7112753033638,
      "loss/logits": 0.8980684787034988,
      "step": 36680
    },
    {
      "epoch": 0.3669,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.46339518229166665,
      "learning_rate": 0.0003,
      "loss": 11.175,
      "loss/aux_loss": 0.048070876859128475,
      "loss/crossentropy": 2.8545451045036314,
      "loss/logits": 0.8624769806861877,
      "step": 36690
    },
    {
      "epoch": 0.367,
      "grad_norm": 14.25,
      "grad_norm_var": 0.3614583333333333,
      "learning_rate": 0.0003,
      "loss": 11.419,
      "loss/aux_loss": 0.048080637119710445,
      "loss/crossentropy": 2.584076887369156,
      "loss/logits": 0.8492877304553985,
      "step": 36700
    },
    {
      "epoch": 0.3671,
      "grad_norm": 14.5,
      "grad_norm_var": 0.46901041666666665,
      "learning_rate": 0.0003,
      "loss": 11.2005,
      "loss/aux_loss": 0.04807239808142185,
      "loss/crossentropy": 2.8296147108078005,
      "loss/logits": 0.8446451902389527,
      "step": 36710
    },
    {
      "epoch": 0.3672,
      "grad_norm": 13.625,
      "grad_norm_var": 0.3153483072916667,
      "learning_rate": 0.0003,
      "loss": 11.2948,
      "loss/aux_loss": 0.04807722382247448,
      "loss/crossentropy": 2.8139419972896578,
      "loss/logits": 0.8666492760181427,
      "step": 36720
    },
    {
      "epoch": 0.3673,
      "grad_norm": 13.0,
      "grad_norm_var": 0.2140625,
      "learning_rate": 0.0003,
      "loss": 11.2456,
      "loss/aux_loss": 0.04808667413890362,
      "loss/crossentropy": 2.7662573993206023,
      "loss/logits": 0.8440918147563934,
      "step": 36730
    },
    {
      "epoch": 0.3674,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.48162434895833334,
      "learning_rate": 0.0003,
      "loss": 11.1766,
      "loss/aux_loss": 0.048073191195726395,
      "loss/crossentropy": 2.733067828416824,
      "loss/logits": 0.8450499773025513,
      "step": 36740
    },
    {
      "epoch": 0.3675,
      "grad_norm": 13.25,
      "grad_norm_var": 0.408837890625,
      "learning_rate": 0.0003,
      "loss": 11.1612,
      "loss/aux_loss": 0.04808583315461874,
      "loss/crossentropy": 2.661664068698883,
      "loss/logits": 0.8497480273246765,
      "step": 36750
    },
    {
      "epoch": 0.3676,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.2481608072916666,
      "learning_rate": 0.0003,
      "loss": 11.3239,
      "loss/aux_loss": 0.048081538453698155,
      "loss/crossentropy": 2.836627209186554,
      "loss/logits": 0.8409482598304748,
      "step": 36760
    },
    {
      "epoch": 0.3677,
      "grad_norm": 14.125,
      "grad_norm_var": 0.6759765625,
      "learning_rate": 0.0003,
      "loss": 11.2629,
      "loss/aux_loss": 0.048070738464593886,
      "loss/crossentropy": 2.7837388277053834,
      "loss/logits": 0.8499901384115219,
      "step": 36770
    },
    {
      "epoch": 0.3678,
      "grad_norm": 13.75,
      "grad_norm_var": 0.29713541666666665,
      "learning_rate": 0.0003,
      "loss": 11.4489,
      "loss/aux_loss": 0.04807408787310123,
      "loss/crossentropy": 2.8329702377319337,
      "loss/logits": 0.8994654446840287,
      "step": 36780
    },
    {
      "epoch": 0.3679,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.3837076822916667,
      "learning_rate": 0.0003,
      "loss": 11.1841,
      "loss/aux_loss": 0.04807285293936729,
      "loss/crossentropy": 2.7574662566184998,
      "loss/logits": 0.8559128046035767,
      "step": 36790
    },
    {
      "epoch": 0.368,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.5015462239583334,
      "learning_rate": 0.0003,
      "loss": 11.2499,
      "loss/aux_loss": 0.04807376656681299,
      "loss/crossentropy": 2.684080684185028,
      "loss/logits": 0.8515265494585037,
      "step": 36800
    },
    {
      "epoch": 0.3681,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.609228515625,
      "learning_rate": 0.0003,
      "loss": 11.3147,
      "loss/aux_loss": 0.04808369651436806,
      "loss/crossentropy": 2.618355232477188,
      "loss/logits": 0.8441348135471344,
      "step": 36810
    },
    {
      "epoch": 0.3682,
      "grad_norm": 13.4375,
      "grad_norm_var": 5.31953125,
      "learning_rate": 0.0003,
      "loss": 11.2577,
      "loss/aux_loss": 0.04807754773646593,
      "loss/crossentropy": 2.5288033723831176,
      "loss/logits": 0.8119451552629471,
      "step": 36820
    },
    {
      "epoch": 0.3683,
      "grad_norm": 13.4375,
      "grad_norm_var": 8.267708333333333,
      "learning_rate": 0.0003,
      "loss": 11.2319,
      "loss/aux_loss": 0.048084663413465026,
      "loss/crossentropy": 2.753344786167145,
      "loss/logits": 0.8751234143972397,
      "step": 36830
    },
    {
      "epoch": 0.3684,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.308447265625,
      "learning_rate": 0.0003,
      "loss": 11.4226,
      "loss/aux_loss": 0.04807217866182327,
      "loss/crossentropy": 2.67869313955307,
      "loss/logits": 0.8474486947059632,
      "step": 36840
    },
    {
      "epoch": 0.3685,
      "grad_norm": 13.9375,
      "grad_norm_var": 3.936051432291667,
      "learning_rate": 0.0003,
      "loss": 11.1881,
      "loss/aux_loss": 0.048085474967956544,
      "loss/crossentropy": 2.6841680705547333,
      "loss/logits": 0.8220482736825943,
      "step": 36850
    },
    {
      "epoch": 0.3686,
      "grad_norm": 13.75,
      "grad_norm_var": 4.113997395833334,
      "learning_rate": 0.0003,
      "loss": 11.2414,
      "loss/aux_loss": 0.04807091634720564,
      "loss/crossentropy": 2.6126440107822417,
      "loss/logits": 0.8671426773071289,
      "step": 36860
    },
    {
      "epoch": 0.3687,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.36432291666666666,
      "learning_rate": 0.0003,
      "loss": 11.4133,
      "loss/aux_loss": 0.048081329092383385,
      "loss/crossentropy": 2.675434243679047,
      "loss/logits": 0.8265480697154999,
      "step": 36870
    },
    {
      "epoch": 0.3688,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.42902018229166666,
      "learning_rate": 0.0003,
      "loss": 11.2284,
      "loss/aux_loss": 0.048071084544062614,
      "loss/crossentropy": 2.649240803718567,
      "loss/logits": 0.858475786447525,
      "step": 36880
    },
    {
      "epoch": 0.3689,
      "grad_norm": 14.0,
      "grad_norm_var": 0.5214680989583333,
      "learning_rate": 0.0003,
      "loss": 11.453,
      "loss/aux_loss": 0.04807976335287094,
      "loss/crossentropy": 2.740285503864288,
      "loss/logits": 0.8892779976129532,
      "step": 36890
    },
    {
      "epoch": 0.369,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.5254557291666667,
      "learning_rate": 0.0003,
      "loss": 11.4388,
      "loss/aux_loss": 0.048085974715650084,
      "loss/crossentropy": 2.597354656457901,
      "loss/logits": 0.852543905377388,
      "step": 36900
    },
    {
      "epoch": 0.3691,
      "grad_norm": 13.6875,
      "grad_norm_var": 1.0181640625,
      "learning_rate": 0.0003,
      "loss": 11.34,
      "loss/aux_loss": 0.04807802941650152,
      "loss/crossentropy": 2.7012298822402956,
      "loss/logits": 0.8767822653055191,
      "step": 36910
    },
    {
      "epoch": 0.3692,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.36171875,
      "learning_rate": 0.0003,
      "loss": 11.251,
      "loss/aux_loss": 0.048073366098105905,
      "loss/crossentropy": 2.560819482803345,
      "loss/logits": 0.8467923909425735,
      "step": 36920
    },
    {
      "epoch": 0.3693,
      "grad_norm": 15.0,
      "grad_norm_var": 0.342041015625,
      "learning_rate": 0.0003,
      "loss": 11.148,
      "loss/aux_loss": 0.04808372184634209,
      "loss/crossentropy": 2.713025426864624,
      "loss/logits": 0.8554750919342041,
      "step": 36930
    },
    {
      "epoch": 0.3694,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5695149739583333,
      "learning_rate": 0.0003,
      "loss": 11.1105,
      "loss/aux_loss": 0.048074273765087126,
      "loss/crossentropy": 2.560827577114105,
      "loss/logits": 0.837596133351326,
      "step": 36940
    },
    {
      "epoch": 0.3695,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4853515625,
      "learning_rate": 0.0003,
      "loss": 11.237,
      "loss/aux_loss": 0.04807106014341116,
      "loss/crossentropy": 2.7133314967155457,
      "loss/logits": 0.8286193758249283,
      "step": 36950
    },
    {
      "epoch": 0.3696,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.28683268229166664,
      "learning_rate": 0.0003,
      "loss": 11.3376,
      "loss/aux_loss": 0.04807455725967884,
      "loss/crossentropy": 2.6688225150108336,
      "loss/logits": 0.8450548857450485,
      "step": 36960
    },
    {
      "epoch": 0.3697,
      "grad_norm": 14.375,
      "grad_norm_var": 0.458056640625,
      "learning_rate": 0.0003,
      "loss": 11.2668,
      "loss/aux_loss": 0.048079893365502356,
      "loss/crossentropy": 2.7559533953666686,
      "loss/logits": 0.8815567016601562,
      "step": 36970
    },
    {
      "epoch": 0.3698,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.4317708333333333,
      "learning_rate": 0.0003,
      "loss": 11.4765,
      "loss/aux_loss": 0.04807979427278042,
      "loss/crossentropy": 2.837592136859894,
      "loss/logits": 0.855880606174469,
      "step": 36980
    },
    {
      "epoch": 0.3699,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.477197265625,
      "learning_rate": 0.0003,
      "loss": 11.3164,
      "loss/aux_loss": 0.048071004822850226,
      "loss/crossentropy": 2.743358498811722,
      "loss/logits": 0.8194127559661866,
      "step": 36990
    },
    {
      "epoch": 0.37,
      "grad_norm": 14.625,
      "grad_norm_var": 0.527587890625,
      "learning_rate": 0.0003,
      "loss": 11.5576,
      "loss/aux_loss": 0.04808164816349745,
      "loss/crossentropy": 2.8244762778282166,
      "loss/logits": 0.8719862341880799,
      "step": 37000
    },
    {
      "epoch": 0.3701,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5921712239583333,
      "learning_rate": 0.0003,
      "loss": 11.2832,
      "loss/aux_loss": 0.048074906878173354,
      "loss/crossentropy": 2.8368687868118285,
      "loss/logits": 0.8303968459367752,
      "step": 37010
    },
    {
      "epoch": 0.3702,
      "grad_norm": 12.625,
      "grad_norm_var": 59.25792643229167,
      "learning_rate": 0.0003,
      "loss": 11.1296,
      "loss/aux_loss": 0.048082617297768596,
      "loss/crossentropy": 2.7732748210430147,
      "loss/logits": 0.8518129020929337,
      "step": 37020
    },
    {
      "epoch": 0.3703,
      "grad_norm": 13.5625,
      "grad_norm_var": 157.23645833333333,
      "learning_rate": 0.0003,
      "loss": 11.4101,
      "loss/aux_loss": 0.04808836504817009,
      "loss/crossentropy": 2.71566726565361,
      "loss/logits": 0.8372407227754592,
      "step": 37030
    },
    {
      "epoch": 0.3704,
      "grad_norm": 14.5,
      "grad_norm_var": 115.4890625,
      "learning_rate": 0.0003,
      "loss": 11.4471,
      "loss/aux_loss": 0.04808253161609173,
      "loss/crossentropy": 2.8112912774086,
      "loss/logits": 0.8763896584510803,
      "step": 37040
    },
    {
      "epoch": 0.3705,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.4981770833333333,
      "learning_rate": 0.0003,
      "loss": 11.2863,
      "loss/aux_loss": 0.048083126358687875,
      "loss/crossentropy": 2.740783101320267,
      "loss/logits": 0.8048513799905777,
      "step": 37050
    },
    {
      "epoch": 0.3706,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.5832682291666667,
      "learning_rate": 0.0003,
      "loss": 11.2289,
      "loss/aux_loss": 0.04807225782424211,
      "loss/crossentropy": 2.809919023513794,
      "loss/logits": 0.8596052765846253,
      "step": 37060
    },
    {
      "epoch": 0.3707,
      "grad_norm": 13.625,
      "grad_norm_var": 0.32667643229166665,
      "learning_rate": 0.0003,
      "loss": 11.2248,
      "loss/aux_loss": 0.04808387588709593,
      "loss/crossentropy": 2.8138983845710754,
      "loss/logits": 0.8710784047842026,
      "step": 37070
    },
    {
      "epoch": 0.3708,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.35989583333333336,
      "learning_rate": 0.0003,
      "loss": 11.4458,
      "loss/aux_loss": 0.04807316083461046,
      "loss/crossentropy": 2.647478461265564,
      "loss/logits": 0.8652923613786697,
      "step": 37080
    },
    {
      "epoch": 0.3709,
      "grad_norm": 14.125,
      "grad_norm_var": 90.54837239583334,
      "learning_rate": 0.0003,
      "loss": 11.3368,
      "loss/aux_loss": 0.04807783383876085,
      "loss/crossentropy": 2.7728021681308745,
      "loss/logits": 0.8556511580944062,
      "step": 37090
    },
    {
      "epoch": 0.371,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.5078125,
      "learning_rate": 0.0003,
      "loss": 11.2261,
      "loss/aux_loss": 0.04807612337172031,
      "loss/crossentropy": 2.7843292593955993,
      "loss/logits": 0.8542019307613373,
      "step": 37100
    },
    {
      "epoch": 0.3711,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.3551432291666667,
      "learning_rate": 0.0003,
      "loss": 11.4133,
      "loss/aux_loss": 0.048083677515387536,
      "loss/crossentropy": 2.768745648860931,
      "loss/logits": 0.8667060941457748,
      "step": 37110
    },
    {
      "epoch": 0.3712,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.38748372395833336,
      "learning_rate": 0.0003,
      "loss": 11.2222,
      "loss/aux_loss": 0.04808000139892101,
      "loss/crossentropy": 2.6551915645599364,
      "loss/logits": 0.8254688054323196,
      "step": 37120
    },
    {
      "epoch": 0.3713,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.41534830729166666,
      "learning_rate": 0.0003,
      "loss": 11.1694,
      "loss/aux_loss": 0.048072263970971106,
      "loss/crossentropy": 2.6525086402893066,
      "loss/logits": 0.8595420539379119,
      "step": 37130
    },
    {
      "epoch": 0.3714,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.739306640625,
      "learning_rate": 0.0003,
      "loss": 11.2952,
      "loss/aux_loss": 0.04807467870414257,
      "loss/crossentropy": 2.77539883852005,
      "loss/logits": 0.8893805712461471,
      "step": 37140
    },
    {
      "epoch": 0.3715,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.8153645833333333,
      "learning_rate": 0.0003,
      "loss": 11.3194,
      "loss/aux_loss": 0.04808569923043251,
      "loss/crossentropy": 2.7440546989440917,
      "loss/logits": 0.855570039153099,
      "step": 37150
    },
    {
      "epoch": 0.3716,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.5109212239583333,
      "learning_rate": 0.0003,
      "loss": 11.1757,
      "loss/aux_loss": 0.04810119271278381,
      "loss/crossentropy": 2.6668431758880615,
      "loss/logits": 0.8302851766347885,
      "step": 37160
    },
    {
      "epoch": 0.3717,
      "grad_norm": 14.0,
      "grad_norm_var": 1.3648274739583333,
      "learning_rate": 0.0003,
      "loss": 11.3603,
      "loss/aux_loss": 0.048070420511066914,
      "loss/crossentropy": 2.657299679517746,
      "loss/logits": 0.8717033207416535,
      "step": 37170
    },
    {
      "epoch": 0.3718,
      "grad_norm": 13.0625,
      "grad_norm_var": 1.5200358072916667,
      "learning_rate": 0.0003,
      "loss": 11.2216,
      "loss/aux_loss": 0.048081215284764764,
      "loss/crossentropy": 2.9752244472503664,
      "loss/logits": 0.8586607486009598,
      "step": 37180
    },
    {
      "epoch": 0.3719,
      "grad_norm": 12.75,
      "grad_norm_var": 0.29108072916666666,
      "learning_rate": 0.0003,
      "loss": 11.3228,
      "loss/aux_loss": 0.04807878099381924,
      "loss/crossentropy": 2.8252045154571532,
      "loss/logits": 0.8735492646694183,
      "step": 37190
    },
    {
      "epoch": 0.372,
      "grad_norm": 16.375,
      "grad_norm_var": 0.9677083333333333,
      "learning_rate": 0.0003,
      "loss": 11.4145,
      "loss/aux_loss": 0.04807718005031347,
      "loss/crossentropy": 2.825979804992676,
      "loss/logits": 0.8712354183197022,
      "step": 37200
    },
    {
      "epoch": 0.3721,
      "grad_norm": 12.8125,
      "grad_norm_var": 1.1072916666666666,
      "learning_rate": 0.0003,
      "loss": 11.1937,
      "loss/aux_loss": 0.04808374121785164,
      "loss/crossentropy": 2.5838040828704836,
      "loss/logits": 0.8319817185401917,
      "step": 37210
    },
    {
      "epoch": 0.3722,
      "grad_norm": 14.0,
      "grad_norm_var": 0.42120768229166666,
      "learning_rate": 0.0003,
      "loss": 11.3134,
      "loss/aux_loss": 0.04806477259844542,
      "loss/crossentropy": 2.7815585494041444,
      "loss/logits": 0.8544807106256485,
      "step": 37220
    },
    {
      "epoch": 0.3723,
      "grad_norm": 13.125,
      "grad_norm_var": 0.433056640625,
      "learning_rate": 0.0003,
      "loss": 11.2287,
      "loss/aux_loss": 0.04808630477637053,
      "loss/crossentropy": 2.6713213086128236,
      "loss/logits": 0.8477931290864944,
      "step": 37230
    },
    {
      "epoch": 0.3724,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.4471354166666667,
      "learning_rate": 0.0003,
      "loss": 11.3342,
      "loss/aux_loss": 0.04807670786976814,
      "loss/crossentropy": 2.6989696443080904,
      "loss/logits": 0.8390361964702606,
      "step": 37240
    },
    {
      "epoch": 0.3725,
      "grad_norm": 14.25,
      "grad_norm_var": 0.36354166666666665,
      "learning_rate": 0.0003,
      "loss": 11.1887,
      "loss/aux_loss": 0.048072361201047895,
      "loss/crossentropy": 2.6670637369155883,
      "loss/logits": 0.8481419175863266,
      "step": 37250
    },
    {
      "epoch": 0.3726,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.30670572916666666,
      "learning_rate": 0.0003,
      "loss": 11.2535,
      "loss/aux_loss": 0.04808654896914959,
      "loss/crossentropy": 2.7662817001342774,
      "loss/logits": 0.8623171299695969,
      "step": 37260
    },
    {
      "epoch": 0.3727,
      "grad_norm": 14.625,
      "grad_norm_var": 0.3473307291666667,
      "learning_rate": 0.0003,
      "loss": 11.313,
      "loss/aux_loss": 0.04807217847555876,
      "loss/crossentropy": 2.655113381147385,
      "loss/logits": 0.8379829883575439,
      "step": 37270
    },
    {
      "epoch": 0.3728,
      "grad_norm": 13.625,
      "grad_norm_var": 0.364306640625,
      "learning_rate": 0.0003,
      "loss": 11.3619,
      "loss/aux_loss": 0.04807236138731241,
      "loss/crossentropy": 2.7911306262016295,
      "loss/logits": 0.8533078819513321,
      "step": 37280
    },
    {
      "epoch": 0.3729,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.4390462239583333,
      "learning_rate": 0.0003,
      "loss": 11.2455,
      "loss/aux_loss": 0.048087391443550585,
      "loss/crossentropy": 2.675192391872406,
      "loss/logits": 0.8323038935661315,
      "step": 37290
    },
    {
      "epoch": 0.373,
      "grad_norm": 13.125,
      "grad_norm_var": 0.30909830729166665,
      "learning_rate": 0.0003,
      "loss": 11.2423,
      "loss/aux_loss": 0.048072326742112634,
      "loss/crossentropy": 2.807281959056854,
      "loss/logits": 0.8477059155702591,
      "step": 37300
    },
    {
      "epoch": 0.3731,
      "grad_norm": 13.625,
      "grad_norm_var": 0.7629557291666667,
      "learning_rate": 0.0003,
      "loss": 11.139,
      "loss/aux_loss": 0.04808030799031258,
      "loss/crossentropy": 2.8326464533805846,
      "loss/logits": 0.8708844691514969,
      "step": 37310
    },
    {
      "epoch": 0.3732,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.43430989583333335,
      "learning_rate": 0.0003,
      "loss": 11.3773,
      "loss/aux_loss": 0.04808178097009659,
      "loss/crossentropy": 2.7206430673599242,
      "loss/logits": 0.9048705369234085,
      "step": 37320
    },
    {
      "epoch": 0.3733,
      "grad_norm": 14.0,
      "grad_norm_var": 0.294775390625,
      "learning_rate": 0.0003,
      "loss": 11.1414,
      "loss/aux_loss": 0.04806458819657564,
      "loss/crossentropy": 2.6413770437240602,
      "loss/logits": 0.8203712821006774,
      "step": 37330
    },
    {
      "epoch": 0.3734,
      "grad_norm": 14.125,
      "grad_norm_var": 0.38515625,
      "learning_rate": 0.0003,
      "loss": 11.193,
      "loss/aux_loss": 0.04807915184646845,
      "loss/crossentropy": 2.800459563732147,
      "loss/logits": 0.8518052160739898,
      "step": 37340
    },
    {
      "epoch": 0.3735,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5583170572916667,
      "learning_rate": 0.0003,
      "loss": 11.2843,
      "loss/aux_loss": 0.04809236507862806,
      "loss/crossentropy": 2.648477429151535,
      "loss/logits": 0.8216162532567978,
      "step": 37350
    },
    {
      "epoch": 0.3736,
      "grad_norm": 17.125,
      "grad_norm_var": 1.143212890625,
      "learning_rate": 0.0003,
      "loss": 11.4077,
      "loss/aux_loss": 0.048064970411360264,
      "loss/crossentropy": 2.7521123051643372,
      "loss/logits": 0.8703978210687637,
      "step": 37360
    },
    {
      "epoch": 0.3737,
      "grad_norm": 14.25,
      "grad_norm_var": 1.049462890625,
      "learning_rate": 0.0003,
      "loss": 11.4275,
      "loss/aux_loss": 0.04807972647249699,
      "loss/crossentropy": 2.737633216381073,
      "loss/logits": 0.8671592533588409,
      "step": 37370
    },
    {
      "epoch": 0.3738,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.2950520833333333,
      "learning_rate": 0.0003,
      "loss": 11.1968,
      "loss/aux_loss": 0.04807094354182482,
      "loss/crossentropy": 2.7768781900405886,
      "loss/logits": 0.8548236817121506,
      "step": 37380
    },
    {
      "epoch": 0.3739,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.4281087239583333,
      "learning_rate": 0.0003,
      "loss": 11.4145,
      "loss/aux_loss": 0.048079249635338786,
      "loss/crossentropy": 2.779543364048004,
      "loss/logits": 0.82299225628376,
      "step": 37390
    },
    {
      "epoch": 0.374,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.34524739583333336,
      "learning_rate": 0.0003,
      "loss": 11.385,
      "loss/aux_loss": 0.04807200077921152,
      "loss/crossentropy": 2.843193084001541,
      "loss/logits": 0.8840054035186767,
      "step": 37400
    },
    {
      "epoch": 0.3741,
      "grad_norm": 15.125,
      "grad_norm_var": 0.2822265625,
      "learning_rate": 0.0003,
      "loss": 11.3311,
      "loss/aux_loss": 0.04806772284209728,
      "loss/crossentropy": 2.692880618572235,
      "loss/logits": 0.827517831325531,
      "step": 37410
    },
    {
      "epoch": 0.3742,
      "grad_norm": 13.0,
      "grad_norm_var": 0.3374837239583333,
      "learning_rate": 0.0003,
      "loss": 11.3374,
      "loss/aux_loss": 0.04807442184537649,
      "loss/crossentropy": 2.8666168451309204,
      "loss/logits": 0.8572170734405518,
      "step": 37420
    },
    {
      "epoch": 0.3743,
      "grad_norm": 13.875,
      "grad_norm_var": 0.5565104166666667,
      "learning_rate": 0.0003,
      "loss": 11.4877,
      "loss/aux_loss": 0.04808829519897699,
      "loss/crossentropy": 2.800356590747833,
      "loss/logits": 0.8869089663028717,
      "step": 37430
    },
    {
      "epoch": 0.3744,
      "grad_norm": 14.125,
      "grad_norm_var": 0.56875,
      "learning_rate": 0.0003,
      "loss": 11.1438,
      "loss/aux_loss": 0.04806892778724432,
      "loss/crossentropy": 2.55942959189415,
      "loss/logits": 0.8205576926469803,
      "step": 37440
    },
    {
      "epoch": 0.3745,
      "grad_norm": 14.375,
      "grad_norm_var": 3.4124348958333335,
      "learning_rate": 0.0003,
      "loss": 11.219,
      "loss/aux_loss": 0.04807998221367597,
      "loss/crossentropy": 2.665431547164917,
      "loss/logits": 0.8188263595104217,
      "step": 37450
    },
    {
      "epoch": 0.3746,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.7863932291666667,
      "learning_rate": 0.0003,
      "loss": 11.2692,
      "loss/aux_loss": 0.04808599669486284,
      "loss/crossentropy": 2.5414306223392487,
      "loss/logits": 0.8146803647279739,
      "step": 37460
    },
    {
      "epoch": 0.3747,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.5702473958333333,
      "learning_rate": 0.0003,
      "loss": 11.1549,
      "loss/aux_loss": 0.04807412289083004,
      "loss/crossentropy": 2.700755310058594,
      "loss/logits": 0.8417092651128769,
      "step": 37470
    },
    {
      "epoch": 0.3748,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.292041015625,
      "learning_rate": 0.0003,
      "loss": 11.2612,
      "loss/aux_loss": 0.04807847496122122,
      "loss/crossentropy": 2.6125539779663085,
      "loss/logits": 0.8809157848358155,
      "step": 37480
    },
    {
      "epoch": 0.3749,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.49264322916666664,
      "learning_rate": 0.0003,
      "loss": 11.1776,
      "loss/aux_loss": 0.0480781901627779,
      "loss/crossentropy": 2.731597048044205,
      "loss/logits": 0.8342852920293808,
      "step": 37490
    },
    {
      "epoch": 0.375,
      "grad_norm": 13.375,
      "grad_norm_var": 0.9214680989583334,
      "learning_rate": 0.0003,
      "loss": 11.1111,
      "loss/aux_loss": 0.04808135274797678,
      "loss/crossentropy": 2.7630858182907105,
      "loss/logits": 0.8406100690364837,
      "step": 37500
    },
    {
      "epoch": 0.3751,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.7954264322916667,
      "learning_rate": 0.0003,
      "loss": 11.2801,
      "loss/aux_loss": 0.04807340987026691,
      "loss/crossentropy": 2.808059513568878,
      "loss/logits": 0.8589271575212478,
      "step": 37510
    },
    {
      "epoch": 0.3752,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.18409830729166668,
      "learning_rate": 0.0003,
      "loss": 11.3453,
      "loss/aux_loss": 0.04808524418622255,
      "loss/crossentropy": 2.832816928625107,
      "loss/logits": 0.87020343542099,
      "step": 37520
    },
    {
      "epoch": 0.3753,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.19895833333333332,
      "learning_rate": 0.0003,
      "loss": 11.2984,
      "loss/aux_loss": 0.0480803806334734,
      "loss/crossentropy": 2.7448639810085296,
      "loss/logits": 0.8650804668664932,
      "step": 37530
    },
    {
      "epoch": 0.3754,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.29713541666666665,
      "learning_rate": 0.0003,
      "loss": 11.2711,
      "loss/aux_loss": 0.04808024540543556,
      "loss/crossentropy": 2.723136955499649,
      "loss/logits": 0.8429204732179642,
      "step": 37540
    },
    {
      "epoch": 0.3755,
      "grad_norm": 13.125,
      "grad_norm_var": 0.4122233072916667,
      "learning_rate": 0.0003,
      "loss": 11.3523,
      "loss/aux_loss": 0.04806947018951178,
      "loss/crossentropy": 2.7606225490570067,
      "loss/logits": 0.8683151304721832,
      "step": 37550
    },
    {
      "epoch": 0.3756,
      "grad_norm": 12.8125,
      "grad_norm_var": 2.58828125,
      "learning_rate": 0.0003,
      "loss": 11.3345,
      "loss/aux_loss": 0.048083030991256236,
      "loss/crossentropy": 2.5333042323589323,
      "loss/logits": 0.8388000845909118,
      "step": 37560
    },
    {
      "epoch": 0.3757,
      "grad_norm": 18.375,
      "grad_norm_var": 295.15208333333334,
      "learning_rate": 0.0003,
      "loss": 11.4007,
      "loss/aux_loss": 0.04808737169951201,
      "loss/crossentropy": 2.724211460351944,
      "loss/logits": 0.8297827035188675,
      "step": 37570
    },
    {
      "epoch": 0.3758,
      "grad_norm": 13.9375,
      "grad_norm_var": 292.0377604166667,
      "learning_rate": 0.0003,
      "loss": 11.2395,
      "loss/aux_loss": 0.048087266832590105,
      "loss/crossentropy": 2.724383169412613,
      "loss/logits": 0.8737955868244172,
      "step": 37580
    },
    {
      "epoch": 0.3759,
      "grad_norm": 14.0,
      "grad_norm_var": 0.43865559895833334,
      "learning_rate": 0.0003,
      "loss": 11.2987,
      "loss/aux_loss": 0.04807658027857542,
      "loss/crossentropy": 2.810201585292816,
      "loss/logits": 0.8624020755290985,
      "step": 37590
    },
    {
      "epoch": 0.376,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.5176920572916667,
      "learning_rate": 0.0003,
      "loss": 11.3521,
      "loss/aux_loss": 0.048078496009111404,
      "loss/crossentropy": 2.75020290017128,
      "loss/logits": 0.8415679961442948,
      "step": 37600
    },
    {
      "epoch": 0.3761,
      "grad_norm": 14.875,
      "grad_norm_var": 0.5782389322916667,
      "learning_rate": 0.0003,
      "loss": 11.1843,
      "loss/aux_loss": 0.04807473961263895,
      "loss/crossentropy": 2.7164148449897767,
      "loss/logits": 0.8833770871162414,
      "step": 37610
    },
    {
      "epoch": 0.3762,
      "grad_norm": 15.375,
      "grad_norm_var": 0.7687337239583333,
      "learning_rate": 0.0003,
      "loss": 11.2037,
      "loss/aux_loss": 0.04808453526347876,
      "loss/crossentropy": 2.697547745704651,
      "loss/logits": 0.8366124957799912,
      "step": 37620
    },
    {
      "epoch": 0.3763,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.7102701822916667,
      "learning_rate": 0.0003,
      "loss": 11.4474,
      "loss/aux_loss": 0.04807381797581911,
      "loss/crossentropy": 2.698218834400177,
      "loss/logits": 0.8631418794393539,
      "step": 37630
    },
    {
      "epoch": 0.3764,
      "grad_norm": 13.625,
      "grad_norm_var": 0.265087890625,
      "learning_rate": 0.0003,
      "loss": 11.2557,
      "loss/aux_loss": 0.04807877913117409,
      "loss/crossentropy": 2.5806887984275817,
      "loss/logits": 0.8300289899110794,
      "step": 37640
    },
    {
      "epoch": 0.3765,
      "grad_norm": 13.625,
      "grad_norm_var": 0.4354166666666667,
      "learning_rate": 0.0003,
      "loss": 11.2533,
      "loss/aux_loss": 0.048092398792505264,
      "loss/crossentropy": 2.6587139785289766,
      "loss/logits": 0.8522565513849258,
      "step": 37650
    },
    {
      "epoch": 0.3766,
      "grad_norm": 14.6875,
      "grad_norm_var": 23.364957682291667,
      "learning_rate": 0.0003,
      "loss": 11.3313,
      "loss/aux_loss": 0.048093941807746884,
      "loss/crossentropy": 2.806702709197998,
      "loss/logits": 0.8423727869987487,
      "step": 37660
    },
    {
      "epoch": 0.3767,
      "grad_norm": 17.75,
      "grad_norm_var": 442.132275390625,
      "learning_rate": 0.0003,
      "loss": 11.307,
      "loss/aux_loss": 0.04808268621563912,
      "loss/crossentropy": 2.6064475953578947,
      "loss/logits": 0.8261544018983841,
      "step": 37670
    },
    {
      "epoch": 0.3768,
      "grad_norm": 15.875,
      "grad_norm_var": 14.4119140625,
      "learning_rate": 0.0003,
      "loss": 11.3099,
      "loss/aux_loss": 0.04807278923690319,
      "loss/crossentropy": 2.6616617262363436,
      "loss/logits": 0.8287598133087158,
      "step": 37680
    },
    {
      "epoch": 0.3769,
      "grad_norm": 15.1875,
      "grad_norm_var": 2.6393229166666665,
      "learning_rate": 0.0003,
      "loss": 11.2747,
      "loss/aux_loss": 0.04807351883500814,
      "loss/crossentropy": 2.8991053104400635,
      "loss/logits": 0.8774980515241623,
      "step": 37690
    },
    {
      "epoch": 0.377,
      "grad_norm": 13.5,
      "grad_norm_var": 1.1721354166666667,
      "learning_rate": 0.0003,
      "loss": 11.3018,
      "loss/aux_loss": 0.04807792901992798,
      "loss/crossentropy": 2.793347454071045,
      "loss/logits": 0.8624837636947632,
      "step": 37700
    },
    {
      "epoch": 0.3771,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.9067057291666667,
      "learning_rate": 0.0003,
      "loss": 11.1449,
      "loss/aux_loss": 0.04807579685002565,
      "loss/crossentropy": 2.564465194940567,
      "loss/logits": 0.8291731148958206,
      "step": 37710
    },
    {
      "epoch": 0.3772,
      "grad_norm": 12.1875,
      "grad_norm_var": 0.49733072916666665,
      "learning_rate": 0.0003,
      "loss": 11.1825,
      "loss/aux_loss": 0.0480663126334548,
      "loss/crossentropy": 2.8131748914718626,
      "loss/logits": 0.8564931780099869,
      "step": 37720
    },
    {
      "epoch": 0.3773,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.3179524739583333,
      "learning_rate": 0.0003,
      "loss": 11.1927,
      "loss/aux_loss": 0.04809189885854721,
      "loss/crossentropy": 2.8035511016845702,
      "loss/logits": 0.8402773588895798,
      "step": 37730
    },
    {
      "epoch": 0.3774,
      "grad_norm": 13.375,
      "grad_norm_var": 1.3494140625,
      "learning_rate": 0.0003,
      "loss": 11.2049,
      "loss/aux_loss": 0.048071368038654326,
      "loss/crossentropy": 2.788879954814911,
      "loss/logits": 0.8656217336654664,
      "step": 37740
    },
    {
      "epoch": 0.3775,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.861962890625,
      "learning_rate": 0.0003,
      "loss": 11.0996,
      "loss/aux_loss": 0.04808103609830141,
      "loss/crossentropy": 2.627894651889801,
      "loss/logits": 0.8183565735816956,
      "step": 37750
    },
    {
      "epoch": 0.3776,
      "grad_norm": 14.4375,
      "grad_norm_var": 1.5488932291666666,
      "learning_rate": 0.0003,
      "loss": 11.2273,
      "loss/aux_loss": 0.048079018481075764,
      "loss/crossentropy": 2.7429580628871917,
      "loss/logits": 0.8102349221706391,
      "step": 37760
    },
    {
      "epoch": 0.3777,
      "grad_norm": 14.0,
      "grad_norm_var": 1.4503743489583334,
      "learning_rate": 0.0003,
      "loss": 11.3375,
      "loss/aux_loss": 0.0480774000287056,
      "loss/crossentropy": 2.7857055068016052,
      "loss/logits": 0.8557232707738877,
      "step": 37770
    },
    {
      "epoch": 0.3778,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.51875,
      "learning_rate": 0.0003,
      "loss": 11.3197,
      "loss/aux_loss": 0.04807243067771196,
      "loss/crossentropy": 2.889014649391174,
      "loss/logits": 0.8674527406692505,
      "step": 37780
    },
    {
      "epoch": 0.3779,
      "grad_norm": 14.0,
      "grad_norm_var": 0.2916015625,
      "learning_rate": 0.0003,
      "loss": 11.1796,
      "loss/aux_loss": 0.04807484410703182,
      "loss/crossentropy": 2.7089039623737334,
      "loss/logits": 0.8426949769258499,
      "step": 37790
    },
    {
      "epoch": 0.378,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.39576822916666665,
      "learning_rate": 0.0003,
      "loss": 11.2755,
      "loss/aux_loss": 0.048075446113944056,
      "loss/crossentropy": 2.6602770924568175,
      "loss/logits": 0.8283806025981904,
      "step": 37800
    },
    {
      "epoch": 0.3781,
      "grad_norm": 12.75,
      "grad_norm_var": 0.42962239583333334,
      "learning_rate": 0.0003,
      "loss": 11.205,
      "loss/aux_loss": 0.04808063935488462,
      "loss/crossentropy": 2.594762307405472,
      "loss/logits": 0.8218467265367508,
      "step": 37810
    },
    {
      "epoch": 0.3782,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.49933268229166666,
      "learning_rate": 0.0003,
      "loss": 11.1313,
      "loss/aux_loss": 0.048066642694175245,
      "loss/crossentropy": 2.5958735227584837,
      "loss/logits": 0.8756007015705108,
      "step": 37820
    },
    {
      "epoch": 0.3783,
      "grad_norm": 17.625,
      "grad_norm_var": 1.3032389322916667,
      "learning_rate": 0.0003,
      "loss": 11.283,
      "loss/aux_loss": 0.048081421107053754,
      "loss/crossentropy": 2.6480916321277617,
      "loss/logits": 0.8332589745521546,
      "step": 37830
    },
    {
      "epoch": 0.3784,
      "grad_norm": 15.125,
      "grad_norm_var": 1.1004557291666666,
      "learning_rate": 0.0003,
      "loss": 11.3192,
      "loss/aux_loss": 0.048070864751935005,
      "loss/crossentropy": 2.741181659698486,
      "loss/logits": 0.8588764518499374,
      "step": 37840
    },
    {
      "epoch": 0.3785,
      "grad_norm": 16.25,
      "grad_norm_var": 0.9374348958333333,
      "learning_rate": 0.0003,
      "loss": 11.4032,
      "loss/aux_loss": 0.048078233189880845,
      "loss/crossentropy": 2.9572018921375274,
      "loss/logits": 0.8699509769678115,
      "step": 37850
    },
    {
      "epoch": 0.3786,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.9024576822916667,
      "learning_rate": 0.0003,
      "loss": 11.2661,
      "loss/aux_loss": 0.048085720464587214,
      "loss/crossentropy": 2.580213463306427,
      "loss/logits": 0.7983238309621811,
      "step": 37860
    },
    {
      "epoch": 0.3787,
      "grad_norm": 14.125,
      "grad_norm_var": 0.342041015625,
      "learning_rate": 0.0003,
      "loss": 11.4754,
      "loss/aux_loss": 0.04807271733880043,
      "loss/crossentropy": 2.709409844875336,
      "loss/logits": 0.8600565820932389,
      "step": 37870
    },
    {
      "epoch": 0.3788,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.4671223958333333,
      "learning_rate": 0.0003,
      "loss": 11.281,
      "loss/aux_loss": 0.048080405406653884,
      "loss/crossentropy": 2.82181898355484,
      "loss/logits": 0.8688194662332535,
      "step": 37880
    },
    {
      "epoch": 0.3789,
      "grad_norm": 14.25,
      "grad_norm_var": 1.0020182291666666,
      "learning_rate": 0.0003,
      "loss": 11.2233,
      "loss/aux_loss": 0.04807996470481157,
      "loss/crossentropy": 2.773501121997833,
      "loss/logits": 0.8502937823534011,
      "step": 37890
    },
    {
      "epoch": 0.379,
      "grad_norm": 13.875,
      "grad_norm_var": 0.25467122395833336,
      "learning_rate": 0.0003,
      "loss": 11.2839,
      "loss/aux_loss": 0.048080760054290295,
      "loss/crossentropy": 2.6579030215740205,
      "loss/logits": 0.8489834278821945,
      "step": 37900
    },
    {
      "epoch": 0.3791,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.21328125,
      "learning_rate": 0.0003,
      "loss": 11.2377,
      "loss/aux_loss": 0.04807602297514677,
      "loss/crossentropy": 2.6808858156204223,
      "loss/logits": 0.85300872027874,
      "step": 37910
    },
    {
      "epoch": 0.3792,
      "grad_norm": 13.125,
      "grad_norm_var": 1.8402180989583334,
      "learning_rate": 0.0003,
      "loss": 11.2778,
      "loss/aux_loss": 0.04807765781879425,
      "loss/crossentropy": 2.6116097033023835,
      "loss/logits": 0.8364583939313889,
      "step": 37920
    },
    {
      "epoch": 0.3793,
      "grad_norm": 13.0,
      "grad_norm_var": 1.376025390625,
      "learning_rate": 0.0003,
      "loss": 11.3479,
      "loss/aux_loss": 0.04807660095393658,
      "loss/crossentropy": 2.7459771037101746,
      "loss/logits": 0.8774673551321029,
      "step": 37930
    },
    {
      "epoch": 0.3794,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.4880208333333333,
      "learning_rate": 0.0003,
      "loss": 11.1755,
      "loss/aux_loss": 0.0480880094692111,
      "loss/crossentropy": 2.7383559942245483,
      "loss/logits": 0.8331858664751053,
      "step": 37940
    },
    {
      "epoch": 0.3795,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.3161458333333333,
      "learning_rate": 0.0003,
      "loss": 11.2232,
      "loss/aux_loss": 0.04807455353438854,
      "loss/crossentropy": 2.7862467050552366,
      "loss/logits": 0.8778936117887497,
      "step": 37950
    },
    {
      "epoch": 0.3796,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.651025390625,
      "learning_rate": 0.0003,
      "loss": 11.2377,
      "loss/aux_loss": 0.04807548765093088,
      "loss/crossentropy": 2.6477761268615723,
      "loss/logits": 0.8515429794788361,
      "step": 37960
    },
    {
      "epoch": 0.3797,
      "grad_norm": 14.875,
      "grad_norm_var": 0.5752604166666667,
      "learning_rate": 0.0003,
      "loss": 11.5044,
      "loss/aux_loss": 0.04807682652026415,
      "loss/crossentropy": 2.8267282128334044,
      "loss/logits": 0.8833474934101104,
      "step": 37970
    },
    {
      "epoch": 0.3798,
      "grad_norm": 13.625,
      "grad_norm_var": 0.4791666666666667,
      "learning_rate": 0.0003,
      "loss": 11.1736,
      "loss/aux_loss": 0.048078049533069135,
      "loss/crossentropy": 2.788653367757797,
      "loss/logits": 0.8569782227277756,
      "step": 37980
    },
    {
      "epoch": 0.3799,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.4383951822916667,
      "learning_rate": 0.0003,
      "loss": 11.267,
      "loss/aux_loss": 0.04807330220937729,
      "loss/crossentropy": 2.745168626308441,
      "loss/logits": 0.8513006120920181,
      "step": 37990
    },
    {
      "epoch": 0.38,
      "grad_norm": 14.25,
      "grad_norm_var": 0.7040201822916666,
      "learning_rate": 0.0003,
      "loss": 11.312,
      "loss/aux_loss": 0.048071262612938884,
      "loss/crossentropy": 2.828562021255493,
      "loss/logits": 0.8815089613199234,
      "step": 38000
    },
    {
      "epoch": 0.3801,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.5681640625,
      "learning_rate": 0.0003,
      "loss": 11.2651,
      "loss/aux_loss": 0.04807847216725349,
      "loss/crossentropy": 2.6953054130077363,
      "loss/logits": 0.841254535317421,
      "step": 38010
    },
    {
      "epoch": 0.3802,
      "grad_norm": 13.75,
      "grad_norm_var": 0.350634765625,
      "learning_rate": 0.0003,
      "loss": 11.2093,
      "loss/aux_loss": 0.04808027595281601,
      "loss/crossentropy": 2.7304549276828767,
      "loss/logits": 0.8305320262908935,
      "step": 38020
    },
    {
      "epoch": 0.3803,
      "grad_norm": 12.4375,
      "grad_norm_var": 0.2353515625,
      "learning_rate": 0.0003,
      "loss": 11.2175,
      "loss/aux_loss": 0.04807380642741919,
      "loss/crossentropy": 2.672012412548065,
      "loss/logits": 0.8408935517072678,
      "step": 38030
    },
    {
      "epoch": 0.3804,
      "grad_norm": 14.125,
      "grad_norm_var": 0.23748372395833334,
      "learning_rate": 0.0003,
      "loss": 11.3549,
      "loss/aux_loss": 0.04807410296052694,
      "loss/crossentropy": 2.8609830141067505,
      "loss/logits": 0.8738586813211441,
      "step": 38040
    },
    {
      "epoch": 0.3805,
      "grad_norm": 14.5,
      "grad_norm_var": 1.24921875,
      "learning_rate": 0.0003,
      "loss": 11.2491,
      "loss/aux_loss": 0.048076963238418105,
      "loss/crossentropy": 2.8962836384773256,
      "loss/logits": 0.8688966006040573,
      "step": 38050
    },
    {
      "epoch": 0.3806,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.5122395833333333,
      "learning_rate": 0.0003,
      "loss": 11.361,
      "loss/aux_loss": 0.04807176198810339,
      "loss/crossentropy": 2.8302778005599976,
      "loss/logits": 0.8801500231027604,
      "step": 38060
    },
    {
      "epoch": 0.3807,
      "grad_norm": 14.125,
      "grad_norm_var": 0.35480143229166666,
      "learning_rate": 0.0003,
      "loss": 11.2694,
      "loss/aux_loss": 0.048076769523322585,
      "loss/crossentropy": 2.6821465611457826,
      "loss/logits": 0.8561849266290664,
      "step": 38070
    },
    {
      "epoch": 0.3808,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.4009765625,
      "learning_rate": 0.0003,
      "loss": 11.2842,
      "loss/aux_loss": 0.04807623084634542,
      "loss/crossentropy": 2.868058133125305,
      "loss/logits": 0.8749160617589951,
      "step": 38080
    },
    {
      "epoch": 0.3809,
      "grad_norm": 14.625,
      "grad_norm_var": 0.6916015625,
      "learning_rate": 0.0003,
      "loss": 11.2862,
      "loss/aux_loss": 0.0480802733451128,
      "loss/crossentropy": 2.762987458705902,
      "loss/logits": 0.8203055411577225,
      "step": 38090
    },
    {
      "epoch": 0.381,
      "grad_norm": 14.75,
      "grad_norm_var": 0.3472493489583333,
      "learning_rate": 0.0003,
      "loss": 11.267,
      "loss/aux_loss": 0.0480813367292285,
      "loss/crossentropy": 2.5167156994342803,
      "loss/logits": 0.8391987591981888,
      "step": 38100
    },
    {
      "epoch": 0.3811,
      "grad_norm": 14.5,
      "grad_norm_var": 0.3890462239583333,
      "learning_rate": 0.0003,
      "loss": 11.3582,
      "loss/aux_loss": 0.04806756749749184,
      "loss/crossentropy": 2.9812386274337768,
      "loss/logits": 0.8828330308198928,
      "step": 38110
    },
    {
      "epoch": 0.3812,
      "grad_norm": 15.375,
      "grad_norm_var": 0.619775390625,
      "learning_rate": 0.0003,
      "loss": 11.2353,
      "loss/aux_loss": 0.048090960085392,
      "loss/crossentropy": 2.782704734802246,
      "loss/logits": 0.8270899027585983,
      "step": 38120
    },
    {
      "epoch": 0.3813,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.73515625,
      "learning_rate": 0.0003,
      "loss": 11.2608,
      "loss/aux_loss": 0.048075029626488686,
      "loss/crossentropy": 2.669895362854004,
      "loss/logits": 0.8388209640979767,
      "step": 38130
    },
    {
      "epoch": 0.3814,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.5979166666666667,
      "learning_rate": 0.0003,
      "loss": 11.3802,
      "loss/aux_loss": 0.048083779774606226,
      "loss/crossentropy": 2.775761139392853,
      "loss/logits": 0.8643197298049927,
      "step": 38140
    },
    {
      "epoch": 0.3815,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.6613932291666667,
      "learning_rate": 0.0003,
      "loss": 11.0835,
      "loss/aux_loss": 0.04807844534516335,
      "loss/crossentropy": 2.769335401058197,
      "loss/logits": 0.822916254401207,
      "step": 38150
    },
    {
      "epoch": 0.3816,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.9258951822916667,
      "learning_rate": 0.0003,
      "loss": 11.2522,
      "loss/aux_loss": 0.0480781301856041,
      "loss/crossentropy": 2.5931221723556517,
      "loss/logits": 0.8241954296827316,
      "step": 38160
    },
    {
      "epoch": 0.3817,
      "grad_norm": 13.5,
      "grad_norm_var": 0.6152180989583333,
      "learning_rate": 0.0003,
      "loss": 11.2332,
      "loss/aux_loss": 0.048073183931410315,
      "loss/crossentropy": 2.7164094507694245,
      "loss/logits": 0.8017847687005997,
      "step": 38170
    },
    {
      "epoch": 0.3818,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.450244140625,
      "learning_rate": 0.0003,
      "loss": 11.2502,
      "loss/aux_loss": 0.04807348102331162,
      "loss/crossentropy": 2.7940221190452577,
      "loss/logits": 0.8343671351671219,
      "step": 38180
    },
    {
      "epoch": 0.3819,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.46608072916666665,
      "learning_rate": 0.0003,
      "loss": 11.1612,
      "loss/aux_loss": 0.04808283261954784,
      "loss/crossentropy": 2.659856015443802,
      "loss/logits": 0.80497907102108,
      "step": 38190
    },
    {
      "epoch": 0.382,
      "grad_norm": 12.875,
      "grad_norm_var": 0.581884765625,
      "learning_rate": 0.0003,
      "loss": 11.3037,
      "loss/aux_loss": 0.04806670006364584,
      "loss/crossentropy": 2.79791459441185,
      "loss/logits": 0.8519628554582596,
      "step": 38200
    },
    {
      "epoch": 0.3821,
      "grad_norm": 13.25,
      "grad_norm_var": 1.0557291666666666,
      "learning_rate": 0.0003,
      "loss": 11.0594,
      "loss/aux_loss": 0.04808285720646381,
      "loss/crossentropy": 2.640339195728302,
      "loss/logits": 0.7928971499204636,
      "step": 38210
    },
    {
      "epoch": 0.3822,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.9680826822916667,
      "learning_rate": 0.0003,
      "loss": 11.2579,
      "loss/aux_loss": 0.048081761412322524,
      "loss/crossentropy": 2.681269496679306,
      "loss/logits": 0.8393559873104095,
      "step": 38220
    },
    {
      "epoch": 0.3823,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.4390625,
      "learning_rate": 0.0003,
      "loss": 11.2653,
      "loss/aux_loss": 0.04807662703096867,
      "loss/crossentropy": 2.575548267364502,
      "loss/logits": 0.8309787482023239,
      "step": 38230
    },
    {
      "epoch": 0.3824,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.42967122395833335,
      "learning_rate": 0.0003,
      "loss": 11.2071,
      "loss/aux_loss": 0.04807767011225224,
      "loss/crossentropy": 2.598121851682663,
      "loss/logits": 0.8631124287843704,
      "step": 38240
    },
    {
      "epoch": 0.3825,
      "grad_norm": 14.0,
      "grad_norm_var": 0.17550455729166667,
      "learning_rate": 0.0003,
      "loss": 11.1865,
      "loss/aux_loss": 0.04808439090847969,
      "loss/crossentropy": 2.6111572325229644,
      "loss/logits": 0.7978465467691421,
      "step": 38250
    },
    {
      "epoch": 0.3826,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.5291015625,
      "learning_rate": 0.0003,
      "loss": 11.3335,
      "loss/aux_loss": 0.048076186701655386,
      "loss/crossentropy": 2.824894219636917,
      "loss/logits": 0.8665509730577469,
      "step": 38260
    },
    {
      "epoch": 0.3827,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.43826497395833336,
      "learning_rate": 0.0003,
      "loss": 11.3737,
      "loss/aux_loss": 0.04807574283331632,
      "loss/crossentropy": 2.7032552480697634,
      "loss/logits": 0.8640910536050797,
      "step": 38270
    },
    {
      "epoch": 0.3828,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.1030598958333333,
      "learning_rate": 0.0003,
      "loss": 11.3598,
      "loss/aux_loss": 0.04807320572435856,
      "loss/crossentropy": 2.7154432415962217,
      "loss/logits": 0.868793374300003,
      "step": 38280
    },
    {
      "epoch": 0.3829,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.3275390625,
      "learning_rate": 0.0003,
      "loss": 11.1598,
      "loss/aux_loss": 0.04809410870075226,
      "loss/crossentropy": 2.817612624168396,
      "loss/logits": 0.863050663471222,
      "step": 38290
    },
    {
      "epoch": 0.383,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.40675455729166665,
      "learning_rate": 0.0003,
      "loss": 11.2505,
      "loss/aux_loss": 0.04806933347135782,
      "loss/crossentropy": 2.6598378300666807,
      "loss/logits": 0.8606748700141906,
      "step": 38300
    },
    {
      "epoch": 0.3831,
      "grad_norm": 13.25,
      "grad_norm_var": 13.406705729166667,
      "learning_rate": 0.0003,
      "loss": 11.2905,
      "loss/aux_loss": 0.04808672070503235,
      "loss/crossentropy": 2.607471966743469,
      "loss/logits": 0.8459422647953033,
      "step": 38310
    },
    {
      "epoch": 0.3832,
      "grad_norm": 13.375,
      "grad_norm_var": 13.0916015625,
      "learning_rate": 0.0003,
      "loss": 11.3664,
      "loss/aux_loss": 0.04807449951767921,
      "loss/crossentropy": 2.73186194896698,
      "loss/logits": 0.8628045409917832,
      "step": 38320
    },
    {
      "epoch": 0.3833,
      "grad_norm": 15.3125,
      "grad_norm_var": 3.707145182291667,
      "learning_rate": 0.0003,
      "loss": 11.5162,
      "loss/aux_loss": 0.04808128159493208,
      "loss/crossentropy": 2.7736764550209045,
      "loss/logits": 0.8548513650894165,
      "step": 38330
    },
    {
      "epoch": 0.3834,
      "grad_norm": 14.625,
      "grad_norm_var": 0.7597493489583333,
      "learning_rate": 0.0003,
      "loss": 11.3973,
      "loss/aux_loss": 0.0480838356539607,
      "loss/crossentropy": 2.8341826438903808,
      "loss/logits": 0.8437968879938126,
      "step": 38340
    },
    {
      "epoch": 0.3835,
      "grad_norm": 16.625,
      "grad_norm_var": 0.7883951822916667,
      "learning_rate": 0.0003,
      "loss": 11.2896,
      "loss/aux_loss": 0.04808208886533975,
      "loss/crossentropy": 2.6580508768558504,
      "loss/logits": 0.8282568514347076,
      "step": 38350
    },
    {
      "epoch": 0.3836,
      "grad_norm": 13.125,
      "grad_norm_var": 0.77578125,
      "learning_rate": 0.0003,
      "loss": 11.4887,
      "loss/aux_loss": 0.04807929620146752,
      "loss/crossentropy": 2.7363623082637787,
      "loss/logits": 0.8577351301908493,
      "step": 38360
    },
    {
      "epoch": 0.3837,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.44244791666666666,
      "learning_rate": 0.0003,
      "loss": 11.4202,
      "loss/aux_loss": 0.04807289559394121,
      "loss/crossentropy": 2.8419145464897158,
      "loss/logits": 0.8924077719449997,
      "step": 38370
    },
    {
      "epoch": 0.3838,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.4704264322916667,
      "learning_rate": 0.0003,
      "loss": 11.2463,
      "loss/aux_loss": 0.0480803145095706,
      "loss/crossentropy": 2.823737806081772,
      "loss/logits": 0.8809779584407806,
      "step": 38380
    },
    {
      "epoch": 0.3839,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.5296875,
      "learning_rate": 0.0003,
      "loss": 11.3235,
      "loss/aux_loss": 0.04806930013000965,
      "loss/crossentropy": 2.7565455436706543,
      "loss/logits": 0.8279327541589737,
      "step": 38390
    },
    {
      "epoch": 0.384,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.4903483072916667,
      "learning_rate": 0.0003,
      "loss": 11.0918,
      "loss/aux_loss": 0.04807766154408455,
      "loss/crossentropy": 2.6135290563106537,
      "loss/logits": 0.8393938690423965,
      "step": 38400
    },
    {
      "epoch": 0.3841,
      "grad_norm": 33.0,
      "grad_norm_var": 24.82421875,
      "learning_rate": 0.0003,
      "loss": 11.1982,
      "loss/aux_loss": 0.04807633478194475,
      "loss/crossentropy": 2.6710329234600065,
      "loss/logits": 0.8311236262321472,
      "step": 38410
    },
    {
      "epoch": 0.3842,
      "grad_norm": 14.9375,
      "grad_norm_var": 22.696875,
      "learning_rate": 0.0003,
      "loss": 11.3847,
      "loss/aux_loss": 0.048079009726643564,
      "loss/crossentropy": 2.6408372461795806,
      "loss/logits": 0.8508718222379684,
      "step": 38420
    },
    {
      "epoch": 0.3843,
      "grad_norm": 14.5,
      "grad_norm_var": 0.7051432291666667,
      "learning_rate": 0.0003,
      "loss": 11.3346,
      "loss/aux_loss": 0.04808001890778542,
      "loss/crossentropy": 2.7175046026706697,
      "loss/logits": 0.8537416934967041,
      "step": 38430
    },
    {
      "epoch": 0.3844,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.5770833333333333,
      "learning_rate": 0.0003,
      "loss": 11.2761,
      "loss/aux_loss": 0.048079208470880985,
      "loss/crossentropy": 2.7895686745643617,
      "loss/logits": 0.8444579422473908,
      "step": 38440
    },
    {
      "epoch": 0.3845,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.8260416666666667,
      "learning_rate": 0.0003,
      "loss": 11.2037,
      "loss/aux_loss": 0.04807562418282032,
      "loss/crossentropy": 2.6479432761669157,
      "loss/logits": 0.839043453335762,
      "step": 38450
    },
    {
      "epoch": 0.3846,
      "grad_norm": 14.125,
      "grad_norm_var": 0.5632649739583333,
      "learning_rate": 0.0003,
      "loss": 11.2972,
      "loss/aux_loss": 0.04808216225355864,
      "loss/crossentropy": 2.7740365862846375,
      "loss/logits": 0.8312047332525253,
      "step": 38460
    },
    {
      "epoch": 0.3847,
      "grad_norm": 14.0,
      "grad_norm_var": 0.5236979166666667,
      "learning_rate": 0.0003,
      "loss": 11.2348,
      "loss/aux_loss": 0.04807409662753344,
      "loss/crossentropy": 2.7867905139923095,
      "loss/logits": 0.8606914162635804,
      "step": 38470
    },
    {
      "epoch": 0.3848,
      "grad_norm": 13.625,
      "grad_norm_var": 0.8204264322916667,
      "learning_rate": 0.0003,
      "loss": 11.1963,
      "loss/aux_loss": 0.04807875119149685,
      "loss/crossentropy": 2.7122581124305727,
      "loss/logits": 0.8468606352806092,
      "step": 38480
    },
    {
      "epoch": 0.3849,
      "grad_norm": 14.25,
      "grad_norm_var": 0.9686848958333333,
      "learning_rate": 0.0003,
      "loss": 11.2863,
      "loss/aux_loss": 0.04807748645544052,
      "loss/crossentropy": 2.779924100637436,
      "loss/logits": 0.8382695466279984,
      "step": 38490
    },
    {
      "epoch": 0.385,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.420556640625,
      "learning_rate": 0.0003,
      "loss": 11.3427,
      "loss/aux_loss": 0.0480777844786644,
      "loss/crossentropy": 2.725245749950409,
      "loss/logits": 0.8357455193996429,
      "step": 38500
    },
    {
      "epoch": 0.3851,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.518994140625,
      "learning_rate": 0.0003,
      "loss": 11.3015,
      "loss/aux_loss": 0.04808611571788788,
      "loss/crossentropy": 2.803503179550171,
      "loss/logits": 0.8664654195308685,
      "step": 38510
    },
    {
      "epoch": 0.3852,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.5083170572916667,
      "learning_rate": 0.0003,
      "loss": 11.0804,
      "loss/aux_loss": 0.048075488209724425,
      "loss/crossentropy": 2.8052771151065827,
      "loss/logits": 0.8602871984243393,
      "step": 38520
    },
    {
      "epoch": 0.3853,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.361181640625,
      "learning_rate": 0.0003,
      "loss": 11.2198,
      "loss/aux_loss": 0.04808064680546522,
      "loss/crossentropy": 2.808874398469925,
      "loss/logits": 0.8875895857810974,
      "step": 38530
    },
    {
      "epoch": 0.3854,
      "grad_norm": 13.25,
      "grad_norm_var": 0.572900390625,
      "learning_rate": 0.0003,
      "loss": 11.2937,
      "loss/aux_loss": 0.048069310747087,
      "loss/crossentropy": 2.7475598096847533,
      "loss/logits": 0.8482136219739914,
      "step": 38540
    },
    {
      "epoch": 0.3855,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.7632649739583334,
      "learning_rate": 0.0003,
      "loss": 11.2942,
      "loss/aux_loss": 0.04807958360761404,
      "loss/crossentropy": 2.6134680569171906,
      "loss/logits": 0.8251173198223114,
      "step": 38550
    },
    {
      "epoch": 0.3856,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.48587239583333336,
      "learning_rate": 0.0003,
      "loss": 11.2606,
      "loss/aux_loss": 0.048083121702075,
      "loss/crossentropy": 2.7685590624809264,
      "loss/logits": 0.852242037653923,
      "step": 38560
    },
    {
      "epoch": 0.3857,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.13802083333333334,
      "learning_rate": 0.0003,
      "loss": 11.3004,
      "loss/aux_loss": 0.04806161895394325,
      "loss/crossentropy": 2.70892972946167,
      "loss/logits": 0.8436130315065384,
      "step": 38570
    },
    {
      "epoch": 0.3858,
      "grad_norm": 15.0,
      "grad_norm_var": 0.8285807291666667,
      "learning_rate": 0.0003,
      "loss": 11.36,
      "loss/aux_loss": 0.04808020200580358,
      "loss/crossentropy": 2.798497807979584,
      "loss/logits": 0.8555373579263688,
      "step": 38580
    },
    {
      "epoch": 0.3859,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5480305989583333,
      "learning_rate": 0.0003,
      "loss": 11.1952,
      "loss/aux_loss": 0.04807691927999258,
      "loss/crossentropy": 2.627361184358597,
      "loss/logits": 0.854537034034729,
      "step": 38590
    },
    {
      "epoch": 0.386,
      "grad_norm": 13.75,
      "grad_norm_var": 0.245556640625,
      "learning_rate": 0.0003,
      "loss": 11.1977,
      "loss/aux_loss": 0.04807463120669127,
      "loss/crossentropy": 2.816139954328537,
      "loss/logits": 0.8892535716295242,
      "step": 38600
    },
    {
      "epoch": 0.3861,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.33670247395833336,
      "learning_rate": 0.0003,
      "loss": 11.2819,
      "loss/aux_loss": 0.04806935954838991,
      "loss/crossentropy": 2.7068843841552734,
      "loss/logits": 0.8351662307977676,
      "step": 38610
    },
    {
      "epoch": 0.3862,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.5954264322916667,
      "learning_rate": 0.0003,
      "loss": 11.3311,
      "loss/aux_loss": 0.048080881126224995,
      "loss/crossentropy": 2.768476206064224,
      "loss/logits": 0.8442646831274032,
      "step": 38620
    },
    {
      "epoch": 0.3863,
      "grad_norm": 13.625,
      "grad_norm_var": 0.31756184895833334,
      "learning_rate": 0.0003,
      "loss": 11.1192,
      "loss/aux_loss": 0.04808139074593783,
      "loss/crossentropy": 2.7400481700897217,
      "loss/logits": 0.8542584419250489,
      "step": 38630
    },
    {
      "epoch": 0.3864,
      "grad_norm": 12.9375,
      "grad_norm_var": 13.647395833333333,
      "learning_rate": 0.0003,
      "loss": 11.0828,
      "loss/aux_loss": 0.04807969853281975,
      "loss/crossentropy": 2.630267012119293,
      "loss/logits": 0.8385035455226898,
      "step": 38640
    },
    {
      "epoch": 0.3865,
      "grad_norm": 14.25,
      "grad_norm_var": 0.44921875,
      "learning_rate": 0.0003,
      "loss": 11.1954,
      "loss/aux_loss": 0.048078606836497784,
      "loss/crossentropy": 2.6999772429466247,
      "loss/logits": 0.8357056826353073,
      "step": 38650
    },
    {
      "epoch": 0.3866,
      "grad_norm": 15.375,
      "grad_norm_var": 0.5769368489583333,
      "learning_rate": 0.0003,
      "loss": 11.3088,
      "loss/aux_loss": 0.0480708010494709,
      "loss/crossentropy": 2.7469111561775206,
      "loss/logits": 0.8259833127260208,
      "step": 38660
    },
    {
      "epoch": 0.3867,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.7369140625,
      "learning_rate": 0.0003,
      "loss": 11.2538,
      "loss/aux_loss": 0.04808108452707529,
      "loss/crossentropy": 2.8682199835777284,
      "loss/logits": 0.8337242752313614,
      "step": 38670
    },
    {
      "epoch": 0.3868,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.902197265625,
      "learning_rate": 0.0003,
      "loss": 11.2038,
      "loss/aux_loss": 0.0480692382901907,
      "loss/crossentropy": 2.748265969753265,
      "loss/logits": 0.8487885296344757,
      "step": 38680
    },
    {
      "epoch": 0.3869,
      "grad_norm": 13.25,
      "grad_norm_var": 0.3020833333333333,
      "learning_rate": 0.0003,
      "loss": 11.2714,
      "loss/aux_loss": 0.04808627497404814,
      "loss/crossentropy": 2.6985159516334534,
      "loss/logits": 0.8388892740011216,
      "step": 38690
    },
    {
      "epoch": 0.387,
      "grad_norm": 18.25,
      "grad_norm_var": 1.5707682291666667,
      "learning_rate": 0.0003,
      "loss": 11.1927,
      "loss/aux_loss": 0.048079338297247885,
      "loss/crossentropy": 2.7121275901794433,
      "loss/logits": 0.8318122088909149,
      "step": 38700
    },
    {
      "epoch": 0.3871,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.6813639322916667,
      "learning_rate": 0.0003,
      "loss": 11.3357,
      "loss/aux_loss": 0.04807351864874363,
      "loss/crossentropy": 2.8397586047649384,
      "loss/logits": 0.8729697972536087,
      "step": 38710
    },
    {
      "epoch": 0.3872,
      "grad_norm": 14.125,
      "grad_norm_var": 0.5071451822916667,
      "learning_rate": 0.0003,
      "loss": 11.2126,
      "loss/aux_loss": 0.04808269124478102,
      "loss/crossentropy": 2.6068269073963166,
      "loss/logits": 0.8011586487293243,
      "step": 38720
    },
    {
      "epoch": 0.3873,
      "grad_norm": 13.875,
      "grad_norm_var": 0.4791015625,
      "learning_rate": 0.0003,
      "loss": 11.1212,
      "loss/aux_loss": 0.04808108098804951,
      "loss/crossentropy": 2.8975651144981383,
      "loss/logits": 0.847677406668663,
      "step": 38730
    },
    {
      "epoch": 0.3874,
      "grad_norm": 13.5,
      "grad_norm_var": 0.2749837239583333,
      "learning_rate": 0.0003,
      "loss": 11.2524,
      "loss/aux_loss": 0.04808564744889736,
      "loss/crossentropy": 2.6788780450820924,
      "loss/logits": 0.8401986241340638,
      "step": 38740
    },
    {
      "epoch": 0.3875,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.49073893229166665,
      "learning_rate": 0.0003,
      "loss": 11.335,
      "loss/aux_loss": 0.048062538541853425,
      "loss/crossentropy": 2.7721718668937685,
      "loss/logits": 0.8494657784700393,
      "step": 38750
    },
    {
      "epoch": 0.3876,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.7044270833333334,
      "learning_rate": 0.0003,
      "loss": 11.243,
      "loss/aux_loss": 0.04808050319552422,
      "loss/crossentropy": 2.6818510770797728,
      "loss/logits": 0.8431717932224274,
      "step": 38760
    },
    {
      "epoch": 0.3877,
      "grad_norm": 13.875,
      "grad_norm_var": 0.43828125,
      "learning_rate": 0.0003,
      "loss": 11.1333,
      "loss/aux_loss": 0.04807931166142225,
      "loss/crossentropy": 2.8285969376564024,
      "loss/logits": 0.8329048067331314,
      "step": 38770
    },
    {
      "epoch": 0.3878,
      "grad_norm": 13.5,
      "grad_norm_var": 0.30390625,
      "learning_rate": 0.0003,
      "loss": 11.207,
      "loss/aux_loss": 0.04807636775076389,
      "loss/crossentropy": 2.7491527557373048,
      "loss/logits": 0.8234784305095673,
      "step": 38780
    },
    {
      "epoch": 0.3879,
      "grad_norm": 13.25,
      "grad_norm_var": 0.6166666666666667,
      "learning_rate": 0.0003,
      "loss": 11.101,
      "loss/aux_loss": 0.048082555457949636,
      "loss/crossentropy": 2.4799464106559754,
      "loss/logits": 0.8477719098329544,
      "step": 38790
    },
    {
      "epoch": 0.388,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.5782389322916667,
      "learning_rate": 0.0003,
      "loss": 11.3399,
      "loss/aux_loss": 0.0480673098936677,
      "loss/crossentropy": 2.77501580119133,
      "loss/logits": 0.8746285647153854,
      "step": 38800
    },
    {
      "epoch": 0.3881,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.7794270833333333,
      "learning_rate": 0.0003,
      "loss": 11.1978,
      "loss/aux_loss": 0.04808091875165701,
      "loss/crossentropy": 2.731118106842041,
      "loss/logits": 0.860284361243248,
      "step": 38810
    },
    {
      "epoch": 0.3882,
      "grad_norm": 13.375,
      "grad_norm_var": 0.436962890625,
      "learning_rate": 0.0003,
      "loss": 11.2145,
      "loss/aux_loss": 0.04807815104722977,
      "loss/crossentropy": 2.6639424443244932,
      "loss/logits": 0.8353655904531478,
      "step": 38820
    },
    {
      "epoch": 0.3883,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.42511393229166666,
      "learning_rate": 0.0003,
      "loss": 11.3399,
      "loss/aux_loss": 0.04808487202972174,
      "loss/crossentropy": 2.8214931964874266,
      "loss/logits": 0.8728219717741013,
      "step": 38830
    },
    {
      "epoch": 0.3884,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.315869140625,
      "learning_rate": 0.0003,
      "loss": 11.3803,
      "loss/aux_loss": 0.048068196326494214,
      "loss/crossentropy": 2.951774549484253,
      "loss/logits": 0.8737129330635071,
      "step": 38840
    },
    {
      "epoch": 0.3885,
      "grad_norm": 13.625,
      "grad_norm_var": 0.19036458333333334,
      "learning_rate": 0.0003,
      "loss": 11.3304,
      "loss/aux_loss": 0.048076307959854604,
      "loss/crossentropy": 2.614348477125168,
      "loss/logits": 0.8102818191051483,
      "step": 38850
    },
    {
      "epoch": 0.3886,
      "grad_norm": 14.5,
      "grad_norm_var": 0.199853515625,
      "learning_rate": 0.0003,
      "loss": 11.1863,
      "loss/aux_loss": 0.04808367285877466,
      "loss/crossentropy": 2.670736050605774,
      "loss/logits": 0.8290715306997299,
      "step": 38860
    },
    {
      "epoch": 0.3887,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.3790201822916667,
      "learning_rate": 0.0003,
      "loss": 11.4597,
      "loss/aux_loss": 0.04807464815676212,
      "loss/crossentropy": 2.7976260662078856,
      "loss/logits": 0.8721549570560455,
      "step": 38870
    },
    {
      "epoch": 0.3888,
      "grad_norm": 14.0625,
      "grad_norm_var": 4.417822265625,
      "learning_rate": 0.0003,
      "loss": 11.4346,
      "loss/aux_loss": 0.048079947382211684,
      "loss/crossentropy": 2.7102751970291137,
      "loss/logits": 0.8924416452646255,
      "step": 38880
    },
    {
      "epoch": 0.3889,
      "grad_norm": 14.6875,
      "grad_norm_var": 3.782275390625,
      "learning_rate": 0.0003,
      "loss": 11.3206,
      "loss/aux_loss": 0.048079301975667475,
      "loss/crossentropy": 2.900500977039337,
      "loss/logits": 0.8390416592359543,
      "step": 38890
    },
    {
      "epoch": 0.389,
      "grad_norm": 14.125,
      "grad_norm_var": 0.547119140625,
      "learning_rate": 0.0003,
      "loss": 11.1748,
      "loss/aux_loss": 0.04807066544890404,
      "loss/crossentropy": 2.6859599113464356,
      "loss/logits": 0.8484610259532929,
      "step": 38900
    },
    {
      "epoch": 0.3891,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.5132649739583334,
      "learning_rate": 0.0003,
      "loss": 11.1113,
      "loss/aux_loss": 0.04807322956621647,
      "loss/crossentropy": 2.678993618488312,
      "loss/logits": 0.8367465615272522,
      "step": 38910
    },
    {
      "epoch": 0.3892,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.694775390625,
      "learning_rate": 0.0003,
      "loss": 11.2919,
      "loss/aux_loss": 0.04807643033564091,
      "loss/crossentropy": 2.71058109998703,
      "loss/logits": 0.8457289397716522,
      "step": 38920
    },
    {
      "epoch": 0.3893,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.654541015625,
      "learning_rate": 0.0003,
      "loss": 11.2503,
      "loss/aux_loss": 0.048072323016822335,
      "loss/crossentropy": 2.544221270084381,
      "loss/logits": 0.8313421994447708,
      "step": 38930
    },
    {
      "epoch": 0.3894,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.22862955729166667,
      "learning_rate": 0.0003,
      "loss": 11.3605,
      "loss/aux_loss": 0.04807420931756497,
      "loss/crossentropy": 2.8579561948776244,
      "loss/logits": 0.8661619156599045,
      "step": 38940
    },
    {
      "epoch": 0.3895,
      "grad_norm": 14.625,
      "grad_norm_var": 0.7454264322916667,
      "learning_rate": 0.0003,
      "loss": 11.3917,
      "loss/aux_loss": 0.048077373020350936,
      "loss/crossentropy": 2.728842890262604,
      "loss/logits": 0.8730567246675491,
      "step": 38950
    },
    {
      "epoch": 0.3896,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.541259765625,
      "learning_rate": 0.0003,
      "loss": 11.3586,
      "loss/aux_loss": 0.04807371459901333,
      "loss/crossentropy": 2.8443053007125854,
      "loss/logits": 0.8811523258686066,
      "step": 38960
    },
    {
      "epoch": 0.3897,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5179524739583333,
      "learning_rate": 0.0003,
      "loss": 11.3437,
      "loss/aux_loss": 0.04806583281606436,
      "loss/crossentropy": 2.693267875909805,
      "loss/logits": 0.8548869907855987,
      "step": 38970
    },
    {
      "epoch": 0.3898,
      "grad_norm": 15.375,
      "grad_norm_var": 0.6398274739583333,
      "learning_rate": 0.0003,
      "loss": 11.2203,
      "loss/aux_loss": 0.04806962329894304,
      "loss/crossentropy": 2.8249629139900208,
      "loss/logits": 0.8568162739276886,
      "step": 38980
    },
    {
      "epoch": 0.3899,
      "grad_norm": 13.75,
      "grad_norm_var": 0.39724934895833336,
      "learning_rate": 0.0003,
      "loss": 11.2541,
      "loss/aux_loss": 0.04808248896151781,
      "loss/crossentropy": 2.7104422807693482,
      "loss/logits": 0.8193158626556396,
      "step": 38990
    },
    {
      "epoch": 0.39,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.6528645833333333,
      "learning_rate": 0.0003,
      "loss": 11.336,
      "loss/aux_loss": 0.04807611163705587,
      "loss/crossentropy": 2.734510087966919,
      "loss/logits": 0.880244129896164,
      "step": 39000
    },
    {
      "epoch": 0.3901,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.8196451822916667,
      "learning_rate": 0.0003,
      "loss": 11.2298,
      "loss/aux_loss": 0.048070698976516724,
      "loss/crossentropy": 2.7943927884101867,
      "loss/logits": 0.8071790516376496,
      "step": 39010
    },
    {
      "epoch": 0.3902,
      "grad_norm": 14.0,
      "grad_norm_var": 0.4534993489583333,
      "learning_rate": 0.0003,
      "loss": 11.3262,
      "loss/aux_loss": 0.048071658983826634,
      "loss/crossentropy": 2.7959813237190247,
      "loss/logits": 0.8696642935276031,
      "step": 39020
    },
    {
      "epoch": 0.3903,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.39264322916666666,
      "learning_rate": 0.0003,
      "loss": 11.2013,
      "loss/aux_loss": 0.04807510618120432,
      "loss/crossentropy": 2.625903457403183,
      "loss/logits": 0.8251208335161209,
      "step": 39030
    },
    {
      "epoch": 0.3904,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.2674479166666667,
      "learning_rate": 0.0003,
      "loss": 11.2806,
      "loss/aux_loss": 0.04807391464710235,
      "loss/crossentropy": 2.740411990880966,
      "loss/logits": 0.8526921212673187,
      "step": 39040
    },
    {
      "epoch": 0.3905,
      "grad_norm": 14.0,
      "grad_norm_var": 2.7739583333333333,
      "learning_rate": 0.0003,
      "loss": 11.1987,
      "loss/aux_loss": 0.048082204163074495,
      "loss/crossentropy": 2.744875466823578,
      "loss/logits": 0.8375120222568512,
      "step": 39050
    },
    {
      "epoch": 0.3906,
      "grad_norm": 15.5625,
      "grad_norm_var": 3.3329264322916665,
      "learning_rate": 0.0003,
      "loss": 11.092,
      "loss/aux_loss": 0.04808939266949892,
      "loss/crossentropy": 2.5393874824047087,
      "loss/logits": 0.8006115674972534,
      "step": 39060
    },
    {
      "epoch": 0.3907,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.78125,
      "learning_rate": 0.0003,
      "loss": 11.3496,
      "loss/aux_loss": 0.048069536313414575,
      "loss/crossentropy": 2.8732733964920043,
      "loss/logits": 0.8897728711366654,
      "step": 39070
    },
    {
      "epoch": 0.3908,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.6104166666666667,
      "learning_rate": 0.0003,
      "loss": 11.2304,
      "loss/aux_loss": 0.048077582754194735,
      "loss/crossentropy": 2.779140567779541,
      "loss/logits": 0.8601418375968933,
      "step": 39080
    },
    {
      "epoch": 0.3909,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.6387858072916667,
      "learning_rate": 0.0003,
      "loss": 11.2849,
      "loss/aux_loss": 0.04808152187615633,
      "loss/crossentropy": 2.901885849237442,
      "loss/logits": 0.8603871166706085,
      "step": 39090
    },
    {
      "epoch": 0.391,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.2986979166666666,
      "learning_rate": 0.0003,
      "loss": 11.1638,
      "loss/aux_loss": 0.048083712719380854,
      "loss/crossentropy": 2.6146180272102355,
      "loss/logits": 0.8246536731719971,
      "step": 39100
    },
    {
      "epoch": 0.3911,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.5108723958333333,
      "learning_rate": 0.0003,
      "loss": 11.2838,
      "loss/aux_loss": 0.04807220734655857,
      "loss/crossentropy": 2.606696993112564,
      "loss/logits": 0.8235841602087021,
      "step": 39110
    },
    {
      "epoch": 0.3912,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.5723307291666667,
      "learning_rate": 0.0003,
      "loss": 11.1847,
      "loss/aux_loss": 0.04808733835816383,
      "loss/crossentropy": 2.591922175884247,
      "loss/logits": 0.7960670560598373,
      "step": 39120
    },
    {
      "epoch": 0.3913,
      "grad_norm": 13.5625,
      "grad_norm_var": 1.135791015625,
      "learning_rate": 0.0003,
      "loss": 11.1785,
      "loss/aux_loss": 0.048079108074307444,
      "loss/crossentropy": 2.8134935319423677,
      "loss/logits": 0.8420876532793045,
      "step": 39130
    },
    {
      "epoch": 0.3914,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.5067708333333333,
      "learning_rate": 0.0003,
      "loss": 11.2383,
      "loss/aux_loss": 0.048073142766952515,
      "loss/crossentropy": 2.853075420856476,
      "loss/logits": 0.8272636830806732,
      "step": 39140
    },
    {
      "epoch": 0.3915,
      "grad_norm": 14.5,
      "grad_norm_var": 0.858837890625,
      "learning_rate": 0.0003,
      "loss": 11.2376,
      "loss/aux_loss": 0.04809119720011949,
      "loss/crossentropy": 2.522566032409668,
      "loss/logits": 0.8258247703313828,
      "step": 39150
    },
    {
      "epoch": 0.3916,
      "grad_norm": 13.875,
      "grad_norm_var": 0.737744140625,
      "learning_rate": 0.0003,
      "loss": 11.2268,
      "loss/aux_loss": 0.048074861988425255,
      "loss/crossentropy": 2.750867176055908,
      "loss/logits": 0.846402308344841,
      "step": 39160
    },
    {
      "epoch": 0.3917,
      "grad_norm": 14.625,
      "grad_norm_var": 1.01171875,
      "learning_rate": 0.0003,
      "loss": 11.2082,
      "loss/aux_loss": 0.048072229884564874,
      "loss/crossentropy": 2.7354251742362976,
      "loss/logits": 0.8645006984472274,
      "step": 39170
    },
    {
      "epoch": 0.3918,
      "grad_norm": 13.625,
      "grad_norm_var": 1.2765462239583334,
      "learning_rate": 0.0003,
      "loss": 11.2339,
      "loss/aux_loss": 0.04807515200227499,
      "loss/crossentropy": 2.7877457082271575,
      "loss/logits": 0.8666865587234497,
      "step": 39180
    },
    {
      "epoch": 0.3919,
      "grad_norm": 13.875,
      "grad_norm_var": 0.6962076822916666,
      "learning_rate": 0.0003,
      "loss": 11.5099,
      "loss/aux_loss": 0.04808229543268681,
      "loss/crossentropy": 2.6917248964309692,
      "loss/logits": 0.8847535520792007,
      "step": 39190
    },
    {
      "epoch": 0.392,
      "grad_norm": 15.375,
      "grad_norm_var": 0.5378743489583333,
      "learning_rate": 0.0003,
      "loss": 11.3657,
      "loss/aux_loss": 0.048071438632905486,
      "loss/crossentropy": 2.789354109764099,
      "loss/logits": 0.8606502175331116,
      "step": 39200
    },
    {
      "epoch": 0.3921,
      "grad_norm": 13.25,
      "grad_norm_var": 1.1359212239583334,
      "learning_rate": 0.0003,
      "loss": 11.3121,
      "loss/aux_loss": 0.048081927560269834,
      "loss/crossentropy": 2.780927097797394,
      "loss/logits": 0.886367890238762,
      "step": 39210
    },
    {
      "epoch": 0.3922,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.908447265625,
      "learning_rate": 0.0003,
      "loss": 11.2079,
      "loss/aux_loss": 0.048087149113416675,
      "loss/crossentropy": 2.6847366988658905,
      "loss/logits": 0.8129809975624085,
      "step": 39220
    },
    {
      "epoch": 0.3923,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.5606608072916667,
      "learning_rate": 0.0003,
      "loss": 11.3817,
      "loss/aux_loss": 0.0480810409411788,
      "loss/crossentropy": 2.937886118888855,
      "loss/logits": 0.906218609213829,
      "step": 39230
    },
    {
      "epoch": 0.3924,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.51640625,
      "learning_rate": 0.0003,
      "loss": 11.266,
      "loss/aux_loss": 0.04808030817657709,
      "loss/crossentropy": 2.6783434629440306,
      "loss/logits": 0.8466577887535095,
      "step": 39240
    },
    {
      "epoch": 0.3925,
      "grad_norm": 13.625,
      "grad_norm_var": 0.551025390625,
      "learning_rate": 0.0003,
      "loss": 11.2733,
      "loss/aux_loss": 0.048078637942671774,
      "loss/crossentropy": 2.7514628052711485,
      "loss/logits": 0.851484876871109,
      "step": 39250
    },
    {
      "epoch": 0.3926,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.8516764322916667,
      "learning_rate": 0.0003,
      "loss": 11.1715,
      "loss/aux_loss": 0.04808551203459501,
      "loss/crossentropy": 2.4610378623008726,
      "loss/logits": 0.8220183670520782,
      "step": 39260
    },
    {
      "epoch": 0.3927,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5624348958333333,
      "learning_rate": 0.0003,
      "loss": 11.2718,
      "loss/aux_loss": 0.04808190818876028,
      "loss/crossentropy": 2.7207518577575684,
      "loss/logits": 0.8513909667730332,
      "step": 39270
    },
    {
      "epoch": 0.3928,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.5618326822916667,
      "learning_rate": 0.0003,
      "loss": 11.2583,
      "loss/aux_loss": 0.04807283375412226,
      "loss/crossentropy": 2.514565271139145,
      "loss/logits": 0.8464554220438003,
      "step": 39280
    },
    {
      "epoch": 0.3929,
      "grad_norm": 14.0,
      "grad_norm_var": 0.5028645833333333,
      "learning_rate": 0.0003,
      "loss": 11.1733,
      "loss/aux_loss": 0.04806869979947805,
      "loss/crossentropy": 2.7700137376785277,
      "loss/logits": 0.849734765291214,
      "step": 39290
    },
    {
      "epoch": 0.393,
      "grad_norm": 13.25,
      "grad_norm_var": 0.7659993489583333,
      "learning_rate": 0.0003,
      "loss": 11.274,
      "loss/aux_loss": 0.048083323240280154,
      "loss/crossentropy": 2.843100357055664,
      "loss/logits": 0.8784733712673187,
      "step": 39300
    },
    {
      "epoch": 0.3931,
      "grad_norm": 12.625,
      "grad_norm_var": 0.6634765625,
      "learning_rate": 0.0003,
      "loss": 11.4241,
      "loss/aux_loss": 0.04807077012956142,
      "loss/crossentropy": 2.799287849664688,
      "loss/logits": 0.8680036425590515,
      "step": 39310
    },
    {
      "epoch": 0.3932,
      "grad_norm": 13.5,
      "grad_norm_var": 0.7202473958333333,
      "learning_rate": 0.0003,
      "loss": 11.2232,
      "loss/aux_loss": 0.04807591922581196,
      "loss/crossentropy": 2.7692100405693054,
      "loss/logits": 0.8555681079626083,
      "step": 39320
    },
    {
      "epoch": 0.3933,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.97578125,
      "learning_rate": 0.0003,
      "loss": 11.3526,
      "loss/aux_loss": 0.04808627963066101,
      "loss/crossentropy": 2.7542243778705595,
      "loss/logits": 0.842135438323021,
      "step": 39330
    },
    {
      "epoch": 0.3934,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.45358072916666664,
      "learning_rate": 0.0003,
      "loss": 11.3093,
      "loss/aux_loss": 0.048074960522353646,
      "loss/crossentropy": 2.8112044095993043,
      "loss/logits": 0.8553465873003006,
      "step": 39340
    },
    {
      "epoch": 0.3935,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.32545572916666665,
      "learning_rate": 0.0003,
      "loss": 11.2175,
      "loss/aux_loss": 0.048079118691384794,
      "loss/crossentropy": 2.6633784532547,
      "loss/logits": 0.8331804633140564,
      "step": 39350
    },
    {
      "epoch": 0.3936,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.35494791666666664,
      "learning_rate": 0.0003,
      "loss": 11.2346,
      "loss/aux_loss": 0.04808082692325115,
      "loss/crossentropy": 2.67893762588501,
      "loss/logits": 0.8055594295263291,
      "step": 39360
    },
    {
      "epoch": 0.3937,
      "grad_norm": 13.875,
      "grad_norm_var": 0.5494140625,
      "learning_rate": 0.0003,
      "loss": 11.3957,
      "loss/aux_loss": 0.04807113204151392,
      "loss/crossentropy": 2.6513688981533052,
      "loss/logits": 0.8550222337245941,
      "step": 39370
    },
    {
      "epoch": 0.3938,
      "grad_norm": 13.5,
      "grad_norm_var": 0.5113932291666666,
      "learning_rate": 0.0003,
      "loss": 11.1742,
      "loss/aux_loss": 0.04808781389147043,
      "loss/crossentropy": 2.5786080420017243,
      "loss/logits": 0.8316751003265381,
      "step": 39380
    },
    {
      "epoch": 0.3939,
      "grad_norm": 14.125,
      "grad_norm_var": 0.38274739583333334,
      "learning_rate": 0.0003,
      "loss": 11.3349,
      "loss/aux_loss": 0.048061727173626424,
      "loss/crossentropy": 2.815303325653076,
      "loss/logits": 0.8787429064512253,
      "step": 39390
    },
    {
      "epoch": 0.394,
      "grad_norm": 13.375,
      "grad_norm_var": 0.4574055989583333,
      "learning_rate": 0.0003,
      "loss": 11.1497,
      "loss/aux_loss": 0.04808071050792932,
      "loss/crossentropy": 2.8457810401916506,
      "loss/logits": 0.8681068003177643,
      "step": 39400
    },
    {
      "epoch": 0.3941,
      "grad_norm": 13.875,
      "grad_norm_var": 0.637744140625,
      "learning_rate": 0.0003,
      "loss": 11.1906,
      "loss/aux_loss": 0.048074718564748764,
      "loss/crossentropy": 2.536262887716293,
      "loss/logits": 0.8039017617702484,
      "step": 39410
    },
    {
      "epoch": 0.3942,
      "grad_norm": 13.125,
      "grad_norm_var": 0.6919270833333333,
      "learning_rate": 0.0003,
      "loss": 11.2357,
      "loss/aux_loss": 0.04807904493063688,
      "loss/crossentropy": 2.7414814889431,
      "loss/logits": 0.8549802154302597,
      "step": 39420
    },
    {
      "epoch": 0.3943,
      "grad_norm": 16.375,
      "grad_norm_var": 0.8254557291666667,
      "learning_rate": 0.0003,
      "loss": 11.1561,
      "loss/aux_loss": 0.048071026988327506,
      "loss/crossentropy": 2.9144181966781617,
      "loss/logits": 0.8272378146648407,
      "step": 39430
    },
    {
      "epoch": 0.3944,
      "grad_norm": 13.875,
      "grad_norm_var": 0.8355305989583334,
      "learning_rate": 0.0003,
      "loss": 11.3736,
      "loss/aux_loss": 0.048078907653689384,
      "loss/crossentropy": 2.664820075035095,
      "loss/logits": 0.8304022997617722,
      "step": 39440
    },
    {
      "epoch": 0.3945,
      "grad_norm": 14.875,
      "grad_norm_var": 0.34088541666666666,
      "learning_rate": 0.0003,
      "loss": 11.2582,
      "loss/aux_loss": 0.04807480573654175,
      "loss/crossentropy": 2.5339000284671784,
      "loss/logits": 0.7781210362911224,
      "step": 39450
    },
    {
      "epoch": 0.3946,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.42337239583333336,
      "learning_rate": 0.0003,
      "loss": 11.3047,
      "loss/aux_loss": 0.0480910299345851,
      "loss/crossentropy": 2.610448843240738,
      "loss/logits": 0.8010566890239715,
      "step": 39460
    },
    {
      "epoch": 0.3947,
      "grad_norm": 13.625,
      "grad_norm_var": 0.4361979166666667,
      "learning_rate": 0.0003,
      "loss": 11.2501,
      "loss/aux_loss": 0.04807810541242361,
      "loss/crossentropy": 2.775594508647919,
      "loss/logits": 0.8565292507410049,
      "step": 39470
    },
    {
      "epoch": 0.3948,
      "grad_norm": 13.25,
      "grad_norm_var": 0.44073893229166666,
      "learning_rate": 0.0003,
      "loss": 11.1435,
      "loss/aux_loss": 0.048072817362844945,
      "loss/crossentropy": 2.6863482356071473,
      "loss/logits": 0.8157978534698487,
      "step": 39480
    },
    {
      "epoch": 0.3949,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.40305989583333335,
      "learning_rate": 0.0003,
      "loss": 11.3558,
      "loss/aux_loss": 0.04808029588311911,
      "loss/crossentropy": 2.8376736283302306,
      "loss/logits": 0.8666150987148284,
      "step": 39490
    },
    {
      "epoch": 0.395,
      "grad_norm": 14.5,
      "grad_norm_var": 0.4551920572916667,
      "learning_rate": 0.0003,
      "loss": 11.2658,
      "loss/aux_loss": 0.048076699860394,
      "loss/crossentropy": 2.607940810918808,
      "loss/logits": 0.8273808121681213,
      "step": 39500
    },
    {
      "epoch": 0.3951,
      "grad_norm": 12.8125,
      "grad_norm_var": 0.7525390625,
      "learning_rate": 0.0003,
      "loss": 11.1388,
      "loss/aux_loss": 0.04806460794061422,
      "loss/crossentropy": 2.6791930377483366,
      "loss/logits": 0.8224393516778946,
      "step": 39510
    },
    {
      "epoch": 0.3952,
      "grad_norm": 12.625,
      "grad_norm_var": 0.6700358072916667,
      "learning_rate": 0.0003,
      "loss": 10.9948,
      "loss/aux_loss": 0.04807190522551537,
      "loss/crossentropy": 2.6685730695724486,
      "loss/logits": 0.819244459271431,
      "step": 39520
    },
    {
      "epoch": 0.3953,
      "grad_norm": 13.875,
      "grad_norm_var": 0.38014322916666665,
      "learning_rate": 0.0003,
      "loss": 11.1964,
      "loss/aux_loss": 0.048081899993121624,
      "loss/crossentropy": 2.6292571663856505,
      "loss/logits": 0.8497846484184265,
      "step": 39530
    },
    {
      "epoch": 0.3954,
      "grad_norm": 13.75,
      "grad_norm_var": 0.25462239583333335,
      "learning_rate": 0.0003,
      "loss": 11.359,
      "loss/aux_loss": 0.048076131381094456,
      "loss/crossentropy": 2.8662326276302337,
      "loss/logits": 0.8483193576335907,
      "step": 39540
    },
    {
      "epoch": 0.3955,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.47805989583333336,
      "learning_rate": 0.0003,
      "loss": 11.1232,
      "loss/aux_loss": 0.048073952086269855,
      "loss/crossentropy": 2.7887901782989504,
      "loss/logits": 0.8364946961402893,
      "step": 39550
    },
    {
      "epoch": 0.3956,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.3306640625,
      "learning_rate": 0.0003,
      "loss": 11.4657,
      "loss/aux_loss": 0.04808053988963366,
      "loss/crossentropy": 2.7247639894485474,
      "loss/logits": 0.8865299373865128,
      "step": 39560
    },
    {
      "epoch": 0.3957,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.25,
      "learning_rate": 0.0003,
      "loss": 11.1221,
      "loss/aux_loss": 0.048066049627959725,
      "loss/crossentropy": 2.7538771450519564,
      "loss/logits": 0.8528720825910568,
      "step": 39570
    },
    {
      "epoch": 0.3958,
      "grad_norm": 13.875,
      "grad_norm_var": 0.3035807291666667,
      "learning_rate": 0.0003,
      "loss": 11.1495,
      "loss/aux_loss": 0.04807343017309904,
      "loss/crossentropy": 2.7472833156585694,
      "loss/logits": 0.8405825644731522,
      "step": 39580
    },
    {
      "epoch": 0.3959,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.24713541666666666,
      "learning_rate": 0.0003,
      "loss": 11.1893,
      "loss/aux_loss": 0.0480898505076766,
      "loss/crossentropy": 2.8660534262657165,
      "loss/logits": 0.8727923810482026,
      "step": 39590
    },
    {
      "epoch": 0.396,
      "grad_norm": 13.75,
      "grad_norm_var": 0.3712076822916667,
      "learning_rate": 0.0003,
      "loss": 11.3245,
      "loss/aux_loss": 0.04807707834988832,
      "loss/crossentropy": 2.6662731945514677,
      "loss/logits": 0.8399159997701645,
      "step": 39600
    },
    {
      "epoch": 0.3961,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.5163899739583333,
      "learning_rate": 0.0003,
      "loss": 11.2979,
      "loss/aux_loss": 0.04807784650474787,
      "loss/crossentropy": 2.767361307144165,
      "loss/logits": 0.8635453820228577,
      "step": 39610
    },
    {
      "epoch": 0.3962,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.44217122395833336,
      "learning_rate": 0.0003,
      "loss": 11.3056,
      "loss/aux_loss": 0.048077255859971045,
      "loss/crossentropy": 2.885894167423248,
      "loss/logits": 0.85841805934906,
      "step": 39620
    },
    {
      "epoch": 0.3963,
      "grad_norm": 14.5,
      "grad_norm_var": 13.565478515625,
      "learning_rate": 0.0003,
      "loss": 11.2025,
      "loss/aux_loss": 0.04807215016335249,
      "loss/crossentropy": 2.854511320590973,
      "loss/logits": 0.8788524448871613,
      "step": 39630
    },
    {
      "epoch": 0.3964,
      "grad_norm": 13.4375,
      "grad_norm_var": 13.962093098958333,
      "learning_rate": 0.0003,
      "loss": 11.3555,
      "loss/aux_loss": 0.04809546619653702,
      "loss/crossentropy": 2.764549750089645,
      "loss/logits": 0.8647037327289582,
      "step": 39640
    },
    {
      "epoch": 0.3965,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.37578125,
      "learning_rate": 0.0003,
      "loss": 11.1444,
      "loss/aux_loss": 0.04806444570422173,
      "loss/crossentropy": 2.7343260645866394,
      "loss/logits": 0.8285282194614411,
      "step": 39650
    },
    {
      "epoch": 0.3966,
      "grad_norm": 14.0,
      "grad_norm_var": 0.4197265625,
      "learning_rate": 0.0003,
      "loss": 11.271,
      "loss/aux_loss": 0.04809067714959383,
      "loss/crossentropy": 2.6628151297569276,
      "loss/logits": 0.8381938517093659,
      "step": 39660
    },
    {
      "epoch": 0.3967,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.468994140625,
      "learning_rate": 0.0003,
      "loss": 11.26,
      "loss/aux_loss": 0.04807262271642685,
      "loss/crossentropy": 2.827323651313782,
      "loss/logits": 0.8302334070205688,
      "step": 39670
    },
    {
      "epoch": 0.3968,
      "grad_norm": 13.625,
      "grad_norm_var": 0.2494140625,
      "learning_rate": 0.0003,
      "loss": 11.2455,
      "loss/aux_loss": 0.04807976856827736,
      "loss/crossentropy": 2.863471567630768,
      "loss/logits": 0.8567991226911544,
      "step": 39680
    },
    {
      "epoch": 0.3969,
      "grad_norm": 13.875,
      "grad_norm_var": 0.7364583333333333,
      "learning_rate": 0.0003,
      "loss": 11.3192,
      "loss/aux_loss": 0.04808229897171259,
      "loss/crossentropy": 2.7523205041885377,
      "loss/logits": 0.8334077000617981,
      "step": 39690
    },
    {
      "epoch": 0.397,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.7137858072916666,
      "learning_rate": 0.0003,
      "loss": 11.1529,
      "loss/aux_loss": 0.04808085970580578,
      "loss/crossentropy": 2.8388813376426696,
      "loss/logits": 0.8468579053878784,
      "step": 39700
    },
    {
      "epoch": 0.3971,
      "grad_norm": 13.625,
      "grad_norm_var": 0.283056640625,
      "learning_rate": 0.0003,
      "loss": 11.1723,
      "loss/aux_loss": 0.04806781094521284,
      "loss/crossentropy": 2.8035045742988585,
      "loss/logits": 0.8642447054386139,
      "step": 39710
    },
    {
      "epoch": 0.3972,
      "grad_norm": 12.3125,
      "grad_norm_var": 0.39842122395833335,
      "learning_rate": 0.0003,
      "loss": 11.1913,
      "loss/aux_loss": 0.04807733949273825,
      "loss/crossentropy": 2.6676317691802978,
      "loss/logits": 0.8248802542686462,
      "step": 39720
    },
    {
      "epoch": 0.3973,
      "grad_norm": 14.1875,
      "grad_norm_var": 3.1890462239583335,
      "learning_rate": 0.0003,
      "loss": 11.419,
      "loss/aux_loss": 0.048076121136546135,
      "loss/crossentropy": 2.783367484807968,
      "loss/logits": 0.8631105840206146,
      "step": 39730
    },
    {
      "epoch": 0.3974,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.56953125,
      "learning_rate": 0.0003,
      "loss": 11.2753,
      "loss/aux_loss": 0.04807474035769701,
      "loss/crossentropy": 2.648731881380081,
      "loss/logits": 0.8296503305435181,
      "step": 39740
    },
    {
      "epoch": 0.3975,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4315104166666667,
      "learning_rate": 0.0003,
      "loss": 11.3218,
      "loss/aux_loss": 0.048075980879366396,
      "loss/crossentropy": 2.709260368347168,
      "loss/logits": 0.8509759098291397,
      "step": 39750
    },
    {
      "epoch": 0.3976,
      "grad_norm": 16.875,
      "grad_norm_var": 0.8150390625,
      "learning_rate": 0.0003,
      "loss": 11.3212,
      "loss/aux_loss": 0.048085262067615986,
      "loss/crossentropy": 2.561914938688278,
      "loss/logits": 0.8712035864591599,
      "step": 39760
    },
    {
      "epoch": 0.3977,
      "grad_norm": 14.25,
      "grad_norm_var": 1.005322265625,
      "learning_rate": 0.0003,
      "loss": 11.353,
      "loss/aux_loss": 0.048075600527226925,
      "loss/crossentropy": 2.821903848648071,
      "loss/logits": 0.8585720628499984,
      "step": 39770
    },
    {
      "epoch": 0.3978,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.6304524739583334,
      "learning_rate": 0.0003,
      "loss": 11.1229,
      "loss/aux_loss": 0.04808585401624441,
      "loss/crossentropy": 2.5138413667678834,
      "loss/logits": 0.7884344816207886,
      "step": 39780
    },
    {
      "epoch": 0.3979,
      "grad_norm": 13.25,
      "grad_norm_var": 0.49347330729166666,
      "learning_rate": 0.0003,
      "loss": 11.1641,
      "loss/aux_loss": 0.04808144606649876,
      "loss/crossentropy": 2.563122200965881,
      "loss/logits": 0.8173367559909821,
      "step": 39790
    },
    {
      "epoch": 0.398,
      "grad_norm": 13.75,
      "grad_norm_var": 0.30388997395833334,
      "learning_rate": 0.0003,
      "loss": 10.9662,
      "loss/aux_loss": 0.048083293810486795,
      "loss/crossentropy": 2.514444661140442,
      "loss/logits": 0.8048440098762513,
      "step": 39800
    },
    {
      "epoch": 0.3981,
      "grad_norm": 14.0625,
      "grad_norm_var": 21.170572916666668,
      "learning_rate": 0.0003,
      "loss": 11.246,
      "loss/aux_loss": 0.0480785084888339,
      "loss/crossentropy": 2.842600917816162,
      "loss/logits": 0.8754805415868759,
      "step": 39810
    },
    {
      "epoch": 0.3982,
      "grad_norm": 13.8125,
      "grad_norm_var": 20.811442057291668,
      "learning_rate": 0.0003,
      "loss": 11.2918,
      "loss/aux_loss": 0.048076963610947133,
      "loss/crossentropy": 2.7346277594566346,
      "loss/logits": 0.8496310234069824,
      "step": 39820
    },
    {
      "epoch": 0.3983,
      "grad_norm": 13.625,
      "grad_norm_var": 1.0786458333333333,
      "learning_rate": 0.0003,
      "loss": 11.1372,
      "loss/aux_loss": 0.048078888468444346,
      "loss/crossentropy": 2.68115548491478,
      "loss/logits": 0.8213476330041886,
      "step": 39830
    },
    {
      "epoch": 0.3984,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.44998372395833336,
      "learning_rate": 0.0003,
      "loss": 11.1956,
      "loss/aux_loss": 0.048077587597072126,
      "loss/crossentropy": 2.689275288581848,
      "loss/logits": 0.8431656301021576,
      "step": 39840
    },
    {
      "epoch": 0.3985,
      "grad_norm": 13.75,
      "grad_norm_var": 0.36521809895833335,
      "learning_rate": 0.0003,
      "loss": 11.3385,
      "loss/aux_loss": 0.04807688985019922,
      "loss/crossentropy": 2.775956404209137,
      "loss/logits": 0.8679609030485154,
      "step": 39850
    },
    {
      "epoch": 0.3986,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.36692708333333335,
      "learning_rate": 0.0003,
      "loss": 11.3861,
      "loss/aux_loss": 0.04808139931410551,
      "loss/crossentropy": 2.6501555681228637,
      "loss/logits": 0.8278191804885864,
      "step": 39860
    },
    {
      "epoch": 0.3987,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.327587890625,
      "learning_rate": 0.0003,
      "loss": 11.3386,
      "loss/aux_loss": 0.04808625839650631,
      "loss/crossentropy": 2.752862584590912,
      "loss/logits": 0.8313428431749343,
      "step": 39870
    },
    {
      "epoch": 0.3988,
      "grad_norm": 15.0,
      "grad_norm_var": 0.49973958333333335,
      "learning_rate": 0.0003,
      "loss": 11.1974,
      "loss/aux_loss": 0.04805862847715616,
      "loss/crossentropy": 2.766802215576172,
      "loss/logits": 0.8339938923716546,
      "step": 39880
    },
    {
      "epoch": 0.3989,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.4676432291666667,
      "learning_rate": 0.0003,
      "loss": 11.4879,
      "loss/aux_loss": 0.0480917839333415,
      "loss/crossentropy": 2.7454636096954346,
      "loss/logits": 0.8500055640935897,
      "step": 39890
    },
    {
      "epoch": 0.399,
      "grad_norm": 14.125,
      "grad_norm_var": 0.5358723958333333,
      "learning_rate": 0.0003,
      "loss": 11.3118,
      "loss/aux_loss": 0.04806092549115419,
      "loss/crossentropy": 2.7647584557533262,
      "loss/logits": 0.8545819491147995,
      "step": 39900
    },
    {
      "epoch": 0.3991,
      "grad_norm": 15.375,
      "grad_norm_var": 11.383707682291666,
      "learning_rate": 0.0003,
      "loss": 11.2725,
      "loss/aux_loss": 0.04808534067124128,
      "loss/crossentropy": 2.7508405685424804,
      "loss/logits": 0.8540914624929428,
      "step": 39910
    },
    {
      "epoch": 0.3992,
      "grad_norm": 15.125,
      "grad_norm_var": 9.876676432291667,
      "learning_rate": 0.0003,
      "loss": 11.3259,
      "loss/aux_loss": 0.04807797037065029,
      "loss/crossentropy": 2.67775102853775,
      "loss/logits": 0.8853228390216827,
      "step": 39920
    },
    {
      "epoch": 0.3993,
      "grad_norm": 13.875,
      "grad_norm_var": 1.1197265625,
      "learning_rate": 0.0003,
      "loss": 11.1964,
      "loss/aux_loss": 0.04806930739432573,
      "loss/crossentropy": 2.670240956544876,
      "loss/logits": 0.8302730619907379,
      "step": 39930
    },
    {
      "epoch": 0.3994,
      "grad_norm": 14.4375,
      "grad_norm_var": 1.28984375,
      "learning_rate": 0.0003,
      "loss": 11.3559,
      "loss/aux_loss": 0.04808368775993586,
      "loss/crossentropy": 2.7974973797798155,
      "loss/logits": 0.8431978434324264,
      "step": 39940
    },
    {
      "epoch": 0.3995,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.9925618489583333,
      "learning_rate": 0.0003,
      "loss": 11.3789,
      "loss/aux_loss": 0.04807193577289581,
      "loss/crossentropy": 2.8047056078910826,
      "loss/logits": 0.8324245274066925,
      "step": 39950
    },
    {
      "epoch": 0.3996,
      "grad_norm": 15.0,
      "grad_norm_var": 0.4400390625,
      "learning_rate": 0.0003,
      "loss": 11.295,
      "loss/aux_loss": 0.048078315891325475,
      "loss/crossentropy": 2.907421922683716,
      "loss/logits": 0.8765753865242004,
      "step": 39960
    },
    {
      "epoch": 0.3997,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.3042805989583333,
      "learning_rate": 0.0003,
      "loss": 11.2693,
      "loss/aux_loss": 0.04807358868420124,
      "loss/crossentropy": 2.6865237832069395,
      "loss/logits": 0.8515175133943558,
      "step": 39970
    },
    {
      "epoch": 0.3998,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.33839518229166665,
      "learning_rate": 0.0003,
      "loss": 11.2747,
      "loss/aux_loss": 0.04806916173547506,
      "loss/crossentropy": 2.7106878042221068,
      "loss/logits": 0.8739930838346481,
      "step": 39980
    },
    {
      "epoch": 0.3999,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.31640625,
      "learning_rate": 0.0003,
      "loss": 11.2064,
      "loss/aux_loss": 0.04807684104889631,
      "loss/crossentropy": 2.7278328776359557,
      "loss/logits": 0.8172307670116424,
      "step": 39990
    },
    {
      "epoch": 0.4,
      "grad_norm": 13.125,
      "grad_norm_var": 0.15701497395833333,
      "learning_rate": 0.0003,
      "loss": 11.2938,
      "loss/aux_loss": 0.04807619974017143,
      "loss/crossentropy": 2.7106220006942747,
      "loss/logits": 0.8441434442996979,
      "step": 40000
    },
    {
      "epoch": 0.4001,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.45358072916666664,
      "learning_rate": 0.0003,
      "loss": 11.172,
      "loss/aux_loss": 0.048076309636235236,
      "loss/crossentropy": 2.640831911563873,
      "loss/logits": 0.8590665191411972,
      "step": 40010
    },
    {
      "epoch": 0.4002,
      "grad_norm": 13.875,
      "grad_norm_var": 0.545556640625,
      "learning_rate": 0.0003,
      "loss": 11.414,
      "loss/aux_loss": 0.048071987740695474,
      "loss/crossentropy": 2.869738209247589,
      "loss/logits": 0.866798147559166,
      "step": 40020
    },
    {
      "epoch": 0.4003,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.4275390625,
      "learning_rate": 0.0003,
      "loss": 11.328,
      "loss/aux_loss": 0.048072556219995025,
      "loss/crossentropy": 2.6954082608222962,
      "loss/logits": 0.831238204240799,
      "step": 40030
    },
    {
      "epoch": 0.4004,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.32962239583333336,
      "learning_rate": 0.0003,
      "loss": 11.3336,
      "loss/aux_loss": 0.04808360133320093,
      "loss/crossentropy": 2.5370292246341704,
      "loss/logits": 0.8065064072608947,
      "step": 40040
    },
    {
      "epoch": 0.4005,
      "grad_norm": 14.25,
      "grad_norm_var": 0.6997395833333333,
      "learning_rate": 0.0003,
      "loss": 11.2486,
      "loss/aux_loss": 0.04807292725890875,
      "loss/crossentropy": 2.687315058708191,
      "loss/logits": 0.8650965690612793,
      "step": 40050
    },
    {
      "epoch": 0.4006,
      "grad_norm": 14.0,
      "grad_norm_var": 0.3633951822916667,
      "learning_rate": 0.0003,
      "loss": 11.0689,
      "loss/aux_loss": 0.048067699931561944,
      "loss/crossentropy": 2.8071807265281676,
      "loss/logits": 0.8397237300872803,
      "step": 40060
    },
    {
      "epoch": 0.4007,
      "grad_norm": 14.25,
      "grad_norm_var": 0.4202473958333333,
      "learning_rate": 0.0003,
      "loss": 11.4838,
      "loss/aux_loss": 0.04807199016213417,
      "loss/crossentropy": 2.72553288936615,
      "loss/logits": 0.8591938436031341,
      "step": 40070
    },
    {
      "epoch": 0.4008,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.3973795572916667,
      "learning_rate": 0.0003,
      "loss": 11.1278,
      "loss/aux_loss": 0.048072010092437265,
      "loss/crossentropy": 2.725685381889343,
      "loss/logits": 0.8271927177906037,
      "step": 40080
    },
    {
      "epoch": 0.4009,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.3041015625,
      "learning_rate": 0.0003,
      "loss": 11.2294,
      "loss/aux_loss": 0.048078466951847074,
      "loss/crossentropy": 2.692145121097565,
      "loss/logits": 0.8675953030586243,
      "step": 40090
    },
    {
      "epoch": 0.401,
      "grad_norm": 15.25,
      "grad_norm_var": 0.2764973958333333,
      "learning_rate": 0.0003,
      "loss": 11.3525,
      "loss/aux_loss": 0.048074528202414514,
      "loss/crossentropy": 2.8597113609313967,
      "loss/logits": 0.8692526042461395,
      "step": 40100
    },
    {
      "epoch": 0.4011,
      "grad_norm": 13.5,
      "grad_norm_var": 0.262744140625,
      "learning_rate": 0.0003,
      "loss": 11.1604,
      "loss/aux_loss": 0.048076745681464673,
      "loss/crossentropy": 2.693953478336334,
      "loss/logits": 0.8202391982078552,
      "step": 40110
    },
    {
      "epoch": 0.4012,
      "grad_norm": 13.125,
      "grad_norm_var": 0.21443684895833334,
      "learning_rate": 0.0003,
      "loss": 11.1184,
      "loss/aux_loss": 0.04807984083890915,
      "loss/crossentropy": 2.7698384284973145,
      "loss/logits": 0.8715376138687134,
      "step": 40120
    },
    {
      "epoch": 0.4013,
      "grad_norm": 14.25,
      "grad_norm_var": 0.7333333333333333,
      "learning_rate": 0.0003,
      "loss": 11.2354,
      "loss/aux_loss": 0.04807922802865505,
      "loss/crossentropy": 2.58315287232399,
      "loss/logits": 0.8681640088558197,
      "step": 40130
    },
    {
      "epoch": 0.4014,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.46067708333333335,
      "learning_rate": 0.0003,
      "loss": 11.2891,
      "loss/aux_loss": 0.048069264926016333,
      "loss/crossentropy": 2.6770537555217744,
      "loss/logits": 0.8575960993766785,
      "step": 40140
    },
    {
      "epoch": 0.4015,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.368994140625,
      "learning_rate": 0.0003,
      "loss": 11.1327,
      "loss/aux_loss": 0.048076451011002067,
      "loss/crossentropy": 2.8826801657676695,
      "loss/logits": 0.8579352647066116,
      "step": 40150
    },
    {
      "epoch": 0.4016,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5153483072916667,
      "learning_rate": 0.0003,
      "loss": 11.2343,
      "loss/aux_loss": 0.04809125438332558,
      "loss/crossentropy": 2.618731087446213,
      "loss/logits": 0.7966024458408356,
      "step": 40160
    },
    {
      "epoch": 0.4017,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.2830729166666667,
      "learning_rate": 0.0003,
      "loss": 11.1517,
      "loss/aux_loss": 0.04808546844869852,
      "loss/crossentropy": 2.646185064315796,
      "loss/logits": 0.8252136647701264,
      "step": 40170
    },
    {
      "epoch": 0.4018,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.3223795572916667,
      "learning_rate": 0.0003,
      "loss": 11.1737,
      "loss/aux_loss": 0.048075793869793416,
      "loss/crossentropy": 2.519075998663902,
      "loss/logits": 0.8385014414787293,
      "step": 40180
    },
    {
      "epoch": 0.4019,
      "grad_norm": 14.25,
      "grad_norm_var": 0.4786295572916667,
      "learning_rate": 0.0003,
      "loss": 11.3532,
      "loss/aux_loss": 0.0480783874168992,
      "loss/crossentropy": 2.806821274757385,
      "loss/logits": 0.841489189863205,
      "step": 40190
    },
    {
      "epoch": 0.402,
      "grad_norm": 12.6875,
      "grad_norm_var": 8.168082682291667,
      "learning_rate": 0.0003,
      "loss": 11.3093,
      "loss/aux_loss": 0.04808771722018719,
      "loss/crossentropy": 2.7427878618240356,
      "loss/logits": 0.8800740391016006,
      "step": 40200
    },
    {
      "epoch": 0.4021,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.27024739583333335,
      "learning_rate": 0.0003,
      "loss": 11.1774,
      "loss/aux_loss": 0.048070460185408594,
      "loss/crossentropy": 2.5837554335594177,
      "loss/logits": 0.855616545677185,
      "step": 40210
    },
    {
      "epoch": 0.4022,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.6893229166666667,
      "learning_rate": 0.0003,
      "loss": 11.2717,
      "loss/aux_loss": 0.04808332584798336,
      "loss/crossentropy": 2.7743981003761293,
      "loss/logits": 0.8714166820049286,
      "step": 40220
    },
    {
      "epoch": 0.4023,
      "grad_norm": 13.375,
      "grad_norm_var": 0.743994140625,
      "learning_rate": 0.0003,
      "loss": 11.2791,
      "loss/aux_loss": 0.04807800035923719,
      "loss/crossentropy": 2.73896102309227,
      "loss/logits": 0.8382152438163757,
      "step": 40230
    },
    {
      "epoch": 0.4024,
      "grad_norm": 15.5625,
      "grad_norm_var": 2.974739583333333,
      "learning_rate": 0.0003,
      "loss": 11.133,
      "loss/aux_loss": 0.0480761282145977,
      "loss/crossentropy": 2.6960204541683197,
      "loss/logits": 0.8285995244979858,
      "step": 40240
    },
    {
      "epoch": 0.4025,
      "grad_norm": 14.6875,
      "grad_norm_var": 3.1540201822916667,
      "learning_rate": 0.0003,
      "loss": 11.3377,
      "loss/aux_loss": 0.048080798238515854,
      "loss/crossentropy": 2.774839425086975,
      "loss/logits": 0.8541697800159455,
      "step": 40250
    },
    {
      "epoch": 0.4026,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.5161458333333333,
      "learning_rate": 0.0003,
      "loss": 11.2857,
      "loss/aux_loss": 0.04807197824120522,
      "loss/crossentropy": 2.7606529712677004,
      "loss/logits": 0.8577615320682526,
      "step": 40260
    },
    {
      "epoch": 0.4027,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4900390625,
      "learning_rate": 0.0003,
      "loss": 11.2021,
      "loss/aux_loss": 0.04807481914758682,
      "loss/crossentropy": 2.809233945608139,
      "loss/logits": 0.8515638172626495,
      "step": 40270
    },
    {
      "epoch": 0.4028,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.39920247395833336,
      "learning_rate": 0.0003,
      "loss": 11.1816,
      "loss/aux_loss": 0.04807350169867277,
      "loss/crossentropy": 2.748124420642853,
      "loss/logits": 0.8494113475084305,
      "step": 40280
    },
    {
      "epoch": 0.4029,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.5233723958333333,
      "learning_rate": 0.0003,
      "loss": 11.4207,
      "loss/aux_loss": 0.04807033948600292,
      "loss/crossentropy": 2.719420325756073,
      "loss/logits": 0.8667916238307953,
      "step": 40290
    },
    {
      "epoch": 0.403,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.27858072916666665,
      "learning_rate": 0.0003,
      "loss": 11.3065,
      "loss/aux_loss": 0.048076901398599145,
      "loss/crossentropy": 2.6295212328433992,
      "loss/logits": 0.8683276027441025,
      "step": 40300
    },
    {
      "epoch": 0.4031,
      "grad_norm": 16.625,
      "grad_norm_var": 16.3119140625,
      "learning_rate": 0.0003,
      "loss": 11.1657,
      "loss/aux_loss": 0.048084932193160054,
      "loss/crossentropy": 2.8191932320594786,
      "loss/logits": 0.8459627896547317,
      "step": 40310
    },
    {
      "epoch": 0.4032,
      "grad_norm": 14.0625,
      "grad_norm_var": 16.589957682291665,
      "learning_rate": 0.0003,
      "loss": 11.2229,
      "loss/aux_loss": 0.04807272832840681,
      "loss/crossentropy": 2.8436803817749023,
      "loss/logits": 0.8772078216075897,
      "step": 40320
    },
    {
      "epoch": 0.4033,
      "grad_norm": 13.125,
      "grad_norm_var": 0.17962239583333334,
      "learning_rate": 0.0003,
      "loss": 11.2633,
      "loss/aux_loss": 0.04807746745646,
      "loss/crossentropy": 2.7854455411434174,
      "loss/logits": 0.8320712119340896,
      "step": 40330
    },
    {
      "epoch": 0.4034,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.3485514322916667,
      "learning_rate": 0.0003,
      "loss": 11.2072,
      "loss/aux_loss": 0.04806860648095608,
      "loss/crossentropy": 2.8128843665122987,
      "loss/logits": 0.8971195042133331,
      "step": 40340
    },
    {
      "epoch": 0.4035,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.5788899739583333,
      "learning_rate": 0.0003,
      "loss": 11.2615,
      "loss/aux_loss": 0.04807734172791243,
      "loss/crossentropy": 2.719151735305786,
      "loss/logits": 0.8351715385913849,
      "step": 40350
    },
    {
      "epoch": 0.4036,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.6541666666666667,
      "learning_rate": 0.0003,
      "loss": 11.217,
      "loss/aux_loss": 0.04807971119880676,
      "loss/crossentropy": 2.65439595580101,
      "loss/logits": 0.8389561653137207,
      "step": 40360
    },
    {
      "epoch": 0.4037,
      "grad_norm": 12.875,
      "grad_norm_var": 0.7363932291666667,
      "learning_rate": 0.0003,
      "loss": 11.3419,
      "loss/aux_loss": 0.048067951761186126,
      "loss/crossentropy": 2.8152174830436705,
      "loss/logits": 0.8660207390785217,
      "step": 40370
    },
    {
      "epoch": 0.4038,
      "grad_norm": 14.75,
      "grad_norm_var": 0.5778645833333333,
      "learning_rate": 0.0003,
      "loss": 11.2324,
      "loss/aux_loss": 0.04808384161442518,
      "loss/crossentropy": 2.682347524166107,
      "loss/logits": 0.8513666987419128,
      "step": 40380
    },
    {
      "epoch": 0.4039,
      "grad_norm": 14.0,
      "grad_norm_var": 0.4456868489583333,
      "learning_rate": 0.0003,
      "loss": 11.1544,
      "loss/aux_loss": 0.04806650690734386,
      "loss/crossentropy": 2.735366094112396,
      "loss/logits": 0.861262845993042,
      "step": 40390
    },
    {
      "epoch": 0.404,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.6650390625,
      "learning_rate": 0.0003,
      "loss": 11.442,
      "loss/aux_loss": 0.0480755427852273,
      "loss/crossentropy": 2.8482566595077516,
      "loss/logits": 0.8759390920400619,
      "step": 40400
    },
    {
      "epoch": 0.4041,
      "grad_norm": 13.875,
      "grad_norm_var": 0.29620768229166666,
      "learning_rate": 0.0003,
      "loss": 11.2389,
      "loss/aux_loss": 0.04807413425296545,
      "loss/crossentropy": 2.877766025066376,
      "loss/logits": 0.8527081072330475,
      "step": 40410
    },
    {
      "epoch": 0.4042,
      "grad_norm": 15.6875,
      "grad_norm_var": 1855.3328125,
      "learning_rate": 0.0003,
      "loss": 11.212,
      "loss/aux_loss": 0.04808369241654873,
      "loss/crossentropy": 2.6940404534339906,
      "loss/logits": 0.8131880909204483,
      "step": 40420
    },
    {
      "epoch": 0.4043,
      "grad_norm": 15.8125,
      "grad_norm_var": 1844.8794270833334,
      "learning_rate": 0.0003,
      "loss": 11.2414,
      "loss/aux_loss": 0.048076518811285496,
      "loss/crossentropy": 2.773360276222229,
      "loss/logits": 0.8594042271375656,
      "step": 40430
    },
    {
      "epoch": 0.4044,
      "grad_norm": 13.75,
      "grad_norm_var": 3.066650390625,
      "learning_rate": 0.0003,
      "loss": 11.2978,
      "loss/aux_loss": 0.048078188113868235,
      "loss/crossentropy": 2.703492206335068,
      "loss/logits": 0.8389413356781006,
      "step": 40440
    },
    {
      "epoch": 0.4045,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.389306640625,
      "learning_rate": 0.0003,
      "loss": 11.2174,
      "loss/aux_loss": 0.04808528777211905,
      "loss/crossentropy": 2.682606953382492,
      "loss/logits": 0.8352272599935532,
      "step": 40450
    },
    {
      "epoch": 0.4046,
      "grad_norm": 13.1875,
      "grad_norm_var": 56.533056640625,
      "learning_rate": 0.0003,
      "loss": 11.2459,
      "loss/aux_loss": 0.04807485770434141,
      "loss/crossentropy": 2.8166627526283263,
      "loss/logits": 0.907360565662384,
      "step": 40460
    },
    {
      "epoch": 0.4047,
      "grad_norm": 13.5625,
      "grad_norm_var": 1.5634765625,
      "learning_rate": 0.0003,
      "loss": 11.1853,
      "loss/aux_loss": 0.048092107847332956,
      "loss/crossentropy": 2.744275617599487,
      "loss/logits": 0.8467898726463318,
      "step": 40470
    },
    {
      "epoch": 0.4048,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.5330729166666667,
      "learning_rate": 0.0003,
      "loss": 11.3042,
      "loss/aux_loss": 0.04806965496391058,
      "loss/crossentropy": 2.959182548522949,
      "loss/logits": 0.8552993059158325,
      "step": 40480
    },
    {
      "epoch": 0.4049,
      "grad_norm": 12.75,
      "grad_norm_var": 0.3731608072916667,
      "learning_rate": 0.0003,
      "loss": 11.3252,
      "loss/aux_loss": 0.04807450994849205,
      "loss/crossentropy": 2.826492565870285,
      "loss/logits": 0.8594222873449325,
      "step": 40490
    },
    {
      "epoch": 0.405,
      "grad_norm": 16.25,
      "grad_norm_var": 1.2333333333333334,
      "learning_rate": 0.0003,
      "loss": 11.1622,
      "loss/aux_loss": 0.04808164164423943,
      "loss/crossentropy": 2.7364363431930543,
      "loss/logits": 0.8271835565567016,
      "step": 40500
    },
    {
      "epoch": 0.4051,
      "grad_norm": 12.875,
      "grad_norm_var": 0.9535807291666667,
      "learning_rate": 0.0003,
      "loss": 11.2023,
      "loss/aux_loss": 0.048075484670698644,
      "loss/crossentropy": 2.6764685451984405,
      "loss/logits": 0.8407616734504699,
      "step": 40510
    },
    {
      "epoch": 0.4052,
      "grad_norm": 14.375,
      "grad_norm_var": 53.86302083333333,
      "learning_rate": 0.0003,
      "loss": 11.1894,
      "loss/aux_loss": 0.048087388090789315,
      "loss/crossentropy": 2.6650672793388366,
      "loss/logits": 0.8593515366315841,
      "step": 40520
    },
    {
      "epoch": 0.4053,
      "grad_norm": 19.625,
      "grad_norm_var": 38.290478515625,
      "learning_rate": 0.0003,
      "loss": 11.304,
      "loss/aux_loss": 0.04808492045849562,
      "loss/crossentropy": 2.5504296123981476,
      "loss/logits": 0.8223045408725739,
      "step": 40530
    },
    {
      "epoch": 0.4054,
      "grad_norm": 13.25,
      "grad_norm_var": 5.257535807291666,
      "learning_rate": 0.0003,
      "loss": 11.2125,
      "loss/aux_loss": 0.04807108696550131,
      "loss/crossentropy": 2.6947197139263155,
      "loss/logits": 0.8361944794654846,
      "step": 40540
    },
    {
      "epoch": 0.4055,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.5137858072916667,
      "learning_rate": 0.0003,
      "loss": 11.1638,
      "loss/aux_loss": 0.048065942153334616,
      "loss/crossentropy": 2.8109546184539793,
      "loss/logits": 0.829085710644722,
      "step": 40550
    },
    {
      "epoch": 0.4056,
      "grad_norm": 14.0,
      "grad_norm_var": 0.6329264322916667,
      "learning_rate": 0.0003,
      "loss": 11.1777,
      "loss/aux_loss": 0.048072488605976106,
      "loss/crossentropy": 2.786225712299347,
      "loss/logits": 0.8105708062648773,
      "step": 40560
    },
    {
      "epoch": 0.4057,
      "grad_norm": 13.5,
      "grad_norm_var": 6.563395182291667,
      "learning_rate": 0.0003,
      "loss": 11.3507,
      "loss/aux_loss": 0.04808564819395542,
      "loss/crossentropy": 2.751372504234314,
      "loss/logits": 0.8564148962497711,
      "step": 40570
    },
    {
      "epoch": 0.4058,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.8296223958333333,
      "learning_rate": 0.0003,
      "loss": 11.215,
      "loss/aux_loss": 0.04807268865406513,
      "loss/crossentropy": 2.8208558201789855,
      "loss/logits": 0.8638029783964157,
      "step": 40580
    },
    {
      "epoch": 0.4059,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.5239420572916667,
      "learning_rate": 0.0003,
      "loss": 11.28,
      "loss/aux_loss": 0.04807143602520227,
      "loss/crossentropy": 2.665737110376358,
      "loss/logits": 0.8453109055757523,
      "step": 40590
    },
    {
      "epoch": 0.406,
      "grad_norm": 15.375,
      "grad_norm_var": 0.7660807291666667,
      "learning_rate": 0.0003,
      "loss": 11.1757,
      "loss/aux_loss": 0.04807765483856201,
      "loss/crossentropy": 2.630817985534668,
      "loss/logits": 0.8509970605373383,
      "step": 40600
    },
    {
      "epoch": 0.4061,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.9417805989583333,
      "learning_rate": 0.0003,
      "loss": 11.1785,
      "loss/aux_loss": 0.04807794988155365,
      "loss/crossentropy": 2.5632822811603546,
      "loss/logits": 0.8242575019598007,
      "step": 40610
    },
    {
      "epoch": 0.4062,
      "grad_norm": 16.5,
      "grad_norm_var": 0.7395182291666667,
      "learning_rate": 0.0003,
      "loss": 11.1997,
      "loss/aux_loss": 0.04807608798146248,
      "loss/crossentropy": 2.808782720565796,
      "loss/logits": 0.8660883277654647,
      "step": 40620
    },
    {
      "epoch": 0.4063,
      "grad_norm": 15.6875,
      "grad_norm_var": 1.1874348958333334,
      "learning_rate": 0.0003,
      "loss": 11.2832,
      "loss/aux_loss": 0.04806890748441219,
      "loss/crossentropy": 2.926540124416351,
      "loss/logits": 0.86942158639431,
      "step": 40630
    },
    {
      "epoch": 0.4064,
      "grad_norm": 14.75,
      "grad_norm_var": 131.5337890625,
      "learning_rate": 0.0003,
      "loss": 11.3468,
      "loss/aux_loss": 0.04808539636433125,
      "loss/crossentropy": 2.8163744449615478,
      "loss/logits": 0.8719450891017914,
      "step": 40640
    },
    {
      "epoch": 0.4065,
      "grad_norm": 13.8125,
      "grad_norm_var": 1.8114583333333334,
      "learning_rate": 0.0003,
      "loss": 11.3543,
      "loss/aux_loss": 0.04807546809315681,
      "loss/crossentropy": 2.686785101890564,
      "loss/logits": 0.877001416683197,
      "step": 40650
    },
    {
      "epoch": 0.4066,
      "grad_norm": 13.125,
      "grad_norm_var": 0.5839680989583333,
      "learning_rate": 0.0003,
      "loss": 11.1328,
      "loss/aux_loss": 0.04807546567171812,
      "loss/crossentropy": 2.637565851211548,
      "loss/logits": 0.8497596830129623,
      "step": 40660
    },
    {
      "epoch": 0.4067,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.59375,
      "learning_rate": 0.0003,
      "loss": 11.3324,
      "loss/aux_loss": 0.04807331208139658,
      "loss/crossentropy": 2.5887813806533813,
      "loss/logits": 0.8211749017238616,
      "step": 40670
    },
    {
      "epoch": 0.4068,
      "grad_norm": 14.0,
      "grad_norm_var": 0.9645182291666666,
      "learning_rate": 0.0003,
      "loss": 11.2639,
      "loss/aux_loss": 0.0480765325948596,
      "loss/crossentropy": 2.6423826932907106,
      "loss/logits": 0.852640700340271,
      "step": 40680
    },
    {
      "epoch": 0.4069,
      "grad_norm": 14.375,
      "grad_norm_var": 0.35792643229166665,
      "learning_rate": 0.0003,
      "loss": 11.0373,
      "loss/aux_loss": 0.0480792922899127,
      "loss/crossentropy": 2.738467514514923,
      "loss/logits": 0.8378350138664246,
      "step": 40690
    },
    {
      "epoch": 0.407,
      "grad_norm": 14.0,
      "grad_norm_var": 3.504280598958333,
      "learning_rate": 0.0003,
      "loss": 11.5276,
      "loss/aux_loss": 0.0480826161801815,
      "loss/crossentropy": 2.7524060189723967,
      "loss/logits": 0.8455175578594207,
      "step": 40700
    },
    {
      "epoch": 0.4071,
      "grad_norm": 13.625,
      "grad_norm_var": 0.8868326822916667,
      "learning_rate": 0.0003,
      "loss": 11.1276,
      "loss/aux_loss": 0.04806787483394146,
      "loss/crossentropy": 2.55394446849823,
      "loss/logits": 0.8222862929105759,
      "step": 40710
    },
    {
      "epoch": 0.4072,
      "grad_norm": 14.625,
      "grad_norm_var": 0.6627604166666666,
      "learning_rate": 0.0003,
      "loss": 11.2755,
      "loss/aux_loss": 0.04808096699416638,
      "loss/crossentropy": 2.7554591298103333,
      "loss/logits": 0.8580325931310654,
      "step": 40720
    },
    {
      "epoch": 0.4073,
      "grad_norm": 15.0,
      "grad_norm_var": 1.2700358072916667,
      "learning_rate": 0.0003,
      "loss": 11.2255,
      "loss/aux_loss": 0.04807104617357254,
      "loss/crossentropy": 2.79397691488266,
      "loss/logits": 0.8811484813690186,
      "step": 40730
    },
    {
      "epoch": 0.4074,
      "grad_norm": 15.25,
      "grad_norm_var": 1.4535807291666667,
      "learning_rate": 0.0003,
      "loss": 11.267,
      "loss/aux_loss": 0.04806910958141088,
      "loss/crossentropy": 2.837631583213806,
      "loss/logits": 0.8389610022306442,
      "step": 40740
    },
    {
      "epoch": 0.4075,
      "grad_norm": 14.25,
      "grad_norm_var": 1.6921712239583333,
      "learning_rate": 0.0003,
      "loss": 11.1731,
      "loss/aux_loss": 0.04807141162455082,
      "loss/crossentropy": 2.658374536037445,
      "loss/logits": 0.834993302822113,
      "step": 40750
    },
    {
      "epoch": 0.4076,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.2516764322916667,
      "learning_rate": 0.0003,
      "loss": 11.1559,
      "loss/aux_loss": 0.04808028191328049,
      "loss/crossentropy": 2.8203831791877745,
      "loss/logits": 0.849945318698883,
      "step": 40760
    },
    {
      "epoch": 0.4077,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.5962076822916667,
      "learning_rate": 0.0003,
      "loss": 11.2235,
      "loss/aux_loss": 0.04808716755360365,
      "loss/crossentropy": 2.6665258586406706,
      "loss/logits": 0.8106503874063492,
      "step": 40770
    },
    {
      "epoch": 0.4078,
      "grad_norm": 14.375,
      "grad_norm_var": 0.47994791666666664,
      "learning_rate": 0.0003,
      "loss": 11.1902,
      "loss/aux_loss": 0.048067199811339376,
      "loss/crossentropy": 2.8551108717918394,
      "loss/logits": 0.8341933101415634,
      "step": 40780
    },
    {
      "epoch": 0.4079,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.46404622395833334,
      "learning_rate": 0.0003,
      "loss": 11.3637,
      "loss/aux_loss": 0.048095259629189965,
      "loss/crossentropy": 2.789784300327301,
      "loss/logits": 0.8456574827432632,
      "step": 40790
    },
    {
      "epoch": 0.408,
      "grad_norm": 14.625,
      "grad_norm_var": 0.36692708333333335,
      "learning_rate": 0.0003,
      "loss": 11.353,
      "loss/aux_loss": 0.04808163102716208,
      "loss/crossentropy": 2.769635444879532,
      "loss/logits": 0.8221473515033721,
      "step": 40800
    },
    {
      "epoch": 0.4081,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.235791015625,
      "learning_rate": 0.0003,
      "loss": 11.0647,
      "loss/aux_loss": 0.04807380121201277,
      "loss/crossentropy": 2.565002143383026,
      "loss/logits": 0.80843525826931,
      "step": 40810
    },
    {
      "epoch": 0.4082,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.17630208333333333,
      "learning_rate": 0.0003,
      "loss": 11.2184,
      "loss/aux_loss": 0.04807892981916666,
      "loss/crossentropy": 2.784299910068512,
      "loss/logits": 0.8424362123012543,
      "step": 40820
    },
    {
      "epoch": 0.4083,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.6523274739583333,
      "learning_rate": 0.0003,
      "loss": 11.1706,
      "loss/aux_loss": 0.048079443722963335,
      "loss/crossentropy": 2.6999199271202086,
      "loss/logits": 0.8214786738157273,
      "step": 40830
    },
    {
      "epoch": 0.4084,
      "grad_norm": 14.25,
      "grad_norm_var": 0.57265625,
      "learning_rate": 0.0003,
      "loss": 11.2877,
      "loss/aux_loss": 0.04807170610874891,
      "loss/crossentropy": 2.830400151014328,
      "loss/logits": 0.8450867384672165,
      "step": 40840
    },
    {
      "epoch": 0.4085,
      "grad_norm": 14.125,
      "grad_norm_var": 0.26555989583333334,
      "learning_rate": 0.0003,
      "loss": 11.3547,
      "loss/aux_loss": 0.048065755516290665,
      "loss/crossentropy": 2.723574197292328,
      "loss/logits": 0.8342130482196808,
      "step": 40850
    },
    {
      "epoch": 0.4086,
      "grad_norm": 13.875,
      "grad_norm_var": 0.4051432291666667,
      "learning_rate": 0.0003,
      "loss": 11.1298,
      "loss/aux_loss": 0.0480728205293417,
      "loss/crossentropy": 2.7340495467185972,
      "loss/logits": 0.8313911110162735,
      "step": 40860
    },
    {
      "epoch": 0.4087,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.48880208333333336,
      "learning_rate": 0.0003,
      "loss": 11.1538,
      "loss/aux_loss": 0.04808170907199383,
      "loss/crossentropy": 2.6556981980800627,
      "loss/logits": 0.8474443554878235,
      "step": 40870
    },
    {
      "epoch": 0.4088,
      "grad_norm": 14.25,
      "grad_norm_var": 0.42962239583333334,
      "learning_rate": 0.0003,
      "loss": 11.0847,
      "loss/aux_loss": 0.04807398784905672,
      "loss/crossentropy": 2.612995356321335,
      "loss/logits": 0.8423753798007965,
      "step": 40880
    },
    {
      "epoch": 0.4089,
      "grad_norm": 16.375,
      "grad_norm_var": 1.2555826822916667,
      "learning_rate": 0.0003,
      "loss": 11.2143,
      "loss/aux_loss": 0.04807846713811159,
      "loss/crossentropy": 2.7332702219486236,
      "loss/logits": 0.864795908331871,
      "step": 40890
    },
    {
      "epoch": 0.409,
      "grad_norm": 13.6875,
      "grad_norm_var": 10.117692057291666,
      "learning_rate": 0.0003,
      "loss": 11.2962,
      "loss/aux_loss": 0.0480788690969348,
      "loss/crossentropy": 2.662673217058182,
      "loss/logits": 0.8612865924835205,
      "step": 40900
    },
    {
      "epoch": 0.4091,
      "grad_norm": 14.5,
      "grad_norm_var": 0.31131184895833336,
      "learning_rate": 0.0003,
      "loss": 11.1592,
      "loss/aux_loss": 0.04808458536863327,
      "loss/crossentropy": 2.793060463666916,
      "loss/logits": 0.8244423866271973,
      "step": 40910
    },
    {
      "epoch": 0.4092,
      "grad_norm": 18.0,
      "grad_norm_var": 1.2817545572916667,
      "learning_rate": 0.0003,
      "loss": 11.3325,
      "loss/aux_loss": 0.048066679015755655,
      "loss/crossentropy": 2.822656285762787,
      "loss/logits": 0.8820368677377701,
      "step": 40920
    },
    {
      "epoch": 0.4093,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.397900390625,
      "learning_rate": 0.0003,
      "loss": 11.1258,
      "loss/aux_loss": 0.04807949531823397,
      "loss/crossentropy": 2.837810254096985,
      "loss/logits": 0.8587910264730454,
      "step": 40930
    },
    {
      "epoch": 0.4094,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.8061848958333333,
      "learning_rate": 0.0003,
      "loss": 11.2212,
      "loss/aux_loss": 0.04807252325117588,
      "loss/crossentropy": 2.607957309484482,
      "loss/logits": 0.8224194586277008,
      "step": 40940
    },
    {
      "epoch": 0.4095,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.6403483072916667,
      "learning_rate": 0.0003,
      "loss": 11.1002,
      "loss/aux_loss": 0.048077072761952874,
      "loss/crossentropy": 2.6987807989120483,
      "loss/logits": 0.8149879366159439,
      "step": 40950
    },
    {
      "epoch": 0.4096,
      "grad_norm": 14.125,
      "grad_norm_var": 1.686962890625,
      "learning_rate": 0.0003,
      "loss": 11.3598,
      "loss/aux_loss": 0.048078333213925364,
      "loss/crossentropy": 2.849722057580948,
      "loss/logits": 0.8561419308185577,
      "step": 40960
    },
    {
      "epoch": 0.4097,
      "grad_norm": 13.5,
      "grad_norm_var": 1.6792805989583333,
      "learning_rate": 0.0003,
      "loss": 11.2066,
      "loss/aux_loss": 0.04807558581233025,
      "loss/crossentropy": 2.783593249320984,
      "loss/logits": 0.8805976897478104,
      "step": 40970
    },
    {
      "epoch": 0.4098,
      "grad_norm": 16.75,
      "grad_norm_var": 0.8942057291666666,
      "learning_rate": 0.0003,
      "loss": 11.2792,
      "loss/aux_loss": 0.04807433895766735,
      "loss/crossentropy": 2.619139677286148,
      "loss/logits": 0.8347267210483551,
      "step": 40980
    },
    {
      "epoch": 0.4099,
      "grad_norm": 16.125,
      "grad_norm_var": 1.1270833333333334,
      "learning_rate": 0.0003,
      "loss": 11.2101,
      "loss/aux_loss": 0.04807988088577986,
      "loss/crossentropy": 2.6135978281497954,
      "loss/logits": 0.8248639732599259,
      "step": 40990
    },
    {
      "epoch": 0.41,
      "grad_norm": 15.125,
      "grad_norm_var": 1.1157389322916667,
      "learning_rate": 0.0003,
      "loss": 11.1235,
      "loss/aux_loss": 0.04808098264038563,
      "loss/crossentropy": 2.711561453342438,
      "loss/logits": 0.8340432167053222,
      "step": 41000
    },
    {
      "epoch": 0.4101,
      "grad_norm": 15.0,
      "grad_norm_var": 0.7129557291666667,
      "learning_rate": 0.0003,
      "loss": 11.141,
      "loss/aux_loss": 0.04807994924485683,
      "loss/crossentropy": 2.672397243976593,
      "loss/logits": 0.8090786308050155,
      "step": 41010
    },
    {
      "epoch": 0.4102,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.5226399739583333,
      "learning_rate": 0.0003,
      "loss": 11.2172,
      "loss/aux_loss": 0.04806915018707514,
      "loss/crossentropy": 2.7911486864089965,
      "loss/logits": 0.8176318496465683,
      "step": 41020
    },
    {
      "epoch": 0.4103,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.27029622395833336,
      "learning_rate": 0.0003,
      "loss": 11.0946,
      "loss/aux_loss": 0.04807211291044951,
      "loss/crossentropy": 2.7278398156166075,
      "loss/logits": 0.837305772304535,
      "step": 41030
    },
    {
      "epoch": 0.4104,
      "grad_norm": 13.75,
      "grad_norm_var": 0.372900390625,
      "learning_rate": 0.0003,
      "loss": 11.1227,
      "loss/aux_loss": 0.04808787349611521,
      "loss/crossentropy": 2.6341135680675505,
      "loss/logits": 0.8195017322897911,
      "step": 41040
    },
    {
      "epoch": 0.4105,
      "grad_norm": 13.1875,
      "grad_norm_var": 2.482796223958333,
      "learning_rate": 0.0003,
      "loss": 11.2554,
      "loss/aux_loss": 0.04807057995349169,
      "loss/crossentropy": 2.843722766637802,
      "loss/logits": 0.8595122218132019,
      "step": 41050
    },
    {
      "epoch": 0.4106,
      "grad_norm": 14.125,
      "grad_norm_var": 2.5208333333333335,
      "learning_rate": 0.0003,
      "loss": 11.1853,
      "loss/aux_loss": 0.04808246102184057,
      "loss/crossentropy": 2.6582208454608915,
      "loss/logits": 0.8346160590648651,
      "step": 41060
    },
    {
      "epoch": 0.4107,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.71171875,
      "learning_rate": 0.0003,
      "loss": 11.3008,
      "loss/aux_loss": 0.04806876853108406,
      "loss/crossentropy": 2.6965928435325623,
      "loss/logits": 0.8599708110094071,
      "step": 41070
    },
    {
      "epoch": 0.4108,
      "grad_norm": 14.125,
      "grad_norm_var": 0.8223307291666667,
      "learning_rate": 0.0003,
      "loss": 11.0954,
      "loss/aux_loss": 0.048069384321570395,
      "loss/crossentropy": 2.714770442247391,
      "loss/logits": 0.8336487352848053,
      "step": 41080
    },
    {
      "epoch": 0.4109,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.6469889322916667,
      "learning_rate": 0.0003,
      "loss": 11.2912,
      "loss/aux_loss": 0.04807863663882017,
      "loss/crossentropy": 2.7766244173049928,
      "loss/logits": 0.8574995458126068,
      "step": 41090
    },
    {
      "epoch": 0.411,
      "grad_norm": 14.75,
      "grad_norm_var": 1.143603515625,
      "learning_rate": 0.0003,
      "loss": 10.9719,
      "loss/aux_loss": 0.04807050917297602,
      "loss/crossentropy": 2.6750208139419556,
      "loss/logits": 0.8000975757837295,
      "step": 41100
    },
    {
      "epoch": 0.4111,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.7415201822916666,
      "learning_rate": 0.0003,
      "loss": 11.0615,
      "loss/aux_loss": 0.048084990307688716,
      "loss/crossentropy": 2.8587915897369385,
      "loss/logits": 0.859082692861557,
      "step": 41110
    },
    {
      "epoch": 0.4112,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.441650390625,
      "learning_rate": 0.0003,
      "loss": 11.2455,
      "loss/aux_loss": 0.04807133413851261,
      "loss/crossentropy": 2.6838557541370394,
      "loss/logits": 0.8341993808746337,
      "step": 41120
    },
    {
      "epoch": 0.4113,
      "grad_norm": 14.5,
      "grad_norm_var": 0.8056640625,
      "learning_rate": 0.0003,
      "loss": 11.3317,
      "loss/aux_loss": 0.04806279819458723,
      "loss/crossentropy": 2.934316062927246,
      "loss/logits": 0.852023234963417,
      "step": 41130
    },
    {
      "epoch": 0.4114,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.5887858072916666,
      "learning_rate": 0.0003,
      "loss": 11.1059,
      "loss/aux_loss": 0.0480830904096365,
      "loss/crossentropy": 2.8082756876945494,
      "loss/logits": 0.814395149052143,
      "step": 41140
    },
    {
      "epoch": 0.4115,
      "grad_norm": 14.1875,
      "grad_norm_var": 3.896354166666667,
      "learning_rate": 0.0003,
      "loss": 11.2447,
      "loss/aux_loss": 0.048078673891723156,
      "loss/crossentropy": 2.7707399845123293,
      "loss/logits": 0.8573799431324005,
      "step": 41150
    },
    {
      "epoch": 0.4116,
      "grad_norm": 13.75,
      "grad_norm_var": 3.89609375,
      "learning_rate": 0.0003,
      "loss": 11.2491,
      "loss/aux_loss": 0.0480762155726552,
      "loss/crossentropy": 2.9101900935173033,
      "loss/logits": 0.8609474629163743,
      "step": 41160
    },
    {
      "epoch": 0.4117,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.0238932291666667,
      "learning_rate": 0.0003,
      "loss": 11.1961,
      "loss/aux_loss": 0.048080237582325935,
      "loss/crossentropy": 2.606840658187866,
      "loss/logits": 0.8273939996957779,
      "step": 41170
    },
    {
      "epoch": 0.4118,
      "grad_norm": 14.5,
      "grad_norm_var": 0.1619140625,
      "learning_rate": 0.0003,
      "loss": 11.2267,
      "loss/aux_loss": 0.04807858131825924,
      "loss/crossentropy": 2.684722530841827,
      "loss/logits": 0.840096390247345,
      "step": 41180
    },
    {
      "epoch": 0.4119,
      "grad_norm": 14.375,
      "grad_norm_var": 0.6071451822916667,
      "learning_rate": 0.0003,
      "loss": 11.2679,
      "loss/aux_loss": 0.04808023814111948,
      "loss/crossentropy": 2.697424811124802,
      "loss/logits": 0.8633444011211395,
      "step": 41190
    },
    {
      "epoch": 0.412,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.28274739583333336,
      "learning_rate": 0.0003,
      "loss": 11.0866,
      "loss/aux_loss": 0.04807175993919373,
      "loss/crossentropy": 2.634129375219345,
      "loss/logits": 0.8138844251632691,
      "step": 41200
    },
    {
      "epoch": 0.4121,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.5567057291666667,
      "learning_rate": 0.0003,
      "loss": 11.0525,
      "loss/aux_loss": 0.048080427944660185,
      "loss/crossentropy": 2.6594059228897096,
      "loss/logits": 0.8541360199451447,
      "step": 41210
    },
    {
      "epoch": 0.4122,
      "grad_norm": 14.4375,
      "grad_norm_var": 1.0149576822916666,
      "learning_rate": 0.0003,
      "loss": 11.2432,
      "loss/aux_loss": 0.04808235038071871,
      "loss/crossentropy": 2.797593057155609,
      "loss/logits": 0.886846199631691,
      "step": 41220
    },
    {
      "epoch": 0.4123,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.8604166666666667,
      "learning_rate": 0.0003,
      "loss": 11.0625,
      "loss/aux_loss": 0.04806336238980293,
      "loss/crossentropy": 2.474899399280548,
      "loss/logits": 0.7937245279550552,
      "step": 41230
    },
    {
      "epoch": 0.4124,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5230305989583334,
      "learning_rate": 0.0003,
      "loss": 11.2082,
      "loss/aux_loss": 0.048086734302341935,
      "loss/crossentropy": 2.6535877227783202,
      "loss/logits": 0.8522655874490738,
      "step": 41240
    },
    {
      "epoch": 0.4125,
      "grad_norm": 13.25,
      "grad_norm_var": 13.269124348958334,
      "learning_rate": 0.0003,
      "loss": 11.2381,
      "loss/aux_loss": 0.048068624176085,
      "loss/crossentropy": 2.7681680560112,
      "loss/logits": 0.8193393349647522,
      "step": 41250
    },
    {
      "epoch": 0.4126,
      "grad_norm": 13.0,
      "grad_norm_var": 14.011962890625,
      "learning_rate": 0.0003,
      "loss": 11.1778,
      "loss/aux_loss": 0.04807403292506933,
      "loss/crossentropy": 2.693704390525818,
      "loss/logits": 0.861787760257721,
      "step": 41260
    },
    {
      "epoch": 0.4127,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.5087076822916666,
      "learning_rate": 0.0003,
      "loss": 11.2949,
      "loss/aux_loss": 0.04806809015572071,
      "loss/crossentropy": 2.527338033914566,
      "loss/logits": 0.8236821800470352,
      "step": 41270
    },
    {
      "epoch": 0.4128,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.5129557291666667,
      "learning_rate": 0.0003,
      "loss": 11.22,
      "loss/aux_loss": 0.04808800853788853,
      "loss/crossentropy": 2.7711110353469848,
      "loss/logits": 0.8424245923757553,
      "step": 41280
    },
    {
      "epoch": 0.4129,
      "grad_norm": 14.375,
      "grad_norm_var": 0.23878580729166668,
      "learning_rate": 0.0003,
      "loss": 11.1104,
      "loss/aux_loss": 0.04806681144982576,
      "loss/crossentropy": 2.7462151408195496,
      "loss/logits": 0.878471040725708,
      "step": 41290
    },
    {
      "epoch": 0.413,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.24386393229166667,
      "learning_rate": 0.0003,
      "loss": 11.2019,
      "loss/aux_loss": 0.048082958348095416,
      "loss/crossentropy": 2.857834202051163,
      "loss/logits": 0.8067145884037018,
      "step": 41300
    },
    {
      "epoch": 0.4131,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.2322265625,
      "learning_rate": 0.0003,
      "loss": 11.0486,
      "loss/aux_loss": 0.048069640435278414,
      "loss/crossentropy": 2.736476743221283,
      "loss/logits": 0.8467221200466156,
      "step": 41310
    },
    {
      "epoch": 0.4132,
      "grad_norm": 13.4375,
      "grad_norm_var": 1.1536295572916666,
      "learning_rate": 0.0003,
      "loss": 11.3639,
      "loss/aux_loss": 0.048079471290111545,
      "loss/crossentropy": 2.822791963815689,
      "loss/logits": 0.891073489189148,
      "step": 41320
    },
    {
      "epoch": 0.4133,
      "grad_norm": 16.25,
      "grad_norm_var": 1.016650390625,
      "learning_rate": 0.0003,
      "loss": 11.2361,
      "loss/aux_loss": 0.04807520154863596,
      "loss/crossentropy": 2.7339930176734923,
      "loss/logits": 0.8536212533712387,
      "step": 41330
    },
    {
      "epoch": 0.4134,
      "grad_norm": 14.5,
      "grad_norm_var": 0.8587076822916667,
      "learning_rate": 0.0003,
      "loss": 11.0921,
      "loss/aux_loss": 0.048079288192093374,
      "loss/crossentropy": 2.6249010980129244,
      "loss/logits": 0.8314791291952133,
      "step": 41340
    },
    {
      "epoch": 0.4135,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.3551432291666667,
      "learning_rate": 0.0003,
      "loss": 11.1947,
      "loss/aux_loss": 0.04807145558297634,
      "loss/crossentropy": 2.6940083622932436,
      "loss/logits": 0.8695379942655563,
      "step": 41350
    },
    {
      "epoch": 0.4136,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5160807291666667,
      "learning_rate": 0.0003,
      "loss": 11.1861,
      "loss/aux_loss": 0.04807656276971102,
      "loss/crossentropy": 2.5916694521903993,
      "loss/logits": 0.844970840215683,
      "step": 41360
    },
    {
      "epoch": 0.4137,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5186848958333333,
      "learning_rate": 0.0003,
      "loss": 11.362,
      "loss/aux_loss": 0.04807461556047201,
      "loss/crossentropy": 2.6328794419765473,
      "loss/logits": 0.8364063590765,
      "step": 41370
    },
    {
      "epoch": 0.4138,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.237744140625,
      "learning_rate": 0.0003,
      "loss": 11.201,
      "loss/aux_loss": 0.04807669036090374,
      "loss/crossentropy": 2.700971281528473,
      "loss/logits": 0.8363195568323135,
      "step": 41380
    },
    {
      "epoch": 0.4139,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.34524739583333336,
      "learning_rate": 0.0003,
      "loss": 11.3147,
      "loss/aux_loss": 0.04808150418102741,
      "loss/crossentropy": 2.7341397404670715,
      "loss/logits": 0.8220134526491165,
      "step": 41390
    },
    {
      "epoch": 0.414,
      "grad_norm": 13.75,
      "grad_norm_var": 0.3525390625,
      "learning_rate": 0.0003,
      "loss": 11.303,
      "loss/aux_loss": 0.04807320982217789,
      "loss/crossentropy": 2.7358368039131165,
      "loss/logits": 0.8331804543733596,
      "step": 41400
    },
    {
      "epoch": 0.4141,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.0388020833333333,
      "learning_rate": 0.0003,
      "loss": 11.2284,
      "loss/aux_loss": 0.04808115866035223,
      "loss/crossentropy": 2.6575556874275206,
      "loss/logits": 0.8795315742492675,
      "step": 41410
    },
    {
      "epoch": 0.4142,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.8374348958333333,
      "learning_rate": 0.0003,
      "loss": 11.2057,
      "loss/aux_loss": 0.04808524567633867,
      "loss/crossentropy": 2.639425593614578,
      "loss/logits": 0.8381777286529541,
      "step": 41420
    },
    {
      "epoch": 0.4143,
      "grad_norm": 13.375,
      "grad_norm_var": 0.7231608072916667,
      "learning_rate": 0.0003,
      "loss": 11.2503,
      "loss/aux_loss": 0.04807372502982617,
      "loss/crossentropy": 2.7047315418720244,
      "loss/logits": 0.8312118053436279,
      "step": 41430
    },
    {
      "epoch": 0.4144,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.2953125,
      "learning_rate": 0.0003,
      "loss": 11.1798,
      "loss/aux_loss": 0.048076724819839003,
      "loss/crossentropy": 2.651015895605087,
      "loss/logits": 0.840973848104477,
      "step": 41440
    },
    {
      "epoch": 0.4145,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5132649739583334,
      "learning_rate": 0.0003,
      "loss": 11.2366,
      "loss/aux_loss": 0.04806795343756676,
      "loss/crossentropy": 2.8247196197509767,
      "loss/logits": 0.8217742323875428,
      "step": 41450
    },
    {
      "epoch": 0.4146,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.46027018229166666,
      "learning_rate": 0.0003,
      "loss": 11.0727,
      "loss/aux_loss": 0.04807949978858232,
      "loss/crossentropy": 2.5847329258918763,
      "loss/logits": 0.8199368387460708,
      "step": 41460
    },
    {
      "epoch": 0.4147,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.314697265625,
      "learning_rate": 0.0003,
      "loss": 11.2538,
      "loss/aux_loss": 0.04806741494685411,
      "loss/crossentropy": 2.833824622631073,
      "loss/logits": 0.8637136548757554,
      "step": 41470
    },
    {
      "epoch": 0.4148,
      "grad_norm": 13.25,
      "grad_norm_var": 0.16380208333333332,
      "learning_rate": 0.0003,
      "loss": 11.1968,
      "loss/aux_loss": 0.04808125514537096,
      "loss/crossentropy": 2.6305019736289976,
      "loss/logits": 0.8417465597391128,
      "step": 41480
    },
    {
      "epoch": 0.4149,
      "grad_norm": 25.375,
      "grad_norm_var": 8.584749348958333,
      "learning_rate": 0.0003,
      "loss": 11.1024,
      "loss/aux_loss": 0.0480692395940423,
      "loss/crossentropy": 2.78939009308815,
      "loss/logits": 0.8338617235422134,
      "step": 41490
    },
    {
      "epoch": 0.415,
      "grad_norm": 15.625,
      "grad_norm_var": 8.855452473958334,
      "learning_rate": 0.0003,
      "loss": 11.1944,
      "loss/aux_loss": 0.04809089172631502,
      "loss/crossentropy": 2.633754700422287,
      "loss/logits": 0.8260821491479874,
      "step": 41500
    },
    {
      "epoch": 0.4151,
      "grad_norm": 15.125,
      "grad_norm_var": 1.2046223958333333,
      "learning_rate": 0.0003,
      "loss": 11.1703,
      "loss/aux_loss": 0.048080214858055116,
      "loss/crossentropy": 2.872915321588516,
      "loss/logits": 0.847340676188469,
      "step": 41510
    },
    {
      "epoch": 0.4152,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.2669108072916666,
      "learning_rate": 0.0003,
      "loss": 11.0204,
      "loss/aux_loss": 0.04807033985853195,
      "loss/crossentropy": 2.750588357448578,
      "loss/logits": 0.8613759696483612,
      "step": 41520
    },
    {
      "epoch": 0.4153,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.5091145833333334,
      "learning_rate": 0.0003,
      "loss": 11.2335,
      "loss/aux_loss": 0.04808351546525955,
      "loss/crossentropy": 2.702675199508667,
      "loss/logits": 0.8650101304054261,
      "step": 41530
    },
    {
      "epoch": 0.4154,
      "grad_norm": 15.75,
      "grad_norm_var": 0.498291015625,
      "learning_rate": 0.0003,
      "loss": 11.2771,
      "loss/aux_loss": 0.048078674264252184,
      "loss/crossentropy": 2.69321893453598,
      "loss/logits": 0.8795695304870605,
      "step": 41540
    },
    {
      "epoch": 0.4155,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.3921223958333333,
      "learning_rate": 0.0003,
      "loss": 11.2882,
      "loss/aux_loss": 0.0480771878734231,
      "loss/crossentropy": 2.849241554737091,
      "loss/logits": 0.8312081456184387,
      "step": 41550
    },
    {
      "epoch": 0.4156,
      "grad_norm": 13.875,
      "grad_norm_var": 1.506884765625,
      "learning_rate": 0.0003,
      "loss": 11.2257,
      "loss/aux_loss": 0.04807361774146557,
      "loss/crossentropy": 2.63561954498291,
      "loss/logits": 0.8598904728889465,
      "step": 41560
    },
    {
      "epoch": 0.4157,
      "grad_norm": 13.5,
      "grad_norm_var": 0.570947265625,
      "learning_rate": 0.0003,
      "loss": 11.2278,
      "loss/aux_loss": 0.04808267373591661,
      "loss/crossentropy": 2.668130397796631,
      "loss/logits": 0.8185748666524887,
      "step": 41570
    },
    {
      "epoch": 0.4158,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.470166015625,
      "learning_rate": 0.0003,
      "loss": 11.1306,
      "loss/aux_loss": 0.04807985983788967,
      "loss/crossentropy": 2.642909526824951,
      "loss/logits": 0.8164368301630021,
      "step": 41580
    },
    {
      "epoch": 0.4159,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.4727701822916667,
      "learning_rate": 0.0003,
      "loss": 11.1133,
      "loss/aux_loss": 0.04805450364947319,
      "loss/crossentropy": 2.6953525304794312,
      "loss/logits": 0.8492616504430771,
      "step": 41590
    },
    {
      "epoch": 0.416,
      "grad_norm": 15.375,
      "grad_norm_var": 50.5171875,
      "learning_rate": 0.0003,
      "loss": 11.4191,
      "loss/aux_loss": 0.048086438328027725,
      "loss/crossentropy": 2.696820414066315,
      "loss/logits": 0.8366290658712388,
      "step": 41600
    },
    {
      "epoch": 0.4161,
      "grad_norm": 14.875,
      "grad_norm_var": 0.4183430989583333,
      "learning_rate": 0.0003,
      "loss": 11.178,
      "loss/aux_loss": 0.04807772561907768,
      "loss/crossentropy": 2.730132043361664,
      "loss/logits": 0.8532672584056854,
      "step": 41610
    },
    {
      "epoch": 0.4162,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.45625,
      "learning_rate": 0.0003,
      "loss": 11.2598,
      "loss/aux_loss": 0.04807155448943377,
      "loss/crossentropy": 2.8405850529670715,
      "loss/logits": 0.8775646090507507,
      "step": 41620
    },
    {
      "epoch": 0.4163,
      "grad_norm": 14.25,
      "grad_norm_var": 3.5476399739583333,
      "learning_rate": 0.0003,
      "loss": 11.392,
      "loss/aux_loss": 0.048077188059687616,
      "loss/crossentropy": 2.6101203083992006,
      "loss/logits": 0.8570107728242874,
      "step": 41630
    },
    {
      "epoch": 0.4164,
      "grad_norm": 15.0625,
      "grad_norm_var": 2.9973795572916666,
      "learning_rate": 0.0003,
      "loss": 11.3679,
      "loss/aux_loss": 0.0480748301371932,
      "loss/crossentropy": 2.6226659595966337,
      "loss/logits": 0.8122975617647171,
      "step": 41640
    },
    {
      "epoch": 0.4165,
      "grad_norm": 15.0,
      "grad_norm_var": 0.42233072916666664,
      "learning_rate": 0.0003,
      "loss": 11.2247,
      "loss/aux_loss": 0.04807394295930863,
      "loss/crossentropy": 2.675206708908081,
      "loss/logits": 0.8600716292858124,
      "step": 41650
    },
    {
      "epoch": 0.4166,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.31951497395833334,
      "learning_rate": 0.0003,
      "loss": 11.3153,
      "loss/aux_loss": 0.04808421637862921,
      "loss/crossentropy": 2.7114802062511445,
      "loss/logits": 0.8375776976346969,
      "step": 41660
    },
    {
      "epoch": 0.4167,
      "grad_norm": 13.6875,
      "grad_norm_var": 3.4596354166666665,
      "learning_rate": 0.0003,
      "loss": 11.1687,
      "loss/aux_loss": 0.048071696795523165,
      "loss/crossentropy": 2.6611205101013184,
      "loss/logits": 0.8244008392095565,
      "step": 41670
    },
    {
      "epoch": 0.4168,
      "grad_norm": 15.4375,
      "grad_norm_var": 3.692122395833333,
      "learning_rate": 0.0003,
      "loss": 11.1502,
      "loss/aux_loss": 0.048073360323905946,
      "loss/crossentropy": 2.6855955958366393,
      "loss/logits": 0.8512616366147995,
      "step": 41680
    },
    {
      "epoch": 0.4169,
      "grad_norm": 12.75,
      "grad_norm_var": 0.6722493489583333,
      "learning_rate": 0.0003,
      "loss": 11.2267,
      "loss/aux_loss": 0.04807688854634762,
      "loss/crossentropy": 2.8731314897537232,
      "loss/logits": 0.8567210525274277,
      "step": 41690
    },
    {
      "epoch": 0.417,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.6924479166666667,
      "learning_rate": 0.0003,
      "loss": 11.4032,
      "loss/aux_loss": 0.04807659108191729,
      "loss/crossentropy": 2.819017004966736,
      "loss/logits": 0.8509372651576996,
      "step": 41700
    },
    {
      "epoch": 0.4171,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.627978515625,
      "learning_rate": 0.0003,
      "loss": 11.1128,
      "loss/aux_loss": 0.04807431064546108,
      "loss/crossentropy": 2.587670737504959,
      "loss/logits": 0.8356228917837143,
      "step": 41710
    },
    {
      "epoch": 0.4172,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.8402180989583333,
      "learning_rate": 0.0003,
      "loss": 11.3018,
      "loss/aux_loss": 0.048075992986559866,
      "loss/crossentropy": 2.6217161655426025,
      "loss/logits": 0.8416286587715149,
      "step": 41720
    },
    {
      "epoch": 0.4173,
      "grad_norm": 12.5,
      "grad_norm_var": 1.4369140625,
      "learning_rate": 0.0003,
      "loss": 11.2056,
      "loss/aux_loss": 0.048069687001407145,
      "loss/crossentropy": 2.705968415737152,
      "loss/logits": 0.8546758621931076,
      "step": 41730
    },
    {
      "epoch": 0.4174,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.9641764322916666,
      "learning_rate": 0.0003,
      "loss": 11.0999,
      "loss/aux_loss": 0.04808080643415451,
      "loss/crossentropy": 2.729911983013153,
      "loss/logits": 0.8501161009073257,
      "step": 41740
    },
    {
      "epoch": 0.4175,
      "grad_norm": 14.6875,
      "grad_norm_var": 4.536051432291667,
      "learning_rate": 0.0003,
      "loss": 11.2002,
      "loss/aux_loss": 0.0480776721611619,
      "loss/crossentropy": 2.471704250574112,
      "loss/logits": 0.8195729270577431,
      "step": 41750
    },
    {
      "epoch": 0.4176,
      "grad_norm": 15.75,
      "grad_norm_var": 0.6348307291666667,
      "learning_rate": 0.0003,
      "loss": 11.1175,
      "loss/aux_loss": 0.04808681774884462,
      "loss/crossentropy": 2.607026255130768,
      "loss/logits": 0.8329499930143356,
      "step": 41760
    },
    {
      "epoch": 0.4177,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.5440104166666667,
      "learning_rate": 0.0003,
      "loss": 11.2311,
      "loss/aux_loss": 0.048072993755340576,
      "loss/crossentropy": 2.548939037322998,
      "loss/logits": 0.8520324468612671,
      "step": 41770
    },
    {
      "epoch": 0.4178,
      "grad_norm": 14.0,
      "grad_norm_var": 0.30130208333333336,
      "learning_rate": 0.0003,
      "loss": 11.1902,
      "loss/aux_loss": 0.04807652682065964,
      "loss/crossentropy": 2.70545357465744,
      "loss/logits": 0.8085658639669419,
      "step": 41780
    },
    {
      "epoch": 0.4179,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.785791015625,
      "learning_rate": 0.0003,
      "loss": 11.2129,
      "loss/aux_loss": 0.04808551725000143,
      "loss/crossentropy": 2.7015809535980226,
      "loss/logits": 0.8569774001836776,
      "step": 41790
    },
    {
      "epoch": 0.418,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.7012858072916667,
      "learning_rate": 0.0003,
      "loss": 11.1873,
      "loss/aux_loss": 0.04806754495948553,
      "loss/crossentropy": 2.7126809656620026,
      "loss/logits": 0.8494727402925492,
      "step": 41800
    },
    {
      "epoch": 0.4181,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.334375,
      "learning_rate": 0.0003,
      "loss": 11.2021,
      "loss/aux_loss": 0.04807236008346081,
      "loss/crossentropy": 2.6086998522281646,
      "loss/logits": 0.854032838344574,
      "step": 41810
    },
    {
      "epoch": 0.4182,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.279541015625,
      "learning_rate": 0.0003,
      "loss": 11.2497,
      "loss/aux_loss": 0.048076076060533525,
      "loss/crossentropy": 2.7394097089767455,
      "loss/logits": 0.8530152827501297,
      "step": 41820
    },
    {
      "epoch": 0.4183,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.3042805989583333,
      "learning_rate": 0.0003,
      "loss": 11.2131,
      "loss/aux_loss": 0.048075619898736474,
      "loss/crossentropy": 2.693272775411606,
      "loss/logits": 0.8179311394691468,
      "step": 41830
    },
    {
      "epoch": 0.4184,
      "grad_norm": 14.875,
      "grad_norm_var": 0.6973958333333333,
      "learning_rate": 0.0003,
      "loss": 11.2869,
      "loss/aux_loss": 0.048083697259426114,
      "loss/crossentropy": 2.731438684463501,
      "loss/logits": 0.8441088706254959,
      "step": 41840
    },
    {
      "epoch": 0.4185,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.5348795572916667,
      "learning_rate": 0.0003,
      "loss": 11.2476,
      "loss/aux_loss": 0.04807062391191721,
      "loss/crossentropy": 2.7216593980789185,
      "loss/logits": 0.8569325089454651,
      "step": 41850
    },
    {
      "epoch": 0.4186,
      "grad_norm": 14.375,
      "grad_norm_var": 0.318994140625,
      "learning_rate": 0.0003,
      "loss": 11.1622,
      "loss/aux_loss": 0.04807673562318086,
      "loss/crossentropy": 2.7688432216644285,
      "loss/logits": 0.868677607178688,
      "step": 41860
    },
    {
      "epoch": 0.4187,
      "grad_norm": 14.375,
      "grad_norm_var": 0.549853515625,
      "learning_rate": 0.0003,
      "loss": 11.1659,
      "loss/aux_loss": 0.04807185679674149,
      "loss/crossentropy": 2.743114960193634,
      "loss/logits": 0.8016538411378861,
      "step": 41870
    },
    {
      "epoch": 0.4188,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.633056640625,
      "learning_rate": 0.0003,
      "loss": 11.4034,
      "loss/aux_loss": 0.04806502480059862,
      "loss/crossentropy": 2.7593605399131773,
      "loss/logits": 0.8573271870613098,
      "step": 41880
    },
    {
      "epoch": 0.4189,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.4806640625,
      "learning_rate": 0.0003,
      "loss": 11.2272,
      "loss/aux_loss": 0.048074369132518766,
      "loss/crossentropy": 2.729891151189804,
      "loss/logits": 0.877751037478447,
      "step": 41890
    },
    {
      "epoch": 0.419,
      "grad_norm": 15.5,
      "grad_norm_var": 0.5794108072916667,
      "learning_rate": 0.0003,
      "loss": 11.2764,
      "loss/aux_loss": 0.04806425198912621,
      "loss/crossentropy": 2.7819466471672056,
      "loss/logits": 0.8514897584915161,
      "step": 41900
    },
    {
      "epoch": 0.4191,
      "grad_norm": 15.375,
      "grad_norm_var": 0.35149739583333334,
      "learning_rate": 0.0003,
      "loss": 11.1274,
      "loss/aux_loss": 0.048081301525235175,
      "loss/crossentropy": 2.7535706400871276,
      "loss/logits": 0.862214544415474,
      "step": 41910
    },
    {
      "epoch": 0.4192,
      "grad_norm": 13.5,
      "grad_norm_var": 0.5299479166666666,
      "learning_rate": 0.0003,
      "loss": 11.2672,
      "loss/aux_loss": 0.0480682335793972,
      "loss/crossentropy": 2.62730153799057,
      "loss/logits": 0.8124941200017929,
      "step": 41920
    },
    {
      "epoch": 0.4193,
      "grad_norm": 14.875,
      "grad_norm_var": 0.52109375,
      "learning_rate": 0.0003,
      "loss": 11.2227,
      "loss/aux_loss": 0.04808680079877377,
      "loss/crossentropy": 2.6323707461357118,
      "loss/logits": 0.8262597292661666,
      "step": 41930
    },
    {
      "epoch": 0.4194,
      "grad_norm": 14.5,
      "grad_norm_var": 0.290625,
      "learning_rate": 0.0003,
      "loss": 11.0658,
      "loss/aux_loss": 0.048071213997900486,
      "loss/crossentropy": 2.8325400054454803,
      "loss/logits": 0.8364947497844696,
      "step": 41940
    },
    {
      "epoch": 0.4195,
      "grad_norm": 13.75,
      "grad_norm_var": 1.2986979166666666,
      "learning_rate": 0.0003,
      "loss": 11.3139,
      "loss/aux_loss": 0.048080979473888875,
      "loss/crossentropy": 2.669241964817047,
      "loss/logits": 0.853290992975235,
      "step": 41950
    },
    {
      "epoch": 0.4196,
      "grad_norm": 13.5625,
      "grad_norm_var": 1.460791015625,
      "learning_rate": 0.0003,
      "loss": 11.1538,
      "loss/aux_loss": 0.048079793155193326,
      "loss/crossentropy": 2.7789398312568663,
      "loss/logits": 0.8316181004047394,
      "step": 41960
    },
    {
      "epoch": 0.4197,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.3932291666666667,
      "learning_rate": 0.0003,
      "loss": 11.411,
      "loss/aux_loss": 0.04805813655257225,
      "loss/crossentropy": 2.850307047367096,
      "loss/logits": 0.8470256596803665,
      "step": 41970
    },
    {
      "epoch": 0.4198,
      "grad_norm": 14.125,
      "grad_norm_var": 0.590087890625,
      "learning_rate": 0.0003,
      "loss": 11.2341,
      "loss/aux_loss": 0.04809781014919281,
      "loss/crossentropy": 2.73042853474617,
      "loss/logits": 0.8153778612613678,
      "step": 41980
    },
    {
      "epoch": 0.4199,
      "grad_norm": 14.875,
      "grad_norm_var": 1.03515625,
      "learning_rate": 0.0003,
      "loss": 11.2463,
      "loss/aux_loss": 0.048078482411801814,
      "loss/crossentropy": 2.771644139289856,
      "loss/logits": 0.8651615500450134,
      "step": 41990
    },
    {
      "epoch": 0.42,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.0833170572916666,
      "learning_rate": 0.0003,
      "loss": 11.2312,
      "loss/aux_loss": 0.04807273019105196,
      "loss/crossentropy": 2.685261583328247,
      "loss/logits": 0.8609261780977249,
      "step": 42000
    },
    {
      "epoch": 0.4201,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.44581705729166665,
      "learning_rate": 0.0003,
      "loss": 11.23,
      "loss/aux_loss": 0.048074769973754886,
      "loss/crossentropy": 2.605684131383896,
      "loss/logits": 0.8102221429347992,
      "step": 42010
    },
    {
      "epoch": 0.4202,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.5038899739583333,
      "learning_rate": 0.0003,
      "loss": 11.2462,
      "loss/aux_loss": 0.04807645082473755,
      "loss/crossentropy": 2.828294575214386,
      "loss/logits": 0.8302065849304199,
      "step": 42020
    },
    {
      "epoch": 0.4203,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.4630208333333333,
      "learning_rate": 0.0003,
      "loss": 11.2458,
      "loss/aux_loss": 0.04807501658797264,
      "loss/crossentropy": 2.6530769050121306,
      "loss/logits": 0.8315863937139512,
      "step": 42030
    },
    {
      "epoch": 0.4204,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.361962890625,
      "learning_rate": 0.0003,
      "loss": 11.1785,
      "loss/aux_loss": 0.0480683233588934,
      "loss/crossentropy": 2.774942231178284,
      "loss/logits": 0.8557955861091614,
      "step": 42040
    },
    {
      "epoch": 0.4205,
      "grad_norm": 15.8125,
      "grad_norm_var": 1.2765625,
      "learning_rate": 0.0003,
      "loss": 11.1787,
      "loss/aux_loss": 0.04808812700212002,
      "loss/crossentropy": 2.7394619226455688,
      "loss/logits": 0.8685553550720215,
      "step": 42050
    },
    {
      "epoch": 0.4206,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.025244140625,
      "learning_rate": 0.0003,
      "loss": 11.141,
      "loss/aux_loss": 0.04807517230510712,
      "loss/crossentropy": 2.646501141786575,
      "loss/logits": 0.8364500343799591,
      "step": 42060
    },
    {
      "epoch": 0.4207,
      "grad_norm": 15.4375,
      "grad_norm_var": 6.862223307291667,
      "learning_rate": 0.0003,
      "loss": 11.1773,
      "loss/aux_loss": 0.048075311444699766,
      "loss/crossentropy": 2.95753812789917,
      "loss/logits": 0.8557416766881942,
      "step": 42070
    },
    {
      "epoch": 0.4208,
      "grad_norm": 13.25,
      "grad_norm_var": 2.1541015625,
      "learning_rate": 0.0003,
      "loss": 11.1619,
      "loss/aux_loss": 0.04807597082108259,
      "loss/crossentropy": 2.747110295295715,
      "loss/logits": 0.8265171319246292,
      "step": 42080
    },
    {
      "epoch": 0.4209,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.35651041666666666,
      "learning_rate": 0.0003,
      "loss": 11.2256,
      "loss/aux_loss": 0.048070704378187654,
      "loss/crossentropy": 2.6773354530334474,
      "loss/logits": 0.8335412830114365,
      "step": 42090
    },
    {
      "epoch": 0.421,
      "grad_norm": 14.0,
      "grad_norm_var": 0.7171223958333334,
      "learning_rate": 0.0003,
      "loss": 11.3195,
      "loss/aux_loss": 0.04807304628193378,
      "loss/crossentropy": 2.7497352182865145,
      "loss/logits": 0.8508964985609054,
      "step": 42100
    },
    {
      "epoch": 0.4211,
      "grad_norm": 15.5,
      "grad_norm_var": 3.123177083333333,
      "learning_rate": 0.0003,
      "loss": 11.2999,
      "loss/aux_loss": 0.0480742210522294,
      "loss/crossentropy": 2.733784317970276,
      "loss/logits": 0.8499576389789582,
      "step": 42110
    },
    {
      "epoch": 0.4212,
      "grad_norm": 14.625,
      "grad_norm_var": 3.007926432291667,
      "learning_rate": 0.0003,
      "loss": 11.1922,
      "loss/aux_loss": 0.04807363022118807,
      "loss/crossentropy": 2.723239630460739,
      "loss/logits": 0.8264488846063613,
      "step": 42120
    },
    {
      "epoch": 0.4213,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.3167805989583333,
      "learning_rate": 0.0003,
      "loss": 11.2428,
      "loss/aux_loss": 0.04807157460600138,
      "loss/crossentropy": 2.740461474657059,
      "loss/logits": 0.8402502328157425,
      "step": 42130
    },
    {
      "epoch": 0.4214,
      "grad_norm": 14.5,
      "grad_norm_var": 0.317822265625,
      "learning_rate": 0.0003,
      "loss": 11.3028,
      "loss/aux_loss": 0.04807231556624174,
      "loss/crossentropy": 2.737111634016037,
      "loss/logits": 0.8425071030855179,
      "step": 42140
    },
    {
      "epoch": 0.4215,
      "grad_norm": 13.875,
      "grad_norm_var": 0.472509765625,
      "learning_rate": 0.0003,
      "loss": 11.1031,
      "loss/aux_loss": 0.048074459098279475,
      "loss/crossentropy": 2.6582253992557527,
      "loss/logits": 0.8121216595172882,
      "step": 42150
    },
    {
      "epoch": 0.4216,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.7161295572916667,
      "learning_rate": 0.0003,
      "loss": 11.2392,
      "loss/aux_loss": 0.04806816950440407,
      "loss/crossentropy": 2.573642885684967,
      "loss/logits": 0.8212338477373123,
      "step": 42160
    },
    {
      "epoch": 0.4217,
      "grad_norm": 14.25,
      "grad_norm_var": 0.7730305989583334,
      "learning_rate": 0.0003,
      "loss": 11.1449,
      "loss/aux_loss": 0.048084497638046744,
      "loss/crossentropy": 2.7038708448410036,
      "loss/logits": 0.8355427473783493,
      "step": 42170
    },
    {
      "epoch": 0.4218,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.9291015625,
      "learning_rate": 0.0003,
      "loss": 11.1934,
      "loss/aux_loss": 0.048070290684700014,
      "loss/crossentropy": 2.932389295101166,
      "loss/logits": 0.8793515950441361,
      "step": 42180
    },
    {
      "epoch": 0.4219,
      "grad_norm": 13.75,
      "grad_norm_var": 0.6808430989583333,
      "learning_rate": 0.0003,
      "loss": 11.2596,
      "loss/aux_loss": 0.04806995559483766,
      "loss/crossentropy": 2.848974609375,
      "loss/logits": 0.887108889222145,
      "step": 42190
    },
    {
      "epoch": 0.422,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.36139322916666666,
      "learning_rate": 0.0003,
      "loss": 11.0734,
      "loss/aux_loss": 0.04808047562837601,
      "loss/crossentropy": 2.7708349883556367,
      "loss/logits": 0.8702079772949218,
      "step": 42200
    },
    {
      "epoch": 0.4221,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.3931640625,
      "learning_rate": 0.0003,
      "loss": 11.0987,
      "loss/aux_loss": 0.04806628059595823,
      "loss/crossentropy": 2.75937157869339,
      "loss/logits": 0.8796556890010834,
      "step": 42210
    },
    {
      "epoch": 0.4222,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.392822265625,
      "learning_rate": 0.0003,
      "loss": 11.296,
      "loss/aux_loss": 0.0480836084112525,
      "loss/crossentropy": 2.686858814954758,
      "loss/logits": 0.8247960180044174,
      "step": 42220
    },
    {
      "epoch": 0.4223,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.758837890625,
      "learning_rate": 0.0003,
      "loss": 11.1395,
      "loss/aux_loss": 0.048082459904253486,
      "loss/crossentropy": 2.888724946975708,
      "loss/logits": 0.840698453783989,
      "step": 42230
    },
    {
      "epoch": 0.4224,
      "grad_norm": 15.4375,
      "grad_norm_var": 2.5072265625,
      "learning_rate": 0.0003,
      "loss": 11.3138,
      "loss/aux_loss": 0.04806939046829939,
      "loss/crossentropy": 2.7978740334510803,
      "loss/logits": 0.8392590701580047,
      "step": 42240
    },
    {
      "epoch": 0.4225,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.006494140625,
      "learning_rate": 0.0003,
      "loss": 11.2709,
      "loss/aux_loss": 0.048084151558578016,
      "loss/crossentropy": 2.694107210636139,
      "loss/logits": 0.8511635422706604,
      "step": 42250
    },
    {
      "epoch": 0.4226,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.407275390625,
      "learning_rate": 0.0003,
      "loss": 11.1712,
      "loss/aux_loss": 0.04807136338204145,
      "loss/crossentropy": 2.8651691317558288,
      "loss/logits": 0.8362912058830261,
      "step": 42260
    },
    {
      "epoch": 0.4227,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4098307291666667,
      "learning_rate": 0.0003,
      "loss": 11.301,
      "loss/aux_loss": 0.04806836117058992,
      "loss/crossentropy": 2.8899617552757264,
      "loss/logits": 0.8420800924301147,
      "step": 42270
    },
    {
      "epoch": 0.4228,
      "grad_norm": 14.0,
      "grad_norm_var": 0.4931640625,
      "learning_rate": 0.0003,
      "loss": 11.2737,
      "loss/aux_loss": 0.048084226250648496,
      "loss/crossentropy": 2.731697905063629,
      "loss/logits": 0.8795881062746048,
      "step": 42280
    },
    {
      "epoch": 0.4229,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.454150390625,
      "learning_rate": 0.0003,
      "loss": 11.0708,
      "loss/aux_loss": 0.048074116744101045,
      "loss/crossentropy": 2.6348713278770446,
      "loss/logits": 0.8292662829160691,
      "step": 42290
    },
    {
      "epoch": 0.423,
      "grad_norm": 14.625,
      "grad_norm_var": 0.9536295572916667,
      "learning_rate": 0.0003,
      "loss": 11.159,
      "loss/aux_loss": 0.04808458648622036,
      "loss/crossentropy": 2.6694875180721285,
      "loss/logits": 0.8599371790885926,
      "step": 42300
    },
    {
      "epoch": 0.4231,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.34308268229166666,
      "learning_rate": 0.0003,
      "loss": 11.0977,
      "loss/aux_loss": 0.04808226190507412,
      "loss/crossentropy": 2.7208563089370728,
      "loss/logits": 0.8512184768915176,
      "step": 42310
    },
    {
      "epoch": 0.4232,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.48631184895833335,
      "learning_rate": 0.0003,
      "loss": 11.0967,
      "loss/aux_loss": 0.04806763473898172,
      "loss/crossentropy": 2.7380436182022097,
      "loss/logits": 0.8502931475639344,
      "step": 42320
    },
    {
      "epoch": 0.4233,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.8145182291666667,
      "learning_rate": 0.0003,
      "loss": 11.0071,
      "loss/aux_loss": 0.048071845807135104,
      "loss/crossentropy": 2.7763596057891844,
      "loss/logits": 0.8628914952278137,
      "step": 42330
    },
    {
      "epoch": 0.4234,
      "grad_norm": 14.375,
      "grad_norm_var": 2.943603515625,
      "learning_rate": 0.0003,
      "loss": 10.9369,
      "loss/aux_loss": 0.04808341804891825,
      "loss/crossentropy": 2.7524753272533418,
      "loss/logits": 0.829263374209404,
      "step": 42340
    },
    {
      "epoch": 0.4235,
      "grad_norm": 12.8125,
      "grad_norm_var": 2.596337890625,
      "learning_rate": 0.0003,
      "loss": 11.1457,
      "loss/aux_loss": 0.04806433003395796,
      "loss/crossentropy": 2.7292973041534423,
      "loss/logits": 0.8203612565994263,
      "step": 42350
    },
    {
      "epoch": 0.4236,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.830322265625,
      "learning_rate": 0.0003,
      "loss": 11.224,
      "loss/aux_loss": 0.048083837144076824,
      "loss/crossentropy": 2.7010737299919128,
      "loss/logits": 0.8339439123868942,
      "step": 42360
    },
    {
      "epoch": 0.4237,
      "grad_norm": 17.75,
      "grad_norm_var": 132.42135416666667,
      "learning_rate": 0.0003,
      "loss": 11.3355,
      "loss/aux_loss": 0.04808040820062161,
      "loss/crossentropy": 2.748473286628723,
      "loss/logits": 0.8279530495405197,
      "step": 42370
    },
    {
      "epoch": 0.4238,
      "grad_norm": 14.125,
      "grad_norm_var": 134.461962890625,
      "learning_rate": 0.0003,
      "loss": 11.1351,
      "loss/aux_loss": 0.04808204211294651,
      "loss/crossentropy": 2.726352107524872,
      "loss/logits": 0.8515573889017105,
      "step": 42380
    },
    {
      "epoch": 0.4239,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.803369140625,
      "learning_rate": 0.0003,
      "loss": 11.1572,
      "loss/aux_loss": 0.04808192439377308,
      "loss/crossentropy": 2.593681287765503,
      "loss/logits": 0.8259778410196305,
      "step": 42390
    },
    {
      "epoch": 0.424,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.7634765625,
      "learning_rate": 0.0003,
      "loss": 11.1284,
      "loss/aux_loss": 0.04806700516492128,
      "loss/crossentropy": 2.8635907411575316,
      "loss/logits": 0.8664378643035888,
      "step": 42400
    },
    {
      "epoch": 0.4241,
      "grad_norm": 14.75,
      "grad_norm_var": 1.23203125,
      "learning_rate": 0.0003,
      "loss": 11.085,
      "loss/aux_loss": 0.048076603934168814,
      "loss/crossentropy": 2.645522326231003,
      "loss/logits": 0.8040447324514389,
      "step": 42410
    },
    {
      "epoch": 0.4242,
      "grad_norm": 14.25,
      "grad_norm_var": 0.42120768229166666,
      "learning_rate": 0.0003,
      "loss": 11.172,
      "loss/aux_loss": 0.04807595741003752,
      "loss/crossentropy": 2.6108031809329986,
      "loss/logits": 0.8477170407772064,
      "step": 42420
    },
    {
      "epoch": 0.4243,
      "grad_norm": 14.0,
      "grad_norm_var": 0.3681640625,
      "learning_rate": 0.0003,
      "loss": 11.1488,
      "loss/aux_loss": 0.04806941151618958,
      "loss/crossentropy": 2.6864835619926453,
      "loss/logits": 0.8509948909282684,
      "step": 42430
    },
    {
      "epoch": 0.4244,
      "grad_norm": 13.375,
      "grad_norm_var": 0.464697265625,
      "learning_rate": 0.0003,
      "loss": 11.3073,
      "loss/aux_loss": 0.04807401150465011,
      "loss/crossentropy": 2.864110291004181,
      "loss/logits": 0.8419386476278305,
      "step": 42440
    },
    {
      "epoch": 0.4245,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.1081868489583333,
      "learning_rate": 0.0003,
      "loss": 11.109,
      "loss/aux_loss": 0.04807962235063314,
      "loss/crossentropy": 2.665892016887665,
      "loss/logits": 0.8466892153024673,
      "step": 42450
    },
    {
      "epoch": 0.4246,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.9630045572916667,
      "learning_rate": 0.0003,
      "loss": 11.1531,
      "loss/aux_loss": 0.048076581209897995,
      "loss/crossentropy": 2.7316180169582367,
      "loss/logits": 0.8452065467834473,
      "step": 42460
    },
    {
      "epoch": 0.4247,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.8898274739583333,
      "learning_rate": 0.0003,
      "loss": 11.1563,
      "loss/aux_loss": 0.04807441867887974,
      "loss/crossentropy": 2.7544716358184815,
      "loss/logits": 0.8261888146400451,
      "step": 42470
    },
    {
      "epoch": 0.4248,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.7120930989583333,
      "learning_rate": 0.0003,
      "loss": 11.3566,
      "loss/aux_loss": 0.04807336274534464,
      "loss/crossentropy": 2.8429744720458983,
      "loss/logits": 0.8528753489255905,
      "step": 42480
    },
    {
      "epoch": 0.4249,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.7978515625,
      "learning_rate": 0.0003,
      "loss": 11.2925,
      "loss/aux_loss": 0.04807384237647057,
      "loss/crossentropy": 2.8680081605911254,
      "loss/logits": 0.8669378757476807,
      "step": 42490
    },
    {
      "epoch": 0.425,
      "grad_norm": 15.0,
      "grad_norm_var": 1.0207682291666667,
      "learning_rate": 0.0003,
      "loss": 11.3442,
      "loss/aux_loss": 0.04807020053267479,
      "loss/crossentropy": 2.7715225398540495,
      "loss/logits": 0.8685531944036484,
      "step": 42500
    },
    {
      "epoch": 0.4251,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5525390625,
      "learning_rate": 0.0003,
      "loss": 11.0004,
      "loss/aux_loss": 0.048080707900226116,
      "loss/crossentropy": 2.6281380653381348,
      "loss/logits": 0.8210119009017944,
      "step": 42510
    },
    {
      "epoch": 0.4252,
      "grad_norm": 15.125,
      "grad_norm_var": 0.4669108072916667,
      "learning_rate": 0.0003,
      "loss": 11.2617,
      "loss/aux_loss": 0.048080474697053434,
      "loss/crossentropy": 2.61398241519928,
      "loss/logits": 0.8228483706712723,
      "step": 42520
    },
    {
      "epoch": 0.4253,
      "grad_norm": 12.6875,
      "grad_norm_var": 1.0641764322916667,
      "learning_rate": 0.0003,
      "loss": 11.0279,
      "loss/aux_loss": 0.04806278124451637,
      "loss/crossentropy": 2.4613637685775758,
      "loss/logits": 0.8284233272075653,
      "step": 42530
    },
    {
      "epoch": 0.4254,
      "grad_norm": 15.375,
      "grad_norm_var": 67.23683268229166,
      "learning_rate": 0.0003,
      "loss": 10.9845,
      "loss/aux_loss": 0.048084072582423684,
      "loss/crossentropy": 2.721170890331268,
      "loss/logits": 0.8446434617042542,
      "step": 42540
    },
    {
      "epoch": 0.4255,
      "grad_norm": 13.75,
      "grad_norm_var": 67.12888997395834,
      "learning_rate": 0.0003,
      "loss": 11.0296,
      "loss/aux_loss": 0.048082982562482356,
      "loss/crossentropy": 2.51130490899086,
      "loss/logits": 0.7815639197826385,
      "step": 42550
    },
    {
      "epoch": 0.4256,
      "grad_norm": 14.875,
      "grad_norm_var": 15.626302083333334,
      "learning_rate": 0.0003,
      "loss": 11.2562,
      "loss/aux_loss": 0.04806295093148947,
      "loss/crossentropy": 2.7693334579467774,
      "loss/logits": 0.8466608166694641,
      "step": 42560
    },
    {
      "epoch": 0.4257,
      "grad_norm": 14.5,
      "grad_norm_var": 15.836572265625,
      "learning_rate": 0.0003,
      "loss": 11.2921,
      "loss/aux_loss": 0.04808557108044624,
      "loss/crossentropy": 2.6812986373901366,
      "loss/logits": 0.841954892873764,
      "step": 42570
    },
    {
      "epoch": 0.4258,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.978369140625,
      "learning_rate": 0.0003,
      "loss": 11.252,
      "loss/aux_loss": 0.048081206530332564,
      "loss/crossentropy": 2.687948948144913,
      "loss/logits": 0.8682124525308609,
      "step": 42580
    },
    {
      "epoch": 0.4259,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.7228515625,
      "learning_rate": 0.0003,
      "loss": 11.1966,
      "loss/aux_loss": 0.0480744980275631,
      "loss/crossentropy": 2.668538528680801,
      "loss/logits": 0.8255208849906921,
      "step": 42590
    },
    {
      "epoch": 0.426,
      "grad_norm": 14.75,
      "grad_norm_var": 0.9821451822916667,
      "learning_rate": 0.0003,
      "loss": 11.1911,
      "loss/aux_loss": 0.04807751923799515,
      "loss/crossentropy": 2.661841082572937,
      "loss/logits": 0.8377692878246308,
      "step": 42600
    },
    {
      "epoch": 0.4261,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.9484375,
      "learning_rate": 0.0003,
      "loss": 11.3501,
      "loss/aux_loss": 0.04808114971965551,
      "loss/crossentropy": 2.902574121952057,
      "loss/logits": 0.8539043575525284,
      "step": 42610
    },
    {
      "epoch": 0.4262,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.9540201822916666,
      "learning_rate": 0.0003,
      "loss": 11.1911,
      "loss/aux_loss": 0.048068844713270664,
      "loss/crossentropy": 2.7202011168003084,
      "loss/logits": 0.8331751823425293,
      "step": 42620
    },
    {
      "epoch": 0.4263,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.24140625,
      "learning_rate": 0.0003,
      "loss": 11.3027,
      "loss/aux_loss": 0.048070861399173735,
      "loss/crossentropy": 2.889012670516968,
      "loss/logits": 0.8704992473125458,
      "step": 42630
    },
    {
      "epoch": 0.4264,
      "grad_norm": 15.125,
      "grad_norm_var": 0.6125,
      "learning_rate": 0.0003,
      "loss": 11.1455,
      "loss/aux_loss": 0.04808156322687864,
      "loss/crossentropy": 2.7083074033260344,
      "loss/logits": 0.8564732939004898,
      "step": 42640
    },
    {
      "epoch": 0.4265,
      "grad_norm": 13.625,
      "grad_norm_var": 0.61484375,
      "learning_rate": 0.0003,
      "loss": 11.2121,
      "loss/aux_loss": 0.048069928959012034,
      "loss/crossentropy": 2.73454931974411,
      "loss/logits": 0.8486188590526581,
      "step": 42650
    },
    {
      "epoch": 0.4266,
      "grad_norm": 12.875,
      "grad_norm_var": 0.33984375,
      "learning_rate": 0.0003,
      "loss": 11.1947,
      "loss/aux_loss": 0.04808113239705562,
      "loss/crossentropy": 2.792097818851471,
      "loss/logits": 0.8488514006137848,
      "step": 42660
    },
    {
      "epoch": 0.4267,
      "grad_norm": 13.5,
      "grad_norm_var": 1.0273274739583333,
      "learning_rate": 0.0003,
      "loss": 11.0177,
      "loss/aux_loss": 0.04808440897613764,
      "loss/crossentropy": 2.567507326602936,
      "loss/logits": 0.8366076290607453,
      "step": 42670
    },
    {
      "epoch": 0.4268,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.37941080729166665,
      "learning_rate": 0.0003,
      "loss": 11.0272,
      "loss/aux_loss": 0.048066616617143156,
      "loss/crossentropy": 2.7124005913734437,
      "loss/logits": 0.8338280886411666,
      "step": 42680
    },
    {
      "epoch": 0.4269,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.2353515625,
      "learning_rate": 0.0003,
      "loss": 11.178,
      "loss/aux_loss": 0.048080355115234855,
      "loss/crossentropy": 2.7802015602588654,
      "loss/logits": 0.8339311271905899,
      "step": 42690
    },
    {
      "epoch": 0.427,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.48956705729166666,
      "learning_rate": 0.0003,
      "loss": 11.0708,
      "loss/aux_loss": 0.048078592866659164,
      "loss/crossentropy": 2.6688977122306823,
      "loss/logits": 0.7996150583028794,
      "step": 42700
    },
    {
      "epoch": 0.4271,
      "grad_norm": 14.625,
      "grad_norm_var": 6.747379557291667,
      "learning_rate": 0.0003,
      "loss": 11.1714,
      "loss/aux_loss": 0.048077211156487464,
      "loss/crossentropy": 2.715333503484726,
      "loss/logits": 0.8404178529977798,
      "step": 42710
    },
    {
      "epoch": 0.4272,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.27734375,
      "learning_rate": 0.0003,
      "loss": 11.0897,
      "loss/aux_loss": 0.04808191582560539,
      "loss/crossentropy": 2.709022808074951,
      "loss/logits": 0.8491158545017242,
      "step": 42720
    },
    {
      "epoch": 0.4273,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.72578125,
      "learning_rate": 0.0003,
      "loss": 11.0368,
      "loss/aux_loss": 0.048076875135302545,
      "loss/crossentropy": 2.7228225231170655,
      "loss/logits": 0.8443385303020478,
      "step": 42730
    },
    {
      "epoch": 0.4274,
      "grad_norm": 16.25,
      "grad_norm_var": 1.623291015625,
      "learning_rate": 0.0003,
      "loss": 11.2172,
      "loss/aux_loss": 0.04807112403213978,
      "loss/crossentropy": 2.7902682304382322,
      "loss/logits": 0.863338616490364,
      "step": 42740
    },
    {
      "epoch": 0.4275,
      "grad_norm": 14.25,
      "grad_norm_var": 1.578125,
      "learning_rate": 0.0003,
      "loss": 11.2052,
      "loss/aux_loss": 0.048067062720656396,
      "loss/crossentropy": 2.757642900943756,
      "loss/logits": 0.8275944203138351,
      "step": 42750
    },
    {
      "epoch": 0.4276,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.6692708333333334,
      "learning_rate": 0.0003,
      "loss": 11.0956,
      "loss/aux_loss": 0.04808202516287565,
      "loss/crossentropy": 2.728620332479477,
      "loss/logits": 0.8508161783218384,
      "step": 42760
    },
    {
      "epoch": 0.4277,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.5416015625,
      "learning_rate": 0.0003,
      "loss": 11.0911,
      "loss/aux_loss": 0.04807655792683363,
      "loss/crossentropy": 2.6857302367687224,
      "loss/logits": 0.8251177936792373,
      "step": 42770
    },
    {
      "epoch": 0.4278,
      "grad_norm": 14.25,
      "grad_norm_var": 0.3346354166666667,
      "learning_rate": 0.0003,
      "loss": 11.2185,
      "loss/aux_loss": 0.048068818263709547,
      "loss/crossentropy": 2.7882674872875213,
      "loss/logits": 0.8415611743927002,
      "step": 42780
    },
    {
      "epoch": 0.4279,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.393603515625,
      "learning_rate": 0.0003,
      "loss": 11.1943,
      "loss/aux_loss": 0.048084525391459465,
      "loss/crossentropy": 2.8016934394836426,
      "loss/logits": 0.8504360228776932,
      "step": 42790
    },
    {
      "epoch": 0.428,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.8610514322916667,
      "learning_rate": 0.0003,
      "loss": 11.0533,
      "loss/aux_loss": 0.0480705926194787,
      "loss/crossentropy": 2.7852961301803587,
      "loss/logits": 0.8427935183048249,
      "step": 42800
    },
    {
      "epoch": 0.4281,
      "grad_norm": 14.375,
      "grad_norm_var": 0.5283854166666667,
      "learning_rate": 0.0003,
      "loss": 11.1688,
      "loss/aux_loss": 0.048075289465487,
      "loss/crossentropy": 2.851541531085968,
      "loss/logits": 0.8648887991905212,
      "step": 42810
    },
    {
      "epoch": 0.4282,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.6245930989583334,
      "learning_rate": 0.0003,
      "loss": 11.1358,
      "loss/aux_loss": 0.04808152187615633,
      "loss/crossentropy": 2.728837323188782,
      "loss/logits": 0.8126325309276581,
      "step": 42820
    },
    {
      "epoch": 0.4283,
      "grad_norm": 14.0625,
      "grad_norm_var": 5.513655598958334,
      "learning_rate": 0.0003,
      "loss": 11.3191,
      "loss/aux_loss": 0.048070829920470716,
      "loss/crossentropy": 2.9222333669662475,
      "loss/logits": 0.8803920924663544,
      "step": 42830
    },
    {
      "epoch": 0.4284,
      "grad_norm": 14.125,
      "grad_norm_var": 5.320556640625,
      "learning_rate": 0.0003,
      "loss": 11.1858,
      "loss/aux_loss": 0.04807902462780476,
      "loss/crossentropy": 2.750357246398926,
      "loss/logits": 0.8127260476350784,
      "step": 42840
    },
    {
      "epoch": 0.4285,
      "grad_norm": 15.125,
      "grad_norm_var": 0.3848795572916667,
      "learning_rate": 0.0003,
      "loss": 11.2752,
      "loss/aux_loss": 0.048070596531033516,
      "loss/crossentropy": 2.6048742115497587,
      "loss/logits": 0.8551869869232178,
      "step": 42850
    },
    {
      "epoch": 0.4286,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5794108072916667,
      "learning_rate": 0.0003,
      "loss": 11.132,
      "loss/aux_loss": 0.048073590733110905,
      "loss/crossentropy": 2.8263909220695496,
      "loss/logits": 0.8633887559175492,
      "step": 42860
    },
    {
      "epoch": 0.4287,
      "grad_norm": 13.375,
      "grad_norm_var": 1.9244140625,
      "learning_rate": 0.0003,
      "loss": 11.3004,
      "loss/aux_loss": 0.04807244185358286,
      "loss/crossentropy": 2.7152198910713197,
      "loss/logits": 0.8596496641635895,
      "step": 42870
    },
    {
      "epoch": 0.4288,
      "grad_norm": 15.25,
      "grad_norm_var": 1.720556640625,
      "learning_rate": 0.0003,
      "loss": 11.3347,
      "loss/aux_loss": 0.04807446151971817,
      "loss/crossentropy": 2.721926176548004,
      "loss/logits": 0.8560007959604263,
      "step": 42880
    },
    {
      "epoch": 0.4289,
      "grad_norm": 14.0,
      "grad_norm_var": 2.203108723958333,
      "learning_rate": 0.0003,
      "loss": 11.0291,
      "loss/aux_loss": 0.04807375371456146,
      "loss/crossentropy": 2.8105222463607786,
      "loss/logits": 0.8752927869558335,
      "step": 42890
    },
    {
      "epoch": 0.429,
      "grad_norm": 15.75,
      "grad_norm_var": 1.431494140625,
      "learning_rate": 0.0003,
      "loss": 10.9854,
      "loss/aux_loss": 0.04806910492479801,
      "loss/crossentropy": 2.690297359228134,
      "loss/logits": 0.837578096985817,
      "step": 42900
    },
    {
      "epoch": 0.4291,
      "grad_norm": 13.25,
      "grad_norm_var": 1.439697265625,
      "learning_rate": 0.0003,
      "loss": 11.1458,
      "loss/aux_loss": 0.04807917848229408,
      "loss/crossentropy": 2.812906527519226,
      "loss/logits": 0.839617344737053,
      "step": 42910
    },
    {
      "epoch": 0.4292,
      "grad_norm": 14.125,
      "grad_norm_var": 0.37185872395833336,
      "learning_rate": 0.0003,
      "loss": 11.2282,
      "loss/aux_loss": 0.04807562492787838,
      "loss/crossentropy": 2.778420227766037,
      "loss/logits": 0.8231628626585007,
      "step": 42920
    },
    {
      "epoch": 0.4293,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.30520833333333336,
      "learning_rate": 0.0003,
      "loss": 10.9583,
      "loss/aux_loss": 0.048068897984921935,
      "loss/crossentropy": 2.7826973259449006,
      "loss/logits": 0.8252352714538574,
      "step": 42930
    },
    {
      "epoch": 0.4294,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.5637858072916667,
      "learning_rate": 0.0003,
      "loss": 11.159,
      "loss/aux_loss": 0.04807413574308157,
      "loss/crossentropy": 2.5992193698883055,
      "loss/logits": 0.8467897325754166,
      "step": 42940
    },
    {
      "epoch": 0.4295,
      "grad_norm": 15.5,
      "grad_norm_var": 0.315478515625,
      "learning_rate": 0.0003,
      "loss": 10.9422,
      "loss/aux_loss": 0.04807993993163109,
      "loss/crossentropy": 2.524407982826233,
      "loss/logits": 0.8164256751537323,
      "step": 42950
    },
    {
      "epoch": 0.4296,
      "grad_norm": 14.25,
      "grad_norm_var": 0.6348795572916667,
      "learning_rate": 0.0003,
      "loss": 11.2791,
      "loss/aux_loss": 0.04807226173579693,
      "loss/crossentropy": 2.6596532464027405,
      "loss/logits": 0.8530319899320602,
      "step": 42960
    },
    {
      "epoch": 0.4297,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.3340983072916666,
      "learning_rate": 0.0003,
      "loss": 11.0176,
      "loss/aux_loss": 0.04807053208351135,
      "loss/crossentropy": 2.718638336658478,
      "loss/logits": 0.8549129962921143,
      "step": 42970
    },
    {
      "epoch": 0.4298,
      "grad_norm": 15.5,
      "grad_norm_var": 1.595947265625,
      "learning_rate": 0.0003,
      "loss": 11.2805,
      "loss/aux_loss": 0.04808430094271898,
      "loss/crossentropy": 2.637483465671539,
      "loss/logits": 0.8228224605321884,
      "step": 42980
    },
    {
      "epoch": 0.4299,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.708056640625,
      "learning_rate": 0.0003,
      "loss": 11.1181,
      "loss/aux_loss": 0.04807401914149523,
      "loss/crossentropy": 2.7925415635108948,
      "loss/logits": 0.82631796002388,
      "step": 42990
    },
    {
      "epoch": 0.43,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.6119140625,
      "learning_rate": 0.0003,
      "loss": 11.188,
      "loss/aux_loss": 0.04808122981339693,
      "loss/crossentropy": 2.739946460723877,
      "loss/logits": 0.833682969212532,
      "step": 43000
    },
    {
      "epoch": 0.4301,
      "grad_norm": 14.375,
      "grad_norm_var": 1809.0212890625,
      "learning_rate": 0.0003,
      "loss": 11.3295,
      "loss/aux_loss": 0.0480794845148921,
      "loss/crossentropy": 2.7596442997455597,
      "loss/logits": 0.8646740794181824,
      "step": 43010
    },
    {
      "epoch": 0.4302,
      "grad_norm": 13.25,
      "grad_norm_var": 0.8145670572916667,
      "learning_rate": 0.0003,
      "loss": 11.0717,
      "loss/aux_loss": 0.04808532949537039,
      "loss/crossentropy": 2.585456448793411,
      "loss/logits": 0.8001091122627259,
      "step": 43020
    },
    {
      "epoch": 0.4303,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.20572916666666666,
      "learning_rate": 0.0003,
      "loss": 11.1748,
      "loss/aux_loss": 0.04807361718267202,
      "loss/crossentropy": 2.6641751885414124,
      "loss/logits": 0.8602477341890336,
      "step": 43030
    },
    {
      "epoch": 0.4304,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.0601399739583333,
      "learning_rate": 0.0003,
      "loss": 11.2242,
      "loss/aux_loss": 0.04806696530431509,
      "loss/crossentropy": 2.7215495467185975,
      "loss/logits": 0.8751588940620423,
      "step": 43040
    },
    {
      "epoch": 0.4305,
      "grad_norm": 14.625,
      "grad_norm_var": 0.760400390625,
      "learning_rate": 0.0003,
      "loss": 11.0104,
      "loss/aux_loss": 0.04807785041630268,
      "loss/crossentropy": 2.6973119556903837,
      "loss/logits": 0.8398984521627426,
      "step": 43050
    },
    {
      "epoch": 0.4306,
      "grad_norm": 13.625,
      "grad_norm_var": 0.7916015625,
      "learning_rate": 0.0003,
      "loss": 11.4002,
      "loss/aux_loss": 0.04808125030249357,
      "loss/crossentropy": 2.758901071548462,
      "loss/logits": 0.8731786936521531,
      "step": 43060
    },
    {
      "epoch": 0.4307,
      "grad_norm": 13.25,
      "grad_norm_var": 0.610009765625,
      "learning_rate": 0.0003,
      "loss": 11.1299,
      "loss/aux_loss": 0.04807206802070141,
      "loss/crossentropy": 2.708112859725952,
      "loss/logits": 0.7979910880327225,
      "step": 43070
    },
    {
      "epoch": 0.4308,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.7150390625,
      "learning_rate": 0.0003,
      "loss": 11.145,
      "loss/aux_loss": 0.04807481300085783,
      "loss/crossentropy": 2.7164962589740753,
      "loss/logits": 0.8307441174983978,
      "step": 43080
    },
    {
      "epoch": 0.4309,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.603369140625,
      "learning_rate": 0.0003,
      "loss": 11.2082,
      "loss/aux_loss": 0.048082906566560266,
      "loss/crossentropy": 2.830370819568634,
      "loss/logits": 0.8672911942005157,
      "step": 43090
    },
    {
      "epoch": 0.431,
      "grad_norm": 16.0,
      "grad_norm_var": 0.6677083333333333,
      "learning_rate": 0.0003,
      "loss": 11.2983,
      "loss/aux_loss": 0.048063176684081554,
      "loss/crossentropy": 2.7665525555610655,
      "loss/logits": 0.8384849548339843,
      "step": 43100
    },
    {
      "epoch": 0.4311,
      "grad_norm": 13.75,
      "grad_norm_var": 0.8820149739583333,
      "learning_rate": 0.0003,
      "loss": 11.3458,
      "loss/aux_loss": 0.0480750685557723,
      "loss/crossentropy": 2.6808901131153107,
      "loss/logits": 0.8562900602817536,
      "step": 43110
    },
    {
      "epoch": 0.4312,
      "grad_norm": 15.0,
      "grad_norm_var": 0.675244140625,
      "learning_rate": 0.0003,
      "loss": 11.2144,
      "loss/aux_loss": 0.048073401860892775,
      "loss/crossentropy": 2.792336130142212,
      "loss/logits": 0.8535761684179306,
      "step": 43120
    },
    {
      "epoch": 0.4313,
      "grad_norm": 13.0,
      "grad_norm_var": 0.264306640625,
      "learning_rate": 0.0003,
      "loss": 11.3156,
      "loss/aux_loss": 0.048070548288524154,
      "loss/crossentropy": 2.618429493904114,
      "loss/logits": 0.8526875019073487,
      "step": 43130
    },
    {
      "epoch": 0.4314,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.3589680989583333,
      "learning_rate": 0.0003,
      "loss": 10.973,
      "loss/aux_loss": 0.048080014809966085,
      "loss/crossentropy": 2.6525802075862885,
      "loss/logits": 0.8168764710426331,
      "step": 43140
    },
    {
      "epoch": 0.4315,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.3770670572916667,
      "learning_rate": 0.0003,
      "loss": 11.207,
      "loss/aux_loss": 0.048070788569748404,
      "loss/crossentropy": 2.828217601776123,
      "loss/logits": 0.8801011204719543,
      "step": 43150
    },
    {
      "epoch": 0.4316,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.122509765625,
      "learning_rate": 0.0003,
      "loss": 11.0918,
      "loss/aux_loss": 0.04807632640004158,
      "loss/crossentropy": 2.74559006690979,
      "loss/logits": 0.8384597927331925,
      "step": 43160
    },
    {
      "epoch": 0.4317,
      "grad_norm": 14.375,
      "grad_norm_var": 0.35149739583333334,
      "learning_rate": 0.0003,
      "loss": 11.1667,
      "loss/aux_loss": 0.0480788629502058,
      "loss/crossentropy": 2.6675486505031585,
      "loss/logits": 0.858903244137764,
      "step": 43170
    },
    {
      "epoch": 0.4318,
      "grad_norm": 15.625,
      "grad_norm_var": 0.9427083333333334,
      "learning_rate": 0.0003,
      "loss": 11.1853,
      "loss/aux_loss": 0.04807556346058846,
      "loss/crossentropy": 2.764018404483795,
      "loss/logits": 0.8240988850593567,
      "step": 43180
    },
    {
      "epoch": 0.4319,
      "grad_norm": 14.0,
      "grad_norm_var": 0.96875,
      "learning_rate": 0.0003,
      "loss": 11.271,
      "loss/aux_loss": 0.04806935228407383,
      "loss/crossentropy": 2.8441020369529726,
      "loss/logits": 0.8296251714229583,
      "step": 43190
    },
    {
      "epoch": 0.432,
      "grad_norm": 15.0,
      "grad_norm_var": 0.245556640625,
      "learning_rate": 0.0003,
      "loss": 11.2131,
      "loss/aux_loss": 0.04808467049151659,
      "loss/crossentropy": 2.6359627187252044,
      "loss/logits": 0.8088801056146622,
      "step": 43200
    },
    {
      "epoch": 0.4321,
      "grad_norm": 13.375,
      "grad_norm_var": 0.28370768229166665,
      "learning_rate": 0.0003,
      "loss": 11.1807,
      "loss/aux_loss": 0.04807442501187324,
      "loss/crossentropy": 2.629367303848267,
      "loss/logits": 0.8538803130388259,
      "step": 43210
    },
    {
      "epoch": 0.4322,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.3994140625,
      "learning_rate": 0.0003,
      "loss": 11.1458,
      "loss/aux_loss": 0.0480644728988409,
      "loss/crossentropy": 2.70165359377861,
      "loss/logits": 0.8403062671422958,
      "step": 43220
    },
    {
      "epoch": 0.4323,
      "grad_norm": 14.0,
      "grad_norm_var": 0.28253580729166666,
      "learning_rate": 0.0003,
      "loss": 11.2449,
      "loss/aux_loss": 0.048089561983942986,
      "loss/crossentropy": 2.599137383699417,
      "loss/logits": 0.8236678332090378,
      "step": 43230
    },
    {
      "epoch": 0.4324,
      "grad_norm": 13.375,
      "grad_norm_var": 0.305322265625,
      "learning_rate": 0.0003,
      "loss": 11.2337,
      "loss/aux_loss": 0.04807605054229498,
      "loss/crossentropy": 2.8088149547576906,
      "loss/logits": 0.8818845838308335,
      "step": 43240
    },
    {
      "epoch": 0.4325,
      "grad_norm": 15.0,
      "grad_norm_var": 0.4161295572916667,
      "learning_rate": 0.0003,
      "loss": 11.204,
      "loss/aux_loss": 0.04806992541998625,
      "loss/crossentropy": 2.8428435802459715,
      "loss/logits": 0.8899227410554886,
      "step": 43250
    },
    {
      "epoch": 0.4326,
      "grad_norm": 14.875,
      "grad_norm_var": 0.388134765625,
      "learning_rate": 0.0003,
      "loss": 11.1815,
      "loss/aux_loss": 0.04808182567358017,
      "loss/crossentropy": 2.685653477907181,
      "loss/logits": 0.8344039708375931,
      "step": 43260
    },
    {
      "epoch": 0.4327,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.3270182291666667,
      "learning_rate": 0.0003,
      "loss": 11.3153,
      "loss/aux_loss": 0.04808889031410217,
      "loss/crossentropy": 2.976236271858215,
      "loss/logits": 0.8441417008638382,
      "step": 43270
    },
    {
      "epoch": 0.4328,
      "grad_norm": 14.125,
      "grad_norm_var": 0.93203125,
      "learning_rate": 0.0003,
      "loss": 11.0959,
      "loss/aux_loss": 0.04806580301374197,
      "loss/crossentropy": 2.711184060573578,
      "loss/logits": 0.840970367193222,
      "step": 43280
    },
    {
      "epoch": 0.4329,
      "grad_norm": 16.25,
      "grad_norm_var": 0.7880208333333333,
      "learning_rate": 0.0003,
      "loss": 11.2848,
      "loss/aux_loss": 0.04807568024843931,
      "loss/crossentropy": 2.764776086807251,
      "loss/logits": 0.8647139281034469,
      "step": 43290
    },
    {
      "epoch": 0.433,
      "grad_norm": 13.5,
      "grad_norm_var": 58.57421875,
      "learning_rate": 0.0003,
      "loss": 11.2579,
      "loss/aux_loss": 0.0480875076726079,
      "loss/crossentropy": 2.639911252260208,
      "loss/logits": 0.855933940410614,
      "step": 43300
    },
    {
      "epoch": 0.4331,
      "grad_norm": 13.625,
      "grad_norm_var": 58.1744140625,
      "learning_rate": 0.0003,
      "loss": 11.1596,
      "loss/aux_loss": 0.048066693171858785,
      "loss/crossentropy": 2.7509276986122133,
      "loss/logits": 0.8506129652261734,
      "step": 43310
    },
    {
      "epoch": 0.4332,
      "grad_norm": 14.125,
      "grad_norm_var": 0.2994140625,
      "learning_rate": 0.0003,
      "loss": 11.2364,
      "loss/aux_loss": 0.04807441793382168,
      "loss/crossentropy": 2.7721996307373047,
      "loss/logits": 0.841002207994461,
      "step": 43320
    },
    {
      "epoch": 0.4333,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.411962890625,
      "learning_rate": 0.0003,
      "loss": 11.0887,
      "loss/aux_loss": 0.04807002730667591,
      "loss/crossentropy": 2.702434003353119,
      "loss/logits": 0.8071956008672714,
      "step": 43330
    },
    {
      "epoch": 0.4334,
      "grad_norm": 15.125,
      "grad_norm_var": 0.3262858072916667,
      "learning_rate": 0.0003,
      "loss": 11.1554,
      "loss/aux_loss": 0.04807128868997097,
      "loss/crossentropy": 2.727681612968445,
      "loss/logits": 0.8188419610261917,
      "step": 43340
    },
    {
      "epoch": 0.4335,
      "grad_norm": 13.875,
      "grad_norm_var": 0.27447916666666666,
      "learning_rate": 0.0003,
      "loss": 11.196,
      "loss/aux_loss": 0.04806978348642588,
      "loss/crossentropy": 2.779603922367096,
      "loss/logits": 0.8584359914064408,
      "step": 43350
    },
    {
      "epoch": 0.4336,
      "grad_norm": 14.125,
      "grad_norm_var": 0.5494140625,
      "learning_rate": 0.0003,
      "loss": 11.2599,
      "loss/aux_loss": 0.04807741772383452,
      "loss/crossentropy": 2.7377023220062258,
      "loss/logits": 0.8400143414735795,
      "step": 43360
    },
    {
      "epoch": 0.4337,
      "grad_norm": 15.9375,
      "grad_norm_var": 1.5880208333333334,
      "learning_rate": 0.0003,
      "loss": 11.14,
      "loss/aux_loss": 0.04808063004165888,
      "loss/crossentropy": 2.7512278735637663,
      "loss/logits": 0.8345052689313889,
      "step": 43370
    },
    {
      "epoch": 0.4338,
      "grad_norm": 13.875,
      "grad_norm_var": 1.5528645833333334,
      "learning_rate": 0.0003,
      "loss": 11.0079,
      "loss/aux_loss": 0.04806357547640801,
      "loss/crossentropy": 2.7596873223781584,
      "loss/logits": 0.8277094513177872,
      "step": 43380
    },
    {
      "epoch": 0.4339,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.5911458333333334,
      "learning_rate": 0.0003,
      "loss": 11.0468,
      "loss/aux_loss": 0.04807555004954338,
      "loss/crossentropy": 2.7843938052654265,
      "loss/logits": 0.8598534375429153,
      "step": 43390
    },
    {
      "epoch": 0.434,
      "grad_norm": 14.375,
      "grad_norm_var": 0.410400390625,
      "learning_rate": 0.0003,
      "loss": 11.1959,
      "loss/aux_loss": 0.048078845627605914,
      "loss/crossentropy": 2.5064321935176848,
      "loss/logits": 0.8137326329946518,
      "step": 43400
    },
    {
      "epoch": 0.4341,
      "grad_norm": 14.5,
      "grad_norm_var": 0.521728515625,
      "learning_rate": 0.0003,
      "loss": 11.2099,
      "loss/aux_loss": 0.04807638339698315,
      "loss/crossentropy": 2.8900754928588865,
      "loss/logits": 0.8562443405389786,
      "step": 43410
    },
    {
      "epoch": 0.4342,
      "grad_norm": 14.875,
      "grad_norm_var": 0.3265462239583333,
      "learning_rate": 0.0003,
      "loss": 11.3643,
      "loss/aux_loss": 0.04807485099881888,
      "loss/crossentropy": 2.76791490316391,
      "loss/logits": 0.8608255743980407,
      "step": 43420
    },
    {
      "epoch": 0.4343,
      "grad_norm": 13.75,
      "grad_norm_var": 0.7968098958333333,
      "learning_rate": 0.0003,
      "loss": 11.0301,
      "loss/aux_loss": 0.04807616826146841,
      "loss/crossentropy": 2.6704135179519652,
      "loss/logits": 0.8353795439004899,
      "step": 43430
    },
    {
      "epoch": 0.4344,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.878369140625,
      "learning_rate": 0.0003,
      "loss": 11.1472,
      "loss/aux_loss": 0.04807905219495297,
      "loss/crossentropy": 2.6787062883377075,
      "loss/logits": 0.8412859380245209,
      "step": 43440
    },
    {
      "epoch": 0.4345,
      "grad_norm": 14.75,
      "grad_norm_var": 0.46027018229166666,
      "learning_rate": 0.0003,
      "loss": 11.1762,
      "loss/aux_loss": 0.04807356093078852,
      "loss/crossentropy": 2.7421591579914093,
      "loss/logits": 0.8316115468740464,
      "step": 43450
    },
    {
      "epoch": 0.4346,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.47732747395833336,
      "learning_rate": 0.0003,
      "loss": 11.0474,
      "loss/aux_loss": 0.04807029739022255,
      "loss/crossentropy": 2.731302946805954,
      "loss/logits": 0.8437435656785965,
      "step": 43460
    },
    {
      "epoch": 0.4347,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.42864583333333334,
      "learning_rate": 0.0003,
      "loss": 11.1795,
      "loss/aux_loss": 0.048083835281431675,
      "loss/crossentropy": 2.633001279830933,
      "loss/logits": 0.8292666167020798,
      "step": 43470
    },
    {
      "epoch": 0.4348,
      "grad_norm": 13.75,
      "grad_norm_var": 0.6476399739583333,
      "learning_rate": 0.0003,
      "loss": 11.071,
      "loss/aux_loss": 0.04806802663952112,
      "loss/crossentropy": 2.698196220397949,
      "loss/logits": 0.811674302816391,
      "step": 43480
    },
    {
      "epoch": 0.4349,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.7286295572916667,
      "learning_rate": 0.0003,
      "loss": 11.106,
      "loss/aux_loss": 0.04807435814291239,
      "loss/crossentropy": 2.8671145260334017,
      "loss/logits": 0.8537077218294143,
      "step": 43490
    },
    {
      "epoch": 0.435,
      "grad_norm": 15.375,
      "grad_norm_var": 0.6048014322916667,
      "learning_rate": 0.0003,
      "loss": 11.0003,
      "loss/aux_loss": 0.048080187290906906,
      "loss/crossentropy": 2.722633057832718,
      "loss/logits": 0.8278620541095734,
      "step": 43500
    },
    {
      "epoch": 0.4351,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.3934733072916667,
      "learning_rate": 0.0003,
      "loss": 11.2418,
      "loss/aux_loss": 0.048065092600882056,
      "loss/crossentropy": 2.733147954940796,
      "loss/logits": 0.8363703429698944,
      "step": 43510
    },
    {
      "epoch": 0.4352,
      "grad_norm": 13.875,
      "grad_norm_var": 0.43162434895833335,
      "learning_rate": 0.0003,
      "loss": 11.1544,
      "loss/aux_loss": 0.04809010047465563,
      "loss/crossentropy": 2.6833800315856933,
      "loss/logits": 0.8280310302972793,
      "step": 43520
    },
    {
      "epoch": 0.4353,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.5497395833333333,
      "learning_rate": 0.0003,
      "loss": 11.153,
      "loss/aux_loss": 0.04807169977575541,
      "loss/crossentropy": 2.723561632633209,
      "loss/logits": 0.8542778968811036,
      "step": 43530
    },
    {
      "epoch": 0.4354,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.8591145833333333,
      "learning_rate": 0.0003,
      "loss": 11.1498,
      "loss/aux_loss": 0.0480776134878397,
      "loss/crossentropy": 2.627856492996216,
      "loss/logits": 0.8360980361700058,
      "step": 43540
    },
    {
      "epoch": 0.4355,
      "grad_norm": 14.5,
      "grad_norm_var": 0.4905598958333333,
      "learning_rate": 0.0003,
      "loss": 11.2714,
      "loss/aux_loss": 0.04807308316230774,
      "loss/crossentropy": 2.766408783197403,
      "loss/logits": 0.8315641492605209,
      "step": 43550
    },
    {
      "epoch": 0.4356,
      "grad_norm": 14.75,
      "grad_norm_var": 0.3055826822916667,
      "learning_rate": 0.0003,
      "loss": 11.3886,
      "loss/aux_loss": 0.048083190061151984,
      "loss/crossentropy": 2.806036615371704,
      "loss/logits": 0.883603885769844,
      "step": 43560
    },
    {
      "epoch": 0.4357,
      "grad_norm": 15.0,
      "grad_norm_var": 1.5067057291666666,
      "learning_rate": 0.0003,
      "loss": 11.0006,
      "loss/aux_loss": 0.0480629924684763,
      "loss/crossentropy": 2.5885447025299073,
      "loss/logits": 0.8374526888132096,
      "step": 43570
    },
    {
      "epoch": 0.4358,
      "grad_norm": 14.625,
      "grad_norm_var": 1.2667805989583334,
      "learning_rate": 0.0003,
      "loss": 11.0437,
      "loss/aux_loss": 0.04808878097683191,
      "loss/crossentropy": 2.7568553149700166,
      "loss/logits": 0.8364752948284149,
      "step": 43580
    },
    {
      "epoch": 0.4359,
      "grad_norm": 14.875,
      "grad_norm_var": 0.2431640625,
      "learning_rate": 0.0003,
      "loss": 11.2293,
      "loss/aux_loss": 0.048077457770705226,
      "loss/crossentropy": 2.718920850753784,
      "loss/logits": 0.8596648782491684,
      "step": 43590
    },
    {
      "epoch": 0.436,
      "grad_norm": 13.625,
      "grad_norm_var": 0.323681640625,
      "learning_rate": 0.0003,
      "loss": 11.2943,
      "loss/aux_loss": 0.04807487428188324,
      "loss/crossentropy": 2.6981576442718507,
      "loss/logits": 0.8179612189531327,
      "step": 43600
    },
    {
      "epoch": 0.4361,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.404931640625,
      "learning_rate": 0.0003,
      "loss": 11.187,
      "loss/aux_loss": 0.04809190686792135,
      "loss/crossentropy": 2.6059759140014647,
      "loss/logits": 0.8273712396621704,
      "step": 43610
    },
    {
      "epoch": 0.4362,
      "grad_norm": 14.5,
      "grad_norm_var": 0.39646809895833335,
      "learning_rate": 0.0003,
      "loss": 11.1114,
      "loss/aux_loss": 0.048068244755268094,
      "loss/crossentropy": 2.7903677105903624,
      "loss/logits": 0.859819746017456,
      "step": 43620
    },
    {
      "epoch": 0.4363,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.8854166666666666,
      "learning_rate": 0.0003,
      "loss": 11.1303,
      "loss/aux_loss": 0.048077091202139856,
      "loss/crossentropy": 2.811820614337921,
      "loss/logits": 0.8357854694128036,
      "step": 43630
    },
    {
      "epoch": 0.4364,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.396875,
      "learning_rate": 0.0003,
      "loss": 11.2525,
      "loss/aux_loss": 0.048074031434953216,
      "loss/crossentropy": 2.7376105189323425,
      "loss/logits": 0.8477279067039489,
      "step": 43640
    },
    {
      "epoch": 0.4365,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.595166015625,
      "learning_rate": 0.0003,
      "loss": 11.1445,
      "loss/aux_loss": 0.048072155378758905,
      "loss/crossentropy": 2.633346253633499,
      "loss/logits": 0.8097257345914841,
      "step": 43650
    },
    {
      "epoch": 0.4366,
      "grad_norm": 14.25,
      "grad_norm_var": 0.479541015625,
      "learning_rate": 0.0003,
      "loss": 11.4783,
      "loss/aux_loss": 0.04806961789727211,
      "loss/crossentropy": 2.7709633708000183,
      "loss/logits": 0.8549257487058639,
      "step": 43660
    },
    {
      "epoch": 0.4367,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.6348795572916667,
      "learning_rate": 0.0003,
      "loss": 11.2698,
      "loss/aux_loss": 0.04807803872972727,
      "loss/crossentropy": 2.8225900530815125,
      "loss/logits": 0.860035040974617,
      "step": 43670
    },
    {
      "epoch": 0.4368,
      "grad_norm": 14.75,
      "grad_norm_var": 1.0791666666666666,
      "learning_rate": 0.0003,
      "loss": 10.9831,
      "loss/aux_loss": 0.0480777345597744,
      "loss/crossentropy": 2.673772931098938,
      "loss/logits": 0.8094230264425277,
      "step": 43680
    },
    {
      "epoch": 0.4369,
      "grad_norm": 13.0,
      "grad_norm_var": 0.876025390625,
      "learning_rate": 0.0003,
      "loss": 11.1929,
      "loss/aux_loss": 0.048065176233649254,
      "loss/crossentropy": 2.7113537013530733,
      "loss/logits": 0.8660049647092819,
      "step": 43690
    },
    {
      "epoch": 0.437,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5234375,
      "learning_rate": 0.0003,
      "loss": 11.1811,
      "loss/aux_loss": 0.048079431615769865,
      "loss/crossentropy": 2.649705445766449,
      "loss/logits": 0.7998382925987244,
      "step": 43700
    },
    {
      "epoch": 0.4371,
      "grad_norm": 14.0,
      "grad_norm_var": 0.822119140625,
      "learning_rate": 0.0003,
      "loss": 11.2201,
      "loss/aux_loss": 0.04807834941893816,
      "loss/crossentropy": 2.8499518752098085,
      "loss/logits": 0.8855004251003266,
      "step": 43710
    },
    {
      "epoch": 0.4372,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.8173014322916666,
      "learning_rate": 0.0003,
      "loss": 11.035,
      "loss/aux_loss": 0.04806433636695147,
      "loss/crossentropy": 2.820804786682129,
      "loss/logits": 0.85684075653553,
      "step": 43720
    },
    {
      "epoch": 0.4373,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.5952962239583334,
      "learning_rate": 0.0003,
      "loss": 11.0527,
      "loss/aux_loss": 0.04808305986225605,
      "loss/crossentropy": 2.71166330575943,
      "loss/logits": 0.8343310207128525,
      "step": 43730
    },
    {
      "epoch": 0.4374,
      "grad_norm": 14.125,
      "grad_norm_var": 0.485791015625,
      "learning_rate": 0.0003,
      "loss": 11.2295,
      "loss/aux_loss": 0.04806539099663496,
      "loss/crossentropy": 2.766424697637558,
      "loss/logits": 0.8757703483104706,
      "step": 43740
    },
    {
      "epoch": 0.4375,
      "grad_norm": 14.375,
      "grad_norm_var": 0.6057291666666667,
      "learning_rate": 0.0003,
      "loss": 11.1771,
      "loss/aux_loss": 0.04808200504630804,
      "loss/crossentropy": 2.7064111471176147,
      "loss/logits": 0.8637802988290787,
      "step": 43750
    },
    {
      "epoch": 0.4376,
      "grad_norm": 18.625,
      "grad_norm_var": 1.48203125,
      "learning_rate": 0.0003,
      "loss": 11.1127,
      "loss/aux_loss": 0.04807017743587494,
      "loss/crossentropy": 2.653383284807205,
      "loss/logits": 0.85880506336689,
      "step": 43760
    },
    {
      "epoch": 0.4377,
      "grad_norm": 14.125,
      "grad_norm_var": 1.5556640625,
      "learning_rate": 0.0003,
      "loss": 11.3311,
      "loss/aux_loss": 0.04808002356439829,
      "loss/crossentropy": 2.712994170188904,
      "loss/logits": 0.853711587190628,
      "step": 43770
    },
    {
      "epoch": 0.4378,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.3636555989583333,
      "learning_rate": 0.0003,
      "loss": 10.9948,
      "loss/aux_loss": 0.04807909522205591,
      "loss/crossentropy": 2.5925404846668245,
      "loss/logits": 0.804463854432106,
      "step": 43780
    },
    {
      "epoch": 0.4379,
      "grad_norm": 14.25,
      "grad_norm_var": 0.32420247395833335,
      "learning_rate": 0.0003,
      "loss": 11.23,
      "loss/aux_loss": 0.04806744996458292,
      "loss/crossentropy": 2.6414481580257414,
      "loss/logits": 0.8415878742933274,
      "step": 43790
    },
    {
      "epoch": 0.438,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.140625,
      "learning_rate": 0.0003,
      "loss": 11.2518,
      "loss/aux_loss": 0.04808863271027804,
      "loss/crossentropy": 2.6875229835510255,
      "loss/logits": 0.8200345158576965,
      "step": 43800
    },
    {
      "epoch": 0.4381,
      "grad_norm": 16.5,
      "grad_norm_var": 0.6113932291666667,
      "learning_rate": 0.0003,
      "loss": 11.152,
      "loss/aux_loss": 0.04806707743555307,
      "loss/crossentropy": 2.513974744081497,
      "loss/logits": 0.8057096034288407,
      "step": 43810
    },
    {
      "epoch": 0.4382,
      "grad_norm": 14.25,
      "grad_norm_var": 0.7825520833333334,
      "learning_rate": 0.0003,
      "loss": 11.2658,
      "loss/aux_loss": 0.04807666204869747,
      "loss/crossentropy": 2.51427965760231,
      "loss/logits": 0.7930530071258545,
      "step": 43820
    },
    {
      "epoch": 0.4383,
      "grad_norm": 13.875,
      "grad_norm_var": 0.5705729166666667,
      "learning_rate": 0.0003,
      "loss": 11.2529,
      "loss/aux_loss": 0.048075707629323006,
      "loss/crossentropy": 2.711172878742218,
      "loss/logits": 0.8392647117376327,
      "step": 43830
    },
    {
      "epoch": 0.4384,
      "grad_norm": 14.5,
      "grad_norm_var": 0.6738118489583333,
      "learning_rate": 0.0003,
      "loss": 11.2097,
      "loss/aux_loss": 0.04807080589234829,
      "loss/crossentropy": 2.796042335033417,
      "loss/logits": 0.8655966311693192,
      "step": 43840
    },
    {
      "epoch": 0.4385,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.6041015625,
      "learning_rate": 0.0003,
      "loss": 11.1667,
      "loss/aux_loss": 0.048078172095119956,
      "loss/crossentropy": 2.5107653200626374,
      "loss/logits": 0.7942128717899323,
      "step": 43850
    },
    {
      "epoch": 0.4386,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.18411458333333333,
      "learning_rate": 0.0003,
      "loss": 10.9717,
      "loss/aux_loss": 0.048072948679327966,
      "loss/crossentropy": 2.6562119662761687,
      "loss/logits": 0.839997673034668,
      "step": 43860
    },
    {
      "epoch": 0.4387,
      "grad_norm": 13.875,
      "grad_norm_var": 0.5127604166666667,
      "learning_rate": 0.0003,
      "loss": 11.1122,
      "loss/aux_loss": 0.048071831464767456,
      "loss/crossentropy": 2.632074463367462,
      "loss/logits": 0.8598015516996383,
      "step": 43870
    },
    {
      "epoch": 0.4388,
      "grad_norm": 14.625,
      "grad_norm_var": 0.656884765625,
      "learning_rate": 0.0003,
      "loss": 11.1054,
      "loss/aux_loss": 0.04807578288018703,
      "loss/crossentropy": 2.6886400461196898,
      "loss/logits": 0.8491002053022385,
      "step": 43880
    },
    {
      "epoch": 0.4389,
      "grad_norm": 15.0,
      "grad_norm_var": 0.3563639322916667,
      "learning_rate": 0.0003,
      "loss": 10.9558,
      "loss/aux_loss": 0.0480809960514307,
      "loss/crossentropy": 2.4997453689575195,
      "loss/logits": 0.7939290121197701,
      "step": 43890
    },
    {
      "epoch": 0.439,
      "grad_norm": 13.25,
      "grad_norm_var": 0.34765625,
      "learning_rate": 0.0003,
      "loss": 11.3424,
      "loss/aux_loss": 0.048082989640533924,
      "loss/crossentropy": 2.65654296875,
      "loss/logits": 0.8427457630634307,
      "step": 43900
    },
    {
      "epoch": 0.4391,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.14542643229166666,
      "learning_rate": 0.0003,
      "loss": 11.0091,
      "loss/aux_loss": 0.04807342197746038,
      "loss/crossentropy": 2.6360219061374663,
      "loss/logits": 0.8580428868532181,
      "step": 43910
    },
    {
      "epoch": 0.4392,
      "grad_norm": 13.75,
      "grad_norm_var": 1.5449055989583333,
      "learning_rate": 0.0003,
      "loss": 11.1625,
      "loss/aux_loss": 0.04808421973139047,
      "loss/crossentropy": 2.6617501974105835,
      "loss/logits": 0.8398198932409286,
      "step": 43920
    },
    {
      "epoch": 0.4393,
      "grad_norm": 14.375,
      "grad_norm_var": 1.5051920572916666,
      "learning_rate": 0.0003,
      "loss": 11.1698,
      "loss/aux_loss": 0.048086178675293925,
      "loss/crossentropy": 2.554797637462616,
      "loss/logits": 0.7996778011322021,
      "step": 43930
    },
    {
      "epoch": 0.4394,
      "grad_norm": 13.75,
      "grad_norm_var": 0.4822265625,
      "learning_rate": 0.0003,
      "loss": 11.0295,
      "loss/aux_loss": 0.04808267541229725,
      "loss/crossentropy": 2.7181775331497193,
      "loss/logits": 0.8317540198564529,
      "step": 43940
    },
    {
      "epoch": 0.4395,
      "grad_norm": 13.125,
      "grad_norm_var": 0.399072265625,
      "learning_rate": 0.0003,
      "loss": 11.0659,
      "loss/aux_loss": 0.0480749236419797,
      "loss/crossentropy": 2.7755655884742736,
      "loss/logits": 0.8220769613981247,
      "step": 43950
    },
    {
      "epoch": 0.4396,
      "grad_norm": 14.375,
      "grad_norm_var": 0.241259765625,
      "learning_rate": 0.0003,
      "loss": 11.143,
      "loss/aux_loss": 0.04807134997099638,
      "loss/crossentropy": 2.8343628644943237,
      "loss/logits": 0.8345601588487626,
      "step": 43960
    },
    {
      "epoch": 0.4397,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.24894205729166666,
      "learning_rate": 0.0003,
      "loss": 11.0354,
      "loss/aux_loss": 0.04807570315897465,
      "loss/crossentropy": 2.7424150824546816,
      "loss/logits": 0.8381778568029403,
      "step": 43970
    },
    {
      "epoch": 0.4398,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.27493489583333336,
      "learning_rate": 0.0003,
      "loss": 11.1642,
      "loss/aux_loss": 0.048077446036040784,
      "loss/crossentropy": 2.688514918088913,
      "loss/logits": 0.8474517434835434,
      "step": 43980
    },
    {
      "epoch": 0.4399,
      "grad_norm": 13.625,
      "grad_norm_var": 1.0007649739583333,
      "learning_rate": 0.0003,
      "loss": 11.216,
      "loss/aux_loss": 0.04808139279484749,
      "loss/crossentropy": 2.829476696252823,
      "loss/logits": 0.8397254914045333,
      "step": 43990
    },
    {
      "epoch": 0.44,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.865869140625,
      "learning_rate": 0.0003,
      "loss": 11.2128,
      "loss/aux_loss": 0.04807093515992165,
      "loss/crossentropy": 2.7557824432849882,
      "loss/logits": 0.8229851201176643,
      "step": 44000
    },
    {
      "epoch": 0.4401,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.5528645833333333,
      "learning_rate": 0.0003,
      "loss": 11.1385,
      "loss/aux_loss": 0.04807540941983461,
      "loss/crossentropy": 2.7282972991466523,
      "loss/logits": 0.8258565187454223,
      "step": 44010
    },
    {
      "epoch": 0.4402,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.6098307291666667,
      "learning_rate": 0.0003,
      "loss": 11.3424,
      "loss/aux_loss": 0.048072741366922855,
      "loss/crossentropy": 2.8332776546478273,
      "loss/logits": 0.8698825478553772,
      "step": 44020
    },
    {
      "epoch": 0.4403,
      "grad_norm": 13.875,
      "grad_norm_var": 0.6869140625,
      "learning_rate": 0.0003,
      "loss": 11.1079,
      "loss/aux_loss": 0.04808550868183374,
      "loss/crossentropy": 2.728848767280579,
      "loss/logits": 0.878032585978508,
      "step": 44030
    },
    {
      "epoch": 0.4404,
      "grad_norm": 13.5,
      "grad_norm_var": 0.10983072916666667,
      "learning_rate": 0.0003,
      "loss": 11.182,
      "loss/aux_loss": 0.04806646145880222,
      "loss/crossentropy": 2.660983008146286,
      "loss/logits": 0.8294680565595627,
      "step": 44040
    },
    {
      "epoch": 0.4405,
      "grad_norm": 15.0,
      "grad_norm_var": 1346.16953125,
      "learning_rate": 0.0003,
      "loss": 11.2939,
      "loss/aux_loss": 0.04808670189231634,
      "loss/crossentropy": 2.8212135076522826,
      "loss/logits": 0.8692754089832306,
      "step": 44050
    },
    {
      "epoch": 0.4406,
      "grad_norm": 14.75,
      "grad_norm_var": 1335.9011555989584,
      "learning_rate": 0.0003,
      "loss": 10.9897,
      "loss/aux_loss": 0.04808017909526825,
      "loss/crossentropy": 2.73088259100914,
      "loss/logits": 0.8444351434707642,
      "step": 44060
    },
    {
      "epoch": 0.4407,
      "grad_norm": 16.25,
      "grad_norm_var": 0.8820149739583333,
      "learning_rate": 0.0003,
      "loss": 11.2521,
      "loss/aux_loss": 0.04806812740862369,
      "loss/crossentropy": 2.777199387550354,
      "loss/logits": 0.8744244068861008,
      "step": 44070
    },
    {
      "epoch": 0.4408,
      "grad_norm": 15.5,
      "grad_norm_var": 0.5431640625,
      "learning_rate": 0.0003,
      "loss": 11.0439,
      "loss/aux_loss": 0.04805951733142137,
      "loss/crossentropy": 2.804098057746887,
      "loss/logits": 0.864593580365181,
      "step": 44080
    },
    {
      "epoch": 0.4409,
      "grad_norm": 13.375,
      "grad_norm_var": 0.634375,
      "learning_rate": 0.0003,
      "loss": 11.1746,
      "loss/aux_loss": 0.048096229508519175,
      "loss/crossentropy": 2.6453644156455995,
      "loss/logits": 0.8177176743745804,
      "step": 44090
    },
    {
      "epoch": 0.441,
      "grad_norm": 15.25,
      "grad_norm_var": 0.5972493489583334,
      "learning_rate": 0.0003,
      "loss": 11.1598,
      "loss/aux_loss": 0.048072378523647784,
      "loss/crossentropy": 2.8311945855617524,
      "loss/logits": 0.8428573668003082,
      "step": 44100
    },
    {
      "epoch": 0.4411,
      "grad_norm": 14.0,
      "grad_norm_var": 0.32693684895833336,
      "learning_rate": 0.0003,
      "loss": 11.1579,
      "loss/aux_loss": 0.048064601607620716,
      "loss/crossentropy": 2.780519354343414,
      "loss/logits": 0.8639049649238586,
      "step": 44110
    },
    {
      "epoch": 0.4412,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.214697265625,
      "learning_rate": 0.0003,
      "loss": 10.999,
      "loss/aux_loss": 0.048081880807876586,
      "loss/crossentropy": 2.7817383885383604,
      "loss/logits": 0.8632400244474411,
      "step": 44120
    },
    {
      "epoch": 0.4413,
      "grad_norm": 13.625,
      "grad_norm_var": 7.629427083333334,
      "learning_rate": 0.0003,
      "loss": 11.0469,
      "loss/aux_loss": 0.048066666908562185,
      "loss/crossentropy": 2.7238622844219207,
      "loss/logits": 0.8448743641376495,
      "step": 44130
    },
    {
      "epoch": 0.4414,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.6567057291666667,
      "learning_rate": 0.0003,
      "loss": 11.154,
      "loss/aux_loss": 0.04808225836604833,
      "loss/crossentropy": 2.7381427764892576,
      "loss/logits": 0.8270679324865341,
      "step": 44140
    },
    {
      "epoch": 0.4415,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.5067708333333333,
      "learning_rate": 0.0003,
      "loss": 11.2288,
      "loss/aux_loss": 0.04807639848440885,
      "loss/crossentropy": 2.7136885285377503,
      "loss/logits": 0.8549921065568924,
      "step": 44150
    },
    {
      "epoch": 0.4416,
      "grad_norm": 14.625,
      "grad_norm_var": 0.46295572916666666,
      "learning_rate": 0.0003,
      "loss": 11.2024,
      "loss/aux_loss": 0.04807550571858883,
      "loss/crossentropy": 2.909850722551346,
      "loss/logits": 0.8444527328014374,
      "step": 44160
    },
    {
      "epoch": 0.4417,
      "grad_norm": 15.0,
      "grad_norm_var": 0.3348307291666667,
      "learning_rate": 0.0003,
      "loss": 11.2275,
      "loss/aux_loss": 0.04807161632925272,
      "loss/crossentropy": 2.8793214321136475,
      "loss/logits": 0.8599152326583862,
      "step": 44170
    },
    {
      "epoch": 0.4418,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.7601399739583333,
      "learning_rate": 0.0003,
      "loss": 11.1919,
      "loss/aux_loss": 0.04808258600533009,
      "loss/crossentropy": 2.723651033639908,
      "loss/logits": 0.8421857535839081,
      "step": 44180
    },
    {
      "epoch": 0.4419,
      "grad_norm": 16.625,
      "grad_norm_var": 1.0032389322916666,
      "learning_rate": 0.0003,
      "loss": 11.1651,
      "loss/aux_loss": 0.04808426704257727,
      "loss/crossentropy": 2.745072239637375,
      "loss/logits": 0.8335127264261246,
      "step": 44190
    },
    {
      "epoch": 0.442,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.7898274739583333,
      "learning_rate": 0.0003,
      "loss": 11.0781,
      "loss/aux_loss": 0.048068450205028056,
      "loss/crossentropy": 2.478744846582413,
      "loss/logits": 0.8013067185878754,
      "step": 44200
    },
    {
      "epoch": 0.4421,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.43136393229166664,
      "learning_rate": 0.0003,
      "loss": 11.0637,
      "loss/aux_loss": 0.04808264952152967,
      "loss/crossentropy": 2.5987396478652953,
      "loss/logits": 0.8236001014709473,
      "step": 44210
    },
    {
      "epoch": 0.4422,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.348291015625,
      "learning_rate": 0.0003,
      "loss": 11.243,
      "loss/aux_loss": 0.04807177521288395,
      "loss/crossentropy": 2.930016368627548,
      "loss/logits": 0.8525474965572357,
      "step": 44220
    },
    {
      "epoch": 0.4423,
      "grad_norm": 14.8125,
      "grad_norm_var": 2.8152180989583333,
      "learning_rate": 0.0003,
      "loss": 11.1347,
      "loss/aux_loss": 0.04807257354259491,
      "loss/crossentropy": 2.85026136636734,
      "loss/logits": 0.8361983984708786,
      "step": 44230
    },
    {
      "epoch": 0.4424,
      "grad_norm": 14.25,
      "grad_norm_var": 3.3347493489583333,
      "learning_rate": 0.0003,
      "loss": 11.3583,
      "loss/aux_loss": 0.04808483067899942,
      "loss/crossentropy": 2.742392921447754,
      "loss/logits": 0.8808601886034012,
      "step": 44240
    },
    {
      "epoch": 0.4425,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.027587890625,
      "learning_rate": 0.0003,
      "loss": 11.1345,
      "loss/aux_loss": 0.0480776023119688,
      "loss/crossentropy": 2.7934012949466704,
      "loss/logits": 0.8520541161298751,
      "step": 44250
    },
    {
      "epoch": 0.4426,
      "grad_norm": 12.6875,
      "grad_norm_var": 0.8328125,
      "learning_rate": 0.0003,
      "loss": 10.9229,
      "loss/aux_loss": 0.0480777820572257,
      "loss/crossentropy": 2.8462532997131347,
      "loss/logits": 0.8383017539978027,
      "step": 44260
    },
    {
      "epoch": 0.4427,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.5344889322916667,
      "learning_rate": 0.0003,
      "loss": 11.1232,
      "loss/aux_loss": 0.04807592108845711,
      "loss/crossentropy": 2.671667981147766,
      "loss/logits": 0.8324110358953476,
      "step": 44270
    },
    {
      "epoch": 0.4428,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.0883951822916667,
      "learning_rate": 0.0003,
      "loss": 11.0707,
      "loss/aux_loss": 0.04807809516787529,
      "loss/crossentropy": 2.7182459354400637,
      "loss/logits": 0.8334134668111801,
      "step": 44280
    },
    {
      "epoch": 0.4429,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.4891764322916667,
      "learning_rate": 0.0003,
      "loss": 11.3104,
      "loss/aux_loss": 0.04806990176439285,
      "loss/crossentropy": 2.6499986171722414,
      "loss/logits": 0.8422462284564972,
      "step": 44290
    },
    {
      "epoch": 0.443,
      "grad_norm": 16.125,
      "grad_norm_var": 0.8169270833333333,
      "learning_rate": 0.0003,
      "loss": 11.087,
      "loss/aux_loss": 0.048081264831125736,
      "loss/crossentropy": 2.6629028499126433,
      "loss/logits": 0.7944082587957382,
      "step": 44300
    },
    {
      "epoch": 0.4431,
      "grad_norm": 14.25,
      "grad_norm_var": 1.045556640625,
      "learning_rate": 0.0003,
      "loss": 11.1663,
      "loss/aux_loss": 0.04805992990732193,
      "loss/crossentropy": 2.6393331587314606,
      "loss/logits": 0.8219176232814789,
      "step": 44310
    },
    {
      "epoch": 0.4432,
      "grad_norm": 13.625,
      "grad_norm_var": 1.5378743489583333,
      "learning_rate": 0.0003,
      "loss": 11.1893,
      "loss/aux_loss": 0.048083177767693996,
      "loss/crossentropy": 2.829824334383011,
      "loss/logits": 0.8309338241815567,
      "step": 44320
    },
    {
      "epoch": 0.4433,
      "grad_norm": 35.75,
      "grad_norm_var": 28.234309895833334,
      "learning_rate": 0.0003,
      "loss": 10.9533,
      "loss/aux_loss": 0.048075624741613865,
      "loss/crossentropy": 2.6464429974555967,
      "loss/logits": 0.8063034623861313,
      "step": 44330
    },
    {
      "epoch": 0.4434,
      "grad_norm": 14.4375,
      "grad_norm_var": 28.2,
      "learning_rate": 0.0003,
      "loss": 11.0942,
      "loss/aux_loss": 0.048067497089505196,
      "loss/crossentropy": 2.6193343341350555,
      "loss/logits": 0.8304236233234406,
      "step": 44340
    },
    {
      "epoch": 0.4435,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.934375,
      "learning_rate": 0.0003,
      "loss": 10.9155,
      "loss/aux_loss": 0.04807949960231781,
      "loss/crossentropy": 2.7103063344955443,
      "loss/logits": 0.8495049208402634,
      "step": 44350
    },
    {
      "epoch": 0.4436,
      "grad_norm": 14.625,
      "grad_norm_var": 0.452587890625,
      "learning_rate": 0.0003,
      "loss": 11.1538,
      "loss/aux_loss": 0.048082873411476615,
      "loss/crossentropy": 2.634609413146973,
      "loss/logits": 0.8501360476016998,
      "step": 44360
    },
    {
      "epoch": 0.4437,
      "grad_norm": 14.0,
      "grad_norm_var": 0.25974934895833335,
      "learning_rate": 0.0003,
      "loss": 11.1608,
      "loss/aux_loss": 0.04807829111814499,
      "loss/crossentropy": 2.619146168231964,
      "loss/logits": 0.8419374793767929,
      "step": 44370
    },
    {
      "epoch": 0.4438,
      "grad_norm": 14.625,
      "grad_norm_var": 0.38644205729166664,
      "learning_rate": 0.0003,
      "loss": 11.1946,
      "loss/aux_loss": 0.04806345794349909,
      "loss/crossentropy": 2.7630446314811707,
      "loss/logits": 0.8234979271888733,
      "step": 44380
    },
    {
      "epoch": 0.4439,
      "grad_norm": 14.8125,
      "grad_norm_var": 188.98396809895834,
      "learning_rate": 0.0003,
      "loss": 11.1839,
      "loss/aux_loss": 0.04808218106627464,
      "loss/crossentropy": 2.7055815279483797,
      "loss/logits": 0.8304955214262009,
      "step": 44390
    },
    {
      "epoch": 0.444,
      "grad_norm": 14.625,
      "grad_norm_var": 0.49347330729166666,
      "learning_rate": 0.0003,
      "loss": 11.1252,
      "loss/aux_loss": 0.048086220771074294,
      "loss/crossentropy": 2.6687645077705384,
      "loss/logits": 0.8254845380783081,
      "step": 44400
    },
    {
      "epoch": 0.4441,
      "grad_norm": 14.1875,
      "grad_norm_var": 22.872249348958334,
      "learning_rate": 0.0003,
      "loss": 11.2087,
      "loss/aux_loss": 0.04806323740631342,
      "loss/crossentropy": 2.7094571113586428,
      "loss/logits": 0.8551447689533234,
      "step": 44410
    },
    {
      "epoch": 0.4442,
      "grad_norm": 13.375,
      "grad_norm_var": 0.490478515625,
      "learning_rate": 0.0003,
      "loss": 11.0191,
      "loss/aux_loss": 0.0480901513248682,
      "loss/crossentropy": 2.6127541959285736,
      "loss/logits": 0.7744009613990783,
      "step": 44420
    },
    {
      "epoch": 0.4443,
      "grad_norm": 16.125,
      "grad_norm_var": 0.8528483072916667,
      "learning_rate": 0.0003,
      "loss": 11.1025,
      "loss/aux_loss": 0.04808180164545774,
      "loss/crossentropy": 2.7499490082263947,
      "loss/logits": 0.8446706473827362,
      "step": 44430
    },
    {
      "epoch": 0.4444,
      "grad_norm": 13.75,
      "grad_norm_var": 0.781103515625,
      "learning_rate": 0.0003,
      "loss": 11.3893,
      "loss/aux_loss": 0.048070714622735974,
      "loss/crossentropy": 2.789631450176239,
      "loss/logits": 0.8639173865318298,
      "step": 44440
    },
    {
      "epoch": 0.4445,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.14855143229166667,
      "learning_rate": 0.0003,
      "loss": 11.1676,
      "loss/aux_loss": 0.0480786357074976,
      "loss/crossentropy": 2.794544792175293,
      "loss/logits": 0.8530236780643463,
      "step": 44450
    },
    {
      "epoch": 0.4446,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.23430989583333334,
      "learning_rate": 0.0003,
      "loss": 10.9838,
      "loss/aux_loss": 0.04807055927813053,
      "loss/crossentropy": 2.6851485848426817,
      "loss/logits": 0.8450033336877822,
      "step": 44460
    },
    {
      "epoch": 0.4447,
      "grad_norm": 13.375,
      "grad_norm_var": 0.5980305989583333,
      "learning_rate": 0.0003,
      "loss": 11.1546,
      "loss/aux_loss": 0.04807008933275938,
      "loss/crossentropy": 2.6952660202980043,
      "loss/logits": 0.806543692946434,
      "step": 44470
    },
    {
      "epoch": 0.4448,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.6238932291666666,
      "learning_rate": 0.0003,
      "loss": 11.2524,
      "loss/aux_loss": 0.04807232767343521,
      "loss/crossentropy": 2.8130900621414185,
      "loss/logits": 0.8416864901781083,
      "step": 44480
    },
    {
      "epoch": 0.4449,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.2067708333333333,
      "learning_rate": 0.0003,
      "loss": 11.2551,
      "loss/aux_loss": 0.04807587340474129,
      "loss/crossentropy": 2.982305383682251,
      "loss/logits": 0.8985978931188583,
      "step": 44490
    },
    {
      "epoch": 0.445,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.45358072916666664,
      "learning_rate": 0.0003,
      "loss": 11.1725,
      "loss/aux_loss": 0.048066375963389876,
      "loss/crossentropy": 2.6484339118003843,
      "loss/logits": 0.8086622357368469,
      "step": 44500
    },
    {
      "epoch": 0.4451,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.7822265625,
      "learning_rate": 0.0003,
      "loss": 11.2345,
      "loss/aux_loss": 0.04808136448264122,
      "loss/crossentropy": 2.829063284397125,
      "loss/logits": 0.8414050981402397,
      "step": 44510
    },
    {
      "epoch": 0.4452,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.3245930989583333,
      "learning_rate": 0.0003,
      "loss": 11.2001,
      "loss/aux_loss": 0.0480697114020586,
      "loss/crossentropy": 2.8107310473918914,
      "loss/logits": 0.8371037811040878,
      "step": 44520
    },
    {
      "epoch": 0.4453,
      "grad_norm": 14.0,
      "grad_norm_var": 0.4483723958333333,
      "learning_rate": 0.0003,
      "loss": 11.3441,
      "loss/aux_loss": 0.04806445110589266,
      "loss/crossentropy": 2.7447421967983248,
      "loss/logits": 0.8555226683616638,
      "step": 44530
    },
    {
      "epoch": 0.4454,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.9785807291666667,
      "learning_rate": 0.0003,
      "loss": 11.0857,
      "loss/aux_loss": 0.04807347375899553,
      "loss/crossentropy": 2.7596997022628784,
      "loss/logits": 0.8404556185007095,
      "step": 44540
    },
    {
      "epoch": 0.4455,
      "grad_norm": 14.625,
      "grad_norm_var": 0.675634765625,
      "learning_rate": 0.0003,
      "loss": 11.1599,
      "loss/aux_loss": 0.048077495954930785,
      "loss/crossentropy": 2.838477683067322,
      "loss/logits": 0.8429495930671692,
      "step": 44550
    },
    {
      "epoch": 0.4456,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.159619140625,
      "learning_rate": 0.0003,
      "loss": 11.005,
      "loss/aux_loss": 0.04807081557810307,
      "loss/crossentropy": 2.608337712287903,
      "loss/logits": 0.8179334878921509,
      "step": 44560
    },
    {
      "epoch": 0.4457,
      "grad_norm": 13.25,
      "grad_norm_var": 0.2166015625,
      "learning_rate": 0.0003,
      "loss": 11.0062,
      "loss/aux_loss": 0.04806958455592394,
      "loss/crossentropy": 2.4894912481307983,
      "loss/logits": 0.8116365820169449,
      "step": 44570
    },
    {
      "epoch": 0.4458,
      "grad_norm": 14.9375,
      "grad_norm_var": 1.2166015625,
      "learning_rate": 0.0003,
      "loss": 11.0503,
      "loss/aux_loss": 0.04808680806308985,
      "loss/crossentropy": 2.543110156059265,
      "loss/logits": 0.8014299184083938,
      "step": 44580
    },
    {
      "epoch": 0.4459,
      "grad_norm": 13.625,
      "grad_norm_var": 0.38743489583333335,
      "learning_rate": 0.0003,
      "loss": 11.2837,
      "loss/aux_loss": 0.048072746768593785,
      "loss/crossentropy": 2.6654117584228514,
      "loss/logits": 0.8336873948574066,
      "step": 44590
    },
    {
      "epoch": 0.446,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.6465983072916667,
      "learning_rate": 0.0003,
      "loss": 11.1985,
      "loss/aux_loss": 0.04807266443967819,
      "loss/crossentropy": 2.6742038309574125,
      "loss/logits": 0.8307890117168426,
      "step": 44600
    },
    {
      "epoch": 0.4461,
      "grad_norm": 19.0,
      "grad_norm_var": 1.7292805989583333,
      "learning_rate": 0.0003,
      "loss": 11.1619,
      "loss/aux_loss": 0.04808099921792745,
      "loss/crossentropy": 2.602944529056549,
      "loss/logits": 0.8340393453836441,
      "step": 44610
    },
    {
      "epoch": 0.4462,
      "grad_norm": 14.5,
      "grad_norm_var": 1.643603515625,
      "learning_rate": 0.0003,
      "loss": 11.2413,
      "loss/aux_loss": 0.048074822127819064,
      "loss/crossentropy": 2.7373409271240234,
      "loss/logits": 0.8392162501811982,
      "step": 44620
    },
    {
      "epoch": 0.4463,
      "grad_norm": 13.875,
      "grad_norm_var": 0.268603515625,
      "learning_rate": 0.0003,
      "loss": 11.2579,
      "loss/aux_loss": 0.04809278659522533,
      "loss/crossentropy": 2.75430805683136,
      "loss/logits": 0.8329770535230636,
      "step": 44630
    },
    {
      "epoch": 0.4464,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.543603515625,
      "learning_rate": 0.0003,
      "loss": 11.333,
      "loss/aux_loss": 0.04807210359722376,
      "loss/crossentropy": 2.8144919753074644,
      "loss/logits": 0.8301558136940003,
      "step": 44640
    },
    {
      "epoch": 0.4465,
      "grad_norm": 14.25,
      "grad_norm_var": 0.38800455729166666,
      "learning_rate": 0.0003,
      "loss": 11.0804,
      "loss/aux_loss": 0.048076588474214074,
      "loss/crossentropy": 2.5720925986766816,
      "loss/logits": 0.8426287531852722,
      "step": 44650
    },
    {
      "epoch": 0.4466,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.9827962239583333,
      "learning_rate": 0.0003,
      "loss": 11.1989,
      "loss/aux_loss": 0.04807624667882919,
      "loss/crossentropy": 2.7645800590515135,
      "loss/logits": 0.867130133509636,
      "step": 44660
    },
    {
      "epoch": 0.4467,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.46087239583333334,
      "learning_rate": 0.0003,
      "loss": 11.1464,
      "loss/aux_loss": 0.04807679317891598,
      "loss/crossentropy": 2.819456601142883,
      "loss/logits": 0.8306093007326126,
      "step": 44670
    },
    {
      "epoch": 0.4468,
      "grad_norm": 14.125,
      "grad_norm_var": 0.261181640625,
      "learning_rate": 0.0003,
      "loss": 11.1236,
      "loss/aux_loss": 0.04808004982769489,
      "loss/crossentropy": 2.7177935242652893,
      "loss/logits": 0.8448736160993576,
      "step": 44680
    },
    {
      "epoch": 0.4469,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.390869140625,
      "learning_rate": 0.0003,
      "loss": 11.2744,
      "loss/aux_loss": 0.04807827845215797,
      "loss/crossentropy": 2.7277093112468718,
      "loss/logits": 0.8623002141714096,
      "step": 44690
    },
    {
      "epoch": 0.447,
      "grad_norm": 15.375,
      "grad_norm_var": 0.3541015625,
      "learning_rate": 0.0003,
      "loss": 11.0419,
      "loss/aux_loss": 0.04807532671838999,
      "loss/crossentropy": 2.633826696872711,
      "loss/logits": 0.8072617381811142,
      "step": 44700
    },
    {
      "epoch": 0.4471,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.8296875,
      "learning_rate": 0.0003,
      "loss": 11.1652,
      "loss/aux_loss": 0.04807002525776625,
      "loss/crossentropy": 2.8819324254989622,
      "loss/logits": 0.8609935432672501,
      "step": 44710
    },
    {
      "epoch": 0.4472,
      "grad_norm": 12.8125,
      "grad_norm_var": 67.39420572916667,
      "learning_rate": 0.0003,
      "loss": 11.1658,
      "loss/aux_loss": 0.04808681160211563,
      "loss/crossentropy": 2.6865515530109407,
      "loss/logits": 0.8306647807359695,
      "step": 44720
    },
    {
      "epoch": 0.4473,
      "grad_norm": 15.0,
      "grad_norm_var": 1.3202473958333334,
      "learning_rate": 0.0003,
      "loss": 11.311,
      "loss/aux_loss": 0.04807041622698307,
      "loss/crossentropy": 2.785504710674286,
      "loss/logits": 0.8608017772436142,
      "step": 44730
    },
    {
      "epoch": 0.4474,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5462076822916667,
      "learning_rate": 0.0003,
      "loss": 11.0018,
      "loss/aux_loss": 0.048068745993077755,
      "loss/crossentropy": 2.671027088165283,
      "loss/logits": 0.8593548953533172,
      "step": 44740
    },
    {
      "epoch": 0.4475,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.5098795572916667,
      "learning_rate": 0.0003,
      "loss": 11.244,
      "loss/aux_loss": 0.0480734009295702,
      "loss/crossentropy": 2.8455959856510162,
      "loss/logits": 0.8765670835971833,
      "step": 44750
    },
    {
      "epoch": 0.4476,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.29609375,
      "learning_rate": 0.0003,
      "loss": 11.3258,
      "loss/aux_loss": 0.04808003343641758,
      "loss/crossentropy": 2.717009627819061,
      "loss/logits": 0.8516732335090638,
      "step": 44760
    },
    {
      "epoch": 0.4477,
      "grad_norm": 13.875,
      "grad_norm_var": 0.2508951822916667,
      "learning_rate": 0.0003,
      "loss": 11.0886,
      "loss/aux_loss": 0.04807702694088221,
      "loss/crossentropy": 2.591119593381882,
      "loss/logits": 0.8043858855962753,
      "step": 44770
    },
    {
      "epoch": 0.4478,
      "grad_norm": 13.75,
      "grad_norm_var": 0.37701822916666666,
      "learning_rate": 0.0003,
      "loss": 11.2574,
      "loss/aux_loss": 0.04807428196072579,
      "loss/crossentropy": 2.826832854747772,
      "loss/logits": 0.8612869143486023,
      "step": 44780
    },
    {
      "epoch": 0.4479,
      "grad_norm": 14.5625,
      "grad_norm_var": 2.029801432291667,
      "learning_rate": 0.0003,
      "loss": 11.0258,
      "loss/aux_loss": 0.048076750710606575,
      "loss/crossentropy": 2.607262873649597,
      "loss/logits": 0.8060549914836883,
      "step": 44790
    },
    {
      "epoch": 0.448,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.7778645833333333,
      "learning_rate": 0.0003,
      "loss": 11.1719,
      "loss/aux_loss": 0.04807757344096899,
      "loss/crossentropy": 2.5432204246520995,
      "loss/logits": 0.7854818969964981,
      "step": 44800
    },
    {
      "epoch": 0.4481,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.18274739583333333,
      "learning_rate": 0.0003,
      "loss": 11.2529,
      "loss/aux_loss": 0.048074766620993616,
      "loss/crossentropy": 2.85523384809494,
      "loss/logits": 0.8906599700450897,
      "step": 44810
    },
    {
      "epoch": 0.4482,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.38723958333333336,
      "learning_rate": 0.0003,
      "loss": 11.3863,
      "loss/aux_loss": 0.04806411787867546,
      "loss/crossentropy": 2.7882557988166807,
      "loss/logits": 0.8717421501874923,
      "step": 44820
    },
    {
      "epoch": 0.4483,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.31027018229166664,
      "learning_rate": 0.0003,
      "loss": 11.1229,
      "loss/aux_loss": 0.04807241186499596,
      "loss/crossentropy": 2.737172317504883,
      "loss/logits": 0.8286905974149704,
      "step": 44830
    },
    {
      "epoch": 0.4484,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.32810872395833335,
      "learning_rate": 0.0003,
      "loss": 11.3924,
      "loss/aux_loss": 0.048084205389022826,
      "loss/crossentropy": 2.8003673791885375,
      "loss/logits": 0.8761254161596298,
      "step": 44840
    },
    {
      "epoch": 0.4485,
      "grad_norm": 15.625,
      "grad_norm_var": 7.253580729166667,
      "learning_rate": 0.0003,
      "loss": 11.2739,
      "loss/aux_loss": 0.04808361791074276,
      "loss/crossentropy": 2.7707901895046234,
      "loss/logits": 0.8379460781812668,
      "step": 44850
    },
    {
      "epoch": 0.4486,
      "grad_norm": 13.75,
      "grad_norm_var": 7.713134765625,
      "learning_rate": 0.0003,
      "loss": 11.1027,
      "loss/aux_loss": 0.04806753098964691,
      "loss/crossentropy": 2.857259654998779,
      "loss/logits": 0.8505940139293671,
      "step": 44860
    },
    {
      "epoch": 0.4487,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.3846354166666667,
      "learning_rate": 0.0003,
      "loss": 11.0449,
      "loss/aux_loss": 0.048075702600181104,
      "loss/crossentropy": 2.698404437303543,
      "loss/logits": 0.817566591501236,
      "step": 44870
    },
    {
      "epoch": 0.4488,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.4984212239583333,
      "learning_rate": 0.0003,
      "loss": 11.0498,
      "loss/aux_loss": 0.04807261247187853,
      "loss/crossentropy": 2.7336514472961424,
      "loss/logits": 0.8175310790538788,
      "step": 44880
    },
    {
      "epoch": 0.4489,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.32493489583333335,
      "learning_rate": 0.0003,
      "loss": 11.2769,
      "loss/aux_loss": 0.0480836022645235,
      "loss/crossentropy": 2.6234305024147035,
      "loss/logits": 0.7813559800386429,
      "step": 44890
    },
    {
      "epoch": 0.449,
      "grad_norm": 13.8125,
      "grad_norm_var": 3.256103515625,
      "learning_rate": 0.0003,
      "loss": 11.2918,
      "loss/aux_loss": 0.048073142766952515,
      "loss/crossentropy": 2.686808633804321,
      "loss/logits": 0.831533208489418,
      "step": 44900
    },
    {
      "epoch": 0.4491,
      "grad_norm": 13.75,
      "grad_norm_var": 0.213525390625,
      "learning_rate": 0.0003,
      "loss": 11.2277,
      "loss/aux_loss": 0.0480730053037405,
      "loss/crossentropy": 2.5610205233097076,
      "loss/logits": 0.8396010220050811,
      "step": 44910
    },
    {
      "epoch": 0.4492,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.4244140625,
      "learning_rate": 0.0003,
      "loss": 11.3523,
      "loss/aux_loss": 0.04808488227427006,
      "loss/crossentropy": 2.7543952822685243,
      "loss/logits": 0.8435162544250489,
      "step": 44920
    },
    {
      "epoch": 0.4493,
      "grad_norm": 13.5,
      "grad_norm_var": 0.6640625,
      "learning_rate": 0.0003,
      "loss": 11.066,
      "loss/aux_loss": 0.04807263296097517,
      "loss/crossentropy": 2.755419361591339,
      "loss/logits": 0.8490778416395187,
      "step": 44930
    },
    {
      "epoch": 0.4494,
      "grad_norm": 13.875,
      "grad_norm_var": 0.21053059895833334,
      "learning_rate": 0.0003,
      "loss": 11.2204,
      "loss/aux_loss": 0.048071037791669366,
      "loss/crossentropy": 2.6401973962783813,
      "loss/logits": 0.8432885766029358,
      "step": 44940
    },
    {
      "epoch": 0.4495,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.7831868489583333,
      "learning_rate": 0.0003,
      "loss": 11.0892,
      "loss/aux_loss": 0.04807609617710114,
      "loss/crossentropy": 2.685221529006958,
      "loss/logits": 0.8308875828981399,
      "step": 44950
    },
    {
      "epoch": 0.4496,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.596337890625,
      "learning_rate": 0.0003,
      "loss": 11.2131,
      "loss/aux_loss": 0.048079296760261056,
      "loss/crossentropy": 2.694732528924942,
      "loss/logits": 0.8388465225696564,
      "step": 44960
    },
    {
      "epoch": 0.4497,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5374348958333334,
      "learning_rate": 0.0003,
      "loss": 11.0489,
      "loss/aux_loss": 0.048061837814748286,
      "loss/crossentropy": 2.737008786201477,
      "loss/logits": 0.850694689154625,
      "step": 44970
    },
    {
      "epoch": 0.4498,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.3843587239583333,
      "learning_rate": 0.0003,
      "loss": 11.1391,
      "loss/aux_loss": 0.048087633959949014,
      "loss/crossentropy": 2.8430655121803285,
      "loss/logits": 0.8736658453941345,
      "step": 44980
    },
    {
      "epoch": 0.4499,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.2945149739583333,
      "learning_rate": 0.0003,
      "loss": 11.1745,
      "loss/aux_loss": 0.04807091951370239,
      "loss/crossentropy": 2.856264519691467,
      "loss/logits": 0.8631505787372589,
      "step": 44990
    },
    {
      "epoch": 0.45,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.34576822916666666,
      "learning_rate": 0.0003,
      "loss": 11.1792,
      "loss/aux_loss": 0.048074228875339034,
      "loss/crossentropy": 2.7000016987323763,
      "loss/logits": 0.8304085314273835,
      "step": 45000
    },
    {
      "epoch": 0.4501,
      "grad_norm": 19.375,
      "grad_norm_var": 1.9964680989583334,
      "learning_rate": 0.0003,
      "loss": 11.201,
      "loss/aux_loss": 0.04807187356054783,
      "loss/crossentropy": 2.5905265331268312,
      "loss/logits": 0.8301917672157287,
      "step": 45010
    },
    {
      "epoch": 0.4502,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.995166015625,
      "learning_rate": 0.0003,
      "loss": 11.3012,
      "loss/aux_loss": 0.048079838044941425,
      "loss/crossentropy": 2.655366039276123,
      "loss/logits": 0.8250725924968719,
      "step": 45020
    },
    {
      "epoch": 0.4503,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.453125,
      "learning_rate": 0.0003,
      "loss": 11.0779,
      "loss/aux_loss": 0.048072745092213154,
      "loss/crossentropy": 2.873497819900513,
      "loss/logits": 0.8643653631210327,
      "step": 45030
    },
    {
      "epoch": 0.4504,
      "grad_norm": 13.875,
      "grad_norm_var": 0.2747395833333333,
      "learning_rate": 0.0003,
      "loss": 11.0926,
      "loss/aux_loss": 0.04807302486151457,
      "loss/crossentropy": 2.816511571407318,
      "loss/logits": 0.8430682748556138,
      "step": 45040
    },
    {
      "epoch": 0.4505,
      "grad_norm": 15.0,
      "grad_norm_var": 9.468994140625,
      "learning_rate": 0.0003,
      "loss": 11.2874,
      "loss/aux_loss": 0.0480752307921648,
      "loss/crossentropy": 2.796900761127472,
      "loss/logits": 0.8639124810695649,
      "step": 45050
    },
    {
      "epoch": 0.4506,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.5764973958333334,
      "learning_rate": 0.0003,
      "loss": 11.2776,
      "loss/aux_loss": 0.048078755289316176,
      "loss/crossentropy": 2.770525109767914,
      "loss/logits": 0.8221762269735337,
      "step": 45060
    },
    {
      "epoch": 0.4507,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.5235514322916667,
      "learning_rate": 0.0003,
      "loss": 11.0756,
      "loss/aux_loss": 0.048073511384427545,
      "loss/crossentropy": 2.642447865009308,
      "loss/logits": 0.823766753077507,
      "step": 45070
    },
    {
      "epoch": 0.4508,
      "grad_norm": 14.25,
      "grad_norm_var": 0.667822265625,
      "learning_rate": 0.0003,
      "loss": 11.2534,
      "loss/aux_loss": 0.04807865601032972,
      "loss/crossentropy": 2.773304843902588,
      "loss/logits": 0.8674245417118073,
      "step": 45080
    },
    {
      "epoch": 0.4509,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.1044108072916667,
      "learning_rate": 0.0003,
      "loss": 10.9283,
      "loss/aux_loss": 0.04806472901254892,
      "loss/crossentropy": 2.545005625486374,
      "loss/logits": 0.7938053220510483,
      "step": 45090
    },
    {
      "epoch": 0.451,
      "grad_norm": 14.625,
      "grad_norm_var": 0.41287434895833336,
      "learning_rate": 0.0003,
      "loss": 10.9847,
      "loss/aux_loss": 0.04808530602604151,
      "loss/crossentropy": 2.6405605256557463,
      "loss/logits": 0.8240345329046249,
      "step": 45100
    },
    {
      "epoch": 0.4511,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.48605143229166664,
      "learning_rate": 0.0003,
      "loss": 11.2396,
      "loss/aux_loss": 0.04806354120373726,
      "loss/crossentropy": 2.7839693784713746,
      "loss/logits": 0.8868257701396942,
      "step": 45110
    },
    {
      "epoch": 0.4512,
      "grad_norm": 16.875,
      "grad_norm_var": 0.9191243489583333,
      "learning_rate": 0.0003,
      "loss": 11.0655,
      "loss/aux_loss": 0.048075102269649506,
      "loss/crossentropy": 2.752034366130829,
      "loss/logits": 0.840661883354187,
      "step": 45120
    },
    {
      "epoch": 0.4513,
      "grad_norm": 16.25,
      "grad_norm_var": 1.6202473958333334,
      "learning_rate": 0.0003,
      "loss": 11.2822,
      "loss/aux_loss": 0.048065843246877196,
      "loss/crossentropy": 2.7595421195030214,
      "loss/logits": 0.8664416402578354,
      "step": 45130
    },
    {
      "epoch": 0.4514,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.522509765625,
      "learning_rate": 0.0003,
      "loss": 11.1742,
      "loss/aux_loss": 0.04807279203087091,
      "loss/crossentropy": 2.7141676127910612,
      "loss/logits": 0.8610961318016053,
      "step": 45140
    },
    {
      "epoch": 0.4515,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.7348307291666667,
      "learning_rate": 0.0003,
      "loss": 11.1127,
      "loss/aux_loss": 0.04807740245014429,
      "loss/crossentropy": 2.674371284246445,
      "loss/logits": 0.8470130562782288,
      "step": 45150
    },
    {
      "epoch": 0.4516,
      "grad_norm": 13.25,
      "grad_norm_var": 5.373958333333333,
      "learning_rate": 0.0003,
      "loss": 11.1149,
      "loss/aux_loss": 0.04808497317135334,
      "loss/crossentropy": 2.658644849061966,
      "loss/logits": 0.8162630528211594,
      "step": 45160
    },
    {
      "epoch": 0.4517,
      "grad_norm": 14.75,
      "grad_norm_var": 4.355322265625,
      "learning_rate": 0.0003,
      "loss": 11.1443,
      "loss/aux_loss": 0.048073196038603785,
      "loss/crossentropy": 2.693699061870575,
      "loss/logits": 0.8589479506015778,
      "step": 45170
    },
    {
      "epoch": 0.4518,
      "grad_norm": 16.875,
      "grad_norm_var": 0.7890625,
      "learning_rate": 0.0003,
      "loss": 11.2395,
      "loss/aux_loss": 0.04807229600846767,
      "loss/crossentropy": 2.809789764881134,
      "loss/logits": 0.8285229980945588,
      "step": 45180
    },
    {
      "epoch": 0.4519,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.75,
      "learning_rate": 0.0003,
      "loss": 10.9856,
      "loss/aux_loss": 0.048070633225142954,
      "loss/crossentropy": 2.75104238986969,
      "loss/logits": 0.8169887810945511,
      "step": 45190
    },
    {
      "epoch": 0.452,
      "grad_norm": 14.0,
      "grad_norm_var": 0.47239583333333335,
      "learning_rate": 0.0003,
      "loss": 11.2444,
      "loss/aux_loss": 0.04806809239089489,
      "loss/crossentropy": 2.7128111243247988,
      "loss/logits": 0.8189259111881256,
      "step": 45200
    },
    {
      "epoch": 0.4521,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.6692057291666667,
      "learning_rate": 0.0003,
      "loss": 10.9503,
      "loss/aux_loss": 0.0480776846408844,
      "loss/crossentropy": 2.7245679616928102,
      "loss/logits": 0.8289970546960831,
      "step": 45210
    },
    {
      "epoch": 0.4522,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.5874348958333333,
      "learning_rate": 0.0003,
      "loss": 11.094,
      "loss/aux_loss": 0.04808888658881187,
      "loss/crossentropy": 2.482409542798996,
      "loss/logits": 0.8053638786077499,
      "step": 45220
    },
    {
      "epoch": 0.4523,
      "grad_norm": 13.875,
      "grad_norm_var": 0.5699055989583334,
      "learning_rate": 0.0003,
      "loss": 11.1009,
      "loss/aux_loss": 0.04806402549147606,
      "loss/crossentropy": 2.8999637961387634,
      "loss/logits": 0.8342925250530243,
      "step": 45230
    },
    {
      "epoch": 0.4524,
      "grad_norm": 13.0,
      "grad_norm_var": 0.3544108072916667,
      "learning_rate": 0.0003,
      "loss": 11.1598,
      "loss/aux_loss": 0.04807737078517675,
      "loss/crossentropy": 2.8522120237350466,
      "loss/logits": 0.8593276113271713,
      "step": 45240
    },
    {
      "epoch": 0.4525,
      "grad_norm": 14.875,
      "grad_norm_var": 0.5133951822916667,
      "learning_rate": 0.0003,
      "loss": 10.9334,
      "loss/aux_loss": 0.048071842454373834,
      "loss/crossentropy": 2.540039598941803,
      "loss/logits": 0.8037934333086014,
      "step": 45250
    },
    {
      "epoch": 0.4526,
      "grad_norm": 14.625,
      "grad_norm_var": 0.62109375,
      "learning_rate": 0.0003,
      "loss": 11.1593,
      "loss/aux_loss": 0.04807714056223631,
      "loss/crossentropy": 2.7473401188850404,
      "loss/logits": 0.8323444128036499,
      "step": 45260
    },
    {
      "epoch": 0.4527,
      "grad_norm": 13.375,
      "grad_norm_var": 0.5430826822916667,
      "learning_rate": 0.0003,
      "loss": 11.1556,
      "loss/aux_loss": 0.048075577989220616,
      "loss/crossentropy": 2.639462560415268,
      "loss/logits": 0.8283006697893143,
      "step": 45270
    },
    {
      "epoch": 0.4528,
      "grad_norm": 14.5,
      "grad_norm_var": 0.459619140625,
      "learning_rate": 0.0003,
      "loss": 11.0925,
      "loss/aux_loss": 0.04807265214622021,
      "loss/crossentropy": 2.733612394332886,
      "loss/logits": 0.8260679453611374,
      "step": 45280
    },
    {
      "epoch": 0.4529,
      "grad_norm": 15.25,
      "grad_norm_var": 0.3228515625,
      "learning_rate": 0.0003,
      "loss": 11.2664,
      "loss/aux_loss": 0.04807320795953274,
      "loss/crossentropy": 2.817549741268158,
      "loss/logits": 0.872169628739357,
      "step": 45290
    },
    {
      "epoch": 0.453,
      "grad_norm": 14.625,
      "grad_norm_var": 1.0290201822916667,
      "learning_rate": 0.0003,
      "loss": 11.2883,
      "loss/aux_loss": 0.04808189887553453,
      "loss/crossentropy": 2.7291213452816008,
      "loss/logits": 0.8284125924110413,
      "step": 45300
    },
    {
      "epoch": 0.4531,
      "grad_norm": 14.25,
      "grad_norm_var": 0.38619791666666664,
      "learning_rate": 0.0003,
      "loss": 11.3393,
      "loss/aux_loss": 0.04806639589369297,
      "loss/crossentropy": 2.888676828145981,
      "loss/logits": 0.8628419786691666,
      "step": 45310
    },
    {
      "epoch": 0.4532,
      "grad_norm": 16.125,
      "grad_norm_var": 30.763395182291667,
      "learning_rate": 0.0003,
      "loss": 11.3253,
      "loss/aux_loss": 0.04808086268603802,
      "loss/crossentropy": 2.8755642414093017,
      "loss/logits": 0.8577650129795075,
      "step": 45320
    },
    {
      "epoch": 0.4533,
      "grad_norm": 14.625,
      "grad_norm_var": 26.501936848958334,
      "learning_rate": 0.0003,
      "loss": 11.3604,
      "loss/aux_loss": 0.04807670023292303,
      "loss/crossentropy": 2.795285141468048,
      "loss/logits": 0.8813230514526367,
      "step": 45330
    },
    {
      "epoch": 0.4534,
      "grad_norm": 14.1875,
      "grad_norm_var": 8.334830729166667,
      "learning_rate": 0.0003,
      "loss": 10.9839,
      "loss/aux_loss": 0.048065191879868505,
      "loss/crossentropy": 2.9003730535507204,
      "loss/logits": 0.839951154589653,
      "step": 45340
    },
    {
      "epoch": 0.4535,
      "grad_norm": 13.25,
      "grad_norm_var": 0.870166015625,
      "learning_rate": 0.0003,
      "loss": 11.0878,
      "loss/aux_loss": 0.048059961013495925,
      "loss/crossentropy": 2.8457574963569643,
      "loss/logits": 0.8674950510263443,
      "step": 45350
    },
    {
      "epoch": 0.4536,
      "grad_norm": 14.8125,
      "grad_norm_var": 2.363264973958333,
      "learning_rate": 0.0003,
      "loss": 11.1738,
      "loss/aux_loss": 0.04807946924120188,
      "loss/crossentropy": 2.8464213252067565,
      "loss/logits": 0.8665098369121551,
      "step": 45360
    },
    {
      "epoch": 0.4537,
      "grad_norm": 13.25,
      "grad_norm_var": 2.085400390625,
      "learning_rate": 0.0003,
      "loss": 11.1825,
      "loss/aux_loss": 0.04806684292852879,
      "loss/crossentropy": 2.7150739192962647,
      "loss/logits": 0.8413305938243866,
      "step": 45370
    },
    {
      "epoch": 0.4538,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.294775390625,
      "learning_rate": 0.0003,
      "loss": 11.2586,
      "loss/aux_loss": 0.048075356893241404,
      "loss/crossentropy": 2.809218281507492,
      "loss/logits": 0.8536065101623536,
      "step": 45380
    },
    {
      "epoch": 0.4539,
      "grad_norm": 13.8125,
      "grad_norm_var": 1.880712890625,
      "learning_rate": 0.0003,
      "loss": 11.1555,
      "loss/aux_loss": 0.04809560999274254,
      "loss/crossentropy": 2.602170443534851,
      "loss/logits": 0.8421902984380722,
      "step": 45390
    },
    {
      "epoch": 0.454,
      "grad_norm": 13.25,
      "grad_norm_var": 2.2202962239583335,
      "learning_rate": 0.0003,
      "loss": 11.1732,
      "loss/aux_loss": 0.04805552512407303,
      "loss/crossentropy": 2.8673832774162293,
      "loss/logits": 0.8450622230768203,
      "step": 45400
    },
    {
      "epoch": 0.4541,
      "grad_norm": 13.75,
      "grad_norm_var": 0.9009765625,
      "learning_rate": 0.0003,
      "loss": 11.023,
      "loss/aux_loss": 0.04807879459112883,
      "loss/crossentropy": 2.6993161380290984,
      "loss/logits": 0.8065011203289032,
      "step": 45410
    },
    {
      "epoch": 0.4542,
      "grad_norm": 13.5,
      "grad_norm_var": 0.83046875,
      "learning_rate": 0.0003,
      "loss": 11.0644,
      "loss/aux_loss": 0.04806725066155195,
      "loss/crossentropy": 2.628107964992523,
      "loss/logits": 0.8442522406578064,
      "step": 45420
    },
    {
      "epoch": 0.4543,
      "grad_norm": 14.0,
      "grad_norm_var": 0.7358723958333333,
      "learning_rate": 0.0003,
      "loss": 11.1131,
      "loss/aux_loss": 0.04807357750833034,
      "loss/crossentropy": 2.7379313945770263,
      "loss/logits": 0.8388034462928772,
      "step": 45430
    },
    {
      "epoch": 0.4544,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.3941243489583333,
      "learning_rate": 0.0003,
      "loss": 11.2006,
      "loss/aux_loss": 0.04807491805404425,
      "loss/crossentropy": 2.750547635555267,
      "loss/logits": 0.8313853859901428,
      "step": 45440
    },
    {
      "epoch": 0.4545,
      "grad_norm": 13.875,
      "grad_norm_var": 0.5580729166666667,
      "learning_rate": 0.0003,
      "loss": 11.2105,
      "loss/aux_loss": 0.04807582795619965,
      "loss/crossentropy": 2.771452808380127,
      "loss/logits": 0.8088362455368042,
      "step": 45450
    },
    {
      "epoch": 0.4546,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.7884765625,
      "learning_rate": 0.0003,
      "loss": 11.1884,
      "loss/aux_loss": 0.04807773567736149,
      "loss/crossentropy": 2.833453130722046,
      "loss/logits": 0.8409688085317611,
      "step": 45460
    },
    {
      "epoch": 0.4547,
      "grad_norm": 16.875,
      "grad_norm_var": 1.33984375,
      "learning_rate": 0.0003,
      "loss": 11.1772,
      "loss/aux_loss": 0.04806816857308149,
      "loss/crossentropy": 2.5675463676452637,
      "loss/logits": 0.8408284574747086,
      "step": 45470
    },
    {
      "epoch": 0.4548,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.1582682291666666,
      "learning_rate": 0.0003,
      "loss": 11.3571,
      "loss/aux_loss": 0.04808399137109518,
      "loss/crossentropy": 2.719745373725891,
      "loss/logits": 0.8130148202180862,
      "step": 45480
    },
    {
      "epoch": 0.4549,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.7718587239583333,
      "learning_rate": 0.0003,
      "loss": 11.2929,
      "loss/aux_loss": 0.048072703368961814,
      "loss/crossentropy": 2.8237855315208433,
      "loss/logits": 0.886102220416069,
      "step": 45490
    },
    {
      "epoch": 0.455,
      "grad_norm": 14.75,
      "grad_norm_var": 0.449072265625,
      "learning_rate": 0.0003,
      "loss": 11.0946,
      "loss/aux_loss": 0.04806439485400915,
      "loss/crossentropy": 2.6629326224327086,
      "loss/logits": 0.8396694749593735,
      "step": 45500
    },
    {
      "epoch": 0.4551,
      "grad_norm": 14.125,
      "grad_norm_var": 0.4596354166666667,
      "learning_rate": 0.0003,
      "loss": 11.3091,
      "loss/aux_loss": 0.04807718340307474,
      "loss/crossentropy": 2.878407192230225,
      "loss/logits": 0.8687193512916564,
      "step": 45510
    },
    {
      "epoch": 0.4552,
      "grad_norm": 13.375,
      "grad_norm_var": 0.4332682291666667,
      "learning_rate": 0.0003,
      "loss": 11.1584,
      "loss/aux_loss": 0.04807638432830572,
      "loss/crossentropy": 2.7596149682998656,
      "loss/logits": 0.8342228949069976,
      "step": 45520
    },
    {
      "epoch": 0.4553,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.2872395833333333,
      "learning_rate": 0.0003,
      "loss": 11.2693,
      "loss/aux_loss": 0.04807369913905859,
      "loss/crossentropy": 3.037293183803558,
      "loss/logits": 0.8476502895355225,
      "step": 45530
    },
    {
      "epoch": 0.4554,
      "grad_norm": 14.375,
      "grad_norm_var": 0.8960774739583334,
      "learning_rate": 0.0003,
      "loss": 10.9162,
      "loss/aux_loss": 0.04806880354881286,
      "loss/crossentropy": 2.5978680908679963,
      "loss/logits": 0.8057895511388778,
      "step": 45540
    },
    {
      "epoch": 0.4555,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.954931640625,
      "learning_rate": 0.0003,
      "loss": 11.0929,
      "loss/aux_loss": 0.04807190727442503,
      "loss/crossentropy": 2.7636757493019104,
      "loss/logits": 0.8655385166406632,
      "step": 45550
    },
    {
      "epoch": 0.4556,
      "grad_norm": 14.875,
      "grad_norm_var": 0.3963541666666667,
      "learning_rate": 0.0003,
      "loss": 11.1835,
      "loss/aux_loss": 0.048070300556719306,
      "loss/crossentropy": 2.5805073499679567,
      "loss/logits": 0.846220064163208,
      "step": 45560
    },
    {
      "epoch": 0.4557,
      "grad_norm": 13.875,
      "grad_norm_var": 0.7149576822916667,
      "learning_rate": 0.0003,
      "loss": 11.0291,
      "loss/aux_loss": 0.04808596391230822,
      "loss/crossentropy": 2.6298948764801025,
      "loss/logits": 0.8278081536293029,
      "step": 45570
    },
    {
      "epoch": 0.4558,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.8462890625,
      "learning_rate": 0.0003,
      "loss": 11.0205,
      "loss/aux_loss": 0.04807253833860159,
      "loss/crossentropy": 2.6736935675144196,
      "loss/logits": 0.8378624528646469,
      "step": 45580
    },
    {
      "epoch": 0.4559,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.6683430989583333,
      "learning_rate": 0.0003,
      "loss": 11.2032,
      "loss/aux_loss": 0.04806935098022223,
      "loss/crossentropy": 2.6951875925064086,
      "loss/logits": 0.818251371383667,
      "step": 45590
    },
    {
      "epoch": 0.456,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.2919108072916667,
      "learning_rate": 0.0003,
      "loss": 11.2407,
      "loss/aux_loss": 0.04809526577591896,
      "loss/crossentropy": 2.7838382720947266,
      "loss/logits": 0.8391630411148071,
      "step": 45600
    },
    {
      "epoch": 0.4561,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.6301432291666667,
      "learning_rate": 0.0003,
      "loss": 11.1217,
      "loss/aux_loss": 0.048053614981472495,
      "loss/crossentropy": 2.632568824291229,
      "loss/logits": 0.845693039894104,
      "step": 45610
    },
    {
      "epoch": 0.4562,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.6426920572916667,
      "learning_rate": 0.0003,
      "loss": 11.1653,
      "loss/aux_loss": 0.048069927655160424,
      "loss/crossentropy": 2.8206692337989807,
      "loss/logits": 0.8522645890712738,
      "step": 45620
    },
    {
      "epoch": 0.4563,
      "grad_norm": 14.75,
      "grad_norm_var": 0.8895833333333333,
      "learning_rate": 0.0003,
      "loss": 11.037,
      "loss/aux_loss": 0.048098363913595676,
      "loss/crossentropy": 2.769987952709198,
      "loss/logits": 0.8345672219991684,
      "step": 45630
    },
    {
      "epoch": 0.4564,
      "grad_norm": 16.625,
      "grad_norm_var": 0.988525390625,
      "learning_rate": 0.0003,
      "loss": 11.143,
      "loss/aux_loss": 0.04806884527206421,
      "loss/crossentropy": 2.755461257696152,
      "loss/logits": 0.8266684681177139,
      "step": 45640
    },
    {
      "epoch": 0.4565,
      "grad_norm": 13.8125,
      "grad_norm_var": 1.1817708333333334,
      "learning_rate": 0.0003,
      "loss": 11.2068,
      "loss/aux_loss": 0.04807171430438757,
      "loss/crossentropy": 2.7919964730739593,
      "loss/logits": 0.8207480728626251,
      "step": 45650
    },
    {
      "epoch": 0.4566,
      "grad_norm": 13.125,
      "grad_norm_var": 0.7269368489583333,
      "learning_rate": 0.0003,
      "loss": 11.0707,
      "loss/aux_loss": 0.04808006528764963,
      "loss/crossentropy": 2.6854530811309814,
      "loss/logits": 0.8648782402276993,
      "step": 45660
    },
    {
      "epoch": 0.4567,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.7372395833333333,
      "learning_rate": 0.0003,
      "loss": 11.2434,
      "loss/aux_loss": 0.04807576704770326,
      "loss/crossentropy": 2.7998494148254394,
      "loss/logits": 0.812621483206749,
      "step": 45670
    },
    {
      "epoch": 0.4568,
      "grad_norm": 16.625,
      "grad_norm_var": 0.718603515625,
      "learning_rate": 0.0003,
      "loss": 11.2177,
      "loss/aux_loss": 0.04807013794779778,
      "loss/crossentropy": 2.7176717042922975,
      "loss/logits": 0.8751024842262268,
      "step": 45680
    },
    {
      "epoch": 0.4569,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5817057291666666,
      "learning_rate": 0.0003,
      "loss": 11.094,
      "loss/aux_loss": 0.0480797715485096,
      "loss/crossentropy": 2.630698436498642,
      "loss/logits": 0.8169205486774445,
      "step": 45690
    },
    {
      "epoch": 0.457,
      "grad_norm": 15.0,
      "grad_norm_var": 0.6380208333333334,
      "learning_rate": 0.0003,
      "loss": 11.2579,
      "loss/aux_loss": 0.048068609088659286,
      "loss/crossentropy": 2.7162768125534056,
      "loss/logits": 0.8566293030977249,
      "step": 45700
    },
    {
      "epoch": 0.4571,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.6869791666666667,
      "learning_rate": 0.0003,
      "loss": 11.0956,
      "loss/aux_loss": 0.048069410026073456,
      "loss/crossentropy": 2.666369599103928,
      "loss/logits": 0.846130108833313,
      "step": 45710
    },
    {
      "epoch": 0.4572,
      "grad_norm": 14.875,
      "grad_norm_var": 0.4239420572916667,
      "learning_rate": 0.0003,
      "loss": 11.3907,
      "loss/aux_loss": 0.04808373041450977,
      "loss/crossentropy": 2.7648482978343965,
      "loss/logits": 0.8433201760053635,
      "step": 45720
    },
    {
      "epoch": 0.4573,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.3359375,
      "learning_rate": 0.0003,
      "loss": 10.9668,
      "loss/aux_loss": 0.04806965310126543,
      "loss/crossentropy": 2.628385591506958,
      "loss/logits": 0.8232957303524018,
      "step": 45730
    },
    {
      "epoch": 0.4574,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.17526041666666667,
      "learning_rate": 0.0003,
      "loss": 11.028,
      "loss/aux_loss": 0.0480685856193304,
      "loss/crossentropy": 2.8586939454078673,
      "loss/logits": 0.8752603858709336,
      "step": 45740
    },
    {
      "epoch": 0.4575,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.039697265625,
      "learning_rate": 0.0003,
      "loss": 11.2328,
      "loss/aux_loss": 0.04807407390326261,
      "loss/crossentropy": 2.7650853276252745,
      "loss/logits": 0.8581269145011902,
      "step": 45750
    },
    {
      "epoch": 0.4576,
      "grad_norm": 14.25,
      "grad_norm_var": 1.2577962239583333,
      "learning_rate": 0.0003,
      "loss": 11.2529,
      "loss/aux_loss": 0.04806558396667242,
      "loss/crossentropy": 2.670504766702652,
      "loss/logits": 0.8334173530340194,
      "step": 45760
    },
    {
      "epoch": 0.4577,
      "grad_norm": 13.25,
      "grad_norm_var": 0.2718098958333333,
      "learning_rate": 0.0003,
      "loss": 10.9535,
      "loss/aux_loss": 0.04807530362159014,
      "loss/crossentropy": 2.6863086402416227,
      "loss/logits": 0.7867847800254821,
      "step": 45770
    },
    {
      "epoch": 0.4578,
      "grad_norm": 14.75,
      "grad_norm_var": 0.29739583333333336,
      "learning_rate": 0.0003,
      "loss": 11.0572,
      "loss/aux_loss": 0.04807478487491608,
      "loss/crossentropy": 2.7828167259693144,
      "loss/logits": 0.8462360620498657,
      "step": 45780
    },
    {
      "epoch": 0.4579,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5660807291666666,
      "learning_rate": 0.0003,
      "loss": 11.212,
      "loss/aux_loss": 0.04808699581772089,
      "loss/crossentropy": 2.7481481969356536,
      "loss/logits": 0.8268178194761276,
      "step": 45790
    },
    {
      "epoch": 0.458,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.563525390625,
      "learning_rate": 0.0003,
      "loss": 11.1529,
      "loss/aux_loss": 0.0480684332549572,
      "loss/crossentropy": 2.6542268633842467,
      "loss/logits": 0.8398558348417282,
      "step": 45800
    },
    {
      "epoch": 0.4581,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.570556640625,
      "learning_rate": 0.0003,
      "loss": 11.0782,
      "loss/aux_loss": 0.04807002916932106,
      "loss/crossentropy": 2.724322813749313,
      "loss/logits": 0.8166536599397659,
      "step": 45810
    },
    {
      "epoch": 0.4582,
      "grad_norm": 15.25,
      "grad_norm_var": 0.9817545572916667,
      "learning_rate": 0.0003,
      "loss": 11.1127,
      "loss/aux_loss": 0.04808499440550804,
      "loss/crossentropy": 2.623278909921646,
      "loss/logits": 0.8362865537405014,
      "step": 45820
    },
    {
      "epoch": 0.4583,
      "grad_norm": 14.875,
      "grad_norm_var": 1.3544270833333334,
      "learning_rate": 0.0003,
      "loss": 11.1638,
      "loss/aux_loss": 0.048072373308241365,
      "loss/crossentropy": 2.7822245001792907,
      "loss/logits": 0.8362233757972717,
      "step": 45830
    },
    {
      "epoch": 0.4584,
      "grad_norm": 15.25,
      "grad_norm_var": 0.7874837239583333,
      "learning_rate": 0.0003,
      "loss": 11.0392,
      "loss/aux_loss": 0.04805925581604242,
      "loss/crossentropy": 2.83905189037323,
      "loss/logits": 0.8411778301000595,
      "step": 45840
    },
    {
      "epoch": 0.4585,
      "grad_norm": 14.0,
      "grad_norm_var": 0.319384765625,
      "learning_rate": 0.0003,
      "loss": 11.136,
      "loss/aux_loss": 0.048078327998518945,
      "loss/crossentropy": 2.6659455597400665,
      "loss/logits": 0.8175705790519714,
      "step": 45850
    },
    {
      "epoch": 0.4586,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.1556640625,
      "learning_rate": 0.0003,
      "loss": 11.1928,
      "loss/aux_loss": 0.04805846642702818,
      "loss/crossentropy": 2.7064037203788756,
      "loss/logits": 0.8587689280509949,
      "step": 45860
    },
    {
      "epoch": 0.4587,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.6977701822916667,
      "learning_rate": 0.0003,
      "loss": 11.2205,
      "loss/aux_loss": 0.04808104075491428,
      "loss/crossentropy": 2.6719759106636047,
      "loss/logits": 0.8492055386304855,
      "step": 45870
    },
    {
      "epoch": 0.4588,
      "grad_norm": 14.1875,
      "grad_norm_var": 68.06521809895834,
      "learning_rate": 0.0003,
      "loss": 11.3008,
      "loss/aux_loss": 0.048071546480059624,
      "loss/crossentropy": 2.944806432723999,
      "loss/logits": 0.8660283535718918,
      "step": 45880
    },
    {
      "epoch": 0.4589,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.8034993489583333,
      "learning_rate": 0.0003,
      "loss": 11.1377,
      "loss/aux_loss": 0.04807901885360479,
      "loss/crossentropy": 2.7466224670410155,
      "loss/logits": 0.8269301950931549,
      "step": 45890
    },
    {
      "epoch": 0.459,
      "grad_norm": 14.5,
      "grad_norm_var": 1.1934733072916666,
      "learning_rate": 0.0003,
      "loss": 10.9827,
      "loss/aux_loss": 0.04806364104151726,
      "loss/crossentropy": 2.5919273018836977,
      "loss/logits": 0.8305024951696396,
      "step": 45900
    },
    {
      "epoch": 0.4591,
      "grad_norm": 14.75,
      "grad_norm_var": 0.9688639322916667,
      "learning_rate": 0.0003,
      "loss": 11.1109,
      "loss/aux_loss": 0.04807860106229782,
      "loss/crossentropy": 2.6946555733680726,
      "loss/logits": 0.8430137366056443,
      "step": 45910
    },
    {
      "epoch": 0.4592,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5634765625,
      "learning_rate": 0.0003,
      "loss": 10.9809,
      "loss/aux_loss": 0.048061893321573734,
      "loss/crossentropy": 2.7854873657226564,
      "loss/logits": 0.8397706598043442,
      "step": 45920
    },
    {
      "epoch": 0.4593,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.615869140625,
      "learning_rate": 0.0003,
      "loss": 11.193,
      "loss/aux_loss": 0.04807352740317583,
      "loss/crossentropy": 2.7639912247657774,
      "loss/logits": 0.8295485734939575,
      "step": 45930
    },
    {
      "epoch": 0.4594,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.585400390625,
      "learning_rate": 0.0003,
      "loss": 11.0833,
      "loss/aux_loss": 0.04807315729558468,
      "loss/crossentropy": 2.7072408556938172,
      "loss/logits": 0.83205626308918,
      "step": 45940
    },
    {
      "epoch": 0.4595,
      "grad_norm": 13.375,
      "grad_norm_var": 0.324462890625,
      "learning_rate": 0.0003,
      "loss": 11.1237,
      "loss/aux_loss": 0.04807840902358294,
      "loss/crossentropy": 2.775273883342743,
      "loss/logits": 0.8464349508285522,
      "step": 45950
    },
    {
      "epoch": 0.4596,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.7369791666666666,
      "learning_rate": 0.0003,
      "loss": 11.1625,
      "loss/aux_loss": 0.048066251538693906,
      "loss/crossentropy": 2.761694145202637,
      "loss/logits": 0.8378835052251816,
      "step": 45960
    },
    {
      "epoch": 0.4597,
      "grad_norm": 13.875,
      "grad_norm_var": 0.39453125,
      "learning_rate": 0.0003,
      "loss": 11.16,
      "loss/aux_loss": 0.048080692254006865,
      "loss/crossentropy": 2.6108572721481322,
      "loss/logits": 0.8397493064403534,
      "step": 45970
    },
    {
      "epoch": 0.4598,
      "grad_norm": 14.25,
      "grad_norm_var": 0.30572916666666666,
      "learning_rate": 0.0003,
      "loss": 11.1456,
      "loss/aux_loss": 0.04807419683784246,
      "loss/crossentropy": 2.7630624175071716,
      "loss/logits": 0.8382513612508774,
      "step": 45980
    },
    {
      "epoch": 0.4599,
      "grad_norm": 13.875,
      "grad_norm_var": 0.295556640625,
      "learning_rate": 0.0003,
      "loss": 11.0327,
      "loss/aux_loss": 0.048076769709587096,
      "loss/crossentropy": 2.7021873712539675,
      "loss/logits": 0.8546818345785141,
      "step": 45990
    },
    {
      "epoch": 0.46,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.33932291666666664,
      "learning_rate": 0.0003,
      "loss": 11.1386,
      "loss/aux_loss": 0.04808690138161183,
      "loss/crossentropy": 2.621007192134857,
      "loss/logits": 0.8594667464494705,
      "step": 46000
    },
    {
      "epoch": 0.4601,
      "grad_norm": 17.5,
      "grad_norm_var": 0.825,
      "learning_rate": 0.0003,
      "loss": 11.2569,
      "loss/aux_loss": 0.04806713555008173,
      "loss/crossentropy": 2.6976438403129577,
      "loss/logits": 0.8213419556617737,
      "step": 46010
    },
    {
      "epoch": 0.4602,
      "grad_norm": 13.875,
      "grad_norm_var": 1.0632649739583333,
      "learning_rate": 0.0003,
      "loss": 11.113,
      "loss/aux_loss": 0.048088106140494344,
      "loss/crossentropy": 2.520746982097626,
      "loss/logits": 0.8219372004270553,
      "step": 46020
    },
    {
      "epoch": 0.4603,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.590478515625,
      "learning_rate": 0.0003,
      "loss": 11.2881,
      "loss/aux_loss": 0.048078617081046104,
      "loss/crossentropy": 2.840721619129181,
      "loss/logits": 0.8715362250804901,
      "step": 46030
    },
    {
      "epoch": 0.4604,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.7445149739583333,
      "learning_rate": 0.0003,
      "loss": 10.9794,
      "loss/aux_loss": 0.048061452060937884,
      "loss/crossentropy": 2.6260744273662566,
      "loss/logits": 0.8213737875223159,
      "step": 46040
    },
    {
      "epoch": 0.4605,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.2738118489583333,
      "learning_rate": 0.0003,
      "loss": 11.3335,
      "loss/aux_loss": 0.048074982687830926,
      "loss/crossentropy": 2.783993864059448,
      "loss/logits": 0.8809378027915955,
      "step": 46050
    },
    {
      "epoch": 0.4606,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.7400390625,
      "learning_rate": 0.0003,
      "loss": 11.1385,
      "loss/aux_loss": 0.0480780715122819,
      "loss/crossentropy": 2.767115068435669,
      "loss/logits": 0.8657530009746551,
      "step": 46060
    },
    {
      "epoch": 0.4607,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.1791015625,
      "learning_rate": 0.0003,
      "loss": 11.0435,
      "loss/aux_loss": 0.04808122143149376,
      "loss/crossentropy": 2.465041011571884,
      "loss/logits": 0.8050199329853058,
      "step": 46070
    },
    {
      "epoch": 0.4608,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.37135416666666665,
      "learning_rate": 0.0003,
      "loss": 11.1579,
      "loss/aux_loss": 0.04807000420987606,
      "loss/crossentropy": 2.614718121290207,
      "loss/logits": 0.8386980295181274,
      "step": 46080
    },
    {
      "epoch": 0.4609,
      "grad_norm": 14.8125,
      "grad_norm_var": 2.321728515625,
      "learning_rate": 0.0003,
      "loss": 11.1314,
      "loss/aux_loss": 0.0480863306671381,
      "loss/crossentropy": 2.7782493591308595,
      "loss/logits": 0.8749098181724548,
      "step": 46090
    },
    {
      "epoch": 0.461,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5106770833333333,
      "learning_rate": 0.0003,
      "loss": 11.1323,
      "loss/aux_loss": 0.048072931729257105,
      "loss/crossentropy": 2.8069660782814028,
      "loss/logits": 0.827642685174942,
      "step": 46100
    },
    {
      "epoch": 0.4611,
      "grad_norm": 13.75,
      "grad_norm_var": 0.5239583333333333,
      "learning_rate": 0.0003,
      "loss": 11.1249,
      "loss/aux_loss": 0.048074934631586075,
      "loss/crossentropy": 2.5645545959472655,
      "loss/logits": 0.8122676819562912,
      "step": 46110
    },
    {
      "epoch": 0.4612,
      "grad_norm": 14.375,
      "grad_norm_var": 0.8458170572916667,
      "learning_rate": 0.0003,
      "loss": 11.1389,
      "loss/aux_loss": 0.04807667378336191,
      "loss/crossentropy": 2.7756105303764342,
      "loss/logits": 0.8374488890171051,
      "step": 46120
    },
    {
      "epoch": 0.4613,
      "grad_norm": 14.5,
      "grad_norm_var": 0.643212890625,
      "learning_rate": 0.0003,
      "loss": 11.1476,
      "loss/aux_loss": 0.048084722831845284,
      "loss/crossentropy": 2.862342894077301,
      "loss/logits": 0.8817748308181763,
      "step": 46130
    },
    {
      "epoch": 0.4614,
      "grad_norm": 19.375,
      "grad_norm_var": 185.560791015625,
      "learning_rate": 0.0003,
      "loss": 11.1808,
      "loss/aux_loss": 0.048067561350762844,
      "loss/crossentropy": 2.596503585577011,
      "loss/logits": 0.8253944367170334,
      "step": 46140
    },
    {
      "epoch": 0.4615,
      "grad_norm": 14.5,
      "grad_norm_var": 185.8166015625,
      "learning_rate": 0.0003,
      "loss": 11.1384,
      "loss/aux_loss": 0.04807464778423309,
      "loss/crossentropy": 2.654829728603363,
      "loss/logits": 0.8233345150947571,
      "step": 46150
    },
    {
      "epoch": 0.4616,
      "grad_norm": 17.125,
      "grad_norm_var": 0.84609375,
      "learning_rate": 0.0003,
      "loss": 11.0069,
      "loss/aux_loss": 0.048072910867631435,
      "loss/crossentropy": 2.758739471435547,
      "loss/logits": 0.8712568372488022,
      "step": 46160
    },
    {
      "epoch": 0.4617,
      "grad_norm": 13.875,
      "grad_norm_var": 0.951025390625,
      "learning_rate": 0.0003,
      "loss": 11.0499,
      "loss/aux_loss": 0.0480669179931283,
      "loss/crossentropy": 2.609746116399765,
      "loss/logits": 0.8174644142389298,
      "step": 46170
    },
    {
      "epoch": 0.4618,
      "grad_norm": 16.5,
      "grad_norm_var": 0.5794270833333334,
      "learning_rate": 0.0003,
      "loss": 11.1406,
      "loss/aux_loss": 0.04809269942343235,
      "loss/crossentropy": 2.7125259757041933,
      "loss/logits": 0.829924201965332,
      "step": 46180
    },
    {
      "epoch": 0.4619,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.4805826822916667,
      "learning_rate": 0.0003,
      "loss": 11.194,
      "loss/aux_loss": 0.04806003961712122,
      "loss/crossentropy": 2.7480635344982147,
      "loss/logits": 0.844669246673584,
      "step": 46190
    },
    {
      "epoch": 0.462,
      "grad_norm": 14.25,
      "grad_norm_var": 0.4934895833333333,
      "learning_rate": 0.0003,
      "loss": 11.2594,
      "loss/aux_loss": 0.0480703953653574,
      "loss/crossentropy": 2.7278804779052734,
      "loss/logits": 0.8578185975551605,
      "step": 46200
    },
    {
      "epoch": 0.4621,
      "grad_norm": 15.125,
      "grad_norm_var": 0.4827473958333333,
      "learning_rate": 0.0003,
      "loss": 11.1531,
      "loss/aux_loss": 0.04808447137475014,
      "loss/crossentropy": 2.583157116174698,
      "loss/logits": 0.8229734599590302,
      "step": 46210
    },
    {
      "epoch": 0.4622,
      "grad_norm": 14.375,
      "grad_norm_var": 0.181884765625,
      "learning_rate": 0.0003,
      "loss": 11.2071,
      "loss/aux_loss": 0.048074091970920566,
      "loss/crossentropy": 2.6130159497261047,
      "loss/logits": 0.8274956196546555,
      "step": 46220
    },
    {
      "epoch": 0.4623,
      "grad_norm": 14.875,
      "grad_norm_var": 0.326806640625,
      "learning_rate": 0.0003,
      "loss": 11.1961,
      "loss/aux_loss": 0.04808221161365509,
      "loss/crossentropy": 2.7028493165969847,
      "loss/logits": 0.8648825436830521,
      "step": 46230
    },
    {
      "epoch": 0.4624,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.405712890625,
      "learning_rate": 0.0003,
      "loss": 11.0438,
      "loss/aux_loss": 0.04807335082441568,
      "loss/crossentropy": 2.5999584436416625,
      "loss/logits": 0.8028821110725403,
      "step": 46240
    },
    {
      "epoch": 0.4625,
      "grad_norm": 13.0,
      "grad_norm_var": 0.47263997395833335,
      "learning_rate": 0.0003,
      "loss": 11.0311,
      "loss/aux_loss": 0.04807595033198595,
      "loss/crossentropy": 2.7554810464382173,
      "loss/logits": 0.841679847240448,
      "step": 46250
    },
    {
      "epoch": 0.4626,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.47858072916666666,
      "learning_rate": 0.0003,
      "loss": 11.0339,
      "loss/aux_loss": 0.04807290639728308,
      "loss/crossentropy": 2.826436698436737,
      "loss/logits": 0.8312930345535279,
      "step": 46260
    },
    {
      "epoch": 0.4627,
      "grad_norm": 14.875,
      "grad_norm_var": 0.5843587239583333,
      "learning_rate": 0.0003,
      "loss": 11.194,
      "loss/aux_loss": 0.04807629976421594,
      "loss/crossentropy": 2.6330519676208497,
      "loss/logits": 0.8189602941274643,
      "step": 46270
    },
    {
      "epoch": 0.4628,
      "grad_norm": 14.0,
      "grad_norm_var": 0.36912434895833335,
      "learning_rate": 0.0003,
      "loss": 11.1749,
      "loss/aux_loss": 0.048078407719731334,
      "loss/crossentropy": 2.704203653335571,
      "loss/logits": 0.8706455767154694,
      "step": 46280
    },
    {
      "epoch": 0.4629,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.361181640625,
      "learning_rate": 0.0003,
      "loss": 11.0766,
      "loss/aux_loss": 0.04808397404849529,
      "loss/crossentropy": 2.679097306728363,
      "loss/logits": 0.8224625796079635,
      "step": 46290
    },
    {
      "epoch": 0.463,
      "grad_norm": 14.25,
      "grad_norm_var": 0.33982747395833335,
      "learning_rate": 0.0003,
      "loss": 11.0087,
      "loss/aux_loss": 0.04806742705404758,
      "loss/crossentropy": 2.6513377904891966,
      "loss/logits": 0.7877238169312477,
      "step": 46300
    },
    {
      "epoch": 0.4631,
      "grad_norm": 14.875,
      "grad_norm_var": 0.46484375,
      "learning_rate": 0.0003,
      "loss": 11.1393,
      "loss/aux_loss": 0.04807655327022076,
      "loss/crossentropy": 2.542707550525665,
      "loss/logits": 0.8172414094209671,
      "step": 46310
    },
    {
      "epoch": 0.4632,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.9903483072916667,
      "learning_rate": 0.0003,
      "loss": 11.1643,
      "loss/aux_loss": 0.04806794133037329,
      "loss/crossentropy": 2.8341934442520142,
      "loss/logits": 0.8416117280721664,
      "step": 46320
    },
    {
      "epoch": 0.4633,
      "grad_norm": 14.25,
      "grad_norm_var": 0.546875,
      "learning_rate": 0.0003,
      "loss": 11.1235,
      "loss/aux_loss": 0.04808292984962463,
      "loss/crossentropy": 2.7436033606529238,
      "loss/logits": 0.8215555369853973,
      "step": 46330
    },
    {
      "epoch": 0.4634,
      "grad_norm": 15.125,
      "grad_norm_var": 0.32472330729166665,
      "learning_rate": 0.0003,
      "loss": 11.4896,
      "loss/aux_loss": 0.04807242415845394,
      "loss/crossentropy": 2.7257355570793154,
      "loss/logits": 0.8585422575473786,
      "step": 46340
    },
    {
      "epoch": 0.4635,
      "grad_norm": 14.1875,
      "grad_norm_var": 7.888004557291667,
      "learning_rate": 0.0003,
      "loss": 11.112,
      "loss/aux_loss": 0.0480771217495203,
      "loss/crossentropy": 2.5921223521232606,
      "loss/logits": 0.8013135939836502,
      "step": 46350
    },
    {
      "epoch": 0.4636,
      "grad_norm": 15.625,
      "grad_norm_var": 6.84375,
      "learning_rate": 0.0003,
      "loss": 11.2715,
      "loss/aux_loss": 0.04807939790189266,
      "loss/crossentropy": 2.74160099029541,
      "loss/logits": 0.8368293017148971,
      "step": 46360
    },
    {
      "epoch": 0.4637,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.4964680989583333,
      "learning_rate": 0.0003,
      "loss": 11.2342,
      "loss/aux_loss": 0.04807531572878361,
      "loss/crossentropy": 2.690195268392563,
      "loss/logits": 0.8286543309688568,
      "step": 46370
    },
    {
      "epoch": 0.4638,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.37161458333333336,
      "learning_rate": 0.0003,
      "loss": 11.1557,
      "loss/aux_loss": 0.048067241348326205,
      "loss/crossentropy": 2.800563335418701,
      "loss/logits": 0.8472881704568863,
      "step": 46380
    },
    {
      "epoch": 0.4639,
      "grad_norm": 14.875,
      "grad_norm_var": 0.4212890625,
      "learning_rate": 0.0003,
      "loss": 11.2161,
      "loss/aux_loss": 0.048077549785375595,
      "loss/crossentropy": 2.8395881056785583,
      "loss/logits": 0.8345950871706009,
      "step": 46390
    },
    {
      "epoch": 0.464,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.580712890625,
      "learning_rate": 0.0003,
      "loss": 11.2054,
      "loss/aux_loss": 0.048074125126004216,
      "loss/crossentropy": 2.6557404458522798,
      "loss/logits": 0.8473072737455368,
      "step": 46400
    },
    {
      "epoch": 0.4641,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5900390625,
      "learning_rate": 0.0003,
      "loss": 11.1693,
      "loss/aux_loss": 0.04806842841207981,
      "loss/crossentropy": 2.796481668949127,
      "loss/logits": 0.8443670809268952,
      "step": 46410
    },
    {
      "epoch": 0.4642,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.6135416666666667,
      "learning_rate": 0.0003,
      "loss": 11.1548,
      "loss/aux_loss": 0.048084372840821746,
      "loss/crossentropy": 2.760413956642151,
      "loss/logits": 0.8425527215003967,
      "step": 46420
    },
    {
      "epoch": 0.4643,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.633056640625,
      "learning_rate": 0.0003,
      "loss": 11.2473,
      "loss/aux_loss": 0.048075103759765626,
      "loss/crossentropy": 2.7352624416351317,
      "loss/logits": 0.8507170170545578,
      "step": 46430
    },
    {
      "epoch": 0.4644,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.6200358072916667,
      "learning_rate": 0.0003,
      "loss": 11.2188,
      "loss/aux_loss": 0.048076110705733296,
      "loss/crossentropy": 2.759999096393585,
      "loss/logits": 0.8683469414710998,
      "step": 46440
    },
    {
      "epoch": 0.4645,
      "grad_norm": 14.0,
      "grad_norm_var": 0.44296875,
      "learning_rate": 0.0003,
      "loss": 11.1575,
      "loss/aux_loss": 0.04807174541056156,
      "loss/crossentropy": 2.7848057746887207,
      "loss/logits": 0.8197889029979706,
      "step": 46450
    },
    {
      "epoch": 0.4646,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5098307291666667,
      "learning_rate": 0.0003,
      "loss": 11.0128,
      "loss/aux_loss": 0.04808044023811817,
      "loss/crossentropy": 2.6938924133777618,
      "loss/logits": 0.8240805625915527,
      "step": 46460
    },
    {
      "epoch": 0.4647,
      "grad_norm": 14.0,
      "grad_norm_var": 0.403125,
      "learning_rate": 0.0003,
      "loss": 11.2575,
      "loss/aux_loss": 0.04806338362395764,
      "loss/crossentropy": 2.746562212705612,
      "loss/logits": 0.8269091069698333,
      "step": 46470
    },
    {
      "epoch": 0.4648,
      "grad_norm": 13.125,
      "grad_norm_var": 0.37057291666666664,
      "learning_rate": 0.0003,
      "loss": 11.1455,
      "loss/aux_loss": 0.048089843057096,
      "loss/crossentropy": 2.7687614023685456,
      "loss/logits": 0.8314522951841354,
      "step": 46480
    },
    {
      "epoch": 0.4649,
      "grad_norm": 13.6875,
      "grad_norm_var": 60.507747395833334,
      "learning_rate": 0.0003,
      "loss": 11.321,
      "loss/aux_loss": 0.04807740245014429,
      "loss/crossentropy": 2.713161385059357,
      "loss/logits": 0.8670831322669983,
      "step": 46490
    },
    {
      "epoch": 0.465,
      "grad_norm": 15.75,
      "grad_norm_var": 59.106770833333336,
      "learning_rate": 0.0003,
      "loss": 11.1114,
      "loss/aux_loss": 0.04807022921741009,
      "loss/crossentropy": 2.7916195511817934,
      "loss/logits": 0.8448772758245469,
      "step": 46500
    },
    {
      "epoch": 0.4651,
      "grad_norm": 14.375,
      "grad_norm_var": 0.8102701822916667,
      "learning_rate": 0.0003,
      "loss": 11.2403,
      "loss/aux_loss": 0.048087266460061076,
      "loss/crossentropy": 2.7339360535144808,
      "loss/logits": 0.8473565667867661,
      "step": 46510
    },
    {
      "epoch": 0.4652,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.5085774739583333,
      "learning_rate": 0.0003,
      "loss": 11.1092,
      "loss/aux_loss": 0.04807992558926344,
      "loss/crossentropy": 2.879719001054764,
      "loss/logits": 0.8366673439741135,
      "step": 46520
    },
    {
      "epoch": 0.4653,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.065478515625,
      "learning_rate": 0.0003,
      "loss": 11.0443,
      "loss/aux_loss": 0.04807272665202618,
      "loss/crossentropy": 2.8038435697555544,
      "loss/logits": 0.8307929456233978,
      "step": 46530
    },
    {
      "epoch": 0.4654,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.0056640625,
      "learning_rate": 0.0003,
      "loss": 11.02,
      "loss/aux_loss": 0.048068790882825854,
      "loss/crossentropy": 2.8201247453689575,
      "loss/logits": 0.8609393984079361,
      "step": 46540
    },
    {
      "epoch": 0.4655,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.7639973958333334,
      "learning_rate": 0.0003,
      "loss": 10.9846,
      "loss/aux_loss": 0.04807808455079794,
      "loss/crossentropy": 2.641385281085968,
      "loss/logits": 0.8092559695243835,
      "step": 46550
    },
    {
      "epoch": 0.4656,
      "grad_norm": 14.75,
      "grad_norm_var": 0.5659993489583334,
      "learning_rate": 0.0003,
      "loss": 11.0114,
      "loss/aux_loss": 0.048075922578573224,
      "loss/crossentropy": 2.549112868309021,
      "loss/logits": 0.7909631967544556,
      "step": 46560
    },
    {
      "epoch": 0.4657,
      "grad_norm": 14.875,
      "grad_norm_var": 0.309375,
      "learning_rate": 0.0003,
      "loss": 11.1391,
      "loss/aux_loss": 0.04808427933603525,
      "loss/crossentropy": 2.796935510635376,
      "loss/logits": 0.8834913015365601,
      "step": 46570
    },
    {
      "epoch": 0.4658,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.385400390625,
      "learning_rate": 0.0003,
      "loss": 10.9412,
      "loss/aux_loss": 0.04806541427969933,
      "loss/crossentropy": 2.649865931272507,
      "loss/logits": 0.8530022531747818,
      "step": 46580
    },
    {
      "epoch": 0.4659,
      "grad_norm": 13.625,
      "grad_norm_var": 0.34609375,
      "learning_rate": 0.0003,
      "loss": 11.3094,
      "loss/aux_loss": 0.04808234199881554,
      "loss/crossentropy": 2.7041312396526336,
      "loss/logits": 0.8479943692684173,
      "step": 46590
    },
    {
      "epoch": 0.466,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.37810872395833334,
      "learning_rate": 0.0003,
      "loss": 11.2404,
      "loss/aux_loss": 0.04807773306965828,
      "loss/crossentropy": 2.6949519872665406,
      "loss/logits": 0.828350055217743,
      "step": 46600
    },
    {
      "epoch": 0.4661,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5723307291666667,
      "learning_rate": 0.0003,
      "loss": 11.1212,
      "loss/aux_loss": 0.048074806481599806,
      "loss/crossentropy": 2.8176488399505617,
      "loss/logits": 0.8534007757902146,
      "step": 46610
    },
    {
      "epoch": 0.4662,
      "grad_norm": 15.625,
      "grad_norm_var": 0.8304524739583333,
      "learning_rate": 0.0003,
      "loss": 10.9068,
      "loss/aux_loss": 0.04807550571858883,
      "loss/crossentropy": 2.683753031492233,
      "loss/logits": 0.8132462590932846,
      "step": 46620
    },
    {
      "epoch": 0.4663,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.7883951822916667,
      "learning_rate": 0.0003,
      "loss": 11.1563,
      "loss/aux_loss": 0.04807454776018858,
      "loss/crossentropy": 2.742726969718933,
      "loss/logits": 0.8348707377910614,
      "step": 46630
    },
    {
      "epoch": 0.4664,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.3150390625,
      "learning_rate": 0.0003,
      "loss": 11.1891,
      "loss/aux_loss": 0.04808441940695048,
      "loss/crossentropy": 2.798567849397659,
      "loss/logits": 0.8553645014762878,
      "step": 46640
    },
    {
      "epoch": 0.4665,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.252978515625,
      "learning_rate": 0.0003,
      "loss": 11.0609,
      "loss/aux_loss": 0.04807608053088188,
      "loss/crossentropy": 2.6830251634120943,
      "loss/logits": 0.8196864813566208,
      "step": 46650
    },
    {
      "epoch": 0.4666,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.5020833333333333,
      "learning_rate": 0.0003,
      "loss": 11.0233,
      "loss/aux_loss": 0.048064926825463775,
      "loss/crossentropy": 2.7553923606872557,
      "loss/logits": 0.853671881556511,
      "step": 46660
    },
    {
      "epoch": 0.4667,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.645166015625,
      "learning_rate": 0.0003,
      "loss": 11.1551,
      "loss/aux_loss": 0.0480745829641819,
      "loss/crossentropy": 2.7849517345428465,
      "loss/logits": 0.8592245787382126,
      "step": 46670
    },
    {
      "epoch": 0.4668,
      "grad_norm": 13.5,
      "grad_norm_var": 0.5312337239583333,
      "learning_rate": 0.0003,
      "loss": 11.0834,
      "loss/aux_loss": 0.04807850234210491,
      "loss/crossentropy": 2.877470552921295,
      "loss/logits": 0.8332111418247223,
      "step": 46680
    },
    {
      "epoch": 0.4669,
      "grad_norm": 15.375,
      "grad_norm_var": 0.5258951822916667,
      "learning_rate": 0.0003,
      "loss": 11.1315,
      "loss/aux_loss": 0.048073893412947655,
      "loss/crossentropy": 2.6425564885139465,
      "loss/logits": 0.834293258190155,
      "step": 46690
    },
    {
      "epoch": 0.467,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.4778645833333333,
      "learning_rate": 0.0003,
      "loss": 11.1072,
      "loss/aux_loss": 0.048084541223943233,
      "loss/crossentropy": 2.7174774527549745,
      "loss/logits": 0.8334024339914322,
      "step": 46700
    },
    {
      "epoch": 0.4671,
      "grad_norm": 14.5,
      "grad_norm_var": 0.657275390625,
      "learning_rate": 0.0003,
      "loss": 11.0016,
      "loss/aux_loss": 0.04806803483515978,
      "loss/crossentropy": 2.5842558205127717,
      "loss/logits": 0.8057064324617386,
      "step": 46710
    },
    {
      "epoch": 0.4672,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.7184733072916667,
      "learning_rate": 0.0003,
      "loss": 11.0592,
      "loss/aux_loss": 0.04807887524366379,
      "loss/crossentropy": 2.8033472537994384,
      "loss/logits": 0.827720096707344,
      "step": 46720
    },
    {
      "epoch": 0.4673,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.1671223958333334,
      "learning_rate": 0.0003,
      "loss": 11.0515,
      "loss/aux_loss": 0.04807654283940792,
      "loss/crossentropy": 2.6938624501228334,
      "loss/logits": 0.8351145356893539,
      "step": 46730
    },
    {
      "epoch": 0.4674,
      "grad_norm": 14.125,
      "grad_norm_var": 0.8932291666666666,
      "learning_rate": 0.0003,
      "loss": 11.1301,
      "loss/aux_loss": 0.0480727557092905,
      "loss/crossentropy": 2.7404383420944214,
      "loss/logits": 0.8500682055950165,
      "step": 46740
    },
    {
      "epoch": 0.4675,
      "grad_norm": 15.25,
      "grad_norm_var": 0.9286458333333333,
      "learning_rate": 0.0003,
      "loss": 11.1978,
      "loss/aux_loss": 0.04807423073798418,
      "loss/crossentropy": 2.6602605104446413,
      "loss/logits": 0.847180300951004,
      "step": 46750
    },
    {
      "epoch": 0.4676,
      "grad_norm": 14.375,
      "grad_norm_var": 0.8609375,
      "learning_rate": 0.0003,
      "loss": 11.2002,
      "loss/aux_loss": 0.048065530881285665,
      "loss/crossentropy": 2.704084634780884,
      "loss/logits": 0.8421103477478027,
      "step": 46760
    },
    {
      "epoch": 0.4677,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.30859375,
      "learning_rate": 0.0003,
      "loss": 11.1246,
      "loss/aux_loss": 0.048081099055707455,
      "loss/crossentropy": 2.7489688992500305,
      "loss/logits": 0.8322398364543915,
      "step": 46770
    },
    {
      "epoch": 0.4678,
      "grad_norm": 13.5,
      "grad_norm_var": 0.24412434895833332,
      "learning_rate": 0.0003,
      "loss": 10.8646,
      "loss/aux_loss": 0.04807508103549481,
      "loss/crossentropy": 2.630194664001465,
      "loss/logits": 0.8167033612728118,
      "step": 46780
    },
    {
      "epoch": 0.4679,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.66875,
      "learning_rate": 0.0003,
      "loss": 11.1296,
      "loss/aux_loss": 0.04808248318731785,
      "loss/crossentropy": 2.754181432723999,
      "loss/logits": 0.8682912677526474,
      "step": 46790
    },
    {
      "epoch": 0.468,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.7300618489583334,
      "learning_rate": 0.0003,
      "loss": 11.1366,
      "loss/aux_loss": 0.04807512406259775,
      "loss/crossentropy": 2.807320773601532,
      "loss/logits": 0.8542409300804138,
      "step": 46800
    },
    {
      "epoch": 0.4681,
      "grad_norm": 13.625,
      "grad_norm_var": 0.6877604166666667,
      "learning_rate": 0.0003,
      "loss": 11.0965,
      "loss/aux_loss": 0.04807012528181076,
      "loss/crossentropy": 2.7169011294841767,
      "loss/logits": 0.8518575340509414,
      "step": 46810
    },
    {
      "epoch": 0.4682,
      "grad_norm": 15.0,
      "grad_norm_var": 0.5700358072916667,
      "learning_rate": 0.0003,
      "loss": 11.1799,
      "loss/aux_loss": 0.048083074390888214,
      "loss/crossentropy": 2.6793820321559907,
      "loss/logits": 0.8517037600278854,
      "step": 46820
    },
    {
      "epoch": 0.4683,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.6593098958333333,
      "learning_rate": 0.0003,
      "loss": 10.9502,
      "loss/aux_loss": 0.04807259049266577,
      "loss/crossentropy": 2.71062428355217,
      "loss/logits": 0.8300145417451859,
      "step": 46830
    },
    {
      "epoch": 0.4684,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.7988118489583333,
      "learning_rate": 0.0003,
      "loss": 11.1379,
      "loss/aux_loss": 0.04807367566972971,
      "loss/crossentropy": 2.77940719127655,
      "loss/logits": 0.8435407996177673,
      "step": 46840
    },
    {
      "epoch": 0.4685,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.5723795572916667,
      "learning_rate": 0.0003,
      "loss": 11.0454,
      "loss/aux_loss": 0.048079926520586014,
      "loss/crossentropy": 2.5133470952510835,
      "loss/logits": 0.8150019586086273,
      "step": 46850
    },
    {
      "epoch": 0.4686,
      "grad_norm": 14.0,
      "grad_norm_var": 0.6298014322916666,
      "learning_rate": 0.0003,
      "loss": 11.1473,
      "loss/aux_loss": 0.04806667976081371,
      "loss/crossentropy": 2.8036882996559145,
      "loss/logits": 0.8526762962341309,
      "step": 46860
    },
    {
      "epoch": 0.4687,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.437353515625,
      "learning_rate": 0.0003,
      "loss": 11.0997,
      "loss/aux_loss": 0.04806803800165653,
      "loss/crossentropy": 2.7410527229309083,
      "loss/logits": 0.8402520000934601,
      "step": 46870
    },
    {
      "epoch": 0.4688,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.5257649739583333,
      "learning_rate": 0.0003,
      "loss": 11.2314,
      "loss/aux_loss": 0.0480783374980092,
      "loss/crossentropy": 2.5751788198947905,
      "loss/logits": 0.8502856940031052,
      "step": 46880
    },
    {
      "epoch": 0.4689,
      "grad_norm": 14.625,
      "grad_norm_var": 0.39055989583333334,
      "learning_rate": 0.0003,
      "loss": 11.1735,
      "loss/aux_loss": 0.048073621653020385,
      "loss/crossentropy": 2.7046410202980042,
      "loss/logits": 0.8371324121952057,
      "step": 46890
    },
    {
      "epoch": 0.469,
      "grad_norm": 15.125,
      "grad_norm_var": 0.6059895833333333,
      "learning_rate": 0.0003,
      "loss": 10.9607,
      "loss/aux_loss": 0.04807861391454935,
      "loss/crossentropy": 2.786002492904663,
      "loss/logits": 0.8466158479452133,
      "step": 46900
    },
    {
      "epoch": 0.4691,
      "grad_norm": 14.375,
      "grad_norm_var": 0.49920247395833334,
      "learning_rate": 0.0003,
      "loss": 11.2057,
      "loss/aux_loss": 0.04806822370737791,
      "loss/crossentropy": 2.6618904173374176,
      "loss/logits": 0.8399115055799484,
      "step": 46910
    },
    {
      "epoch": 0.4692,
      "grad_norm": 12.875,
      "grad_norm_var": 0.8572265625,
      "learning_rate": 0.0003,
      "loss": 11.0673,
      "loss/aux_loss": 0.048087282478809355,
      "loss/crossentropy": 2.707621991634369,
      "loss/logits": 0.8286347270011902,
      "step": 46920
    },
    {
      "epoch": 0.4693,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.9629557291666667,
      "learning_rate": 0.0003,
      "loss": 11.0683,
      "loss/aux_loss": 0.048071885108947755,
      "loss/crossentropy": 2.7881909012794495,
      "loss/logits": 0.8593872129917145,
      "step": 46930
    },
    {
      "epoch": 0.4694,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.6229166666666667,
      "learning_rate": 0.0003,
      "loss": 11.2006,
      "loss/aux_loss": 0.048074318841099736,
      "loss/crossentropy": 2.8505053877830506,
      "loss/logits": 0.824359530210495,
      "step": 46940
    },
    {
      "epoch": 0.4695,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.9066243489583333,
      "learning_rate": 0.0003,
      "loss": 10.9586,
      "loss/aux_loss": 0.04807030726224184,
      "loss/crossentropy": 2.7617590546607973,
      "loss/logits": 0.8363817751407623,
      "step": 46950
    },
    {
      "epoch": 0.4696,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.5494140625,
      "learning_rate": 0.0003,
      "loss": 11.2257,
      "loss/aux_loss": 0.048083371855318545,
      "loss/crossentropy": 2.7488768696784973,
      "loss/logits": 0.8112467706203461,
      "step": 46960
    },
    {
      "epoch": 0.4697,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5541015625,
      "learning_rate": 0.0003,
      "loss": 11.1934,
      "loss/aux_loss": 0.048067718744277954,
      "loss/crossentropy": 2.713601952791214,
      "loss/logits": 0.8483431667089463,
      "step": 46970
    },
    {
      "epoch": 0.4698,
      "grad_norm": 14.375,
      "grad_norm_var": 1.0541666666666667,
      "learning_rate": 0.0003,
      "loss": 11.2815,
      "loss/aux_loss": 0.04806978404521942,
      "loss/crossentropy": 2.7652095437049864,
      "loss/logits": 0.899308231472969,
      "step": 46980
    },
    {
      "epoch": 0.4699,
      "grad_norm": 16.5,
      "grad_norm_var": 0.4723307291666667,
      "learning_rate": 0.0003,
      "loss": 11.1383,
      "loss/aux_loss": 0.04807682782411575,
      "loss/crossentropy": 2.7637027978897093,
      "loss/logits": 0.8606138914823532,
      "step": 46990
    },
    {
      "epoch": 0.47,
      "grad_norm": 13.875,
      "grad_norm_var": 0.6843587239583333,
      "learning_rate": 0.0003,
      "loss": 11.0771,
      "loss/aux_loss": 0.04807099532335997,
      "loss/crossentropy": 2.546469062566757,
      "loss/logits": 0.8381029695272446,
      "step": 47000
    },
    {
      "epoch": 0.4701,
      "grad_norm": 13.625,
      "grad_norm_var": 0.7808430989583334,
      "learning_rate": 0.0003,
      "loss": 11.2179,
      "loss/aux_loss": 0.048072867281734946,
      "loss/crossentropy": 2.650752639770508,
      "loss/logits": 0.808814725279808,
      "step": 47010
    },
    {
      "epoch": 0.4702,
      "grad_norm": 15.25,
      "grad_norm_var": 3.489697265625,
      "learning_rate": 0.0003,
      "loss": 11.1539,
      "loss/aux_loss": 0.04807664155960083,
      "loss/crossentropy": 2.579551470279694,
      "loss/logits": 0.8188108772039413,
      "step": 47020
    },
    {
      "epoch": 0.4703,
      "grad_norm": 15.375,
      "grad_norm_var": 3.3722493489583334,
      "learning_rate": 0.0003,
      "loss": 11.1198,
      "loss/aux_loss": 0.04807888753712177,
      "loss/crossentropy": 2.577794688940048,
      "loss/logits": 0.7898141339421272,
      "step": 47030
    },
    {
      "epoch": 0.4704,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.8204264322916667,
      "learning_rate": 0.0003,
      "loss": 10.9596,
      "loss/aux_loss": 0.04807488694787025,
      "loss/crossentropy": 2.592330676317215,
      "loss/logits": 0.8327637195587159,
      "step": 47040
    },
    {
      "epoch": 0.4705,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.6800618489583333,
      "learning_rate": 0.0003,
      "loss": 11.0693,
      "loss/aux_loss": 0.048071105033159256,
      "loss/crossentropy": 2.6126275599002837,
      "loss/logits": 0.7871117860078811,
      "step": 47050
    },
    {
      "epoch": 0.4706,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5578125,
      "learning_rate": 0.0003,
      "loss": 11.225,
      "loss/aux_loss": 0.04807652160525322,
      "loss/crossentropy": 2.8688260078430177,
      "loss/logits": 0.874985545873642,
      "step": 47060
    },
    {
      "epoch": 0.4707,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5534993489583333,
      "learning_rate": 0.0003,
      "loss": 11.0904,
      "loss/aux_loss": 0.04806956704705954,
      "loss/crossentropy": 2.6465198278427122,
      "loss/logits": 0.8147805094718933,
      "step": 47070
    },
    {
      "epoch": 0.4708,
      "grad_norm": 14.375,
      "grad_norm_var": 0.702978515625,
      "learning_rate": 0.0003,
      "loss": 11.1015,
      "loss/aux_loss": 0.04807991813868284,
      "loss/crossentropy": 2.845957559347153,
      "loss/logits": 0.8246800363063812,
      "step": 47080
    },
    {
      "epoch": 0.4709,
      "grad_norm": 15.25,
      "grad_norm_var": 1.0942057291666667,
      "learning_rate": 0.0003,
      "loss": 10.9138,
      "loss/aux_loss": 0.04807828050106764,
      "loss/crossentropy": 2.6598312139511107,
      "loss/logits": 0.7844241559505463,
      "step": 47090
    },
    {
      "epoch": 0.471,
      "grad_norm": 15.0,
      "grad_norm_var": 4.145833333333333,
      "learning_rate": 0.0003,
      "loss": 10.998,
      "loss/aux_loss": 0.0480682672932744,
      "loss/crossentropy": 2.7192655980587004,
      "loss/logits": 0.8166234135627747,
      "step": 47100
    },
    {
      "epoch": 0.4711,
      "grad_norm": 14.5,
      "grad_norm_var": 3.998421223958333,
      "learning_rate": 0.0003,
      "loss": 11.1524,
      "loss/aux_loss": 0.04806790165603161,
      "loss/crossentropy": 2.8544438123703,
      "loss/logits": 0.8227733701467514,
      "step": 47110
    },
    {
      "epoch": 0.4712,
      "grad_norm": 20.375,
      "grad_norm_var": 2.564957682291667,
      "learning_rate": 0.0003,
      "loss": 10.9704,
      "loss/aux_loss": 0.04809897541999817,
      "loss/crossentropy": 2.6712704062461854,
      "loss/logits": 0.8468765825033188,
      "step": 47120
    },
    {
      "epoch": 0.4713,
      "grad_norm": 14.5,
      "grad_norm_var": 2.6884765625,
      "learning_rate": 0.0003,
      "loss": 11.1002,
      "loss/aux_loss": 0.04806103594601154,
      "loss/crossentropy": 2.654213637113571,
      "loss/logits": 0.8358179897069931,
      "step": 47130
    },
    {
      "epoch": 0.4714,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.2447265625,
      "learning_rate": 0.0003,
      "loss": 11.2835,
      "loss/aux_loss": 0.048075387999415395,
      "loss/crossentropy": 2.828604817390442,
      "loss/logits": 0.8241938591003418,
      "step": 47140
    },
    {
      "epoch": 0.4715,
      "grad_norm": 16.125,
      "grad_norm_var": 1.079541015625,
      "learning_rate": 0.0003,
      "loss": 11.092,
      "loss/aux_loss": 0.04808494281023741,
      "loss/crossentropy": 2.693093776702881,
      "loss/logits": 0.8137997329235077,
      "step": 47150
    },
    {
      "epoch": 0.4716,
      "grad_norm": 14.875,
      "grad_norm_var": 0.7993326822916667,
      "learning_rate": 0.0003,
      "loss": 11.0348,
      "loss/aux_loss": 0.04807308670133352,
      "loss/crossentropy": 2.648904633522034,
      "loss/logits": 0.8604849994182586,
      "step": 47160
    },
    {
      "epoch": 0.4717,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.6218098958333333,
      "learning_rate": 0.0003,
      "loss": 11.0803,
      "loss/aux_loss": 0.04807374849915504,
      "loss/crossentropy": 2.6493657648563387,
      "loss/logits": 0.8324615597724915,
      "step": 47170
    },
    {
      "epoch": 0.4718,
      "grad_norm": 15.75,
      "grad_norm_var": 2.496468098958333,
      "learning_rate": 0.0003,
      "loss": 10.9996,
      "loss/aux_loss": 0.048081782087683676,
      "loss/crossentropy": 2.64060292840004,
      "loss/logits": 0.8085512012243271,
      "step": 47180
    },
    {
      "epoch": 0.4719,
      "grad_norm": 14.25,
      "grad_norm_var": 2.939957682291667,
      "learning_rate": 0.0003,
      "loss": 11.111,
      "loss/aux_loss": 0.04806481916457415,
      "loss/crossentropy": 2.6764299035072328,
      "loss/logits": 0.8713664382696151,
      "step": 47190
    },
    {
      "epoch": 0.472,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.23709309895833333,
      "learning_rate": 0.0003,
      "loss": 10.9265,
      "loss/aux_loss": 0.048081744089722635,
      "loss/crossentropy": 2.605439066886902,
      "loss/logits": 0.8055230677127838,
      "step": 47200
    },
    {
      "epoch": 0.4721,
      "grad_norm": 15.125,
      "grad_norm_var": 0.211572265625,
      "learning_rate": 0.0003,
      "loss": 11.0814,
      "loss/aux_loss": 0.048065853863954545,
      "loss/crossentropy": 2.8016534447669983,
      "loss/logits": 0.821602874994278,
      "step": 47210
    },
    {
      "epoch": 0.4722,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.84140625,
      "learning_rate": 0.0003,
      "loss": 11.0479,
      "loss/aux_loss": 0.048074455559253694,
      "loss/crossentropy": 2.6670961678028107,
      "loss/logits": 0.8343064039945602,
      "step": 47220
    },
    {
      "epoch": 0.4723,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.4374837239583333,
      "learning_rate": 0.0003,
      "loss": 11.1253,
      "loss/aux_loss": 0.0480674734339118,
      "loss/crossentropy": 2.7862078309059144,
      "loss/logits": 0.8591863840818406,
      "step": 47230
    },
    {
      "epoch": 0.4724,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.7679524739583333,
      "learning_rate": 0.0003,
      "loss": 11.1595,
      "loss/aux_loss": 0.048076837323606014,
      "loss/crossentropy": 2.742043745517731,
      "loss/logits": 0.8124003469944,
      "step": 47240
    },
    {
      "epoch": 0.4725,
      "grad_norm": 14.5,
      "grad_norm_var": 0.8222493489583333,
      "learning_rate": 0.0003,
      "loss": 11.1575,
      "loss/aux_loss": 0.04806795790791511,
      "loss/crossentropy": 2.688308924436569,
      "loss/logits": 0.8328756958246231,
      "step": 47250
    },
    {
      "epoch": 0.4726,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.24947916666666667,
      "learning_rate": 0.0003,
      "loss": 11.1297,
      "loss/aux_loss": 0.04808314982801676,
      "loss/crossentropy": 2.64586056470871,
      "loss/logits": 0.8115894719958305,
      "step": 47260
    },
    {
      "epoch": 0.4727,
      "grad_norm": 14.875,
      "grad_norm_var": 0.315869140625,
      "learning_rate": 0.0003,
      "loss": 11.1337,
      "loss/aux_loss": 0.048072290048003195,
      "loss/crossentropy": 2.638070636987686,
      "loss/logits": 0.8229748249053955,
      "step": 47270
    },
    {
      "epoch": 0.4728,
      "grad_norm": 15.0,
      "grad_norm_var": 0.5014973958333333,
      "learning_rate": 0.0003,
      "loss": 11.2275,
      "loss/aux_loss": 0.04807377941906452,
      "loss/crossentropy": 2.794324481487274,
      "loss/logits": 0.8639295071363449,
      "step": 47280
    },
    {
      "epoch": 0.4729,
      "grad_norm": 14.625,
      "grad_norm_var": 0.2816243489583333,
      "learning_rate": 0.0003,
      "loss": 11.087,
      "loss/aux_loss": 0.04807295482605696,
      "loss/crossentropy": 2.8186910152435303,
      "loss/logits": 0.8727422952651978,
      "step": 47290
    },
    {
      "epoch": 0.473,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.7311848958333333,
      "learning_rate": 0.0003,
      "loss": 11.0382,
      "loss/aux_loss": 0.04807542134076357,
      "loss/crossentropy": 2.7608199238777162,
      "loss/logits": 0.8439187675714492,
      "step": 47300
    },
    {
      "epoch": 0.4731,
      "grad_norm": 13.125,
      "grad_norm_var": 0.4222493489583333,
      "learning_rate": 0.0003,
      "loss": 11.0159,
      "loss/aux_loss": 0.04807105585932732,
      "loss/crossentropy": 2.8253512501716616,
      "loss/logits": 0.8332709580659866,
      "step": 47310
    },
    {
      "epoch": 0.4732,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.3082682291666667,
      "learning_rate": 0.0003,
      "loss": 11.2657,
      "loss/aux_loss": 0.04807895310223102,
      "loss/crossentropy": 2.7635598182678223,
      "loss/logits": 0.862557715177536,
      "step": 47320
    },
    {
      "epoch": 0.4733,
      "grad_norm": 13.875,
      "grad_norm_var": 0.43214518229166665,
      "learning_rate": 0.0003,
      "loss": 11.1253,
      "loss/aux_loss": 0.04807691089808941,
      "loss/crossentropy": 2.7444288194179536,
      "loss/logits": 0.8490573525428772,
      "step": 47330
    },
    {
      "epoch": 0.4734,
      "grad_norm": 14.875,
      "grad_norm_var": 0.39034830729166664,
      "learning_rate": 0.0003,
      "loss": 11.0076,
      "loss/aux_loss": 0.04806413035839796,
      "loss/crossentropy": 2.6496753454208375,
      "loss/logits": 0.8270862758159637,
      "step": 47340
    },
    {
      "epoch": 0.4735,
      "grad_norm": 15.125,
      "grad_norm_var": 0.543994140625,
      "learning_rate": 0.0003,
      "loss": 11.0769,
      "loss/aux_loss": 0.04807628635317087,
      "loss/crossentropy": 2.6999243259429933,
      "loss/logits": 0.8481123268604278,
      "step": 47350
    },
    {
      "epoch": 0.4736,
      "grad_norm": 13.75,
      "grad_norm_var": 0.37838541666666664,
      "learning_rate": 0.0003,
      "loss": 11.0257,
      "loss/aux_loss": 0.04807580206543207,
      "loss/crossentropy": 2.6780034720897676,
      "loss/logits": 0.7950571686029434,
      "step": 47360
    },
    {
      "epoch": 0.4737,
      "grad_norm": 13.3125,
      "grad_norm_var": 0.3567708333333333,
      "learning_rate": 0.0003,
      "loss": 11.0902,
      "loss/aux_loss": 0.048067801631987095,
      "loss/crossentropy": 2.508834218978882,
      "loss/logits": 0.8000911891460418,
      "step": 47370
    },
    {
      "epoch": 0.4738,
      "grad_norm": 13.75,
      "grad_norm_var": 1.1479166666666667,
      "learning_rate": 0.0003,
      "loss": 11.1167,
      "loss/aux_loss": 0.04807884600013494,
      "loss/crossentropy": 2.683100324869156,
      "loss/logits": 0.8076074302196503,
      "step": 47380
    },
    {
      "epoch": 0.4739,
      "grad_norm": 14.375,
      "grad_norm_var": 0.7238118489583333,
      "learning_rate": 0.0003,
      "loss": 11.2828,
      "loss/aux_loss": 0.048065136186778545,
      "loss/crossentropy": 2.7504623413085936,
      "loss/logits": 0.8754628151655197,
      "step": 47390
    },
    {
      "epoch": 0.474,
      "grad_norm": 14.375,
      "grad_norm_var": 3.4449055989583335,
      "learning_rate": 0.0003,
      "loss": 11.2768,
      "loss/aux_loss": 0.048078180849552156,
      "loss/crossentropy": 2.7185048401355743,
      "loss/logits": 0.8097441285848618,
      "step": 47400
    },
    {
      "epoch": 0.4741,
      "grad_norm": 15.0,
      "grad_norm_var": 3.372509765625,
      "learning_rate": 0.0003,
      "loss": 11.0728,
      "loss/aux_loss": 0.04806989543139935,
      "loss/crossentropy": 2.5462702572345735,
      "loss/logits": 0.8237005978822708,
      "step": 47410
    },
    {
      "epoch": 0.4742,
      "grad_norm": 14.875,
      "grad_norm_var": 0.3337890625,
      "learning_rate": 0.0003,
      "loss": 11.1406,
      "loss/aux_loss": 0.04807539358735084,
      "loss/crossentropy": 2.801107907295227,
      "loss/logits": 0.8503676056861877,
      "step": 47420
    },
    {
      "epoch": 0.4743,
      "grad_norm": 14.0,
      "grad_norm_var": 1.088916015625,
      "learning_rate": 0.0003,
      "loss": 11.3099,
      "loss/aux_loss": 0.04808101002126932,
      "loss/crossentropy": 2.658205211162567,
      "loss/logits": 0.8350113093852997,
      "step": 47430
    },
    {
      "epoch": 0.4744,
      "grad_norm": 13.1875,
      "grad_norm_var": 1.206103515625,
      "learning_rate": 0.0003,
      "loss": 10.9774,
      "loss/aux_loss": 0.048071620799601075,
      "loss/crossentropy": 2.6002185225486754,
      "loss/logits": 0.8004775673151017,
      "step": 47440
    },
    {
      "epoch": 0.4745,
      "grad_norm": 15.375,
      "grad_norm_var": 0.4525390625,
      "learning_rate": 0.0003,
      "loss": 11.0775,
      "loss/aux_loss": 0.04807077720761299,
      "loss/crossentropy": 2.785941880941391,
      "loss/logits": 0.8646159768104553,
      "step": 47450
    },
    {
      "epoch": 0.4746,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.427197265625,
      "learning_rate": 0.0003,
      "loss": 11.056,
      "loss/aux_loss": 0.048071554861962795,
      "loss/crossentropy": 2.7326180696487428,
      "loss/logits": 0.8212353408336639,
      "step": 47460
    },
    {
      "epoch": 0.4747,
      "grad_norm": 14.5,
      "grad_norm_var": 0.28567708333333336,
      "learning_rate": 0.0003,
      "loss": 11.1585,
      "loss/aux_loss": 0.04807238578796387,
      "loss/crossentropy": 2.755151998996735,
      "loss/logits": 0.8459553897380829,
      "step": 47470
    },
    {
      "epoch": 0.4748,
      "grad_norm": 14.5,
      "grad_norm_var": 0.6296223958333333,
      "learning_rate": 0.0003,
      "loss": 11.1363,
      "loss/aux_loss": 0.04808005690574646,
      "loss/crossentropy": 2.7062522768974304,
      "loss/logits": 0.823663991689682,
      "step": 47480
    },
    {
      "epoch": 0.4749,
      "grad_norm": 12.8125,
      "grad_norm_var": 1.0574055989583333,
      "learning_rate": 0.0003,
      "loss": 11.078,
      "loss/aux_loss": 0.04807120095938444,
      "loss/crossentropy": 2.7074629366397858,
      "loss/logits": 0.8275787591934204,
      "step": 47490
    },
    {
      "epoch": 0.475,
      "grad_norm": 14.0,
      "grad_norm_var": 0.7460774739583333,
      "learning_rate": 0.0003,
      "loss": 11.2052,
      "loss/aux_loss": 0.04807096980512142,
      "loss/crossentropy": 2.7104438126087187,
      "loss/logits": 0.8310169786214828,
      "step": 47500
    },
    {
      "epoch": 0.4751,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5322265625,
      "learning_rate": 0.0003,
      "loss": 11.1362,
      "loss/aux_loss": 0.04808025192469358,
      "loss/crossentropy": 2.709762120246887,
      "loss/logits": 0.8251390606164932,
      "step": 47510
    },
    {
      "epoch": 0.4752,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.620166015625,
      "learning_rate": 0.0003,
      "loss": 11.1076,
      "loss/aux_loss": 0.04807448033243418,
      "loss/crossentropy": 2.773437148332596,
      "loss/logits": 0.8604608118534088,
      "step": 47520
    },
    {
      "epoch": 0.4753,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.2972493489583333,
      "learning_rate": 0.0003,
      "loss": 11.2152,
      "loss/aux_loss": 0.048080704919993875,
      "loss/crossentropy": 2.793582892417908,
      "loss/logits": 0.8527662813663482,
      "step": 47530
    },
    {
      "epoch": 0.4754,
      "grad_norm": 17.5,
      "grad_norm_var": 0.8360514322916667,
      "learning_rate": 0.0003,
      "loss": 11.1323,
      "loss/aux_loss": 0.04807116650044918,
      "loss/crossentropy": 2.6637362360954286,
      "loss/logits": 0.8446590304374695,
      "step": 47540
    },
    {
      "epoch": 0.4755,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.8988118489583333,
      "learning_rate": 0.0003,
      "loss": 11.0892,
      "loss/aux_loss": 0.04808674175292253,
      "loss/crossentropy": 2.6643483340740204,
      "loss/logits": 0.8172670543193817,
      "step": 47550
    },
    {
      "epoch": 0.4756,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.41534830729166666,
      "learning_rate": 0.0003,
      "loss": 11.0397,
      "loss/aux_loss": 0.0480627054348588,
      "loss/crossentropy": 2.537232494354248,
      "loss/logits": 0.8236280262470246,
      "step": 47560
    },
    {
      "epoch": 0.4757,
      "grad_norm": 13.25,
      "grad_norm_var": 0.5806640625,
      "learning_rate": 0.0003,
      "loss": 11.1531,
      "loss/aux_loss": 0.04807612933218479,
      "loss/crossentropy": 2.6730732560157775,
      "loss/logits": 0.8434269517660141,
      "step": 47570
    },
    {
      "epoch": 0.4758,
      "grad_norm": 13.625,
      "grad_norm_var": 0.6679524739583333,
      "learning_rate": 0.0003,
      "loss": 11.4003,
      "loss/aux_loss": 0.04807697795331478,
      "loss/crossentropy": 2.80619136095047,
      "loss/logits": 0.8598318874835968,
      "step": 47580
    },
    {
      "epoch": 0.4759,
      "grad_norm": 15.75,
      "grad_norm_var": 0.7728515625,
      "learning_rate": 0.0003,
      "loss": 11.1052,
      "loss/aux_loss": 0.04807619452476501,
      "loss/crossentropy": 2.746232843399048,
      "loss/logits": 0.8442793190479279,
      "step": 47590
    },
    {
      "epoch": 0.476,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.46920572916666664,
      "learning_rate": 0.0003,
      "loss": 10.9343,
      "loss/aux_loss": 0.04806558098644018,
      "loss/crossentropy": 2.794121563434601,
      "loss/logits": 0.8108414888381958,
      "step": 47600
    },
    {
      "epoch": 0.4761,
      "grad_norm": 13.75,
      "grad_norm_var": 0.22962239583333333,
      "learning_rate": 0.0003,
      "loss": 11.1234,
      "loss/aux_loss": 0.048085267655551434,
      "loss/crossentropy": 2.7552334010601043,
      "loss/logits": 0.8350756138563156,
      "step": 47610
    },
    {
      "epoch": 0.4762,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.37180989583333335,
      "learning_rate": 0.0003,
      "loss": 11.0146,
      "loss/aux_loss": 0.048061388358473775,
      "loss/crossentropy": 2.721570539474487,
      "loss/logits": 0.8332007586956024,
      "step": 47620
    },
    {
      "epoch": 0.4763,
      "grad_norm": 28.0,
      "grad_norm_var": 11.769010416666667,
      "learning_rate": 0.0003,
      "loss": 11.1894,
      "loss/aux_loss": 0.048081564158201216,
      "loss/crossentropy": 2.689694482088089,
      "loss/logits": 0.8350923985242844,
      "step": 47630
    },
    {
      "epoch": 0.4764,
      "grad_norm": 14.5625,
      "grad_norm_var": 15.7728515625,
      "learning_rate": 0.0003,
      "loss": 11.178,
      "loss/aux_loss": 0.048070958070456984,
      "loss/crossentropy": 2.8211479425430297,
      "loss/logits": 0.8629825711250305,
      "step": 47640
    },
    {
      "epoch": 0.4765,
      "grad_norm": 14.25,
      "grad_norm_var": 1.2567057291666666,
      "learning_rate": 0.0003,
      "loss": 11.0979,
      "loss/aux_loss": 0.04807667341083288,
      "loss/crossentropy": 2.6792636036872866,
      "loss/logits": 0.8190094619989395,
      "step": 47650
    },
    {
      "epoch": 0.4766,
      "grad_norm": 15.0,
      "grad_norm_var": 0.68828125,
      "learning_rate": 0.0003,
      "loss": 11.2105,
      "loss/aux_loss": 0.04806965459138155,
      "loss/crossentropy": 2.6743164896965026,
      "loss/logits": 0.8335071861743927,
      "step": 47660
    },
    {
      "epoch": 0.4767,
      "grad_norm": 15.9375,
      "grad_norm_var": 3.9567057291666665,
      "learning_rate": 0.0003,
      "loss": 11.1965,
      "loss/aux_loss": 0.04807929284870625,
      "loss/crossentropy": 2.7867653131484986,
      "loss/logits": 0.8356254577636719,
      "step": 47670
    },
    {
      "epoch": 0.4768,
      "grad_norm": 15.875,
      "grad_norm_var": 0.7306640625,
      "learning_rate": 0.0003,
      "loss": 11.3107,
      "loss/aux_loss": 0.04806722085922956,
      "loss/crossentropy": 2.628416657447815,
      "loss/logits": 0.827005535364151,
      "step": 47680
    },
    {
      "epoch": 0.4769,
      "grad_norm": 14.9375,
      "grad_norm_var": 2.5714680989583334,
      "learning_rate": 0.0003,
      "loss": 11.065,
      "loss/aux_loss": 0.048084712401032445,
      "loss/crossentropy": 2.7183729648590087,
      "loss/logits": 0.798021674156189,
      "step": 47690
    },
    {
      "epoch": 0.477,
      "grad_norm": 13.25,
      "grad_norm_var": 2.953108723958333,
      "learning_rate": 0.0003,
      "loss": 11.115,
      "loss/aux_loss": 0.04808032158762217,
      "loss/crossentropy": 2.842688000202179,
      "loss/logits": 0.8267738074064255,
      "step": 47700
    },
    {
      "epoch": 0.4771,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.9541015625,
      "learning_rate": 0.0003,
      "loss": 11.1761,
      "loss/aux_loss": 0.04806661438196898,
      "loss/crossentropy": 2.811937117576599,
      "loss/logits": 0.8213659793138504,
      "step": 47710
    },
    {
      "epoch": 0.4772,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.8820149739583333,
      "learning_rate": 0.0003,
      "loss": 11.1166,
      "loss/aux_loss": 0.048074382916092874,
      "loss/crossentropy": 2.6995534360408784,
      "loss/logits": 0.8364298850297928,
      "step": 47720
    },
    {
      "epoch": 0.4773,
      "grad_norm": 17.625,
      "grad_norm_var": 51.601497395833334,
      "learning_rate": 0.0003,
      "loss": 11.2294,
      "loss/aux_loss": 0.04806399717926979,
      "loss/crossentropy": 2.6920024275779726,
      "loss/logits": 0.8450191617012024,
      "step": 47730
    },
    {
      "epoch": 0.4774,
      "grad_norm": 13.8125,
      "grad_norm_var": 51.483317057291664,
      "learning_rate": 0.0003,
      "loss": 11.047,
      "loss/aux_loss": 0.04807861316949129,
      "loss/crossentropy": 2.694988691806793,
      "loss/logits": 0.8258244037628174,
      "step": 47740
    },
    {
      "epoch": 0.4775,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.6005045572916666,
      "learning_rate": 0.0003,
      "loss": 11.1232,
      "loss/aux_loss": 0.048065470159053804,
      "loss/crossentropy": 2.887584125995636,
      "loss/logits": 0.8933877527713776,
      "step": 47750
    },
    {
      "epoch": 0.4776,
      "grad_norm": 16.75,
      "grad_norm_var": 0.788525390625,
      "learning_rate": 0.0003,
      "loss": 10.8924,
      "loss/aux_loss": 0.04808261953294277,
      "loss/crossentropy": 2.6200126349925994,
      "loss/logits": 0.8102252304553985,
      "step": 47760
    },
    {
      "epoch": 0.4777,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.9286458333333333,
      "learning_rate": 0.0003,
      "loss": 10.9407,
      "loss/aux_loss": 0.04806542750447988,
      "loss/crossentropy": 2.6927346110343935,
      "loss/logits": 0.8065591782331467,
      "step": 47770
    },
    {
      "epoch": 0.4778,
      "grad_norm": 16.625,
      "grad_norm_var": 0.6200520833333333,
      "learning_rate": 0.0003,
      "loss": 10.9372,
      "loss/aux_loss": 0.0480722114443779,
      "loss/crossentropy": 2.7056717574596405,
      "loss/logits": 0.825093024969101,
      "step": 47780
    },
    {
      "epoch": 0.4779,
      "grad_norm": 14.75,
      "grad_norm_var": 0.5973795572916667,
      "learning_rate": 0.0003,
      "loss": 11.1361,
      "loss/aux_loss": 0.04807592462748289,
      "loss/crossentropy": 2.7489038705825806,
      "loss/logits": 0.8381727159023284,
      "step": 47790
    },
    {
      "epoch": 0.478,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.3947265625,
      "learning_rate": 0.0003,
      "loss": 11.0163,
      "loss/aux_loss": 0.04807247947901487,
      "loss/crossentropy": 2.7729135751724243,
      "loss/logits": 0.8364667683839798,
      "step": 47800
    },
    {
      "epoch": 0.4781,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.43826497395833336,
      "learning_rate": 0.0003,
      "loss": 11.1055,
      "loss/aux_loss": 0.04807865787297487,
      "loss/crossentropy": 2.699937582015991,
      "loss/logits": 0.8402740955352783,
      "step": 47810
    },
    {
      "epoch": 0.4782,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.33489583333333334,
      "learning_rate": 0.0003,
      "loss": 11.0608,
      "loss/aux_loss": 0.04806937780231237,
      "loss/crossentropy": 2.7677336633205414,
      "loss/logits": 0.8421557247638702,
      "step": 47820
    },
    {
      "epoch": 0.4783,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.29373372395833336,
      "learning_rate": 0.0003,
      "loss": 11.1592,
      "loss/aux_loss": 0.04806809443980455,
      "loss/crossentropy": 2.534024041891098,
      "loss/logits": 0.7998458266258239,
      "step": 47830
    },
    {
      "epoch": 0.4784,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.7176432291666667,
      "learning_rate": 0.0003,
      "loss": 11.1525,
      "loss/aux_loss": 0.04807998463511467,
      "loss/crossentropy": 2.6285907328128815,
      "loss/logits": 0.8426926136016846,
      "step": 47840
    },
    {
      "epoch": 0.4785,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.3020833333333333,
      "learning_rate": 0.0003,
      "loss": 11.071,
      "loss/aux_loss": 0.04807542841881514,
      "loss/crossentropy": 2.613954132795334,
      "loss/logits": 0.8264847338199616,
      "step": 47850
    },
    {
      "epoch": 0.4786,
      "grad_norm": 14.25,
      "grad_norm_var": 0.42849934895833336,
      "learning_rate": 0.0003,
      "loss": 10.9981,
      "loss/aux_loss": 0.04806617666035891,
      "loss/crossentropy": 2.7965017437934874,
      "loss/logits": 0.8339490979909897,
      "step": 47860
    },
    {
      "epoch": 0.4787,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.98203125,
      "learning_rate": 0.0003,
      "loss": 11.0962,
      "loss/aux_loss": 0.048079381324350835,
      "loss/crossentropy": 2.7282164812088014,
      "loss/logits": 0.8202213078737259,
      "step": 47870
    },
    {
      "epoch": 0.4788,
      "grad_norm": 15.375,
      "grad_norm_var": 0.6374348958333333,
      "learning_rate": 0.0003,
      "loss": 11.1136,
      "loss/aux_loss": 0.048078177496790886,
      "loss/crossentropy": 2.6539010763168336,
      "loss/logits": 0.812344890832901,
      "step": 47880
    },
    {
      "epoch": 0.4789,
      "grad_norm": 15.125,
      "grad_norm_var": 1.1622233072916666,
      "learning_rate": 0.0003,
      "loss": 10.9553,
      "loss/aux_loss": 0.048067126609385016,
      "loss/crossentropy": 2.7369919776916505,
      "loss/logits": 0.8319634586572647,
      "step": 47890
    },
    {
      "epoch": 0.479,
      "grad_norm": 15.6875,
      "grad_norm_var": 7.665559895833334,
      "learning_rate": 0.0003,
      "loss": 11.136,
      "loss/aux_loss": 0.048075918667018415,
      "loss/crossentropy": 2.895642626285553,
      "loss/logits": 0.8190632820129394,
      "step": 47900
    },
    {
      "epoch": 0.4791,
      "grad_norm": 15.0,
      "grad_norm_var": 7.870768229166667,
      "learning_rate": 0.0003,
      "loss": 11.0985,
      "loss/aux_loss": 0.048073847964406016,
      "loss/crossentropy": 2.734054809808731,
      "loss/logits": 0.8439525783061981,
      "step": 47910
    },
    {
      "epoch": 0.4792,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.39088541666666665,
      "learning_rate": 0.0003,
      "loss": 11.0615,
      "loss/aux_loss": 0.048062325455248356,
      "loss/crossentropy": 2.5045742869377134,
      "loss/logits": 0.8234647005796433,
      "step": 47920
    },
    {
      "epoch": 0.4793,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.32198893229166664,
      "learning_rate": 0.0003,
      "loss": 11.0936,
      "loss/aux_loss": 0.048081851191818716,
      "loss/crossentropy": 2.55519557595253,
      "loss/logits": 0.8111729115247727,
      "step": 47930
    },
    {
      "epoch": 0.4794,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.4494140625,
      "learning_rate": 0.0003,
      "loss": 11.0921,
      "loss/aux_loss": 0.04807233922183514,
      "loss/crossentropy": 2.8699767351150514,
      "loss/logits": 0.8300641059875489,
      "step": 47940
    },
    {
      "epoch": 0.4795,
      "grad_norm": 14.0,
      "grad_norm_var": 1.0027180989583333,
      "learning_rate": 0.0003,
      "loss": 11.0988,
      "loss/aux_loss": 0.048071389086544514,
      "loss/crossentropy": 2.839382266998291,
      "loss/logits": 0.8115487396717072,
      "step": 47950
    },
    {
      "epoch": 0.4796,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.6723795572916667,
      "learning_rate": 0.0003,
      "loss": 11.0085,
      "loss/aux_loss": 0.048065657168626784,
      "loss/crossentropy": 2.7501906633377073,
      "loss/logits": 0.8143287628889084,
      "step": 47960
    },
    {
      "epoch": 0.4797,
      "grad_norm": 16.25,
      "grad_norm_var": 0.8417805989583333,
      "learning_rate": 0.0003,
      "loss": 11.0563,
      "loss/aux_loss": 0.048076402582228187,
      "loss/crossentropy": 2.676505321264267,
      "loss/logits": 0.8360762178897858,
      "step": 47970
    },
    {
      "epoch": 0.4798,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.9072265625,
      "learning_rate": 0.0003,
      "loss": 11.1315,
      "loss/aux_loss": 0.04806589502841234,
      "loss/crossentropy": 2.6232878804206847,
      "loss/logits": 0.8199890315532684,
      "step": 47980
    },
    {
      "epoch": 0.4799,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.6792805989583334,
      "learning_rate": 0.0003,
      "loss": 11.1561,
      "loss/aux_loss": 0.048061208054423335,
      "loss/crossentropy": 2.7454289555549622,
      "loss/logits": 0.8468107730150223,
      "step": 47990
    },
    {
      "epoch": 0.48,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.32447916666666665,
      "learning_rate": 0.0003,
      "loss": 11.0602,
      "loss/aux_loss": 0.0480829494073987,
      "loss/crossentropy": 2.7469854950904846,
      "loss/logits": 0.8431436151266098,
      "step": 48000
    },
    {
      "epoch": 0.4801,
      "grad_norm": 14.75,
      "grad_norm_var": 0.6816243489583333,
      "learning_rate": 0.0003,
      "loss": 11.2187,
      "loss/aux_loss": 0.04806633796542883,
      "loss/crossentropy": 2.800862890481949,
      "loss/logits": 0.8245023936033249,
      "step": 48010
    },
    {
      "epoch": 0.4802,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.6129557291666666,
      "learning_rate": 0.0003,
      "loss": 11.0638,
      "loss/aux_loss": 0.04809022005647421,
      "loss/crossentropy": 2.6285562753677367,
      "loss/logits": 0.8116117030382156,
      "step": 48020
    },
    {
      "epoch": 0.4803,
      "grad_norm": 14.6875,
      "grad_norm_var": 6.8197265625,
      "learning_rate": 0.0003,
      "loss": 11.0978,
      "loss/aux_loss": 0.048075268231332305,
      "loss/crossentropy": 2.732567811012268,
      "loss/logits": 0.844546177983284,
      "step": 48030
    },
    {
      "epoch": 0.4804,
      "grad_norm": 15.25,
      "grad_norm_var": 6.534879557291666,
      "learning_rate": 0.0003,
      "loss": 11.0056,
      "loss/aux_loss": 0.048071599751710894,
      "loss/crossentropy": 2.695717829465866,
      "loss/logits": 0.7987852036952973,
      "step": 48040
    },
    {
      "epoch": 0.4805,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.43776041666666665,
      "learning_rate": 0.0003,
      "loss": 11.0473,
      "loss/aux_loss": 0.04807654451578856,
      "loss/crossentropy": 2.877095127105713,
      "loss/logits": 0.8336584985256195,
      "step": 48050
    },
    {
      "epoch": 0.4806,
      "grad_norm": 14.75,
      "grad_norm_var": 0.758447265625,
      "learning_rate": 0.0003,
      "loss": 11.0729,
      "loss/aux_loss": 0.04807484894990921,
      "loss/crossentropy": 2.8576854825019837,
      "loss/logits": 0.8484826743602752,
      "step": 48060
    },
    {
      "epoch": 0.4807,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.6466145833333333,
      "learning_rate": 0.0003,
      "loss": 10.9455,
      "loss/aux_loss": 0.04806608278304338,
      "loss/crossentropy": 2.7044803380966185,
      "loss/logits": 0.8198621302843094,
      "step": 48070
    },
    {
      "epoch": 0.4808,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.234228515625,
      "learning_rate": 0.0003,
      "loss": 11.2132,
      "loss/aux_loss": 0.048075415566563605,
      "loss/crossentropy": 2.8697200059890746,
      "loss/logits": 0.8511811017990112,
      "step": 48080
    },
    {
      "epoch": 0.4809,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.3804524739583333,
      "learning_rate": 0.0003,
      "loss": 11.1382,
      "loss/aux_loss": 0.04807231742888689,
      "loss/crossentropy": 2.600096642971039,
      "loss/logits": 0.8244834512472152,
      "step": 48090
    },
    {
      "epoch": 0.481,
      "grad_norm": 16.5,
      "grad_norm_var": 0.5700520833333333,
      "learning_rate": 0.0003,
      "loss": 10.9186,
      "loss/aux_loss": 0.04807635005563497,
      "loss/crossentropy": 2.604368954896927,
      "loss/logits": 0.8412629932165145,
      "step": 48100
    },
    {
      "epoch": 0.4811,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.5356770833333333,
      "learning_rate": 0.0003,
      "loss": 11.1471,
      "loss/aux_loss": 0.04806556645780802,
      "loss/crossentropy": 2.717805975675583,
      "loss/logits": 0.829289898276329,
      "step": 48110
    },
    {
      "epoch": 0.4812,
      "grad_norm": 13.875,
      "grad_norm_var": 0.698291015625,
      "learning_rate": 0.0003,
      "loss": 11.1148,
      "loss/aux_loss": 0.04808323364704847,
      "loss/crossentropy": 2.707306903600693,
      "loss/logits": 0.8816626042127609,
      "step": 48120
    },
    {
      "epoch": 0.4813,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.7191243489583333,
      "learning_rate": 0.0003,
      "loss": 11.1623,
      "loss/aux_loss": 0.04807705953717232,
      "loss/crossentropy": 2.7037087202072145,
      "loss/logits": 0.8497424215078354,
      "step": 48130
    },
    {
      "epoch": 0.4814,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.7626139322916666,
      "learning_rate": 0.0003,
      "loss": 11.158,
      "loss/aux_loss": 0.04806127455085516,
      "loss/crossentropy": 2.565345358848572,
      "loss/logits": 0.8115527182817459,
      "step": 48140
    },
    {
      "epoch": 0.4815,
      "grad_norm": 18.0,
      "grad_norm_var": 63.133447265625,
      "learning_rate": 0.0003,
      "loss": 11.2609,
      "loss/aux_loss": 0.04808726757764816,
      "loss/crossentropy": 2.6367207527160645,
      "loss/logits": 0.831730630993843,
      "step": 48150
    },
    {
      "epoch": 0.4816,
      "grad_norm": 15.875,
      "grad_norm_var": 177.33839518229166,
      "learning_rate": 0.0003,
      "loss": 11.1555,
      "loss/aux_loss": 0.04808530658483505,
      "loss/crossentropy": 2.6289633989334105,
      "loss/logits": 0.846698772907257,
      "step": 48160
    },
    {
      "epoch": 0.4817,
      "grad_norm": 14.125,
      "grad_norm_var": 135.46302083333333,
      "learning_rate": 0.0003,
      "loss": 10.9952,
      "loss/aux_loss": 0.0480637326836586,
      "loss/crossentropy": 2.6193889021873473,
      "loss/logits": 0.8518955647945404,
      "step": 48170
    },
    {
      "epoch": 0.4818,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.23631184895833332,
      "learning_rate": 0.0003,
      "loss": 10.9472,
      "loss/aux_loss": 0.04807006679475308,
      "loss/crossentropy": 2.5161637544631956,
      "loss/logits": 0.7855435490608216,
      "step": 48180
    },
    {
      "epoch": 0.4819,
      "grad_norm": 15.75,
      "grad_norm_var": 1.4041015625,
      "learning_rate": 0.0003,
      "loss": 11.1728,
      "loss/aux_loss": 0.04807739406824112,
      "loss/crossentropy": 2.578041511774063,
      "loss/logits": 0.8267721891403198,
      "step": 48190
    },
    {
      "epoch": 0.482,
      "grad_norm": 14.75,
      "grad_norm_var": 1.2307291666666667,
      "learning_rate": 0.0003,
      "loss": 11.1619,
      "loss/aux_loss": 0.04807015117257833,
      "loss/crossentropy": 2.851909363269806,
      "loss/logits": 0.862451794743538,
      "step": 48200
    },
    {
      "epoch": 0.4821,
      "grad_norm": 15.625,
      "grad_norm_var": 0.6079264322916667,
      "learning_rate": 0.0003,
      "loss": 11.1798,
      "loss/aux_loss": 0.04807384721934795,
      "loss/crossentropy": 2.7018039345741274,
      "loss/logits": 0.8276410967111587,
      "step": 48210
    },
    {
      "epoch": 0.4822,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.8374837239583334,
      "learning_rate": 0.0003,
      "loss": 11.1851,
      "loss/aux_loss": 0.04808012768626213,
      "loss/crossentropy": 2.792585861682892,
      "loss/logits": 0.8121782958507537,
      "step": 48220
    },
    {
      "epoch": 0.4823,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5713541666666667,
      "learning_rate": 0.0003,
      "loss": 11.0181,
      "loss/aux_loss": 0.04806952588260174,
      "loss/crossentropy": 2.7548343539237976,
      "loss/logits": 0.8300218850374221,
      "step": 48230
    },
    {
      "epoch": 0.4824,
      "grad_norm": 13.625,
      "grad_norm_var": 0.5208333333333334,
      "learning_rate": 0.0003,
      "loss": 10.8143,
      "loss/aux_loss": 0.04807311985641718,
      "loss/crossentropy": 2.582223576307297,
      "loss/logits": 0.8206641644239425,
      "step": 48240
    },
    {
      "epoch": 0.4825,
      "grad_norm": 14.125,
      "grad_norm_var": 0.4598307291666667,
      "learning_rate": 0.0003,
      "loss": 11.1807,
      "loss/aux_loss": 0.04807979855686426,
      "loss/crossentropy": 2.6816562175750733,
      "loss/logits": 0.8363949626684188,
      "step": 48250
    },
    {
      "epoch": 0.4826,
      "grad_norm": 14.125,
      "grad_norm_var": 0.2869791666666667,
      "learning_rate": 0.0003,
      "loss": 11.0489,
      "loss/aux_loss": 0.04806763082742691,
      "loss/crossentropy": 2.7296660900115968,
      "loss/logits": 0.8218880474567414,
      "step": 48260
    },
    {
      "epoch": 0.4827,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.29347330729166665,
      "learning_rate": 0.0003,
      "loss": 11.1751,
      "loss/aux_loss": 0.04807308837771416,
      "loss/crossentropy": 2.7679852724075316,
      "loss/logits": 0.8572757095098495,
      "step": 48270
    },
    {
      "epoch": 0.4828,
      "grad_norm": 14.75,
      "grad_norm_var": 0.2908854166666667,
      "learning_rate": 0.0003,
      "loss": 10.9314,
      "loss/aux_loss": 0.04806960169225931,
      "loss/crossentropy": 2.6580540001392365,
      "loss/logits": 0.8273628979921341,
      "step": 48280
    },
    {
      "epoch": 0.4829,
      "grad_norm": 14.625,
      "grad_norm_var": 0.41795247395833335,
      "learning_rate": 0.0003,
      "loss": 11.0294,
      "loss/aux_loss": 0.04808035921305418,
      "loss/crossentropy": 2.713185727596283,
      "loss/logits": 0.8252017825841904,
      "step": 48290
    },
    {
      "epoch": 0.483,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.28592122395833336,
      "learning_rate": 0.0003,
      "loss": 11.0288,
      "loss/aux_loss": 0.04807136319577694,
      "loss/crossentropy": 2.6470188081264494,
      "loss/logits": 0.8096356302499771,
      "step": 48300
    },
    {
      "epoch": 0.4831,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.33865559895833336,
      "learning_rate": 0.0003,
      "loss": 11.0124,
      "loss/aux_loss": 0.048075702227652076,
      "loss/crossentropy": 2.628252637386322,
      "loss/logits": 0.8306295484304428,
      "step": 48310
    },
    {
      "epoch": 0.4832,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.333837890625,
      "learning_rate": 0.0003,
      "loss": 11.2257,
      "loss/aux_loss": 0.04808404166251421,
      "loss/crossentropy": 2.575061935186386,
      "loss/logits": 0.8175129801034927,
      "step": 48320
    },
    {
      "epoch": 0.4833,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.39386393229166666,
      "learning_rate": 0.0003,
      "loss": 11.2456,
      "loss/aux_loss": 0.04806752149015665,
      "loss/crossentropy": 2.6643171072006226,
      "loss/logits": 0.8468601524829864,
      "step": 48330
    },
    {
      "epoch": 0.4834,
      "grad_norm": 16.375,
      "grad_norm_var": 0.9049479166666666,
      "learning_rate": 0.0003,
      "loss": 11.0414,
      "loss/aux_loss": 0.048077189922332765,
      "loss/crossentropy": 2.659744346141815,
      "loss/logits": 0.7988389104604721,
      "step": 48340
    },
    {
      "epoch": 0.4835,
      "grad_norm": 14.375,
      "grad_norm_var": 367.3979166666667,
      "learning_rate": 0.0003,
      "loss": 11.1791,
      "loss/aux_loss": 0.04807696957141161,
      "loss/crossentropy": 2.824947530031204,
      "loss/logits": 0.8144560337066651,
      "step": 48350
    },
    {
      "epoch": 0.4836,
      "grad_norm": 14.75,
      "grad_norm_var": 2.502067057291667,
      "learning_rate": 0.0003,
      "loss": 11.0857,
      "loss/aux_loss": 0.048078769072890284,
      "loss/crossentropy": 2.700359559059143,
      "loss/logits": 0.8216308414936065,
      "step": 48360
    },
    {
      "epoch": 0.4837,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.2712890625,
      "learning_rate": 0.0003,
      "loss": 11.0512,
      "loss/aux_loss": 0.048067495599389075,
      "loss/crossentropy": 2.7094205021858215,
      "loss/logits": 0.848452877998352,
      "step": 48370
    },
    {
      "epoch": 0.4838,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5499348958333333,
      "learning_rate": 0.0003,
      "loss": 11.2143,
      "loss/aux_loss": 0.04807147514075041,
      "loss/crossentropy": 2.610717463493347,
      "loss/logits": 0.8028295308351516,
      "step": 48380
    },
    {
      "epoch": 0.4839,
      "grad_norm": 15.875,
      "grad_norm_var": 0.8441243489583333,
      "learning_rate": 0.0003,
      "loss": 11.0868,
      "loss/aux_loss": 0.04808458909392357,
      "loss/crossentropy": 2.649008184671402,
      "loss/logits": 0.7971860766410828,
      "step": 48390
    },
    {
      "epoch": 0.484,
      "grad_norm": 16.875,
      "grad_norm_var": 0.6166666666666667,
      "learning_rate": 0.0003,
      "loss": 11.1314,
      "loss/aux_loss": 0.048060483299195766,
      "loss/crossentropy": 2.60991570353508,
      "loss/logits": 0.8266617238521576,
      "step": 48400
    },
    {
      "epoch": 0.4841,
      "grad_norm": 14.5,
      "grad_norm_var": 0.7341145833333333,
      "learning_rate": 0.0003,
      "loss": 11.2854,
      "loss/aux_loss": 0.04807337708771229,
      "loss/crossentropy": 2.8312358379364015,
      "loss/logits": 0.8423346072435379,
      "step": 48410
    },
    {
      "epoch": 0.4842,
      "grad_norm": 14.25,
      "grad_norm_var": 0.461572265625,
      "learning_rate": 0.0003,
      "loss": 11.0738,
      "loss/aux_loss": 0.048069039918482305,
      "loss/crossentropy": 2.6287239670753477,
      "loss/logits": 0.8132491081953048,
      "step": 48420
    },
    {
      "epoch": 0.4843,
      "grad_norm": 14.375,
      "grad_norm_var": 0.38409830729166666,
      "learning_rate": 0.0003,
      "loss": 11.1052,
      "loss/aux_loss": 0.04807084016501904,
      "loss/crossentropy": 2.6560630083084105,
      "loss/logits": 0.8387343198060989,
      "step": 48430
    },
    {
      "epoch": 0.4844,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.22786458333333334,
      "learning_rate": 0.0003,
      "loss": 11.218,
      "loss/aux_loss": 0.04808529261499643,
      "loss/crossentropy": 2.574995279312134,
      "loss/logits": 0.8190798044204712,
      "step": 48440
    },
    {
      "epoch": 0.4845,
      "grad_norm": 14.5,
      "grad_norm_var": 1.1051920572916667,
      "learning_rate": 0.0003,
      "loss": 11.2403,
      "loss/aux_loss": 0.04806236382573843,
      "loss/crossentropy": 2.641158491373062,
      "loss/logits": 0.8146007388830185,
      "step": 48450
    },
    {
      "epoch": 0.4846,
      "grad_norm": 13.125,
      "grad_norm_var": 0.8126139322916667,
      "learning_rate": 0.0003,
      "loss": 11.1928,
      "loss/aux_loss": 0.048080836050212385,
      "loss/crossentropy": 2.9179535865783692,
      "loss/logits": 0.8601721286773681,
      "step": 48460
    },
    {
      "epoch": 0.4847,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.4988932291666667,
      "learning_rate": 0.0003,
      "loss": 11.1159,
      "loss/aux_loss": 0.04806997887790203,
      "loss/crossentropy": 2.536268186569214,
      "loss/logits": 0.8264925092458725,
      "step": 48470
    },
    {
      "epoch": 0.4848,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.3744791666666667,
      "learning_rate": 0.0003,
      "loss": 11.0528,
      "loss/aux_loss": 0.0480733098462224,
      "loss/crossentropy": 2.5422776341438293,
      "loss/logits": 0.7887350648641587,
      "step": 48480
    },
    {
      "epoch": 0.4849,
      "grad_norm": 14.125,
      "grad_norm_var": 0.5436848958333333,
      "learning_rate": 0.0003,
      "loss": 11.1683,
      "loss/aux_loss": 0.048076307587325576,
      "loss/crossentropy": 2.744097375869751,
      "loss/logits": 0.8400337219238281,
      "step": 48490
    },
    {
      "epoch": 0.485,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.22473958333333333,
      "learning_rate": 0.0003,
      "loss": 11.0867,
      "loss/aux_loss": 0.048070046678185464,
      "loss/crossentropy": 2.8123038172721864,
      "loss/logits": 0.8171926707029342,
      "step": 48500
    },
    {
      "epoch": 0.4851,
      "grad_norm": 14.0,
      "grad_norm_var": 0.318994140625,
      "learning_rate": 0.0003,
      "loss": 10.9393,
      "loss/aux_loss": 0.048068254627287386,
      "loss/crossentropy": 2.693702256679535,
      "loss/logits": 0.8272054940462112,
      "step": 48510
    },
    {
      "epoch": 0.4852,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.492822265625,
      "learning_rate": 0.0003,
      "loss": 11.2476,
      "loss/aux_loss": 0.04807813167572021,
      "loss/crossentropy": 2.7948949217796324,
      "loss/logits": 0.8314435452222824,
      "step": 48520
    },
    {
      "epoch": 0.4853,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.4557291666666667,
      "learning_rate": 0.0003,
      "loss": 11.1876,
      "loss/aux_loss": 0.04806694649159908,
      "loss/crossentropy": 2.935932195186615,
      "loss/logits": 0.8360010713338852,
      "step": 48530
    },
    {
      "epoch": 0.4854,
      "grad_norm": 14.625,
      "grad_norm_var": 59.37890625,
      "learning_rate": 0.0003,
      "loss": 11.0565,
      "loss/aux_loss": 0.048075059242546556,
      "loss/crossentropy": 2.6938049614429476,
      "loss/logits": 0.8414293229579926,
      "step": 48540
    },
    {
      "epoch": 0.4855,
      "grad_norm": 14.0,
      "grad_norm_var": 51.1009765625,
      "learning_rate": 0.0003,
      "loss": 11.2106,
      "loss/aux_loss": 0.0480806240811944,
      "loss/crossentropy": 2.7439634084701536,
      "loss/logits": 0.8203217297792434,
      "step": 48550
    },
    {
      "epoch": 0.4856,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.3509765625,
      "learning_rate": 0.0003,
      "loss": 11.0734,
      "loss/aux_loss": 0.04806556981056929,
      "loss/crossentropy": 2.665660631656647,
      "loss/logits": 0.8277056187391281,
      "step": 48560
    },
    {
      "epoch": 0.4857,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.25128580729166666,
      "learning_rate": 0.0003,
      "loss": 11.0559,
      "loss/aux_loss": 0.04807299673557282,
      "loss/crossentropy": 2.8438867926597595,
      "loss/logits": 0.8425880312919617,
      "step": 48570
    },
    {
      "epoch": 0.4858,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.641650390625,
      "learning_rate": 0.0003,
      "loss": 10.9983,
      "loss/aux_loss": 0.04807940311729908,
      "loss/crossentropy": 2.7427866578102114,
      "loss/logits": 0.8035318404436111,
      "step": 48580
    },
    {
      "epoch": 0.4859,
      "grad_norm": 14.5,
      "grad_norm_var": 0.7212890625,
      "learning_rate": 0.0003,
      "loss": 10.964,
      "loss/aux_loss": 0.04807807970792055,
      "loss/crossentropy": 2.6292437076568604,
      "loss/logits": 0.800726181268692,
      "step": 48590
    },
    {
      "epoch": 0.486,
      "grad_norm": 15.625,
      "grad_norm_var": 0.913916015625,
      "learning_rate": 0.0003,
      "loss": 11.1338,
      "loss/aux_loss": 0.04807404633611441,
      "loss/crossentropy": 2.686028057336807,
      "loss/logits": 0.8427057951688767,
      "step": 48600
    },
    {
      "epoch": 0.4861,
      "grad_norm": 14.875,
      "grad_norm_var": 0.8051432291666667,
      "learning_rate": 0.0003,
      "loss": 10.9843,
      "loss/aux_loss": 0.04807655718177557,
      "loss/crossentropy": 2.5984533965587615,
      "loss/logits": 0.7909109711647033,
      "step": 48610
    },
    {
      "epoch": 0.4862,
      "grad_norm": 16.625,
      "grad_norm_var": 1.9972493489583334,
      "learning_rate": 0.0003,
      "loss": 10.9925,
      "loss/aux_loss": 0.04807711597532034,
      "loss/crossentropy": 2.593876451253891,
      "loss/logits": 0.831505474448204,
      "step": 48620
    },
    {
      "epoch": 0.4863,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.0317545572916667,
      "learning_rate": 0.0003,
      "loss": 11.0305,
      "loss/aux_loss": 0.04807915035635233,
      "loss/crossentropy": 2.761583888530731,
      "loss/logits": 0.8605498760938645,
      "step": 48630
    },
    {
      "epoch": 0.4864,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.37233072916666665,
      "learning_rate": 0.0003,
      "loss": 11.1418,
      "loss/aux_loss": 0.04806447252631187,
      "loss/crossentropy": 2.606149101257324,
      "loss/logits": 0.8358212620019912,
      "step": 48640
    },
    {
      "epoch": 0.4865,
      "grad_norm": 15.0,
      "grad_norm_var": 0.32962239583333336,
      "learning_rate": 0.0003,
      "loss": 10.9811,
      "loss/aux_loss": 0.04808054771274328,
      "loss/crossentropy": 2.6689969122409822,
      "loss/logits": 0.8446838974952697,
      "step": 48650
    },
    {
      "epoch": 0.4866,
      "grad_norm": 15.1875,
      "grad_norm_var": 2.2749348958333333,
      "learning_rate": 0.0003,
      "loss": 11.2319,
      "loss/aux_loss": 0.048064498230814934,
      "loss/crossentropy": 2.760690987110138,
      "loss/logits": 0.8313882291316986,
      "step": 48660
    },
    {
      "epoch": 0.4867,
      "grad_norm": 14.5,
      "grad_norm_var": 0.6442057291666666,
      "learning_rate": 0.0003,
      "loss": 11.0473,
      "loss/aux_loss": 0.04807339608669281,
      "loss/crossentropy": 2.789001631736755,
      "loss/logits": 0.8379965245723724,
      "step": 48670
    },
    {
      "epoch": 0.4868,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.3728515625,
      "learning_rate": 0.0003,
      "loss": 11.193,
      "loss/aux_loss": 0.04807340279221535,
      "loss/crossentropy": 2.65660617351532,
      "loss/logits": 0.8233199805021286,
      "step": 48680
    },
    {
      "epoch": 0.4869,
      "grad_norm": 15.625,
      "grad_norm_var": 0.5338541666666666,
      "learning_rate": 0.0003,
      "loss": 10.828,
      "loss/aux_loss": 0.04807305708527565,
      "loss/crossentropy": 2.6044947862625123,
      "loss/logits": 0.7953520357608795,
      "step": 48690
    },
    {
      "epoch": 0.487,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.7331868489583333,
      "learning_rate": 0.0003,
      "loss": 11.0447,
      "loss/aux_loss": 0.04807252772152424,
      "loss/crossentropy": 2.5909561276435853,
      "loss/logits": 0.8053539365530014,
      "step": 48700
    },
    {
      "epoch": 0.4871,
      "grad_norm": 17.0,
      "grad_norm_var": 0.653759765625,
      "learning_rate": 0.0003,
      "loss": 11.1363,
      "loss/aux_loss": 0.04807318150997162,
      "loss/crossentropy": 2.6690219819545744,
      "loss/logits": 0.8558798760175705,
      "step": 48710
    },
    {
      "epoch": 0.4872,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.7322916666666667,
      "learning_rate": 0.0003,
      "loss": 10.9482,
      "loss/aux_loss": 0.048087730258703235,
      "loss/crossentropy": 2.7921680390834807,
      "loss/logits": 0.8220372408628464,
      "step": 48720
    },
    {
      "epoch": 0.4873,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.6102701822916666,
      "learning_rate": 0.0003,
      "loss": 11.0286,
      "loss/aux_loss": 0.04806871749460697,
      "loss/crossentropy": 2.6840153992176057,
      "loss/logits": 0.850041389465332,
      "step": 48730
    },
    {
      "epoch": 0.4874,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.7270670572916667,
      "learning_rate": 0.0003,
      "loss": 11.1639,
      "loss/aux_loss": 0.04806739930063486,
      "loss/crossentropy": 2.858708620071411,
      "loss/logits": 0.8481850981712341,
      "step": 48740
    },
    {
      "epoch": 0.4875,
      "grad_norm": 16.25,
      "grad_norm_var": 3.2315104166666666,
      "learning_rate": 0.0003,
      "loss": 10.9632,
      "loss/aux_loss": 0.04807026702910662,
      "loss/crossentropy": 2.6791675448417664,
      "loss/logits": 0.8031369209289551,
      "step": 48750
    },
    {
      "epoch": 0.4876,
      "grad_norm": 13.375,
      "grad_norm_var": 0.8124837239583333,
      "learning_rate": 0.0003,
      "loss": 10.9988,
      "loss/aux_loss": 0.04808725789189339,
      "loss/crossentropy": 2.6807437360286714,
      "loss/logits": 0.8061759442090988,
      "step": 48760
    },
    {
      "epoch": 0.4877,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.7791666666666667,
      "learning_rate": 0.0003,
      "loss": 11.1572,
      "loss/aux_loss": 0.04806392826139927,
      "loss/crossentropy": 2.44208277463913,
      "loss/logits": 0.8261926531791687,
      "step": 48770
    },
    {
      "epoch": 0.4878,
      "grad_norm": 15.625,
      "grad_norm_var": 0.9025390625,
      "learning_rate": 0.0003,
      "loss": 11.1327,
      "loss/aux_loss": 0.04807030875235796,
      "loss/crossentropy": 2.6741757929325103,
      "loss/logits": 0.8217558234930038,
      "step": 48780
    },
    {
      "epoch": 0.4879,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.49412434895833335,
      "learning_rate": 0.0003,
      "loss": 11.1311,
      "loss/aux_loss": 0.04807980488985777,
      "loss/crossentropy": 2.5993297338485717,
      "loss/logits": 0.8183979272842408,
      "step": 48790
    },
    {
      "epoch": 0.488,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.2634765625,
      "learning_rate": 0.0003,
      "loss": 11.1117,
      "loss/aux_loss": 0.04807808380573988,
      "loss/crossentropy": 2.6094757199287413,
      "loss/logits": 0.7935949236154556,
      "step": 48800
    },
    {
      "epoch": 0.4881,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.7231770833333333,
      "learning_rate": 0.0003,
      "loss": 11.2077,
      "loss/aux_loss": 0.04806241802871227,
      "loss/crossentropy": 2.876955544948578,
      "loss/logits": 0.8346400111913681,
      "step": 48810
    },
    {
      "epoch": 0.4882,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.9645182291666666,
      "learning_rate": 0.0003,
      "loss": 11.1004,
      "loss/aux_loss": 0.048071075975894925,
      "loss/crossentropy": 2.8417654395103455,
      "loss/logits": 0.8361264318227768,
      "step": 48820
    },
    {
      "epoch": 0.4883,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.551416015625,
      "learning_rate": 0.0003,
      "loss": 11.171,
      "loss/aux_loss": 0.04807602632790804,
      "loss/crossentropy": 2.799322694540024,
      "loss/logits": 0.8414522469043731,
      "step": 48830
    },
    {
      "epoch": 0.4884,
      "grad_norm": 15.875,
      "grad_norm_var": 0.8311848958333333,
      "learning_rate": 0.0003,
      "loss": 11.2567,
      "loss/aux_loss": 0.04806129559874535,
      "loss/crossentropy": 2.689255505800247,
      "loss/logits": 0.8547393798828125,
      "step": 48840
    },
    {
      "epoch": 0.4885,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.563916015625,
      "learning_rate": 0.0003,
      "loss": 11.1285,
      "loss/aux_loss": 0.04807682503014803,
      "loss/crossentropy": 2.797248286008835,
      "loss/logits": 0.8470206201076508,
      "step": 48850
    },
    {
      "epoch": 0.4886,
      "grad_norm": 14.625,
      "grad_norm_var": 0.78046875,
      "learning_rate": 0.0003,
      "loss": 11.0018,
      "loss/aux_loss": 0.04807422161102295,
      "loss/crossentropy": 2.511183685064316,
      "loss/logits": 0.7976685196161271,
      "step": 48860
    },
    {
      "epoch": 0.4887,
      "grad_norm": 14.9375,
      "grad_norm_var": 7.047509765625,
      "learning_rate": 0.0003,
      "loss": 11.0695,
      "loss/aux_loss": 0.04808024186640978,
      "loss/crossentropy": 2.8470928072929382,
      "loss/logits": 0.8435232043266296,
      "step": 48870
    },
    {
      "epoch": 0.4888,
      "grad_norm": 15.625,
      "grad_norm_var": 7.532666015625,
      "learning_rate": 0.0003,
      "loss": 11.0045,
      "loss/aux_loss": 0.048071150295436384,
      "loss/crossentropy": 2.7967050075531006,
      "loss/logits": 0.8275404214859009,
      "step": 48880
    },
    {
      "epoch": 0.4889,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.4337890625,
      "learning_rate": 0.0003,
      "loss": 11.0734,
      "loss/aux_loss": 0.04806635808199644,
      "loss/crossentropy": 2.776483827829361,
      "loss/logits": 0.8333809942007064,
      "step": 48890
    },
    {
      "epoch": 0.489,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5416015625,
      "learning_rate": 0.0003,
      "loss": 11.1054,
      "loss/aux_loss": 0.04807385727763176,
      "loss/crossentropy": 2.7456183671951293,
      "loss/logits": 0.8244105398654937,
      "step": 48900
    },
    {
      "epoch": 0.4891,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.9114420572916667,
      "learning_rate": 0.0003,
      "loss": 11.2572,
      "loss/aux_loss": 0.04807461760938168,
      "loss/crossentropy": 2.9388389587402344,
      "loss/logits": 0.8438066065311431,
      "step": 48910
    },
    {
      "epoch": 0.4892,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.9707682291666667,
      "learning_rate": 0.0003,
      "loss": 11.3584,
      "loss/aux_loss": 0.04808568153530359,
      "loss/crossentropy": 2.8007669508457185,
      "loss/logits": 0.8510422587394715,
      "step": 48920
    },
    {
      "epoch": 0.4893,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.916650390625,
      "learning_rate": 0.0003,
      "loss": 10.971,
      "loss/aux_loss": 0.0480602802708745,
      "loss/crossentropy": 2.614273113012314,
      "loss/logits": 0.8163867175579071,
      "step": 48930
    },
    {
      "epoch": 0.4894,
      "grad_norm": 15.125,
      "grad_norm_var": 3.5825520833333333,
      "learning_rate": 0.0003,
      "loss": 11.1483,
      "loss/aux_loss": 0.04808527324348688,
      "loss/crossentropy": 2.74897957444191,
      "loss/logits": 0.8206755816936493,
      "step": 48940
    },
    {
      "epoch": 0.4895,
      "grad_norm": 14.5,
      "grad_norm_var": 2.756705729166667,
      "learning_rate": 0.0003,
      "loss": 11.139,
      "loss/aux_loss": 0.04805995114147663,
      "loss/crossentropy": 2.8490783333778382,
      "loss/logits": 0.8311156839132309,
      "step": 48950
    },
    {
      "epoch": 0.4896,
      "grad_norm": 14.5,
      "grad_norm_var": 0.779150390625,
      "learning_rate": 0.0003,
      "loss": 11.1204,
      "loss/aux_loss": 0.04806854724884033,
      "loss/crossentropy": 2.634866565465927,
      "loss/logits": 0.8357069045305252,
      "step": 48960
    },
    {
      "epoch": 0.4897,
      "grad_norm": 14.875,
      "grad_norm_var": 0.4479166666666667,
      "learning_rate": 0.0003,
      "loss": 10.908,
      "loss/aux_loss": 0.04807532802224159,
      "loss/crossentropy": 2.716035795211792,
      "loss/logits": 0.8380373746156693,
      "step": 48970
    },
    {
      "epoch": 0.4898,
      "grad_norm": 20.375,
      "grad_norm_var": 2.3684895833333335,
      "learning_rate": 0.0003,
      "loss": 11.1729,
      "loss/aux_loss": 0.04806866105645895,
      "loss/crossentropy": 2.523072302341461,
      "loss/logits": 0.809576940536499,
      "step": 48980
    },
    {
      "epoch": 0.4899,
      "grad_norm": 14.5625,
      "grad_norm_var": 2.4712890625,
      "learning_rate": 0.0003,
      "loss": 10.9139,
      "loss/aux_loss": 0.0480740724131465,
      "loss/crossentropy": 2.5105146706104278,
      "loss/logits": 0.8070461362600326,
      "step": 48990
    },
    {
      "epoch": 0.49,
      "grad_norm": 14.125,
      "grad_norm_var": 0.3726399739583333,
      "learning_rate": 0.0003,
      "loss": 10.9705,
      "loss/aux_loss": 0.048071536049246785,
      "loss/crossentropy": 2.8065383076667785,
      "loss/logits": 0.8255183070898056,
      "step": 49000
    },
    {
      "epoch": 0.4901,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.33917643229166666,
      "learning_rate": 0.0003,
      "loss": 11.1304,
      "loss/aux_loss": 0.048070686869323254,
      "loss/crossentropy": 2.783307147026062,
      "loss/logits": 0.817973655462265,
      "step": 49010
    },
    {
      "epoch": 0.4902,
      "grad_norm": 13.25,
      "grad_norm_var": 0.7018229166666666,
      "learning_rate": 0.0003,
      "loss": 11.1179,
      "loss/aux_loss": 0.048075612261891366,
      "loss/crossentropy": 2.7615358352661135,
      "loss/logits": 0.8785318732261658,
      "step": 49020
    },
    {
      "epoch": 0.4903,
      "grad_norm": 14.0,
      "grad_norm_var": 0.8627604166666667,
      "learning_rate": 0.0003,
      "loss": 11.1486,
      "loss/aux_loss": 0.04808089416474104,
      "loss/crossentropy": 2.7252781689167023,
      "loss/logits": 0.8219867736101151,
      "step": 49030
    },
    {
      "epoch": 0.4904,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.7822916666666667,
      "learning_rate": 0.0003,
      "loss": 10.9766,
      "loss/aux_loss": 0.048066638968884946,
      "loss/crossentropy": 2.6021959662437437,
      "loss/logits": 0.8107183337211609,
      "step": 49040
    },
    {
      "epoch": 0.4905,
      "grad_norm": 14.25,
      "grad_norm_var": 0.6675618489583334,
      "learning_rate": 0.0003,
      "loss": 11.0778,
      "loss/aux_loss": 0.04807810839265585,
      "loss/crossentropy": 2.7399057030677794,
      "loss/logits": 0.8506060719490052,
      "step": 49050
    },
    {
      "epoch": 0.4906,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.299853515625,
      "learning_rate": 0.0003,
      "loss": 10.9571,
      "loss/aux_loss": 0.04807314686477184,
      "loss/crossentropy": 2.8067448258399965,
      "loss/logits": 0.8424109250307084,
      "step": 49060
    },
    {
      "epoch": 0.4907,
      "grad_norm": 15.125,
      "grad_norm_var": 0.6353515625,
      "learning_rate": 0.0003,
      "loss": 11.0461,
      "loss/aux_loss": 0.048080555908381936,
      "loss/crossentropy": 2.6311775505542756,
      "loss/logits": 0.8175216227769851,
      "step": 49070
    },
    {
      "epoch": 0.4908,
      "grad_norm": 13.125,
      "grad_norm_var": 1538.88359375,
      "learning_rate": 0.0003,
      "loss": 11.1342,
      "loss/aux_loss": 0.04807594697922468,
      "loss/crossentropy": 2.646185690164566,
      "loss/logits": 0.8125636070966721,
      "step": 49080
    },
    {
      "epoch": 0.4909,
      "grad_norm": 13.75,
      "grad_norm_var": 0.865087890625,
      "learning_rate": 0.0003,
      "loss": 11.1334,
      "loss/aux_loss": 0.04806858729571104,
      "loss/crossentropy": 2.7989614844322204,
      "loss/logits": 0.825323560833931,
      "step": 49090
    },
    {
      "epoch": 0.491,
      "grad_norm": 14.75,
      "grad_norm_var": 0.31197916666666664,
      "learning_rate": 0.0003,
      "loss": 11.1018,
      "loss/aux_loss": 0.04807522725313902,
      "loss/crossentropy": 2.722189944982529,
      "loss/logits": 0.8272465378046036,
      "step": 49100
    },
    {
      "epoch": 0.4911,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.37180989583333335,
      "learning_rate": 0.0003,
      "loss": 11.0668,
      "loss/aux_loss": 0.048069358244538306,
      "loss/crossentropy": 2.7910789966583254,
      "loss/logits": 0.8452953428030014,
      "step": 49110
    },
    {
      "epoch": 0.4912,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.38430989583333336,
      "learning_rate": 0.0003,
      "loss": 11.0669,
      "loss/aux_loss": 0.04807008057832718,
      "loss/crossentropy": 2.660131776332855,
      "loss/logits": 0.8045534908771514,
      "step": 49120
    },
    {
      "epoch": 0.4913,
      "grad_norm": 13.875,
      "grad_norm_var": 1.168603515625,
      "learning_rate": 0.0003,
      "loss": 10.9811,
      "loss/aux_loss": 0.048069944977760314,
      "loss/crossentropy": 2.664647787809372,
      "loss/logits": 0.8101317912340165,
      "step": 49130
    },
    {
      "epoch": 0.4914,
      "grad_norm": 14.875,
      "grad_norm_var": 1.0976399739583333,
      "learning_rate": 0.0003,
      "loss": 11.0029,
      "loss/aux_loss": 0.04808374773710966,
      "loss/crossentropy": 2.6824153780937197,
      "loss/logits": 0.8375868052244186,
      "step": 49140
    },
    {
      "epoch": 0.4915,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.1554524739583334,
      "learning_rate": 0.0003,
      "loss": 11.1305,
      "loss/aux_loss": 0.04806366134434938,
      "loss/crossentropy": 2.7819727063179016,
      "loss/logits": 0.848738157749176,
      "step": 49150
    },
    {
      "epoch": 0.4916,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.650634765625,
      "learning_rate": 0.0003,
      "loss": 11.2014,
      "loss/aux_loss": 0.048080661334097385,
      "loss/crossentropy": 2.6901016354560854,
      "loss/logits": 0.850712725520134,
      "step": 49160
    },
    {
      "epoch": 0.4917,
      "grad_norm": 14.1875,
      "grad_norm_var": 7.600634765625,
      "learning_rate": 0.0003,
      "loss": 11.1302,
      "loss/aux_loss": 0.04806759636849165,
      "loss/crossentropy": 2.750749206542969,
      "loss/logits": 0.8357772469520569,
      "step": 49170
    },
    {
      "epoch": 0.4918,
      "grad_norm": 16.625,
      "grad_norm_var": 15.297330729166667,
      "learning_rate": 0.0003,
      "loss": 11.0257,
      "loss/aux_loss": 0.048100476153194904,
      "loss/crossentropy": 2.585780292749405,
      "loss/logits": 0.7976143449544907,
      "step": 49180
    },
    {
      "epoch": 0.4919,
      "grad_norm": 16.875,
      "grad_norm_var": 8.941259765625,
      "learning_rate": 0.0003,
      "loss": 11.1719,
      "loss/aux_loss": 0.048067899979650976,
      "loss/crossentropy": 2.7343214392662047,
      "loss/logits": 0.835987788438797,
      "step": 49190
    },
    {
      "epoch": 0.492,
      "grad_norm": 15.375,
      "grad_norm_var": 0.9044270833333333,
      "learning_rate": 0.0003,
      "loss": 11.0691,
      "loss/aux_loss": 0.04807320646941662,
      "loss/crossentropy": 2.6477014422416687,
      "loss/logits": 0.8445640474557876,
      "step": 49200
    },
    {
      "epoch": 0.4921,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.6184733072916667,
      "learning_rate": 0.0003,
      "loss": 11.0543,
      "loss/aux_loss": 0.048070452734828,
      "loss/crossentropy": 2.7898465573787687,
      "loss/logits": 0.8426847785711289,
      "step": 49210
    },
    {
      "epoch": 0.4922,
      "grad_norm": 16.75,
      "grad_norm_var": 0.6379557291666667,
      "learning_rate": 0.0003,
      "loss": 11.094,
      "loss/aux_loss": 0.04807724431157112,
      "loss/crossentropy": 2.6970956563949584,
      "loss/logits": 0.8135352551937103,
      "step": 49220
    },
    {
      "epoch": 0.4923,
      "grad_norm": 16.125,
      "grad_norm_var": 1.0978515625,
      "learning_rate": 0.0003,
      "loss": 11.1644,
      "loss/aux_loss": 0.048074241168797015,
      "loss/crossentropy": 2.668863868713379,
      "loss/logits": 0.803708478808403,
      "step": 49230
    },
    {
      "epoch": 0.4924,
      "grad_norm": 14.25,
      "grad_norm_var": 0.9801432291666666,
      "learning_rate": 0.0003,
      "loss": 11.1072,
      "loss/aux_loss": 0.04808567836880684,
      "loss/crossentropy": 2.7105720579624175,
      "loss/logits": 0.8392592817544937,
      "step": 49240
    },
    {
      "epoch": 0.4925,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.61328125,
      "learning_rate": 0.0003,
      "loss": 11.1155,
      "loss/aux_loss": 0.04807297699153423,
      "loss/crossentropy": 2.7127108812332152,
      "loss/logits": 0.8241129338741302,
      "step": 49250
    },
    {
      "epoch": 0.4926,
      "grad_norm": 13.875,
      "grad_norm_var": 1.4054524739583334,
      "learning_rate": 0.0003,
      "loss": 10.8193,
      "loss/aux_loss": 0.04807514287531376,
      "loss/crossentropy": 2.4936522424221037,
      "loss/logits": 0.7675803631544114,
      "step": 49260
    },
    {
      "epoch": 0.4927,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.5218098958333334,
      "learning_rate": 0.0003,
      "loss": 11.0741,
      "loss/aux_loss": 0.0480735182762146,
      "loss/crossentropy": 2.5747238457202912,
      "loss/logits": 0.825323086977005,
      "step": 49270
    },
    {
      "epoch": 0.4928,
      "grad_norm": 14.75,
      "grad_norm_var": 0.5516764322916666,
      "learning_rate": 0.0003,
      "loss": 10.9145,
      "loss/aux_loss": 0.048077659122645854,
      "loss/crossentropy": 2.6410838782787325,
      "loss/logits": 0.7915389269590378,
      "step": 49280
    },
    {
      "epoch": 0.4929,
      "grad_norm": 14.25,
      "grad_norm_var": 1.9891764322916667,
      "learning_rate": 0.0003,
      "loss": 11.1417,
      "loss/aux_loss": 0.04807187095284462,
      "loss/crossentropy": 2.687062478065491,
      "loss/logits": 0.842128136754036,
      "step": 49290
    },
    {
      "epoch": 0.493,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.7817545572916667,
      "learning_rate": 0.0003,
      "loss": 11.1977,
      "loss/aux_loss": 0.048072554357349875,
      "loss/crossentropy": 2.6798668265342713,
      "loss/logits": 0.8448872178792953,
      "step": 49300
    },
    {
      "epoch": 0.4931,
      "grad_norm": 15.625,
      "grad_norm_var": 2.8541666666666665,
      "learning_rate": 0.0003,
      "loss": 11.2154,
      "loss/aux_loss": 0.04807398393750191,
      "loss/crossentropy": 2.708115738630295,
      "loss/logits": 0.8346493154764175,
      "step": 49310
    },
    {
      "epoch": 0.4932,
      "grad_norm": 15.4375,
      "grad_norm_var": 3.0263020833333334,
      "learning_rate": 0.0003,
      "loss": 11.0153,
      "loss/aux_loss": 0.04807023722678423,
      "loss/crossentropy": 2.7580654978752137,
      "loss/logits": 0.8456075847148895,
      "step": 49320
    },
    {
      "epoch": 0.4933,
      "grad_norm": 14.25,
      "grad_norm_var": 0.3138020833333333,
      "learning_rate": 0.0003,
      "loss": 10.9872,
      "loss/aux_loss": 0.04807710256427526,
      "loss/crossentropy": 2.983762502670288,
      "loss/logits": 0.8636047869920731,
      "step": 49330
    },
    {
      "epoch": 0.4934,
      "grad_norm": 14.8125,
      "grad_norm_var": 1.1015462239583333,
      "learning_rate": 0.0003,
      "loss": 10.9637,
      "loss/aux_loss": 0.04806807395070791,
      "loss/crossentropy": 2.467972230911255,
      "loss/logits": 0.7947597026824951,
      "step": 49340
    },
    {
      "epoch": 0.4935,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.37628580729166666,
      "learning_rate": 0.0003,
      "loss": 11.0743,
      "loss/aux_loss": 0.04806096330285072,
      "loss/crossentropy": 2.7554059624671936,
      "loss/logits": 0.8382692068815232,
      "step": 49350
    },
    {
      "epoch": 0.4936,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.47708333333333336,
      "learning_rate": 0.0003,
      "loss": 10.9667,
      "loss/aux_loss": 0.04808943476527929,
      "loss/crossentropy": 2.6665013074874877,
      "loss/logits": 0.8158300817012787,
      "step": 49360
    },
    {
      "epoch": 0.4937,
      "grad_norm": 14.5,
      "grad_norm_var": 0.49152018229166666,
      "learning_rate": 0.0003,
      "loss": 10.8597,
      "loss/aux_loss": 0.0480616694316268,
      "loss/crossentropy": 2.788412946462631,
      "loss/logits": 0.8223504841327667,
      "step": 49370
    },
    {
      "epoch": 0.4938,
      "grad_norm": 13.375,
      "grad_norm_var": 0.46087239583333334,
      "learning_rate": 0.0003,
      "loss": 11.2213,
      "loss/aux_loss": 0.04808288011699915,
      "loss/crossentropy": 2.643638551235199,
      "loss/logits": 0.8171029478311539,
      "step": 49380
    },
    {
      "epoch": 0.4939,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.3973795572916667,
      "learning_rate": 0.0003,
      "loss": 10.9418,
      "loss/aux_loss": 0.04807625114917755,
      "loss/crossentropy": 2.7338321208953857,
      "loss/logits": 0.8375842243432998,
      "step": 49390
    },
    {
      "epoch": 0.494,
      "grad_norm": 14.6875,
      "grad_norm_var": 2.592431640625,
      "learning_rate": 0.0003,
      "loss": 11.3181,
      "loss/aux_loss": 0.04807534031569958,
      "loss/crossentropy": 2.6576287031173704,
      "loss/logits": 0.8461039811372757,
      "step": 49400
    },
    {
      "epoch": 0.4941,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.3700358072916667,
      "learning_rate": 0.0003,
      "loss": 10.883,
      "loss/aux_loss": 0.04808159098029137,
      "loss/crossentropy": 2.8762070536613464,
      "loss/logits": 0.8369950473308563,
      "step": 49410
    },
    {
      "epoch": 0.4942,
      "grad_norm": 14.25,
      "grad_norm_var": 0.33326822916666665,
      "learning_rate": 0.0003,
      "loss": 11.0212,
      "loss/aux_loss": 0.04807743299752474,
      "loss/crossentropy": 2.612814891338348,
      "loss/logits": 0.7918889284133911,
      "step": 49420
    },
    {
      "epoch": 0.4943,
      "grad_norm": 14.8125,
      "grad_norm_var": 6.32265625,
      "learning_rate": 0.0003,
      "loss": 11.0833,
      "loss/aux_loss": 0.04807397872209549,
      "loss/crossentropy": 2.7480882346630096,
      "loss/logits": 0.837815847992897,
      "step": 49430
    },
    {
      "epoch": 0.4944,
      "grad_norm": 14.5625,
      "grad_norm_var": 5.894905598958333,
      "learning_rate": 0.0003,
      "loss": 11.1483,
      "loss/aux_loss": 0.04806387610733509,
      "loss/crossentropy": 2.7095935344696045,
      "loss/logits": 0.8372041195631027,
      "step": 49440
    },
    {
      "epoch": 0.4945,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.7262858072916667,
      "learning_rate": 0.0003,
      "loss": 10.9738,
      "loss/aux_loss": 0.048079794831573965,
      "loss/crossentropy": 2.595053482055664,
      "loss/logits": 0.8303221762180328,
      "step": 49450
    },
    {
      "epoch": 0.4946,
      "grad_norm": 15.0,
      "grad_norm_var": 0.693212890625,
      "learning_rate": 0.0003,
      "loss": 11.1594,
      "loss/aux_loss": 0.04807852059602737,
      "loss/crossentropy": 2.8263864398002623,
      "loss/logits": 0.8446054220199585,
      "step": 49460
    },
    {
      "epoch": 0.4947,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.38865559895833335,
      "learning_rate": 0.0003,
      "loss": 11.0476,
      "loss/aux_loss": 0.04807306993752718,
      "loss/crossentropy": 2.781277060508728,
      "loss/logits": 0.8279220938682557,
      "step": 49470
    },
    {
      "epoch": 0.4948,
      "grad_norm": 13.25,
      "grad_norm_var": 0.8374837239583334,
      "learning_rate": 0.0003,
      "loss": 11.0972,
      "loss/aux_loss": 0.0480706974864006,
      "loss/crossentropy": 2.7130113363265993,
      "loss/logits": 0.8263016819953919,
      "step": 49480
    },
    {
      "epoch": 0.4949,
      "grad_norm": 15.375,
      "grad_norm_var": 0.3653645833333333,
      "learning_rate": 0.0003,
      "loss": 11.1089,
      "loss/aux_loss": 0.04807698726654053,
      "loss/crossentropy": 2.870068061351776,
      "loss/logits": 0.8862683087587356,
      "step": 49490
    },
    {
      "epoch": 0.495,
      "grad_norm": 14.625,
      "grad_norm_var": 0.790625,
      "learning_rate": 0.0003,
      "loss": 11.0814,
      "loss/aux_loss": 0.04808134399354458,
      "loss/crossentropy": 2.724984419345856,
      "loss/logits": 0.8414475739002227,
      "step": 49500
    },
    {
      "epoch": 0.4951,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.5382649739583333,
      "learning_rate": 0.0003,
      "loss": 11.0471,
      "loss/aux_loss": 0.04806778896600008,
      "loss/crossentropy": 2.652865248918533,
      "loss/logits": 0.8197323232889175,
      "step": 49510
    },
    {
      "epoch": 0.4952,
      "grad_norm": 14.625,
      "grad_norm_var": 0.4546712239583333,
      "learning_rate": 0.0003,
      "loss": 11.051,
      "loss/aux_loss": 0.04808030594140291,
      "loss/crossentropy": 2.7049909591674806,
      "loss/logits": 0.8460562914609909,
      "step": 49520
    },
    {
      "epoch": 0.4953,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.0590983072916667,
      "learning_rate": 0.0003,
      "loss": 10.8739,
      "loss/aux_loss": 0.0480698561295867,
      "loss/crossentropy": 2.702311968803406,
      "loss/logits": 0.8319470345973968,
      "step": 49530
    },
    {
      "epoch": 0.4954,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.3048014322916666,
      "learning_rate": 0.0003,
      "loss": 11.0651,
      "loss/aux_loss": 0.048078288696706294,
      "loss/crossentropy": 2.6818348348140715,
      "loss/logits": 0.8396122336387635,
      "step": 49540
    },
    {
      "epoch": 0.4955,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.73203125,
      "learning_rate": 0.0003,
      "loss": 11.0647,
      "loss/aux_loss": 0.04807879626750946,
      "loss/crossentropy": 2.7367110908031465,
      "loss/logits": 0.824239781498909,
      "step": 49550
    },
    {
      "epoch": 0.4956,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.648291015625,
      "learning_rate": 0.0003,
      "loss": 10.9588,
      "loss/aux_loss": 0.04806343484669924,
      "loss/crossentropy": 2.6144358277320863,
      "loss/logits": 0.8504854917526246,
      "step": 49560
    },
    {
      "epoch": 0.4957,
      "grad_norm": 14.5,
      "grad_norm_var": 0.9452473958333333,
      "learning_rate": 0.0003,
      "loss": 11.0769,
      "loss/aux_loss": 0.0480787593871355,
      "loss/crossentropy": 2.649821126461029,
      "loss/logits": 0.8459902018308639,
      "step": 49570
    },
    {
      "epoch": 0.4958,
      "grad_norm": 15.375,
      "grad_norm_var": 0.488134765625,
      "learning_rate": 0.0003,
      "loss": 11.1721,
      "loss/aux_loss": 0.04807934109121561,
      "loss/crossentropy": 2.710836374759674,
      "loss/logits": 0.8465037196874619,
      "step": 49580
    },
    {
      "epoch": 0.4959,
      "grad_norm": 14.25,
      "grad_norm_var": 0.59921875,
      "learning_rate": 0.0003,
      "loss": 10.9767,
      "loss/aux_loss": 0.04806499667465687,
      "loss/crossentropy": 2.8792532682418823,
      "loss/logits": 0.8230845898389816,
      "step": 49590
    },
    {
      "epoch": 0.496,
      "grad_norm": 16.25,
      "grad_norm_var": 1.7556640625,
      "learning_rate": 0.0003,
      "loss": 11.0328,
      "loss/aux_loss": 0.04807982686907053,
      "loss/crossentropy": 2.6688818752765657,
      "loss/logits": 0.8213403493165969,
      "step": 49600
    },
    {
      "epoch": 0.4961,
      "grad_norm": 13.375,
      "grad_norm_var": 1.2947265625,
      "learning_rate": 0.0003,
      "loss": 11.1903,
      "loss/aux_loss": 0.04807685986161232,
      "loss/crossentropy": 2.7829610109329224,
      "loss/logits": 0.8443383306264878,
      "step": 49610
    },
    {
      "epoch": 0.4962,
      "grad_norm": 14.0,
      "grad_norm_var": 0.4874348958333333,
      "learning_rate": 0.0003,
      "loss": 10.9827,
      "loss/aux_loss": 0.048072018660604954,
      "loss/crossentropy": 2.6003858983516692,
      "loss/logits": 0.823526531457901,
      "step": 49620
    },
    {
      "epoch": 0.4963,
      "grad_norm": 14.375,
      "grad_norm_var": 0.306494140625,
      "learning_rate": 0.0003,
      "loss": 11.0844,
      "loss/aux_loss": 0.04806656241416931,
      "loss/crossentropy": 2.573668730258942,
      "loss/logits": 0.818437111377716,
      "step": 49630
    },
    {
      "epoch": 0.4964,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.44073893229166666,
      "learning_rate": 0.0003,
      "loss": 10.9656,
      "loss/aux_loss": 0.04807706866413355,
      "loss/crossentropy": 2.759202075004578,
      "loss/logits": 0.840299728512764,
      "step": 49640
    },
    {
      "epoch": 0.4965,
      "grad_norm": 14.375,
      "grad_norm_var": 0.4557291666666667,
      "learning_rate": 0.0003,
      "loss": 11.0086,
      "loss/aux_loss": 0.0480681087821722,
      "loss/crossentropy": 2.6497737407684325,
      "loss/logits": 0.8393264710903168,
      "step": 49650
    },
    {
      "epoch": 0.4966,
      "grad_norm": 14.0,
      "grad_norm_var": 0.43474934895833334,
      "learning_rate": 0.0003,
      "loss": 11.1813,
      "loss/aux_loss": 0.048070674762129784,
      "loss/crossentropy": 2.611664170026779,
      "loss/logits": 0.8550961494445801,
      "step": 49660
    },
    {
      "epoch": 0.4967,
      "grad_norm": 15.375,
      "grad_norm_var": 10.99765625,
      "learning_rate": 0.0003,
      "loss": 11.1897,
      "loss/aux_loss": 0.048074728436768056,
      "loss/crossentropy": 2.723458409309387,
      "loss/logits": 0.842160576581955,
      "step": 49670
    },
    {
      "epoch": 0.4968,
      "grad_norm": 15.625,
      "grad_norm_var": 0.83046875,
      "learning_rate": 0.0003,
      "loss": 11.0535,
      "loss/aux_loss": 0.048070961609482765,
      "loss/crossentropy": 2.845665168762207,
      "loss/logits": 0.8630867063999176,
      "step": 49680
    },
    {
      "epoch": 0.4969,
      "grad_norm": 15.5,
      "grad_norm_var": 3.896614583333333,
      "learning_rate": 0.0003,
      "loss": 11.1466,
      "loss/aux_loss": 0.048077776283025744,
      "loss/crossentropy": 2.748256707191467,
      "loss/logits": 0.8359945237636566,
      "step": 49690
    },
    {
      "epoch": 0.497,
      "grad_norm": 14.25,
      "grad_norm_var": 1.504931640625,
      "learning_rate": 0.0003,
      "loss": 11.1832,
      "loss/aux_loss": 0.04807632230222225,
      "loss/crossentropy": 2.6894050359725954,
      "loss/logits": 0.8393000155687332,
      "step": 49700
    },
    {
      "epoch": 0.4971,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.5921223958333333,
      "learning_rate": 0.0003,
      "loss": 11.2199,
      "loss/aux_loss": 0.04806073512881994,
      "loss/crossentropy": 2.835462886095047,
      "loss/logits": 0.8458648949861527,
      "step": 49710
    },
    {
      "epoch": 0.4972,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.45078125,
      "learning_rate": 0.0003,
      "loss": 11.07,
      "loss/aux_loss": 0.048081550374627115,
      "loss/crossentropy": 2.640725481510162,
      "loss/logits": 0.8050734728574753,
      "step": 49720
    },
    {
      "epoch": 0.4973,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.299853515625,
      "learning_rate": 0.0003,
      "loss": 10.9709,
      "loss/aux_loss": 0.04808553606271744,
      "loss/crossentropy": 2.663204771280289,
      "loss/logits": 0.7960788905620575,
      "step": 49730
    },
    {
      "epoch": 0.4974,
      "grad_norm": 15.25,
      "grad_norm_var": 60.1416015625,
      "learning_rate": 0.0003,
      "loss": 11.0414,
      "loss/aux_loss": 0.04805216509848833,
      "loss/crossentropy": 2.5938608229160307,
      "loss/logits": 0.8149016201496124,
      "step": 49740
    },
    {
      "epoch": 0.4975,
      "grad_norm": 13.875,
      "grad_norm_var": 59.84060872395833,
      "learning_rate": 0.0003,
      "loss": 11.2352,
      "loss/aux_loss": 0.048083586245775224,
      "loss/crossentropy": 2.6643555045127867,
      "loss/logits": 0.815577107667923,
      "step": 49750
    },
    {
      "epoch": 0.4976,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.23645833333333333,
      "learning_rate": 0.0003,
      "loss": 10.9069,
      "loss/aux_loss": 0.048074550181627276,
      "loss/crossentropy": 2.618529570102692,
      "loss/logits": 0.8274006098508835,
      "step": 49760
    },
    {
      "epoch": 0.4977,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.4942708333333333,
      "learning_rate": 0.0003,
      "loss": 11.1073,
      "loss/aux_loss": 0.04806795679032803,
      "loss/crossentropy": 2.694086503982544,
      "loss/logits": 0.8305206030607224,
      "step": 49770
    },
    {
      "epoch": 0.4978,
      "grad_norm": 14.25,
      "grad_norm_var": 0.37107747395833335,
      "learning_rate": 0.0003,
      "loss": 11.1821,
      "loss/aux_loss": 0.048074840754270556,
      "loss/crossentropy": 2.715044713020325,
      "loss/logits": 0.8461979001760482,
      "step": 49780
    },
    {
      "epoch": 0.4979,
      "grad_norm": 14.5,
      "grad_norm_var": 0.7588541666666667,
      "learning_rate": 0.0003,
      "loss": 11.1215,
      "loss/aux_loss": 0.048070978559553626,
      "loss/crossentropy": 2.643089586496353,
      "loss/logits": 0.806346595287323,
      "step": 49790
    },
    {
      "epoch": 0.498,
      "grad_norm": 28.625,
      "grad_norm_var": 12.72578125,
      "learning_rate": 0.0003,
      "loss": 11.1285,
      "loss/aux_loss": 0.048064558580517766,
      "loss/crossentropy": 2.699583125114441,
      "loss/logits": 0.8594643115997315,
      "step": 49800
    },
    {
      "epoch": 0.4981,
      "grad_norm": 14.6875,
      "grad_norm_var": 13.309309895833334,
      "learning_rate": 0.0003,
      "loss": 11.0075,
      "loss/aux_loss": 0.04808203764259815,
      "loss/crossentropy": 2.7328962683677673,
      "loss/logits": 0.8031840980052948,
      "step": 49810
    },
    {
      "epoch": 0.4982,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.5218098958333334,
      "learning_rate": 0.0003,
      "loss": 11.2001,
      "loss/aux_loss": 0.04806886278092861,
      "loss/crossentropy": 2.808696722984314,
      "loss/logits": 0.8115378528833389,
      "step": 49820
    },
    {
      "epoch": 0.4983,
      "grad_norm": 15.0,
      "grad_norm_var": 0.32745768229166666,
      "learning_rate": 0.0003,
      "loss": 10.9526,
      "loss/aux_loss": 0.04807125814259052,
      "loss/crossentropy": 2.6571006894111635,
      "loss/logits": 0.8229701191186904,
      "step": 49830
    },
    {
      "epoch": 0.4984,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.766259765625,
      "learning_rate": 0.0003,
      "loss": 11.1019,
      "loss/aux_loss": 0.04808720909059048,
      "loss/crossentropy": 2.7945067286491394,
      "loss/logits": 0.8268558502197265,
      "step": 49840
    },
    {
      "epoch": 0.4985,
      "grad_norm": 15.375,
      "grad_norm_var": 0.4476399739583333,
      "learning_rate": 0.0003,
      "loss": 10.9448,
      "loss/aux_loss": 0.04806675110012293,
      "loss/crossentropy": 2.5788372695446014,
      "loss/logits": 0.7906678229570389,
      "step": 49850
    },
    {
      "epoch": 0.4986,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.4019368489583333,
      "learning_rate": 0.0003,
      "loss": 11.1355,
      "loss/aux_loss": 0.04806358329951763,
      "loss/crossentropy": 2.6663641929626465,
      "loss/logits": 0.8542564064264297,
      "step": 49860
    },
    {
      "epoch": 0.4987,
      "grad_norm": 13.875,
      "grad_norm_var": 0.32864583333333336,
      "learning_rate": 0.0003,
      "loss": 11.111,
      "loss/aux_loss": 0.04807950519025326,
      "loss/crossentropy": 2.5420661509037017,
      "loss/logits": 0.8125041216611862,
      "step": 49870
    },
    {
      "epoch": 0.4988,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.3811848958333333,
      "learning_rate": 0.0003,
      "loss": 11.1871,
      "loss/aux_loss": 0.04807094018906355,
      "loss/crossentropy": 2.7237226247787474,
      "loss/logits": 0.8434429466724396,
      "step": 49880
    },
    {
      "epoch": 0.4989,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.6645670572916667,
      "learning_rate": 0.0003,
      "loss": 11.0105,
      "loss/aux_loss": 0.0480699697509408,
      "loss/crossentropy": 2.797856557369232,
      "loss/logits": 0.8193605899810791,
      "step": 49890
    },
    {
      "epoch": 0.499,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.38800455729166666,
      "learning_rate": 0.0003,
      "loss": 11.002,
      "loss/aux_loss": 0.048073521442711355,
      "loss/crossentropy": 2.7964406251907348,
      "loss/logits": 0.8461063802242279,
      "step": 49900
    },
    {
      "epoch": 0.4991,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.3094889322916667,
      "learning_rate": 0.0003,
      "loss": 11.2589,
      "loss/aux_loss": 0.04806688260287047,
      "loss/crossentropy": 2.6836509346961974,
      "loss/logits": 0.821695277094841,
      "step": 49910
    },
    {
      "epoch": 0.4992,
      "grad_norm": 15.125,
      "grad_norm_var": 0.240478515625,
      "learning_rate": 0.0003,
      "loss": 11.0785,
      "loss/aux_loss": 0.048078537732362744,
      "loss/crossentropy": 2.5942283451557158,
      "loss/logits": 0.8679295003414154,
      "step": 49920
    },
    {
      "epoch": 0.4993,
      "grad_norm": 15.0,
      "grad_norm_var": 0.33058268229166665,
      "learning_rate": 0.0003,
      "loss": 11.1418,
      "loss/aux_loss": 0.0480769170448184,
      "loss/crossentropy": 2.7477990865707396,
      "loss/logits": 0.8367729008197784,
      "step": 49930
    },
    {
      "epoch": 0.4994,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.8858723958333333,
      "learning_rate": 0.0003,
      "loss": 10.927,
      "loss/aux_loss": 0.04806565400213003,
      "loss/crossentropy": 2.6473158240318297,
      "loss/logits": 0.8119089126586914,
      "step": 49940
    },
    {
      "epoch": 0.4995,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.5980305989583333,
      "learning_rate": 0.0003,
      "loss": 11.1737,
      "loss/aux_loss": 0.04807810839265585,
      "loss/crossentropy": 2.774595522880554,
      "loss/logits": 0.8349743068218232,
      "step": 49950
    },
    {
      "epoch": 0.4996,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.6206868489583334,
      "learning_rate": 0.0003,
      "loss": 11.195,
      "loss/aux_loss": 0.04806303158402443,
      "loss/crossentropy": 2.6357213258743286,
      "loss/logits": 0.8456666976213455,
      "step": 49960
    },
    {
      "epoch": 0.4997,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.9304524739583333,
      "learning_rate": 0.0003,
      "loss": 10.9898,
      "loss/aux_loss": 0.048077212646603584,
      "loss/crossentropy": 2.6961658537387847,
      "loss/logits": 0.8146316468715668,
      "step": 49970
    },
    {
      "epoch": 0.4998,
      "grad_norm": 13.25,
      "grad_norm_var": 0.326025390625,
      "learning_rate": 0.0003,
      "loss": 11.0497,
      "loss/aux_loss": 0.0480698449537158,
      "loss/crossentropy": 2.809601533412933,
      "loss/logits": 0.8374509602785111,
      "step": 49980
    },
    {
      "epoch": 0.4999,
      "grad_norm": 13.75,
      "grad_norm_var": 0.523291015625,
      "learning_rate": 0.0003,
      "loss": 11.1053,
      "loss/aux_loss": 0.0480751309543848,
      "loss/crossentropy": 2.734011006355286,
      "loss/logits": 0.8388842344284058,
      "step": 49990
    },
    {
      "epoch": 0.5,
      "grad_norm": 15.5,
      "grad_norm_var": 0.29791666666666666,
      "learning_rate": 0.0003,
      "loss": 11.0715,
      "loss/aux_loss": 0.04807236734777689,
      "loss/crossentropy": 2.8549141943454743,
      "loss/logits": 0.8532051771879197,
      "step": 50000
    },
    {
      "epoch": 0.5001,
      "grad_norm": 15.375,
      "grad_norm_var": 0.7484212239583333,
      "learning_rate": 0.0003,
      "loss": 11.1863,
      "loss/aux_loss": 0.0480760183185339,
      "loss/crossentropy": 2.526221138238907,
      "loss/logits": 0.8279460847377778,
      "step": 50010
    },
    {
      "epoch": 0.5002,
      "grad_norm": 14.75,
      "grad_norm_var": 0.8884765625,
      "learning_rate": 0.0003,
      "loss": 11.0844,
      "loss/aux_loss": 0.04807603172957897,
      "loss/crossentropy": 2.786004549264908,
      "loss/logits": 0.8343773394823074,
      "step": 50020
    },
    {
      "epoch": 0.5003,
      "grad_norm": 14.75,
      "grad_norm_var": 0.40234375,
      "learning_rate": 0.0003,
      "loss": 11.1362,
      "loss/aux_loss": 0.04807902593165636,
      "loss/crossentropy": 2.614196312427521,
      "loss/logits": 0.8386217921972274,
      "step": 50030
    },
    {
      "epoch": 0.5004,
      "grad_norm": 14.25,
      "grad_norm_var": 0.4337076822916667,
      "learning_rate": 0.0003,
      "loss": 11.0241,
      "loss/aux_loss": 0.048064802400767805,
      "loss/crossentropy": 2.7048224210739136,
      "loss/logits": 0.8228438705205917,
      "step": 50040
    },
    {
      "epoch": 0.5005,
      "grad_norm": 15.4375,
      "grad_norm_var": 188.100244140625,
      "learning_rate": 0.0003,
      "loss": 11.1056,
      "loss/aux_loss": 0.04807979743927717,
      "loss/crossentropy": 2.6778744578361513,
      "loss/logits": 0.8488940119743347,
      "step": 50050
    },
    {
      "epoch": 0.5006,
      "grad_norm": 16.875,
      "grad_norm_var": 2.1015625,
      "learning_rate": 0.0003,
      "loss": 11.0635,
      "loss/aux_loss": 0.0480663301423192,
      "loss/crossentropy": 2.6144404113292694,
      "loss/logits": 0.7824886530637741,
      "step": 50060
    },
    {
      "epoch": 0.5007,
      "grad_norm": 16.5,
      "grad_norm_var": 0.9775390625,
      "learning_rate": 0.0003,
      "loss": 11.13,
      "loss/aux_loss": 0.048070177994668485,
      "loss/crossentropy": 2.738340699672699,
      "loss/logits": 0.823601758480072,
      "step": 50070
    },
    {
      "epoch": 0.5008,
      "grad_norm": 13.0,
      "grad_norm_var": 0.8587076822916667,
      "learning_rate": 0.0003,
      "loss": 11.0701,
      "loss/aux_loss": 0.0480703879147768,
      "loss/crossentropy": 2.7732195377349855,
      "loss/logits": 0.8485528379678726,
      "step": 50080
    },
    {
      "epoch": 0.5009,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.47902018229166665,
      "learning_rate": 0.0003,
      "loss": 10.9742,
      "loss/aux_loss": 0.04807235468178987,
      "loss/crossentropy": 2.750224161148071,
      "loss/logits": 0.8227509766817093,
      "step": 50090
    },
    {
      "epoch": 0.501,
      "grad_norm": 13.0625,
      "grad_norm_var": 0.8212076822916666,
      "learning_rate": 0.0003,
      "loss": 11.0486,
      "loss/aux_loss": 0.048071041516959664,
      "loss/crossentropy": 2.774020862579346,
      "loss/logits": 0.8568490296602249,
      "step": 50100
    },
    {
      "epoch": 0.5011,
      "grad_norm": 14.25,
      "grad_norm_var": 0.4593587239583333,
      "learning_rate": 0.0003,
      "loss": 11.04,
      "loss/aux_loss": 0.048077203519642356,
      "loss/crossentropy": 2.6621095538139343,
      "loss/logits": 0.8019068986177444,
      "step": 50110
    },
    {
      "epoch": 0.5012,
      "grad_norm": 15.0,
      "grad_norm_var": 15.922395833333333,
      "learning_rate": 0.0003,
      "loss": 11.2264,
      "loss/aux_loss": 0.04807031415402889,
      "loss/crossentropy": 2.7066645860671996,
      "loss/logits": 0.8399304032325745,
      "step": 50120
    },
    {
      "epoch": 0.5013,
      "grad_norm": 14.3125,
      "grad_norm_var": 157.83645833333333,
      "learning_rate": 0.0003,
      "loss": 11.1837,
      "loss/aux_loss": 0.048072899132966994,
      "loss/crossentropy": 2.6874527156353,
      "loss/logits": 0.7938042402267456,
      "step": 50130
    },
    {
      "epoch": 0.5014,
      "grad_norm": 14.9375,
      "grad_norm_var": 1.9280598958333333,
      "learning_rate": 0.0003,
      "loss": 11.0273,
      "loss/aux_loss": 0.04807997718453407,
      "loss/crossentropy": 2.8585541009902955,
      "loss/logits": 0.8428541749715805,
      "step": 50140
    },
    {
      "epoch": 0.5015,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.8619140625,
      "learning_rate": 0.0003,
      "loss": 11.1604,
      "loss/aux_loss": 0.04806944746524096,
      "loss/crossentropy": 2.7434488892555238,
      "loss/logits": 0.809849202632904,
      "step": 50150
    },
    {
      "epoch": 0.5016,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5499837239583333,
      "learning_rate": 0.0003,
      "loss": 10.9876,
      "loss/aux_loss": 0.04807947650551796,
      "loss/crossentropy": 2.6629399359226227,
      "loss/logits": 0.8340989917516708,
      "step": 50160
    },
    {
      "epoch": 0.5017,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.3348307291666667,
      "learning_rate": 0.0003,
      "loss": 10.9673,
      "loss/aux_loss": 0.048072699643671515,
      "loss/crossentropy": 2.620541423559189,
      "loss/logits": 0.7972109645605088,
      "step": 50170
    },
    {
      "epoch": 0.5018,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.36451822916666665,
      "learning_rate": 0.0003,
      "loss": 11.0375,
      "loss/aux_loss": 0.04806852545589209,
      "loss/crossentropy": 2.6545013010501863,
      "loss/logits": 0.7923622548580169,
      "step": 50180
    },
    {
      "epoch": 0.5019,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.321875,
      "learning_rate": 0.0003,
      "loss": 11.1828,
      "loss/aux_loss": 0.048075834102928636,
      "loss/crossentropy": 2.8539741396903993,
      "loss/logits": 0.8799011826515197,
      "step": 50190
    },
    {
      "epoch": 0.502,
      "grad_norm": 13.875,
      "grad_norm_var": 0.4442545572916667,
      "learning_rate": 0.0003,
      "loss": 10.9104,
      "loss/aux_loss": 0.04806615300476551,
      "loss/crossentropy": 2.641600948572159,
      "loss/logits": 0.7879884839057922,
      "step": 50200
    },
    {
      "epoch": 0.5021,
      "grad_norm": 16.0,
      "grad_norm_var": 1.0354166666666667,
      "learning_rate": 0.0003,
      "loss": 10.984,
      "loss/aux_loss": 0.04808139093220234,
      "loss/crossentropy": 2.5606437027454376,
      "loss/logits": 0.8123639971017838,
      "step": 50210
    },
    {
      "epoch": 0.5022,
      "grad_norm": 13.75,
      "grad_norm_var": 0.7514973958333333,
      "learning_rate": 0.0003,
      "loss": 11.198,
      "loss/aux_loss": 0.0480662377551198,
      "loss/crossentropy": 2.697253167629242,
      "loss/logits": 0.8449769735336303,
      "step": 50220
    },
    {
      "epoch": 0.5023,
      "grad_norm": 16.375,
      "grad_norm_var": 0.793994140625,
      "learning_rate": 0.0003,
      "loss": 11.1197,
      "loss/aux_loss": 0.04807373005896807,
      "loss/crossentropy": 2.7797034323215484,
      "loss/logits": 0.8115016400814057,
      "step": 50230
    },
    {
      "epoch": 0.5024,
      "grad_norm": 14.5625,
      "grad_norm_var": 269.56243489583335,
      "learning_rate": 0.0003,
      "loss": 11.1053,
      "loss/aux_loss": 0.0480750922113657,
      "loss/crossentropy": 2.799087393283844,
      "loss/logits": 0.8153054699301719,
      "step": 50240
    },
    {
      "epoch": 0.5025,
      "grad_norm": 15.625,
      "grad_norm_var": 267.090625,
      "learning_rate": 0.0003,
      "loss": 11.0676,
      "loss/aux_loss": 0.04806772004812956,
      "loss/crossentropy": 2.7093150496482847,
      "loss/logits": 0.8238262414932251,
      "step": 50250
    },
    {
      "epoch": 0.5026,
      "grad_norm": 16.25,
      "grad_norm_var": 0.7735514322916667,
      "learning_rate": 0.0003,
      "loss": 11.1285,
      "loss/aux_loss": 0.04807775299996138,
      "loss/crossentropy": 2.690925532579422,
      "loss/logits": 0.8347889751195907,
      "step": 50260
    },
    {
      "epoch": 0.5027,
      "grad_norm": 16.5,
      "grad_norm_var": 0.8484212239583333,
      "learning_rate": 0.0003,
      "loss": 11.0363,
      "loss/aux_loss": 0.04806351810693741,
      "loss/crossentropy": 2.7472257018089294,
      "loss/logits": 0.8274175226688385,
      "step": 50270
    },
    {
      "epoch": 0.5028,
      "grad_norm": 18.375,
      "grad_norm_var": 233.536572265625,
      "learning_rate": 0.0003,
      "loss": 11.3035,
      "loss/aux_loss": 0.048083963245153426,
      "loss/crossentropy": 2.9165143728256226,
      "loss/logits": 0.8531142026185989,
      "step": 50280
    },
    {
      "epoch": 0.5029,
      "grad_norm": 13.875,
      "grad_norm_var": 228.95670572916666,
      "learning_rate": 0.0003,
      "loss": 11.0395,
      "loss/aux_loss": 0.048072627559304235,
      "loss/crossentropy": 2.9179752588272097,
      "loss/logits": 0.8547284364700317,
      "step": 50290
    },
    {
      "epoch": 0.503,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.7687337239583334,
      "learning_rate": 0.0003,
      "loss": 11.0327,
      "loss/aux_loss": 0.048072236590087414,
      "loss/crossentropy": 2.6800991177558897,
      "loss/logits": 0.8386821538209915,
      "step": 50300
    },
    {
      "epoch": 0.5031,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.724462890625,
      "learning_rate": 0.0003,
      "loss": 11.1287,
      "loss/aux_loss": 0.04807893894612789,
      "loss/crossentropy": 2.683143067359924,
      "loss/logits": 0.8309021919965744,
      "step": 50310
    },
    {
      "epoch": 0.5032,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.3902180989583333,
      "learning_rate": 0.0003,
      "loss": 10.955,
      "loss/aux_loss": 0.048069473914802076,
      "loss/crossentropy": 2.6512105405330657,
      "loss/logits": 0.8183946311473846,
      "step": 50320
    },
    {
      "epoch": 0.5033,
      "grad_norm": 14.8125,
      "grad_norm_var": 150.9041015625,
      "learning_rate": 0.0003,
      "loss": 11.2423,
      "loss/aux_loss": 0.04808805175125599,
      "loss/crossentropy": 2.5937359273433684,
      "loss/logits": 0.8347382307052612,
      "step": 50330
    },
    {
      "epoch": 0.5034,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.5128743489583333,
      "learning_rate": 0.0003,
      "loss": 11.0916,
      "loss/aux_loss": 0.04806785080581903,
      "loss/crossentropy": 2.7667890906333925,
      "loss/logits": 0.8234162241220474,
      "step": 50340
    },
    {
      "epoch": 0.5035,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.48020833333333335,
      "learning_rate": 0.0003,
      "loss": 10.9453,
      "loss/aux_loss": 0.04806566257029772,
      "loss/crossentropy": 2.5693565726280214,
      "loss/logits": 0.8084887236356735,
      "step": 50350
    },
    {
      "epoch": 0.5036,
      "grad_norm": 14.9375,
      "grad_norm_var": 1.7186848958333334,
      "learning_rate": 0.0003,
      "loss": 11.1153,
      "loss/aux_loss": 0.04807969201356173,
      "loss/crossentropy": 2.739818775653839,
      "loss/logits": 0.8364595293998718,
      "step": 50360
    },
    {
      "epoch": 0.5037,
      "grad_norm": 14.8125,
      "grad_norm_var": 1.5858723958333334,
      "learning_rate": 0.0003,
      "loss": 11.1912,
      "loss/aux_loss": 0.04808463733643294,
      "loss/crossentropy": 2.6995759308338165,
      "loss/logits": 0.8050726383924485,
      "step": 50370
    },
    {
      "epoch": 0.5038,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5778645833333333,
      "learning_rate": 0.0003,
      "loss": 10.9566,
      "loss/aux_loss": 0.048061018250882624,
      "loss/crossentropy": 2.6875993072986604,
      "loss/logits": 0.8345743596553803,
      "step": 50380
    },
    {
      "epoch": 0.5039,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.45362955729166665,
      "learning_rate": 0.0003,
      "loss": 11.041,
      "loss/aux_loss": 0.04808121174573898,
      "loss/crossentropy": 2.851317548751831,
      "loss/logits": 0.8381609439849853,
      "step": 50390
    },
    {
      "epoch": 0.504,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.32317708333333334,
      "learning_rate": 0.0003,
      "loss": 10.9708,
      "loss/aux_loss": 0.04808126352727413,
      "loss/crossentropy": 2.739950382709503,
      "loss/logits": 0.8330327928066253,
      "step": 50400
    },
    {
      "epoch": 0.5041,
      "grad_norm": 14.625,
      "grad_norm_var": 0.2955729166666667,
      "learning_rate": 0.0003,
      "loss": 11.0153,
      "loss/aux_loss": 0.04806138556450605,
      "loss/crossentropy": 2.7034616589546205,
      "loss/logits": 0.851497569680214,
      "step": 50410
    },
    {
      "epoch": 0.5042,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.2337890625,
      "learning_rate": 0.0003,
      "loss": 11.1483,
      "loss/aux_loss": 0.04807694610208273,
      "loss/crossentropy": 2.784847009181976,
      "loss/logits": 0.8578290939331055,
      "step": 50420
    },
    {
      "epoch": 0.5043,
      "grad_norm": 14.125,
      "grad_norm_var": 0.3153483072916667,
      "learning_rate": 0.0003,
      "loss": 10.8493,
      "loss/aux_loss": 0.048078867606818676,
      "loss/crossentropy": 2.6146656930446626,
      "loss/logits": 0.7973528385162354,
      "step": 50430
    },
    {
      "epoch": 0.5044,
      "grad_norm": 14.75,
      "grad_norm_var": 0.341650390625,
      "learning_rate": 0.0003,
      "loss": 11.0265,
      "loss/aux_loss": 0.048073571361601355,
      "loss/crossentropy": 2.8554004311561583,
      "loss/logits": 0.8406151056289672,
      "step": 50440
    },
    {
      "epoch": 0.5045,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.4567057291666667,
      "learning_rate": 0.0003,
      "loss": 10.9926,
      "loss/aux_loss": 0.048083682730793956,
      "loss/crossentropy": 2.713830453157425,
      "loss/logits": 0.8488957345485687,
      "step": 50450
    },
    {
      "epoch": 0.5046,
      "grad_norm": 13.0625,
      "grad_norm_var": 1.5556640625,
      "learning_rate": 0.0003,
      "loss": 11.11,
      "loss/aux_loss": 0.048066365718841556,
      "loss/crossentropy": 2.902998661994934,
      "loss/logits": 0.8279580295085907,
      "step": 50460
    },
    {
      "epoch": 0.5047,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.7299479166666667,
      "learning_rate": 0.0003,
      "loss": 10.9543,
      "loss/aux_loss": 0.04807742275297642,
      "loss/crossentropy": 2.7396446764469147,
      "loss/logits": 0.8536162942647934,
      "step": 50470
    },
    {
      "epoch": 0.5048,
      "grad_norm": 13.625,
      "grad_norm_var": 0.7792805989583333,
      "learning_rate": 0.0003,
      "loss": 10.9662,
      "loss/aux_loss": 0.048072476498782636,
      "loss/crossentropy": 2.8252785921096804,
      "loss/logits": 0.869564825296402,
      "step": 50480
    },
    {
      "epoch": 0.5049,
      "grad_norm": 14.25,
      "grad_norm_var": 0.6042805989583333,
      "learning_rate": 0.0003,
      "loss": 11.0867,
      "loss/aux_loss": 0.04807360861450434,
      "loss/crossentropy": 2.7099923491477966,
      "loss/logits": 0.8268058747053146,
      "step": 50490
    },
    {
      "epoch": 0.505,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.49138997395833334,
      "learning_rate": 0.0003,
      "loss": 10.9612,
      "loss/aux_loss": 0.04806963559240103,
      "loss/crossentropy": 2.7237312316894533,
      "loss/logits": 0.8322340279817582,
      "step": 50500
    },
    {
      "epoch": 0.5051,
      "grad_norm": 16.75,
      "grad_norm_var": 0.5423014322916667,
      "learning_rate": 0.0003,
      "loss": 11.0486,
      "loss/aux_loss": 0.04807584658265114,
      "loss/crossentropy": 2.7208118796348573,
      "loss/logits": 0.8030982494354248,
      "step": 50510
    },
    {
      "epoch": 0.5052,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.9128743489583333,
      "learning_rate": 0.0003,
      "loss": 11.1668,
      "loss/aux_loss": 0.04807027783244848,
      "loss/crossentropy": 2.654416823387146,
      "loss/logits": 0.8475210994482041,
      "step": 50520
    },
    {
      "epoch": 0.5053,
      "grad_norm": 14.5625,
      "grad_norm_var": 15.680143229166667,
      "learning_rate": 0.0003,
      "loss": 10.9435,
      "loss/aux_loss": 0.04807609729468822,
      "loss/crossentropy": 2.5730921030044556,
      "loss/logits": 0.838240772485733,
      "step": 50530
    },
    {
      "epoch": 0.5054,
      "grad_norm": 13.9375,
      "grad_norm_var": 15.242171223958334,
      "learning_rate": 0.0003,
      "loss": 11.1737,
      "loss/aux_loss": 0.04807768948376179,
      "loss/crossentropy": 2.771801221370697,
      "loss/logits": 0.8654070168733596,
      "step": 50540
    },
    {
      "epoch": 0.5055,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.717822265625,
      "learning_rate": 0.0003,
      "loss": 11.2251,
      "loss/aux_loss": 0.048080765083432196,
      "loss/crossentropy": 2.7945044159889223,
      "loss/logits": 0.838275796175003,
      "step": 50550
    },
    {
      "epoch": 0.5056,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.4163899739583333,
      "learning_rate": 0.0003,
      "loss": 11.2706,
      "loss/aux_loss": 0.048064058646559715,
      "loss/crossentropy": 2.9519375801086425,
      "loss/logits": 0.8616402268409729,
      "step": 50560
    },
    {
      "epoch": 0.5057,
      "grad_norm": 14.875,
      "grad_norm_var": 0.3119140625,
      "learning_rate": 0.0003,
      "loss": 11.0596,
      "loss/aux_loss": 0.04807540029287338,
      "loss/crossentropy": 2.5487895905971527,
      "loss/logits": 0.7579917728900909,
      "step": 50570
    },
    {
      "epoch": 0.5058,
      "grad_norm": 15.375,
      "grad_norm_var": 0.15857747395833333,
      "learning_rate": 0.0003,
      "loss": 11.0143,
      "loss/aux_loss": 0.04808062519878149,
      "loss/crossentropy": 2.639469766616821,
      "loss/logits": 0.8144773453474045,
      "step": 50580
    },
    {
      "epoch": 0.5059,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.40358072916666665,
      "learning_rate": 0.0003,
      "loss": 11.0849,
      "loss/aux_loss": 0.048076164163649085,
      "loss/crossentropy": 2.898840081691742,
      "loss/logits": 0.8714124709367752,
      "step": 50590
    },
    {
      "epoch": 0.506,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.6910807291666666,
      "learning_rate": 0.0003,
      "loss": 11.1215,
      "loss/aux_loss": 0.048068304732441905,
      "loss/crossentropy": 2.8098879933357237,
      "loss/logits": 0.8603219360113143,
      "step": 50600
    },
    {
      "epoch": 0.5061,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.397119140625,
      "learning_rate": 0.0003,
      "loss": 10.9947,
      "loss/aux_loss": 0.04808787330985069,
      "loss/crossentropy": 2.6829119682312013,
      "loss/logits": 0.8325252383947372,
      "step": 50610
    },
    {
      "epoch": 0.5062,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.3572916666666667,
      "learning_rate": 0.0003,
      "loss": 11.0705,
      "loss/aux_loss": 0.04808214660733938,
      "loss/crossentropy": 2.7047139048576354,
      "loss/logits": 0.8234624296426774,
      "step": 50620
    },
    {
      "epoch": 0.5063,
      "grad_norm": 14.125,
      "grad_norm_var": 0.484375,
      "learning_rate": 0.0003,
      "loss": 10.9123,
      "loss/aux_loss": 0.04805761631578207,
      "loss/crossentropy": 2.766616940498352,
      "loss/logits": 0.8159997165203094,
      "step": 50630
    },
    {
      "epoch": 0.5064,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.30857747395833335,
      "learning_rate": 0.0003,
      "loss": 11.0885,
      "loss/aux_loss": 0.048085050843656066,
      "loss/crossentropy": 2.773435640335083,
      "loss/logits": 0.8345916509628296,
      "step": 50640
    },
    {
      "epoch": 0.5065,
      "grad_norm": 14.625,
      "grad_norm_var": 0.511181640625,
      "learning_rate": 0.0003,
      "loss": 11.0337,
      "loss/aux_loss": 0.048079907149076465,
      "loss/crossentropy": 2.7371358036994935,
      "loss/logits": 0.8105407744646073,
      "step": 50650
    },
    {
      "epoch": 0.5066,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.6534993489583333,
      "learning_rate": 0.0003,
      "loss": 10.9133,
      "loss/aux_loss": 0.048066824488341806,
      "loss/crossentropy": 2.6571763515472413,
      "loss/logits": 0.800066152215004,
      "step": 50660
    },
    {
      "epoch": 0.5067,
      "grad_norm": 14.875,
      "grad_norm_var": 0.4369140625,
      "learning_rate": 0.0003,
      "loss": 11.2353,
      "loss/aux_loss": 0.0480772802606225,
      "loss/crossentropy": 2.7930760741233827,
      "loss/logits": 0.8640264600515366,
      "step": 50670
    },
    {
      "epoch": 0.5068,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.313916015625,
      "learning_rate": 0.0003,
      "loss": 11.1041,
      "loss/aux_loss": 0.04806650523096323,
      "loss/crossentropy": 2.7191444516181944,
      "loss/logits": 0.8551998734474182,
      "step": 50680
    },
    {
      "epoch": 0.5069,
      "grad_norm": 16.0,
      "grad_norm_var": 0.5488118489583333,
      "learning_rate": 0.0003,
      "loss": 11.088,
      "loss/aux_loss": 0.04807362388819456,
      "loss/crossentropy": 2.662330609560013,
      "loss/logits": 0.8373664259910584,
      "step": 50690
    },
    {
      "epoch": 0.507,
      "grad_norm": 17.0,
      "grad_norm_var": 0.87109375,
      "learning_rate": 0.0003,
      "loss": 10.8954,
      "loss/aux_loss": 0.04806805476546287,
      "loss/crossentropy": 2.762675553560257,
      "loss/logits": 0.8527992933988571,
      "step": 50700
    },
    {
      "epoch": 0.5071,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.7587890625,
      "learning_rate": 0.0003,
      "loss": 11.0398,
      "loss/aux_loss": 0.04807548895478249,
      "loss/crossentropy": 2.6396145045757295,
      "loss/logits": 0.8134666383266449,
      "step": 50710
    },
    {
      "epoch": 0.5072,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.17805989583333334,
      "learning_rate": 0.0003,
      "loss": 10.959,
      "loss/aux_loss": 0.04807210974395275,
      "loss/crossentropy": 2.8681382477283477,
      "loss/logits": 0.8086955964565277,
      "step": 50720
    },
    {
      "epoch": 0.5073,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.2509765625,
      "learning_rate": 0.0003,
      "loss": 11.1709,
      "loss/aux_loss": 0.04807695783674717,
      "loss/crossentropy": 2.681786209344864,
      "loss/logits": 0.820175650715828,
      "step": 50730
    },
    {
      "epoch": 0.5074,
      "grad_norm": 15.375,
      "grad_norm_var": 0.4979166666666667,
      "learning_rate": 0.0003,
      "loss": 10.9011,
      "loss/aux_loss": 0.0480791661888361,
      "loss/crossentropy": 2.6313997209072113,
      "loss/logits": 0.8222554922103882,
      "step": 50740
    },
    {
      "epoch": 0.5075,
      "grad_norm": 14.375,
      "grad_norm_var": 0.42303059895833334,
      "learning_rate": 0.0003,
      "loss": 11.059,
      "loss/aux_loss": 0.048068783991038797,
      "loss/crossentropy": 2.8632388710975647,
      "loss/logits": 0.8794094920158386,
      "step": 50750
    },
    {
      "epoch": 0.5076,
      "grad_norm": 16.0,
      "grad_norm_var": 2.855712890625,
      "learning_rate": 0.0003,
      "loss": 10.9921,
      "loss/aux_loss": 0.04807401727885008,
      "loss/crossentropy": 2.740087425708771,
      "loss/logits": 0.8258580267429352,
      "step": 50760
    },
    {
      "epoch": 0.5077,
      "grad_norm": 14.0,
      "grad_norm_var": 3.0181640625,
      "learning_rate": 0.0003,
      "loss": 11.2036,
      "loss/aux_loss": 0.04808244872838259,
      "loss/crossentropy": 2.6240702331066132,
      "loss/logits": 0.8118566811084748,
      "step": 50770
    },
    {
      "epoch": 0.5078,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.7315104166666667,
      "learning_rate": 0.0003,
      "loss": 11.0808,
      "loss/aux_loss": 0.04807658027857542,
      "loss/crossentropy": 2.756423282623291,
      "loss/logits": 0.8248686224222184,
      "step": 50780
    },
    {
      "epoch": 0.5079,
      "grad_norm": 16.5,
      "grad_norm_var": 0.6945149739583333,
      "learning_rate": 0.0003,
      "loss": 10.9433,
      "loss/aux_loss": 0.04807685222476721,
      "loss/crossentropy": 2.8291961908340455,
      "loss/logits": 0.8037528693675995,
      "step": 50790
    },
    {
      "epoch": 0.508,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.467431640625,
      "learning_rate": 0.0003,
      "loss": 11.0704,
      "loss/aux_loss": 0.04805314373224974,
      "loss/crossentropy": 2.850136566162109,
      "loss/logits": 0.8551195234060287,
      "step": 50800
    },
    {
      "epoch": 0.5081,
      "grad_norm": 15.75,
      "grad_norm_var": 0.4166666666666667,
      "learning_rate": 0.0003,
      "loss": 11.0691,
      "loss/aux_loss": 0.04807635135948658,
      "loss/crossentropy": 2.7100765228271486,
      "loss/logits": 0.8092273443937301,
      "step": 50810
    },
    {
      "epoch": 0.5082,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.768603515625,
      "learning_rate": 0.0003,
      "loss": 11.1062,
      "loss/aux_loss": 0.04807732086628676,
      "loss/crossentropy": 2.6739711463451385,
      "loss/logits": 0.8558676153421402,
      "step": 50820
    },
    {
      "epoch": 0.5083,
      "grad_norm": 15.0,
      "grad_norm_var": 0.3651041666666667,
      "learning_rate": 0.0003,
      "loss": 11.1696,
      "loss/aux_loss": 0.048065226152539255,
      "loss/crossentropy": 2.7774511337280274,
      "loss/logits": 0.8358054220676422,
      "step": 50830
    },
    {
      "epoch": 0.5084,
      "grad_norm": 14.5,
      "grad_norm_var": 1.025244140625,
      "learning_rate": 0.0003,
      "loss": 11.0029,
      "loss/aux_loss": 0.04808473084121943,
      "loss/crossentropy": 2.6720672845840454,
      "loss/logits": 0.8290561676025391,
      "step": 50840
    },
    {
      "epoch": 0.5085,
      "grad_norm": 15.75,
      "grad_norm_var": 0.6338541666666667,
      "learning_rate": 0.0003,
      "loss": 11.2649,
      "loss/aux_loss": 0.04807058796286583,
      "loss/crossentropy": 2.7967530369758604,
      "loss/logits": 0.8311424374580383,
      "step": 50850
    },
    {
      "epoch": 0.5086,
      "grad_norm": 14.875,
      "grad_norm_var": 0.503125,
      "learning_rate": 0.0003,
      "loss": 11.1975,
      "loss/aux_loss": 0.048081024549901485,
      "loss/crossentropy": 2.813568663597107,
      "loss/logits": 0.858703076839447,
      "step": 50860
    },
    {
      "epoch": 0.5087,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.4905598958333333,
      "learning_rate": 0.0003,
      "loss": 10.9619,
      "loss/aux_loss": 0.04806181099265814,
      "loss/crossentropy": 2.6827987372875213,
      "loss/logits": 0.8177167236804962,
      "step": 50870
    },
    {
      "epoch": 0.5088,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.7285807291666667,
      "learning_rate": 0.0003,
      "loss": 11.0417,
      "loss/aux_loss": 0.04808285180479288,
      "loss/crossentropy": 2.5345280170440674,
      "loss/logits": 0.7993739306926727,
      "step": 50880
    },
    {
      "epoch": 0.5089,
      "grad_norm": 14.625,
      "grad_norm_var": 0.7882649739583333,
      "learning_rate": 0.0003,
      "loss": 11.1877,
      "loss/aux_loss": 0.04806562829762697,
      "loss/crossentropy": 2.7045423090457916,
      "loss/logits": 0.8371960252523423,
      "step": 50890
    },
    {
      "epoch": 0.509,
      "grad_norm": 14.5,
      "grad_norm_var": 0.4561848958333333,
      "learning_rate": 0.0003,
      "loss": 11.0157,
      "loss/aux_loss": 0.048074452206492424,
      "loss/crossentropy": 2.830974745750427,
      "loss/logits": 0.8685533732175827,
      "step": 50900
    },
    {
      "epoch": 0.5091,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.30441080729166664,
      "learning_rate": 0.0003,
      "loss": 11.0398,
      "loss/aux_loss": 0.04807122685015201,
      "loss/crossentropy": 2.736586630344391,
      "loss/logits": 0.8220911502838135,
      "step": 50910
    },
    {
      "epoch": 0.5092,
      "grad_norm": 14.125,
      "grad_norm_var": 0.612353515625,
      "learning_rate": 0.0003,
      "loss": 10.9015,
      "loss/aux_loss": 0.04807872846722603,
      "loss/crossentropy": 2.7401693642139433,
      "loss/logits": 0.8360977441072464,
      "step": 50920
    },
    {
      "epoch": 0.5093,
      "grad_norm": 16.25,
      "grad_norm_var": 0.44698893229166664,
      "learning_rate": 0.0003,
      "loss": 10.9974,
      "loss/aux_loss": 0.04807762745767832,
      "loss/crossentropy": 2.7443562030792235,
      "loss/logits": 0.7941692680120468,
      "step": 50930
    },
    {
      "epoch": 0.5094,
      "grad_norm": 15.625,
      "grad_norm_var": 0.503369140625,
      "learning_rate": 0.0003,
      "loss": 11.2314,
      "loss/aux_loss": 0.048069654405117034,
      "loss/crossentropy": 2.642306762933731,
      "loss/logits": 0.8203934520483017,
      "step": 50940
    },
    {
      "epoch": 0.5095,
      "grad_norm": 14.625,
      "grad_norm_var": 0.38697916666666665,
      "learning_rate": 0.0003,
      "loss": 11.1083,
      "loss/aux_loss": 0.0480804480612278,
      "loss/crossentropy": 2.747548055648804,
      "loss/logits": 0.8185478031635285,
      "step": 50950
    },
    {
      "epoch": 0.5096,
      "grad_norm": 16.25,
      "grad_norm_var": 0.4195149739583333,
      "learning_rate": 0.0003,
      "loss": 10.9981,
      "loss/aux_loss": 0.048063276521861556,
      "loss/crossentropy": 2.8265784859657286,
      "loss/logits": 0.8263007819652557,
      "step": 50960
    },
    {
      "epoch": 0.5097,
      "grad_norm": 14.25,
      "grad_norm_var": 0.6395182291666667,
      "learning_rate": 0.0003,
      "loss": 11.0577,
      "loss/aux_loss": 0.048073398880660534,
      "loss/crossentropy": 2.760447859764099,
      "loss/logits": 0.8406284034252167,
      "step": 50970
    },
    {
      "epoch": 0.5098,
      "grad_norm": 13.375,
      "grad_norm_var": 0.5361979166666667,
      "learning_rate": 0.0003,
      "loss": 11.0733,
      "loss/aux_loss": 0.04807597603648901,
      "loss/crossentropy": 2.785585403442383,
      "loss/logits": 0.8304526567459106,
      "step": 50980
    },
    {
      "epoch": 0.5099,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.4671223958333333,
      "learning_rate": 0.0003,
      "loss": 11.1251,
      "loss/aux_loss": 0.0480725534260273,
      "loss/crossentropy": 2.7471178472042084,
      "loss/logits": 0.8607824087142945,
      "step": 50990
    },
    {
      "epoch": 0.51,
      "grad_norm": 14.75,
      "grad_norm_var": 0.396875,
      "learning_rate": 0.0003,
      "loss": 11.0672,
      "loss/aux_loss": 0.04808218758553266,
      "loss/crossentropy": 2.7346564173698424,
      "loss/logits": 0.8275700658559799,
      "step": 51000
    },
    {
      "epoch": 0.5101,
      "grad_norm": 14.875,
      "grad_norm_var": 0.26015625,
      "learning_rate": 0.0003,
      "loss": 11.1911,
      "loss/aux_loss": 0.048065698333084585,
      "loss/crossentropy": 2.800529360771179,
      "loss/logits": 0.8583203822374343,
      "step": 51010
    },
    {
      "epoch": 0.5102,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.20545247395833333,
      "learning_rate": 0.0003,
      "loss": 11.1362,
      "loss/aux_loss": 0.04808482229709625,
      "loss/crossentropy": 2.708675539493561,
      "loss/logits": 0.8227375984191895,
      "step": 51020
    },
    {
      "epoch": 0.5103,
      "grad_norm": 13.5,
      "grad_norm_var": 0.45514322916666666,
      "learning_rate": 0.0003,
      "loss": 10.9633,
      "loss/aux_loss": 0.04807134531438351,
      "loss/crossentropy": 2.5863205909729006,
      "loss/logits": 0.833231994509697,
      "step": 51030
    },
    {
      "epoch": 0.5104,
      "grad_norm": 15.625,
      "grad_norm_var": 0.8641764322916666,
      "learning_rate": 0.0003,
      "loss": 10.992,
      "loss/aux_loss": 0.04806938972324133,
      "loss/crossentropy": 2.5987710535526274,
      "loss/logits": 0.8221124142408371,
      "step": 51040
    },
    {
      "epoch": 0.5105,
      "grad_norm": 15.4375,
      "grad_norm_var": 2.3384765625,
      "learning_rate": 0.0003,
      "loss": 11.1323,
      "loss/aux_loss": 0.04807955361902714,
      "loss/crossentropy": 2.7755866408348084,
      "loss/logits": 0.8378236562013626,
      "step": 51050
    },
    {
      "epoch": 0.5106,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.4400390625,
      "learning_rate": 0.0003,
      "loss": 11.0057,
      "loss/aux_loss": 0.048068666271865367,
      "loss/crossentropy": 2.6365352988243105,
      "loss/logits": 0.8126265555620193,
      "step": 51060
    },
    {
      "epoch": 0.5107,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.4025390625,
      "learning_rate": 0.0003,
      "loss": 11.1041,
      "loss/aux_loss": 0.0480704678222537,
      "loss/crossentropy": 2.6664901852607725,
      "loss/logits": 0.826370707154274,
      "step": 51070
    },
    {
      "epoch": 0.5108,
      "grad_norm": 14.625,
      "grad_norm_var": 0.30911458333333336,
      "learning_rate": 0.0003,
      "loss": 11.0334,
      "loss/aux_loss": 0.048087571002542975,
      "loss/crossentropy": 2.511679470539093,
      "loss/logits": 0.8164161443710327,
      "step": 51080
    },
    {
      "epoch": 0.5109,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.208837890625,
      "learning_rate": 0.0003,
      "loss": 11.0154,
      "loss/aux_loss": 0.04806430675089359,
      "loss/crossentropy": 2.721172201633453,
      "loss/logits": 0.7954764574766159,
      "step": 51090
    },
    {
      "epoch": 0.511,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.5202962239583333,
      "learning_rate": 0.0003,
      "loss": 11.0233,
      "loss/aux_loss": 0.04807245638221502,
      "loss/crossentropy": 2.619920516014099,
      "loss/logits": 0.8742161899805069,
      "step": 51100
    },
    {
      "epoch": 0.5111,
      "grad_norm": 14.375,
      "grad_norm_var": 75.28722330729167,
      "learning_rate": 0.0003,
      "loss": 11.1598,
      "loss/aux_loss": 0.04808569718152285,
      "loss/crossentropy": 2.64174947142601,
      "loss/logits": 0.7941539883613586,
      "step": 51110
    },
    {
      "epoch": 0.5112,
      "grad_norm": 14.75,
      "grad_norm_var": 2.0212890625,
      "learning_rate": 0.0003,
      "loss": 10.969,
      "loss/aux_loss": 0.04807308297604322,
      "loss/crossentropy": 2.7143703937530517,
      "loss/logits": 0.8080418884754181,
      "step": 51120
    },
    {
      "epoch": 0.5113,
      "grad_norm": 15.75,
      "grad_norm_var": 0.504541015625,
      "learning_rate": 0.0003,
      "loss": 11.1646,
      "loss/aux_loss": 0.0480702068656683,
      "loss/crossentropy": 2.8439256310462953,
      "loss/logits": 0.849370151758194,
      "step": 51130
    },
    {
      "epoch": 0.5114,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.309228515625,
      "learning_rate": 0.0003,
      "loss": 11.2208,
      "loss/aux_loss": 0.048074052482843396,
      "loss/crossentropy": 2.691173183917999,
      "loss/logits": 0.8135675758123397,
      "step": 51140
    },
    {
      "epoch": 0.5115,
      "grad_norm": 14.625,
      "grad_norm_var": 1.3165201822916666,
      "learning_rate": 0.0003,
      "loss": 11.055,
      "loss/aux_loss": 0.04807727038860321,
      "loss/crossentropy": 2.8615395545959474,
      "loss/logits": 0.833811953663826,
      "step": 51150
    },
    {
      "epoch": 0.5116,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.818994140625,
      "learning_rate": 0.0003,
      "loss": 11.23,
      "loss/aux_loss": 0.04806257952004671,
      "loss/crossentropy": 2.637695002555847,
      "loss/logits": 0.8264784872531891,
      "step": 51160
    },
    {
      "epoch": 0.5117,
      "grad_norm": 15.9375,
      "grad_norm_var": 1.2104166666666667,
      "learning_rate": 0.0003,
      "loss": 11.1183,
      "loss/aux_loss": 0.0480752969160676,
      "loss/crossentropy": 2.65714670419693,
      "loss/logits": 0.8472563087940216,
      "step": 51170
    },
    {
      "epoch": 0.5118,
      "grad_norm": 14.375,
      "grad_norm_var": 0.372900390625,
      "learning_rate": 0.0003,
      "loss": 11.0255,
      "loss/aux_loss": 0.04808554705232382,
      "loss/crossentropy": 2.6965773463249207,
      "loss/logits": 0.7938098013401031,
      "step": 51180
    },
    {
      "epoch": 0.5119,
      "grad_norm": 14.375,
      "grad_norm_var": 0.45826822916666665,
      "learning_rate": 0.0003,
      "loss": 11.0631,
      "loss/aux_loss": 0.04806725028902292,
      "loss/crossentropy": 2.699047327041626,
      "loss/logits": 0.8511703968048095,
      "step": 51190
    },
    {
      "epoch": 0.512,
      "grad_norm": 20.0,
      "grad_norm_var": 2.3203125,
      "learning_rate": 0.0003,
      "loss": 11.016,
      "loss/aux_loss": 0.04806656241416931,
      "loss/crossentropy": 2.580675709247589,
      "loss/logits": 0.7733906388282776,
      "step": 51200
    },
    {
      "epoch": 0.5121,
      "grad_norm": 15.3125,
      "grad_norm_var": 2.1278483072916665,
      "learning_rate": 0.0003,
      "loss": 11.2027,
      "loss/aux_loss": 0.04808239191770554,
      "loss/crossentropy": 2.8701157569885254,
      "loss/logits": 0.8477713167667389,
      "step": 51210
    },
    {
      "epoch": 0.5122,
      "grad_norm": 14.25,
      "grad_norm_var": 0.595166015625,
      "learning_rate": 0.0003,
      "loss": 11.1915,
      "loss/aux_loss": 0.04806038942188025,
      "loss/crossentropy": 2.67539005279541,
      "loss/logits": 0.8615487456321717,
      "step": 51220
    },
    {
      "epoch": 0.5123,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.3512858072916667,
      "learning_rate": 0.0003,
      "loss": 10.9781,
      "loss/aux_loss": 0.04807022716850042,
      "loss/crossentropy": 2.6567323327064516,
      "loss/logits": 0.8351798057556152,
      "step": 51230
    },
    {
      "epoch": 0.5124,
      "grad_norm": 15.25,
      "grad_norm_var": 0.6555826822916667,
      "learning_rate": 0.0003,
      "loss": 11.0322,
      "loss/aux_loss": 0.04807539042085409,
      "loss/crossentropy": 2.5088176906108854,
      "loss/logits": 0.8250403732061387,
      "step": 51240
    },
    {
      "epoch": 0.5125,
      "grad_norm": 15.5,
      "grad_norm_var": 0.8641764322916666,
      "learning_rate": 0.0003,
      "loss": 10.8031,
      "loss/aux_loss": 0.0480835122987628,
      "loss/crossentropy": 2.4206930220127107,
      "loss/logits": 0.7768561899662018,
      "step": 51250
    },
    {
      "epoch": 0.5126,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.865087890625,
      "learning_rate": 0.0003,
      "loss": 11.0423,
      "loss/aux_loss": 0.04806485194712877,
      "loss/crossentropy": 2.7578662991523744,
      "loss/logits": 0.8342026203870774,
      "step": 51260
    },
    {
      "epoch": 0.5127,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.5695149739583333,
      "learning_rate": 0.0003,
      "loss": 11.0093,
      "loss/aux_loss": 0.04807938933372498,
      "loss/crossentropy": 2.6144285678863524,
      "loss/logits": 0.8025279492139816,
      "step": 51270
    },
    {
      "epoch": 0.5128,
      "grad_norm": 14.375,
      "grad_norm_var": 0.41901041666666666,
      "learning_rate": 0.0003,
      "loss": 11.0911,
      "loss/aux_loss": 0.04807790834456682,
      "loss/crossentropy": 2.751217710971832,
      "loss/logits": 0.8257042407989502,
      "step": 51280
    },
    {
      "epoch": 0.5129,
      "grad_norm": 16.875,
      "grad_norm_var": 0.5968098958333333,
      "learning_rate": 0.0003,
      "loss": 11.0336,
      "loss/aux_loss": 0.04806835390627384,
      "loss/crossentropy": 2.7564366936683653,
      "loss/logits": 0.8366163045167923,
      "step": 51290
    },
    {
      "epoch": 0.513,
      "grad_norm": 15.9375,
      "grad_norm_var": 1.1509765625,
      "learning_rate": 0.0003,
      "loss": 11.0734,
      "loss/aux_loss": 0.04808133132755756,
      "loss/crossentropy": 2.557454949617386,
      "loss/logits": 0.8112009972333908,
      "step": 51300
    },
    {
      "epoch": 0.5131,
      "grad_norm": 14.625,
      "grad_norm_var": 0.8239583333333333,
      "learning_rate": 0.0003,
      "loss": 11.1618,
      "loss/aux_loss": 0.04807974435389042,
      "loss/crossentropy": 2.628247785568237,
      "loss/logits": 0.820238995552063,
      "step": 51310
    },
    {
      "epoch": 0.5132,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.7140462239583333,
      "learning_rate": 0.0003,
      "loss": 11.0499,
      "loss/aux_loss": 0.048069828934967515,
      "loss/crossentropy": 2.68018000125885,
      "loss/logits": 0.8339303702116012,
      "step": 51320
    },
    {
      "epoch": 0.5133,
      "grad_norm": 13.75,
      "grad_norm_var": 0.470947265625,
      "learning_rate": 0.0003,
      "loss": 11.0399,
      "loss/aux_loss": 0.04807551633566618,
      "loss/crossentropy": 2.8822931230068205,
      "loss/logits": 0.8533807754516601,
      "step": 51330
    },
    {
      "epoch": 0.5134,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.5947916666666667,
      "learning_rate": 0.0003,
      "loss": 11.0277,
      "loss/aux_loss": 0.04806902166455984,
      "loss/crossentropy": 2.6886990547180174,
      "loss/logits": 0.8332021862268448,
      "step": 51340
    },
    {
      "epoch": 0.5135,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.4669108072916667,
      "learning_rate": 0.0003,
      "loss": 11.0988,
      "loss/aux_loss": 0.04808459766209126,
      "loss/crossentropy": 2.685576003789902,
      "loss/logits": 0.8132620543241501,
      "step": 51350
    },
    {
      "epoch": 0.5136,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.240478515625,
      "learning_rate": 0.0003,
      "loss": 11.1777,
      "loss/aux_loss": 0.04807017575949431,
      "loss/crossentropy": 2.7257566928863524,
      "loss/logits": 0.8060571432113648,
      "step": 51360
    },
    {
      "epoch": 0.5137,
      "grad_norm": 16.75,
      "grad_norm_var": 0.6994140625,
      "learning_rate": 0.0003,
      "loss": 10.858,
      "loss/aux_loss": 0.0480698412284255,
      "loss/crossentropy": 2.5365270376205444,
      "loss/logits": 0.816512593626976,
      "step": 51370
    },
    {
      "epoch": 0.5138,
      "grad_norm": 14.5,
      "grad_norm_var": 0.754541015625,
      "learning_rate": 0.0003,
      "loss": 11.1839,
      "loss/aux_loss": 0.0480722613632679,
      "loss/crossentropy": 2.6611290633678437,
      "loss/logits": 0.8183812767267227,
      "step": 51380
    },
    {
      "epoch": 0.5139,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.1984375,
      "learning_rate": 0.0003,
      "loss": 10.9507,
      "loss/aux_loss": 0.04807326439768076,
      "loss/crossentropy": 2.77123561501503,
      "loss/logits": 0.8091616094112396,
      "step": 51390
    },
    {
      "epoch": 0.514,
      "grad_norm": 14.5,
      "grad_norm_var": 49.47433268229167,
      "learning_rate": 0.0003,
      "loss": 11.1145,
      "loss/aux_loss": 0.04806629903614521,
      "loss/crossentropy": 2.870545446872711,
      "loss/logits": 0.8608437448740005,
      "step": 51400
    },
    {
      "epoch": 0.5141,
      "grad_norm": 14.75,
      "grad_norm_var": 48.878580729166664,
      "learning_rate": 0.0003,
      "loss": 10.9984,
      "loss/aux_loss": 0.04807921946048736,
      "loss/crossentropy": 2.808860683441162,
      "loss/logits": 0.8428457826375961,
      "step": 51410
    },
    {
      "epoch": 0.5142,
      "grad_norm": 15.0,
      "grad_norm_var": 0.7305826822916667,
      "learning_rate": 0.0003,
      "loss": 11.1773,
      "loss/aux_loss": 0.04806988965719938,
      "loss/crossentropy": 2.8295932352542876,
      "loss/logits": 0.8579282373189926,
      "step": 51420
    },
    {
      "epoch": 0.5143,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.3619140625,
      "learning_rate": 0.0003,
      "loss": 11.0726,
      "loss/aux_loss": 0.048077551648020744,
      "loss/crossentropy": 2.625492978096008,
      "loss/logits": 0.8137675523757935,
      "step": 51430
    },
    {
      "epoch": 0.5144,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.2757649739583333,
      "learning_rate": 0.0003,
      "loss": 11.1048,
      "loss/aux_loss": 0.0480729004368186,
      "loss/crossentropy": 2.861330282688141,
      "loss/logits": 0.8448628783226013,
      "step": 51440
    },
    {
      "epoch": 0.5145,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.32472330729166665,
      "learning_rate": 0.0003,
      "loss": 11.0903,
      "loss/aux_loss": 0.04806978609412908,
      "loss/crossentropy": 2.701605361700058,
      "loss/logits": 0.7941394478082657,
      "step": 51450
    },
    {
      "epoch": 0.5146,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.33670247395833336,
      "learning_rate": 0.0003,
      "loss": 11.028,
      "loss/aux_loss": 0.04808089081197977,
      "loss/crossentropy": 2.683489578962326,
      "loss/logits": 0.8333400577306748,
      "step": 51460
    },
    {
      "epoch": 0.5147,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.9140462239583333,
      "learning_rate": 0.0003,
      "loss": 10.9866,
      "loss/aux_loss": 0.04807344228029251,
      "loss/crossentropy": 2.7665489315986633,
      "loss/logits": 0.8190008670091629,
      "step": 51470
    },
    {
      "epoch": 0.5148,
      "grad_norm": 13.8125,
      "grad_norm_var": 1.077978515625,
      "learning_rate": 0.0003,
      "loss": 10.8875,
      "loss/aux_loss": 0.04807010628283024,
      "loss/crossentropy": 2.58920761346817,
      "loss/logits": 0.8068946480751038,
      "step": 51480
    },
    {
      "epoch": 0.5149,
      "grad_norm": 15.5625,
      "grad_norm_var": 1.1469889322916667,
      "learning_rate": 0.0003,
      "loss": 11.0627,
      "loss/aux_loss": 0.04806904457509518,
      "loss/crossentropy": 2.661976617574692,
      "loss/logits": 0.8472563207149506,
      "step": 51490
    },
    {
      "epoch": 0.515,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.404931640625,
      "learning_rate": 0.0003,
      "loss": 11.0402,
      "loss/aux_loss": 0.048074154369533065,
      "loss/crossentropy": 2.8123088240623475,
      "loss/logits": 0.8572196811437607,
      "step": 51500
    },
    {
      "epoch": 0.5151,
      "grad_norm": 13.875,
      "grad_norm_var": 1.3155598958333334,
      "learning_rate": 0.0003,
      "loss": 10.9436,
      "loss/aux_loss": 0.04807008523494005,
      "loss/crossentropy": 2.711523699760437,
      "loss/logits": 0.8486291140317916,
      "step": 51510
    },
    {
      "epoch": 0.5152,
      "grad_norm": 14.125,
      "grad_norm_var": 0.4384765625,
      "learning_rate": 0.0003,
      "loss": 11.0391,
      "loss/aux_loss": 0.04808166529983282,
      "loss/crossentropy": 2.766609239578247,
      "loss/logits": 0.8237248331308364,
      "step": 51520
    },
    {
      "epoch": 0.5153,
      "grad_norm": 15.8125,
      "grad_norm_var": 2.97265625,
      "learning_rate": 0.0003,
      "loss": 11.0567,
      "loss/aux_loss": 0.048059662245213984,
      "loss/crossentropy": 2.716182154417038,
      "loss/logits": 0.8255683243274688,
      "step": 51530
    },
    {
      "epoch": 0.5154,
      "grad_norm": 17.75,
      "grad_norm_var": 1760.974853515625,
      "learning_rate": 0.0003,
      "loss": 11.0691,
      "loss/aux_loss": 0.048087839223444465,
      "loss/crossentropy": 2.7150439620018005,
      "loss/logits": 0.8070930659770965,
      "step": 51540
    },
    {
      "epoch": 0.5155,
      "grad_norm": 15.625,
      "grad_norm_var": 8.13046875,
      "learning_rate": 0.0003,
      "loss": 11.0962,
      "loss/aux_loss": 0.048063835315406325,
      "loss/crossentropy": 2.81580011844635,
      "loss/logits": 0.8323242962360382,
      "step": 51550
    },
    {
      "epoch": 0.5156,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.43331705729166664,
      "learning_rate": 0.0003,
      "loss": 11.0541,
      "loss/aux_loss": 0.04805823341012001,
      "loss/crossentropy": 2.722984766960144,
      "loss/logits": 0.8511014252901077,
      "step": 51560
    },
    {
      "epoch": 0.5157,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.193603515625,
      "learning_rate": 0.0003,
      "loss": 11.0758,
      "loss/aux_loss": 0.04808205440640449,
      "loss/crossentropy": 2.716118276119232,
      "loss/logits": 0.8201917320489883,
      "step": 51570
    },
    {
      "epoch": 0.5158,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.5306640625,
      "learning_rate": 0.0003,
      "loss": 11.2349,
      "loss/aux_loss": 0.048078343458473685,
      "loss/crossentropy": 2.661349093914032,
      "loss/logits": 0.8327278316020965,
      "step": 51580
    },
    {
      "epoch": 0.5159,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.6602701822916667,
      "learning_rate": 0.0003,
      "loss": 10.9827,
      "loss/aux_loss": 0.04806844424456358,
      "loss/crossentropy": 2.665369528532028,
      "loss/logits": 0.8237587451934815,
      "step": 51590
    },
    {
      "epoch": 0.516,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.8885416666666667,
      "learning_rate": 0.0003,
      "loss": 10.9778,
      "loss/aux_loss": 0.04806563388556242,
      "loss/crossentropy": 2.744618034362793,
      "loss/logits": 0.8178337156772614,
      "step": 51600
    },
    {
      "epoch": 0.5161,
      "grad_norm": 14.375,
      "grad_norm_var": 0.753759765625,
      "learning_rate": 0.0003,
      "loss": 10.9837,
      "loss/aux_loss": 0.04807935301214457,
      "loss/crossentropy": 2.6647940456867216,
      "loss/logits": 0.8174872279167176,
      "step": 51610
    },
    {
      "epoch": 0.5162,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.8535807291666667,
      "learning_rate": 0.0003,
      "loss": 11.1282,
      "loss/aux_loss": 0.0480736693367362,
      "loss/crossentropy": 2.6697156190872193,
      "loss/logits": 0.8190987050533295,
      "step": 51620
    },
    {
      "epoch": 0.5163,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.8660807291666667,
      "learning_rate": 0.0003,
      "loss": 10.9985,
      "loss/aux_loss": 0.04808506760746241,
      "loss/crossentropy": 2.6137089908123015,
      "loss/logits": 0.8341957181692123,
      "step": 51630
    },
    {
      "epoch": 0.5164,
      "grad_norm": 19.375,
      "grad_norm_var": 1.9468587239583333,
      "learning_rate": 0.0003,
      "loss": 11.0263,
      "loss/aux_loss": 0.048055645637214185,
      "loss/crossentropy": 2.7922864675521852,
      "loss/logits": 0.8405203580856323,
      "step": 51640
    },
    {
      "epoch": 0.5165,
      "grad_norm": 15.8125,
      "grad_norm_var": 1.5942545572916667,
      "learning_rate": 0.0003,
      "loss": 11.0421,
      "loss/aux_loss": 0.04808124210685492,
      "loss/crossentropy": 2.6083596289157867,
      "loss/logits": 0.7906621545553207,
      "step": 51650
    },
    {
      "epoch": 0.5166,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.3421223958333333,
      "learning_rate": 0.0003,
      "loss": 11.1676,
      "loss/aux_loss": 0.04807032104581595,
      "loss/crossentropy": 2.7878468513488768,
      "loss/logits": 0.8364533364772797,
      "step": 51660
    },
    {
      "epoch": 0.5167,
      "grad_norm": 16.125,
      "grad_norm_var": 0.48240559895833335,
      "learning_rate": 0.0003,
      "loss": 11.083,
      "loss/aux_loss": 0.04807390999048948,
      "loss/crossentropy": 2.8989575624465944,
      "loss/logits": 0.7967435866594315,
      "step": 51670
    },
    {
      "epoch": 0.5168,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.4363932291666667,
      "learning_rate": 0.0003,
      "loss": 10.8368,
      "loss/aux_loss": 0.04807572904974222,
      "loss/crossentropy": 2.6682200372219085,
      "loss/logits": 0.7805459082126618,
      "step": 51680
    },
    {
      "epoch": 0.5169,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5583170572916667,
      "learning_rate": 0.0003,
      "loss": 10.9825,
      "loss/aux_loss": 0.048071629367768764,
      "loss/crossentropy": 2.6587085843086244,
      "loss/logits": 0.8401948183774948,
      "step": 51690
    },
    {
      "epoch": 0.517,
      "grad_norm": 16.5,
      "grad_norm_var": 0.7034993489583333,
      "learning_rate": 0.0003,
      "loss": 11.1472,
      "loss/aux_loss": 0.04806802216917276,
      "loss/crossentropy": 2.8146503806114196,
      "loss/logits": 0.8239098250865936,
      "step": 51700
    },
    {
      "epoch": 0.5171,
      "grad_norm": 16.0,
      "grad_norm_var": 187.33723958333334,
      "learning_rate": 0.0003,
      "loss": 11.1429,
      "loss/aux_loss": 0.04808622244745493,
      "loss/crossentropy": 2.851152813434601,
      "loss/logits": 0.8723404318094253,
      "step": 51710
    },
    {
      "epoch": 0.5172,
      "grad_norm": 14.375,
      "grad_norm_var": 188.23019205729167,
      "learning_rate": 0.0003,
      "loss": 10.9794,
      "loss/aux_loss": 0.04806773141026497,
      "loss/crossentropy": 2.7131691336631776,
      "loss/logits": 0.8205563336610794,
      "step": 51720
    },
    {
      "epoch": 0.5173,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.41380208333333335,
      "learning_rate": 0.0003,
      "loss": 11.0507,
      "loss/aux_loss": 0.04806727990508079,
      "loss/crossentropy": 2.589705538749695,
      "loss/logits": 0.8440980285406112,
      "step": 51730
    },
    {
      "epoch": 0.5174,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5446451822916667,
      "learning_rate": 0.0003,
      "loss": 10.9806,
      "loss/aux_loss": 0.04807034377008677,
      "loss/crossentropy": 2.791779488325119,
      "loss/logits": 0.8750499516725541,
      "step": 51740
    },
    {
      "epoch": 0.5175,
      "grad_norm": 13.375,
      "grad_norm_var": 0.39791666666666664,
      "learning_rate": 0.0003,
      "loss": 10.8982,
      "loss/aux_loss": 0.048070017248392105,
      "loss/crossentropy": 2.7478320360183717,
      "loss/logits": 0.8556131899356842,
      "step": 51750
    },
    {
      "epoch": 0.5176,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.6917805989583333,
      "learning_rate": 0.0003,
      "loss": 11.1149,
      "loss/aux_loss": 0.04807256907224655,
      "loss/crossentropy": 2.7422623872756957,
      "loss/logits": 0.8193183451890945,
      "step": 51760
    },
    {
      "epoch": 0.5177,
      "grad_norm": 14.5,
      "grad_norm_var": 0.597900390625,
      "learning_rate": 0.0003,
      "loss": 11.1238,
      "loss/aux_loss": 0.048071306012570855,
      "loss/crossentropy": 2.6727042496204376,
      "loss/logits": 0.8390705615282059,
      "step": 51770
    },
    {
      "epoch": 0.5178,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.311962890625,
      "learning_rate": 0.0003,
      "loss": 10.9609,
      "loss/aux_loss": 0.04806660022586584,
      "loss/crossentropy": 2.560292327404022,
      "loss/logits": 0.8443563103675842,
      "step": 51780
    },
    {
      "epoch": 0.5179,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.5431640625,
      "learning_rate": 0.0003,
      "loss": 10.9787,
      "loss/aux_loss": 0.04807846024632454,
      "loss/crossentropy": 2.757317876815796,
      "loss/logits": 0.841183426976204,
      "step": 51790
    },
    {
      "epoch": 0.518,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.5400390625,
      "learning_rate": 0.0003,
      "loss": 11.0011,
      "loss/aux_loss": 0.04806059673428535,
      "loss/crossentropy": 2.6568395853042603,
      "loss/logits": 0.8394730240106583,
      "step": 51800
    },
    {
      "epoch": 0.5181,
      "grad_norm": 14.0,
      "grad_norm_var": 0.3941243489583333,
      "learning_rate": 0.0003,
      "loss": 10.9822,
      "loss/aux_loss": 0.04807980302721262,
      "loss/crossentropy": 2.7917647838592528,
      "loss/logits": 0.8249937295913696,
      "step": 51810
    },
    {
      "epoch": 0.5182,
      "grad_norm": 14.125,
      "grad_norm_var": 0.6313639322916667,
      "learning_rate": 0.0003,
      "loss": 11.235,
      "loss/aux_loss": 0.04807339478284121,
      "loss/crossentropy": 2.748648017644882,
      "loss/logits": 0.8033011108636856,
      "step": 51820
    },
    {
      "epoch": 0.5183,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.4869140625,
      "learning_rate": 0.0003,
      "loss": 10.9818,
      "loss/aux_loss": 0.04806631077080965,
      "loss/crossentropy": 2.7276119709014894,
      "loss/logits": 0.8400139749050141,
      "step": 51830
    },
    {
      "epoch": 0.5184,
      "grad_norm": 13.5,
      "grad_norm_var": 0.6833170572916667,
      "learning_rate": 0.0003,
      "loss": 11.1312,
      "loss/aux_loss": 0.0480747552588582,
      "loss/crossentropy": 2.6863146901130674,
      "loss/logits": 0.8191409975290298,
      "step": 51840
    },
    {
      "epoch": 0.5185,
      "grad_norm": 14.375,
      "grad_norm_var": 0.418603515625,
      "learning_rate": 0.0003,
      "loss": 11.0812,
      "loss/aux_loss": 0.048067673854529855,
      "loss/crossentropy": 2.724157619476318,
      "loss/logits": 0.8137524396181106,
      "step": 51850
    },
    {
      "epoch": 0.5186,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.5212076822916667,
      "learning_rate": 0.0003,
      "loss": 10.9867,
      "loss/aux_loss": 0.04808175042271614,
      "loss/crossentropy": 2.7627050638198853,
      "loss/logits": 0.8452069222927093,
      "step": 51860
    },
    {
      "epoch": 0.5187,
      "grad_norm": 14.75,
      "grad_norm_var": 0.8152180989583333,
      "learning_rate": 0.0003,
      "loss": 10.9896,
      "loss/aux_loss": 0.048070698603987695,
      "loss/crossentropy": 2.6193623900413514,
      "loss/logits": 0.8333276480436325,
      "step": 51870
    },
    {
      "epoch": 0.5188,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.5051432291666667,
      "learning_rate": 0.0003,
      "loss": 11.0474,
      "loss/aux_loss": 0.04807662758976221,
      "loss/crossentropy": 2.6479109644889833,
      "loss/logits": 0.8272971555590629,
      "step": 51880
    },
    {
      "epoch": 0.5189,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.41087239583333335,
      "learning_rate": 0.0003,
      "loss": 10.9789,
      "loss/aux_loss": 0.048069034889340403,
      "loss/crossentropy": 2.781693035364151,
      "loss/logits": 0.7891067415475845,
      "step": 51890
    },
    {
      "epoch": 0.519,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.46920572916666664,
      "learning_rate": 0.0003,
      "loss": 11.0487,
      "loss/aux_loss": 0.04807375390082598,
      "loss/crossentropy": 2.760209488868713,
      "loss/logits": 0.8277522176504135,
      "step": 51900
    },
    {
      "epoch": 0.5191,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.6077473958333334,
      "learning_rate": 0.0003,
      "loss": 11.1482,
      "loss/aux_loss": 0.04807181041687727,
      "loss/crossentropy": 2.803401565551758,
      "loss/logits": 0.8468029230833054,
      "step": 51910
    },
    {
      "epoch": 0.5192,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.8886555989583333,
      "learning_rate": 0.0003,
      "loss": 11.1805,
      "loss/aux_loss": 0.048076972179114816,
      "loss/crossentropy": 2.638881093263626,
      "loss/logits": 0.8475582480430603,
      "step": 51920
    },
    {
      "epoch": 0.5193,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.7930826822916667,
      "learning_rate": 0.0003,
      "loss": 11.147,
      "loss/aux_loss": 0.048069387674331665,
      "loss/crossentropy": 2.719567573070526,
      "loss/logits": 0.8314665377140045,
      "step": 51930
    },
    {
      "epoch": 0.5194,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.32916666666666666,
      "learning_rate": 0.0003,
      "loss": 11.2553,
      "loss/aux_loss": 0.0480784498155117,
      "loss/crossentropy": 2.7691810011863707,
      "loss/logits": 0.8145269155502319,
      "step": 51940
    },
    {
      "epoch": 0.5195,
      "grad_norm": 14.75,
      "grad_norm_var": 0.9473307291666667,
      "learning_rate": 0.0003,
      "loss": 11.2179,
      "loss/aux_loss": 0.04808474984019995,
      "loss/crossentropy": 2.6275469183921816,
      "loss/logits": 0.8544179648160934,
      "step": 51950
    },
    {
      "epoch": 0.5196,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.9541666666666667,
      "learning_rate": 0.0003,
      "loss": 11.0911,
      "loss/aux_loss": 0.04806585069745779,
      "loss/crossentropy": 2.7665723621845246,
      "loss/logits": 0.839416640996933,
      "step": 51960
    },
    {
      "epoch": 0.5197,
      "grad_norm": 14.125,
      "grad_norm_var": 0.9515625,
      "learning_rate": 0.0003,
      "loss": 11.0934,
      "loss/aux_loss": 0.04807109031826258,
      "loss/crossentropy": 2.7955354332923887,
      "loss/logits": 0.8091706037521362,
      "step": 51970
    },
    {
      "epoch": 0.5198,
      "grad_norm": 14.375,
      "grad_norm_var": 0.790869140625,
      "learning_rate": 0.0003,
      "loss": 10.9905,
      "loss/aux_loss": 0.04806825909763575,
      "loss/crossentropy": 2.7529439866542815,
      "loss/logits": 0.8357030868530273,
      "step": 51980
    },
    {
      "epoch": 0.5199,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.36013997395833336,
      "learning_rate": 0.0003,
      "loss": 10.9674,
      "loss/aux_loss": 0.048064617440104485,
      "loss/crossentropy": 2.542526823282242,
      "loss/logits": 0.7883663177490234,
      "step": 51990
    },
    {
      "epoch": 0.52,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.5002604166666667,
      "learning_rate": 0.0003,
      "loss": 11.1598,
      "loss/aux_loss": 0.048075161315500735,
      "loss/crossentropy": 2.624401843547821,
      "loss/logits": 0.8276967614889145,
      "step": 52000
    },
    {
      "epoch": 0.5201,
      "grad_norm": 13.25,
      "grad_norm_var": 0.3551432291666667,
      "learning_rate": 0.0003,
      "loss": 11.0968,
      "loss/aux_loss": 0.048081882484257224,
      "loss/crossentropy": 2.6817555725574493,
      "loss/logits": 0.8237560451030731,
      "step": 52010
    },
    {
      "epoch": 0.5202,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.49724934895833334,
      "learning_rate": 0.0003,
      "loss": 10.8817,
      "loss/aux_loss": 0.0480725109577179,
      "loss/crossentropy": 2.782274627685547,
      "loss/logits": 0.8277134209871292,
      "step": 52020
    },
    {
      "epoch": 0.5203,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.7645182291666667,
      "learning_rate": 0.0003,
      "loss": 11.0936,
      "loss/aux_loss": 0.04807168003171682,
      "loss/crossentropy": 2.7582414865493776,
      "loss/logits": 0.825353017449379,
      "step": 52030
    },
    {
      "epoch": 0.5204,
      "grad_norm": 16.0,
      "grad_norm_var": 0.22120768229166668,
      "learning_rate": 0.0003,
      "loss": 11.1796,
      "loss/aux_loss": 0.04807770941406488,
      "loss/crossentropy": 2.7298890888690948,
      "loss/logits": 0.8350825905799866,
      "step": 52040
    },
    {
      "epoch": 0.5205,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.30857747395833335,
      "learning_rate": 0.0003,
      "loss": 11.1765,
      "loss/aux_loss": 0.048072948679327966,
      "loss/crossentropy": 2.7066911339759825,
      "loss/logits": 0.79820456802845,
      "step": 52050
    },
    {
      "epoch": 0.5206,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.22029622395833334,
      "learning_rate": 0.0003,
      "loss": 11.0453,
      "loss/aux_loss": 0.04807343035936355,
      "loss/crossentropy": 2.80033460855484,
      "loss/logits": 0.8346506953239441,
      "step": 52060
    },
    {
      "epoch": 0.5207,
      "grad_norm": 14.375,
      "grad_norm_var": 0.9656087239583333,
      "learning_rate": 0.0003,
      "loss": 11.0548,
      "loss/aux_loss": 0.048069695197045806,
      "loss/crossentropy": 2.9161171913146973,
      "loss/logits": 0.8307078570127487,
      "step": 52070
    },
    {
      "epoch": 0.5208,
      "grad_norm": 13.4375,
      "grad_norm_var": 1.5013020833333333,
      "learning_rate": 0.0003,
      "loss": 10.9583,
      "loss/aux_loss": 0.048071876727044584,
      "loss/crossentropy": 2.7011435866355895,
      "loss/logits": 0.8153011113405227,
      "step": 52080
    },
    {
      "epoch": 0.5209,
      "grad_norm": 13.875,
      "grad_norm_var": 0.499853515625,
      "learning_rate": 0.0003,
      "loss": 11.1305,
      "loss/aux_loss": 0.048079690895974636,
      "loss/crossentropy": 2.848330098390579,
      "loss/logits": 0.8801573872566223,
      "step": 52090
    },
    {
      "epoch": 0.521,
      "grad_norm": 17.0,
      "grad_norm_var": 0.8848307291666667,
      "learning_rate": 0.0003,
      "loss": 11.2081,
      "loss/aux_loss": 0.04806297663599253,
      "loss/crossentropy": 2.7441537618637084,
      "loss/logits": 0.8512663036584854,
      "step": 52100
    },
    {
      "epoch": 0.5211,
      "grad_norm": 13.75,
      "grad_norm_var": 0.8066243489583333,
      "learning_rate": 0.0003,
      "loss": 11.0919,
      "loss/aux_loss": 0.048075188882648945,
      "loss/crossentropy": 2.779297721385956,
      "loss/logits": 0.8286562114953995,
      "step": 52110
    },
    {
      "epoch": 0.5212,
      "grad_norm": 14.875,
      "grad_norm_var": 0.6700520833333333,
      "learning_rate": 0.0003,
      "loss": 11.0529,
      "loss/aux_loss": 0.04808066878467798,
      "loss/crossentropy": 2.675219976902008,
      "loss/logits": 0.822179701924324,
      "step": 52120
    },
    {
      "epoch": 0.5213,
      "grad_norm": 15.4375,
      "grad_norm_var": 3.655143229166667,
      "learning_rate": 0.0003,
      "loss": 11.055,
      "loss/aux_loss": 0.04806961119174957,
      "loss/crossentropy": 2.6856570720672606,
      "loss/logits": 0.8347759008407593,
      "step": 52130
    },
    {
      "epoch": 0.5214,
      "grad_norm": 13.875,
      "grad_norm_var": 1.320947265625,
      "learning_rate": 0.0003,
      "loss": 11.083,
      "loss/aux_loss": 0.048076645098626615,
      "loss/crossentropy": 2.7049236536026,
      "loss/logits": 0.8613912463188171,
      "step": 52140
    },
    {
      "epoch": 0.5215,
      "grad_norm": 15.8125,
      "grad_norm_var": 1.0139973958333333,
      "learning_rate": 0.0003,
      "loss": 11.1862,
      "loss/aux_loss": 0.04807023461908102,
      "loss/crossentropy": 2.8382157564163206,
      "loss/logits": 0.8311042636632919,
      "step": 52150
    },
    {
      "epoch": 0.5216,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.28274739583333336,
      "learning_rate": 0.0003,
      "loss": 10.8209,
      "loss/aux_loss": 0.04806796368211508,
      "loss/crossentropy": 2.614904749393463,
      "loss/logits": 0.820676788687706,
      "step": 52160
    },
    {
      "epoch": 0.5217,
      "grad_norm": 17.375,
      "grad_norm_var": 432.25670572916664,
      "learning_rate": 0.0003,
      "loss": 11.0011,
      "loss/aux_loss": 0.04808936510235071,
      "loss/crossentropy": 2.7092471361160277,
      "loss/logits": 0.8464861899614334,
      "step": 52170
    },
    {
      "epoch": 0.5218,
      "grad_norm": 14.75,
      "grad_norm_var": 422.3980305989583,
      "learning_rate": 0.0003,
      "loss": 10.9375,
      "loss/aux_loss": 0.0480745954439044,
      "loss/crossentropy": 2.670332300662994,
      "loss/logits": 0.8062131941318512,
      "step": 52180
    },
    {
      "epoch": 0.5219,
      "grad_norm": 19.75,
      "grad_norm_var": 66.319775390625,
      "learning_rate": 0.0003,
      "loss": 10.9526,
      "loss/aux_loss": 0.04807987660169601,
      "loss/crossentropy": 2.55713204741478,
      "loss/logits": 0.7974629938602448,
      "step": 52190
    },
    {
      "epoch": 0.522,
      "grad_norm": 16.0,
      "grad_norm_var": 65.07649739583333,
      "learning_rate": 0.0003,
      "loss": 11.1056,
      "loss/aux_loss": 0.04808241315186024,
      "loss/crossentropy": 2.6287878811359406,
      "loss/logits": 0.8144524425268174,
      "step": 52200
    },
    {
      "epoch": 0.5221,
      "grad_norm": 14.875,
      "grad_norm_var": 6.874983723958334,
      "learning_rate": 0.0003,
      "loss": 11.0077,
      "loss/aux_loss": 0.04806690067052841,
      "loss/crossentropy": 2.838245689868927,
      "loss/logits": 0.8343179583549499,
      "step": 52210
    },
    {
      "epoch": 0.5222,
      "grad_norm": 16.375,
      "grad_norm_var": 173.25271809895833,
      "learning_rate": 0.0003,
      "loss": 11.0835,
      "loss/aux_loss": 0.0480758348479867,
      "loss/crossentropy": 2.793542319536209,
      "loss/logits": 0.8210146844387054,
      "step": 52220
    },
    {
      "epoch": 0.5223,
      "grad_norm": 16.625,
      "grad_norm_var": 169.347119140625,
      "learning_rate": 0.0003,
      "loss": 11.2643,
      "loss/aux_loss": 0.048066737875342366,
      "loss/crossentropy": 2.8591265738010407,
      "loss/logits": 0.8664484679698944,
      "step": 52230
    },
    {
      "epoch": 0.5224,
      "grad_norm": 16.875,
      "grad_norm_var": 1.5620930989583333,
      "learning_rate": 0.0003,
      "loss": 11.0528,
      "loss/aux_loss": 0.048073151335120204,
      "loss/crossentropy": 2.916612446308136,
      "loss/logits": 0.8306013375520707,
      "step": 52240
    },
    {
      "epoch": 0.5225,
      "grad_norm": 15.75,
      "grad_norm_var": 0.9489583333333333,
      "learning_rate": 0.0003,
      "loss": 10.9975,
      "loss/aux_loss": 0.048077428713440895,
      "loss/crossentropy": 2.7287715911865233,
      "loss/logits": 0.8001983672380447,
      "step": 52250
    },
    {
      "epoch": 0.5226,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.1489583333333333,
      "learning_rate": 0.0003,
      "loss": 11.1489,
      "loss/aux_loss": 0.04807046465575695,
      "loss/crossentropy": 2.690057897567749,
      "loss/logits": 0.8564533293247223,
      "step": 52260
    },
    {
      "epoch": 0.5227,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.4202962239583334,
      "learning_rate": 0.0003,
      "loss": 11.1189,
      "loss/aux_loss": 0.04805558752268553,
      "loss/crossentropy": 2.7192665219306944,
      "loss/logits": 0.8252882838249207,
      "step": 52270
    },
    {
      "epoch": 0.5228,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.149853515625,
      "learning_rate": 0.0003,
      "loss": 11.0902,
      "loss/aux_loss": 0.048078200593590734,
      "loss/crossentropy": 2.6997458934783936,
      "loss/logits": 0.8123593002557754,
      "step": 52280
    },
    {
      "epoch": 0.5229,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.503759765625,
      "learning_rate": 0.0003,
      "loss": 11.0166,
      "loss/aux_loss": 0.04806804172694683,
      "loss/crossentropy": 2.7590546131134035,
      "loss/logits": 0.8631124138832093,
      "step": 52290
    },
    {
      "epoch": 0.523,
      "grad_norm": 15.125,
      "grad_norm_var": 0.36744791666666665,
      "learning_rate": 0.0003,
      "loss": 11.065,
      "loss/aux_loss": 0.048063941113650796,
      "loss/crossentropy": 2.7753712356090547,
      "loss/logits": 0.8426102191209793,
      "step": 52300
    },
    {
      "epoch": 0.5231,
      "grad_norm": 14.875,
      "grad_norm_var": 0.5161295572916667,
      "learning_rate": 0.0003,
      "loss": 11.0001,
      "loss/aux_loss": 0.04806868564337492,
      "loss/crossentropy": 2.659641718864441,
      "loss/logits": 0.7856981217861175,
      "step": 52310
    },
    {
      "epoch": 0.5232,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.32784830729166664,
      "learning_rate": 0.0003,
      "loss": 10.9511,
      "loss/aux_loss": 0.04808425325900316,
      "loss/crossentropy": 2.805215048789978,
      "loss/logits": 0.8224257946014404,
      "step": 52320
    },
    {
      "epoch": 0.5233,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.6854166666666667,
      "learning_rate": 0.0003,
      "loss": 11.0145,
      "loss/aux_loss": 0.04806450065225363,
      "loss/crossentropy": 2.7425873398780825,
      "loss/logits": 0.8594145178794861,
      "step": 52330
    },
    {
      "epoch": 0.5234,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.8325520833333333,
      "learning_rate": 0.0003,
      "loss": 10.9849,
      "loss/aux_loss": 0.048070778325200084,
      "loss/crossentropy": 2.6495799660682677,
      "loss/logits": 0.8561073631048203,
      "step": 52340
    },
    {
      "epoch": 0.5235,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.3733723958333333,
      "learning_rate": 0.0003,
      "loss": 11.1114,
      "loss/aux_loss": 0.048080655932426455,
      "loss/crossentropy": 2.7500119626522066,
      "loss/logits": 0.8257864147424698,
      "step": 52350
    },
    {
      "epoch": 0.5236,
      "grad_norm": 13.625,
      "grad_norm_var": 0.33098958333333334,
      "learning_rate": 0.0003,
      "loss": 11.1795,
      "loss/aux_loss": 0.04806145485490561,
      "loss/crossentropy": 2.7029913425445558,
      "loss/logits": 0.8572422236204147,
      "step": 52360
    },
    {
      "epoch": 0.5237,
      "grad_norm": 14.75,
      "grad_norm_var": 0.5702962239583333,
      "learning_rate": 0.0003,
      "loss": 10.9993,
      "loss/aux_loss": 0.04806832876056433,
      "loss/crossentropy": 2.8137829422950746,
      "loss/logits": 0.8569367885589599,
      "step": 52370
    },
    {
      "epoch": 0.5238,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.3067708333333333,
      "learning_rate": 0.0003,
      "loss": 11.19,
      "loss/aux_loss": 0.04807415381073952,
      "loss/crossentropy": 2.7384074926376343,
      "loss/logits": 0.8470358967781066,
      "step": 52380
    },
    {
      "epoch": 0.5239,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.51953125,
      "learning_rate": 0.0003,
      "loss": 11.1412,
      "loss/aux_loss": 0.048076053522527216,
      "loss/crossentropy": 2.646379691362381,
      "loss/logits": 0.8290688633918762,
      "step": 52390
    },
    {
      "epoch": 0.524,
      "grad_norm": 14.5,
      "grad_norm_var": 1.0010416666666666,
      "learning_rate": 0.0003,
      "loss": 11.132,
      "loss/aux_loss": 0.04807012863457203,
      "loss/crossentropy": 2.5831472992897035,
      "loss/logits": 0.8385468900203705,
      "step": 52400
    },
    {
      "epoch": 0.5241,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.63046875,
      "learning_rate": 0.0003,
      "loss": 11.025,
      "loss/aux_loss": 0.0480716010555625,
      "loss/crossentropy": 2.7688582479953765,
      "loss/logits": 0.81949682533741,
      "step": 52410
    },
    {
      "epoch": 0.5242,
      "grad_norm": 14.875,
      "grad_norm_var": 1.2026041666666667,
      "learning_rate": 0.0003,
      "loss": 11.0372,
      "loss/aux_loss": 0.04806106220930815,
      "loss/crossentropy": 2.662490212917328,
      "loss/logits": 0.8316513210535049,
      "step": 52420
    },
    {
      "epoch": 0.5243,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.7013020833333333,
      "learning_rate": 0.0003,
      "loss": 11.0859,
      "loss/aux_loss": 0.04808855298906565,
      "loss/crossentropy": 2.754934787750244,
      "loss/logits": 0.8487011790275574,
      "step": 52430
    },
    {
      "epoch": 0.5244,
      "grad_norm": 15.25,
      "grad_norm_var": 0.5528645833333333,
      "learning_rate": 0.0003,
      "loss": 11.0998,
      "loss/aux_loss": 0.04806870725005865,
      "loss/crossentropy": 2.7495794236660003,
      "loss/logits": 0.8377079129219055,
      "step": 52440
    },
    {
      "epoch": 0.5245,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.6384765625,
      "learning_rate": 0.0003,
      "loss": 11.0026,
      "loss/aux_loss": 0.04806353971362114,
      "loss/crossentropy": 2.7716871798038483,
      "loss/logits": 0.8267540782690048,
      "step": 52450
    },
    {
      "epoch": 0.5246,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.8356608072916667,
      "learning_rate": 0.0003,
      "loss": 11.0121,
      "loss/aux_loss": 0.048077926598489286,
      "loss/crossentropy": 2.6334754884243012,
      "loss/logits": 0.8087111979722976,
      "step": 52460
    },
    {
      "epoch": 0.5247,
      "grad_norm": 14.375,
      "grad_norm_var": 0.5186848958333333,
      "learning_rate": 0.0003,
      "loss": 11.1926,
      "loss/aux_loss": 0.048081686906516555,
      "loss/crossentropy": 2.869077742099762,
      "loss/logits": 0.8490048706531524,
      "step": 52470
    },
    {
      "epoch": 0.5248,
      "grad_norm": 58.5,
      "grad_norm_var": 120.93463541666667,
      "learning_rate": 0.0003,
      "loss": 11.1115,
      "loss/aux_loss": 0.04806402996182442,
      "loss/crossentropy": 2.7439518332481385,
      "loss/logits": 0.8263050705194473,
      "step": 52480
    },
    {
      "epoch": 0.5249,
      "grad_norm": 13.75,
      "grad_norm_var": 120.603369140625,
      "learning_rate": 0.0003,
      "loss": 11.1591,
      "loss/aux_loss": 0.04807528704404831,
      "loss/crossentropy": 2.756017154455185,
      "loss/logits": 0.8585342705249787,
      "step": 52490
    },
    {
      "epoch": 0.525,
      "grad_norm": 17.0,
      "grad_norm_var": 0.8096354166666667,
      "learning_rate": 0.0003,
      "loss": 10.8914,
      "loss/aux_loss": 0.04808173086494207,
      "loss/crossentropy": 2.5397191107273103,
      "loss/logits": 0.7909625247120857,
      "step": 52500
    },
    {
      "epoch": 0.5251,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.6671223958333333,
      "learning_rate": 0.0003,
      "loss": 11.1209,
      "loss/aux_loss": 0.04808140583336353,
      "loss/crossentropy": 2.77059742808342,
      "loss/logits": 0.8521383255720139,
      "step": 52510
    },
    {
      "epoch": 0.5252,
      "grad_norm": 14.875,
      "grad_norm_var": 0.5299479166666666,
      "learning_rate": 0.0003,
      "loss": 11.0222,
      "loss/aux_loss": 0.048074524849653244,
      "loss/crossentropy": 2.839930164813995,
      "loss/logits": 0.8667486757040024,
      "step": 52520
    },
    {
      "epoch": 0.5253,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.49347330729166666,
      "learning_rate": 0.0003,
      "loss": 11.1244,
      "loss/aux_loss": 0.048075276613235476,
      "loss/crossentropy": 2.7688077211380007,
      "loss/logits": 0.8387952595949173,
      "step": 52530
    },
    {
      "epoch": 0.5254,
      "grad_norm": 14.625,
      "grad_norm_var": 0.20774739583333332,
      "learning_rate": 0.0003,
      "loss": 10.9861,
      "loss/aux_loss": 0.048070489801466464,
      "loss/crossentropy": 2.698532724380493,
      "loss/logits": 0.8255835890769958,
      "step": 52540
    },
    {
      "epoch": 0.5255,
      "grad_norm": 14.625,
      "grad_norm_var": 0.23587239583333333,
      "learning_rate": 0.0003,
      "loss": 10.9713,
      "loss/aux_loss": 0.048068863339722157,
      "loss/crossentropy": 2.6561999797821043,
      "loss/logits": 0.8281907647848129,
      "step": 52550
    },
    {
      "epoch": 0.5256,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.49635416666666665,
      "learning_rate": 0.0003,
      "loss": 11.1839,
      "loss/aux_loss": 0.04807021860033274,
      "loss/crossentropy": 2.6908550024032594,
      "loss/logits": 0.8255572736263275,
      "step": 52560
    },
    {
      "epoch": 0.5257,
      "grad_norm": 14.875,
      "grad_norm_var": 0.877978515625,
      "learning_rate": 0.0003,
      "loss": 11.1567,
      "loss/aux_loss": 0.04808451551944017,
      "loss/crossentropy": 2.6696718633174896,
      "loss/logits": 0.8380467757582665,
      "step": 52570
    },
    {
      "epoch": 0.5258,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.8130208333333333,
      "learning_rate": 0.0003,
      "loss": 11.2055,
      "loss/aux_loss": 0.048067509196698666,
      "loss/crossentropy": 2.7303407311439516,
      "loss/logits": 0.8700813353061676,
      "step": 52580
    },
    {
      "epoch": 0.5259,
      "grad_norm": 14.125,
      "grad_norm_var": 0.3790201822916667,
      "learning_rate": 0.0003,
      "loss": 11.0618,
      "loss/aux_loss": 0.04807270802557469,
      "loss/crossentropy": 2.6694105565547943,
      "loss/logits": 0.7754775255918502,
      "step": 52590
    },
    {
      "epoch": 0.526,
      "grad_norm": 14.375,
      "grad_norm_var": 0.6511555989583333,
      "learning_rate": 0.0003,
      "loss": 10.9769,
      "loss/aux_loss": 0.048081257939338685,
      "loss/crossentropy": 2.6837186098098753,
      "loss/logits": 0.8063045144081116,
      "step": 52600
    },
    {
      "epoch": 0.5261,
      "grad_norm": 14.0,
      "grad_norm_var": 0.396728515625,
      "learning_rate": 0.0003,
      "loss": 11.0115,
      "loss/aux_loss": 0.04805648773908615,
      "loss/crossentropy": 2.7159491300582888,
      "loss/logits": 0.8259630739688874,
      "step": 52610
    },
    {
      "epoch": 0.5262,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.3636555989583333,
      "learning_rate": 0.0003,
      "loss": 11.1381,
      "loss/aux_loss": 0.048068524710834025,
      "loss/crossentropy": 2.7253064274787904,
      "loss/logits": 0.8619579613208771,
      "step": 52620
    },
    {
      "epoch": 0.5263,
      "grad_norm": 16.625,
      "grad_norm_var": 0.5613932291666667,
      "learning_rate": 0.0003,
      "loss": 11.0564,
      "loss/aux_loss": 0.048091832920908927,
      "loss/crossentropy": 2.6312204539775848,
      "loss/logits": 0.8314170449972152,
      "step": 52630
    },
    {
      "epoch": 0.5264,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.6113118489583333,
      "learning_rate": 0.0003,
      "loss": 10.9914,
      "loss/aux_loss": 0.04807051923125982,
      "loss/crossentropy": 2.6146963119506834,
      "loss/logits": 0.8094371676445007,
      "step": 52640
    },
    {
      "epoch": 0.5265,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5033854166666667,
      "learning_rate": 0.0003,
      "loss": 11.0347,
      "loss/aux_loss": 0.048073076829314235,
      "loss/crossentropy": 2.6342477977275847,
      "loss/logits": 0.8295989811420441,
      "step": 52650
    },
    {
      "epoch": 0.5266,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.3854166666666667,
      "learning_rate": 0.0003,
      "loss": 11.14,
      "loss/aux_loss": 0.04807663932442665,
      "loss/crossentropy": 2.7020954489707947,
      "loss/logits": 0.8581462055444717,
      "step": 52660
    },
    {
      "epoch": 0.5267,
      "grad_norm": 14.125,
      "grad_norm_var": 0.30831705729166664,
      "learning_rate": 0.0003,
      "loss": 11.1963,
      "loss/aux_loss": 0.04808024019002914,
      "loss/crossentropy": 2.7205568671226503,
      "loss/logits": 0.8558012962341308,
      "step": 52670
    },
    {
      "epoch": 0.5268,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.48483072916666664,
      "learning_rate": 0.0003,
      "loss": 11.2696,
      "loss/aux_loss": 0.04806710928678513,
      "loss/crossentropy": 2.6928990364074705,
      "loss/logits": 0.8565327882766723,
      "step": 52680
    },
    {
      "epoch": 0.5269,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.33326822916666665,
      "learning_rate": 0.0003,
      "loss": 11.0155,
      "loss/aux_loss": 0.04807606115937233,
      "loss/crossentropy": 2.7816842436790465,
      "loss/logits": 0.8381152004003525,
      "step": 52690
    },
    {
      "epoch": 0.527,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5822265625,
      "learning_rate": 0.0003,
      "loss": 10.9005,
      "loss/aux_loss": 0.04807661436498165,
      "loss/crossentropy": 2.7815606117248537,
      "loss/logits": 0.8124045938253402,
      "step": 52700
    },
    {
      "epoch": 0.5271,
      "grad_norm": 19.125,
      "grad_norm_var": 126.51925455729166,
      "learning_rate": 0.0003,
      "loss": 11.0246,
      "loss/aux_loss": 0.04807195011526346,
      "loss/crossentropy": 2.7958267748355867,
      "loss/logits": 0.8013758540153504,
      "step": 52710
    },
    {
      "epoch": 0.5272,
      "grad_norm": 15.5625,
      "grad_norm_var": 1.7684895833333334,
      "learning_rate": 0.0003,
      "loss": 10.8688,
      "loss/aux_loss": 0.04807553049176931,
      "loss/crossentropy": 2.6325803816318514,
      "loss/logits": 0.774325168132782,
      "step": 52720
    },
    {
      "epoch": 0.5273,
      "grad_norm": 16.25,
      "grad_norm_var": 0.6153483072916667,
      "learning_rate": 0.0003,
      "loss": 10.9838,
      "loss/aux_loss": 0.048076539672911166,
      "loss/crossentropy": 2.693459987640381,
      "loss/logits": 0.8326463222503662,
      "step": 52730
    },
    {
      "epoch": 0.5274,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.92890625,
      "learning_rate": 0.0003,
      "loss": 11.0022,
      "loss/aux_loss": 0.048076620884239675,
      "loss/crossentropy": 2.664745795726776,
      "loss/logits": 0.7966249287128448,
      "step": 52740
    },
    {
      "epoch": 0.5275,
      "grad_norm": 14.25,
      "grad_norm_var": 0.7697265625,
      "learning_rate": 0.0003,
      "loss": 11.0997,
      "loss/aux_loss": 0.048067349940538406,
      "loss/crossentropy": 2.7236247181892397,
      "loss/logits": 0.8551719903945922,
      "step": 52750
    },
    {
      "epoch": 0.5276,
      "grad_norm": 16.125,
      "grad_norm_var": 1.3202473958333334,
      "learning_rate": 0.0003,
      "loss": 11.1669,
      "loss/aux_loss": 0.04806178268045187,
      "loss/crossentropy": 2.6296289205551147,
      "loss/logits": 0.8232845932245254,
      "step": 52760
    },
    {
      "epoch": 0.5277,
      "grad_norm": 14.125,
      "grad_norm_var": 1.2356608072916666,
      "learning_rate": 0.0003,
      "loss": 10.9658,
      "loss/aux_loss": 0.048072172701358794,
      "loss/crossentropy": 2.7454709470272065,
      "loss/logits": 0.8835760146379471,
      "step": 52770
    },
    {
      "epoch": 0.5278,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.46608072916666665,
      "learning_rate": 0.0003,
      "loss": 10.9155,
      "loss/aux_loss": 0.04808282610028982,
      "loss/crossentropy": 2.6181671559810638,
      "loss/logits": 0.7878573626279831,
      "step": 52780
    },
    {
      "epoch": 0.5279,
      "grad_norm": 14.0,
      "grad_norm_var": 0.4754557291666667,
      "learning_rate": 0.0003,
      "loss": 11.1934,
      "loss/aux_loss": 0.04805999156087637,
      "loss/crossentropy": 2.5984963536262513,
      "loss/logits": 0.827095377445221,
      "step": 52790
    },
    {
      "epoch": 0.528,
      "grad_norm": 15.8125,
      "grad_norm_var": 3.491650390625,
      "learning_rate": 0.0003,
      "loss": 10.891,
      "loss/aux_loss": 0.048077487759292124,
      "loss/crossentropy": 2.659852463006973,
      "loss/logits": 0.8111390471458435,
      "step": 52800
    },
    {
      "epoch": 0.5281,
      "grad_norm": 17.0,
      "grad_norm_var": 1.5148274739583334,
      "learning_rate": 0.0003,
      "loss": 11.0344,
      "loss/aux_loss": 0.048082652315497396,
      "loss/crossentropy": 2.7374175548553468,
      "loss/logits": 0.8587904393672943,
      "step": 52810
    },
    {
      "epoch": 0.5282,
      "grad_norm": 15.0,
      "grad_norm_var": 0.9212890625,
      "learning_rate": 0.0003,
      "loss": 11.0007,
      "loss/aux_loss": 0.048067308217287066,
      "loss/crossentropy": 2.6461476027965545,
      "loss/logits": 0.8455465078353882,
      "step": 52820
    },
    {
      "epoch": 0.5283,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.19791666666666666,
      "learning_rate": 0.0003,
      "loss": 11.1109,
      "loss/aux_loss": 0.04806644786149263,
      "loss/crossentropy": 2.6328052401542665,
      "loss/logits": 0.8342522650957107,
      "step": 52830
    },
    {
      "epoch": 0.5284,
      "grad_norm": 14.375,
      "grad_norm_var": 0.9562337239583333,
      "learning_rate": 0.0003,
      "loss": 11.086,
      "loss/aux_loss": 0.04808475598692894,
      "loss/crossentropy": 2.6256862759590147,
      "loss/logits": 0.7829153060913085,
      "step": 52840
    },
    {
      "epoch": 0.5285,
      "grad_norm": 17.0,
      "grad_norm_var": 1.2145670572916667,
      "learning_rate": 0.0003,
      "loss": 10.9496,
      "loss/aux_loss": 0.04806415122002363,
      "loss/crossentropy": 2.6609319686889648,
      "loss/logits": 0.8291169613599777,
      "step": 52850
    },
    {
      "epoch": 0.5286,
      "grad_norm": 15.25,
      "grad_norm_var": 0.740478515625,
      "learning_rate": 0.0003,
      "loss": 11.0984,
      "loss/aux_loss": 0.04807539191097021,
      "loss/crossentropy": 2.7916451573371885,
      "loss/logits": 0.8835980743169785,
      "step": 52860
    },
    {
      "epoch": 0.5287,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.3244140625,
      "learning_rate": 0.0003,
      "loss": 11.1493,
      "loss/aux_loss": 0.04807141460478306,
      "loss/crossentropy": 2.6395734310150147,
      "loss/logits": 0.8369731396436692,
      "step": 52870
    },
    {
      "epoch": 0.5288,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.3999837239583333,
      "learning_rate": 0.0003,
      "loss": 11.1769,
      "loss/aux_loss": 0.0480716809630394,
      "loss/crossentropy": 2.646906042098999,
      "loss/logits": 0.8252363950014114,
      "step": 52880
    },
    {
      "epoch": 0.5289,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.53359375,
      "learning_rate": 0.0003,
      "loss": 10.8501,
      "loss/aux_loss": 0.0480677381157875,
      "loss/crossentropy": 2.6961144506931305,
      "loss/logits": 0.8162854909896851,
      "step": 52890
    },
    {
      "epoch": 0.529,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.9093098958333333,
      "learning_rate": 0.0003,
      "loss": 11.0589,
      "loss/aux_loss": 0.04807200450450182,
      "loss/crossentropy": 2.698295068740845,
      "loss/logits": 0.8631285429000854,
      "step": 52900
    },
    {
      "epoch": 0.5291,
      "grad_norm": 13.5,
      "grad_norm_var": 0.7817708333333333,
      "learning_rate": 0.0003,
      "loss": 11.1834,
      "loss/aux_loss": 0.048069717921316625,
      "loss/crossentropy": 2.6712867975234986,
      "loss/logits": 0.8359966963529587,
      "step": 52910
    },
    {
      "epoch": 0.5292,
      "grad_norm": 14.75,
      "grad_norm_var": 0.6963541666666667,
      "learning_rate": 0.0003,
      "loss": 11.0659,
      "loss/aux_loss": 0.04808163065463304,
      "loss/crossentropy": 2.8286949574947355,
      "loss/logits": 0.8520474523305893,
      "step": 52920
    },
    {
      "epoch": 0.5293,
      "grad_norm": 13.375,
      "grad_norm_var": 218.29959309895833,
      "learning_rate": 0.0003,
      "loss": 11.0394,
      "loss/aux_loss": 0.04807936865836382,
      "loss/crossentropy": 2.6493199944496153,
      "loss/logits": 0.8226024299860001,
      "step": 52930
    },
    {
      "epoch": 0.5294,
      "grad_norm": 14.375,
      "grad_norm_var": 1.834375,
      "learning_rate": 0.0003,
      "loss": 11.0009,
      "loss/aux_loss": 0.04807878416031599,
      "loss/crossentropy": 2.7264573156833647,
      "loss/logits": 0.8180064380168914,
      "step": 52940
    },
    {
      "epoch": 0.5295,
      "grad_norm": 17.875,
      "grad_norm_var": 209.07029622395834,
      "learning_rate": 0.0003,
      "loss": 11.0623,
      "loss/aux_loss": 0.04807962104678154,
      "loss/crossentropy": 2.6582289695739747,
      "loss/logits": 0.8249925941228866,
      "step": 52950
    },
    {
      "epoch": 0.5296,
      "grad_norm": 16.125,
      "grad_norm_var": 205.12589518229166,
      "learning_rate": 0.0003,
      "loss": 11.0608,
      "loss/aux_loss": 0.048064501583576204,
      "loss/crossentropy": 2.701625847816467,
      "loss/logits": 0.8246585041284561,
      "step": 52960
    },
    {
      "epoch": 0.5297,
      "grad_norm": 15.5625,
      "grad_norm_var": 1.485400390625,
      "learning_rate": 0.0003,
      "loss": 11.118,
      "loss/aux_loss": 0.04807926844805479,
      "loss/crossentropy": 2.733833837509155,
      "loss/logits": 0.8345234960317611,
      "step": 52970
    },
    {
      "epoch": 0.5298,
      "grad_norm": 14.875,
      "grad_norm_var": 10.382747395833333,
      "learning_rate": 0.0003,
      "loss": 11.1176,
      "loss/aux_loss": 0.04808099288493395,
      "loss/crossentropy": 2.7490680694580076,
      "loss/logits": 0.838299173116684,
      "step": 52980
    },
    {
      "epoch": 0.5299,
      "grad_norm": 13.625,
      "grad_norm_var": 10.414827473958333,
      "learning_rate": 0.0003,
      "loss": 11.0292,
      "loss/aux_loss": 0.048076806217432023,
      "loss/crossentropy": 2.852311670780182,
      "loss/logits": 0.8578749477863312,
      "step": 52990
    },
    {
      "epoch": 0.53,
      "grad_norm": 14.5,
      "grad_norm_var": 1.9286295572916667,
      "learning_rate": 0.0003,
      "loss": 11.0788,
      "loss/aux_loss": 0.04808791987597942,
      "loss/crossentropy": 2.48682958483696,
      "loss/logits": 0.7837358355522156,
      "step": 53000
    },
    {
      "epoch": 0.5301,
      "grad_norm": 15.25,
      "grad_norm_var": 0.5119791666666667,
      "learning_rate": 0.0003,
      "loss": 11.0287,
      "loss/aux_loss": 0.04806363768875599,
      "loss/crossentropy": 2.7360428392887117,
      "loss/logits": 0.8066596657037735,
      "step": 53010
    },
    {
      "epoch": 0.5302,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.45078125,
      "learning_rate": 0.0003,
      "loss": 11.0826,
      "loss/aux_loss": 0.048080742731690405,
      "loss/crossentropy": 2.624992382526398,
      "loss/logits": 0.8372664958238601,
      "step": 53020
    },
    {
      "epoch": 0.5303,
      "grad_norm": 17.125,
      "grad_norm_var": 1.5770833333333334,
      "learning_rate": 0.0003,
      "loss": 10.9728,
      "loss/aux_loss": 0.0480709882453084,
      "loss/crossentropy": 2.6210521042346953,
      "loss/logits": 0.8308377593755722,
      "step": 53030
    },
    {
      "epoch": 0.5304,
      "grad_norm": 14.75,
      "grad_norm_var": 1.211962890625,
      "learning_rate": 0.0003,
      "loss": 11.0566,
      "loss/aux_loss": 0.04806949980556965,
      "loss/crossentropy": 2.679835093021393,
      "loss/logits": 0.8029073655605317,
      "step": 53040
    },
    {
      "epoch": 0.5305,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.3603515625,
      "learning_rate": 0.0003,
      "loss": 11.064,
      "loss/aux_loss": 0.04807988815009594,
      "loss/crossentropy": 2.649093449115753,
      "loss/logits": 0.8222986310720444,
      "step": 53050
    },
    {
      "epoch": 0.5306,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.5082682291666667,
      "learning_rate": 0.0003,
      "loss": 11.0953,
      "loss/aux_loss": 0.04807553198188543,
      "loss/crossentropy": 2.7045671463012697,
      "loss/logits": 0.815049484372139,
      "step": 53060
    },
    {
      "epoch": 0.5307,
      "grad_norm": 14.875,
      "grad_norm_var": 0.33255208333333336,
      "learning_rate": 0.0003,
      "loss": 11.0753,
      "loss/aux_loss": 0.04806431755423546,
      "loss/crossentropy": 2.7456027269363403,
      "loss/logits": 0.8385494530200959,
      "step": 53070
    },
    {
      "epoch": 0.5308,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.260009765625,
      "learning_rate": 0.0003,
      "loss": 10.9512,
      "loss/aux_loss": 0.04808401577174663,
      "loss/crossentropy": 2.5376985907554626,
      "loss/logits": 0.8007230907678604,
      "step": 53080
    },
    {
      "epoch": 0.5309,
      "grad_norm": 15.0625,
      "grad_norm_var": 3.8843098958333333,
      "learning_rate": 0.0003,
      "loss": 10.9647,
      "loss/aux_loss": 0.04807156920433044,
      "loss/crossentropy": 2.8426152527332307,
      "loss/logits": 0.8263060122728347,
      "step": 53090
    },
    {
      "epoch": 0.531,
      "grad_norm": 14.25,
      "grad_norm_var": 3.9544270833333335,
      "learning_rate": 0.0003,
      "loss": 11.1311,
      "loss/aux_loss": 0.048070313036441804,
      "loss/crossentropy": 2.679327297210693,
      "loss/logits": 0.8237017244100571,
      "step": 53100
    },
    {
      "epoch": 0.5311,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.3791015625,
      "learning_rate": 0.0003,
      "loss": 11.1016,
      "loss/aux_loss": 0.04808187987655401,
      "loss/crossentropy": 2.571546399593353,
      "loss/logits": 0.8291330844163894,
      "step": 53110
    },
    {
      "epoch": 0.5312,
      "grad_norm": 14.25,
      "grad_norm_var": 0.44244791666666666,
      "learning_rate": 0.0003,
      "loss": 11.0984,
      "loss/aux_loss": 0.04806428123265505,
      "loss/crossentropy": 2.682811915874481,
      "loss/logits": 0.8410823673009873,
      "step": 53120
    },
    {
      "epoch": 0.5313,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.443994140625,
      "learning_rate": 0.0003,
      "loss": 11.0374,
      "loss/aux_loss": 0.04808186236768961,
      "loss/crossentropy": 2.8723417639732363,
      "loss/logits": 0.8567765563726425,
      "step": 53130
    },
    {
      "epoch": 0.5314,
      "grad_norm": 14.0,
      "grad_norm_var": 0.48943684895833334,
      "learning_rate": 0.0003,
      "loss": 11.0291,
      "loss/aux_loss": 0.048074983060359955,
      "loss/crossentropy": 2.634695219993591,
      "loss/logits": 0.836324593424797,
      "step": 53140
    },
    {
      "epoch": 0.5315,
      "grad_norm": 14.625,
      "grad_norm_var": 0.8124837239583333,
      "learning_rate": 0.0003,
      "loss": 11.1395,
      "loss/aux_loss": 0.04806621633470058,
      "loss/crossentropy": 2.740517848730087,
      "loss/logits": 0.8308217048645019,
      "step": 53150
    },
    {
      "epoch": 0.5316,
      "grad_norm": 13.1875,
      "grad_norm_var": 0.7023274739583333,
      "learning_rate": 0.0003,
      "loss": 11.0551,
      "loss/aux_loss": 0.04807417429983616,
      "loss/crossentropy": 2.7302970767021177,
      "loss/logits": 0.8507604837417603,
      "step": 53160
    },
    {
      "epoch": 0.5317,
      "grad_norm": 15.1875,
      "grad_norm_var": 1.5652180989583333,
      "learning_rate": 0.0003,
      "loss": 11.0137,
      "loss/aux_loss": 0.04807768277823925,
      "loss/crossentropy": 2.676066642999649,
      "loss/logits": 0.8240761816501617,
      "step": 53170
    },
    {
      "epoch": 0.5318,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.4925618489583333,
      "learning_rate": 0.0003,
      "loss": 11.1415,
      "loss/aux_loss": 0.04806169308722019,
      "loss/crossentropy": 2.6013071119785307,
      "loss/logits": 0.8342882752418518,
      "step": 53180
    },
    {
      "epoch": 0.5319,
      "grad_norm": 14.625,
      "grad_norm_var": 0.3927083333333333,
      "learning_rate": 0.0003,
      "loss": 11.129,
      "loss/aux_loss": 0.04808182790875435,
      "loss/crossentropy": 2.7180078864097594,
      "loss/logits": 0.8595794111490249,
      "step": 53190
    },
    {
      "epoch": 0.532,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.19212239583333332,
      "learning_rate": 0.0003,
      "loss": 11.0407,
      "loss/aux_loss": 0.04806814473122358,
      "loss/crossentropy": 2.6401141822338103,
      "loss/logits": 0.7996371448040008,
      "step": 53200
    },
    {
      "epoch": 0.5321,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.2530598958333333,
      "learning_rate": 0.0003,
      "loss": 11.0913,
      "loss/aux_loss": 0.04807532113045454,
      "loss/crossentropy": 2.7931397438049315,
      "loss/logits": 0.7978598833084106,
      "step": 53210
    },
    {
      "epoch": 0.5322,
      "grad_norm": 14.875,
      "grad_norm_var": 0.28854166666666664,
      "learning_rate": 0.0003,
      "loss": 11.0714,
      "loss/aux_loss": 0.04807628560811281,
      "loss/crossentropy": 2.6044381737709044,
      "loss/logits": 0.8384490758180618,
      "step": 53220
    },
    {
      "epoch": 0.5323,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.3311848958333333,
      "learning_rate": 0.0003,
      "loss": 11.0452,
      "loss/aux_loss": 0.048069493100047114,
      "loss/crossentropy": 2.725711923837662,
      "loss/logits": 0.8274922966957092,
      "step": 53230
    },
    {
      "epoch": 0.5324,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.6875,
      "learning_rate": 0.0003,
      "loss": 11.0122,
      "loss/aux_loss": 0.0480713777244091,
      "loss/crossentropy": 2.7457379400730133,
      "loss/logits": 0.8154986947774887,
      "step": 53240
    },
    {
      "epoch": 0.5325,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.4058430989583333,
      "learning_rate": 0.0003,
      "loss": 11.0645,
      "loss/aux_loss": 0.048076901398599145,
      "loss/crossentropy": 2.644556438922882,
      "loss/logits": 0.7974002599716187,
      "step": 53250
    },
    {
      "epoch": 0.5326,
      "grad_norm": 14.5,
      "grad_norm_var": 1.065478515625,
      "learning_rate": 0.0003,
      "loss": 11.1355,
      "loss/aux_loss": 0.04806389715522528,
      "loss/crossentropy": 2.6610435485839843,
      "loss/logits": 0.8192419022321701,
      "step": 53260
    },
    {
      "epoch": 0.5327,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.362353515625,
      "learning_rate": 0.0003,
      "loss": 11.0868,
      "loss/aux_loss": 0.04807983003556728,
      "loss/crossentropy": 2.726958382129669,
      "loss/logits": 0.8118180692195892,
      "step": 53270
    },
    {
      "epoch": 0.5328,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.5813639322916667,
      "learning_rate": 0.0003,
      "loss": 11.1905,
      "loss/aux_loss": 0.048070806078612804,
      "loss/crossentropy": 2.5736697733402254,
      "loss/logits": 0.8248791873455048,
      "step": 53280
    },
    {
      "epoch": 0.5329,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5400390625,
      "learning_rate": 0.0003,
      "loss": 11.117,
      "loss/aux_loss": 0.04807869885116815,
      "loss/crossentropy": 2.789425587654114,
      "loss/logits": 0.8584134370088577,
      "step": 53290
    },
    {
      "epoch": 0.533,
      "grad_norm": 14.25,
      "grad_norm_var": 0.3907389322916667,
      "learning_rate": 0.0003,
      "loss": 11.0787,
      "loss/aux_loss": 0.048071909509599206,
      "loss/crossentropy": 2.6537403225898744,
      "loss/logits": 0.8524068266153335,
      "step": 53300
    },
    {
      "epoch": 0.5331,
      "grad_norm": 16.25,
      "grad_norm_var": 1.6032389322916667,
      "learning_rate": 0.0003,
      "loss": 11.2028,
      "loss/aux_loss": 0.04807873219251633,
      "loss/crossentropy": 2.86398446559906,
      "loss/logits": 0.84943727850914,
      "step": 53310
    },
    {
      "epoch": 0.5332,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.3870930989583333,
      "learning_rate": 0.0003,
      "loss": 11.0856,
      "loss/aux_loss": 0.048069454915821555,
      "loss/crossentropy": 2.6376845240592957,
      "loss/logits": 0.845120832324028,
      "step": 53320
    },
    {
      "epoch": 0.5333,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.5899576822916667,
      "learning_rate": 0.0003,
      "loss": 11.0704,
      "loss/aux_loss": 0.04807726014405489,
      "loss/crossentropy": 2.852811598777771,
      "loss/logits": 0.808278375864029,
      "step": 53330
    },
    {
      "epoch": 0.5334,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.6477701822916667,
      "learning_rate": 0.0003,
      "loss": 10.8892,
      "loss/aux_loss": 0.04806978944689035,
      "loss/crossentropy": 2.7639645457267763,
      "loss/logits": 0.8498774021863937,
      "step": 53340
    },
    {
      "epoch": 0.5335,
      "grad_norm": 15.125,
      "grad_norm_var": 0.7806640625,
      "learning_rate": 0.0003,
      "loss": 10.8939,
      "loss/aux_loss": 0.048068863339722157,
      "loss/crossentropy": 2.472467356920242,
      "loss/logits": 0.7923805028200149,
      "step": 53350
    },
    {
      "epoch": 0.5336,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.6285807291666666,
      "learning_rate": 0.0003,
      "loss": 10.9191,
      "loss/aux_loss": 0.04807096607983112,
      "loss/crossentropy": 2.535427379608154,
      "loss/logits": 0.8171293288469315,
      "step": 53360
    },
    {
      "epoch": 0.5337,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.27029622395833336,
      "learning_rate": 0.0003,
      "loss": 10.9995,
      "loss/aux_loss": 0.04807757455855608,
      "loss/crossentropy": 2.699053144454956,
      "loss/logits": 0.8358200043439865,
      "step": 53370
    },
    {
      "epoch": 0.5338,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.37916666666666665,
      "learning_rate": 0.0003,
      "loss": 10.9628,
      "loss/aux_loss": 0.04807063937187195,
      "loss/crossentropy": 2.595501071214676,
      "loss/logits": 0.8261586040258407,
      "step": 53380
    },
    {
      "epoch": 0.5339,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.746875,
      "learning_rate": 0.0003,
      "loss": 11.0618,
      "loss/aux_loss": 0.04807272292673588,
      "loss/crossentropy": 2.6923603653907775,
      "loss/logits": 0.8231137573719025,
      "step": 53390
    },
    {
      "epoch": 0.534,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.44869791666666664,
      "learning_rate": 0.0003,
      "loss": 10.979,
      "loss/aux_loss": 0.04807500522583723,
      "loss/crossentropy": 2.829385429620743,
      "loss/logits": 0.8415767669677734,
      "step": 53400
    },
    {
      "epoch": 0.5341,
      "grad_norm": 14.125,
      "grad_norm_var": 0.3702473958333333,
      "learning_rate": 0.0003,
      "loss": 10.9503,
      "loss/aux_loss": 0.04806397818028927,
      "loss/crossentropy": 2.4466098248958588,
      "loss/logits": 0.7799597263336182,
      "step": 53410
    },
    {
      "epoch": 0.5342,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5653483072916666,
      "learning_rate": 0.0003,
      "loss": 11.1548,
      "loss/aux_loss": 0.04807454627007246,
      "loss/crossentropy": 2.669411617517471,
      "loss/logits": 0.8267213612794876,
      "step": 53420
    },
    {
      "epoch": 0.5343,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.8238932291666666,
      "learning_rate": 0.0003,
      "loss": 10.9296,
      "loss/aux_loss": 0.048065404407680035,
      "loss/crossentropy": 2.78000248670578,
      "loss/logits": 0.8359499126672745,
      "step": 53430
    },
    {
      "epoch": 0.5344,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.276025390625,
      "learning_rate": 0.0003,
      "loss": 11.0951,
      "loss/aux_loss": 0.04806756917387247,
      "loss/crossentropy": 2.854048955440521,
      "loss/logits": 0.8441928833723068,
      "step": 53440
    },
    {
      "epoch": 0.5345,
      "grad_norm": 13.5,
      "grad_norm_var": 0.8166015625,
      "learning_rate": 0.0003,
      "loss": 11.1276,
      "loss/aux_loss": 0.04807045813649893,
      "loss/crossentropy": 2.7718479573726653,
      "loss/logits": 0.8208920061588287,
      "step": 53450
    },
    {
      "epoch": 0.5346,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.2453125,
      "learning_rate": 0.0003,
      "loss": 11.1,
      "loss/aux_loss": 0.048068010993301866,
      "loss/crossentropy": 2.890912193059921,
      "loss/logits": 0.812038055062294,
      "step": 53460
    },
    {
      "epoch": 0.5347,
      "grad_norm": 15.875,
      "grad_norm_var": 0.943994140625,
      "learning_rate": 0.0003,
      "loss": 11.0452,
      "loss/aux_loss": 0.04808399192988873,
      "loss/crossentropy": 2.8517406702041628,
      "loss/logits": 0.8417524635791779,
      "step": 53470
    },
    {
      "epoch": 0.5348,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.9677083333333333,
      "learning_rate": 0.0003,
      "loss": 10.964,
      "loss/aux_loss": 0.048053649812936784,
      "loss/crossentropy": 2.7846075654029847,
      "loss/logits": 0.8391733020544052,
      "step": 53480
    },
    {
      "epoch": 0.5349,
      "grad_norm": 15.75,
      "grad_norm_var": 0.26171875,
      "learning_rate": 0.0003,
      "loss": 11.0427,
      "loss/aux_loss": 0.04807787444442511,
      "loss/crossentropy": 2.6856286406517027,
      "loss/logits": 0.8094239175319672,
      "step": 53490
    },
    {
      "epoch": 0.535,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.5763020833333333,
      "learning_rate": 0.0003,
      "loss": 11.0114,
      "loss/aux_loss": 0.048055261932313444,
      "loss/crossentropy": 2.517116981744766,
      "loss/logits": 0.7816114693880081,
      "step": 53500
    },
    {
      "epoch": 0.5351,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.5478515625,
      "learning_rate": 0.0003,
      "loss": 11.1496,
      "loss/aux_loss": 0.0480762280523777,
      "loss/crossentropy": 2.9342130780220033,
      "loss/logits": 0.856569093465805,
      "step": 53510
    },
    {
      "epoch": 0.5352,
      "grad_norm": 14.125,
      "grad_norm_var": 5.563525390625,
      "learning_rate": 0.0003,
      "loss": 11.0715,
      "loss/aux_loss": 0.04807373471558094,
      "loss/crossentropy": 2.8552743911743166,
      "loss/logits": 0.8635714590549469,
      "step": 53520
    },
    {
      "epoch": 0.5353,
      "grad_norm": 14.4375,
      "grad_norm_var": 80.24724934895833,
      "learning_rate": 0.0003,
      "loss": 11.065,
      "loss/aux_loss": 0.04806609898805618,
      "loss/crossentropy": 2.737239396572113,
      "loss/logits": 0.8101500362157822,
      "step": 53530
    },
    {
      "epoch": 0.5354,
      "grad_norm": 15.8125,
      "grad_norm_var": 79.16443684895833,
      "learning_rate": 0.0003,
      "loss": 10.8988,
      "loss/aux_loss": 0.04807798117399216,
      "loss/crossentropy": 2.601036584377289,
      "loss/logits": 0.8181641131639481,
      "step": 53540
    },
    {
      "epoch": 0.5355,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.45779622395833336,
      "learning_rate": 0.0003,
      "loss": 11.0052,
      "loss/aux_loss": 0.04806607346981764,
      "loss/crossentropy": 2.7229600071907045,
      "loss/logits": 0.8561374306678772,
      "step": 53550
    },
    {
      "epoch": 0.5356,
      "grad_norm": 17.25,
      "grad_norm_var": 1.2523274739583334,
      "learning_rate": 0.0003,
      "loss": 11.011,
      "loss/aux_loss": 0.04806992299854755,
      "loss/crossentropy": 2.877775228023529,
      "loss/logits": 0.8536604076623917,
      "step": 53560
    },
    {
      "epoch": 0.5357,
      "grad_norm": 14.125,
      "grad_norm_var": 1.068994140625,
      "learning_rate": 0.0003,
      "loss": 10.9918,
      "loss/aux_loss": 0.04807414263486862,
      "loss/crossentropy": 2.705450266599655,
      "loss/logits": 0.8226163148880005,
      "step": 53570
    },
    {
      "epoch": 0.5358,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.403369140625,
      "learning_rate": 0.0003,
      "loss": 10.838,
      "loss/aux_loss": 0.0480672538280487,
      "loss/crossentropy": 2.744877350330353,
      "loss/logits": 0.793895834684372,
      "step": 53580
    },
    {
      "epoch": 0.5359,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.9878743489583334,
      "learning_rate": 0.0003,
      "loss": 11.1031,
      "loss/aux_loss": 0.04807367753237486,
      "loss/crossentropy": 2.871882838010788,
      "loss/logits": 0.8179901033639908,
      "step": 53590
    },
    {
      "epoch": 0.536,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.9676432291666667,
      "learning_rate": 0.0003,
      "loss": 10.9992,
      "loss/aux_loss": 0.048075889237225056,
      "loss/crossentropy": 2.8211424231529234,
      "loss/logits": 0.8252835303544999,
      "step": 53600
    },
    {
      "epoch": 0.5361,
      "grad_norm": 14.875,
      "grad_norm_var": 0.7976399739583333,
      "learning_rate": 0.0003,
      "loss": 11.194,
      "loss/aux_loss": 0.048059284873306754,
      "loss/crossentropy": 2.791327440738678,
      "loss/logits": 0.8332475572824478,
      "step": 53610
    },
    {
      "epoch": 0.5362,
      "grad_norm": 13.6875,
      "grad_norm_var": 1.3942057291666667,
      "learning_rate": 0.0003,
      "loss": 11.1379,
      "loss/aux_loss": 0.04807420019060373,
      "loss/crossentropy": 2.5513383507728578,
      "loss/logits": 0.7817022532224656,
      "step": 53620
    },
    {
      "epoch": 0.5363,
      "grad_norm": 14.625,
      "grad_norm_var": 6.633317057291666,
      "learning_rate": 0.0003,
      "loss": 11.0451,
      "loss/aux_loss": 0.04806692767888308,
      "loss/crossentropy": 2.764022743701935,
      "loss/logits": 0.8246651530265808,
      "step": 53630
    },
    {
      "epoch": 0.5364,
      "grad_norm": 14.25,
      "grad_norm_var": 6.286197916666667,
      "learning_rate": 0.0003,
      "loss": 10.9723,
      "loss/aux_loss": 0.0480807863175869,
      "loss/crossentropy": 2.5619694709777834,
      "loss/logits": 0.8253705441951752,
      "step": 53640
    },
    {
      "epoch": 0.5365,
      "grad_norm": 13.625,
      "grad_norm_var": 0.6011555989583334,
      "learning_rate": 0.0003,
      "loss": 10.9507,
      "loss/aux_loss": 0.04806951284408569,
      "loss/crossentropy": 2.7298443794250487,
      "loss/logits": 0.8315545797348023,
      "step": 53650
    },
    {
      "epoch": 0.5366,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.804931640625,
      "learning_rate": 0.0003,
      "loss": 10.979,
      "loss/aux_loss": 0.04807220809161663,
      "loss/crossentropy": 2.6058572232723236,
      "loss/logits": 0.7958117395639419,
      "step": 53660
    },
    {
      "epoch": 0.5367,
      "grad_norm": 14.125,
      "grad_norm_var": 0.602978515625,
      "learning_rate": 0.0003,
      "loss": 11.0157,
      "loss/aux_loss": 0.04807724934071302,
      "loss/crossentropy": 2.6349853515625,
      "loss/logits": 0.8204777866601944,
      "step": 53670
    },
    {
      "epoch": 0.5368,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.51015625,
      "learning_rate": 0.0003,
      "loss": 11.212,
      "loss/aux_loss": 0.04807522259652615,
      "loss/crossentropy": 2.769087851047516,
      "loss/logits": 0.8173623502254486,
      "step": 53680
    },
    {
      "epoch": 0.5369,
      "grad_norm": 15.375,
      "grad_norm_var": 0.83671875,
      "learning_rate": 0.0003,
      "loss": 11.0955,
      "loss/aux_loss": 0.04807520546019077,
      "loss/crossentropy": 2.750330662727356,
      "loss/logits": 0.8260623097419739,
      "step": 53690
    },
    {
      "epoch": 0.537,
      "grad_norm": 14.75,
      "grad_norm_var": 0.9067545572916667,
      "learning_rate": 0.0003,
      "loss": 11.0911,
      "loss/aux_loss": 0.04807036910206079,
      "loss/crossentropy": 2.819355845451355,
      "loss/logits": 0.8768564403057099,
      "step": 53700
    },
    {
      "epoch": 0.5371,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.2452473958333334,
      "learning_rate": 0.0003,
      "loss": 10.955,
      "loss/aux_loss": 0.04807029124349356,
      "loss/crossentropy": 2.6186971068382263,
      "loss/logits": 0.8072131723165512,
      "step": 53710
    },
    {
      "epoch": 0.5372,
      "grad_norm": 14.75,
      "grad_norm_var": 3.1669270833333334,
      "learning_rate": 0.0003,
      "loss": 11.0975,
      "loss/aux_loss": 0.04807576686143875,
      "loss/crossentropy": 2.7736194491386414,
      "loss/logits": 0.8309052169322968,
      "step": 53720
    },
    {
      "epoch": 0.5373,
      "grad_norm": 15.625,
      "grad_norm_var": 0.3016764322916667,
      "learning_rate": 0.0003,
      "loss": 11.0322,
      "loss/aux_loss": 0.04806541334837675,
      "loss/crossentropy": 2.686142373085022,
      "loss/logits": 0.8141505211591721,
      "step": 53730
    },
    {
      "epoch": 0.5374,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.4722493489583333,
      "learning_rate": 0.0003,
      "loss": 11.0185,
      "loss/aux_loss": 0.04807978682219982,
      "loss/crossentropy": 2.636608195304871,
      "loss/logits": 0.8161023885011673,
      "step": 53740
    },
    {
      "epoch": 0.5375,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.6322916666666667,
      "learning_rate": 0.0003,
      "loss": 10.986,
      "loss/aux_loss": 0.04806647896766662,
      "loss/crossentropy": 2.7851890683174134,
      "loss/logits": 0.8317944526672363,
      "step": 53750
    },
    {
      "epoch": 0.5376,
      "grad_norm": 15.0,
      "grad_norm_var": 2.291520182291667,
      "learning_rate": 0.0003,
      "loss": 11.1272,
      "loss/aux_loss": 0.04807963985949755,
      "loss/crossentropy": 2.6976101815700533,
      "loss/logits": 0.8801734536886215,
      "step": 53760
    },
    {
      "epoch": 0.5377,
      "grad_norm": 15.125,
      "grad_norm_var": 1.95234375,
      "learning_rate": 0.0003,
      "loss": 11.0244,
      "loss/aux_loss": 0.048057077825069426,
      "loss/crossentropy": 2.6501388132572172,
      "loss/logits": 0.8309973537921905,
      "step": 53770
    },
    {
      "epoch": 0.5378,
      "grad_norm": 15.0,
      "grad_norm_var": 0.369384765625,
      "learning_rate": 0.0003,
      "loss": 10.8356,
      "loss/aux_loss": 0.04807448796927929,
      "loss/crossentropy": 2.7889013409614565,
      "loss/logits": 0.8378504902124405,
      "step": 53780
    },
    {
      "epoch": 0.5379,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5079264322916667,
      "learning_rate": 0.0003,
      "loss": 10.9582,
      "loss/aux_loss": 0.04807044938206673,
      "loss/crossentropy": 2.509946370124817,
      "loss/logits": 0.8080231517553329,
      "step": 53790
    },
    {
      "epoch": 0.538,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.011962890625,
      "learning_rate": 0.0003,
      "loss": 11.1271,
      "loss/aux_loss": 0.04807122368365526,
      "loss/crossentropy": 2.6480683028697967,
      "loss/logits": 0.7914795011281968,
      "step": 53800
    },
    {
      "epoch": 0.5381,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.6346354166666667,
      "learning_rate": 0.0003,
      "loss": 10.9294,
      "loss/aux_loss": 0.048066381551325324,
      "loss/crossentropy": 2.7862293422222137,
      "loss/logits": 0.8505240023136139,
      "step": 53810
    },
    {
      "epoch": 0.5382,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.29375,
      "learning_rate": 0.0003,
      "loss": 11.038,
      "loss/aux_loss": 0.048070579580962655,
      "loss/crossentropy": 2.6358683347702025,
      "loss/logits": 0.8482916533946991,
      "step": 53820
    },
    {
      "epoch": 0.5383,
      "grad_norm": 16.25,
      "grad_norm_var": 20.885270182291666,
      "learning_rate": 0.0003,
      "loss": 11.0671,
      "loss/aux_loss": 0.04806550685316324,
      "loss/crossentropy": 2.6382621049880983,
      "loss/logits": 0.8401525467634201,
      "step": 53830
    },
    {
      "epoch": 0.5384,
      "grad_norm": 15.0,
      "grad_norm_var": 0.3759765625,
      "learning_rate": 0.0003,
      "loss": 11.1593,
      "loss/aux_loss": 0.04807865265756846,
      "loss/crossentropy": 2.6878114998340608,
      "loss/logits": 0.846782973408699,
      "step": 53840
    },
    {
      "epoch": 0.5385,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.121875,
      "learning_rate": 0.0003,
      "loss": 11.0436,
      "loss/aux_loss": 0.0480678740888834,
      "loss/crossentropy": 2.6060830295085906,
      "loss/logits": 0.8473536789417266,
      "step": 53850
    },
    {
      "epoch": 0.5386,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.7895670572916667,
      "learning_rate": 0.0003,
      "loss": 11.094,
      "loss/aux_loss": 0.04806717596948147,
      "loss/crossentropy": 2.6601334273815156,
      "loss/logits": 0.8278073340654373,
      "step": 53860
    },
    {
      "epoch": 0.5387,
      "grad_norm": 13.75,
      "grad_norm_var": 0.8055826822916666,
      "learning_rate": 0.0003,
      "loss": 10.9571,
      "loss/aux_loss": 0.048082117736339566,
      "loss/crossentropy": 2.7736589670181275,
      "loss/logits": 0.7962304085493088,
      "step": 53870
    },
    {
      "epoch": 0.5388,
      "grad_norm": 14.5,
      "grad_norm_var": 0.513916015625,
      "learning_rate": 0.0003,
      "loss": 11.1215,
      "loss/aux_loss": 0.04806166738271713,
      "loss/crossentropy": 2.7752721309661865,
      "loss/logits": 0.8360392391681671,
      "step": 53880
    },
    {
      "epoch": 0.5389,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.7431640625,
      "learning_rate": 0.0003,
      "loss": 11.2056,
      "loss/aux_loss": 0.04807320367544889,
      "loss/crossentropy": 2.800821077823639,
      "loss/logits": 0.8525734037160874,
      "step": 53890
    },
    {
      "epoch": 0.539,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.7877604166666666,
      "learning_rate": 0.0003,
      "loss": 11.0453,
      "loss/aux_loss": 0.048065982013940814,
      "loss/crossentropy": 2.7617095947265624,
      "loss/logits": 0.8081191062927247,
      "step": 53900
    },
    {
      "epoch": 0.5391,
      "grad_norm": 14.5,
      "grad_norm_var": 1.1628743489583333,
      "learning_rate": 0.0003,
      "loss": 10.8716,
      "loss/aux_loss": 0.04807501696050167,
      "loss/crossentropy": 2.5991472363471986,
      "loss/logits": 0.8059735208749771,
      "step": 53910
    },
    {
      "epoch": 0.5392,
      "grad_norm": 16.875,
      "grad_norm_var": 1.0609212239583334,
      "learning_rate": 0.0003,
      "loss": 10.9493,
      "loss/aux_loss": 0.048074368946254255,
      "loss/crossentropy": 2.7167088091373444,
      "loss/logits": 0.8214272201061249,
      "step": 53920
    },
    {
      "epoch": 0.5393,
      "grad_norm": 15.75,
      "grad_norm_var": 0.6758951822916667,
      "learning_rate": 0.0003,
      "loss": 11.0663,
      "loss/aux_loss": 0.048074664548039436,
      "loss/crossentropy": 2.6797154784202575,
      "loss/logits": 0.8302604794502259,
      "step": 53930
    },
    {
      "epoch": 0.5394,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.3733723958333333,
      "learning_rate": 0.0003,
      "loss": 11.1273,
      "loss/aux_loss": 0.04806742053478956,
      "loss/crossentropy": 2.7210973858833314,
      "loss/logits": 0.8412497580051422,
      "step": 53940
    },
    {
      "epoch": 0.5395,
      "grad_norm": 15.0,
      "grad_norm_var": 0.466259765625,
      "learning_rate": 0.0003,
      "loss": 11.0095,
      "loss/aux_loss": 0.048062196187675,
      "loss/crossentropy": 2.655183678865433,
      "loss/logits": 0.8122419893741608,
      "step": 53950
    },
    {
      "epoch": 0.5396,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.3477701822916667,
      "learning_rate": 0.0003,
      "loss": 11.1166,
      "loss/aux_loss": 0.04807857759296894,
      "loss/crossentropy": 2.614110505580902,
      "loss/logits": 0.8455834567546845,
      "step": 53960
    },
    {
      "epoch": 0.5397,
      "grad_norm": 14.125,
      "grad_norm_var": 0.5222493489583333,
      "learning_rate": 0.0003,
      "loss": 11.0279,
      "loss/aux_loss": 0.04806742183864117,
      "loss/crossentropy": 2.6582097709178925,
      "loss/logits": 0.8321360021829605,
      "step": 53970
    },
    {
      "epoch": 0.5398,
      "grad_norm": 15.0,
      "grad_norm_var": 0.8941243489583334,
      "learning_rate": 0.0003,
      "loss": 11.0669,
      "loss/aux_loss": 0.04807064067572355,
      "loss/crossentropy": 2.8422482132911684,
      "loss/logits": 0.8568818151950837,
      "step": 53980
    },
    {
      "epoch": 0.5399,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.267041015625,
      "learning_rate": 0.0003,
      "loss": 10.8872,
      "loss/aux_loss": 0.04806562513113022,
      "loss/crossentropy": 2.64736921787262,
      "loss/logits": 0.8495258182287216,
      "step": 53990
    },
    {
      "epoch": 0.54,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.8567708333333334,
      "learning_rate": 0.0003,
      "loss": 11.0104,
      "loss/aux_loss": 0.048078795336186884,
      "loss/crossentropy": 2.7528712272644045,
      "loss/logits": 0.830004358291626,
      "step": 54000
    },
    {
      "epoch": 0.5401,
      "grad_norm": 14.25,
      "grad_norm_var": 0.9296875,
      "learning_rate": 0.0003,
      "loss": 11.1183,
      "loss/aux_loss": 0.04806767832487822,
      "loss/crossentropy": 2.5062259435653687,
      "loss/logits": 0.8438413232564926,
      "step": 54010
    },
    {
      "epoch": 0.5402,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.5441243489583333,
      "learning_rate": 0.0003,
      "loss": 10.9066,
      "loss/aux_loss": 0.048075572960078715,
      "loss/crossentropy": 2.6077619075775145,
      "loss/logits": 0.8247323483228683,
      "step": 54020
    },
    {
      "epoch": 0.5403,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.43776041666666665,
      "learning_rate": 0.0003,
      "loss": 11.0432,
      "loss/aux_loss": 0.04806858468800783,
      "loss/crossentropy": 2.5667442798614504,
      "loss/logits": 0.8107105433940888,
      "step": 54030
    },
    {
      "epoch": 0.5404,
      "grad_norm": 16.375,
      "grad_norm_var": 0.65859375,
      "learning_rate": 0.0003,
      "loss": 11.0633,
      "loss/aux_loss": 0.048066397197544575,
      "loss/crossentropy": 2.6910421431064604,
      "loss/logits": 0.8274150729179383,
      "step": 54040
    },
    {
      "epoch": 0.5405,
      "grad_norm": 20.25,
      "grad_norm_var": 693.61171875,
      "learning_rate": 0.0003,
      "loss": 11.1854,
      "loss/aux_loss": 0.04809403121471405,
      "loss/crossentropy": 2.966396164894104,
      "loss/logits": 0.8811068832874298,
      "step": 54050
    },
    {
      "epoch": 0.5406,
      "grad_norm": 15.5625,
      "grad_norm_var": 696.5848307291667,
      "learning_rate": 0.0003,
      "loss": 10.9561,
      "loss/aux_loss": 0.048076951503753663,
      "loss/crossentropy": 2.7103439450263975,
      "loss/logits": 0.8318052858114242,
      "step": 54060
    },
    {
      "epoch": 0.5407,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.6145670572916667,
      "learning_rate": 0.0003,
      "loss": 11.0968,
      "loss/aux_loss": 0.048073592409491536,
      "loss/crossentropy": 2.802405446767807,
      "loss/logits": 0.807966560125351,
      "step": 54070
    },
    {
      "epoch": 0.5408,
      "grad_norm": 14.625,
      "grad_norm_var": 1.6135416666666667,
      "learning_rate": 0.0003,
      "loss": 10.9053,
      "loss/aux_loss": 0.048079601302742955,
      "loss/crossentropy": 2.689373391866684,
      "loss/logits": 0.8208520948886872,
      "step": 54080
    },
    {
      "epoch": 0.5409,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.5844889322916667,
      "learning_rate": 0.0003,
      "loss": 10.9493,
      "loss/aux_loss": 0.04807072449475527,
      "loss/crossentropy": 2.792709541320801,
      "loss/logits": 0.8486111849546433,
      "step": 54090
    },
    {
      "epoch": 0.541,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.526025390625,
      "learning_rate": 0.0003,
      "loss": 11.0094,
      "loss/aux_loss": 0.0480718944221735,
      "loss/crossentropy": 2.5616662383079527,
      "loss/logits": 0.8192130953073502,
      "step": 54100
    },
    {
      "epoch": 0.5411,
      "grad_norm": 15.25,
      "grad_norm_var": 0.60546875,
      "learning_rate": 0.0003,
      "loss": 10.9774,
      "loss/aux_loss": 0.04807149339467287,
      "loss/crossentropy": 2.642424190044403,
      "loss/logits": 0.8189570486545563,
      "step": 54110
    },
    {
      "epoch": 0.5412,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.2639973958333333,
      "learning_rate": 0.0003,
      "loss": 10.9475,
      "loss/aux_loss": 0.04808628931641579,
      "loss/crossentropy": 2.6260932087898254,
      "loss/logits": 0.8346313923597336,
      "step": 54120
    },
    {
      "epoch": 0.5413,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.23170572916666668,
      "learning_rate": 0.0003,
      "loss": 11.0016,
      "loss/aux_loss": 0.04805894047021866,
      "loss/crossentropy": 2.718409872055054,
      "loss/logits": 0.8037611931562424,
      "step": 54130
    },
    {
      "epoch": 0.5414,
      "grad_norm": 16.0,
      "grad_norm_var": 0.4911295572916667,
      "learning_rate": 0.0003,
      "loss": 11.0083,
      "loss/aux_loss": 0.04807175807654858,
      "loss/crossentropy": 2.665117746591568,
      "loss/logits": 0.8265301376581192,
      "step": 54140
    },
    {
      "epoch": 0.5415,
      "grad_norm": 16.125,
      "grad_norm_var": 0.982275390625,
      "learning_rate": 0.0003,
      "loss": 10.9641,
      "loss/aux_loss": 0.0480738976970315,
      "loss/crossentropy": 2.575757938623428,
      "loss/logits": 0.8114981263875961,
      "step": 54150
    },
    {
      "epoch": 0.5416,
      "grad_norm": 14.5,
      "grad_norm_var": 0.6212890625,
      "learning_rate": 0.0003,
      "loss": 11.0063,
      "loss/aux_loss": 0.04806560389697552,
      "loss/crossentropy": 2.744628429412842,
      "loss/logits": 0.8167267292737961,
      "step": 54160
    },
    {
      "epoch": 0.5417,
      "grad_norm": 14.375,
      "grad_norm_var": 0.365869140625,
      "learning_rate": 0.0003,
      "loss": 10.8746,
      "loss/aux_loss": 0.04807755947113037,
      "loss/crossentropy": 2.729469120502472,
      "loss/logits": 0.8389277517795563,
      "step": 54170
    },
    {
      "epoch": 0.5418,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.6606608072916667,
      "learning_rate": 0.0003,
      "loss": 11.0025,
      "loss/aux_loss": 0.04807156063616276,
      "loss/crossentropy": 2.6684438705444338,
      "loss/logits": 0.8205473870038986,
      "step": 54180
    },
    {
      "epoch": 0.5419,
      "grad_norm": 15.875,
      "grad_norm_var": 0.5477701822916666,
      "learning_rate": 0.0003,
      "loss": 10.9314,
      "loss/aux_loss": 0.04807228222489357,
      "loss/crossentropy": 2.6462816834449767,
      "loss/logits": 0.8203870177268981,
      "step": 54190
    },
    {
      "epoch": 0.542,
      "grad_norm": 13.75,
      "grad_norm_var": 0.851025390625,
      "learning_rate": 0.0003,
      "loss": 11.1092,
      "loss/aux_loss": 0.048070806078612804,
      "loss/crossentropy": 2.653973418474197,
      "loss/logits": 0.8173866599798203,
      "step": 54200
    },
    {
      "epoch": 0.5421,
      "grad_norm": 15.25,
      "grad_norm_var": 0.3895182291666667,
      "learning_rate": 0.0003,
      "loss": 11.0387,
      "loss/aux_loss": 0.04807880613952875,
      "loss/crossentropy": 2.8338425755500793,
      "loss/logits": 0.8203609675168991,
      "step": 54210
    },
    {
      "epoch": 0.5422,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.40167643229166666,
      "learning_rate": 0.0003,
      "loss": 11.0663,
      "loss/aux_loss": 0.04807204119861126,
      "loss/crossentropy": 2.8691022396087646,
      "loss/logits": 0.8554022014141083,
      "step": 54220
    },
    {
      "epoch": 0.5423,
      "grad_norm": 15.25,
      "grad_norm_var": 41.256510416666664,
      "learning_rate": 0.0003,
      "loss": 10.8823,
      "loss/aux_loss": 0.04807537421584129,
      "loss/crossentropy": 2.7167785286903383,
      "loss/logits": 0.8512430638074875,
      "step": 54230
    },
    {
      "epoch": 0.5424,
      "grad_norm": 14.5625,
      "grad_norm_var": 38.6275390625,
      "learning_rate": 0.0003,
      "loss": 10.9108,
      "loss/aux_loss": 0.04806912895292044,
      "loss/crossentropy": 2.7357052505016326,
      "loss/logits": 0.8582530438899993,
      "step": 54240
    },
    {
      "epoch": 0.5425,
      "grad_norm": 14.6875,
      "grad_norm_var": 2.011979166666667,
      "learning_rate": 0.0003,
      "loss": 11.1132,
      "loss/aux_loss": 0.048073516227304935,
      "loss/crossentropy": 2.8648219108581543,
      "loss/logits": 0.8151409834623337,
      "step": 54250
    },
    {
      "epoch": 0.5426,
      "grad_norm": 15.0,
      "grad_norm_var": 2.1770833333333335,
      "learning_rate": 0.0003,
      "loss": 11.1463,
      "loss/aux_loss": 0.0480679165571928,
      "loss/crossentropy": 2.6788148045539857,
      "loss/logits": 0.8590417355298996,
      "step": 54260
    },
    {
      "epoch": 0.5427,
      "grad_norm": 15.375,
      "grad_norm_var": 0.44998372395833336,
      "learning_rate": 0.0003,
      "loss": 11.0944,
      "loss/aux_loss": 0.04807999115437269,
      "loss/crossentropy": 2.7842895090579987,
      "loss/logits": 0.7997796133160591,
      "step": 54270
    },
    {
      "epoch": 0.5428,
      "grad_norm": 15.9375,
      "grad_norm_var": 1.0296223958333333,
      "learning_rate": 0.0003,
      "loss": 11.0713,
      "loss/aux_loss": 0.04806948360055685,
      "loss/crossentropy": 2.6741649389266966,
      "loss/logits": 0.8174891114234925,
      "step": 54280
    },
    {
      "epoch": 0.5429,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.2658854166666667,
      "learning_rate": 0.0003,
      "loss": 10.9228,
      "loss/aux_loss": 0.04806262943893671,
      "loss/crossentropy": 2.7555585384368895,
      "loss/logits": 0.8146154910326004,
      "step": 54290
    },
    {
      "epoch": 0.543,
      "grad_norm": 15.875,
      "grad_norm_var": 1.404931640625,
      "learning_rate": 0.0003,
      "loss": 11.0579,
      "loss/aux_loss": 0.048083382099866866,
      "loss/crossentropy": 2.644556665420532,
      "loss/logits": 0.8286139577627182,
      "step": 54300
    },
    {
      "epoch": 0.5431,
      "grad_norm": 14.4375,
      "grad_norm_var": 1.439306640625,
      "learning_rate": 0.0003,
      "loss": 11.0906,
      "loss/aux_loss": 0.04806300513446331,
      "loss/crossentropy": 2.77071772813797,
      "loss/logits": 0.8199887424707413,
      "step": 54310
    },
    {
      "epoch": 0.5432,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5684895833333333,
      "learning_rate": 0.0003,
      "loss": 10.952,
      "loss/aux_loss": 0.04807317145168781,
      "loss/crossentropy": 2.7126712799072266,
      "loss/logits": 0.8230218112468719,
      "step": 54320
    },
    {
      "epoch": 0.5433,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.5093587239583334,
      "learning_rate": 0.0003,
      "loss": 11.2114,
      "loss/aux_loss": 0.048068922385573386,
      "loss/crossentropy": 2.6962040960788727,
      "loss/logits": 0.8404717385768891,
      "step": 54330
    },
    {
      "epoch": 0.5434,
      "grad_norm": 13.625,
      "grad_norm_var": 0.4540201822916667,
      "learning_rate": 0.0003,
      "loss": 11.0177,
      "loss/aux_loss": 0.0480722289532423,
      "loss/crossentropy": 2.549234163761139,
      "loss/logits": 0.8165672957897187,
      "step": 54340
    },
    {
      "epoch": 0.5435,
      "grad_norm": 13.6875,
      "grad_norm_var": 1.0739420572916667,
      "learning_rate": 0.0003,
      "loss": 11.0096,
      "loss/aux_loss": 0.04807580169290304,
      "loss/crossentropy": 2.7629685401916504,
      "loss/logits": 0.8371683716773987,
      "step": 54350
    },
    {
      "epoch": 0.5436,
      "grad_norm": 15.0,
      "grad_norm_var": 0.49073893229166665,
      "learning_rate": 0.0003,
      "loss": 11.0909,
      "loss/aux_loss": 0.04806205108761787,
      "loss/crossentropy": 2.7718708157539367,
      "loss/logits": 0.8284541577100754,
      "step": 54360
    },
    {
      "epoch": 0.5437,
      "grad_norm": 14.125,
      "grad_norm_var": 0.41451822916666664,
      "learning_rate": 0.0003,
      "loss": 11.088,
      "loss/aux_loss": 0.0480658633634448,
      "loss/crossentropy": 2.6623750627040863,
      "loss/logits": 0.7974577456712723,
      "step": 54370
    },
    {
      "epoch": 0.5438,
      "grad_norm": 14.0,
      "grad_norm_var": 0.5153483072916667,
      "learning_rate": 0.0003,
      "loss": 10.9292,
      "loss/aux_loss": 0.048075420595705506,
      "loss/crossentropy": 2.6294266045093537,
      "loss/logits": 0.8390023171901703,
      "step": 54380
    },
    {
      "epoch": 0.5439,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.738134765625,
      "learning_rate": 0.0003,
      "loss": 10.9715,
      "loss/aux_loss": 0.04806606397032738,
      "loss/crossentropy": 2.7456657886505127,
      "loss/logits": 0.8316713005304337,
      "step": 54390
    },
    {
      "epoch": 0.544,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.39191080729166666,
      "learning_rate": 0.0003,
      "loss": 11.0328,
      "loss/aux_loss": 0.048073101229965685,
      "loss/crossentropy": 2.708446371555328,
      "loss/logits": 0.8340208530426025,
      "step": 54400
    },
    {
      "epoch": 0.5441,
      "grad_norm": 17.375,
      "grad_norm_var": 1.078369140625,
      "learning_rate": 0.0003,
      "loss": 10.9475,
      "loss/aux_loss": 0.04807380214333534,
      "loss/crossentropy": 2.5974309384822845,
      "loss/logits": 0.7814567148685455,
      "step": 54410
    },
    {
      "epoch": 0.5442,
      "grad_norm": 15.0,
      "grad_norm_var": 1.2375,
      "learning_rate": 0.0003,
      "loss": 11.0752,
      "loss/aux_loss": 0.04807327631860971,
      "loss/crossentropy": 2.7958995699882507,
      "loss/logits": 0.852491220831871,
      "step": 54420
    },
    {
      "epoch": 0.5443,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.4841145833333333,
      "learning_rate": 0.0003,
      "loss": 11.0555,
      "loss/aux_loss": 0.04806957729160786,
      "loss/crossentropy": 2.706936830282211,
      "loss/logits": 0.8366940230131149,
      "step": 54430
    },
    {
      "epoch": 0.5444,
      "grad_norm": 13.5,
      "grad_norm_var": 0.29108072916666666,
      "learning_rate": 0.0003,
      "loss": 11.0092,
      "loss/aux_loss": 0.04806767478585243,
      "loss/crossentropy": 2.5973580896854402,
      "loss/logits": 0.8097669005393981,
      "step": 54440
    },
    {
      "epoch": 0.5445,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.6947265625,
      "learning_rate": 0.0003,
      "loss": 10.9494,
      "loss/aux_loss": 0.04808604661375284,
      "loss/crossentropy": 2.7189027309417724,
      "loss/logits": 0.8361554414033889,
      "step": 54450
    },
    {
      "epoch": 0.5446,
      "grad_norm": 14.5,
      "grad_norm_var": 2.285660807291667,
      "learning_rate": 0.0003,
      "loss": 10.9697,
      "loss/aux_loss": 0.048063131235539916,
      "loss/crossentropy": 2.6419017791748045,
      "loss/logits": 0.8406848013401031,
      "step": 54460
    },
    {
      "epoch": 0.5447,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.2712890625,
      "learning_rate": 0.0003,
      "loss": 11.0544,
      "loss/aux_loss": 0.04808263406157494,
      "loss/crossentropy": 2.768437546491623,
      "loss/logits": 0.856353759765625,
      "step": 54470
    },
    {
      "epoch": 0.5448,
      "grad_norm": 14.625,
      "grad_norm_var": 0.688134765625,
      "learning_rate": 0.0003,
      "loss": 10.9724,
      "loss/aux_loss": 0.04806215986609459,
      "loss/crossentropy": 2.8292512774467466,
      "loss/logits": 0.8433954983949661,
      "step": 54480
    },
    {
      "epoch": 0.5449,
      "grad_norm": 15.625,
      "grad_norm_var": 0.8994140625,
      "learning_rate": 0.0003,
      "loss": 10.8039,
      "loss/aux_loss": 0.0480883689597249,
      "loss/crossentropy": 2.797008693218231,
      "loss/logits": 0.8281289517879487,
      "step": 54490
    },
    {
      "epoch": 0.545,
      "grad_norm": 14.75,
      "grad_norm_var": 0.6885416666666667,
      "learning_rate": 0.0003,
      "loss": 11.0977,
      "loss/aux_loss": 0.048079678975045684,
      "loss/crossentropy": 2.7917538404464723,
      "loss/logits": 0.7895294100046157,
      "step": 54500
    },
    {
      "epoch": 0.5451,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.8801432291666667,
      "learning_rate": 0.0003,
      "loss": 11.0203,
      "loss/aux_loss": 0.04806761741638184,
      "loss/crossentropy": 2.5670079469680784,
      "loss/logits": 0.7952559888362885,
      "step": 54510
    },
    {
      "epoch": 0.5452,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.3082682291666667,
      "learning_rate": 0.0003,
      "loss": 11.051,
      "loss/aux_loss": 0.04807319939136505,
      "loss/crossentropy": 2.767977863550186,
      "loss/logits": 0.8227100253105164,
      "step": 54520
    },
    {
      "epoch": 0.5453,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.7530598958333333,
      "learning_rate": 0.0003,
      "loss": 11.0836,
      "loss/aux_loss": 0.04807401541620493,
      "loss/crossentropy": 2.7236214160919188,
      "loss/logits": 0.8225501179695129,
      "step": 54530
    },
    {
      "epoch": 0.5454,
      "grad_norm": 13.75,
      "grad_norm_var": 1.500634765625,
      "learning_rate": 0.0003,
      "loss": 10.9399,
      "loss/aux_loss": 0.04807001277804375,
      "loss/crossentropy": 2.706336867809296,
      "loss/logits": 0.8362784326076508,
      "step": 54540
    },
    {
      "epoch": 0.5455,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.7351399739583333,
      "learning_rate": 0.0003,
      "loss": 11.1466,
      "loss/aux_loss": 0.04807394836097956,
      "loss/crossentropy": 2.6270270586013793,
      "loss/logits": 0.8055624902248383,
      "step": 54550
    },
    {
      "epoch": 0.5456,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.8981608072916667,
      "learning_rate": 0.0003,
      "loss": 11.0043,
      "loss/aux_loss": 0.04806969799101353,
      "loss/crossentropy": 2.7887719571590424,
      "loss/logits": 0.8097354710102082,
      "step": 54560
    },
    {
      "epoch": 0.5457,
      "grad_norm": 16.25,
      "grad_norm_var": 0.8872395833333333,
      "learning_rate": 0.0003,
      "loss": 10.9318,
      "loss/aux_loss": 0.04807890877127648,
      "loss/crossentropy": 2.632401758432388,
      "loss/logits": 0.8157328695058823,
      "step": 54570
    },
    {
      "epoch": 0.5458,
      "grad_norm": 16.25,
      "grad_norm_var": 0.6329264322916667,
      "learning_rate": 0.0003,
      "loss": 11.043,
      "loss/aux_loss": 0.04806562662124634,
      "loss/crossentropy": 2.796691632270813,
      "loss/logits": 0.8395285964012146,
      "step": 54580
    },
    {
      "epoch": 0.5459,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.1449055989583334,
      "learning_rate": 0.0003,
      "loss": 10.998,
      "loss/aux_loss": 0.04808074235916138,
      "loss/crossentropy": 2.683507615327835,
      "loss/logits": 0.8001698046922684,
      "step": 54590
    },
    {
      "epoch": 0.546,
      "grad_norm": 15.875,
      "grad_norm_var": 2.4734212239583333,
      "learning_rate": 0.0003,
      "loss": 11.0751,
      "loss/aux_loss": 0.04807427860796452,
      "loss/crossentropy": 2.66720929145813,
      "loss/logits": 0.8314949810504914,
      "step": 54600
    },
    {
      "epoch": 0.5461,
      "grad_norm": 14.9375,
      "grad_norm_var": 1.858837890625,
      "learning_rate": 0.0003,
      "loss": 10.9659,
      "loss/aux_loss": 0.0480766873806715,
      "loss/crossentropy": 2.564626210927963,
      "loss/logits": 0.7770012825727463,
      "step": 54610
    },
    {
      "epoch": 0.5462,
      "grad_norm": 14.125,
      "grad_norm_var": 0.8690104166666667,
      "learning_rate": 0.0003,
      "loss": 10.8087,
      "loss/aux_loss": 0.04806546028703451,
      "loss/crossentropy": 2.6509805858135223,
      "loss/logits": 0.7985016733407975,
      "step": 54620
    },
    {
      "epoch": 0.5463,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.0657389322916666,
      "learning_rate": 0.0003,
      "loss": 10.9941,
      "loss/aux_loss": 0.048076178319752215,
      "loss/crossentropy": 2.7503870487213136,
      "loss/logits": 0.8250322550535202,
      "step": 54630
    },
    {
      "epoch": 0.5464,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5979166666666667,
      "learning_rate": 0.0003,
      "loss": 11.075,
      "loss/aux_loss": 0.04807407483458519,
      "loss/crossentropy": 2.688520979881287,
      "loss/logits": 0.7950679957866669,
      "step": 54640
    },
    {
      "epoch": 0.5465,
      "grad_norm": 20.25,
      "grad_norm_var": 12.39765625,
      "learning_rate": 0.0003,
      "loss": 10.8744,
      "loss/aux_loss": 0.04807685688138008,
      "loss/crossentropy": 2.671421802043915,
      "loss/logits": 0.8197872430086136,
      "step": 54650
    },
    {
      "epoch": 0.5466,
      "grad_norm": 14.6875,
      "grad_norm_var": 2.2609375,
      "learning_rate": 0.0003,
      "loss": 10.8834,
      "loss/aux_loss": 0.048076017200946806,
      "loss/crossentropy": 2.5632533609867094,
      "loss/logits": 0.7861254096031189,
      "step": 54660
    },
    {
      "epoch": 0.5467,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.87890625,
      "learning_rate": 0.0003,
      "loss": 10.9958,
      "loss/aux_loss": 0.048075830191373826,
      "loss/crossentropy": 2.669093906879425,
      "loss/logits": 0.8262115895748139,
      "step": 54670
    },
    {
      "epoch": 0.5468,
      "grad_norm": 16.5,
      "grad_norm_var": 1.33984375,
      "learning_rate": 0.0003,
      "loss": 10.9333,
      "loss/aux_loss": 0.04807015471160412,
      "loss/crossentropy": 2.7327490568161013,
      "loss/logits": 0.8197944283485412,
      "step": 54680
    },
    {
      "epoch": 0.5469,
      "grad_norm": 15.6875,
      "grad_norm_var": 1.074853515625,
      "learning_rate": 0.0003,
      "loss": 11.0295,
      "loss/aux_loss": 0.04807836562395096,
      "loss/crossentropy": 2.6087993323802947,
      "loss/logits": 0.806918916106224,
      "step": 54690
    },
    {
      "epoch": 0.547,
      "grad_norm": 15.125,
      "grad_norm_var": 0.35930989583333334,
      "learning_rate": 0.0003,
      "loss": 11.0181,
      "loss/aux_loss": 0.04807017408311367,
      "loss/crossentropy": 2.839758336544037,
      "loss/logits": 0.8093813061714172,
      "step": 54700
    },
    {
      "epoch": 0.5471,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.43670247395833334,
      "learning_rate": 0.0003,
      "loss": 10.9142,
      "loss/aux_loss": 0.04807600136846304,
      "loss/crossentropy": 2.644270604848862,
      "loss/logits": 0.7997170180082321,
      "step": 54710
    },
    {
      "epoch": 0.5472,
      "grad_norm": 15.25,
      "grad_norm_var": 0.309375,
      "learning_rate": 0.0003,
      "loss": 11.1508,
      "loss/aux_loss": 0.04805862028151751,
      "loss/crossentropy": 2.7486122012138368,
      "loss/logits": 0.8468534052371979,
      "step": 54720
    },
    {
      "epoch": 0.5473,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.5001139322916667,
      "learning_rate": 0.0003,
      "loss": 11.0571,
      "loss/aux_loss": 0.04807792566716671,
      "loss/crossentropy": 2.6369648575782776,
      "loss/logits": 0.8063502162694931,
      "step": 54730
    },
    {
      "epoch": 0.5474,
      "grad_norm": 15.25,
      "grad_norm_var": 0.33984375,
      "learning_rate": 0.0003,
      "loss": 10.9084,
      "loss/aux_loss": 0.048066607862710956,
      "loss/crossentropy": 2.598222774267197,
      "loss/logits": 0.8337789565324784,
      "step": 54740
    },
    {
      "epoch": 0.5475,
      "grad_norm": 14.875,
      "grad_norm_var": 146.435400390625,
      "learning_rate": 0.0003,
      "loss": 10.9427,
      "loss/aux_loss": 0.04807037971913815,
      "loss/crossentropy": 2.689501368999481,
      "loss/logits": 0.8253029197454452,
      "step": 54750
    },
    {
      "epoch": 0.5476,
      "grad_norm": 14.9375,
      "grad_norm_var": 145.92447916666666,
      "learning_rate": 0.0003,
      "loss": 10.929,
      "loss/aux_loss": 0.048080086894333365,
      "loss/crossentropy": 2.7107209861278534,
      "loss/logits": 0.8063658207654953,
      "step": 54760
    },
    {
      "epoch": 0.5477,
      "grad_norm": 15.5,
      "grad_norm_var": 0.3714680989583333,
      "learning_rate": 0.0003,
      "loss": 11.0567,
      "loss/aux_loss": 0.048056581430137156,
      "loss/crossentropy": 2.7536053538322447,
      "loss/logits": 0.8437339574098587,
      "step": 54770
    },
    {
      "epoch": 0.5478,
      "grad_norm": 14.125,
      "grad_norm_var": 0.221728515625,
      "learning_rate": 0.0003,
      "loss": 11.0786,
      "loss/aux_loss": 0.04807734116911888,
      "loss/crossentropy": 2.624860906600952,
      "loss/logits": 0.8355853497982025,
      "step": 54780
    },
    {
      "epoch": 0.5479,
      "grad_norm": 14.75,
      "grad_norm_var": 0.372119140625,
      "learning_rate": 0.0003,
      "loss": 11.0605,
      "loss/aux_loss": 0.048068249225616456,
      "loss/crossentropy": 2.6733208775520323,
      "loss/logits": 0.8279371082782745,
      "step": 54790
    },
    {
      "epoch": 0.548,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.5143229166666666,
      "learning_rate": 0.0003,
      "loss": 11.0193,
      "loss/aux_loss": 0.04806514009833336,
      "loss/crossentropy": 2.83870667219162,
      "loss/logits": 0.8224406003952026,
      "step": 54800
    },
    {
      "epoch": 0.5481,
      "grad_norm": 16.875,
      "grad_norm_var": 0.6921223958333333,
      "learning_rate": 0.0003,
      "loss": 11.2115,
      "loss/aux_loss": 0.048080642521381375,
      "loss/crossentropy": 2.7003244876861574,
      "loss/logits": 0.8368692755699157,
      "step": 54810
    },
    {
      "epoch": 0.5482,
      "grad_norm": 14.5,
      "grad_norm_var": 1.157275390625,
      "learning_rate": 0.0003,
      "loss": 11.0255,
      "loss/aux_loss": 0.0480611115694046,
      "loss/crossentropy": 2.7027824997901915,
      "loss/logits": 0.8393090069293976,
      "step": 54820
    },
    {
      "epoch": 0.5483,
      "grad_norm": 15.4375,
      "grad_norm_var": 4.451285807291667,
      "learning_rate": 0.0003,
      "loss": 10.9206,
      "loss/aux_loss": 0.04807600080966949,
      "loss/crossentropy": 2.8590354561805724,
      "loss/logits": 0.8446751832962036,
      "step": 54830
    },
    {
      "epoch": 0.5484,
      "grad_norm": 15.0625,
      "grad_norm_var": 3.78046875,
      "learning_rate": 0.0003,
      "loss": 11.0024,
      "loss/aux_loss": 0.048070641607046126,
      "loss/crossentropy": 2.7838706493377687,
      "loss/logits": 0.8221488207578659,
      "step": 54840
    },
    {
      "epoch": 0.5485,
      "grad_norm": 14.875,
      "grad_norm_var": 23.503645833333334,
      "learning_rate": 0.0003,
      "loss": 10.9116,
      "loss/aux_loss": 0.04807809256017208,
      "loss/crossentropy": 2.7407828688621523,
      "loss/logits": 0.8634491443634034,
      "step": 54850
    },
    {
      "epoch": 0.5486,
      "grad_norm": 17.125,
      "grad_norm_var": 0.9280598958333334,
      "learning_rate": 0.0003,
      "loss": 11.0951,
      "loss/aux_loss": 0.04807487297803163,
      "loss/crossentropy": 2.6179397821426393,
      "loss/logits": 0.7829213112592697,
      "step": 54860
    },
    {
      "epoch": 0.5487,
      "grad_norm": 16.375,
      "grad_norm_var": 1.118994140625,
      "learning_rate": 0.0003,
      "loss": 11.1043,
      "loss/aux_loss": 0.04806428123265505,
      "loss/crossentropy": 2.738786405324936,
      "loss/logits": 0.8392746210098266,
      "step": 54870
    },
    {
      "epoch": 0.5488,
      "grad_norm": 16.625,
      "grad_norm_var": 0.9288899739583333,
      "learning_rate": 0.0003,
      "loss": 11.0692,
      "loss/aux_loss": 0.04807651992887259,
      "loss/crossentropy": 2.739248037338257,
      "loss/logits": 0.8410652667284012,
      "step": 54880
    },
    {
      "epoch": 0.5489,
      "grad_norm": 15.125,
      "grad_norm_var": 0.8481770833333333,
      "learning_rate": 0.0003,
      "loss": 11.0996,
      "loss/aux_loss": 0.048066032119095325,
      "loss/crossentropy": 2.841780698299408,
      "loss/logits": 0.8673689156770706,
      "step": 54890
    },
    {
      "epoch": 0.549,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.1091145833333333,
      "learning_rate": 0.0003,
      "loss": 10.9194,
      "loss/aux_loss": 0.04806853048503399,
      "loss/crossentropy": 2.7467273652553557,
      "loss/logits": 0.8478365898132324,
      "step": 54900
    },
    {
      "epoch": 0.5491,
      "grad_norm": 14.875,
      "grad_norm_var": 0.23854166666666668,
      "learning_rate": 0.0003,
      "loss": 10.8423,
      "loss/aux_loss": 0.04806788172572851,
      "loss/crossentropy": 2.656290876865387,
      "loss/logits": 0.8057217448949814,
      "step": 54910
    },
    {
      "epoch": 0.5492,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.42421875,
      "learning_rate": 0.0003,
      "loss": 10.9517,
      "loss/aux_loss": 0.04808411467820406,
      "loss/crossentropy": 2.7929548025131226,
      "loss/logits": 0.8252448886632919,
      "step": 54920
    },
    {
      "epoch": 0.5493,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.4051920572916667,
      "learning_rate": 0.0003,
      "loss": 10.9819,
      "loss/aux_loss": 0.0480615908280015,
      "loss/crossentropy": 2.7801303029060365,
      "loss/logits": 0.8024150758981705,
      "step": 54930
    },
    {
      "epoch": 0.5494,
      "grad_norm": 14.125,
      "grad_norm_var": 0.4627604166666667,
      "learning_rate": 0.0003,
      "loss": 10.9448,
      "loss/aux_loss": 0.04807640910148621,
      "loss/crossentropy": 2.7152156591415406,
      "loss/logits": 0.8221557170152665,
      "step": 54940
    },
    {
      "epoch": 0.5495,
      "grad_norm": 13.25,
      "grad_norm_var": 0.5196451822916667,
      "learning_rate": 0.0003,
      "loss": 11.0243,
      "loss/aux_loss": 0.04806815255433321,
      "loss/crossentropy": 2.622380143404007,
      "loss/logits": 0.8374263972043992,
      "step": 54950
    },
    {
      "epoch": 0.5496,
      "grad_norm": 15.6875,
      "grad_norm_var": 106.15402018229166,
      "learning_rate": 0.0003,
      "loss": 10.9103,
      "loss/aux_loss": 0.04807578641921282,
      "loss/crossentropy": 2.779756152629852,
      "loss/logits": 0.8186855703592301,
      "step": 54960
    },
    {
      "epoch": 0.5497,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.678125,
      "learning_rate": 0.0003,
      "loss": 11.0254,
      "loss/aux_loss": 0.04808486998081207,
      "loss/crossentropy": 2.5636366307735443,
      "loss/logits": 0.8077445298433303,
      "step": 54970
    },
    {
      "epoch": 0.5498,
      "grad_norm": 13.875,
      "grad_norm_var": 0.73515625,
      "learning_rate": 0.0003,
      "loss": 11.012,
      "loss/aux_loss": 0.04805983640253544,
      "loss/crossentropy": 2.850145775079727,
      "loss/logits": 0.8156041219830513,
      "step": 54980
    },
    {
      "epoch": 0.5499,
      "grad_norm": 15.125,
      "grad_norm_var": 68.479541015625,
      "learning_rate": 0.0003,
      "loss": 10.9674,
      "loss/aux_loss": 0.0480882341042161,
      "loss/crossentropy": 2.763186824321747,
      "loss/logits": 0.8171787321567535,
      "step": 54990
    },
    {
      "epoch": 0.55,
      "grad_norm": 14.8125,
      "grad_norm_var": 1.0983723958333333,
      "learning_rate": 0.0003,
      "loss": 10.9881,
      "loss/aux_loss": 0.048068669810891154,
      "loss/crossentropy": 2.663837069272995,
      "loss/logits": 0.8430362701416015,
      "step": 55000
    },
    {
      "epoch": 0.5501,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.6478515625,
      "learning_rate": 0.0003,
      "loss": 11.0946,
      "loss/aux_loss": 0.048068431206047535,
      "loss/crossentropy": 2.65292683839798,
      "loss/logits": 0.8245347827672959,
      "step": 55010
    },
    {
      "epoch": 0.5502,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.368994140625,
      "learning_rate": 0.0003,
      "loss": 11.0463,
      "loss/aux_loss": 0.04806177597492933,
      "loss/crossentropy": 2.7886301994323732,
      "loss/logits": 0.8723696410655976,
      "step": 55020
    },
    {
      "epoch": 0.5503,
      "grad_norm": 14.4375,
      "grad_norm_var": 1.080322265625,
      "learning_rate": 0.0003,
      "loss": 11.0383,
      "loss/aux_loss": 0.04808465298265219,
      "loss/crossentropy": 2.846861410140991,
      "loss/logits": 0.8170645713806153,
      "step": 55030
    },
    {
      "epoch": 0.5504,
      "grad_norm": 17.875,
      "grad_norm_var": 1.7322265625,
      "learning_rate": 0.0003,
      "loss": 11.0391,
      "loss/aux_loss": 0.04806484617292881,
      "loss/crossentropy": 2.611069065332413,
      "loss/logits": 0.7951992452144623,
      "step": 55040
    },
    {
      "epoch": 0.5505,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.0645182291666666,
      "learning_rate": 0.0003,
      "loss": 11.0523,
      "loss/aux_loss": 0.048074701242148875,
      "loss/crossentropy": 2.811970281600952,
      "loss/logits": 0.794430273771286,
      "step": 55050
    },
    {
      "epoch": 0.5506,
      "grad_norm": 14.75,
      "grad_norm_var": 0.6796875,
      "learning_rate": 0.0003,
      "loss": 10.9043,
      "loss/aux_loss": 0.048068948276340964,
      "loss/crossentropy": 2.664133369922638,
      "loss/logits": 0.814795833826065,
      "step": 55060
    },
    {
      "epoch": 0.5507,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.6744791666666666,
      "learning_rate": 0.0003,
      "loss": 11.0856,
      "loss/aux_loss": 0.04806470796465874,
      "loss/crossentropy": 2.8181748032569884,
      "loss/logits": 0.8605926305055618,
      "step": 55070
    },
    {
      "epoch": 0.5508,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.50078125,
      "learning_rate": 0.0003,
      "loss": 11.0929,
      "loss/aux_loss": 0.048071750067174436,
      "loss/crossentropy": 2.6172981381416323,
      "loss/logits": 0.8222677648067475,
      "step": 55080
    },
    {
      "epoch": 0.5509,
      "grad_norm": 18.125,
      "grad_norm_var": 1.0407389322916667,
      "learning_rate": 0.0003,
      "loss": 10.8124,
      "loss/aux_loss": 0.04807625990360975,
      "loss/crossentropy": 2.448382931947708,
      "loss/logits": 0.7904783099889755,
      "step": 55090
    },
    {
      "epoch": 0.551,
      "grad_norm": 14.75,
      "grad_norm_var": 3.9869140625,
      "learning_rate": 0.0003,
      "loss": 11.0645,
      "loss/aux_loss": 0.04806983452290296,
      "loss/crossentropy": 2.7576751828193666,
      "loss/logits": 0.8664533495903015,
      "step": 55100
    },
    {
      "epoch": 0.5511,
      "grad_norm": 15.875,
      "grad_norm_var": 0.45818684895833334,
      "learning_rate": 0.0003,
      "loss": 10.8939,
      "loss/aux_loss": 0.04806837178766728,
      "loss/crossentropy": 2.7311266005039214,
      "loss/logits": 0.8202107667922973,
      "step": 55110
    },
    {
      "epoch": 0.5512,
      "grad_norm": 14.75,
      "grad_norm_var": 0.746728515625,
      "learning_rate": 0.0003,
      "loss": 10.8522,
      "loss/aux_loss": 0.04809461031109095,
      "loss/crossentropy": 2.481432467699051,
      "loss/logits": 0.7854719698429108,
      "step": 55120
    },
    {
      "epoch": 0.5513,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.5721354166666667,
      "learning_rate": 0.0003,
      "loss": 10.9235,
      "loss/aux_loss": 0.048076366260647777,
      "loss/crossentropy": 2.6985863506793977,
      "loss/logits": 0.7947354167699814,
      "step": 55130
    },
    {
      "epoch": 0.5514,
      "grad_norm": 16.375,
      "grad_norm_var": 0.8880208333333334,
      "learning_rate": 0.0003,
      "loss": 11.1427,
      "loss/aux_loss": 0.048077909648418425,
      "loss/crossentropy": 2.8347915410995483,
      "loss/logits": 0.8606969892978669,
      "step": 55140
    },
    {
      "epoch": 0.5515,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.5734375,
      "learning_rate": 0.0003,
      "loss": 11.0213,
      "loss/aux_loss": 0.04807186853140592,
      "loss/crossentropy": 2.677201247215271,
      "loss/logits": 0.8178416341543198,
      "step": 55150
    },
    {
      "epoch": 0.5516,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.47578125,
      "learning_rate": 0.0003,
      "loss": 11.1246,
      "loss/aux_loss": 0.04808474499732256,
      "loss/crossentropy": 2.7420763611793517,
      "loss/logits": 0.8414195388555527,
      "step": 55160
    },
    {
      "epoch": 0.5517,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.49933268229166666,
      "learning_rate": 0.0003,
      "loss": 11.0815,
      "loss/aux_loss": 0.0480824813246727,
      "loss/crossentropy": 2.7030155539512633,
      "loss/logits": 0.8236714661121368,
      "step": 55170
    },
    {
      "epoch": 0.5518,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.470166015625,
      "learning_rate": 0.0003,
      "loss": 11.1841,
      "loss/aux_loss": 0.048062578216195105,
      "loss/crossentropy": 2.6597807705402374,
      "loss/logits": 0.8233522891998291,
      "step": 55180
    },
    {
      "epoch": 0.5519,
      "grad_norm": 15.875,
      "grad_norm_var": 1.1374837239583333,
      "learning_rate": 0.0003,
      "loss": 10.9552,
      "loss/aux_loss": 0.048083331808447836,
      "loss/crossentropy": 2.794076269865036,
      "loss/logits": 0.8059151649475098,
      "step": 55190
    },
    {
      "epoch": 0.552,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.7822265625,
      "learning_rate": 0.0003,
      "loss": 11.2436,
      "loss/aux_loss": 0.048071344010531904,
      "loss/crossentropy": 2.935925805568695,
      "loss/logits": 0.8763310700654984,
      "step": 55200
    },
    {
      "epoch": 0.5521,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.8796875,
      "learning_rate": 0.0003,
      "loss": 10.8792,
      "loss/aux_loss": 0.04806312434375286,
      "loss/crossentropy": 2.5801034331321717,
      "loss/logits": 0.7766230911016464,
      "step": 55210
    },
    {
      "epoch": 0.5522,
      "grad_norm": 16.0,
      "grad_norm_var": 1.910009765625,
      "learning_rate": 0.0003,
      "loss": 11.0385,
      "loss/aux_loss": 0.048060713522136214,
      "loss/crossentropy": 2.7574446558952332,
      "loss/logits": 0.844352638721466,
      "step": 55220
    },
    {
      "epoch": 0.5523,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.689697265625,
      "learning_rate": 0.0003,
      "loss": 10.8802,
      "loss/aux_loss": 0.048071770928800106,
      "loss/crossentropy": 2.5709005653858186,
      "loss/logits": 0.7922522544860839,
      "step": 55230
    },
    {
      "epoch": 0.5524,
      "grad_norm": 15.125,
      "grad_norm_var": 0.2791666666666667,
      "learning_rate": 0.0003,
      "loss": 11.0235,
      "loss/aux_loss": 0.04807364530861378,
      "loss/crossentropy": 2.7921212911605835,
      "loss/logits": 0.8340934455394745,
      "step": 55240
    },
    {
      "epoch": 0.5525,
      "grad_norm": 14.875,
      "grad_norm_var": 0.3009765625,
      "learning_rate": 0.0003,
      "loss": 11.0513,
      "loss/aux_loss": 0.04807345513254404,
      "loss/crossentropy": 2.711283278465271,
      "loss/logits": 0.8268725454807282,
      "step": 55250
    },
    {
      "epoch": 0.5526,
      "grad_norm": 16.375,
      "grad_norm_var": 0.49947916666666664,
      "learning_rate": 0.0003,
      "loss": 10.8667,
      "loss/aux_loss": 0.048064783401787284,
      "loss/crossentropy": 2.5558693051338195,
      "loss/logits": 0.8117028713226319,
      "step": 55260
    },
    {
      "epoch": 0.5527,
      "grad_norm": 15.625,
      "grad_norm_var": 0.506884765625,
      "learning_rate": 0.0003,
      "loss": 11.0831,
      "loss/aux_loss": 0.0480767959728837,
      "loss/crossentropy": 2.6161147236824034,
      "loss/logits": 0.8263348460197448,
      "step": 55270
    },
    {
      "epoch": 0.5528,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.44453125,
      "learning_rate": 0.0003,
      "loss": 11.0553,
      "loss/aux_loss": 0.04807081706821918,
      "loss/crossentropy": 2.8348384737968444,
      "loss/logits": 0.8327891290187835,
      "step": 55280
    },
    {
      "epoch": 0.5529,
      "grad_norm": 13.75,
      "grad_norm_var": 0.7016764322916667,
      "learning_rate": 0.0003,
      "loss": 11.0743,
      "loss/aux_loss": 0.04807010293006897,
      "loss/crossentropy": 2.8104523420333862,
      "loss/logits": 0.8793832540512085,
      "step": 55290
    },
    {
      "epoch": 0.553,
      "grad_norm": 15.125,
      "grad_norm_var": 0.8228515625,
      "learning_rate": 0.0003,
      "loss": 10.9962,
      "loss/aux_loss": 0.04807137455791235,
      "loss/crossentropy": 2.6533069372177125,
      "loss/logits": 0.831883293390274,
      "step": 55300
    },
    {
      "epoch": 0.5531,
      "grad_norm": 15.125,
      "grad_norm_var": 0.70390625,
      "learning_rate": 0.0003,
      "loss": 11.0324,
      "loss/aux_loss": 0.04808204546570778,
      "loss/crossentropy": 2.8105109453201296,
      "loss/logits": 0.8209470868110657,
      "step": 55310
    },
    {
      "epoch": 0.5532,
      "grad_norm": 14.0,
      "grad_norm_var": 0.2744140625,
      "learning_rate": 0.0003,
      "loss": 11.1437,
      "loss/aux_loss": 0.04806657768785953,
      "loss/crossentropy": 2.852742946147919,
      "loss/logits": 0.8403396517038345,
      "step": 55320
    },
    {
      "epoch": 0.5533,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.42473958333333334,
      "learning_rate": 0.0003,
      "loss": 10.9109,
      "loss/aux_loss": 0.04807582776993513,
      "loss/crossentropy": 2.6064063906669617,
      "loss/logits": 0.8204812169075012,
      "step": 55330
    },
    {
      "epoch": 0.5534,
      "grad_norm": 17.25,
      "grad_norm_var": 0.7844889322916667,
      "learning_rate": 0.0003,
      "loss": 10.8695,
      "loss/aux_loss": 0.04807104654610157,
      "loss/crossentropy": 2.8387674689292908,
      "loss/logits": 0.8554284036159515,
      "step": 55340
    },
    {
      "epoch": 0.5535,
      "grad_norm": 19.25,
      "grad_norm_var": 1.8325358072916667,
      "learning_rate": 0.0003,
      "loss": 10.8966,
      "loss/aux_loss": 0.048077484220266344,
      "loss/crossentropy": 2.6154538214206697,
      "loss/logits": 0.7829844743013382,
      "step": 55350
    },
    {
      "epoch": 0.5536,
      "grad_norm": 39.5,
      "grad_norm_var": 38.35558268229167,
      "learning_rate": 0.0003,
      "loss": 10.9473,
      "loss/aux_loss": 0.04806430507451296,
      "loss/crossentropy": 2.670952570438385,
      "loss/logits": 0.8368105083703995,
      "step": 55360
    },
    {
      "epoch": 0.5537,
      "grad_norm": 14.6875,
      "grad_norm_var": 37.1072265625,
      "learning_rate": 0.0003,
      "loss": 11.1894,
      "loss/aux_loss": 0.04807990249246359,
      "loss/crossentropy": 2.566202479600906,
      "loss/logits": 0.8429438978433609,
      "step": 55370
    },
    {
      "epoch": 0.5538,
      "grad_norm": 15.0,
      "grad_norm_var": 0.7909993489583333,
      "learning_rate": 0.0003,
      "loss": 11.0169,
      "loss/aux_loss": 0.04807171169668436,
      "loss/crossentropy": 2.6199849128723143,
      "loss/logits": 0.7806309968233108,
      "step": 55380
    },
    {
      "epoch": 0.5539,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.7916666666666666,
      "learning_rate": 0.0003,
      "loss": 11.1617,
      "loss/aux_loss": 0.04807775840163231,
      "loss/crossentropy": 2.8030936300754545,
      "loss/logits": 0.8265924125909805,
      "step": 55390
    },
    {
      "epoch": 0.554,
      "grad_norm": 14.875,
      "grad_norm_var": 1.0254557291666666,
      "learning_rate": 0.0003,
      "loss": 10.9235,
      "loss/aux_loss": 0.04806862715631723,
      "loss/crossentropy": 2.6641399443149565,
      "loss/logits": 0.8228778213262558,
      "step": 55400
    },
    {
      "epoch": 0.5541,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5369140625,
      "learning_rate": 0.0003,
      "loss": 11.1513,
      "loss/aux_loss": 0.04806708451360464,
      "loss/crossentropy": 2.73874751329422,
      "loss/logits": 0.8570866554975509,
      "step": 55410
    },
    {
      "epoch": 0.5542,
      "grad_norm": 14.5,
      "grad_norm_var": 0.27545572916666666,
      "learning_rate": 0.0003,
      "loss": 11.0742,
      "loss/aux_loss": 0.048080652765929696,
      "loss/crossentropy": 2.6296676993370056,
      "loss/logits": 0.8333312928676605,
      "step": 55420
    },
    {
      "epoch": 0.5543,
      "grad_norm": 15.0,
      "grad_norm_var": 4.2884765625,
      "learning_rate": 0.0003,
      "loss": 10.7601,
      "loss/aux_loss": 0.04808066971600056,
      "loss/crossentropy": 2.6608549892902373,
      "loss/logits": 0.7777025699615479,
      "step": 55430
    },
    {
      "epoch": 0.5544,
      "grad_norm": 15.1875,
      "grad_norm_var": 4.875764973958334,
      "learning_rate": 0.0003,
      "loss": 10.8756,
      "loss/aux_loss": 0.04807064030319452,
      "loss/crossentropy": 2.6703452289104463,
      "loss/logits": 0.8353601545095444,
      "step": 55440
    },
    {
      "epoch": 0.5545,
      "grad_norm": 13.5625,
      "grad_norm_var": 1.1557291666666667,
      "learning_rate": 0.0003,
      "loss": 10.8567,
      "loss/aux_loss": 0.04806992132216692,
      "loss/crossentropy": 2.8200165271759032,
      "loss/logits": 0.8091388493776321,
      "step": 55450
    },
    {
      "epoch": 0.5546,
      "grad_norm": 15.0,
      "grad_norm_var": 26.2869140625,
      "learning_rate": 0.0003,
      "loss": 10.9664,
      "loss/aux_loss": 0.04806872811168432,
      "loss/crossentropy": 2.758486533164978,
      "loss/logits": 0.814564099907875,
      "step": 55460
    },
    {
      "epoch": 0.5547,
      "grad_norm": 17.25,
      "grad_norm_var": 24.257666015625,
      "learning_rate": 0.0003,
      "loss": 10.9383,
      "loss/aux_loss": 0.048077772557735446,
      "loss/crossentropy": 2.850853431224823,
      "loss/logits": 0.8375491023063659,
      "step": 55470
    },
    {
      "epoch": 0.5548,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.7166666666666667,
      "learning_rate": 0.0003,
      "loss": 10.9209,
      "loss/aux_loss": 0.04806488305330277,
      "loss/crossentropy": 2.7074069380760193,
      "loss/logits": 0.809591680765152,
      "step": 55480
    },
    {
      "epoch": 0.5549,
      "grad_norm": 18.25,
      "grad_norm_var": 115.28430989583333,
      "learning_rate": 0.0003,
      "loss": 11.1249,
      "loss/aux_loss": 0.048068816773593426,
      "loss/crossentropy": 2.7336994290351866,
      "loss/logits": 0.8458652794361115,
      "step": 55490
    },
    {
      "epoch": 0.555,
      "grad_norm": 15.3125,
      "grad_norm_var": 115.85260416666667,
      "learning_rate": 0.0003,
      "loss": 11.0102,
      "loss/aux_loss": 0.04807518254965544,
      "loss/crossentropy": 2.773914611339569,
      "loss/logits": 0.8233480423688888,
      "step": 55500
    },
    {
      "epoch": 0.5551,
      "grad_norm": 15.125,
      "grad_norm_var": 2.074934895833333,
      "learning_rate": 0.0003,
      "loss": 11.0417,
      "loss/aux_loss": 0.048073450662195684,
      "loss/crossentropy": 2.622314327955246,
      "loss/logits": 0.8316299766302109,
      "step": 55510
    },
    {
      "epoch": 0.5552,
      "grad_norm": 15.8125,
      "grad_norm_var": 2.1219889322916665,
      "learning_rate": 0.0003,
      "loss": 10.9537,
      "loss/aux_loss": 0.04807238392531872,
      "loss/crossentropy": 2.688526248931885,
      "loss/logits": 0.8633313030004501,
      "step": 55520
    },
    {
      "epoch": 0.5553,
      "grad_norm": 14.5,
      "grad_norm_var": 0.8098795572916667,
      "learning_rate": 0.0003,
      "loss": 11.1069,
      "loss/aux_loss": 0.048073047399520875,
      "loss/crossentropy": 2.9057937622070313,
      "loss/logits": 0.8318546801805496,
      "step": 55530
    },
    {
      "epoch": 0.5554,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.7106608072916667,
      "learning_rate": 0.0003,
      "loss": 10.8562,
      "loss/aux_loss": 0.04806810189038515,
      "loss/crossentropy": 2.677476871013641,
      "loss/logits": 0.786837711930275,
      "step": 55540
    },
    {
      "epoch": 0.5555,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.3433430989583333,
      "learning_rate": 0.0003,
      "loss": 11.1194,
      "loss/aux_loss": 0.048065618611872196,
      "loss/crossentropy": 2.7434459567070006,
      "loss/logits": 0.813059389591217,
      "step": 55550
    },
    {
      "epoch": 0.5556,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.3681640625,
      "learning_rate": 0.0003,
      "loss": 10.8911,
      "loss/aux_loss": 0.04808599632233381,
      "loss/crossentropy": 2.6911366164684294,
      "loss/logits": 0.8269895523786545,
      "step": 55560
    },
    {
      "epoch": 0.5557,
      "grad_norm": 14.25,
      "grad_norm_var": 0.372509765625,
      "learning_rate": 0.0003,
      "loss": 10.9757,
      "loss/aux_loss": 0.04807158019393683,
      "loss/crossentropy": 2.719972950220108,
      "loss/logits": 0.8304482787847519,
      "step": 55570
    },
    {
      "epoch": 0.5558,
      "grad_norm": 14.8125,
      "grad_norm_var": 1.05,
      "learning_rate": 0.0003,
      "loss": 11.0324,
      "loss/aux_loss": 0.048060659877955915,
      "loss/crossentropy": 2.758992946147919,
      "loss/logits": 0.8127716392278671,
      "step": 55580
    },
    {
      "epoch": 0.5559,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.48020833333333335,
      "learning_rate": 0.0003,
      "loss": 11.1187,
      "loss/aux_loss": 0.04808644969016314,
      "loss/crossentropy": 2.6615478575229643,
      "loss/logits": 0.8186038672924042,
      "step": 55590
    },
    {
      "epoch": 0.556,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.7535807291666666,
      "learning_rate": 0.0003,
      "loss": 10.984,
      "loss/aux_loss": 0.04806722085922956,
      "loss/crossentropy": 2.8301248073577883,
      "loss/logits": 0.8224711626768112,
      "step": 55600
    },
    {
      "epoch": 0.5561,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.9426432291666667,
      "learning_rate": 0.0003,
      "loss": 11.0619,
      "loss/aux_loss": 0.048068858496844766,
      "loss/crossentropy": 2.652260237932205,
      "loss/logits": 0.8152152061462402,
      "step": 55610
    },
    {
      "epoch": 0.5562,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.6843098958333333,
      "learning_rate": 0.0003,
      "loss": 11.0558,
      "loss/aux_loss": 0.048064957931637765,
      "loss/crossentropy": 2.8026095151901247,
      "loss/logits": 0.8398134261369705,
      "step": 55620
    },
    {
      "epoch": 0.5563,
      "grad_norm": 14.0,
      "grad_norm_var": 0.9531087239583333,
      "learning_rate": 0.0003,
      "loss": 10.9296,
      "loss/aux_loss": 0.048068616352975366,
      "loss/crossentropy": 2.6979903995990755,
      "loss/logits": 0.8080804139375687,
      "step": 55630
    },
    {
      "epoch": 0.5564,
      "grad_norm": 14.875,
      "grad_norm_var": 0.63671875,
      "learning_rate": 0.0003,
      "loss": 10.895,
      "loss/aux_loss": 0.04807308129966259,
      "loss/crossentropy": 2.7710575222969056,
      "loss/logits": 0.807817280292511,
      "step": 55640
    },
    {
      "epoch": 0.5565,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.8942057291666666,
      "learning_rate": 0.0003,
      "loss": 10.9262,
      "loss/aux_loss": 0.04807392563670874,
      "loss/crossentropy": 2.736243361234665,
      "loss/logits": 0.8000924259424209,
      "step": 55650
    },
    {
      "epoch": 0.5566,
      "grad_norm": 14.875,
      "grad_norm_var": 0.2556640625,
      "learning_rate": 0.0003,
      "loss": 10.9558,
      "loss/aux_loss": 0.04807540960609913,
      "loss/crossentropy": 2.8422346234321596,
      "loss/logits": 0.830447968840599,
      "step": 55660
    },
    {
      "epoch": 0.5567,
      "grad_norm": 15.3125,
      "grad_norm_var": 5286.068473307291,
      "learning_rate": 0.0003,
      "loss": 11.0703,
      "loss/aux_loss": 0.04807211048901081,
      "loss/crossentropy": 2.746444511413574,
      "loss/logits": 0.8070830225944519,
      "step": 55670
    },
    {
      "epoch": 0.5568,
      "grad_norm": 13.75,
      "grad_norm_var": 5261.000244140625,
      "learning_rate": 0.0003,
      "loss": 10.9093,
      "loss/aux_loss": 0.048075992986559866,
      "loss/crossentropy": 2.802550220489502,
      "loss/logits": 0.8187012434005737,
      "step": 55680
    },
    {
      "epoch": 0.5569,
      "grad_norm": 16.125,
      "grad_norm_var": 2.572249348958333,
      "learning_rate": 0.0003,
      "loss": 11.0327,
      "loss/aux_loss": 0.048064975813031194,
      "loss/crossentropy": 2.5375086605548858,
      "loss/logits": 0.8208780288696289,
      "step": 55690
    },
    {
      "epoch": 0.557,
      "grad_norm": 14.5,
      "grad_norm_var": 0.4688639322916667,
      "learning_rate": 0.0003,
      "loss": 11.0094,
      "loss/aux_loss": 0.04807396829128265,
      "loss/crossentropy": 2.7012075066566466,
      "loss/logits": 0.8320501059293747,
      "step": 55700
    },
    {
      "epoch": 0.5571,
      "grad_norm": 14.25,
      "grad_norm_var": 0.24140625,
      "learning_rate": 0.0003,
      "loss": 11.1335,
      "loss/aux_loss": 0.048072258941829205,
      "loss/crossentropy": 2.685439348220825,
      "loss/logits": 0.8327443897724152,
      "step": 55710
    },
    {
      "epoch": 0.5572,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.24166666666666667,
      "learning_rate": 0.0003,
      "loss": 11.0821,
      "loss/aux_loss": 0.0480724660679698,
      "loss/crossentropy": 2.8291414260864256,
      "loss/logits": 0.8656550794839859,
      "step": 55720
    },
    {
      "epoch": 0.5573,
      "grad_norm": 15.0625,
      "grad_norm_var": 15.460791015625,
      "learning_rate": 0.0003,
      "loss": 10.9168,
      "loss/aux_loss": 0.04806995950639248,
      "loss/crossentropy": 2.7315680921077727,
      "loss/logits": 0.7951398670673371,
      "step": 55730
    },
    {
      "epoch": 0.5574,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.6952473958333333,
      "learning_rate": 0.0003,
      "loss": 11.2082,
      "loss/aux_loss": 0.048077480867505074,
      "loss/crossentropy": 2.734374761581421,
      "loss/logits": 0.8259120464324952,
      "step": 55740
    },
    {
      "epoch": 0.5575,
      "grad_norm": 16.0,
      "grad_norm_var": 1.183837890625,
      "learning_rate": 0.0003,
      "loss": 11.066,
      "loss/aux_loss": 0.048074356466531756,
      "loss/crossentropy": 2.626655274629593,
      "loss/logits": 0.8067521005868912,
      "step": 55750
    },
    {
      "epoch": 0.5576,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.7752604166666667,
      "learning_rate": 0.0003,
      "loss": 11.0163,
      "loss/aux_loss": 0.048075728304684165,
      "loss/crossentropy": 2.6281754672527313,
      "loss/logits": 0.8328516259789467,
      "step": 55760
    },
    {
      "epoch": 0.5577,
      "grad_norm": 15.0,
      "grad_norm_var": 1.0020182291666666,
      "learning_rate": 0.0003,
      "loss": 10.9977,
      "loss/aux_loss": 0.04805116355419159,
      "loss/crossentropy": 2.502528029680252,
      "loss/logits": 0.7761318385601044,
      "step": 55770
    },
    {
      "epoch": 0.5578,
      "grad_norm": 13.875,
      "grad_norm_var": 0.8640462239583333,
      "learning_rate": 0.0003,
      "loss": 11.0557,
      "loss/aux_loss": 0.04808572828769684,
      "loss/crossentropy": 2.792075717449188,
      "loss/logits": 0.8123959988355637,
      "step": 55780
    },
    {
      "epoch": 0.5579,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.5848307291666667,
      "learning_rate": 0.0003,
      "loss": 11.0302,
      "loss/aux_loss": 0.04807162135839462,
      "loss/crossentropy": 2.764680355787277,
      "loss/logits": 0.8557851523160934,
      "step": 55790
    },
    {
      "epoch": 0.558,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.627197265625,
      "learning_rate": 0.0003,
      "loss": 11.0062,
      "loss/aux_loss": 0.04807290825992823,
      "loss/crossentropy": 2.6959391951560976,
      "loss/logits": 0.8017183929681778,
      "step": 55800
    },
    {
      "epoch": 0.5581,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.4681640625,
      "learning_rate": 0.0003,
      "loss": 10.9007,
      "loss/aux_loss": 0.04806526694446802,
      "loss/crossentropy": 2.712996482849121,
      "loss/logits": 0.8240525692701339,
      "step": 55810
    },
    {
      "epoch": 0.5582,
      "grad_norm": 21.375,
      "grad_norm_var": 3.1531087239583333,
      "learning_rate": 0.0003,
      "loss": 11.0358,
      "loss/aux_loss": 0.048070162907242774,
      "loss/crossentropy": 2.7307373881340027,
      "loss/logits": 0.82339708507061,
      "step": 55820
    },
    {
      "epoch": 0.5583,
      "grad_norm": 13.75,
      "grad_norm_var": 2.9661458333333335,
      "learning_rate": 0.0003,
      "loss": 10.8756,
      "loss/aux_loss": 0.04807821772992611,
      "loss/crossentropy": 2.8782392740249634,
      "loss/logits": 0.8153641313314438,
      "step": 55830
    },
    {
      "epoch": 0.5584,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.42823893229166665,
      "learning_rate": 0.0003,
      "loss": 11.0125,
      "loss/aux_loss": 0.04807160831987858,
      "loss/crossentropy": 2.8019445538520813,
      "loss/logits": 0.8658664226531982,
      "step": 55840
    },
    {
      "epoch": 0.5585,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.6179524739583333,
      "learning_rate": 0.0003,
      "loss": 11.0465,
      "loss/aux_loss": 0.0480682285502553,
      "loss/crossentropy": 2.633160024881363,
      "loss/logits": 0.8404253333806991,
      "step": 55850
    },
    {
      "epoch": 0.5586,
      "grad_norm": 14.25,
      "grad_norm_var": 1.3625,
      "learning_rate": 0.0003,
      "loss": 11.0788,
      "loss/aux_loss": 0.048069980926811695,
      "loss/crossentropy": 2.977233016490936,
      "loss/logits": 0.8548012495040893,
      "step": 55860
    },
    {
      "epoch": 0.5587,
      "grad_norm": 17.5,
      "grad_norm_var": 1.658837890625,
      "learning_rate": 0.0003,
      "loss": 11.0906,
      "loss/aux_loss": 0.0480623546987772,
      "loss/crossentropy": 2.668596589565277,
      "loss/logits": 0.8072352677583694,
      "step": 55870
    },
    {
      "epoch": 0.5588,
      "grad_norm": 15.1875,
      "grad_norm_var": 1.0363932291666667,
      "learning_rate": 0.0003,
      "loss": 10.9759,
      "loss/aux_loss": 0.04808857198804617,
      "loss/crossentropy": 2.6548173129558563,
      "loss/logits": 0.832793864607811,
      "step": 55880
    },
    {
      "epoch": 0.5589,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.35305989583333336,
      "learning_rate": 0.0003,
      "loss": 10.9757,
      "loss/aux_loss": 0.04806632045656443,
      "loss/crossentropy": 2.6122241616249084,
      "loss/logits": 0.8252353370189667,
      "step": 55890
    },
    {
      "epoch": 0.559,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.826025390625,
      "learning_rate": 0.0003,
      "loss": 10.9732,
      "loss/aux_loss": 0.0480646962299943,
      "loss/crossentropy": 2.8674940884113314,
      "loss/logits": 0.8213084667921067,
      "step": 55900
    },
    {
      "epoch": 0.5591,
      "grad_norm": 14.25,
      "grad_norm_var": 0.79921875,
      "learning_rate": 0.0003,
      "loss": 11.0364,
      "loss/aux_loss": 0.04807482287287712,
      "loss/crossentropy": 2.709700071811676,
      "loss/logits": 0.8265916168689728,
      "step": 55910
    },
    {
      "epoch": 0.5592,
      "grad_norm": 15.0,
      "grad_norm_var": 1.2120930989583334,
      "learning_rate": 0.0003,
      "loss": 11.0549,
      "loss/aux_loss": 0.048078625462949276,
      "loss/crossentropy": 2.725412595272064,
      "loss/logits": 0.8201213121414185,
      "step": 55920
    },
    {
      "epoch": 0.5593,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.197900390625,
      "learning_rate": 0.0003,
      "loss": 11.0721,
      "loss/aux_loss": 0.04807287231087685,
      "loss/crossentropy": 2.781103193759918,
      "loss/logits": 0.8102922707796096,
      "step": 55930
    },
    {
      "epoch": 0.5594,
      "grad_norm": 14.25,
      "grad_norm_var": 0.6386555989583333,
      "learning_rate": 0.0003,
      "loss": 11.234,
      "loss/aux_loss": 0.04807069655507803,
      "loss/crossentropy": 2.869676959514618,
      "loss/logits": 0.8445936232805252,
      "step": 55940
    },
    {
      "epoch": 0.5595,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.4103515625,
      "learning_rate": 0.0003,
      "loss": 10.9058,
      "loss/aux_loss": 0.048074489645659926,
      "loss/crossentropy": 2.652887338399887,
      "loss/logits": 0.8485498696565628,
      "step": 55950
    },
    {
      "epoch": 0.5596,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.6891764322916667,
      "learning_rate": 0.0003,
      "loss": 10.8934,
      "loss/aux_loss": 0.04807630702853203,
      "loss/crossentropy": 2.62935094833374,
      "loss/logits": 0.8135641008615494,
      "step": 55960
    },
    {
      "epoch": 0.5597,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.805322265625,
      "learning_rate": 0.0003,
      "loss": 11.1182,
      "loss/aux_loss": 0.04807244669646025,
      "loss/crossentropy": 2.4817294061183928,
      "loss/logits": 0.804246386885643,
      "step": 55970
    },
    {
      "epoch": 0.5598,
      "grad_norm": 15.125,
      "grad_norm_var": 0.7141764322916667,
      "learning_rate": 0.0003,
      "loss": 10.9826,
      "loss/aux_loss": 0.048072634264826775,
      "loss/crossentropy": 2.8035527586936952,
      "loss/logits": 0.8370449364185333,
      "step": 55980
    },
    {
      "epoch": 0.5599,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.5895670572916667,
      "learning_rate": 0.0003,
      "loss": 10.9758,
      "loss/aux_loss": 0.048080057837069035,
      "loss/crossentropy": 2.8196861863136293,
      "loss/logits": 0.8604692459106446,
      "step": 55990
    },
    {
      "epoch": 0.56,
      "grad_norm": 14.125,
      "grad_norm_var": 0.3753743489583333,
      "learning_rate": 0.0003,
      "loss": 11.119,
      "loss/aux_loss": 0.04806259609758854,
      "loss/crossentropy": 2.770169770717621,
      "loss/logits": 0.8338570713996887,
      "step": 56000
    },
    {
      "epoch": 0.5601,
      "grad_norm": 16.375,
      "grad_norm_var": 0.40078125,
      "learning_rate": 0.0003,
      "loss": 11.1225,
      "loss/aux_loss": 0.04806851968169212,
      "loss/crossentropy": 2.778761512041092,
      "loss/logits": 0.8658297926187515,
      "step": 56010
    },
    {
      "epoch": 0.5602,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.825,
      "learning_rate": 0.0003,
      "loss": 11.145,
      "loss/aux_loss": 0.04807616528123617,
      "loss/crossentropy": 2.830496996641159,
      "loss/logits": 0.8245423913002015,
      "step": 56020
    },
    {
      "epoch": 0.5603,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.638916015625,
      "learning_rate": 0.0003,
      "loss": 10.9945,
      "loss/aux_loss": 0.04807240832597017,
      "loss/crossentropy": 2.755543279647827,
      "loss/logits": 0.8172949731349946,
      "step": 56030
    },
    {
      "epoch": 0.5604,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.6825358072916666,
      "learning_rate": 0.0003,
      "loss": 10.9785,
      "loss/aux_loss": 0.04805968664586544,
      "loss/crossentropy": 2.717133402824402,
      "loss/logits": 0.8595670849084854,
      "step": 56040
    },
    {
      "epoch": 0.5605,
      "grad_norm": 14.25,
      "grad_norm_var": 0.8062337239583334,
      "learning_rate": 0.0003,
      "loss": 10.9878,
      "loss/aux_loss": 0.0480790127068758,
      "loss/crossentropy": 2.7759326457977296,
      "loss/logits": 0.8354659885168075,
      "step": 56050
    },
    {
      "epoch": 0.5606,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.37381184895833336,
      "learning_rate": 0.0003,
      "loss": 10.8017,
      "loss/aux_loss": 0.048070153221488,
      "loss/crossentropy": 2.7013581454753877,
      "loss/logits": 0.8085485100746155,
      "step": 56060
    },
    {
      "epoch": 0.5607,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.7577473958333333,
      "learning_rate": 0.0003,
      "loss": 10.8808,
      "loss/aux_loss": 0.04807856027036905,
      "loss/crossentropy": 2.527774375677109,
      "loss/logits": 0.8128434181213379,
      "step": 56070
    },
    {
      "epoch": 0.5608,
      "grad_norm": 14.0,
      "grad_norm_var": 0.3275390625,
      "learning_rate": 0.0003,
      "loss": 11.0026,
      "loss/aux_loss": 0.04807322099804878,
      "loss/crossentropy": 2.6217800080776215,
      "loss/logits": 0.8302909851074218,
      "step": 56080
    },
    {
      "epoch": 0.5609,
      "grad_norm": 15.0,
      "grad_norm_var": 0.44803059895833336,
      "learning_rate": 0.0003,
      "loss": 10.8046,
      "loss/aux_loss": 0.04807568434625864,
      "loss/crossentropy": 2.5421776592731478,
      "loss/logits": 0.7773946285247803,
      "step": 56090
    },
    {
      "epoch": 0.561,
      "grad_norm": 15.0,
      "grad_norm_var": 0.2843098958333333,
      "learning_rate": 0.0003,
      "loss": 11.0388,
      "loss/aux_loss": 0.04807381071150303,
      "loss/crossentropy": 2.7090347170829774,
      "loss/logits": 0.8462309181690216,
      "step": 56100
    },
    {
      "epoch": 0.5611,
      "grad_norm": 15.625,
      "grad_norm_var": 0.26764322916666666,
      "learning_rate": 0.0003,
      "loss": 11.1147,
      "loss/aux_loss": 0.04806612860411406,
      "loss/crossentropy": 2.7417237401008605,
      "loss/logits": 0.8153161972761154,
      "step": 56110
    },
    {
      "epoch": 0.5612,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.493603515625,
      "learning_rate": 0.0003,
      "loss": 11.0104,
      "loss/aux_loss": 0.048076927475631234,
      "loss/crossentropy": 2.685434067249298,
      "loss/logits": 0.8215235829353332,
      "step": 56120
    },
    {
      "epoch": 0.5613,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.543994140625,
      "learning_rate": 0.0003,
      "loss": 10.9183,
      "loss/aux_loss": 0.048070359975099564,
      "loss/crossentropy": 2.7782336354255674,
      "loss/logits": 0.8645920783281327,
      "step": 56130
    },
    {
      "epoch": 0.5614,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.56875,
      "learning_rate": 0.0003,
      "loss": 10.9654,
      "loss/aux_loss": 0.04806331600993872,
      "loss/crossentropy": 2.7166395127773284,
      "loss/logits": 0.835795333981514,
      "step": 56140
    },
    {
      "epoch": 0.5615,
      "grad_norm": 14.625,
      "grad_norm_var": 3.842431640625,
      "learning_rate": 0.0003,
      "loss": 11.0505,
      "loss/aux_loss": 0.04807646721601486,
      "loss/crossentropy": 2.7557631850242617,
      "loss/logits": 0.8347720831632615,
      "step": 56150
    },
    {
      "epoch": 0.5616,
      "grad_norm": 14.75,
      "grad_norm_var": 0.269384765625,
      "learning_rate": 0.0003,
      "loss": 11.1227,
      "loss/aux_loss": 0.04807073958218098,
      "loss/crossentropy": 2.834517753124237,
      "loss/logits": 0.8356727987527848,
      "step": 56160
    },
    {
      "epoch": 0.5617,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.3465983072916667,
      "learning_rate": 0.0003,
      "loss": 10.8892,
      "loss/aux_loss": 0.048071736469864845,
      "loss/crossentropy": 2.6536025047302245,
      "loss/logits": 0.8201006531715394,
      "step": 56170
    },
    {
      "epoch": 0.5618,
      "grad_norm": 17.0,
      "grad_norm_var": 0.6214680989583333,
      "learning_rate": 0.0003,
      "loss": 11.0144,
      "loss/aux_loss": 0.048070326820015906,
      "loss/crossentropy": 2.6506611943244933,
      "loss/logits": 0.7980666756629944,
      "step": 56180
    },
    {
      "epoch": 0.5619,
      "grad_norm": 21.5,
      "grad_norm_var": 3.3739583333333334,
      "learning_rate": 0.0003,
      "loss": 11.0292,
      "loss/aux_loss": 0.048073834739625454,
      "loss/crossentropy": 2.757190352678299,
      "loss/logits": 0.8351425707340241,
      "step": 56190
    },
    {
      "epoch": 0.562,
      "grad_norm": 14.25,
      "grad_norm_var": 3.118212890625,
      "learning_rate": 0.0003,
      "loss": 11.0093,
      "loss/aux_loss": 0.048075878620147706,
      "loss/crossentropy": 2.798985254764557,
      "loss/logits": 0.8397725850343705,
      "step": 56200
    },
    {
      "epoch": 0.5621,
      "grad_norm": 14.125,
      "grad_norm_var": 1.3070149739583334,
      "learning_rate": 0.0003,
      "loss": 10.9908,
      "loss/aux_loss": 0.048066343553364275,
      "loss/crossentropy": 2.794421637058258,
      "loss/logits": 0.8280640333890915,
      "step": 56210
    },
    {
      "epoch": 0.5622,
      "grad_norm": 13.875,
      "grad_norm_var": 0.6166015625,
      "learning_rate": 0.0003,
      "loss": 10.968,
      "loss/aux_loss": 0.04806768260896206,
      "loss/crossentropy": 2.646075713634491,
      "loss/logits": 0.8375303894281387,
      "step": 56220
    },
    {
      "epoch": 0.5623,
      "grad_norm": 15.125,
      "grad_norm_var": 0.5046223958333333,
      "learning_rate": 0.0003,
      "loss": 11.0031,
      "loss/aux_loss": 0.04807407818734646,
      "loss/crossentropy": 2.8416967034339904,
      "loss/logits": 0.8331740826368332,
      "step": 56230
    },
    {
      "epoch": 0.5624,
      "grad_norm": 15.875,
      "grad_norm_var": 0.5088541666666667,
      "learning_rate": 0.0003,
      "loss": 11.121,
      "loss/aux_loss": 0.04808174110949039,
      "loss/crossentropy": 2.7374016523361204,
      "loss/logits": 0.8004465430974961,
      "step": 56240
    },
    {
      "epoch": 0.5625,
      "grad_norm": 14.625,
      "grad_norm_var": 0.8033854166666666,
      "learning_rate": 0.0003,
      "loss": 11.0857,
      "loss/aux_loss": 0.048068351671099664,
      "loss/crossentropy": 2.691207242012024,
      "loss/logits": 0.8244406789541244,
      "step": 56250
    },
    {
      "epoch": 0.5626,
      "grad_norm": 15.25,
      "grad_norm_var": 0.5994140625,
      "learning_rate": 0.0003,
      "loss": 11.033,
      "loss/aux_loss": 0.048069524578750134,
      "loss/crossentropy": 2.655339479446411,
      "loss/logits": 0.8004418700933457,
      "step": 56260
    },
    {
      "epoch": 0.5627,
      "grad_norm": 16.375,
      "grad_norm_var": 1.406103515625,
      "learning_rate": 0.0003,
      "loss": 10.9853,
      "loss/aux_loss": 0.04807061068713665,
      "loss/crossentropy": 2.562644922733307,
      "loss/logits": 0.7774939149618149,
      "step": 56270
    },
    {
      "epoch": 0.5628,
      "grad_norm": 14.5,
      "grad_norm_var": 110.99542643229167,
      "learning_rate": 0.0003,
      "loss": 10.9302,
      "loss/aux_loss": 0.04808583036065102,
      "loss/crossentropy": 2.7587235629558564,
      "loss/logits": 0.8342153191566467,
      "step": 56280
    },
    {
      "epoch": 0.5629,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.5614420572916666,
      "learning_rate": 0.0003,
      "loss": 10.8492,
      "loss/aux_loss": 0.048062351532280445,
      "loss/crossentropy": 2.640738385915756,
      "loss/logits": 0.7902368202805519,
      "step": 56290
    },
    {
      "epoch": 0.563,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.862353515625,
      "learning_rate": 0.0003,
      "loss": 10.9259,
      "loss/aux_loss": 0.04808336030691862,
      "loss/crossentropy": 2.662439024448395,
      "loss/logits": 0.8200179070234299,
      "step": 56300
    },
    {
      "epoch": 0.5631,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.118212890625,
      "learning_rate": 0.0003,
      "loss": 11.1451,
      "loss/aux_loss": 0.048071098141372205,
      "loss/crossentropy": 2.7258577704429627,
      "loss/logits": 0.8454255849123001,
      "step": 56310
    },
    {
      "epoch": 0.5632,
      "grad_norm": 14.25,
      "grad_norm_var": 0.7738118489583333,
      "learning_rate": 0.0003,
      "loss": 10.8717,
      "loss/aux_loss": 0.048069667629897596,
      "loss/crossentropy": 2.721261328458786,
      "loss/logits": 0.8305182576179504,
      "step": 56320
    },
    {
      "epoch": 0.5633,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.325,
      "learning_rate": 0.0003,
      "loss": 10.9718,
      "loss/aux_loss": 0.04807541910558939,
      "loss/crossentropy": 2.828034371137619,
      "loss/logits": 0.8110349535942077,
      "step": 56330
    },
    {
      "epoch": 0.5634,
      "grad_norm": 13.75,
      "grad_norm_var": 0.1484375,
      "learning_rate": 0.0003,
      "loss": 10.8651,
      "loss/aux_loss": 0.04806641507893801,
      "loss/crossentropy": 2.6425141513347628,
      "loss/logits": 0.7947331488132476,
      "step": 56340
    },
    {
      "epoch": 0.5635,
      "grad_norm": 13.75,
      "grad_norm_var": 13.531103515625,
      "learning_rate": 0.0003,
      "loss": 10.824,
      "loss/aux_loss": 0.048073524795472625,
      "loss/crossentropy": 2.704647868871689,
      "loss/logits": 0.7970446825027466,
      "step": 56350
    },
    {
      "epoch": 0.5636,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.30618489583333336,
      "learning_rate": 0.0003,
      "loss": 10.8263,
      "loss/aux_loss": 0.04807068221271038,
      "loss/crossentropy": 2.7439758598804476,
      "loss/logits": 0.8404293477535247,
      "step": 56360
    },
    {
      "epoch": 0.5637,
      "grad_norm": 14.125,
      "grad_norm_var": 0.9722493489583334,
      "learning_rate": 0.0003,
      "loss": 11.0797,
      "loss/aux_loss": 0.048076880536973475,
      "loss/crossentropy": 2.848537635803223,
      "loss/logits": 0.8467506438493728,
      "step": 56370
    },
    {
      "epoch": 0.5638,
      "grad_norm": 15.75,
      "grad_norm_var": 0.7387858072916667,
      "learning_rate": 0.0003,
      "loss": 11.0897,
      "loss/aux_loss": 0.04807664547115564,
      "loss/crossentropy": 2.8234737038612367,
      "loss/logits": 0.8553803592920304,
      "step": 56380
    },
    {
      "epoch": 0.5639,
      "grad_norm": 14.5,
      "grad_norm_var": 0.567431640625,
      "learning_rate": 0.0003,
      "loss": 11.0941,
      "loss/aux_loss": 0.048065589554607865,
      "loss/crossentropy": 2.7501831650733948,
      "loss/logits": 0.8351290255784989,
      "step": 56390
    },
    {
      "epoch": 0.564,
      "grad_norm": 18.125,
      "grad_norm_var": 1.2236979166666666,
      "learning_rate": 0.0003,
      "loss": 11.1896,
      "loss/aux_loss": 0.04807354472577572,
      "loss/crossentropy": 2.709191882610321,
      "loss/logits": 0.848085030913353,
      "step": 56400
    },
    {
      "epoch": 0.5641,
      "grad_norm": 15.875,
      "grad_norm_var": 0.8799479166666667,
      "learning_rate": 0.0003,
      "loss": 10.8941,
      "loss/aux_loss": 0.04807153381407261,
      "loss/crossentropy": 2.7052394211292268,
      "loss/logits": 0.8169119179248809,
      "step": 56410
    },
    {
      "epoch": 0.5642,
      "grad_norm": 17.0,
      "grad_norm_var": 2.4324055989583333,
      "learning_rate": 0.0003,
      "loss": 10.9911,
      "loss/aux_loss": 0.04807809721678495,
      "loss/crossentropy": 2.7568470358848574,
      "loss/logits": 0.8337729841470718,
      "step": 56420
    },
    {
      "epoch": 0.5643,
      "grad_norm": 14.1875,
      "grad_norm_var": 3.5363118489583334,
      "learning_rate": 0.0003,
      "loss": 10.8475,
      "loss/aux_loss": 0.04806798957288265,
      "loss/crossentropy": 2.55110359787941,
      "loss/logits": 0.7923869863152504,
      "step": 56430
    },
    {
      "epoch": 0.5644,
      "grad_norm": 16.625,
      "grad_norm_var": 3.0268229166666667,
      "learning_rate": 0.0003,
      "loss": 11.0289,
      "loss/aux_loss": 0.048070752806961534,
      "loss/crossentropy": 2.7474220752716065,
      "loss/logits": 0.8456249058246612,
      "step": 56440
    },
    {
      "epoch": 0.5645,
      "grad_norm": 15.75,
      "grad_norm_var": 2.623893229166667,
      "learning_rate": 0.0003,
      "loss": 11.0403,
      "loss/aux_loss": 0.04807250145822763,
      "loss/crossentropy": 2.650127410888672,
      "loss/logits": 0.8189398646354675,
      "step": 56450
    },
    {
      "epoch": 0.5646,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.6281087239583333,
      "learning_rate": 0.0003,
      "loss": 10.9889,
      "loss/aux_loss": 0.048068339750170705,
      "loss/crossentropy": 2.6610859453678133,
      "loss/logits": 0.7993488103151322,
      "step": 56460
    },
    {
      "epoch": 0.5647,
      "grad_norm": 14.625,
      "grad_norm_var": 0.537353515625,
      "learning_rate": 0.0003,
      "loss": 11.0154,
      "loss/aux_loss": 0.04807689357548952,
      "loss/crossentropy": 2.7062296152114866,
      "loss/logits": 0.8192767605185509,
      "step": 56470
    },
    {
      "epoch": 0.5648,
      "grad_norm": 15.5,
      "grad_norm_var": 0.7515462239583334,
      "learning_rate": 0.0003,
      "loss": 11.0572,
      "loss/aux_loss": 0.048062050342559816,
      "loss/crossentropy": 2.8266763508319857,
      "loss/logits": 0.8351973295211792,
      "step": 56480
    },
    {
      "epoch": 0.5649,
      "grad_norm": 14.125,
      "grad_norm_var": 0.8270182291666667,
      "learning_rate": 0.0003,
      "loss": 11.0404,
      "loss/aux_loss": 0.04807958882302046,
      "loss/crossentropy": 2.7233566522598265,
      "loss/logits": 0.8333428800106049,
      "step": 56490
    },
    {
      "epoch": 0.565,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.41456705729166665,
      "learning_rate": 0.0003,
      "loss": 11.015,
      "loss/aux_loss": 0.04806462060660124,
      "loss/crossentropy": 2.6568702876567842,
      "loss/logits": 0.840363684296608,
      "step": 56500
    },
    {
      "epoch": 0.5651,
      "grad_norm": 15.1875,
      "grad_norm_var": 1.0598307291666667,
      "learning_rate": 0.0003,
      "loss": 11.1722,
      "loss/aux_loss": 0.048068604059517385,
      "loss/crossentropy": 2.863558900356293,
      "loss/logits": 0.8404663354158401,
      "step": 56510
    },
    {
      "epoch": 0.5652,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.366650390625,
      "learning_rate": 0.0003,
      "loss": 10.9801,
      "loss/aux_loss": 0.048066033609211446,
      "loss/crossentropy": 2.7827521324157716,
      "loss/logits": 0.833331236243248,
      "step": 56520
    },
    {
      "epoch": 0.5653,
      "grad_norm": 16.25,
      "grad_norm_var": 0.7650390625,
      "learning_rate": 0.0003,
      "loss": 11.0661,
      "loss/aux_loss": 0.04807133264839649,
      "loss/crossentropy": 2.691127985715866,
      "loss/logits": 0.8125263452529907,
      "step": 56530
    },
    {
      "epoch": 0.5654,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5718587239583334,
      "learning_rate": 0.0003,
      "loss": 11.1224,
      "loss/aux_loss": 0.04806945119053126,
      "loss/crossentropy": 2.7853653192520142,
      "loss/logits": 0.8257082641124726,
      "step": 56540
    },
    {
      "epoch": 0.5655,
      "grad_norm": 15.375,
      "grad_norm_var": 0.29270833333333335,
      "learning_rate": 0.0003,
      "loss": 10.965,
      "loss/aux_loss": 0.048084007762372497,
      "loss/crossentropy": 2.676611590385437,
      "loss/logits": 0.8134146988391876,
      "step": 56550
    },
    {
      "epoch": 0.5656,
      "grad_norm": 14.3125,
      "grad_norm_var": 2.330322265625,
      "learning_rate": 0.0003,
      "loss": 10.794,
      "loss/aux_loss": 0.048067791387438774,
      "loss/crossentropy": 2.7615798473358155,
      "loss/logits": 0.8393901348114013,
      "step": 56560
    },
    {
      "epoch": 0.5657,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.1707682291666666,
      "learning_rate": 0.0003,
      "loss": 10.9696,
      "loss/aux_loss": 0.0480693681165576,
      "loss/crossentropy": 2.7393906354904174,
      "loss/logits": 0.8108802825212479,
      "step": 56570
    },
    {
      "epoch": 0.5658,
      "grad_norm": 15.875,
      "grad_norm_var": 1.6731770833333333,
      "learning_rate": 0.0003,
      "loss": 10.9976,
      "loss/aux_loss": 0.04807717688381672,
      "loss/crossentropy": 2.7219885349273683,
      "loss/logits": 0.8048550575971604,
      "step": 56580
    },
    {
      "epoch": 0.5659,
      "grad_norm": 14.875,
      "grad_norm_var": 1.264306640625,
      "learning_rate": 0.0003,
      "loss": 11.093,
      "loss/aux_loss": 0.04807864520698786,
      "loss/crossentropy": 2.777973675727844,
      "loss/logits": 0.8606278628110886,
      "step": 56590
    },
    {
      "epoch": 0.566,
      "grad_norm": 14.125,
      "grad_norm_var": 1.4953125,
      "learning_rate": 0.0003,
      "loss": 10.868,
      "loss/aux_loss": 0.04806201551109553,
      "loss/crossentropy": 2.5385043144226076,
      "loss/logits": 0.7936165243387222,
      "step": 56600
    },
    {
      "epoch": 0.5661,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.692041015625,
      "learning_rate": 0.0003,
      "loss": 10.9311,
      "loss/aux_loss": 0.04808430373668671,
      "loss/crossentropy": 2.6752517938613893,
      "loss/logits": 0.794241589307785,
      "step": 56610
    },
    {
      "epoch": 0.5662,
      "grad_norm": 14.375,
      "grad_norm_var": 1.6005208333333334,
      "learning_rate": 0.0003,
      "loss": 10.7976,
      "loss/aux_loss": 0.04808196313679218,
      "loss/crossentropy": 2.622132194042206,
      "loss/logits": 0.7990513414144516,
      "step": 56620
    },
    {
      "epoch": 0.5663,
      "grad_norm": 15.25,
      "grad_norm_var": 1.3752604166666667,
      "learning_rate": 0.0003,
      "loss": 10.9685,
      "loss/aux_loss": 0.048063672706484796,
      "loss/crossentropy": 2.659779739379883,
      "loss/logits": 0.8321389853954315,
      "step": 56630
    },
    {
      "epoch": 0.5664,
      "grad_norm": 16.0,
      "grad_norm_var": 0.3322265625,
      "learning_rate": 0.0003,
      "loss": 11.0019,
      "loss/aux_loss": 0.04806230738759041,
      "loss/crossentropy": 2.7045338630676268,
      "loss/logits": 0.8264268547296524,
      "step": 56640
    },
    {
      "epoch": 0.5665,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.6581868489583333,
      "learning_rate": 0.0003,
      "loss": 11.0197,
      "loss/aux_loss": 0.04807612672448158,
      "loss/crossentropy": 2.6564504504203796,
      "loss/logits": 0.7988866597414017,
      "step": 56650
    },
    {
      "epoch": 0.5666,
      "grad_norm": 14.625,
      "grad_norm_var": 0.8681640625,
      "learning_rate": 0.0003,
      "loss": 10.7875,
      "loss/aux_loss": 0.04807793591171503,
      "loss/crossentropy": 2.573316812515259,
      "loss/logits": 0.7921032071113586,
      "step": 56660
    },
    {
      "epoch": 0.5667,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.5376139322916667,
      "learning_rate": 0.0003,
      "loss": 10.9263,
      "loss/aux_loss": 0.048057892732322215,
      "loss/crossentropy": 2.730033391714096,
      "loss/logits": 0.8079028069972992,
      "step": 56670
    },
    {
      "epoch": 0.5668,
      "grad_norm": 15.0,
      "grad_norm_var": 0.26536458333333335,
      "learning_rate": 0.0003,
      "loss": 11.0131,
      "loss/aux_loss": 0.04807726927101612,
      "loss/crossentropy": 2.7096143126487733,
      "loss/logits": 0.8181146889925003,
      "step": 56680
    },
    {
      "epoch": 0.5669,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.4228515625,
      "learning_rate": 0.0003,
      "loss": 11.098,
      "loss/aux_loss": 0.04807647932320833,
      "loss/crossentropy": 2.642156887054443,
      "loss/logits": 0.8269279479980469,
      "step": 56690
    },
    {
      "epoch": 0.567,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.33123372395833334,
      "learning_rate": 0.0003,
      "loss": 10.9675,
      "loss/aux_loss": 0.04807464182376862,
      "loss/crossentropy": 2.8210769176483153,
      "loss/logits": 0.83407823741436,
      "step": 56700
    },
    {
      "epoch": 0.5671,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.3556640625,
      "learning_rate": 0.0003,
      "loss": 11.1748,
      "loss/aux_loss": 0.04806642550975084,
      "loss/crossentropy": 2.749396449327469,
      "loss/logits": 0.8253662884235382,
      "step": 56710
    },
    {
      "epoch": 0.5672,
      "grad_norm": 14.75,
      "grad_norm_var": 0.515087890625,
      "learning_rate": 0.0003,
      "loss": 10.9303,
      "loss/aux_loss": 0.04807874038815498,
      "loss/crossentropy": 2.8592591881752014,
      "loss/logits": 0.8499416679143905,
      "step": 56720
    },
    {
      "epoch": 0.5673,
      "grad_norm": 15.5,
      "grad_norm_var": 0.5817545572916667,
      "learning_rate": 0.0003,
      "loss": 11.0301,
      "loss/aux_loss": 0.048067976161837576,
      "loss/crossentropy": 2.7235675573349,
      "loss/logits": 0.8350800782442093,
      "step": 56730
    },
    {
      "epoch": 0.5674,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.468212890625,
      "learning_rate": 0.0003,
      "loss": 10.9828,
      "loss/aux_loss": 0.04807393439114094,
      "loss/crossentropy": 2.7318145632743835,
      "loss/logits": 0.8563040405511856,
      "step": 56740
    },
    {
      "epoch": 0.5675,
      "grad_norm": 14.1875,
      "grad_norm_var": 2.0502604166666667,
      "learning_rate": 0.0003,
      "loss": 10.915,
      "loss/aux_loss": 0.04806574210524559,
      "loss/crossentropy": 2.855338990688324,
      "loss/logits": 0.851107832789421,
      "step": 56750
    },
    {
      "epoch": 0.5676,
      "grad_norm": 16.625,
      "grad_norm_var": 2.186181640625,
      "learning_rate": 0.0003,
      "loss": 11.0244,
      "loss/aux_loss": 0.04807633981108665,
      "loss/crossentropy": 2.7718964219093323,
      "loss/logits": 0.8375044643878937,
      "step": 56760
    },
    {
      "epoch": 0.5677,
      "grad_norm": 16.0,
      "grad_norm_var": 2.228645833333333,
      "learning_rate": 0.0003,
      "loss": 11.0663,
      "loss/aux_loss": 0.048062844574451445,
      "loss/crossentropy": 2.8246702313423158,
      "loss/logits": 0.8107487201690674,
      "step": 56770
    },
    {
      "epoch": 0.5678,
      "grad_norm": 14.75,
      "grad_norm_var": 0.7020670572916666,
      "learning_rate": 0.0003,
      "loss": 11.0445,
      "loss/aux_loss": 0.0480653140693903,
      "loss/crossentropy": 2.789826810359955,
      "loss/logits": 0.8652868360280991,
      "step": 56780
    },
    {
      "epoch": 0.5679,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5175618489583333,
      "learning_rate": 0.0003,
      "loss": 10.8587,
      "loss/aux_loss": 0.048073895275592804,
      "loss/crossentropy": 2.729355055093765,
      "loss/logits": 0.7821523636579514,
      "step": 56790
    },
    {
      "epoch": 0.568,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.551416015625,
      "learning_rate": 0.0003,
      "loss": 11.0657,
      "loss/aux_loss": 0.04806792289018631,
      "loss/crossentropy": 2.722504496574402,
      "loss/logits": 0.8235153377056121,
      "step": 56800
    },
    {
      "epoch": 0.5681,
      "grad_norm": 15.0,
      "grad_norm_var": 0.220166015625,
      "learning_rate": 0.0003,
      "loss": 11.0569,
      "loss/aux_loss": 0.04807557370513678,
      "loss/crossentropy": 2.571262764930725,
      "loss/logits": 0.8196977347135543,
      "step": 56810
    },
    {
      "epoch": 0.5682,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.18292643229166666,
      "learning_rate": 0.0003,
      "loss": 10.9235,
      "loss/aux_loss": 0.04806826990097761,
      "loss/crossentropy": 2.7095551788806915,
      "loss/logits": 0.8231742322444916,
      "step": 56820
    },
    {
      "epoch": 0.5683,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.6325358072916667,
      "learning_rate": 0.0003,
      "loss": 11.0522,
      "loss/aux_loss": 0.04808192327618599,
      "loss/crossentropy": 2.724127823114395,
      "loss/logits": 0.7891089856624603,
      "step": 56830
    },
    {
      "epoch": 0.5684,
      "grad_norm": 15.375,
      "grad_norm_var": 0.35859375,
      "learning_rate": 0.0003,
      "loss": 11.1465,
      "loss/aux_loss": 0.04806146658957004,
      "loss/crossentropy": 2.758617115020752,
      "loss/logits": 0.8087145060300827,
      "step": 56840
    },
    {
      "epoch": 0.5685,
      "grad_norm": 13.5625,
      "grad_norm_var": 0.4038899739583333,
      "learning_rate": 0.0003,
      "loss": 10.8962,
      "loss/aux_loss": 0.048076235502958295,
      "loss/crossentropy": 2.6616262257099152,
      "loss/logits": 0.8008765608072281,
      "step": 56850
    },
    {
      "epoch": 0.5686,
      "grad_norm": 14.625,
      "grad_norm_var": 0.36822916666666666,
      "learning_rate": 0.0003,
      "loss": 10.8288,
      "loss/aux_loss": 0.04807582087814808,
      "loss/crossentropy": 2.8255065202713014,
      "loss/logits": 0.8107618898153305,
      "step": 56860
    },
    {
      "epoch": 0.5687,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.33396809895833335,
      "learning_rate": 0.0003,
      "loss": 10.976,
      "loss/aux_loss": 0.04806512389332056,
      "loss/crossentropy": 2.8445683240890505,
      "loss/logits": 0.8330892562866211,
      "step": 56870
    },
    {
      "epoch": 0.5688,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.38795572916666665,
      "learning_rate": 0.0003,
      "loss": 11.077,
      "loss/aux_loss": 0.04806285053491592,
      "loss/crossentropy": 2.6184718787670134,
      "loss/logits": 0.8130939185619355,
      "step": 56880
    },
    {
      "epoch": 0.5689,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.265478515625,
      "learning_rate": 0.0003,
      "loss": 11.112,
      "loss/aux_loss": 0.04806987438350916,
      "loss/crossentropy": 2.666793406009674,
      "loss/logits": 0.8218275606632233,
      "step": 56890
    },
    {
      "epoch": 0.569,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.2703125,
      "learning_rate": 0.0003,
      "loss": 10.9284,
      "loss/aux_loss": 0.0480709794908762,
      "loss/crossentropy": 2.6845811307430267,
      "loss/logits": 0.8159762293100357,
      "step": 56900
    },
    {
      "epoch": 0.5691,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.38748372395833336,
      "learning_rate": 0.0003,
      "loss": 11.0256,
      "loss/aux_loss": 0.04806566461920738,
      "loss/crossentropy": 2.7073962688446045,
      "loss/logits": 0.815559196472168,
      "step": 56910
    },
    {
      "epoch": 0.5692,
      "grad_norm": 16.125,
      "grad_norm_var": 0.6726399739583333,
      "learning_rate": 0.0003,
      "loss": 10.9962,
      "loss/aux_loss": 0.04807677231729031,
      "loss/crossentropy": 2.6567338943481444,
      "loss/logits": 0.7852911531925202,
      "step": 56920
    },
    {
      "epoch": 0.5693,
      "grad_norm": 13.25,
      "grad_norm_var": 0.807275390625,
      "learning_rate": 0.0003,
      "loss": 10.8256,
      "loss/aux_loss": 0.04806611649692059,
      "loss/crossentropy": 2.900643491744995,
      "loss/logits": 0.8667346566915513,
      "step": 56930
    },
    {
      "epoch": 0.5694,
      "grad_norm": 14.25,
      "grad_norm_var": 0.8233723958333333,
      "learning_rate": 0.0003,
      "loss": 10.9697,
      "loss/aux_loss": 0.048079632222652435,
      "loss/crossentropy": 2.892075502872467,
      "loss/logits": 0.8571143001317978,
      "step": 56940
    },
    {
      "epoch": 0.5695,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5994140625,
      "learning_rate": 0.0003,
      "loss": 10.9265,
      "loss/aux_loss": 0.048065055161714554,
      "loss/crossentropy": 2.6348765909671785,
      "loss/logits": 0.8346069097518921,
      "step": 56950
    },
    {
      "epoch": 0.5696,
      "grad_norm": 14.125,
      "grad_norm_var": 0.25983072916666666,
      "learning_rate": 0.0003,
      "loss": 10.9799,
      "loss/aux_loss": 0.04807092547416687,
      "loss/crossentropy": 2.802864468097687,
      "loss/logits": 0.8114332973957061,
      "step": 56960
    },
    {
      "epoch": 0.5697,
      "grad_norm": 15.75,
      "grad_norm_var": 0.6822265625,
      "learning_rate": 0.0003,
      "loss": 10.8788,
      "loss/aux_loss": 0.04807887505739927,
      "loss/crossentropy": 2.7381537735462187,
      "loss/logits": 0.87372607588768,
      "step": 56970
    },
    {
      "epoch": 0.5698,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.7661295572916667,
      "learning_rate": 0.0003,
      "loss": 10.9834,
      "loss/aux_loss": 0.04806207437068224,
      "loss/crossentropy": 2.7998313903808594,
      "loss/logits": 0.8182542502880097,
      "step": 56980
    },
    {
      "epoch": 0.5699,
      "grad_norm": 16.125,
      "grad_norm_var": 0.699462890625,
      "learning_rate": 0.0003,
      "loss": 11.0665,
      "loss/aux_loss": 0.048081908747553824,
      "loss/crossentropy": 2.635771578550339,
      "loss/logits": 0.7996685534715653,
      "step": 56990
    },
    {
      "epoch": 0.57,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.766650390625,
      "learning_rate": 0.0003,
      "loss": 10.9328,
      "loss/aux_loss": 0.04807494562119245,
      "loss/crossentropy": 2.6950223565101625,
      "loss/logits": 0.8105741649866104,
      "step": 57000
    },
    {
      "epoch": 0.5701,
      "grad_norm": 15.75,
      "grad_norm_var": 0.7155598958333333,
      "learning_rate": 0.0003,
      "loss": 11.0767,
      "loss/aux_loss": 0.0480563260614872,
      "loss/crossentropy": 2.711246186494827,
      "loss/logits": 0.8292560011148453,
      "step": 57010
    },
    {
      "epoch": 0.5702,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.5749348958333333,
      "learning_rate": 0.0003,
      "loss": 10.8529,
      "loss/aux_loss": 0.048080886527895925,
      "loss/crossentropy": 2.688188964128494,
      "loss/logits": 0.8574258774518967,
      "step": 57020
    },
    {
      "epoch": 0.5703,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.40545247395833334,
      "learning_rate": 0.0003,
      "loss": 10.9149,
      "loss/aux_loss": 0.04806966222822666,
      "loss/crossentropy": 2.668558394908905,
      "loss/logits": 0.813389179110527,
      "step": 57030
    },
    {
      "epoch": 0.5704,
      "grad_norm": 14.875,
      "grad_norm_var": 0.4353515625,
      "learning_rate": 0.0003,
      "loss": 11.0002,
      "loss/aux_loss": 0.04807461742311716,
      "loss/crossentropy": 2.6643282949924467,
      "loss/logits": 0.7867618024349212,
      "step": 57040
    },
    {
      "epoch": 0.5705,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.31886393229166665,
      "learning_rate": 0.0003,
      "loss": 10.9509,
      "loss/aux_loss": 0.04807612039148808,
      "loss/crossentropy": 2.7182164669036863,
      "loss/logits": 0.778824046254158,
      "step": 57050
    },
    {
      "epoch": 0.5706,
      "grad_norm": 15.875,
      "grad_norm_var": 0.5471354166666667,
      "learning_rate": 0.0003,
      "loss": 10.9733,
      "loss/aux_loss": 0.04806810449808836,
      "loss/crossentropy": 2.8615632176399233,
      "loss/logits": 0.8570520609617234,
      "step": 57060
    },
    {
      "epoch": 0.5707,
      "grad_norm": 14.625,
      "grad_norm_var": 0.9356770833333333,
      "learning_rate": 0.0003,
      "loss": 10.8977,
      "loss/aux_loss": 0.04807794988155365,
      "loss/crossentropy": 2.7868527293205263,
      "loss/logits": 0.8298997163772583,
      "step": 57070
    },
    {
      "epoch": 0.5708,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.87734375,
      "learning_rate": 0.0003,
      "loss": 11.081,
      "loss/aux_loss": 0.0480685269460082,
      "loss/crossentropy": 2.646866476535797,
      "loss/logits": 0.8291843563318253,
      "step": 57080
    },
    {
      "epoch": 0.5709,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.625634765625,
      "learning_rate": 0.0003,
      "loss": 10.9265,
      "loss/aux_loss": 0.0480671152472496,
      "loss/crossentropy": 2.781124436855316,
      "loss/logits": 0.8275115400552749,
      "step": 57090
    },
    {
      "epoch": 0.571,
      "grad_norm": 15.1875,
      "grad_norm_var": 1.0968098958333334,
      "learning_rate": 0.0003,
      "loss": 11.0086,
      "loss/aux_loss": 0.04807842988520861,
      "loss/crossentropy": 2.722087186574936,
      "loss/logits": 0.8378143638372422,
      "step": 57100
    },
    {
      "epoch": 0.5711,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.2960774739583334,
      "learning_rate": 0.0003,
      "loss": 10.8447,
      "loss/aux_loss": 0.04806256033480168,
      "loss/crossentropy": 2.69550861120224,
      "loss/logits": 0.8196415692567826,
      "step": 57110
    },
    {
      "epoch": 0.5712,
      "grad_norm": 15.125,
      "grad_norm_var": 0.9403483072916666,
      "learning_rate": 0.0003,
      "loss": 10.9062,
      "loss/aux_loss": 0.0480593366548419,
      "loss/crossentropy": 2.659187990427017,
      "loss/logits": 0.7925233572721482,
      "step": 57120
    },
    {
      "epoch": 0.5713,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.5572265625,
      "learning_rate": 0.0003,
      "loss": 10.9287,
      "loss/aux_loss": 0.04807809740304947,
      "loss/crossentropy": 2.5628524363040923,
      "loss/logits": 0.778043681383133,
      "step": 57130
    },
    {
      "epoch": 0.5714,
      "grad_norm": 17.875,
      "grad_norm_var": 0.793212890625,
      "learning_rate": 0.0003,
      "loss": 10.9902,
      "loss/aux_loss": 0.04807734601199627,
      "loss/crossentropy": 2.6852267503738405,
      "loss/logits": 0.821107491850853,
      "step": 57140
    },
    {
      "epoch": 0.5715,
      "grad_norm": 23.625,
      "grad_norm_var": 5.084879557291667,
      "learning_rate": 0.0003,
      "loss": 10.9945,
      "loss/aux_loss": 0.04806005675345659,
      "loss/crossentropy": 2.670514500141144,
      "loss/logits": 0.8100097209215165,
      "step": 57150
    },
    {
      "epoch": 0.5716,
      "grad_norm": 14.4375,
      "grad_norm_var": 4.920817057291667,
      "learning_rate": 0.0003,
      "loss": 11.2069,
      "loss/aux_loss": 0.04807403068989515,
      "loss/crossentropy": 2.765077519416809,
      "loss/logits": 0.8135815739631653,
      "step": 57160
    },
    {
      "epoch": 0.5717,
      "grad_norm": 15.0625,
      "grad_norm_var": 2.030322265625,
      "learning_rate": 0.0003,
      "loss": 10.9361,
      "loss/aux_loss": 0.04807031713426113,
      "loss/crossentropy": 2.7000171720981596,
      "loss/logits": 0.7982536077499389,
      "step": 57170
    },
    {
      "epoch": 0.5718,
      "grad_norm": 14.8125,
      "grad_norm_var": 8.3837890625,
      "learning_rate": 0.0003,
      "loss": 10.9202,
      "loss/aux_loss": 0.04807793851941824,
      "loss/crossentropy": 2.6715080082416534,
      "loss/logits": 0.800389638543129,
      "step": 57180
    },
    {
      "epoch": 0.5719,
      "grad_norm": 15.0625,
      "grad_norm_var": 7.883968098958333,
      "learning_rate": 0.0003,
      "loss": 11.1442,
      "loss/aux_loss": 0.04807151965796948,
      "loss/crossentropy": 2.6992808401584627,
      "loss/logits": 0.8161318123340606,
      "step": 57190
    },
    {
      "epoch": 0.572,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.543603515625,
      "learning_rate": 0.0003,
      "loss": 11.0557,
      "loss/aux_loss": 0.04805929586291313,
      "loss/crossentropy": 2.7212381601333617,
      "loss/logits": 0.8454442709684372,
      "step": 57200
    },
    {
      "epoch": 0.5721,
      "grad_norm": 15.375,
      "grad_norm_var": 0.40358072916666665,
      "learning_rate": 0.0003,
      "loss": 11.0428,
      "loss/aux_loss": 0.04806900396943092,
      "loss/crossentropy": 2.807091176509857,
      "loss/logits": 0.84793541431427,
      "step": 57210
    },
    {
      "epoch": 0.5722,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.598681640625,
      "learning_rate": 0.0003,
      "loss": 10.9167,
      "loss/aux_loss": 0.04806927982717753,
      "loss/crossentropy": 2.9018397092819215,
      "loss/logits": 0.8026500940322876,
      "step": 57220
    },
    {
      "epoch": 0.5723,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.5054524739583334,
      "learning_rate": 0.0003,
      "loss": 10.9284,
      "loss/aux_loss": 0.04806585274636745,
      "loss/crossentropy": 2.7474361181259157,
      "loss/logits": 0.7843928277492523,
      "step": 57230
    },
    {
      "epoch": 0.5724,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.6785807291666667,
      "learning_rate": 0.0003,
      "loss": 11.0105,
      "loss/aux_loss": 0.04807022046297789,
      "loss/crossentropy": 2.684603381156921,
      "loss/logits": 0.8285898119211197,
      "step": 57240
    },
    {
      "epoch": 0.5725,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.7791015625,
      "learning_rate": 0.0003,
      "loss": 10.8737,
      "loss/aux_loss": 0.04808129519224167,
      "loss/crossentropy": 2.704842007160187,
      "loss/logits": 0.8189653396606446,
      "step": 57250
    },
    {
      "epoch": 0.5726,
      "grad_norm": 15.625,
      "grad_norm_var": 0.44264322916666665,
      "learning_rate": 0.0003,
      "loss": 11.11,
      "loss/aux_loss": 0.048068471066653726,
      "loss/crossentropy": 2.755719757080078,
      "loss/logits": 0.8350825071334839,
      "step": 57260
    },
    {
      "epoch": 0.5727,
      "grad_norm": 16.125,
      "grad_norm_var": 0.5872395833333334,
      "learning_rate": 0.0003,
      "loss": 11.0595,
      "loss/aux_loss": 0.04805658888071775,
      "loss/crossentropy": 2.747038698196411,
      "loss/logits": 0.8029045939445496,
      "step": 57270
    },
    {
      "epoch": 0.5728,
      "grad_norm": 15.625,
      "grad_norm_var": 0.9292805989583334,
      "learning_rate": 0.0003,
      "loss": 11.097,
      "loss/aux_loss": 0.04807424712926149,
      "loss/crossentropy": 2.8873910784721373,
      "loss/logits": 0.8244173586368561,
      "step": 57280
    },
    {
      "epoch": 0.5729,
      "grad_norm": 13.6875,
      "grad_norm_var": 1.3277180989583333,
      "learning_rate": 0.0003,
      "loss": 10.763,
      "loss/aux_loss": 0.04808657988905907,
      "loss/crossentropy": 2.5384365618228912,
      "loss/logits": 0.8188546657562256,
      "step": 57290
    },
    {
      "epoch": 0.573,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.25310872395833334,
      "learning_rate": 0.0003,
      "loss": 10.909,
      "loss/aux_loss": 0.04805942717939615,
      "loss/crossentropy": 2.7145915269851684,
      "loss/logits": 0.7983001649379731,
      "step": 57300
    },
    {
      "epoch": 0.5731,
      "grad_norm": 16.5,
      "grad_norm_var": 0.5681640625,
      "learning_rate": 0.0003,
      "loss": 10.949,
      "loss/aux_loss": 0.04808266796171665,
      "loss/crossentropy": 2.680216872692108,
      "loss/logits": 0.8321155905723572,
      "step": 57310
    },
    {
      "epoch": 0.5732,
      "grad_norm": 14.75,
      "grad_norm_var": 0.4596354166666667,
      "learning_rate": 0.0003,
      "loss": 11.0807,
      "loss/aux_loss": 0.0480640958994627,
      "loss/crossentropy": 2.772093391418457,
      "loss/logits": 0.8285915166139602,
      "step": 57320
    },
    {
      "epoch": 0.5733,
      "grad_norm": 15.375,
      "grad_norm_var": 0.4398274739583333,
      "learning_rate": 0.0003,
      "loss": 11.0067,
      "loss/aux_loss": 0.048067055828869346,
      "loss/crossentropy": 2.7100286722183227,
      "loss/logits": 0.8241377651691437,
      "step": 57330
    },
    {
      "epoch": 0.5734,
      "grad_norm": 14.75,
      "grad_norm_var": 1.8723307291666667,
      "learning_rate": 0.0003,
      "loss": 10.9345,
      "loss/aux_loss": 0.04808278437703848,
      "loss/crossentropy": 2.6721641540527346,
      "loss/logits": 0.8055184870958328,
      "step": 57340
    },
    {
      "epoch": 0.5735,
      "grad_norm": 18.625,
      "grad_norm_var": 2.445817057291667,
      "learning_rate": 0.0003,
      "loss": 10.886,
      "loss/aux_loss": 0.04806376602500677,
      "loss/crossentropy": 2.6517118215560913,
      "loss/logits": 0.8045364022254944,
      "step": 57350
    },
    {
      "epoch": 0.5736,
      "grad_norm": 13.875,
      "grad_norm_var": 1.1486979166666667,
      "learning_rate": 0.0003,
      "loss": 10.9331,
      "loss/aux_loss": 0.048079241439700125,
      "loss/crossentropy": 2.7825541257858277,
      "loss/logits": 0.8218899816274643,
      "step": 57360
    },
    {
      "epoch": 0.5737,
      "grad_norm": 15.6875,
      "grad_norm_var": 85.743212890625,
      "learning_rate": 0.0003,
      "loss": 10.9565,
      "loss/aux_loss": 0.0480652479454875,
      "loss/crossentropy": 2.707579892873764,
      "loss/logits": 0.82884761095047,
      "step": 57370
    },
    {
      "epoch": 0.5738,
      "grad_norm": 14.75,
      "grad_norm_var": 91.01847330729167,
      "learning_rate": 0.0003,
      "loss": 11.0795,
      "loss/aux_loss": 0.048074961826205256,
      "loss/crossentropy": 2.7413926482200623,
      "loss/logits": 0.7939124822616577,
      "step": 57380
    },
    {
      "epoch": 0.5739,
      "grad_norm": 14.75,
      "grad_norm_var": 2.615738932291667,
      "learning_rate": 0.0003,
      "loss": 10.9845,
      "loss/aux_loss": 0.04806408416479826,
      "loss/crossentropy": 2.707012790441513,
      "loss/logits": 0.830555847287178,
      "step": 57390
    },
    {
      "epoch": 0.574,
      "grad_norm": 13.875,
      "grad_norm_var": 0.516259765625,
      "learning_rate": 0.0003,
      "loss": 11.0791,
      "loss/aux_loss": 0.048079000785946846,
      "loss/crossentropy": 2.5664061307907104,
      "loss/logits": 0.7763120234012604,
      "step": 57400
    },
    {
      "epoch": 0.5741,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.56484375,
      "learning_rate": 0.0003,
      "loss": 11.137,
      "loss/aux_loss": 0.04807056300342083,
      "loss/crossentropy": 2.758346974849701,
      "loss/logits": 0.8242935687303543,
      "step": 57410
    },
    {
      "epoch": 0.5742,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.2916666666666667,
      "learning_rate": 0.0003,
      "loss": 10.9833,
      "loss/aux_loss": 0.04807440787553787,
      "loss/crossentropy": 2.6768109679222105,
      "loss/logits": 0.811660248041153,
      "step": 57420
    },
    {
      "epoch": 0.5743,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.4571451822916667,
      "learning_rate": 0.0003,
      "loss": 11.1252,
      "loss/aux_loss": 0.0480594988912344,
      "loss/crossentropy": 2.7542240738868715,
      "loss/logits": 0.8283898085355759,
      "step": 57430
    },
    {
      "epoch": 0.5744,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.39576822916666665,
      "learning_rate": 0.0003,
      "loss": 10.9843,
      "loss/aux_loss": 0.04808159470558167,
      "loss/crossentropy": 2.7614540815353394,
      "loss/logits": 0.8680014103651047,
      "step": 57440
    },
    {
      "epoch": 0.5745,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.1231770833333334,
      "learning_rate": 0.0003,
      "loss": 10.8306,
      "loss/aux_loss": 0.04807989429682493,
      "loss/crossentropy": 2.7385359168052674,
      "loss/logits": 0.8156585484743119,
      "step": 57450
    },
    {
      "epoch": 0.5746,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.28326822916666666,
      "learning_rate": 0.0003,
      "loss": 10.9561,
      "loss/aux_loss": 0.04805928226560354,
      "loss/crossentropy": 2.669804847240448,
      "loss/logits": 0.8256619513034821,
      "step": 57460
    },
    {
      "epoch": 0.5747,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.14889322916666667,
      "learning_rate": 0.0003,
      "loss": 10.9695,
      "loss/aux_loss": 0.04807625375688076,
      "loss/crossentropy": 2.615860992670059,
      "loss/logits": 0.8644401401281356,
      "step": 57470
    },
    {
      "epoch": 0.5748,
      "grad_norm": 50.25,
      "grad_norm_var": 77.43899739583334,
      "learning_rate": 0.0003,
      "loss": 11.2276,
      "loss/aux_loss": 0.0480669941753149,
      "loss/crossentropy": 2.826398515701294,
      "loss/logits": 0.8551149964332581,
      "step": 57480
    },
    {
      "epoch": 0.5749,
      "grad_norm": 14.8125,
      "grad_norm_var": 76.96354166666667,
      "learning_rate": 0.0003,
      "loss": 11.0055,
      "loss/aux_loss": 0.04806830994784832,
      "loss/crossentropy": 2.7592093706130982,
      "loss/logits": 0.8087594985961915,
      "step": 57490
    },
    {
      "epoch": 0.575,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.399072265625,
      "learning_rate": 0.0003,
      "loss": 11.0602,
      "loss/aux_loss": 0.04806661587208509,
      "loss/crossentropy": 2.6397600889205934,
      "loss/logits": 0.7925887256860733,
      "step": 57500
    },
    {
      "epoch": 0.5751,
      "grad_norm": 15.25,
      "grad_norm_var": 0.46990559895833334,
      "learning_rate": 0.0003,
      "loss": 11.14,
      "loss/aux_loss": 0.04806430134922266,
      "loss/crossentropy": 2.7477360010147094,
      "loss/logits": 0.8559922903776169,
      "step": 57510
    },
    {
      "epoch": 0.5752,
      "grad_norm": 14.375,
      "grad_norm_var": 1.5181640625,
      "learning_rate": 0.0003,
      "loss": 11.0349,
      "loss/aux_loss": 0.04808305911719799,
      "loss/crossentropy": 2.5889110445976256,
      "loss/logits": 0.8387425035238266,
      "step": 57520
    },
    {
      "epoch": 0.5753,
      "grad_norm": 15.875,
      "grad_norm_var": 1.505322265625,
      "learning_rate": 0.0003,
      "loss": 10.9867,
      "loss/aux_loss": 0.048064771480858325,
      "loss/crossentropy": 2.609954422712326,
      "loss/logits": 0.8136496782302857,
      "step": 57530
    },
    {
      "epoch": 0.5754,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.9311848958333333,
      "learning_rate": 0.0003,
      "loss": 11.0806,
      "loss/aux_loss": 0.04807123206555843,
      "loss/crossentropy": 2.7172460675239565,
      "loss/logits": 0.8387424349784851,
      "step": 57540
    },
    {
      "epoch": 0.5755,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.79453125,
      "learning_rate": 0.0003,
      "loss": 11.023,
      "loss/aux_loss": 0.04807838406413793,
      "loss/crossentropy": 2.702912151813507,
      "loss/logits": 0.8372643262147903,
      "step": 57550
    },
    {
      "epoch": 0.5756,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.3731770833333333,
      "learning_rate": 0.0003,
      "loss": 10.9375,
      "loss/aux_loss": 0.04806549474596977,
      "loss/crossentropy": 2.909746289253235,
      "loss/logits": 0.8345662504434586,
      "step": 57560
    },
    {
      "epoch": 0.5757,
      "grad_norm": 15.125,
      "grad_norm_var": 0.7208333333333333,
      "learning_rate": 0.0003,
      "loss": 10.9115,
      "loss/aux_loss": 0.04808139894157648,
      "loss/crossentropy": 2.558688461780548,
      "loss/logits": 0.8080873370170594,
      "step": 57570
    },
    {
      "epoch": 0.5758,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.42355143229166664,
      "learning_rate": 0.0003,
      "loss": 10.9426,
      "loss/aux_loss": 0.04807103350758553,
      "loss/crossentropy": 2.7293295919895173,
      "loss/logits": 0.8171383291482925,
      "step": 57580
    },
    {
      "epoch": 0.5759,
      "grad_norm": 16.0,
      "grad_norm_var": 1.1202473958333334,
      "learning_rate": 0.0003,
      "loss": 11.0332,
      "loss/aux_loss": 0.04807331319898367,
      "loss/crossentropy": 2.7175457954406737,
      "loss/logits": 0.8126596748828888,
      "step": 57590
    },
    {
      "epoch": 0.576,
      "grad_norm": 16.0,
      "grad_norm_var": 1.250634765625,
      "learning_rate": 0.0003,
      "loss": 11.0771,
      "loss/aux_loss": 0.04807139728218317,
      "loss/crossentropy": 2.728803825378418,
      "loss/logits": 0.8120762914419174,
      "step": 57600
    },
    {
      "epoch": 0.5761,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.6979166666666666,
      "learning_rate": 0.0003,
      "loss": 10.973,
      "loss/aux_loss": 0.04807168822735548,
      "loss/crossentropy": 2.6952412009239195,
      "loss/logits": 0.8491257846355438,
      "step": 57610
    },
    {
      "epoch": 0.5762,
      "grad_norm": 15.125,
      "grad_norm_var": 0.345556640625,
      "learning_rate": 0.0003,
      "loss": 10.8365,
      "loss/aux_loss": 0.048068418726325036,
      "loss/crossentropy": 2.651057040691376,
      "loss/logits": 0.7869156956672668,
      "step": 57620
    },
    {
      "epoch": 0.5763,
      "grad_norm": 22.0,
      "grad_norm_var": 3.711962890625,
      "learning_rate": 0.0003,
      "loss": 11.1586,
      "loss/aux_loss": 0.04807181134819984,
      "loss/crossentropy": 2.6818241477012634,
      "loss/logits": 0.8666929543018341,
      "step": 57630
    },
    {
      "epoch": 0.5764,
      "grad_norm": 15.1875,
      "grad_norm_var": 3.421875,
      "learning_rate": 0.0003,
      "loss": 11.0666,
      "loss/aux_loss": 0.0480666371062398,
      "loss/crossentropy": 2.6690493881702424,
      "loss/logits": 0.8045336902141571,
      "step": 57640
    },
    {
      "epoch": 0.5765,
      "grad_norm": 15.5,
      "grad_norm_var": 0.502978515625,
      "learning_rate": 0.0003,
      "loss": 11.1792,
      "loss/aux_loss": 0.04807822220027447,
      "loss/crossentropy": 2.7619189381599427,
      "loss/logits": 0.8294977605342865,
      "step": 57650
    },
    {
      "epoch": 0.5766,
      "grad_norm": 13.875,
      "grad_norm_var": 0.6133951822916667,
      "learning_rate": 0.0003,
      "loss": 10.9134,
      "loss/aux_loss": 0.04808087293058634,
      "loss/crossentropy": 2.7703096151351927,
      "loss/logits": 0.7943071156740189,
      "step": 57660
    },
    {
      "epoch": 0.5767,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.8546223958333333,
      "learning_rate": 0.0003,
      "loss": 10.9094,
      "loss/aux_loss": 0.048060201853513715,
      "loss/crossentropy": 2.537974363565445,
      "loss/logits": 0.7927771121263504,
      "step": 57670
    },
    {
      "epoch": 0.5768,
      "grad_norm": 15.875,
      "grad_norm_var": 0.7843098958333333,
      "learning_rate": 0.0003,
      "loss": 10.9885,
      "loss/aux_loss": 0.04805659111589193,
      "loss/crossentropy": 2.7599482774734496,
      "loss/logits": 0.8290839821100235,
      "step": 57680
    },
    {
      "epoch": 0.5769,
      "grad_norm": 15.5,
      "grad_norm_var": 92.83125,
      "learning_rate": 0.0003,
      "loss": 11.1651,
      "loss/aux_loss": 0.04809475895017386,
      "loss/crossentropy": 2.85399044752121,
      "loss/logits": 0.8747380167245865,
      "step": 57690
    },
    {
      "epoch": 0.577,
      "grad_norm": 16.375,
      "grad_norm_var": 42.48951822916667,
      "learning_rate": 0.0003,
      "loss": 11.2927,
      "loss/aux_loss": 0.048062573187053204,
      "loss/crossentropy": 2.8536964416503907,
      "loss/logits": 0.8355174720287323,
      "step": 57700
    },
    {
      "epoch": 0.5771,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.37890625,
      "learning_rate": 0.0003,
      "loss": 11.0133,
      "loss/aux_loss": 0.04806618671864271,
      "loss/crossentropy": 2.658688408136368,
      "loss/logits": 0.8183623373508453,
      "step": 57710
    },
    {
      "epoch": 0.5772,
      "grad_norm": 15.0,
      "grad_norm_var": 0.47076822916666666,
      "learning_rate": 0.0003,
      "loss": 10.9248,
      "loss/aux_loss": 0.04806567393243313,
      "loss/crossentropy": 2.682706815004349,
      "loss/logits": 0.8114593774080276,
      "step": 57720
    },
    {
      "epoch": 0.5773,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.7301432291666666,
      "learning_rate": 0.0003,
      "loss": 10.7614,
      "loss/aux_loss": 0.04807316064834595,
      "loss/crossentropy": 2.6830021500587464,
      "loss/logits": 0.8217417180538178,
      "step": 57730
    },
    {
      "epoch": 0.5774,
      "grad_norm": 14.375,
      "grad_norm_var": 0.46848958333333335,
      "learning_rate": 0.0003,
      "loss": 10.8117,
      "loss/aux_loss": 0.048069142177700995,
      "loss/crossentropy": 2.680797153711319,
      "loss/logits": 0.7941523939371109,
      "step": 57740
    },
    {
      "epoch": 0.5775,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.4583333333333333,
      "learning_rate": 0.0003,
      "loss": 10.8973,
      "loss/aux_loss": 0.048070931993424895,
      "loss/crossentropy": 2.7513445258140563,
      "loss/logits": 0.8205919414758682,
      "step": 57750
    },
    {
      "epoch": 0.5776,
      "grad_norm": 14.5,
      "grad_norm_var": 0.47537434895833336,
      "learning_rate": 0.0003,
      "loss": 11.0942,
      "loss/aux_loss": 0.04808807913213968,
      "loss/crossentropy": 2.708397227525711,
      "loss/logits": 0.7808063089847564,
      "step": 57760
    },
    {
      "epoch": 0.5777,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.385791015625,
      "learning_rate": 0.0003,
      "loss": 10.9057,
      "loss/aux_loss": 0.04805845711380243,
      "loss/crossentropy": 2.7761632323265077,
      "loss/logits": 0.8206240832805634,
      "step": 57770
    },
    {
      "epoch": 0.5778,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.806494140625,
      "learning_rate": 0.0003,
      "loss": 10.9635,
      "loss/aux_loss": 0.048069931007921694,
      "loss/crossentropy": 2.7127468466758726,
      "loss/logits": 0.8321121394634247,
      "step": 57780
    },
    {
      "epoch": 0.5779,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.6773274739583334,
      "learning_rate": 0.0003,
      "loss": 10.8796,
      "loss/aux_loss": 0.048075957037508485,
      "loss/crossentropy": 2.5557093918323517,
      "loss/logits": 0.7811422199010849,
      "step": 57790
    },
    {
      "epoch": 0.578,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.46087239583333334,
      "learning_rate": 0.0003,
      "loss": 11.0337,
      "loss/aux_loss": 0.048079724051058294,
      "loss/crossentropy": 2.7828991770744325,
      "loss/logits": 0.8361575275659561,
      "step": 57800
    },
    {
      "epoch": 0.5781,
      "grad_norm": 15.375,
      "grad_norm_var": 0.5171223958333333,
      "learning_rate": 0.0003,
      "loss": 10.7984,
      "loss/aux_loss": 0.04807369504123926,
      "loss/crossentropy": 2.767413020133972,
      "loss/logits": 0.7979224413633347,
      "step": 57810
    },
    {
      "epoch": 0.5782,
      "grad_norm": 15.5625,
      "grad_norm_var": 12.863997395833334,
      "learning_rate": 0.0003,
      "loss": 11.0843,
      "loss/aux_loss": 0.04807633981108665,
      "loss/crossentropy": 2.841790997982025,
      "loss/logits": 0.8295446068048478,
      "step": 57820
    },
    {
      "epoch": 0.5783,
      "grad_norm": 14.4375,
      "grad_norm_var": 11.975374348958333,
      "learning_rate": 0.0003,
      "loss": 11.0327,
      "loss/aux_loss": 0.04806151837110519,
      "loss/crossentropy": 2.8679856061935425,
      "loss/logits": 0.863958340883255,
      "step": 57830
    },
    {
      "epoch": 0.5784,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.6630208333333333,
      "learning_rate": 0.0003,
      "loss": 10.7655,
      "loss/aux_loss": 0.04806194268167019,
      "loss/crossentropy": 2.6133798182010652,
      "loss/logits": 0.8144498199224472,
      "step": 57840
    },
    {
      "epoch": 0.5785,
      "grad_norm": 14.625,
      "grad_norm_var": 0.43020833333333336,
      "learning_rate": 0.0003,
      "loss": 10.9158,
      "loss/aux_loss": 0.04808299690485,
      "loss/crossentropy": 2.5752854347229004,
      "loss/logits": 0.7725576773285866,
      "step": 57850
    },
    {
      "epoch": 0.5786,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.30078125,
      "learning_rate": 0.0003,
      "loss": 11.1358,
      "loss/aux_loss": 0.04805977363139391,
      "loss/crossentropy": 2.6507094621658327,
      "loss/logits": 0.8261604458093643,
      "step": 57860
    },
    {
      "epoch": 0.5787,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.7885416666666667,
      "learning_rate": 0.0003,
      "loss": 10.9286,
      "loss/aux_loss": 0.04806450437754393,
      "loss/crossentropy": 2.7155093371868135,
      "loss/logits": 0.8360859841108322,
      "step": 57870
    },
    {
      "epoch": 0.5788,
      "grad_norm": 14.75,
      "grad_norm_var": 2.076546223958333,
      "learning_rate": 0.0003,
      "loss": 11.0901,
      "loss/aux_loss": 0.048075138591229916,
      "loss/crossentropy": 2.7140918552875517,
      "loss/logits": 0.8228471457958222,
      "step": 57880
    },
    {
      "epoch": 0.5789,
      "grad_norm": 14.75,
      "grad_norm_var": 2.1946451822916666,
      "learning_rate": 0.0003,
      "loss": 11.0579,
      "loss/aux_loss": 0.048060869611799714,
      "loss/crossentropy": 2.7325907826423643,
      "loss/logits": 0.8381363540887833,
      "step": 57890
    },
    {
      "epoch": 0.579,
      "grad_norm": 14.75,
      "grad_norm_var": 0.9061848958333333,
      "learning_rate": 0.0003,
      "loss": 10.9924,
      "loss/aux_loss": 0.048078179731965064,
      "loss/crossentropy": 2.738635867834091,
      "loss/logits": 0.8476099342107772,
      "step": 57900
    },
    {
      "epoch": 0.5791,
      "grad_norm": 15.0,
      "grad_norm_var": 1.1124837239583334,
      "learning_rate": 0.0003,
      "loss": 10.9735,
      "loss/aux_loss": 0.048069071024656296,
      "loss/crossentropy": 2.8026002764701845,
      "loss/logits": 0.8490731894969941,
      "step": 57910
    },
    {
      "epoch": 0.5792,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.7389973958333333,
      "learning_rate": 0.0003,
      "loss": 11.034,
      "loss/aux_loss": 0.04806493632495403,
      "loss/crossentropy": 2.6233414888381956,
      "loss/logits": 0.8417493313550949,
      "step": 57920
    },
    {
      "epoch": 0.5793,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.7728515625,
      "learning_rate": 0.0003,
      "loss": 10.9387,
      "loss/aux_loss": 0.04806803483515978,
      "loss/crossentropy": 2.729952883720398,
      "loss/logits": 0.8270312875509263,
      "step": 57930
    },
    {
      "epoch": 0.5794,
      "grad_norm": 17.875,
      "grad_norm_var": 2.8348795572916665,
      "learning_rate": 0.0003,
      "loss": 11.1579,
      "loss/aux_loss": 0.04808615278452635,
      "loss/crossentropy": 2.733921545743942,
      "loss/logits": 0.8263924434781075,
      "step": 57940
    },
    {
      "epoch": 0.5795,
      "grad_norm": 14.5,
      "grad_norm_var": 0.916650390625,
      "learning_rate": 0.0003,
      "loss": 11.0477,
      "loss/aux_loss": 0.04806936271488667,
      "loss/crossentropy": 2.6277839660644533,
      "loss/logits": 0.8033677011728286,
      "step": 57950
    },
    {
      "epoch": 0.5796,
      "grad_norm": 15.125,
      "grad_norm_var": 0.39837239583333334,
      "learning_rate": 0.0003,
      "loss": 10.9133,
      "loss/aux_loss": 0.048060805164277555,
      "loss/crossentropy": 2.694873237609863,
      "loss/logits": 0.8217334061861038,
      "step": 57960
    },
    {
      "epoch": 0.5797,
      "grad_norm": 14.125,
      "grad_norm_var": 0.5139973958333334,
      "learning_rate": 0.0003,
      "loss": 10.9741,
      "loss/aux_loss": 0.04808518867939711,
      "loss/crossentropy": 2.6820975124835966,
      "loss/logits": 0.8232692778110504,
      "step": 57970
    },
    {
      "epoch": 0.5798,
      "grad_norm": 14.0,
      "grad_norm_var": 2.2020833333333334,
      "learning_rate": 0.0003,
      "loss": 11.1821,
      "loss/aux_loss": 0.04804998859763145,
      "loss/crossentropy": 2.7280581176280974,
      "loss/logits": 0.817136037349701,
      "step": 57980
    },
    {
      "epoch": 0.5799,
      "grad_norm": 16.625,
      "grad_norm_var": 3.3268229166666665,
      "learning_rate": 0.0003,
      "loss": 11.0193,
      "loss/aux_loss": 0.048069480992853644,
      "loss/crossentropy": 2.6904157042503356,
      "loss/logits": 0.8245778560638428,
      "step": 57990
    },
    {
      "epoch": 0.58,
      "grad_norm": 15.875,
      "grad_norm_var": 0.616259765625,
      "learning_rate": 0.0003,
      "loss": 11.0416,
      "loss/aux_loss": 0.048078110441565514,
      "loss/crossentropy": 2.7497189164161684,
      "loss/logits": 0.8141031920909881,
      "step": 58000
    },
    {
      "epoch": 0.5801,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.6343587239583334,
      "learning_rate": 0.0003,
      "loss": 10.8494,
      "loss/aux_loss": 0.048049984686076644,
      "loss/crossentropy": 2.655291825532913,
      "loss/logits": 0.7856258243322373,
      "step": 58010
    },
    {
      "epoch": 0.5802,
      "grad_norm": 14.75,
      "grad_norm_var": 2.2038899739583333,
      "learning_rate": 0.0003,
      "loss": 11.0884,
      "loss/aux_loss": 0.048076943308115,
      "loss/crossentropy": 2.606997859477997,
      "loss/logits": 0.8418209999799728,
      "step": 58020
    },
    {
      "epoch": 0.5803,
      "grad_norm": 14.875,
      "grad_norm_var": 2.009228515625,
      "learning_rate": 0.0003,
      "loss": 11.0585,
      "loss/aux_loss": 0.04807098638266325,
      "loss/crossentropy": 2.7810503602027894,
      "loss/logits": 0.8308149874210358,
      "step": 58030
    },
    {
      "epoch": 0.5804,
      "grad_norm": 14.75,
      "grad_norm_var": 1.2375,
      "learning_rate": 0.0003,
      "loss": 11.0071,
      "loss/aux_loss": 0.048070183396339415,
      "loss/crossentropy": 2.6167166888713838,
      "loss/logits": 0.8119976550340653,
      "step": 58040
    },
    {
      "epoch": 0.5805,
      "grad_norm": 13.4375,
      "grad_norm_var": 12.139957682291667,
      "learning_rate": 0.0003,
      "loss": 10.9504,
      "loss/aux_loss": 0.04809025507420302,
      "loss/crossentropy": 2.7787895798683167,
      "loss/logits": 0.8444702595472335,
      "step": 58050
    },
    {
      "epoch": 0.5806,
      "grad_norm": 15.625,
      "grad_norm_var": 0.7994140625,
      "learning_rate": 0.0003,
      "loss": 11.1034,
      "loss/aux_loss": 0.04807179775089025,
      "loss/crossentropy": 2.671674072742462,
      "loss/logits": 0.815391731262207,
      "step": 58060
    },
    {
      "epoch": 0.5807,
      "grad_norm": 15.5,
      "grad_norm_var": 0.4554524739583333,
      "learning_rate": 0.0003,
      "loss": 11.0592,
      "loss/aux_loss": 0.048074791021645066,
      "loss/crossentropy": 2.6951618790626526,
      "loss/logits": 0.856848555803299,
      "step": 58070
    },
    {
      "epoch": 0.5808,
      "grad_norm": 14.25,
      "grad_norm_var": 1.3780598958333334,
      "learning_rate": 0.0003,
      "loss": 10.9668,
      "loss/aux_loss": 0.048078453540802,
      "loss/crossentropy": 2.5765260636806486,
      "loss/logits": 0.8218820422887803,
      "step": 58080
    },
    {
      "epoch": 0.5809,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.4432291666666667,
      "learning_rate": 0.0003,
      "loss": 10.936,
      "loss/aux_loss": 0.04806906320154667,
      "loss/crossentropy": 2.7392422437667845,
      "loss/logits": 0.7855724722146988,
      "step": 58090
    },
    {
      "epoch": 0.581,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.762744140625,
      "learning_rate": 0.0003,
      "loss": 10.7023,
      "loss/aux_loss": 0.04807261452078819,
      "loss/crossentropy": 2.508842921257019,
      "loss/logits": 0.7834379196166992,
      "step": 58100
    },
    {
      "epoch": 0.5811,
      "grad_norm": 16.125,
      "grad_norm_var": 0.4356770833333333,
      "learning_rate": 0.0003,
      "loss": 11.0333,
      "loss/aux_loss": 0.0480639960616827,
      "loss/crossentropy": 2.576325136423111,
      "loss/logits": 0.7919742912054062,
      "step": 58110
    },
    {
      "epoch": 0.5812,
      "grad_norm": 16.0,
      "grad_norm_var": 1.0244140625,
      "learning_rate": 0.0003,
      "loss": 11.0291,
      "loss/aux_loss": 0.04808232747018337,
      "loss/crossentropy": 2.7864030063152314,
      "loss/logits": 0.8283389776945114,
      "step": 58120
    },
    {
      "epoch": 0.5813,
      "grad_norm": 17.75,
      "grad_norm_var": 1.7234375,
      "learning_rate": 0.0003,
      "loss": 11.0488,
      "loss/aux_loss": 0.04805902913212776,
      "loss/crossentropy": 2.7792890667915344,
      "loss/logits": 0.8295496284961701,
      "step": 58130
    },
    {
      "epoch": 0.5814,
      "grad_norm": 14.8125,
      "grad_norm_var": 1.323681640625,
      "learning_rate": 0.0003,
      "loss": 11.0617,
      "loss/aux_loss": 0.04808140993118286,
      "loss/crossentropy": 2.7483465135097505,
      "loss/logits": 0.8322425484657288,
      "step": 58140
    },
    {
      "epoch": 0.5815,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.75703125,
      "learning_rate": 0.0003,
      "loss": 11.0982,
      "loss/aux_loss": 0.048070278204977515,
      "loss/crossentropy": 2.9067394614219664,
      "loss/logits": 0.8337443679571152,
      "step": 58150
    },
    {
      "epoch": 0.5816,
      "grad_norm": 14.75,
      "grad_norm_var": 0.5151041666666667,
      "learning_rate": 0.0003,
      "loss": 10.9214,
      "loss/aux_loss": 0.0480665884912014,
      "loss/crossentropy": 2.706578928232193,
      "loss/logits": 0.8104908049106598,
      "step": 58160
    },
    {
      "epoch": 0.5817,
      "grad_norm": 16.375,
      "grad_norm_var": 1.6416015625,
      "learning_rate": 0.0003,
      "loss": 11.0962,
      "loss/aux_loss": 0.048067183792591096,
      "loss/crossentropy": 2.7630359292030335,
      "loss/logits": 0.8151145994663238,
      "step": 58170
    },
    {
      "epoch": 0.5818,
      "grad_norm": 13.625,
      "grad_norm_var": 2.781233723958333,
      "learning_rate": 0.0003,
      "loss": 10.9718,
      "loss/aux_loss": 0.048072848655283454,
      "loss/crossentropy": 2.6488034069538116,
      "loss/logits": 0.8012841731309891,
      "step": 58180
    },
    {
      "epoch": 0.5819,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.9555826822916667,
      "learning_rate": 0.0003,
      "loss": 10.9685,
      "loss/aux_loss": 0.0480765612795949,
      "loss/crossentropy": 2.7052852630615236,
      "loss/logits": 0.837667453289032,
      "step": 58190
    },
    {
      "epoch": 0.582,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.8645182291666667,
      "learning_rate": 0.0003,
      "loss": 11.076,
      "loss/aux_loss": 0.048066786117851736,
      "loss/crossentropy": 2.683205193281174,
      "loss/logits": 0.8363191336393356,
      "step": 58200
    },
    {
      "epoch": 0.5821,
      "grad_norm": 15.0,
      "grad_norm_var": 0.5692545572916666,
      "learning_rate": 0.0003,
      "loss": 10.8792,
      "loss/aux_loss": 0.04808394853025675,
      "loss/crossentropy": 2.706932079792023,
      "loss/logits": 0.8160331755876541,
      "step": 58210
    },
    {
      "epoch": 0.5822,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.7785807291666667,
      "learning_rate": 0.0003,
      "loss": 11.039,
      "loss/aux_loss": 0.04806770384311676,
      "loss/crossentropy": 2.781590723991394,
      "loss/logits": 0.8191991955041885,
      "step": 58220
    },
    {
      "epoch": 0.5823,
      "grad_norm": 15.5,
      "grad_norm_var": 0.8033854166666666,
      "learning_rate": 0.0003,
      "loss": 10.9915,
      "loss/aux_loss": 0.048082100600004195,
      "loss/crossentropy": 2.827639192342758,
      "loss/logits": 0.8229591697454453,
      "step": 58230
    },
    {
      "epoch": 0.5824,
      "grad_norm": 13.3125,
      "grad_norm_var": 4.969384765625,
      "learning_rate": 0.0003,
      "loss": 10.998,
      "loss/aux_loss": 0.0480662764981389,
      "loss/crossentropy": 2.6668840289115905,
      "loss/logits": 0.8254508256912232,
      "step": 58240
    },
    {
      "epoch": 0.5825,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.2660807291666667,
      "learning_rate": 0.0003,
      "loss": 10.9292,
      "loss/aux_loss": 0.04806844256818295,
      "loss/crossentropy": 2.786569392681122,
      "loss/logits": 0.831071189045906,
      "step": 58250
    },
    {
      "epoch": 0.5826,
      "grad_norm": 14.375,
      "grad_norm_var": 1.1525390625,
      "learning_rate": 0.0003,
      "loss": 11.0841,
      "loss/aux_loss": 0.048065231554210185,
      "loss/crossentropy": 2.6059127330780028,
      "loss/logits": 0.8094421774148941,
      "step": 58260
    },
    {
      "epoch": 0.5827,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.690087890625,
      "learning_rate": 0.0003,
      "loss": 10.9705,
      "loss/aux_loss": 0.048076927289366723,
      "loss/crossentropy": 2.7309110164642334,
      "loss/logits": 0.8249422818422317,
      "step": 58270
    },
    {
      "epoch": 0.5828,
      "grad_norm": 16.5,
      "grad_norm_var": 2.154150390625,
      "learning_rate": 0.0003,
      "loss": 11.0905,
      "loss/aux_loss": 0.04807541277259588,
      "loss/crossentropy": 2.6696152329444884,
      "loss/logits": 0.8134458005428314,
      "step": 58280
    },
    {
      "epoch": 0.5829,
      "grad_norm": 13.9375,
      "grad_norm_var": 2.66875,
      "learning_rate": 0.0003,
      "loss": 10.864,
      "loss/aux_loss": 0.048075484298169616,
      "loss/crossentropy": 2.60534029006958,
      "loss/logits": 0.8042290031909942,
      "step": 58290
    },
    {
      "epoch": 0.583,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.1087890625,
      "learning_rate": 0.0003,
      "loss": 11.0752,
      "loss/aux_loss": 0.04807412791997194,
      "loss/crossentropy": 2.669729250669479,
      "loss/logits": 0.8465682655572891,
      "step": 58300
    },
    {
      "epoch": 0.5831,
      "grad_norm": 14.875,
      "grad_norm_var": 0.42337239583333336,
      "learning_rate": 0.0003,
      "loss": 10.924,
      "loss/aux_loss": 0.04807706717401743,
      "loss/crossentropy": 2.641595256328583,
      "loss/logits": 0.8296791315078735,
      "step": 58310
    },
    {
      "epoch": 0.5832,
      "grad_norm": 15.25,
      "grad_norm_var": 0.48828125,
      "learning_rate": 0.0003,
      "loss": 11.086,
      "loss/aux_loss": 0.048067683912813665,
      "loss/crossentropy": 2.602385413646698,
      "loss/logits": 0.8127113878726959,
      "step": 58320
    },
    {
      "epoch": 0.5833,
      "grad_norm": 15.25,
      "grad_norm_var": 0.3636555989583333,
      "learning_rate": 0.0003,
      "loss": 11.0658,
      "loss/aux_loss": 0.04806897640228271,
      "loss/crossentropy": 2.675559568405151,
      "loss/logits": 0.8271180987358093,
      "step": 58330
    },
    {
      "epoch": 0.5834,
      "grad_norm": 15.0,
      "grad_norm_var": 0.08854166666666667,
      "learning_rate": 0.0003,
      "loss": 11.045,
      "loss/aux_loss": 0.04805998243391514,
      "loss/crossentropy": 2.7416910886764527,
      "loss/logits": 0.8429529070854187,
      "step": 58340
    },
    {
      "epoch": 0.5835,
      "grad_norm": 14.75,
      "grad_norm_var": 0.07810872395833333,
      "learning_rate": 0.0003,
      "loss": 10.9301,
      "loss/aux_loss": 0.048085011541843414,
      "loss/crossentropy": 2.5801856577396394,
      "loss/logits": 0.7824599385261536,
      "step": 58350
    },
    {
      "epoch": 0.5836,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.5702473958333333,
      "learning_rate": 0.0003,
      "loss": 10.9614,
      "loss/aux_loss": 0.04806315153837204,
      "loss/crossentropy": 2.7932356715202333,
      "loss/logits": 0.8210479527711868,
      "step": 58360
    },
    {
      "epoch": 0.5837,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.73828125,
      "learning_rate": 0.0003,
      "loss": 10.8114,
      "loss/aux_loss": 0.04807087611407042,
      "loss/crossentropy": 2.8822829246521,
      "loss/logits": 0.8095810860395432,
      "step": 58370
    },
    {
      "epoch": 0.5838,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.8700358072916666,
      "learning_rate": 0.0003,
      "loss": 10.9375,
      "loss/aux_loss": 0.04807416722178459,
      "loss/crossentropy": 2.850358772277832,
      "loss/logits": 0.849553844332695,
      "step": 58380
    },
    {
      "epoch": 0.5839,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.8473795572916667,
      "learning_rate": 0.0003,
      "loss": 10.9638,
      "loss/aux_loss": 0.04806542359292507,
      "loss/crossentropy": 2.8250136971473694,
      "loss/logits": 0.8444699108600616,
      "step": 58390
    },
    {
      "epoch": 0.584,
      "grad_norm": 16.25,
      "grad_norm_var": 3.767041015625,
      "learning_rate": 0.0003,
      "loss": 10.9255,
      "loss/aux_loss": 0.0480630787089467,
      "loss/crossentropy": 2.770486330986023,
      "loss/logits": 0.8150721251964569,
      "step": 58400
    },
    {
      "epoch": 0.5841,
      "grad_norm": 13.9375,
      "grad_norm_var": 3.655143229166667,
      "learning_rate": 0.0003,
      "loss": 10.9237,
      "loss/aux_loss": 0.048080130480229855,
      "loss/crossentropy": 2.77328075170517,
      "loss/logits": 0.8458864361047744,
      "step": 58410
    },
    {
      "epoch": 0.5842,
      "grad_norm": 15.5,
      "grad_norm_var": 0.5301432291666667,
      "learning_rate": 0.0003,
      "loss": 11.0029,
      "loss/aux_loss": 0.04805634468793869,
      "loss/crossentropy": 2.744527643918991,
      "loss/logits": 0.8247867822647095,
      "step": 58420
    },
    {
      "epoch": 0.5843,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.5108723958333333,
      "learning_rate": 0.0003,
      "loss": 10.9075,
      "loss/aux_loss": 0.04806449562311173,
      "loss/crossentropy": 2.7784756422042847,
      "loss/logits": 0.8371286004781723,
      "step": 58430
    },
    {
      "epoch": 0.5844,
      "grad_norm": 13.8125,
      "grad_norm_var": 1.1895833333333334,
      "learning_rate": 0.0003,
      "loss": 10.8034,
      "loss/aux_loss": 0.048080151155591014,
      "loss/crossentropy": 2.7118197083473206,
      "loss/logits": 0.8134770125150681,
      "step": 58440
    },
    {
      "epoch": 0.5845,
      "grad_norm": 14.375,
      "grad_norm_var": 1.2567057291666666,
      "learning_rate": 0.0003,
      "loss": 10.9606,
      "loss/aux_loss": 0.04806223269551992,
      "loss/crossentropy": 2.8520585894584656,
      "loss/logits": 0.8356281250715256,
      "step": 58450
    },
    {
      "epoch": 0.5846,
      "grad_norm": 16.5,
      "grad_norm_var": 0.9921712239583333,
      "learning_rate": 0.0003,
      "loss": 10.991,
      "loss/aux_loss": 0.04806670732796192,
      "loss/crossentropy": 2.7324011504650114,
      "loss/logits": 0.8266925632953643,
      "step": 58460
    },
    {
      "epoch": 0.5847,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.8575520833333333,
      "learning_rate": 0.0003,
      "loss": 10.9843,
      "loss/aux_loss": 0.04807538501918316,
      "loss/crossentropy": 2.647887235879898,
      "loss/logits": 0.820940124988556,
      "step": 58470
    },
    {
      "epoch": 0.5848,
      "grad_norm": 13.3125,
      "grad_norm_var": 1.0228515625,
      "learning_rate": 0.0003,
      "loss": 10.9996,
      "loss/aux_loss": 0.04807217437773943,
      "loss/crossentropy": 2.680449867248535,
      "loss/logits": 0.8432391703128814,
      "step": 58480
    },
    {
      "epoch": 0.5849,
      "grad_norm": 16.25,
      "grad_norm_var": 1.27421875,
      "learning_rate": 0.0003,
      "loss": 11.031,
      "loss/aux_loss": 0.04805920589715242,
      "loss/crossentropy": 2.7809171319007873,
      "loss/logits": 0.8145634055137634,
      "step": 58490
    },
    {
      "epoch": 0.585,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.3885416666666667,
      "learning_rate": 0.0003,
      "loss": 10.9707,
      "loss/aux_loss": 0.048078577220439914,
      "loss/crossentropy": 2.741816544532776,
      "loss/logits": 0.8448689103126525,
      "step": 58500
    },
    {
      "epoch": 0.5851,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.46295572916666666,
      "learning_rate": 0.0003,
      "loss": 10.9568,
      "loss/aux_loss": 0.048060483485460284,
      "loss/crossentropy": 2.691603738069534,
      "loss/logits": 0.8457825213670731,
      "step": 58510
    },
    {
      "epoch": 0.5852,
      "grad_norm": 14.8125,
      "grad_norm_var": 1.128759765625,
      "learning_rate": 0.0003,
      "loss": 10.9338,
      "loss/aux_loss": 0.04807424061000347,
      "loss/crossentropy": 2.6941749453544617,
      "loss/logits": 0.8350166887044906,
      "step": 58520
    },
    {
      "epoch": 0.5853,
      "grad_norm": 16.625,
      "grad_norm_var": 0.451806640625,
      "learning_rate": 0.0003,
      "loss": 11.0623,
      "loss/aux_loss": 0.04807107653468847,
      "loss/crossentropy": 2.8114802479743957,
      "loss/logits": 0.8427129536867142,
      "step": 58530
    },
    {
      "epoch": 0.5854,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.9030598958333333,
      "learning_rate": 0.0003,
      "loss": 11.0062,
      "loss/aux_loss": 0.04807313997298479,
      "loss/crossentropy": 2.673390966653824,
      "loss/logits": 0.8236012995243073,
      "step": 58540
    },
    {
      "epoch": 0.5855,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.0176432291666666,
      "learning_rate": 0.0003,
      "loss": 10.9709,
      "loss/aux_loss": 0.048067517951130866,
      "loss/crossentropy": 2.7362454771995544,
      "loss/logits": 0.8251888632774353,
      "step": 58550
    },
    {
      "epoch": 0.5856,
      "grad_norm": 16.625,
      "grad_norm_var": 1.235791015625,
      "learning_rate": 0.0003,
      "loss": 10.9647,
      "loss/aux_loss": 0.04807721339166164,
      "loss/crossentropy": 2.751077103614807,
      "loss/logits": 0.8136387556791306,
      "step": 58560
    },
    {
      "epoch": 0.5857,
      "grad_norm": 15.875,
      "grad_norm_var": 0.832666015625,
      "learning_rate": 0.0003,
      "loss": 11.0542,
      "loss/aux_loss": 0.048059957846999166,
      "loss/crossentropy": 2.695993906259537,
      "loss/logits": 0.8578321129083634,
      "step": 58570
    },
    {
      "epoch": 0.5858,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.3734375,
      "learning_rate": 0.0003,
      "loss": 10.9334,
      "loss/aux_loss": 0.0480723824352026,
      "loss/crossentropy": 2.636319124698639,
      "loss/logits": 0.8126176208257675,
      "step": 58580
    },
    {
      "epoch": 0.5859,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.6244140625,
      "learning_rate": 0.0003,
      "loss": 10.9793,
      "loss/aux_loss": 0.04807424917817116,
      "loss/crossentropy": 2.633167880773544,
      "loss/logits": 0.8149242758750915,
      "step": 58590
    },
    {
      "epoch": 0.586,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.7452473958333333,
      "learning_rate": 0.0003,
      "loss": 10.7418,
      "loss/aux_loss": 0.04807692859321833,
      "loss/crossentropy": 2.4629740476608277,
      "loss/logits": 0.7668499648571014,
      "step": 58600
    },
    {
      "epoch": 0.5861,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.6527180989583333,
      "learning_rate": 0.0003,
      "loss": 10.9786,
      "loss/aux_loss": 0.04806172419339418,
      "loss/crossentropy": 2.8479265451431273,
      "loss/logits": 0.8407178670167923,
      "step": 58610
    },
    {
      "epoch": 0.5862,
      "grad_norm": 15.125,
      "grad_norm_var": 0.5923014322916667,
      "learning_rate": 0.0003,
      "loss": 10.8859,
      "loss/aux_loss": 0.04807059057056904,
      "loss/crossentropy": 2.6659990191459655,
      "loss/logits": 0.814807391166687,
      "step": 58620
    },
    {
      "epoch": 0.5863,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.2994791666666667,
      "learning_rate": 0.0003,
      "loss": 10.9763,
      "loss/aux_loss": 0.0480600368231535,
      "loss/crossentropy": 2.7559759974479676,
      "loss/logits": 0.8363692253828049,
      "step": 58630
    },
    {
      "epoch": 0.5864,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.354541015625,
      "learning_rate": 0.0003,
      "loss": 10.9895,
      "loss/aux_loss": 0.048074362054467204,
      "loss/crossentropy": 2.8443562030792235,
      "loss/logits": 0.8306858450174331,
      "step": 58640
    },
    {
      "epoch": 0.5865,
      "grad_norm": 15.0,
      "grad_norm_var": 0.24777018229166667,
      "learning_rate": 0.0003,
      "loss": 10.9248,
      "loss/aux_loss": 0.04806084036827087,
      "loss/crossentropy": 2.7475152254104613,
      "loss/logits": 0.7995836168527604,
      "step": 58650
    },
    {
      "epoch": 0.5866,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.5483723958333333,
      "learning_rate": 0.0003,
      "loss": 10.921,
      "loss/aux_loss": 0.04807322192937136,
      "loss/crossentropy": 2.705971562862396,
      "loss/logits": 0.8364428788423538,
      "step": 58660
    },
    {
      "epoch": 0.5867,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.5433430989583333,
      "learning_rate": 0.0003,
      "loss": 10.9895,
      "loss/aux_loss": 0.04806621428579092,
      "loss/crossentropy": 2.723879784345627,
      "loss/logits": 0.8121023416519165,
      "step": 58670
    },
    {
      "epoch": 0.5868,
      "grad_norm": 15.5,
      "grad_norm_var": 0.8768229166666667,
      "learning_rate": 0.0003,
      "loss": 10.9435,
      "loss/aux_loss": 0.048067286051809786,
      "loss/crossentropy": 2.8236024498939516,
      "loss/logits": 0.8061568111181259,
      "step": 58680
    },
    {
      "epoch": 0.5869,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.5377604166666666,
      "learning_rate": 0.0003,
      "loss": 11.0705,
      "loss/aux_loss": 0.04807589165866375,
      "loss/crossentropy": 2.6578650951385496,
      "loss/logits": 0.822320407629013,
      "step": 58690
    },
    {
      "epoch": 0.587,
      "grad_norm": 15.25,
      "grad_norm_var": 3.528059895833333,
      "learning_rate": 0.0003,
      "loss": 10.9717,
      "loss/aux_loss": 0.04807302374392748,
      "loss/crossentropy": 2.7690295398235323,
      "loss/logits": 0.8380024790763855,
      "step": 58700
    },
    {
      "epoch": 0.5871,
      "grad_norm": 14.375,
      "grad_norm_var": 1.2687337239583334,
      "learning_rate": 0.0003,
      "loss": 10.9628,
      "loss/aux_loss": 0.04807158224284649,
      "loss/crossentropy": 2.642226552963257,
      "loss/logits": 0.8027304679155349,
      "step": 58710
    },
    {
      "epoch": 0.5872,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.4669270833333333,
      "learning_rate": 0.0003,
      "loss": 10.9551,
      "loss/aux_loss": 0.048065906204283235,
      "loss/crossentropy": 2.667159843444824,
      "loss/logits": 0.837336790561676,
      "step": 58720
    },
    {
      "epoch": 0.5873,
      "grad_norm": 15.25,
      "grad_norm_var": 0.6577473958333333,
      "learning_rate": 0.0003,
      "loss": 10.9683,
      "loss/aux_loss": 0.048073652759194375,
      "loss/crossentropy": 2.667749172449112,
      "loss/logits": 0.8197858512401581,
      "step": 58730
    },
    {
      "epoch": 0.5874,
      "grad_norm": 14.9375,
      "grad_norm_var": 6.6400390625,
      "learning_rate": 0.0003,
      "loss": 11.0102,
      "loss/aux_loss": 0.04808447286486626,
      "loss/crossentropy": 2.632328379154205,
      "loss/logits": 0.8462556928396225,
      "step": 58740
    },
    {
      "epoch": 0.5875,
      "grad_norm": 16.625,
      "grad_norm_var": 0.4176432291666667,
      "learning_rate": 0.0003,
      "loss": 10.9477,
      "loss/aux_loss": 0.048075118102133274,
      "loss/crossentropy": 2.7823431193828583,
      "loss/logits": 0.8039717346429824,
      "step": 58750
    },
    {
      "epoch": 0.5876,
      "grad_norm": 13.75,
      "grad_norm_var": 0.5447265625,
      "learning_rate": 0.0003,
      "loss": 10.968,
      "loss/aux_loss": 0.04806168247014284,
      "loss/crossentropy": 2.774631363153458,
      "loss/logits": 0.82295723259449,
      "step": 58760
    },
    {
      "epoch": 0.5877,
      "grad_norm": 14.0625,
      "grad_norm_var": 4.605582682291667,
      "learning_rate": 0.0003,
      "loss": 10.8307,
      "loss/aux_loss": 0.04806800838559866,
      "loss/crossentropy": 2.820412439107895,
      "loss/logits": 0.8312744557857513,
      "step": 58770
    },
    {
      "epoch": 0.5878,
      "grad_norm": 14.125,
      "grad_norm_var": 0.3238118489583333,
      "learning_rate": 0.0003,
      "loss": 10.9226,
      "loss/aux_loss": 0.04807846397161484,
      "loss/crossentropy": 2.5340620458126066,
      "loss/logits": 0.8130956321954728,
      "step": 58780
    },
    {
      "epoch": 0.5879,
      "grad_norm": 14.625,
      "grad_norm_var": 0.2986979166666667,
      "learning_rate": 0.0003,
      "loss": 10.9796,
      "loss/aux_loss": 0.048070663772523406,
      "loss/crossentropy": 2.617660069465637,
      "loss/logits": 0.7849185347557068,
      "step": 58790
    },
    {
      "epoch": 0.588,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.9128743489583333,
      "learning_rate": 0.0003,
      "loss": 11.0414,
      "loss/aux_loss": 0.048075301200151445,
      "loss/crossentropy": 2.7353998363018035,
      "loss/logits": 0.8277339696884155,
      "step": 58800
    },
    {
      "epoch": 0.5881,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.8166015625,
      "learning_rate": 0.0003,
      "loss": 10.9593,
      "loss/aux_loss": 0.04806892182677984,
      "loss/crossentropy": 2.720021104812622,
      "loss/logits": 0.8124103635549546,
      "step": 58810
    },
    {
      "epoch": 0.5882,
      "grad_norm": 16.25,
      "grad_norm_var": 0.705322265625,
      "learning_rate": 0.0003,
      "loss": 10.8535,
      "loss/aux_loss": 0.048067253082990646,
      "loss/crossentropy": 2.6595967948436736,
      "loss/logits": 0.7839356884360313,
      "step": 58820
    },
    {
      "epoch": 0.5883,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.604931640625,
      "learning_rate": 0.0003,
      "loss": 10.8844,
      "loss/aux_loss": 0.048070118948817256,
      "loss/crossentropy": 2.7247247993946075,
      "loss/logits": 0.7789757996797562,
      "step": 58830
    },
    {
      "epoch": 0.5884,
      "grad_norm": 15.5625,
      "grad_norm_var": 1.5989420572916666,
      "learning_rate": 0.0003,
      "loss": 10.8944,
      "loss/aux_loss": 0.04808255434036255,
      "loss/crossentropy": 2.4786873877048494,
      "loss/logits": 0.7954070687294006,
      "step": 58840
    },
    {
      "epoch": 0.5885,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.150634765625,
      "learning_rate": 0.0003,
      "loss": 10.7977,
      "loss/aux_loss": 0.04806720409542322,
      "loss/crossentropy": 2.6936080753803253,
      "loss/logits": 0.8249445348978043,
      "step": 58850
    },
    {
      "epoch": 0.5886,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.6049479166666667,
      "learning_rate": 0.0003,
      "loss": 10.92,
      "loss/aux_loss": 0.04806901291012764,
      "loss/crossentropy": 2.748962438106537,
      "loss/logits": 0.840557438135147,
      "step": 58860
    },
    {
      "epoch": 0.5887,
      "grad_norm": 16.0,
      "grad_norm_var": 0.7219889322916667,
      "learning_rate": 0.0003,
      "loss": 10.963,
      "loss/aux_loss": 0.04807457271963358,
      "loss/crossentropy": 2.7299853801727294,
      "loss/logits": 0.8568669199943543,
      "step": 58870
    },
    {
      "epoch": 0.5888,
      "grad_norm": 14.4375,
      "grad_norm_var": 1.1009765625,
      "learning_rate": 0.0003,
      "loss": 10.9833,
      "loss/aux_loss": 0.0480708921328187,
      "loss/crossentropy": 2.6630140364170076,
      "loss/logits": 0.8391565322875977,
      "step": 58880
    },
    {
      "epoch": 0.5889,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.5079264322916667,
      "learning_rate": 0.0003,
      "loss": 10.7613,
      "loss/aux_loss": 0.0480732224881649,
      "loss/crossentropy": 2.6498291552066804,
      "loss/logits": 0.8057867288589478,
      "step": 58890
    },
    {
      "epoch": 0.589,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.2921712239583334,
      "learning_rate": 0.0003,
      "loss": 10.9393,
      "loss/aux_loss": 0.04806382786482573,
      "loss/crossentropy": 2.706892067193985,
      "loss/logits": 0.8239340364933014,
      "step": 58900
    },
    {
      "epoch": 0.5891,
      "grad_norm": 15.25,
      "grad_norm_var": 0.4327473958333333,
      "learning_rate": 0.0003,
      "loss": 11.2523,
      "loss/aux_loss": 0.04806530307978392,
      "loss/crossentropy": 2.5392131090164183,
      "loss/logits": 0.802097937464714,
      "step": 58910
    },
    {
      "epoch": 0.5892,
      "grad_norm": 16.0,
      "grad_norm_var": 103.838525390625,
      "learning_rate": 0.0003,
      "loss": 11.1054,
      "loss/aux_loss": 0.048078567162156104,
      "loss/crossentropy": 2.7394894659519196,
      "loss/logits": 0.8429781794548035,
      "step": 58920
    },
    {
      "epoch": 0.5893,
      "grad_norm": 16.875,
      "grad_norm_var": 101.1806640625,
      "learning_rate": 0.0003,
      "loss": 11.0567,
      "loss/aux_loss": 0.04806540366262198,
      "loss/crossentropy": 2.717589294910431,
      "loss/logits": 0.8201171487569809,
      "step": 58930
    },
    {
      "epoch": 0.5894,
      "grad_norm": 16.0,
      "grad_norm_var": 1.0885416666666667,
      "learning_rate": 0.0003,
      "loss": 10.9065,
      "loss/aux_loss": 0.04806985668838024,
      "loss/crossentropy": 2.721989232301712,
      "loss/logits": 0.8106504052877426,
      "step": 58940
    },
    {
      "epoch": 0.5895,
      "grad_norm": 14.375,
      "grad_norm_var": 0.3611979166666667,
      "learning_rate": 0.0003,
      "loss": 11.0415,
      "loss/aux_loss": 0.04806645512580872,
      "loss/crossentropy": 2.7016734063625334,
      "loss/logits": 0.8152611821889877,
      "step": 58950
    },
    {
      "epoch": 0.5896,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.5468098958333333,
      "learning_rate": 0.0003,
      "loss": 10.9485,
      "loss/aux_loss": 0.04806891251355409,
      "loss/crossentropy": 2.62559455037117,
      "loss/logits": 0.8271364778280258,
      "step": 58960
    },
    {
      "epoch": 0.5897,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.3322265625,
      "learning_rate": 0.0003,
      "loss": 11.052,
      "loss/aux_loss": 0.04806600380688906,
      "loss/crossentropy": 2.737446331977844,
      "loss/logits": 0.8194819182157517,
      "step": 58970
    },
    {
      "epoch": 0.5898,
      "grad_norm": 16.375,
      "grad_norm_var": 0.439697265625,
      "learning_rate": 0.0003,
      "loss": 11.0957,
      "loss/aux_loss": 0.04807234760373831,
      "loss/crossentropy": 2.760717141628265,
      "loss/logits": 0.8376249551773072,
      "step": 58980
    },
    {
      "epoch": 0.5899,
      "grad_norm": 14.875,
      "grad_norm_var": 1.3390462239583334,
      "learning_rate": 0.0003,
      "loss": 11.0902,
      "loss/aux_loss": 0.04807633645832539,
      "loss/crossentropy": 2.7784714460372926,
      "loss/logits": 0.8507242858409881,
      "step": 58990
    },
    {
      "epoch": 0.59,
      "grad_norm": 15.8125,
      "grad_norm_var": 1.2333170572916667,
      "learning_rate": 0.0003,
      "loss": 10.9738,
      "loss/aux_loss": 0.048075743950903416,
      "loss/crossentropy": 2.634059315919876,
      "loss/logits": 0.8007471144199372,
      "step": 59000
    },
    {
      "epoch": 0.5901,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.501416015625,
      "learning_rate": 0.0003,
      "loss": 10.8689,
      "loss/aux_loss": 0.048068515583872796,
      "loss/crossentropy": 2.646367919445038,
      "loss/logits": 0.7871147692203522,
      "step": 59010
    },
    {
      "epoch": 0.5902,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.6884765625,
      "learning_rate": 0.0003,
      "loss": 11.0153,
      "loss/aux_loss": 0.04807483684271574,
      "loss/crossentropy": 2.8454954862594604,
      "loss/logits": 0.8256110936403275,
      "step": 59020
    },
    {
      "epoch": 0.5903,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.595947265625,
      "learning_rate": 0.0003,
      "loss": 10.7911,
      "loss/aux_loss": 0.04806120917201042,
      "loss/crossentropy": 2.7482463240623476,
      "loss/logits": 0.8132666110992431,
      "step": 59030
    },
    {
      "epoch": 0.5904,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.685400390625,
      "learning_rate": 0.0003,
      "loss": 10.9159,
      "loss/aux_loss": 0.04806686472147703,
      "loss/crossentropy": 2.742703366279602,
      "loss/logits": 0.8217089116573334,
      "step": 59040
    },
    {
      "epoch": 0.5905,
      "grad_norm": 14.25,
      "grad_norm_var": 0.917431640625,
      "learning_rate": 0.0003,
      "loss": 10.9354,
      "loss/aux_loss": 0.048080751299858095,
      "loss/crossentropy": 2.7598276495933534,
      "loss/logits": 0.8276279777288437,
      "step": 59050
    },
    {
      "epoch": 0.5906,
      "grad_norm": 16.0,
      "grad_norm_var": 0.8372233072916667,
      "learning_rate": 0.0003,
      "loss": 11.1481,
      "loss/aux_loss": 0.048068036511540416,
      "loss/crossentropy": 2.5435283482074738,
      "loss/logits": 0.8292164400219917,
      "step": 59060
    },
    {
      "epoch": 0.5907,
      "grad_norm": 15.5,
      "grad_norm_var": 0.3714680989583333,
      "learning_rate": 0.0003,
      "loss": 11.13,
      "loss/aux_loss": 0.048066299967467786,
      "loss/crossentropy": 2.531124544143677,
      "loss/logits": 0.8264132618904114,
      "step": 59070
    },
    {
      "epoch": 0.5908,
      "grad_norm": 16.125,
      "grad_norm_var": 0.4212890625,
      "learning_rate": 0.0003,
      "loss": 11.0672,
      "loss/aux_loss": 0.0480706337839365,
      "loss/crossentropy": 2.7756115198135376,
      "loss/logits": 0.8168632984161377,
      "step": 59080
    },
    {
      "epoch": 0.5909,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.2400390625,
      "learning_rate": 0.0003,
      "loss": 10.966,
      "loss/aux_loss": 0.048072228021919725,
      "loss/crossentropy": 2.5596219480037687,
      "loss/logits": 0.8085451662540436,
      "step": 59090
    },
    {
      "epoch": 0.591,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.41795247395833335,
      "learning_rate": 0.0003,
      "loss": 11.0411,
      "loss/aux_loss": 0.04807391669601202,
      "loss/crossentropy": 2.7747272551059723,
      "loss/logits": 0.8068033158779144,
      "step": 59100
    },
    {
      "epoch": 0.5911,
      "grad_norm": 16.625,
      "grad_norm_var": 0.5026041666666666,
      "learning_rate": 0.0003,
      "loss": 11.0439,
      "loss/aux_loss": 0.048057069256901744,
      "loss/crossentropy": 2.8529131174087525,
      "loss/logits": 0.8054678052663803,
      "step": 59110
    },
    {
      "epoch": 0.5912,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.3973795572916667,
      "learning_rate": 0.0003,
      "loss": 10.8576,
      "loss/aux_loss": 0.04808417148888111,
      "loss/crossentropy": 2.5729918599128725,
      "loss/logits": 0.7877096027135849,
      "step": 59120
    },
    {
      "epoch": 0.5913,
      "grad_norm": 15.125,
      "grad_norm_var": 0.5738118489583334,
      "learning_rate": 0.0003,
      "loss": 11.054,
      "loss/aux_loss": 0.048090359196066856,
      "loss/crossentropy": 2.69580699801445,
      "loss/logits": 0.8433273226022721,
      "step": 59130
    },
    {
      "epoch": 0.5914,
      "grad_norm": 15.625,
      "grad_norm_var": 0.3301920572916667,
      "learning_rate": 0.0003,
      "loss": 10.8815,
      "loss/aux_loss": 0.04807056300342083,
      "loss/crossentropy": 2.615113401412964,
      "loss/logits": 0.8006851255893708,
      "step": 59140
    },
    {
      "epoch": 0.5915,
      "grad_norm": 15.0,
      "grad_norm_var": 0.3577473958333333,
      "learning_rate": 0.0003,
      "loss": 10.8658,
      "loss/aux_loss": 0.04805748388171196,
      "loss/crossentropy": 2.775008863210678,
      "loss/logits": 0.803268751502037,
      "step": 59150
    },
    {
      "epoch": 0.5916,
      "grad_norm": 15.75,
      "grad_norm_var": 0.7499837239583333,
      "learning_rate": 0.0003,
      "loss": 10.9147,
      "loss/aux_loss": 0.04807665143162012,
      "loss/crossentropy": 2.7489787578582763,
      "loss/logits": 0.8320010215044021,
      "step": 59160
    },
    {
      "epoch": 0.5917,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.4718587239583334,
      "learning_rate": 0.0003,
      "loss": 11.1376,
      "loss/aux_loss": 0.048068560846149924,
      "loss/crossentropy": 2.8063846230506897,
      "loss/logits": 0.8416935801506042,
      "step": 59170
    },
    {
      "epoch": 0.5918,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.0505045572916667,
      "learning_rate": 0.0003,
      "loss": 11.1433,
      "loss/aux_loss": 0.04806650020182133,
      "loss/crossentropy": 2.7465264439582824,
      "loss/logits": 0.8265712201595307,
      "step": 59180
    },
    {
      "epoch": 0.5919,
      "grad_norm": 14.625,
      "grad_norm_var": 0.20859375,
      "learning_rate": 0.0003,
      "loss": 11.0092,
      "loss/aux_loss": 0.04806997440755367,
      "loss/crossentropy": 2.7317902624607084,
      "loss/logits": 0.829322350025177,
      "step": 59190
    },
    {
      "epoch": 0.592,
      "grad_norm": 15.75,
      "grad_norm_var": 0.5913899739583334,
      "learning_rate": 0.0003,
      "loss": 11.1233,
      "loss/aux_loss": 0.048072732985019684,
      "loss/crossentropy": 2.736423373222351,
      "loss/logits": 0.8223551511764526,
      "step": 59200
    },
    {
      "epoch": 0.5921,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.7077473958333333,
      "learning_rate": 0.0003,
      "loss": 10.9564,
      "loss/aux_loss": 0.04806751888245344,
      "loss/crossentropy": 2.719071865081787,
      "loss/logits": 0.8144007086753845,
      "step": 59210
    },
    {
      "epoch": 0.5922,
      "grad_norm": 14.5,
      "grad_norm_var": 0.599072265625,
      "learning_rate": 0.0003,
      "loss": 11.0542,
      "loss/aux_loss": 0.04806646332144737,
      "loss/crossentropy": 2.6371989250183105,
      "loss/logits": 0.8028866291046143,
      "step": 59220
    },
    {
      "epoch": 0.5923,
      "grad_norm": 14.625,
      "grad_norm_var": 0.6218587239583333,
      "learning_rate": 0.0003,
      "loss": 11.05,
      "loss/aux_loss": 0.048065362870693205,
      "loss/crossentropy": 2.739983332157135,
      "loss/logits": 0.8592475086450577,
      "step": 59230
    },
    {
      "epoch": 0.5924,
      "grad_norm": 14.3125,
      "grad_norm_var": 5.140348307291666,
      "learning_rate": 0.0003,
      "loss": 11.0626,
      "loss/aux_loss": 0.04808344319462776,
      "loss/crossentropy": 2.6779512405395507,
      "loss/logits": 0.8342467457056045,
      "step": 59240
    },
    {
      "epoch": 0.5925,
      "grad_norm": 15.625,
      "grad_norm_var": 0.465087890625,
      "learning_rate": 0.0003,
      "loss": 10.6864,
      "loss/aux_loss": 0.04806926678866148,
      "loss/crossentropy": 2.6925257742404938,
      "loss/logits": 0.7975740045309067,
      "step": 59250
    },
    {
      "epoch": 0.5926,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.4261555989583333,
      "learning_rate": 0.0003,
      "loss": 10.9838,
      "loss/aux_loss": 0.04807133283466101,
      "loss/crossentropy": 2.6862433731555937,
      "loss/logits": 0.830639323592186,
      "step": 59260
    },
    {
      "epoch": 0.5927,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.607666015625,
      "learning_rate": 0.0003,
      "loss": 10.9802,
      "loss/aux_loss": 0.048060860484838486,
      "loss/crossentropy": 2.6332711696624758,
      "loss/logits": 0.8140772134065628,
      "step": 59270
    },
    {
      "epoch": 0.5928,
      "grad_norm": 15.5,
      "grad_norm_var": 0.642431640625,
      "learning_rate": 0.0003,
      "loss": 10.9915,
      "loss/aux_loss": 0.048063439317047596,
      "loss/crossentropy": 2.647914093732834,
      "loss/logits": 0.8220590710639953,
      "step": 59280
    },
    {
      "epoch": 0.5929,
      "grad_norm": 15.375,
      "grad_norm_var": 2.2627604166666666,
      "learning_rate": 0.0003,
      "loss": 11.0782,
      "loss/aux_loss": 0.048079627007246016,
      "loss/crossentropy": 2.739602434635162,
      "loss/logits": 0.846561822295189,
      "step": 59290
    },
    {
      "epoch": 0.593,
      "grad_norm": 16.25,
      "grad_norm_var": 2.2085774739583335,
      "learning_rate": 0.0003,
      "loss": 10.979,
      "loss/aux_loss": 0.04806938376277685,
      "loss/crossentropy": 2.6843549072742463,
      "loss/logits": 0.7924599975347519,
      "step": 59300
    },
    {
      "epoch": 0.5931,
      "grad_norm": 33.25,
      "grad_norm_var": 21.649462890625,
      "learning_rate": 0.0003,
      "loss": 10.8709,
      "loss/aux_loss": 0.04807360116392374,
      "loss/crossentropy": 2.6454947888851166,
      "loss/logits": 0.7973768830299377,
      "step": 59310
    },
    {
      "epoch": 0.5932,
      "grad_norm": 14.8125,
      "grad_norm_var": 21.169775390625,
      "learning_rate": 0.0003,
      "loss": 10.9825,
      "loss/aux_loss": 0.048061652667820455,
      "loss/crossentropy": 2.8345079243183138,
      "loss/logits": 0.8396099478006362,
      "step": 59320
    },
    {
      "epoch": 0.5933,
      "grad_norm": 13.875,
      "grad_norm_var": 0.815625,
      "learning_rate": 0.0003,
      "loss": 10.9579,
      "loss/aux_loss": 0.04807075336575508,
      "loss/crossentropy": 2.7278249740600584,
      "loss/logits": 0.8078439980745316,
      "step": 59330
    },
    {
      "epoch": 0.5934,
      "grad_norm": 15.0,
      "grad_norm_var": 0.859375,
      "learning_rate": 0.0003,
      "loss": 10.9258,
      "loss/aux_loss": 0.04808927923440933,
      "loss/crossentropy": 2.647115594148636,
      "loss/logits": 0.8381874442100525,
      "step": 59340
    },
    {
      "epoch": 0.5935,
      "grad_norm": 15.5625,
      "grad_norm_var": 1.0649576822916667,
      "learning_rate": 0.0003,
      "loss": 10.9276,
      "loss/aux_loss": 0.04806491620838642,
      "loss/crossentropy": 2.760968017578125,
      "loss/logits": 0.813837793469429,
      "step": 59350
    },
    {
      "epoch": 0.5936,
      "grad_norm": 14.125,
      "grad_norm_var": 0.940087890625,
      "learning_rate": 0.0003,
      "loss": 10.8929,
      "loss/aux_loss": 0.048059547506272796,
      "loss/crossentropy": 2.728524845838547,
      "loss/logits": 0.816395303606987,
      "step": 59360
    },
    {
      "epoch": 0.5937,
      "grad_norm": 15.75,
      "grad_norm_var": 0.6927083333333334,
      "learning_rate": 0.0003,
      "loss": 11.1686,
      "loss/aux_loss": 0.04809366017580032,
      "loss/crossentropy": 2.576079845428467,
      "loss/logits": 0.8472390443086624,
      "step": 59370
    },
    {
      "epoch": 0.5938,
      "grad_norm": 14.25,
      "grad_norm_var": 0.6554524739583333,
      "learning_rate": 0.0003,
      "loss": 10.8931,
      "loss/aux_loss": 0.048058745451271534,
      "loss/crossentropy": 2.5764957904815673,
      "loss/logits": 0.7882023543119431,
      "step": 59380
    },
    {
      "epoch": 0.5939,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5186848958333333,
      "learning_rate": 0.0003,
      "loss": 10.8687,
      "loss/aux_loss": 0.04806121941655874,
      "loss/crossentropy": 2.4873786866664886,
      "loss/logits": 0.8160700887441635,
      "step": 59390
    },
    {
      "epoch": 0.594,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5051432291666667,
      "learning_rate": 0.0003,
      "loss": 10.8354,
      "loss/aux_loss": 0.04808267336338758,
      "loss/crossentropy": 2.715548413991928,
      "loss/logits": 0.8030152201652527,
      "step": 59400
    },
    {
      "epoch": 0.5941,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.8432291666666667,
      "learning_rate": 0.0003,
      "loss": 10.7494,
      "loss/aux_loss": 0.04806729760020971,
      "loss/crossentropy": 2.5783600986003874,
      "loss/logits": 0.775664460659027,
      "step": 59410
    },
    {
      "epoch": 0.5942,
      "grad_norm": 15.375,
      "grad_norm_var": 0.728125,
      "learning_rate": 0.0003,
      "loss": 10.9819,
      "loss/aux_loss": 0.04807338900864124,
      "loss/crossentropy": 2.7407156348228456,
      "loss/logits": 0.8106876760721207,
      "step": 59420
    },
    {
      "epoch": 0.5943,
      "grad_norm": 16.75,
      "grad_norm_var": 0.7608723958333333,
      "learning_rate": 0.0003,
      "loss": 11.1629,
      "loss/aux_loss": 0.048071779869496824,
      "loss/crossentropy": 2.7402497112751005,
      "loss/logits": 0.8036000728607178,
      "step": 59430
    },
    {
      "epoch": 0.5944,
      "grad_norm": 15.125,
      "grad_norm_var": 1.547509765625,
      "learning_rate": 0.0003,
      "loss": 10.9178,
      "loss/aux_loss": 0.04806051217019558,
      "loss/crossentropy": 2.725063371658325,
      "loss/logits": 0.8170418709516525,
      "step": 59440
    },
    {
      "epoch": 0.5945,
      "grad_norm": 16.125,
      "grad_norm_var": 0.7936848958333333,
      "learning_rate": 0.0003,
      "loss": 11.0313,
      "loss/aux_loss": 0.04807902853935957,
      "loss/crossentropy": 2.6812859654426573,
      "loss/logits": 0.8411592811346054,
      "step": 59450
    },
    {
      "epoch": 0.5946,
      "grad_norm": 15.375,
      "grad_norm_var": 0.5328125,
      "learning_rate": 0.0003,
      "loss": 10.8673,
      "loss/aux_loss": 0.04806883670389652,
      "loss/crossentropy": 2.526155251264572,
      "loss/logits": 0.7790047436952591,
      "step": 59460
    },
    {
      "epoch": 0.5947,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.6650390625,
      "learning_rate": 0.0003,
      "loss": 11.0563,
      "loss/aux_loss": 0.04805390052497387,
      "loss/crossentropy": 2.714101165533066,
      "loss/logits": 0.8301648050546646,
      "step": 59470
    },
    {
      "epoch": 0.5948,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.21555989583333332,
      "learning_rate": 0.0003,
      "loss": 11.0729,
      "loss/aux_loss": 0.04807809926569462,
      "loss/crossentropy": 2.582643520832062,
      "loss/logits": 0.8132951408624649,
      "step": 59480
    },
    {
      "epoch": 0.5949,
      "grad_norm": 15.625,
      "grad_norm_var": 0.6773274739583334,
      "learning_rate": 0.0003,
      "loss": 11.2003,
      "loss/aux_loss": 0.04807939510792494,
      "loss/crossentropy": 2.8899078488349916,
      "loss/logits": 0.8984211206436157,
      "step": 59490
    },
    {
      "epoch": 0.595,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.4994140625,
      "learning_rate": 0.0003,
      "loss": 10.8003,
      "loss/aux_loss": 0.048056123591959474,
      "loss/crossentropy": 2.657677114009857,
      "loss/logits": 0.8166221141815185,
      "step": 59500
    },
    {
      "epoch": 0.5951,
      "grad_norm": 15.0,
      "grad_norm_var": 1.293212890625,
      "learning_rate": 0.0003,
      "loss": 10.9127,
      "loss/aux_loss": 0.04807478673756123,
      "loss/crossentropy": 2.618022048473358,
      "loss/logits": 0.829986622929573,
      "step": 59510
    },
    {
      "epoch": 0.5952,
      "grad_norm": 14.5,
      "grad_norm_var": 0.6301920572916667,
      "learning_rate": 0.0003,
      "loss": 10.9695,
      "loss/aux_loss": 0.0480778394266963,
      "loss/crossentropy": 2.6219813764095306,
      "loss/logits": 0.8168375045061111,
      "step": 59520
    },
    {
      "epoch": 0.5953,
      "grad_norm": 14.6875,
      "grad_norm_var": 14.586393229166667,
      "learning_rate": 0.0003,
      "loss": 11.0956,
      "loss/aux_loss": 0.0480570949614048,
      "loss/crossentropy": 2.6230372488498688,
      "loss/logits": 0.7977444887161255,
      "step": 59530
    },
    {
      "epoch": 0.5954,
      "grad_norm": 13.875,
      "grad_norm_var": 0.9593098958333334,
      "learning_rate": 0.0003,
      "loss": 10.9874,
      "loss/aux_loss": 0.04807024523615837,
      "loss/crossentropy": 2.7767493963241576,
      "loss/logits": 0.8549789160490036,
      "step": 59540
    },
    {
      "epoch": 0.5955,
      "grad_norm": 14.75,
      "grad_norm_var": 0.9890625,
      "learning_rate": 0.0003,
      "loss": 10.9328,
      "loss/aux_loss": 0.048075405322015284,
      "loss/crossentropy": 2.8718122959136965,
      "loss/logits": 0.8272106260061264,
      "step": 59550
    },
    {
      "epoch": 0.5956,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.9208333333333333,
      "learning_rate": 0.0003,
      "loss": 10.7519,
      "loss/aux_loss": 0.04805839378386736,
      "loss/crossentropy": 2.621040326356888,
      "loss/logits": 0.8079787522554398,
      "step": 59560
    },
    {
      "epoch": 0.5957,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.563916015625,
      "learning_rate": 0.0003,
      "loss": 10.9413,
      "loss/aux_loss": 0.048068532906472686,
      "loss/crossentropy": 2.7320153057575225,
      "loss/logits": 0.8291085928678512,
      "step": 59570
    },
    {
      "epoch": 0.5958,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.435400390625,
      "learning_rate": 0.0003,
      "loss": 11.059,
      "loss/aux_loss": 0.048074721731245516,
      "loss/crossentropy": 2.596713310480118,
      "loss/logits": 0.8409205973148346,
      "step": 59580
    },
    {
      "epoch": 0.5959,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.33513997395833334,
      "learning_rate": 0.0003,
      "loss": 11.0557,
      "loss/aux_loss": 0.04807321783155203,
      "loss/crossentropy": 2.7819936752319334,
      "loss/logits": 0.835452938079834,
      "step": 59590
    },
    {
      "epoch": 0.596,
      "grad_norm": 15.4375,
      "grad_norm_var": 2.527604166666667,
      "learning_rate": 0.0003,
      "loss": 10.9209,
      "loss/aux_loss": 0.04806660022586584,
      "loss/crossentropy": 2.7568194687366487,
      "loss/logits": 0.8260948032140731,
      "step": 59600
    },
    {
      "epoch": 0.5961,
      "grad_norm": 14.625,
      "grad_norm_var": 0.7150390625,
      "learning_rate": 0.0003,
      "loss": 11.0103,
      "loss/aux_loss": 0.04807510152459145,
      "loss/crossentropy": 2.743026089668274,
      "loss/logits": 0.8484435856342316,
      "step": 59610
    },
    {
      "epoch": 0.5962,
      "grad_norm": 15.5,
      "grad_norm_var": 0.7692057291666666,
      "learning_rate": 0.0003,
      "loss": 10.9734,
      "loss/aux_loss": 0.04806904960423708,
      "loss/crossentropy": 2.553094118833542,
      "loss/logits": 0.7921933591365814,
      "step": 59620
    },
    {
      "epoch": 0.5963,
      "grad_norm": 13.8125,
      "grad_norm_var": 0.4197265625,
      "learning_rate": 0.0003,
      "loss": 10.8507,
      "loss/aux_loss": 0.048070012219250204,
      "loss/crossentropy": 2.620549178123474,
      "loss/logits": 0.8065012693405151,
      "step": 59630
    },
    {
      "epoch": 0.5964,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.51875,
      "learning_rate": 0.0003,
      "loss": 11.0665,
      "loss/aux_loss": 0.048063849285244944,
      "loss/crossentropy": 2.7524186074733734,
      "loss/logits": 0.8217565357685089,
      "step": 59640
    },
    {
      "epoch": 0.5965,
      "grad_norm": 16.625,
      "grad_norm_var": 0.3515625,
      "learning_rate": 0.0003,
      "loss": 10.9902,
      "loss/aux_loss": 0.04806663002818823,
      "loss/crossentropy": 2.8480568647384645,
      "loss/logits": 0.8349178761243821,
      "step": 59650
    },
    {
      "epoch": 0.5966,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.368603515625,
      "learning_rate": 0.0003,
      "loss": 11.0885,
      "loss/aux_loss": 0.04807380642741919,
      "loss/crossentropy": 2.7424690067768096,
      "loss/logits": 0.8472974270582199,
      "step": 59660
    },
    {
      "epoch": 0.5967,
      "grad_norm": 15.375,
      "grad_norm_var": 0.24869791666666666,
      "learning_rate": 0.0003,
      "loss": 11.0736,
      "loss/aux_loss": 0.04807511363178492,
      "loss/crossentropy": 2.7169342398643495,
      "loss/logits": 0.8267938494682312,
      "step": 59670
    },
    {
      "epoch": 0.5968,
      "grad_norm": 15.5,
      "grad_norm_var": 0.6700520833333333,
      "learning_rate": 0.0003,
      "loss": 11.1724,
      "loss/aux_loss": 0.048063908331096174,
      "loss/crossentropy": 2.7714505553245545,
      "loss/logits": 0.8535281270742416,
      "step": 59680
    },
    {
      "epoch": 0.5969,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5930826822916667,
      "learning_rate": 0.0003,
      "loss": 10.8832,
      "loss/aux_loss": 0.048075766302645206,
      "loss/crossentropy": 2.607689690589905,
      "loss/logits": 0.8187483072280883,
      "step": 59690
    },
    {
      "epoch": 0.597,
      "grad_norm": 16.375,
      "grad_norm_var": 0.46243489583333336,
      "learning_rate": 0.0003,
      "loss": 11.0849,
      "loss/aux_loss": 0.048065418377518654,
      "loss/crossentropy": 2.779401385784149,
      "loss/logits": 0.8177706062793731,
      "step": 59700
    },
    {
      "epoch": 0.5971,
      "grad_norm": 16.0,
      "grad_norm_var": 0.4337890625,
      "learning_rate": 0.0003,
      "loss": 11.0411,
      "loss/aux_loss": 0.04806800279766321,
      "loss/crossentropy": 2.6941158711910247,
      "loss/logits": 0.8276149153709411,
      "step": 59710
    },
    {
      "epoch": 0.5972,
      "grad_norm": 14.75,
      "grad_norm_var": 0.475,
      "learning_rate": 0.0003,
      "loss": 11.0057,
      "loss/aux_loss": 0.04807844683527947,
      "loss/crossentropy": 2.7109430134296417,
      "loss/logits": 0.8097800493240357,
      "step": 59720
    },
    {
      "epoch": 0.5973,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.7171223958333334,
      "learning_rate": 0.0003,
      "loss": 10.9658,
      "loss/aux_loss": 0.0480660380795598,
      "loss/crossentropy": 2.6846647441387175,
      "loss/logits": 0.8089656233787537,
      "step": 59730
    },
    {
      "epoch": 0.5974,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.8059895833333334,
      "learning_rate": 0.0003,
      "loss": 10.9255,
      "loss/aux_loss": 0.04807507041841745,
      "loss/crossentropy": 2.693540346622467,
      "loss/logits": 0.835108283162117,
      "step": 59740
    },
    {
      "epoch": 0.5975,
      "grad_norm": 16.5,
      "grad_norm_var": 0.428125,
      "learning_rate": 0.0003,
      "loss": 10.8601,
      "loss/aux_loss": 0.048072214052081105,
      "loss/crossentropy": 2.6454875826835633,
      "loss/logits": 0.8485147625207901,
      "step": 59750
    },
    {
      "epoch": 0.5976,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.9978515625,
      "learning_rate": 0.0003,
      "loss": 11.0293,
      "loss/aux_loss": 0.04806381613016129,
      "loss/crossentropy": 2.784002923965454,
      "loss/logits": 0.823991322517395,
      "step": 59760
    },
    {
      "epoch": 0.5977,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.25857747395833336,
      "learning_rate": 0.0003,
      "loss": 10.8259,
      "loss/aux_loss": 0.04807265438139439,
      "loss/crossentropy": 2.801326608657837,
      "loss/logits": 0.8200320184230805,
      "step": 59770
    },
    {
      "epoch": 0.5978,
      "grad_norm": 16.125,
      "grad_norm_var": 0.47146809895833336,
      "learning_rate": 0.0003,
      "loss": 10.9737,
      "loss/aux_loss": 0.04808081742376089,
      "loss/crossentropy": 2.856343114376068,
      "loss/logits": 0.8455061435699462,
      "step": 59780
    },
    {
      "epoch": 0.5979,
      "grad_norm": 18.125,
      "grad_norm_var": 1.2893229166666667,
      "learning_rate": 0.0003,
      "loss": 10.998,
      "loss/aux_loss": 0.048059838637709615,
      "loss/crossentropy": 2.553582340478897,
      "loss/logits": 0.7986224472522736,
      "step": 59790
    },
    {
      "epoch": 0.598,
      "grad_norm": 14.875,
      "grad_norm_var": 0.927978515625,
      "learning_rate": 0.0003,
      "loss": 11.0234,
      "loss/aux_loss": 0.048071127571165564,
      "loss/crossentropy": 2.8242238759994507,
      "loss/logits": 0.8418795853853226,
      "step": 59800
    },
    {
      "epoch": 0.5981,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.2869140625,
      "learning_rate": 0.0003,
      "loss": 11.054,
      "loss/aux_loss": 0.04806619361042976,
      "loss/crossentropy": 2.7367840886116026,
      "loss/logits": 0.8270297706127167,
      "step": 59810
    },
    {
      "epoch": 0.5982,
      "grad_norm": 16.0,
      "grad_norm_var": 0.9035807291666667,
      "learning_rate": 0.0003,
      "loss": 10.8816,
      "loss/aux_loss": 0.048074010014534,
      "loss/crossentropy": 2.5995913684368133,
      "loss/logits": 0.843637329339981,
      "step": 59820
    },
    {
      "epoch": 0.5983,
      "grad_norm": 16.125,
      "grad_norm_var": 0.842431640625,
      "learning_rate": 0.0003,
      "loss": 10.9971,
      "loss/aux_loss": 0.04806699063628912,
      "loss/crossentropy": 2.66332545876503,
      "loss/logits": 0.7995132386684418,
      "step": 59830
    },
    {
      "epoch": 0.5984,
      "grad_norm": 14.0,
      "grad_norm_var": 1.2426432291666667,
      "learning_rate": 0.0003,
      "loss": 10.9088,
      "loss/aux_loss": 0.048076143860816954,
      "loss/crossentropy": 2.6590377569198607,
      "loss/logits": 0.8228894799947739,
      "step": 59840
    },
    {
      "epoch": 0.5985,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.6864420572916666,
      "learning_rate": 0.0003,
      "loss": 11.0308,
      "loss/aux_loss": 0.04806055724620819,
      "loss/crossentropy": 2.734611225128174,
      "loss/logits": 0.8257469087839127,
      "step": 59850
    },
    {
      "epoch": 0.5986,
      "grad_norm": 13.6875,
      "grad_norm_var": 0.5270670572916667,
      "learning_rate": 0.0003,
      "loss": 10.9778,
      "loss/aux_loss": 0.048079499416053294,
      "loss/crossentropy": 2.8724292278289796,
      "loss/logits": 0.8287100523710251,
      "step": 59860
    },
    {
      "epoch": 0.5987,
      "grad_norm": 14.9375,
      "grad_norm_var": 2.584619140625,
      "learning_rate": 0.0003,
      "loss": 10.8757,
      "loss/aux_loss": 0.04806960113346577,
      "loss/crossentropy": 2.723463845252991,
      "loss/logits": 0.834690722823143,
      "step": 59870
    },
    {
      "epoch": 0.5988,
      "grad_norm": 16.625,
      "grad_norm_var": 1.8973307291666666,
      "learning_rate": 0.0003,
      "loss": 10.9234,
      "loss/aux_loss": 0.04806802999228239,
      "loss/crossentropy": 2.785686802864075,
      "loss/logits": 0.8314568728208542,
      "step": 59880
    },
    {
      "epoch": 0.5989,
      "grad_norm": 16.375,
      "grad_norm_var": 0.5518229166666667,
      "learning_rate": 0.0003,
      "loss": 10.9717,
      "loss/aux_loss": 0.04806967880576849,
      "loss/crossentropy": 2.7029653549194337,
      "loss/logits": 0.8201411485671997,
      "step": 59890
    },
    {
      "epoch": 0.599,
      "grad_norm": 16.125,
      "grad_norm_var": 0.5994140625,
      "learning_rate": 0.0003,
      "loss": 11.0052,
      "loss/aux_loss": 0.048081204667687415,
      "loss/crossentropy": 2.783577024936676,
      "loss/logits": 0.8226085513830185,
      "step": 59900
    },
    {
      "epoch": 0.5991,
      "grad_norm": 15.25,
      "grad_norm_var": 0.7863118489583333,
      "learning_rate": 0.0003,
      "loss": 11.0765,
      "loss/aux_loss": 0.0480691323056817,
      "loss/crossentropy": 2.6739238142967223,
      "loss/logits": 0.8000189930200576,
      "step": 59910
    },
    {
      "epoch": 0.5992,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5018229166666667,
      "learning_rate": 0.0003,
      "loss": 10.948,
      "loss/aux_loss": 0.04806508179754019,
      "loss/crossentropy": 2.732639729976654,
      "loss/logits": 0.8182629913091659,
      "step": 59920
    },
    {
      "epoch": 0.5993,
      "grad_norm": 14.625,
      "grad_norm_var": 0.42233072916666664,
      "learning_rate": 0.0003,
      "loss": 10.9416,
      "loss/aux_loss": 0.04808191284537315,
      "loss/crossentropy": 2.773883467912674,
      "loss/logits": 0.8407058566808701,
      "step": 59930
    },
    {
      "epoch": 0.5994,
      "grad_norm": 15.625,
      "grad_norm_var": 0.33904622395833334,
      "learning_rate": 0.0003,
      "loss": 10.982,
      "loss/aux_loss": 0.04807113688439131,
      "loss/crossentropy": 2.7120142698287966,
      "loss/logits": 0.8165002167224884,
      "step": 59940
    },
    {
      "epoch": 0.5995,
      "grad_norm": 15.75,
      "grad_norm_var": 0.39993489583333336,
      "learning_rate": 0.0003,
      "loss": 10.9997,
      "loss/aux_loss": 0.04807593729346991,
      "loss/crossentropy": 2.646089047193527,
      "loss/logits": 0.8073794126510621,
      "step": 59950
    },
    {
      "epoch": 0.5996,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.32928059895833334,
      "learning_rate": 0.0003,
      "loss": 11.0826,
      "loss/aux_loss": 0.048062044009566304,
      "loss/crossentropy": 2.8690964460372923,
      "loss/logits": 0.8507906019687652,
      "step": 59960
    },
    {
      "epoch": 0.5997,
      "grad_norm": 15.25,
      "grad_norm_var": 0.365869140625,
      "learning_rate": 0.0003,
      "loss": 10.9892,
      "loss/aux_loss": 0.048076673224568364,
      "loss/crossentropy": 2.638966166973114,
      "loss/logits": 0.8349994659423828,
      "step": 59970
    },
    {
      "epoch": 0.5998,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5264973958333333,
      "learning_rate": 0.0003,
      "loss": 10.9127,
      "loss/aux_loss": 0.0480753380805254,
      "loss/crossentropy": 2.7292301952838898,
      "loss/logits": 0.8326119810342789,
      "step": 59980
    },
    {
      "epoch": 0.5999,
      "grad_norm": 15.0,
      "grad_norm_var": 0.39479166666666665,
      "learning_rate": 0.0003,
      "loss": 11.0337,
      "loss/aux_loss": 0.04805723261088133,
      "loss/crossentropy": 2.7440689623355867,
      "loss/logits": 0.8415668040513993,
      "step": 59990
    },
    {
      "epoch": 0.6,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.41847330729166665,
      "learning_rate": 0.0003,
      "loss": 11.1506,
      "loss/aux_loss": 0.04806195814162493,
      "loss/crossentropy": 2.7931241512298586,
      "loss/logits": 0.8480271577835083,
      "step": 60000
    },
    {
      "epoch": 0.6001,
      "grad_norm": 14.6875,
      "grad_norm_var": 3.018684895833333,
      "learning_rate": 0.0003,
      "loss": 10.8942,
      "loss/aux_loss": 0.04808544497936964,
      "loss/crossentropy": 2.8031197428703307,
      "loss/logits": 0.8436632961034775,
      "step": 60010
    },
    {
      "epoch": 0.6002,
      "grad_norm": 14.375,
      "grad_norm_var": 0.6575358072916667,
      "learning_rate": 0.0003,
      "loss": 11.009,
      "loss/aux_loss": 0.048070221580564974,
      "loss/crossentropy": 2.835988187789917,
      "loss/logits": 0.8101363390684128,
      "step": 60020
    },
    {
      "epoch": 0.6003,
      "grad_norm": 17.625,
      "grad_norm_var": 0.9681640625,
      "learning_rate": 0.0003,
      "loss": 11.0825,
      "loss/aux_loss": 0.04806274306029081,
      "loss/crossentropy": 2.634697949886322,
      "loss/logits": 0.8300037115812302,
      "step": 60030
    },
    {
      "epoch": 0.6004,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.369775390625,
      "learning_rate": 0.0003,
      "loss": 10.8961,
      "loss/aux_loss": 0.04807508382946253,
      "loss/crossentropy": 2.7980096697807313,
      "loss/logits": 0.8517778217792511,
      "step": 60040
    },
    {
      "epoch": 0.6005,
      "grad_norm": 15.6875,
      "grad_norm_var": 1.1749348958333334,
      "learning_rate": 0.0003,
      "loss": 10.8726,
      "loss/aux_loss": 0.048068697564303875,
      "loss/crossentropy": 2.5798544883728027,
      "loss/logits": 0.7742179721593857,
      "step": 60050
    },
    {
      "epoch": 0.6006,
      "grad_norm": 16.625,
      "grad_norm_var": 1.3494791666666666,
      "learning_rate": 0.0003,
      "loss": 11.0209,
      "loss/aux_loss": 0.0480728967115283,
      "loss/crossentropy": 2.7089627504348757,
      "loss/logits": 0.8144480526447296,
      "step": 60060
    },
    {
      "epoch": 0.6007,
      "grad_norm": 15.25,
      "grad_norm_var": 1.4589680989583333,
      "learning_rate": 0.0003,
      "loss": 10.7924,
      "loss/aux_loss": 0.04806405883282423,
      "loss/crossentropy": 2.63613708615303,
      "loss/logits": 0.82077776491642,
      "step": 60070
    },
    {
      "epoch": 0.6008,
      "grad_norm": 14.625,
      "grad_norm_var": 0.13214518229166666,
      "learning_rate": 0.0003,
      "loss": 10.8491,
      "loss/aux_loss": 0.04806582164019346,
      "loss/crossentropy": 2.709311383962631,
      "loss/logits": 0.8013584047555924,
      "step": 60080
    },
    {
      "epoch": 0.6009,
      "grad_norm": 14.75,
      "grad_norm_var": 0.383837890625,
      "learning_rate": 0.0003,
      "loss": 11.0591,
      "loss/aux_loss": 0.04806982241570949,
      "loss/crossentropy": 2.7307440638542175,
      "loss/logits": 0.8089520663022995,
      "step": 60090
    },
    {
      "epoch": 0.601,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.47552083333333334,
      "learning_rate": 0.0003,
      "loss": 11.0038,
      "loss/aux_loss": 0.04807723425328732,
      "loss/crossentropy": 2.713645851612091,
      "loss/logits": 0.8089924275875091,
      "step": 60100
    },
    {
      "epoch": 0.6011,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.0103515625,
      "learning_rate": 0.0003,
      "loss": 10.8574,
      "loss/aux_loss": 0.0480644965544343,
      "loss/crossentropy": 2.7398121774196627,
      "loss/logits": 0.8082275360822677,
      "step": 60110
    },
    {
      "epoch": 0.6012,
      "grad_norm": 15.375,
      "grad_norm_var": 0.6893229166666667,
      "learning_rate": 0.0003,
      "loss": 10.923,
      "loss/aux_loss": 0.04806880187243223,
      "loss/crossentropy": 2.7813449084758757,
      "loss/logits": 0.8685790807008743,
      "step": 60120
    },
    {
      "epoch": 0.6013,
      "grad_norm": 14.25,
      "grad_norm_var": 0.377587890625,
      "learning_rate": 0.0003,
      "loss": 11.167,
      "loss/aux_loss": 0.04805507734417915,
      "loss/crossentropy": 2.8507793068885805,
      "loss/logits": 0.8408539682626724,
      "step": 60130
    },
    {
      "epoch": 0.6014,
      "grad_norm": 16.25,
      "grad_norm_var": 0.5222493489583333,
      "learning_rate": 0.0003,
      "loss": 10.9877,
      "loss/aux_loss": 0.048066430166363715,
      "loss/crossentropy": 2.662059265375137,
      "loss/logits": 0.8354754239320755,
      "step": 60140
    },
    {
      "epoch": 0.6015,
      "grad_norm": 14.875,
      "grad_norm_var": 1.5430826822916666,
      "learning_rate": 0.0003,
      "loss": 11.0714,
      "loss/aux_loss": 0.04806972537189722,
      "loss/crossentropy": 2.728497040271759,
      "loss/logits": 0.8564503043889999,
      "step": 60150
    },
    {
      "epoch": 0.6016,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.3777180989583333,
      "learning_rate": 0.0003,
      "loss": 10.8885,
      "loss/aux_loss": 0.0480747090652585,
      "loss/crossentropy": 2.6242256700992583,
      "loss/logits": 0.8221401393413543,
      "step": 60160
    },
    {
      "epoch": 0.6017,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.440869140625,
      "learning_rate": 0.0003,
      "loss": 10.9851,
      "loss/aux_loss": 0.04808126259595156,
      "loss/crossentropy": 2.571116214990616,
      "loss/logits": 0.8445754140615463,
      "step": 60170
    },
    {
      "epoch": 0.6018,
      "grad_norm": 15.125,
      "grad_norm_var": 0.6421875,
      "learning_rate": 0.0003,
      "loss": 11.1588,
      "loss/aux_loss": 0.0480703953653574,
      "loss/crossentropy": 2.6313143491744997,
      "loss/logits": 0.8429572701454162,
      "step": 60180
    },
    {
      "epoch": 0.6019,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.4825358072916667,
      "learning_rate": 0.0003,
      "loss": 10.9319,
      "loss/aux_loss": 0.048066435009241106,
      "loss/crossentropy": 2.470182943344116,
      "loss/logits": 0.7674608916044235,
      "step": 60190
    },
    {
      "epoch": 0.602,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.5676920572916667,
      "learning_rate": 0.0003,
      "loss": 10.865,
      "loss/aux_loss": 0.048062361776828766,
      "loss/crossentropy": 2.652854871749878,
      "loss/logits": 0.8476852804422379,
      "step": 60200
    },
    {
      "epoch": 0.6021,
      "grad_norm": 15.75,
      "grad_norm_var": 0.644775390625,
      "learning_rate": 0.0003,
      "loss": 10.9103,
      "loss/aux_loss": 0.04806744400411844,
      "loss/crossentropy": 2.886264109611511,
      "loss/logits": 0.8491258502006531,
      "step": 60210
    },
    {
      "epoch": 0.6022,
      "grad_norm": 16.25,
      "grad_norm_var": 15.070947265625,
      "learning_rate": 0.0003,
      "loss": 10.9318,
      "loss/aux_loss": 0.048081173188984395,
      "loss/crossentropy": 2.7197977185249327,
      "loss/logits": 0.8118861824274063,
      "step": 60220
    },
    {
      "epoch": 0.6023,
      "grad_norm": 16.875,
      "grad_norm_var": 15.35703125,
      "learning_rate": 0.0003,
      "loss": 10.8425,
      "loss/aux_loss": 0.04807243477553129,
      "loss/crossentropy": 2.675804728269577,
      "loss/logits": 0.7933743417263031,
      "step": 60230
    },
    {
      "epoch": 0.6024,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.8639973958333333,
      "learning_rate": 0.0003,
      "loss": 10.9663,
      "loss/aux_loss": 0.048066473379731176,
      "loss/crossentropy": 2.5603831708431244,
      "loss/logits": 0.8213741898536682,
      "step": 60240
    },
    {
      "epoch": 0.6025,
      "grad_norm": 14.75,
      "grad_norm_var": 0.6863932291666667,
      "learning_rate": 0.0003,
      "loss": 11.0783,
      "loss/aux_loss": 0.04807442165911198,
      "loss/crossentropy": 2.759167742729187,
      "loss/logits": 0.8260885119438172,
      "step": 60250
    },
    {
      "epoch": 0.6026,
      "grad_norm": 15.625,
      "grad_norm_var": 0.44724934895833335,
      "learning_rate": 0.0003,
      "loss": 10.9391,
      "loss/aux_loss": 0.048061834275722505,
      "loss/crossentropy": 2.830324959754944,
      "loss/logits": 0.8341899156570435,
      "step": 60260
    },
    {
      "epoch": 0.6027,
      "grad_norm": 14.125,
      "grad_norm_var": 0.5426432291666666,
      "learning_rate": 0.0003,
      "loss": 10.9735,
      "loss/aux_loss": 0.04807800371199846,
      "loss/crossentropy": 2.710289627313614,
      "loss/logits": 0.8235593348741531,
      "step": 60270
    },
    {
      "epoch": 0.6028,
      "grad_norm": 12.9375,
      "grad_norm_var": 0.8927083333333333,
      "learning_rate": 0.0003,
      "loss": 10.8861,
      "loss/aux_loss": 0.04806134235113859,
      "loss/crossentropy": 2.702167409658432,
      "loss/logits": 0.8340632915496826,
      "step": 60280
    },
    {
      "epoch": 0.6029,
      "grad_norm": 15.875,
      "grad_norm_var": 1.0098307291666666,
      "learning_rate": 0.0003,
      "loss": 10.9902,
      "loss/aux_loss": 0.04806969091296196,
      "loss/crossentropy": 2.7321683406829833,
      "loss/logits": 0.834402334690094,
      "step": 60290
    },
    {
      "epoch": 0.603,
      "grad_norm": 15.625,
      "grad_norm_var": 0.6902180989583333,
      "learning_rate": 0.0003,
      "loss": 10.9249,
      "loss/aux_loss": 0.048069990053772924,
      "loss/crossentropy": 2.5171724021434785,
      "loss/logits": 0.7993605226278305,
      "step": 60300
    },
    {
      "epoch": 0.6031,
      "grad_norm": 14.0,
      "grad_norm_var": 0.43605143229166665,
      "learning_rate": 0.0003,
      "loss": 10.9595,
      "loss/aux_loss": 0.04806102756410837,
      "loss/crossentropy": 2.707091200351715,
      "loss/logits": 0.8481060534715652,
      "step": 60310
    },
    {
      "epoch": 0.6032,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.2884765625,
      "learning_rate": 0.0003,
      "loss": 10.9526,
      "loss/aux_loss": 0.04808544833213091,
      "loss/crossentropy": 2.7442154586315155,
      "loss/logits": 0.8329938769340515,
      "step": 60320
    },
    {
      "epoch": 0.6033,
      "grad_norm": 17.125,
      "grad_norm_var": 0.6363118489583334,
      "learning_rate": 0.0003,
      "loss": 10.8661,
      "loss/aux_loss": 0.04806406293064356,
      "loss/crossentropy": 2.511446052789688,
      "loss/logits": 0.8104943811893464,
      "step": 60330
    },
    {
      "epoch": 0.6034,
      "grad_norm": 15.375,
      "grad_norm_var": 0.9984375,
      "learning_rate": 0.0003,
      "loss": 10.7618,
      "loss/aux_loss": 0.04807962328195572,
      "loss/crossentropy": 2.5813129425048826,
      "loss/logits": 0.8011042684316635,
      "step": 60340
    },
    {
      "epoch": 0.6035,
      "grad_norm": 16.0,
      "grad_norm_var": 0.7387858072916667,
      "learning_rate": 0.0003,
      "loss": 11.0578,
      "loss/aux_loss": 0.04808678813278675,
      "loss/crossentropy": 2.71219407916069,
      "loss/logits": 0.8353963553905487,
      "step": 60350
    },
    {
      "epoch": 0.6036,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.5567708333333333,
      "learning_rate": 0.0003,
      "loss": 10.9285,
      "loss/aux_loss": 0.048061441816389563,
      "loss/crossentropy": 2.757435607910156,
      "loss/logits": 0.8533197224140168,
      "step": 60360
    },
    {
      "epoch": 0.6037,
      "grad_norm": 15.0,
      "grad_norm_var": 0.30514322916666664,
      "learning_rate": 0.0003,
      "loss": 10.9645,
      "loss/aux_loss": 0.04807481989264488,
      "loss/crossentropy": 2.685833466053009,
      "loss/logits": 0.8134330004453659,
      "step": 60370
    },
    {
      "epoch": 0.6038,
      "grad_norm": 15.25,
      "grad_norm_var": 0.3848795572916667,
      "learning_rate": 0.0003,
      "loss": 11.053,
      "loss/aux_loss": 0.04806959424167871,
      "loss/crossentropy": 2.602872520685196,
      "loss/logits": 0.8216569721698761,
      "step": 60380
    },
    {
      "epoch": 0.6039,
      "grad_norm": 14.125,
      "grad_norm_var": 0.6390462239583333,
      "learning_rate": 0.0003,
      "loss": 10.9354,
      "loss/aux_loss": 0.04806573148816824,
      "loss/crossentropy": 2.7883040606975555,
      "loss/logits": 0.8433178305625916,
      "step": 60390
    },
    {
      "epoch": 0.604,
      "grad_norm": 15.625,
      "grad_norm_var": 0.424853515625,
      "learning_rate": 0.0003,
      "loss": 10.9932,
      "loss/aux_loss": 0.0480732886120677,
      "loss/crossentropy": 2.6341083645820618,
      "loss/logits": 0.8201987504959106,
      "step": 60400
    },
    {
      "epoch": 0.6041,
      "grad_norm": 15.4375,
      "grad_norm_var": 4.114176432291667,
      "learning_rate": 0.0003,
      "loss": 10.8744,
      "loss/aux_loss": 0.048076138645410535,
      "loss/crossentropy": 2.8022005796432494,
      "loss/logits": 0.8076352566480637,
      "step": 60410
    },
    {
      "epoch": 0.6042,
      "grad_norm": 16.0,
      "grad_norm_var": 5.117708333333334,
      "learning_rate": 0.0003,
      "loss": 10.7988,
      "loss/aux_loss": 0.048061057738959787,
      "loss/crossentropy": 2.6338140249252318,
      "loss/logits": 0.7957394987344741,
      "step": 60420
    },
    {
      "epoch": 0.6043,
      "grad_norm": 14.8125,
      "grad_norm_var": 4.590869140625,
      "learning_rate": 0.0003,
      "loss": 11.0153,
      "loss/aux_loss": 0.04807674996554852,
      "loss/crossentropy": 2.7275028109550474,
      "loss/logits": 0.8166062444448471,
      "step": 60430
    },
    {
      "epoch": 0.6044,
      "grad_norm": 14.875,
      "grad_norm_var": 0.3009765625,
      "learning_rate": 0.0003,
      "loss": 10.9633,
      "loss/aux_loss": 0.04805723633617163,
      "loss/crossentropy": 2.7013749897480013,
      "loss/logits": 0.8536836624145507,
      "step": 60440
    },
    {
      "epoch": 0.6045,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5106770833333333,
      "learning_rate": 0.0003,
      "loss": 10.8347,
      "loss/aux_loss": 0.04807833768427372,
      "loss/crossentropy": 2.5935844779014587,
      "loss/logits": 0.8088052183389663,
      "step": 60450
    },
    {
      "epoch": 0.6046,
      "grad_norm": 15.0,
      "grad_norm_var": 0.478125,
      "learning_rate": 0.0003,
      "loss": 10.9532,
      "loss/aux_loss": 0.048071070946753024,
      "loss/crossentropy": 2.699798661470413,
      "loss/logits": 0.824173653125763,
      "step": 60460
    },
    {
      "epoch": 0.6047,
      "grad_norm": 16.875,
      "grad_norm_var": 0.451416015625,
      "learning_rate": 0.0003,
      "loss": 11.0419,
      "loss/aux_loss": 0.048078490793704985,
      "loss/crossentropy": 2.6727247834205627,
      "loss/logits": 0.8337906152009964,
      "step": 60470
    },
    {
      "epoch": 0.6048,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.66875,
      "learning_rate": 0.0003,
      "loss": 10.9652,
      "loss/aux_loss": 0.048067685589194296,
      "loss/crossentropy": 2.5421866893768312,
      "loss/logits": 0.8169512122869491,
      "step": 60480
    },
    {
      "epoch": 0.6049,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5202473958333333,
      "learning_rate": 0.0003,
      "loss": 10.943,
      "loss/aux_loss": 0.04807629156857729,
      "loss/crossentropy": 2.7076221227645876,
      "loss/logits": 0.8126240253448487,
      "step": 60490
    },
    {
      "epoch": 0.605,
      "grad_norm": 16.375,
      "grad_norm_var": 0.4942708333333333,
      "learning_rate": 0.0003,
      "loss": 10.9824,
      "loss/aux_loss": 0.04806436561048031,
      "loss/crossentropy": 2.716249758005142,
      "loss/logits": 0.8121423751115799,
      "step": 60500
    },
    {
      "epoch": 0.6051,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.33203125,
      "learning_rate": 0.0003,
      "loss": 10.8244,
      "loss/aux_loss": 0.048078736290335655,
      "loss/crossentropy": 2.5074705123901366,
      "loss/logits": 0.7894505262374878,
      "step": 60510
    },
    {
      "epoch": 0.6052,
      "grad_norm": 14.75,
      "grad_norm_var": 0.6769368489583333,
      "learning_rate": 0.0003,
      "loss": 10.8273,
      "loss/aux_loss": 0.04807204809039831,
      "loss/crossentropy": 2.6767341911792757,
      "loss/logits": 0.8195008933544159,
      "step": 60520
    },
    {
      "epoch": 0.6053,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.9587076822916667,
      "learning_rate": 0.0003,
      "loss": 10.85,
      "loss/aux_loss": 0.04806831441819668,
      "loss/crossentropy": 2.8315181374549865,
      "loss/logits": 0.8047915935516358,
      "step": 60530
    },
    {
      "epoch": 0.6054,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.4041015625,
      "learning_rate": 0.0003,
      "loss": 10.8398,
      "loss/aux_loss": 0.048069612868130204,
      "loss/crossentropy": 2.657101058959961,
      "loss/logits": 0.8052042782306671,
      "step": 60540
    },
    {
      "epoch": 0.6055,
      "grad_norm": 14.625,
      "grad_norm_var": 0.5738932291666666,
      "learning_rate": 0.0003,
      "loss": 10.8523,
      "loss/aux_loss": 0.04806829355657101,
      "loss/crossentropy": 2.584134030342102,
      "loss/logits": 0.7640033394098282,
      "step": 60550
    },
    {
      "epoch": 0.6056,
      "grad_norm": 15.25,
      "grad_norm_var": 0.375244140625,
      "learning_rate": 0.0003,
      "loss": 10.9682,
      "loss/aux_loss": 0.04807130675762892,
      "loss/crossentropy": 2.680067926645279,
      "loss/logits": 0.8243839502334595,
      "step": 60560
    },
    {
      "epoch": 0.6057,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.43697916666666664,
      "learning_rate": 0.0003,
      "loss": 10.912,
      "loss/aux_loss": 0.0480777146294713,
      "loss/crossentropy": 2.6226901173591615,
      "loss/logits": 0.7878055989742279,
      "step": 60570
    },
    {
      "epoch": 0.6058,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.3062337239583333,
      "learning_rate": 0.0003,
      "loss": 10.9453,
      "loss/aux_loss": 0.048065618798136714,
      "loss/crossentropy": 2.6935440480709074,
      "loss/logits": 0.8214478433132172,
      "step": 60580
    },
    {
      "epoch": 0.6059,
      "grad_norm": 15.6875,
      "grad_norm_var": 1.1348795572916666,
      "learning_rate": 0.0003,
      "loss": 10.9734,
      "loss/aux_loss": 0.0480723200365901,
      "loss/crossentropy": 2.7571221947669984,
      "loss/logits": 0.8032363146543503,
      "step": 60590
    },
    {
      "epoch": 0.606,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.2327473958333333,
      "learning_rate": 0.0003,
      "loss": 10.88,
      "loss/aux_loss": 0.04806821886450052,
      "loss/crossentropy": 2.661402940750122,
      "loss/logits": 0.7886179000139236,
      "step": 60600
    },
    {
      "epoch": 0.6061,
      "grad_norm": 15.0,
      "grad_norm_var": 0.5450520833333333,
      "learning_rate": 0.0003,
      "loss": 10.8687,
      "loss/aux_loss": 0.048080092296004295,
      "loss/crossentropy": 2.4920336484909056,
      "loss/logits": 0.7764117568731308,
      "step": 60610
    },
    {
      "epoch": 0.6062,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.428125,
      "learning_rate": 0.0003,
      "loss": 11.0299,
      "loss/aux_loss": 0.04806080795824528,
      "loss/crossentropy": 2.8082796573638915,
      "loss/logits": 0.8537631243467331,
      "step": 60620
    },
    {
      "epoch": 0.6063,
      "grad_norm": 16.25,
      "grad_norm_var": 0.29921875,
      "learning_rate": 0.0003,
      "loss": 11.0316,
      "loss/aux_loss": 0.04806738365441561,
      "loss/crossentropy": 2.7339873909950256,
      "loss/logits": 0.7961423873901368,
      "step": 60630
    },
    {
      "epoch": 0.6064,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.390625,
      "learning_rate": 0.0003,
      "loss": 10.8029,
      "loss/aux_loss": 0.04806647207587957,
      "loss/crossentropy": 2.7505694150924684,
      "loss/logits": 0.8106872260570526,
      "step": 60640
    },
    {
      "epoch": 0.6065,
      "grad_norm": 18.5,
      "grad_norm_var": 0.990478515625,
      "learning_rate": 0.0003,
      "loss": 10.9839,
      "loss/aux_loss": 0.0480714239180088,
      "loss/crossentropy": 2.696449559926987,
      "loss/logits": 0.8294881820678711,
      "step": 60650
    },
    {
      "epoch": 0.6066,
      "grad_norm": 16.625,
      "grad_norm_var": 1.271728515625,
      "learning_rate": 0.0003,
      "loss": 10.7504,
      "loss/aux_loss": 0.04806580077856779,
      "loss/crossentropy": 2.5379061937332152,
      "loss/logits": 0.7808073431253433,
      "step": 60660
    },
    {
      "epoch": 0.6067,
      "grad_norm": 15.125,
      "grad_norm_var": 0.8075358072916666,
      "learning_rate": 0.0003,
      "loss": 11.0137,
      "loss/aux_loss": 0.04806665126234293,
      "loss/crossentropy": 2.7637165009975435,
      "loss/logits": 0.8278068244457245,
      "step": 60670
    },
    {
      "epoch": 0.6068,
      "grad_norm": 14.75,
      "grad_norm_var": 0.43917643229166664,
      "learning_rate": 0.0003,
      "loss": 10.8688,
      "loss/aux_loss": 0.04807304907590151,
      "loss/crossentropy": 2.606863057613373,
      "loss/logits": 0.8165640115737915,
      "step": 60680
    },
    {
      "epoch": 0.6069,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.3447265625,
      "learning_rate": 0.0003,
      "loss": 10.9712,
      "loss/aux_loss": 0.04807915091514588,
      "loss/crossentropy": 2.7368947744369505,
      "loss/logits": 0.8139879643917084,
      "step": 60690
    },
    {
      "epoch": 0.607,
      "grad_norm": 13.4375,
      "grad_norm_var": 0.539697265625,
      "learning_rate": 0.0003,
      "loss": 10.8863,
      "loss/aux_loss": 0.04805984944105148,
      "loss/crossentropy": 2.561430436372757,
      "loss/logits": 0.7969212979078293,
      "step": 60700
    },
    {
      "epoch": 0.6071,
      "grad_norm": 16.125,
      "grad_norm_var": 0.8063639322916667,
      "learning_rate": 0.0003,
      "loss": 11.1143,
      "loss/aux_loss": 0.048070601746439935,
      "loss/crossentropy": 2.724953460693359,
      "loss/logits": 0.8761008381843567,
      "step": 60710
    },
    {
      "epoch": 0.6072,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.5405598958333333,
      "learning_rate": 0.0003,
      "loss": 11.067,
      "loss/aux_loss": 0.04806268252432346,
      "loss/crossentropy": 2.722470408678055,
      "loss/logits": 0.8286719590425491,
      "step": 60720
    },
    {
      "epoch": 0.6073,
      "grad_norm": 16.75,
      "grad_norm_var": 0.48292643229166665,
      "learning_rate": 0.0003,
      "loss": 10.9106,
      "loss/aux_loss": 0.048081399872899055,
      "loss/crossentropy": 2.7040891528129576,
      "loss/logits": 0.8151125907897949,
      "step": 60730
    },
    {
      "epoch": 0.6074,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.6304524739583334,
      "learning_rate": 0.0003,
      "loss": 11.0008,
      "loss/aux_loss": 0.04806943740695715,
      "loss/crossentropy": 2.750800085067749,
      "loss/logits": 0.811496239900589,
      "step": 60740
    },
    {
      "epoch": 0.6075,
      "grad_norm": 14.875,
      "grad_norm_var": 0.5072265625,
      "learning_rate": 0.0003,
      "loss": 10.9407,
      "loss/aux_loss": 0.048066843301057816,
      "loss/crossentropy": 2.5790812611579894,
      "loss/logits": 0.8062135219573975,
      "step": 60750
    },
    {
      "epoch": 0.6076,
      "grad_norm": 15.125,
      "grad_norm_var": 0.4410807291666667,
      "learning_rate": 0.0003,
      "loss": 10.938,
      "loss/aux_loss": 0.04806975163519382,
      "loss/crossentropy": 2.669712710380554,
      "loss/logits": 0.8050375521183014,
      "step": 60760
    },
    {
      "epoch": 0.6077,
      "grad_norm": 16.5,
      "grad_norm_var": 0.5805826822916667,
      "learning_rate": 0.0003,
      "loss": 10.9754,
      "loss/aux_loss": 0.04807074461132288,
      "loss/crossentropy": 2.7768321573734283,
      "loss/logits": 0.8277645260095596,
      "step": 60770
    },
    {
      "epoch": 0.6078,
      "grad_norm": 14.375,
      "grad_norm_var": 0.8393229166666667,
      "learning_rate": 0.0003,
      "loss": 10.9727,
      "loss/aux_loss": 0.04806243553757668,
      "loss/crossentropy": 2.7435842633247374,
      "loss/logits": 0.8338838994503022,
      "step": 60780
    },
    {
      "epoch": 0.6079,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.7704264322916666,
      "learning_rate": 0.0003,
      "loss": 10.8381,
      "loss/aux_loss": 0.048067687265574935,
      "loss/crossentropy": 2.695614975690842,
      "loss/logits": 0.7965478479862214,
      "step": 60790
    },
    {
      "epoch": 0.608,
      "grad_norm": 16.375,
      "grad_norm_var": 1.0828125,
      "learning_rate": 0.0003,
      "loss": 10.9719,
      "loss/aux_loss": 0.04806322492659092,
      "loss/crossentropy": 2.747288691997528,
      "loss/logits": 0.8433381974697113,
      "step": 60800
    },
    {
      "epoch": 0.6081,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.7783854166666667,
      "learning_rate": 0.0003,
      "loss": 10.9004,
      "loss/aux_loss": 0.04807988330721855,
      "loss/crossentropy": 2.7076495826244353,
      "loss/logits": 0.83790722489357,
      "step": 60810
    },
    {
      "epoch": 0.6082,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.40305989583333335,
      "learning_rate": 0.0003,
      "loss": 11.0397,
      "loss/aux_loss": 0.0480671776458621,
      "loss/crossentropy": 2.6762712955474854,
      "loss/logits": 0.8186611771583557,
      "step": 60820
    },
    {
      "epoch": 0.6083,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.33307291666666666,
      "learning_rate": 0.0003,
      "loss": 11.0564,
      "loss/aux_loss": 0.04807759691029787,
      "loss/crossentropy": 2.673157799243927,
      "loss/logits": 0.8050933957099915,
      "step": 60830
    },
    {
      "epoch": 0.6084,
      "grad_norm": 15.125,
      "grad_norm_var": 0.8190104166666666,
      "learning_rate": 0.0003,
      "loss": 10.8996,
      "loss/aux_loss": 0.048066492564976214,
      "loss/crossentropy": 2.7351067125797273,
      "loss/logits": 0.8209027826786042,
      "step": 60840
    },
    {
      "epoch": 0.6085,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.1978515625,
      "learning_rate": 0.0003,
      "loss": 11.0685,
      "loss/aux_loss": 0.04806740805506706,
      "loss/crossentropy": 2.7408780336380003,
      "loss/logits": 0.8286194503307343,
      "step": 60850
    },
    {
      "epoch": 0.6086,
      "grad_norm": 14.25,
      "grad_norm_var": 0.15636393229166667,
      "learning_rate": 0.0003,
      "loss": 10.9519,
      "loss/aux_loss": 0.048057135008275506,
      "loss/crossentropy": 2.708062160015106,
      "loss/logits": 0.8348789572715759,
      "step": 60860
    },
    {
      "epoch": 0.6087,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.245556640625,
      "learning_rate": 0.0003,
      "loss": 10.9066,
      "loss/aux_loss": 0.04808010403066874,
      "loss/crossentropy": 2.7931439101696016,
      "loss/logits": 0.823428162932396,
      "step": 60870
    },
    {
      "epoch": 0.6088,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.3282389322916667,
      "learning_rate": 0.0003,
      "loss": 11.0119,
      "loss/aux_loss": 0.04807362128049135,
      "loss/crossentropy": 2.803303599357605,
      "loss/logits": 0.8527332812547683,
      "step": 60880
    },
    {
      "epoch": 0.6089,
      "grad_norm": 14.625,
      "grad_norm_var": 0.40208333333333335,
      "learning_rate": 0.0003,
      "loss": 10.9771,
      "loss/aux_loss": 0.04806482549756765,
      "loss/crossentropy": 2.5410806000232697,
      "loss/logits": 0.8482417315244675,
      "step": 60890
    },
    {
      "epoch": 0.609,
      "grad_norm": 15.125,
      "grad_norm_var": 0.276025390625,
      "learning_rate": 0.0003,
      "loss": 11.0426,
      "loss/aux_loss": 0.04806209746748209,
      "loss/crossentropy": 2.8440731525421143,
      "loss/logits": 0.8651130110025406,
      "step": 60900
    },
    {
      "epoch": 0.6091,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.162744140625,
      "learning_rate": 0.0003,
      "loss": 10.8486,
      "loss/aux_loss": 0.048080362193286416,
      "loss/crossentropy": 2.608972841501236,
      "loss/logits": 0.8105991780757904,
      "step": 60910
    },
    {
      "epoch": 0.6092,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.20807291666666666,
      "learning_rate": 0.0003,
      "loss": 10.9675,
      "loss/aux_loss": 0.04806051570922136,
      "loss/crossentropy": 2.6756951212882996,
      "loss/logits": 0.7980956196784973,
      "step": 60920
    },
    {
      "epoch": 0.6093,
      "grad_norm": 16.625,
      "grad_norm_var": 0.2994140625,
      "learning_rate": 0.0003,
      "loss": 11.0392,
      "loss/aux_loss": 0.048062234185636044,
      "loss/crossentropy": 2.738618332147598,
      "loss/logits": 0.8416084438562393,
      "step": 60930
    },
    {
      "epoch": 0.6094,
      "grad_norm": 16.0,
      "grad_norm_var": 0.4228515625,
      "learning_rate": 0.0003,
      "loss": 11.0543,
      "loss/aux_loss": 0.04806976187974214,
      "loss/crossentropy": 2.698890858888626,
      "loss/logits": 0.8149118602275849,
      "step": 60940
    },
    {
      "epoch": 0.6095,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.46144205729166665,
      "learning_rate": 0.0003,
      "loss": 10.9536,
      "loss/aux_loss": 0.0480699822306633,
      "loss/crossentropy": 2.839012861251831,
      "loss/logits": 0.8258768379688263,
      "step": 60950
    },
    {
      "epoch": 0.6096,
      "grad_norm": 15.0,
      "grad_norm_var": 0.5419108072916666,
      "learning_rate": 0.0003,
      "loss": 10.9647,
      "loss/aux_loss": 0.048070922307670114,
      "loss/crossentropy": 2.738613134622574,
      "loss/logits": 0.8129228353500366,
      "step": 60960
    },
    {
      "epoch": 0.6097,
      "grad_norm": 17.625,
      "grad_norm_var": 0.9274576822916667,
      "learning_rate": 0.0003,
      "loss": 10.9578,
      "loss/aux_loss": 0.04805801305919886,
      "loss/crossentropy": 2.5094609320163728,
      "loss/logits": 0.8016722679138184,
      "step": 60970
    },
    {
      "epoch": 0.6098,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.7968098958333333,
      "learning_rate": 0.0003,
      "loss": 10.9871,
      "loss/aux_loss": 0.048079372942447664,
      "loss/crossentropy": 2.664980614185333,
      "loss/logits": 0.8202985137701034,
      "step": 60980
    },
    {
      "epoch": 0.6099,
      "grad_norm": 15.875,
      "grad_norm_var": 0.5782389322916667,
      "learning_rate": 0.0003,
      "loss": 11.0115,
      "loss/aux_loss": 0.04807392340153456,
      "loss/crossentropy": 2.7239008784294128,
      "loss/logits": 0.831571900844574,
      "step": 60990
    },
    {
      "epoch": 0.61,
      "grad_norm": 13.5,
      "grad_norm_var": 0.58828125,
      "learning_rate": 0.0003,
      "loss": 10.8612,
      "loss/aux_loss": 0.04806995764374733,
      "loss/crossentropy": 2.6622074127197264,
      "loss/logits": 0.7961272418498992,
      "step": 61000
    },
    {
      "epoch": 0.6101,
      "grad_norm": 16.0,
      "grad_norm_var": 0.6364420572916667,
      "learning_rate": 0.0003,
      "loss": 10.8923,
      "loss/aux_loss": 0.04806650709360838,
      "loss/crossentropy": 2.7559936583042144,
      "loss/logits": 0.8345979481935502,
      "step": 61010
    },
    {
      "epoch": 0.6102,
      "grad_norm": 15.5625,
      "grad_norm_var": 2.0155598958333334,
      "learning_rate": 0.0003,
      "loss": 10.8705,
      "loss/aux_loss": 0.04807249642908573,
      "loss/crossentropy": 2.591252303123474,
      "loss/logits": 0.7885099232196808,
      "step": 61020
    },
    {
      "epoch": 0.6103,
      "grad_norm": 14.9375,
      "grad_norm_var": 2.109114583333333,
      "learning_rate": 0.0003,
      "loss": 10.9392,
      "loss/aux_loss": 0.04807036854326725,
      "loss/crossentropy": 2.685466194152832,
      "loss/logits": 0.8492469847202301,
      "step": 61030
    },
    {
      "epoch": 0.6104,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.6700520833333333,
      "learning_rate": 0.0003,
      "loss": 10.9431,
      "loss/aux_loss": 0.04806849993765354,
      "loss/crossentropy": 2.6850741684436796,
      "loss/logits": 0.8018898099660874,
      "step": 61040
    },
    {
      "epoch": 0.6105,
      "grad_norm": 14.5,
      "grad_norm_var": 0.3611979166666667,
      "learning_rate": 0.0003,
      "loss": 10.8835,
      "loss/aux_loss": 0.04807262290269136,
      "loss/crossentropy": 2.704542863368988,
      "loss/logits": 0.834966391324997,
      "step": 61050
    },
    {
      "epoch": 0.6106,
      "grad_norm": 15.5,
      "grad_norm_var": 0.350244140625,
      "learning_rate": 0.0003,
      "loss": 10.9628,
      "loss/aux_loss": 0.04807685576379299,
      "loss/crossentropy": 2.6365856409072874,
      "loss/logits": 0.8094233006238938,
      "step": 61060
    },
    {
      "epoch": 0.6107,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.3317057291666667,
      "learning_rate": 0.0003,
      "loss": 11.0145,
      "loss/aux_loss": 0.048073244467377665,
      "loss/crossentropy": 2.844811725616455,
      "loss/logits": 0.836044305562973,
      "step": 61070
    },
    {
      "epoch": 0.6108,
      "grad_norm": 16.5,
      "grad_norm_var": 1.5063639322916667,
      "learning_rate": 0.0003,
      "loss": 10.8371,
      "loss/aux_loss": 0.04806085731834173,
      "loss/crossentropy": 2.7075256764888764,
      "loss/logits": 0.8152056097984314,
      "step": 61080
    },
    {
      "epoch": 0.6109,
      "grad_norm": 17.0,
      "grad_norm_var": 0.8766764322916667,
      "learning_rate": 0.0003,
      "loss": 10.8974,
      "loss/aux_loss": 0.04807128459215164,
      "loss/crossentropy": 2.675181972980499,
      "loss/logits": 0.8163933247327805,
      "step": 61090
    },
    {
      "epoch": 0.611,
      "grad_norm": 15.625,
      "grad_norm_var": 0.8407389322916666,
      "learning_rate": 0.0003,
      "loss": 10.8567,
      "loss/aux_loss": 0.04806245286017656,
      "loss/crossentropy": 2.7227718472480773,
      "loss/logits": 0.8572416335344315,
      "step": 61100
    },
    {
      "epoch": 0.6111,
      "grad_norm": 17.0,
      "grad_norm_var": 0.7202473958333333,
      "learning_rate": 0.0003,
      "loss": 10.8851,
      "loss/aux_loss": 0.048066180758178235,
      "loss/crossentropy": 2.744245910644531,
      "loss/logits": 0.8281572759151459,
      "step": 61110
    },
    {
      "epoch": 0.6112,
      "grad_norm": 13.875,
      "grad_norm_var": 0.7058430989583333,
      "learning_rate": 0.0003,
      "loss": 10.974,
      "loss/aux_loss": 0.04806941282004118,
      "loss/crossentropy": 2.788532388210297,
      "loss/logits": 0.8086911767721177,
      "step": 61120
    },
    {
      "epoch": 0.6113,
      "grad_norm": 13.9375,
      "grad_norm_var": 2.058854166666667,
      "learning_rate": 0.0003,
      "loss": 10.9633,
      "loss/aux_loss": 0.048071177862584594,
      "loss/crossentropy": 2.5584035396575926,
      "loss/logits": 0.7963971257209778,
      "step": 61130
    },
    {
      "epoch": 0.6114,
      "grad_norm": 15.5,
      "grad_norm_var": 2.2919270833333334,
      "learning_rate": 0.0003,
      "loss": 11.0252,
      "loss/aux_loss": 0.048073113150894645,
      "loss/crossentropy": 2.816734492778778,
      "loss/logits": 0.8178564816713333,
      "step": 61140
    },
    {
      "epoch": 0.6115,
      "grad_norm": 14.9375,
      "grad_norm_var": 1.1398274739583334,
      "learning_rate": 0.0003,
      "loss": 11.1053,
      "loss/aux_loss": 0.04807866048067808,
      "loss/crossentropy": 2.7244319319725037,
      "loss/logits": 0.8512472093105317,
      "step": 61150
    },
    {
      "epoch": 0.6116,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.8706868489583334,
      "learning_rate": 0.0003,
      "loss": 11.0246,
      "loss/aux_loss": 0.04805517755448818,
      "loss/crossentropy": 2.801200783252716,
      "loss/logits": 0.8401286274194717,
      "step": 61160
    },
    {
      "epoch": 0.6117,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.4552083333333333,
      "learning_rate": 0.0003,
      "loss": 11.0931,
      "loss/aux_loss": 0.04807036258280277,
      "loss/crossentropy": 2.772087001800537,
      "loss/logits": 0.8375712424516678,
      "step": 61170
    },
    {
      "epoch": 0.6118,
      "grad_norm": 15.875,
      "grad_norm_var": 0.84375,
      "learning_rate": 0.0003,
      "loss": 10.9609,
      "loss/aux_loss": 0.04807903449982405,
      "loss/crossentropy": 2.622360199689865,
      "loss/logits": 0.8055921524763108,
      "step": 61180
    },
    {
      "epoch": 0.6119,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.5645670572916667,
      "learning_rate": 0.0003,
      "loss": 11.0062,
      "loss/aux_loss": 0.04806223157793284,
      "loss/crossentropy": 2.681737995147705,
      "loss/logits": 0.813096073269844,
      "step": 61190
    },
    {
      "epoch": 0.612,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.445166015625,
      "learning_rate": 0.0003,
      "loss": 10.9057,
      "loss/aux_loss": 0.048072535917162894,
      "loss/crossentropy": 2.6666407227516173,
      "loss/logits": 0.8438924968242645,
      "step": 61200
    },
    {
      "epoch": 0.6121,
      "grad_norm": 16.375,
      "grad_norm_var": 0.6181640625,
      "learning_rate": 0.0003,
      "loss": 10.8865,
      "loss/aux_loss": 0.04807114116847515,
      "loss/crossentropy": 2.698245918750763,
      "loss/logits": 0.8058286488056183,
      "step": 61210
    },
    {
      "epoch": 0.6122,
      "grad_norm": 16.125,
      "grad_norm_var": 0.8072265625,
      "learning_rate": 0.0003,
      "loss": 10.9027,
      "loss/aux_loss": 0.048066765256226066,
      "loss/crossentropy": 2.682483744621277,
      "loss/logits": 0.7972517877817153,
      "step": 61220
    },
    {
      "epoch": 0.6123,
      "grad_norm": 14.5,
      "grad_norm_var": 1.0152180989583333,
      "learning_rate": 0.0003,
      "loss": 10.9902,
      "loss/aux_loss": 0.04806827660650015,
      "loss/crossentropy": 2.8098564445972443,
      "loss/logits": 0.8148068457841873,
      "step": 61230
    },
    {
      "epoch": 0.6124,
      "grad_norm": 15.125,
      "grad_norm_var": 0.787744140625,
      "learning_rate": 0.0003,
      "loss": 10.925,
      "loss/aux_loss": 0.04808166231960058,
      "loss/crossentropy": 2.5316755414009093,
      "loss/logits": 0.8108256548643112,
      "step": 61240
    },
    {
      "epoch": 0.6125,
      "grad_norm": 13.5,
      "grad_norm_var": 0.662353515625,
      "learning_rate": 0.0003,
      "loss": 10.8142,
      "loss/aux_loss": 0.048060395009815696,
      "loss/crossentropy": 2.6689065754413606,
      "loss/logits": 0.7798559069633484,
      "step": 61250
    },
    {
      "epoch": 0.6126,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.5609212239583333,
      "learning_rate": 0.0003,
      "loss": 10.9542,
      "loss/aux_loss": 0.04807155355811119,
      "loss/crossentropy": 2.671508860588074,
      "loss/logits": 0.8162847578525543,
      "step": 61260
    },
    {
      "epoch": 0.6127,
      "grad_norm": 15.125,
      "grad_norm_var": 0.26848958333333334,
      "learning_rate": 0.0003,
      "loss": 10.9077,
      "loss/aux_loss": 0.04807188101112843,
      "loss/crossentropy": 2.8237990200519563,
      "loss/logits": 0.8153227150440217,
      "step": 61270
    },
    {
      "epoch": 0.6128,
      "grad_norm": 14.5,
      "grad_norm_var": 22.748372395833332,
      "learning_rate": 0.0003,
      "loss": 11.0002,
      "loss/aux_loss": 0.048073857091367245,
      "loss/crossentropy": 2.720522928237915,
      "loss/logits": 0.8327284932136536,
      "step": 61280
    },
    {
      "epoch": 0.6129,
      "grad_norm": 15.6875,
      "grad_norm_var": 20.959358723958335,
      "learning_rate": 0.0003,
      "loss": 10.8401,
      "loss/aux_loss": 0.0480800049379468,
      "loss/crossentropy": 2.8034905910491945,
      "loss/logits": 0.7961880445480347,
      "step": 61290
    },
    {
      "epoch": 0.613,
      "grad_norm": 16.125,
      "grad_norm_var": 0.31378580729166666,
      "learning_rate": 0.0003,
      "loss": 10.9138,
      "loss/aux_loss": 0.04807343352586031,
      "loss/crossentropy": 2.59561088681221,
      "loss/logits": 0.8048137962818146,
      "step": 61300
    },
    {
      "epoch": 0.6131,
      "grad_norm": 14.875,
      "grad_norm_var": 0.700634765625,
      "learning_rate": 0.0003,
      "loss": 10.9678,
      "loss/aux_loss": 0.04806978832930327,
      "loss/crossentropy": 2.6666161894798277,
      "loss/logits": 0.8165017098188401,
      "step": 61310
    },
    {
      "epoch": 0.6132,
      "grad_norm": 14.5,
      "grad_norm_var": 0.784228515625,
      "learning_rate": 0.0003,
      "loss": 10.8918,
      "loss/aux_loss": 0.0480765713378787,
      "loss/crossentropy": 2.6589391052722933,
      "loss/logits": 0.8012593746185303,
      "step": 61320
    },
    {
      "epoch": 0.6133,
      "grad_norm": 15.625,
      "grad_norm_var": 1.0489583333333334,
      "learning_rate": 0.0003,
      "loss": 10.9852,
      "loss/aux_loss": 0.04807199165225029,
      "loss/crossentropy": 2.744808477163315,
      "loss/logits": 0.8064806133508682,
      "step": 61330
    },
    {
      "epoch": 0.6134,
      "grad_norm": 18.0,
      "grad_norm_var": 1.1325520833333333,
      "learning_rate": 0.0003,
      "loss": 10.9129,
      "loss/aux_loss": 0.04806118700653315,
      "loss/crossentropy": 2.7831350564956665,
      "loss/logits": 0.8111140578985214,
      "step": 61340
    },
    {
      "epoch": 0.6135,
      "grad_norm": 15.1875,
      "grad_norm_var": 1.3180826822916667,
      "learning_rate": 0.0003,
      "loss": 10.9594,
      "loss/aux_loss": 0.04806741625070572,
      "loss/crossentropy": 2.66780064702034,
      "loss/logits": 0.8168701589107513,
      "step": 61350
    },
    {
      "epoch": 0.6136,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.9478515625,
      "learning_rate": 0.0003,
      "loss": 11.0428,
      "loss/aux_loss": 0.04806680958718061,
      "loss/crossentropy": 2.756870436668396,
      "loss/logits": 0.8362319558858872,
      "step": 61360
    },
    {
      "epoch": 0.6137,
      "grad_norm": 14.625,
      "grad_norm_var": 0.949853515625,
      "learning_rate": 0.0003,
      "loss": 11.0459,
      "loss/aux_loss": 0.04806111045181751,
      "loss/crossentropy": 2.7263152480125425,
      "loss/logits": 0.8313703805208206,
      "step": 61370
    },
    {
      "epoch": 0.6138,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.459375,
      "learning_rate": 0.0003,
      "loss": 11.0347,
      "loss/aux_loss": 0.04806870762258768,
      "loss/crossentropy": 2.6985792994499205,
      "loss/logits": 0.8102845966815948,
      "step": 61380
    },
    {
      "epoch": 0.6139,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.8634765625,
      "learning_rate": 0.0003,
      "loss": 11.1736,
      "loss/aux_loss": 0.048068526200950146,
      "loss/crossentropy": 2.7508439660072326,
      "loss/logits": 0.8183762282133102,
      "step": 61390
    },
    {
      "epoch": 0.614,
      "grad_norm": 15.125,
      "grad_norm_var": 0.3478515625,
      "learning_rate": 0.0003,
      "loss": 10.8252,
      "loss/aux_loss": 0.04806302357465029,
      "loss/crossentropy": 2.672939831018448,
      "loss/logits": 0.8024695843458176,
      "step": 61400
    },
    {
      "epoch": 0.6141,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.3848958333333333,
      "learning_rate": 0.0003,
      "loss": 11.0337,
      "loss/aux_loss": 0.048076591454446316,
      "loss/crossentropy": 2.83030418753624,
      "loss/logits": 0.8267215609550476,
      "step": 61410
    },
    {
      "epoch": 0.6142,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.6458333333333334,
      "learning_rate": 0.0003,
      "loss": 10.9174,
      "loss/aux_loss": 0.04806251674890518,
      "loss/crossentropy": 2.7849998474121094,
      "loss/logits": 0.8149536848068237,
      "step": 61420
    },
    {
      "epoch": 0.6143,
      "grad_norm": 15.1875,
      "grad_norm_var": 126.11222330729167,
      "learning_rate": 0.0003,
      "loss": 11.0026,
      "loss/aux_loss": 0.048078781180083754,
      "loss/crossentropy": 2.8044037342071535,
      "loss/logits": 0.8208670258522034,
      "step": 61430
    },
    {
      "epoch": 0.6144,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.9354166666666666,
      "learning_rate": 0.0003,
      "loss": 10.9765,
      "loss/aux_loss": 0.0480761431157589,
      "loss/crossentropy": 2.7967730283737184,
      "loss/logits": 0.8021587640047073,
      "step": 61440
    },
    {
      "epoch": 0.6145,
      "grad_norm": 15.625,
      "grad_norm_var": 0.901416015625,
      "learning_rate": 0.0003,
      "loss": 11.0474,
      "loss/aux_loss": 0.048061800003051755,
      "loss/crossentropy": 2.6379260659217834,
      "loss/logits": 0.8099302232265473,
      "step": 61450
    },
    {
      "epoch": 0.6146,
      "grad_norm": 15.0,
      "grad_norm_var": 0.5874348958333333,
      "learning_rate": 0.0003,
      "loss": 11.0572,
      "loss/aux_loss": 0.048064269311726096,
      "loss/crossentropy": 2.754233205318451,
      "loss/logits": 0.8168322265148162,
      "step": 61460
    },
    {
      "epoch": 0.6147,
      "grad_norm": 15.0,
      "grad_norm_var": 0.5436848958333333,
      "learning_rate": 0.0003,
      "loss": 10.9424,
      "loss/aux_loss": 0.04808512944728136,
      "loss/crossentropy": 2.7634010910987854,
      "loss/logits": 0.8455385863780975,
      "step": 61470
    },
    {
      "epoch": 0.6148,
      "grad_norm": 15.75,
      "grad_norm_var": 1.7707682291666667,
      "learning_rate": 0.0003,
      "loss": 11.1005,
      "loss/aux_loss": 0.048066995665431024,
      "loss/crossentropy": 2.7025927007198334,
      "loss/logits": 0.8244033396244049,
      "step": 61480
    },
    {
      "epoch": 0.6149,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.7311848958333333,
      "learning_rate": 0.0003,
      "loss": 10.7938,
      "loss/aux_loss": 0.048072151467204095,
      "loss/crossentropy": 2.481117475032806,
      "loss/logits": 0.8055284798145295,
      "step": 61490
    },
    {
      "epoch": 0.615,
      "grad_norm": 16.125,
      "grad_norm_var": 0.6077962239583333,
      "learning_rate": 0.0003,
      "loss": 10.9174,
      "loss/aux_loss": 0.04806630816310644,
      "loss/crossentropy": 2.6769744515419007,
      "loss/logits": 0.8111788332462311,
      "step": 61500
    },
    {
      "epoch": 0.6151,
      "grad_norm": 15.25,
      "grad_norm_var": 0.5186848958333333,
      "learning_rate": 0.0003,
      "loss": 10.9967,
      "loss/aux_loss": 0.04806443694978953,
      "loss/crossentropy": 2.683100473880768,
      "loss/logits": 0.8171298623085022,
      "step": 61510
    },
    {
      "epoch": 0.6152,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.744384765625,
      "learning_rate": 0.0003,
      "loss": 10.8982,
      "loss/aux_loss": 0.04807937704026699,
      "loss/crossentropy": 2.7236180365085603,
      "loss/logits": 0.821711191534996,
      "step": 61520
    },
    {
      "epoch": 0.6153,
      "grad_norm": 17.25,
      "grad_norm_var": 1.3526041666666666,
      "learning_rate": 0.0003,
      "loss": 11.0416,
      "loss/aux_loss": 0.0480710020288825,
      "loss/crossentropy": 2.7528501987457275,
      "loss/logits": 0.8094364821910858,
      "step": 61530
    },
    {
      "epoch": 0.6154,
      "grad_norm": 16.25,
      "grad_norm_var": 1.1885416666666666,
      "learning_rate": 0.0003,
      "loss": 11.0722,
      "loss/aux_loss": 0.04807053804397583,
      "loss/crossentropy": 2.767429292201996,
      "loss/logits": 0.8756510764360428,
      "step": 61540
    },
    {
      "epoch": 0.6155,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.620556640625,
      "learning_rate": 0.0003,
      "loss": 10.8218,
      "loss/aux_loss": 0.04807050470262766,
      "loss/crossentropy": 2.697913628816605,
      "loss/logits": 0.7820253252983094,
      "step": 61550
    },
    {
      "epoch": 0.6156,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.38084309895833335,
      "learning_rate": 0.0003,
      "loss": 10.9104,
      "loss/aux_loss": 0.0480689549818635,
      "loss/crossentropy": 2.6347146034240723,
      "loss/logits": 0.7996633857488632,
      "step": 61560
    },
    {
      "epoch": 0.6157,
      "grad_norm": 14.375,
      "grad_norm_var": 0.5408854166666667,
      "learning_rate": 0.0003,
      "loss": 10.8944,
      "loss/aux_loss": 0.04806984327733517,
      "loss/crossentropy": 2.7262151658535005,
      "loss/logits": 0.8081013143062592,
      "step": 61570
    },
    {
      "epoch": 0.6158,
      "grad_norm": 16.125,
      "grad_norm_var": 0.8464680989583333,
      "learning_rate": 0.0003,
      "loss": 10.8768,
      "loss/aux_loss": 0.04807692188769579,
      "loss/crossentropy": 2.697046458721161,
      "loss/logits": 0.7776322573423385,
      "step": 61580
    },
    {
      "epoch": 0.6159,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.794775390625,
      "learning_rate": 0.0003,
      "loss": 10.9726,
      "loss/aux_loss": 0.04806830957531929,
      "loss/crossentropy": 2.7502528548240663,
      "loss/logits": 0.8258104085922241,
      "step": 61590
    },
    {
      "epoch": 0.616,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.4962890625,
      "learning_rate": 0.0003,
      "loss": 10.886,
      "loss/aux_loss": 0.04806863311678171,
      "loss/crossentropy": 2.702814507484436,
      "loss/logits": 0.8230858445167542,
      "step": 61600
    },
    {
      "epoch": 0.6161,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.359228515625,
      "learning_rate": 0.0003,
      "loss": 10.9529,
      "loss/aux_loss": 0.048067998327314856,
      "loss/crossentropy": 2.7368035674095155,
      "loss/logits": 0.8276433378458024,
      "step": 61610
    },
    {
      "epoch": 0.6162,
      "grad_norm": 15.125,
      "grad_norm_var": 1.8343098958333333,
      "learning_rate": 0.0003,
      "loss": 10.9874,
      "loss/aux_loss": 0.048063565976917744,
      "loss/crossentropy": 2.6927200853824615,
      "loss/logits": 0.8120525509119034,
      "step": 61620
    },
    {
      "epoch": 0.6163,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.581884765625,
      "learning_rate": 0.0003,
      "loss": 10.9596,
      "loss/aux_loss": 0.04806598611176014,
      "loss/crossentropy": 2.6300831198692323,
      "loss/logits": 0.7872573018074036,
      "step": 61630
    },
    {
      "epoch": 0.6164,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5002604166666667,
      "learning_rate": 0.0003,
      "loss": 10.8337,
      "loss/aux_loss": 0.04807138796895742,
      "loss/crossentropy": 2.746791756153107,
      "loss/logits": 0.796841761469841,
      "step": 61640
    },
    {
      "epoch": 0.6165,
      "grad_norm": 15.125,
      "grad_norm_var": 0.915087890625,
      "learning_rate": 0.0003,
      "loss": 10.81,
      "loss/aux_loss": 0.04806817434728146,
      "loss/crossentropy": 2.5922399282455446,
      "loss/logits": 0.8125677675008773,
      "step": 61650
    },
    {
      "epoch": 0.6166,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.43045247395833336,
      "learning_rate": 0.0003,
      "loss": 10.8958,
      "loss/aux_loss": 0.048080663196742535,
      "loss/crossentropy": 2.6909705996513367,
      "loss/logits": 0.8360078364610672,
      "step": 61660
    },
    {
      "epoch": 0.6167,
      "grad_norm": 15.3125,
      "grad_norm_var": 3.886962890625,
      "learning_rate": 0.0003,
      "loss": 10.7584,
      "loss/aux_loss": 0.04806402511894703,
      "loss/crossentropy": 2.5941467702388765,
      "loss/logits": 0.8068960756063461,
      "step": 61670
    },
    {
      "epoch": 0.6168,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.5759765625,
      "learning_rate": 0.0003,
      "loss": 10.9424,
      "loss/aux_loss": 0.048076951317489146,
      "loss/crossentropy": 2.7264155983924865,
      "loss/logits": 0.8287631750106812,
      "step": 61680
    },
    {
      "epoch": 0.6169,
      "grad_norm": 14.25,
      "grad_norm_var": 0.5332682291666667,
      "learning_rate": 0.0003,
      "loss": 10.8441,
      "loss/aux_loss": 0.04805428683757782,
      "loss/crossentropy": 2.745866870880127,
      "loss/logits": 0.7957580178976059,
      "step": 61690
    },
    {
      "epoch": 0.617,
      "grad_norm": 14.75,
      "grad_norm_var": 0.39140625,
      "learning_rate": 0.0003,
      "loss": 10.9403,
      "loss/aux_loss": 0.04806794375181198,
      "loss/crossentropy": 2.6823421716690063,
      "loss/logits": 0.816996818780899,
      "step": 61700
    },
    {
      "epoch": 0.6171,
      "grad_norm": 14.625,
      "grad_norm_var": 0.6180826822916666,
      "learning_rate": 0.0003,
      "loss": 10.8513,
      "loss/aux_loss": 0.048078464530408385,
      "loss/crossentropy": 2.8029967546463013,
      "loss/logits": 0.8454837918281555,
      "step": 61710
    },
    {
      "epoch": 0.6172,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.3431640625,
      "learning_rate": 0.0003,
      "loss": 10.8751,
      "loss/aux_loss": 0.04807190615683794,
      "loss/crossentropy": 2.6858488082885743,
      "loss/logits": 0.8107406437397003,
      "step": 61720
    },
    {
      "epoch": 0.6173,
      "grad_norm": 13.375,
      "grad_norm_var": 0.8051432291666667,
      "learning_rate": 0.0003,
      "loss": 10.9275,
      "loss/aux_loss": 0.048067220486700535,
      "loss/crossentropy": 2.6807423889636994,
      "loss/logits": 0.7955632448196411,
      "step": 61730
    },
    {
      "epoch": 0.6174,
      "grad_norm": 14.4375,
      "grad_norm_var": 1.01875,
      "learning_rate": 0.0003,
      "loss": 10.8206,
      "loss/aux_loss": 0.04806277137249708,
      "loss/crossentropy": 2.6485226929187773,
      "loss/logits": 0.7749884635210037,
      "step": 61740
    },
    {
      "epoch": 0.6175,
      "grad_norm": 14.75,
      "grad_norm_var": 0.29973958333333334,
      "learning_rate": 0.0003,
      "loss": 11.0639,
      "loss/aux_loss": 0.04807302244007587,
      "loss/crossentropy": 2.501930046081543,
      "loss/logits": 0.8085714936256408,
      "step": 61750
    },
    {
      "epoch": 0.6176,
      "grad_norm": 17.0,
      "grad_norm_var": 29.426416015625,
      "learning_rate": 0.0003,
      "loss": 10.9392,
      "loss/aux_loss": 0.048070022463798524,
      "loss/crossentropy": 2.56240091919899,
      "loss/logits": 0.8246626138687134,
      "step": 61760
    },
    {
      "epoch": 0.6177,
      "grad_norm": 14.25,
      "grad_norm_var": 29.176155598958335,
      "learning_rate": 0.0003,
      "loss": 10.8047,
      "loss/aux_loss": 0.048060801811516285,
      "loss/crossentropy": 2.7177587747573853,
      "loss/logits": 0.8236128687858582,
      "step": 61770
    },
    {
      "epoch": 0.6178,
      "grad_norm": 15.0,
      "grad_norm_var": 0.9817057291666667,
      "learning_rate": 0.0003,
      "loss": 11.0162,
      "loss/aux_loss": 0.048079765401780605,
      "loss/crossentropy": 2.6734387814998626,
      "loss/logits": 0.8322317689657212,
      "step": 61780
    },
    {
      "epoch": 0.6179,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.7858723958333333,
      "learning_rate": 0.0003,
      "loss": 11.0301,
      "loss/aux_loss": 0.04804958906024694,
      "loss/crossentropy": 2.667484325170517,
      "loss/logits": 0.7962237685918808,
      "step": 61790
    },
    {
      "epoch": 0.618,
      "grad_norm": 17.375,
      "grad_norm_var": 1.3082682291666667,
      "learning_rate": 0.0003,
      "loss": 10.8701,
      "loss/aux_loss": 0.048083477467298505,
      "loss/crossentropy": 2.6046105325222015,
      "loss/logits": 0.8223717421293258,
      "step": 61800
    },
    {
      "epoch": 0.6181,
      "grad_norm": 15.0,
      "grad_norm_var": 1.2212890625,
      "learning_rate": 0.0003,
      "loss": 10.7544,
      "loss/aux_loss": 0.04806771744042635,
      "loss/crossentropy": 2.703940987586975,
      "loss/logits": 0.8195635229349136,
      "step": 61810
    },
    {
      "epoch": 0.6182,
      "grad_norm": 15.875,
      "grad_norm_var": 0.5813639322916667,
      "learning_rate": 0.0003,
      "loss": 10.8849,
      "loss/aux_loss": 0.048071309179067614,
      "loss/crossentropy": 2.7586312294006348,
      "loss/logits": 0.8400523275136947,
      "step": 61820
    },
    {
      "epoch": 0.6183,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.1192057291666666,
      "learning_rate": 0.0003,
      "loss": 10.9316,
      "loss/aux_loss": 0.04807364828884601,
      "loss/crossentropy": 2.8496673822402956,
      "loss/logits": 0.8168164789676666,
      "step": 61830
    },
    {
      "epoch": 0.6184,
      "grad_norm": 16.375,
      "grad_norm_var": 4.017822265625,
      "learning_rate": 0.0003,
      "loss": 10.9409,
      "loss/aux_loss": 0.048056223429739475,
      "loss/crossentropy": 2.573849785327911,
      "loss/logits": 0.816324171423912,
      "step": 61840
    },
    {
      "epoch": 0.6185,
      "grad_norm": 14.4375,
      "grad_norm_var": 3.4400390625,
      "learning_rate": 0.0003,
      "loss": 10.9165,
      "loss/aux_loss": 0.04806674625724554,
      "loss/crossentropy": 2.757099586725235,
      "loss/logits": 0.8031830161809921,
      "step": 61850
    },
    {
      "epoch": 0.6186,
      "grad_norm": 15.25,
      "grad_norm_var": 0.35618489583333335,
      "learning_rate": 0.0003,
      "loss": 11.0356,
      "loss/aux_loss": 0.04808044787496328,
      "loss/crossentropy": 2.7227927923202513,
      "loss/logits": 0.817890202999115,
      "step": 61860
    },
    {
      "epoch": 0.6187,
      "grad_norm": 14.125,
      "grad_norm_var": 0.23326822916666667,
      "learning_rate": 0.0003,
      "loss": 10.7683,
      "loss/aux_loss": 0.048065101355314256,
      "loss/crossentropy": 2.5788680493831633,
      "loss/logits": 0.7917226999998093,
      "step": 61870
    },
    {
      "epoch": 0.6188,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.42578125,
      "learning_rate": 0.0003,
      "loss": 10.8498,
      "loss/aux_loss": 0.04807348400354385,
      "loss/crossentropy": 2.8568573355674745,
      "loss/logits": 0.831426665186882,
      "step": 61880
    },
    {
      "epoch": 0.6189,
      "grad_norm": 14.375,
      "grad_norm_var": 0.7421223958333333,
      "learning_rate": 0.0003,
      "loss": 10.9383,
      "loss/aux_loss": 0.048065127618610856,
      "loss/crossentropy": 2.7187650322914125,
      "loss/logits": 0.7684122264385224,
      "step": 61890
    },
    {
      "epoch": 0.619,
      "grad_norm": 14.625,
      "grad_norm_var": 0.6462890625,
      "learning_rate": 0.0003,
      "loss": 10.8742,
      "loss/aux_loss": 0.048072330094873904,
      "loss/crossentropy": 2.7928129851818086,
      "loss/logits": 0.840417456626892,
      "step": 61900
    },
    {
      "epoch": 0.6191,
      "grad_norm": 17.375,
      "grad_norm_var": 0.6249348958333333,
      "learning_rate": 0.0003,
      "loss": 10.95,
      "loss/aux_loss": 0.048061074875295165,
      "loss/crossentropy": 2.827212655544281,
      "loss/logits": 0.851186552643776,
      "step": 61910
    },
    {
      "epoch": 0.6192,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.8921223958333333,
      "learning_rate": 0.0003,
      "loss": 10.9378,
      "loss/aux_loss": 0.04807654786854983,
      "loss/crossentropy": 2.660733711719513,
      "loss/logits": 0.8380063980817795,
      "step": 61920
    },
    {
      "epoch": 0.6193,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.570556640625,
      "learning_rate": 0.0003,
      "loss": 10.9107,
      "loss/aux_loss": 0.04806284811347723,
      "loss/crossentropy": 2.6565398812294005,
      "loss/logits": 0.8210236459970475,
      "step": 61930
    },
    {
      "epoch": 0.6194,
      "grad_norm": 15.125,
      "grad_norm_var": 0.33787434895833335,
      "learning_rate": 0.0003,
      "loss": 10.842,
      "loss/aux_loss": 0.04807104039937258,
      "loss/crossentropy": 2.5869544565677645,
      "loss/logits": 0.8126054167747497,
      "step": 61940
    },
    {
      "epoch": 0.6195,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.4328125,
      "learning_rate": 0.0003,
      "loss": 10.8834,
      "loss/aux_loss": 0.048072011955082414,
      "loss/crossentropy": 2.839719223976135,
      "loss/logits": 0.823541471362114,
      "step": 61950
    },
    {
      "epoch": 0.6196,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.3223795572916667,
      "learning_rate": 0.0003,
      "loss": 10.8743,
      "loss/aux_loss": 0.04806395042687654,
      "loss/crossentropy": 2.798982226848602,
      "loss/logits": 0.7807911396026611,
      "step": 61960
    },
    {
      "epoch": 0.6197,
      "grad_norm": 14.5,
      "grad_norm_var": 1.5895182291666667,
      "learning_rate": 0.0003,
      "loss": 10.7799,
      "loss/aux_loss": 0.04806208536028862,
      "loss/crossentropy": 2.6087071001529694,
      "loss/logits": 0.8195267915725708,
      "step": 61970
    },
    {
      "epoch": 0.6198,
      "grad_norm": 15.125,
      "grad_norm_var": 0.6953125,
      "learning_rate": 0.0003,
      "loss": 11.043,
      "loss/aux_loss": 0.048067536950111386,
      "loss/crossentropy": 2.7437108635902403,
      "loss/logits": 0.8448336660861969,
      "step": 61980
    },
    {
      "epoch": 0.6199,
      "grad_norm": 17.625,
      "grad_norm_var": 0.860791015625,
      "learning_rate": 0.0003,
      "loss": 10.9815,
      "loss/aux_loss": 0.04807477705180645,
      "loss/crossentropy": 2.70632341504097,
      "loss/logits": 0.8352989315986633,
      "step": 61990
    },
    {
      "epoch": 0.62,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.3466145833333334,
      "learning_rate": 0.0003,
      "loss": 10.9892,
      "loss/aux_loss": 0.04806019198149443,
      "loss/crossentropy": 2.664289927482605,
      "loss/logits": 0.828738734126091,
      "step": 62000
    },
    {
      "epoch": 0.6201,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.3690104166666667,
      "learning_rate": 0.0003,
      "loss": 10.9197,
      "loss/aux_loss": 0.04807502832263708,
      "loss/crossentropy": 2.728136438131332,
      "loss/logits": 0.8290602266788483,
      "step": 62010
    },
    {
      "epoch": 0.6202,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5070149739583333,
      "learning_rate": 0.0003,
      "loss": 10.8922,
      "loss/aux_loss": 0.048071499727666375,
      "loss/crossentropy": 2.74332879781723,
      "loss/logits": 0.8003027319908143,
      "step": 62020
    },
    {
      "epoch": 0.6203,
      "grad_norm": 16.875,
      "grad_norm_var": 0.5157389322916667,
      "learning_rate": 0.0003,
      "loss": 11.0849,
      "loss/aux_loss": 0.048065542615950106,
      "loss/crossentropy": 2.7377222657203673,
      "loss/logits": 0.8492092847824096,
      "step": 62030
    },
    {
      "epoch": 0.6204,
      "grad_norm": 14.8125,
      "grad_norm_var": 1.1666015625,
      "learning_rate": 0.0003,
      "loss": 10.8011,
      "loss/aux_loss": 0.04808056894689798,
      "loss/crossentropy": 2.632717180252075,
      "loss/logits": 0.7819905787706375,
      "step": 62040
    },
    {
      "epoch": 0.6205,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.558447265625,
      "learning_rate": 0.0003,
      "loss": 10.883,
      "loss/aux_loss": 0.04806170351803303,
      "loss/crossentropy": 2.7062652587890623,
      "loss/logits": 0.7980828583240509,
      "step": 62050
    },
    {
      "epoch": 0.6206,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.1997233072916667,
      "learning_rate": 0.0003,
      "loss": 10.8167,
      "loss/aux_loss": 0.04807770270854235,
      "loss/crossentropy": 2.474736750125885,
      "loss/logits": 0.7879143923521041,
      "step": 62060
    },
    {
      "epoch": 0.6207,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.5335774739583333,
      "learning_rate": 0.0003,
      "loss": 11.0472,
      "loss/aux_loss": 0.04806693401187658,
      "loss/crossentropy": 2.7242776453495026,
      "loss/logits": 0.8014493867754936,
      "step": 62070
    },
    {
      "epoch": 0.6208,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.8457682291666667,
      "learning_rate": 0.0003,
      "loss": 10.9555,
      "loss/aux_loss": 0.048064196668565276,
      "loss/crossentropy": 2.8615013003349303,
      "loss/logits": 0.8332249820232391,
      "step": 62080
    },
    {
      "epoch": 0.6209,
      "grad_norm": 18.0,
      "grad_norm_var": 1.15078125,
      "learning_rate": 0.0003,
      "loss": 10.8982,
      "loss/aux_loss": 0.04807161465287209,
      "loss/crossentropy": 2.7590698480606077,
      "loss/logits": 0.828876069188118,
      "step": 62090
    },
    {
      "epoch": 0.621,
      "grad_norm": 16.125,
      "grad_norm_var": 0.6268229166666667,
      "learning_rate": 0.0003,
      "loss": 10.952,
      "loss/aux_loss": 0.048064458556473254,
      "loss/crossentropy": 2.8559590697288515,
      "loss/logits": 0.8306620687246322,
      "step": 62100
    },
    {
      "epoch": 0.6211,
      "grad_norm": 14.375,
      "grad_norm_var": 0.65,
      "learning_rate": 0.0003,
      "loss": 10.8323,
      "loss/aux_loss": 0.04808349907398224,
      "loss/crossentropy": 2.6381156027317045,
      "loss/logits": 0.829769441485405,
      "step": 62110
    },
    {
      "epoch": 0.6212,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.40208333333333335,
      "learning_rate": 0.0003,
      "loss": 10.9283,
      "loss/aux_loss": 0.048080073297023775,
      "loss/crossentropy": 2.7890799164772035,
      "loss/logits": 0.8134836733341217,
      "step": 62120
    },
    {
      "epoch": 0.6213,
      "grad_norm": 14.9375,
      "grad_norm_var": 35.38430989583333,
      "learning_rate": 0.0003,
      "loss": 10.7432,
      "loss/aux_loss": 0.048065336607396605,
      "loss/crossentropy": 2.44475519657135,
      "loss/logits": 0.7698864176869392,
      "step": 62130
    },
    {
      "epoch": 0.6214,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5469889322916667,
      "learning_rate": 0.0003,
      "loss": 10.9544,
      "loss/aux_loss": 0.04806721787899733,
      "loss/crossentropy": 2.5549269795417784,
      "loss/logits": 0.8181776434183121,
      "step": 62140
    },
    {
      "epoch": 0.6215,
      "grad_norm": 15.125,
      "grad_norm_var": 0.447900390625,
      "learning_rate": 0.0003,
      "loss": 10.8531,
      "loss/aux_loss": 0.048075252957642076,
      "loss/crossentropy": 2.8422864854335783,
      "loss/logits": 0.8431739717721939,
      "step": 62150
    },
    {
      "epoch": 0.6216,
      "grad_norm": 16.875,
      "grad_norm_var": 0.6466145833333333,
      "learning_rate": 0.0003,
      "loss": 10.9505,
      "loss/aux_loss": 0.048076402954757215,
      "loss/crossentropy": 2.8633032202720643,
      "loss/logits": 0.8444990605115891,
      "step": 62160
    },
    {
      "epoch": 0.6217,
      "grad_norm": 14.9375,
      "grad_norm_var": 1.3199055989583333,
      "learning_rate": 0.0003,
      "loss": 10.8851,
      "loss/aux_loss": 0.04805946424603462,
      "loss/crossentropy": 2.5738767266273497,
      "loss/logits": 0.7897825837135315,
      "step": 62170
    },
    {
      "epoch": 0.6218,
      "grad_norm": 14.4375,
      "grad_norm_var": 1.0264973958333334,
      "learning_rate": 0.0003,
      "loss": 10.9777,
      "loss/aux_loss": 0.04807272329926491,
      "loss/crossentropy": 2.559682661294937,
      "loss/logits": 0.8130290180444717,
      "step": 62180
    },
    {
      "epoch": 0.6219,
      "grad_norm": 15.75,
      "grad_norm_var": 1.2301432291666667,
      "learning_rate": 0.0003,
      "loss": 10.8184,
      "loss/aux_loss": 0.04808760862797499,
      "loss/crossentropy": 2.65628005862236,
      "loss/logits": 0.7793559074401856,
      "step": 62190
    },
    {
      "epoch": 0.622,
      "grad_norm": 27.75,
      "grad_norm_var": 10.504280598958333,
      "learning_rate": 0.0003,
      "loss": 10.9073,
      "loss/aux_loss": 0.04806331116706133,
      "loss/crossentropy": 2.751385676860809,
      "loss/logits": 0.8148221343755722,
      "step": 62200
    },
    {
      "epoch": 0.6221,
      "grad_norm": 14.8125,
      "grad_norm_var": 10.069205729166667,
      "learning_rate": 0.0003,
      "loss": 10.8365,
      "loss/aux_loss": 0.048077536001801494,
      "loss/crossentropy": 2.76932435631752,
      "loss/logits": 0.7825021982192993,
      "step": 62210
    },
    {
      "epoch": 0.6222,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.34661458333333334,
      "learning_rate": 0.0003,
      "loss": 10.9128,
      "loss/aux_loss": 0.048069404624402526,
      "loss/crossentropy": 2.6793047428131103,
      "loss/logits": 0.7982782870531082,
      "step": 62220
    },
    {
      "epoch": 0.6223,
      "grad_norm": 15.5625,
      "grad_norm_var": 51.823893229166664,
      "learning_rate": 0.0003,
      "loss": 11.0149,
      "loss/aux_loss": 0.04806563127785921,
      "loss/crossentropy": 2.742257535457611,
      "loss/logits": 0.8206332385540008,
      "step": 62230
    },
    {
      "epoch": 0.6224,
      "grad_norm": 15.25,
      "grad_norm_var": 49.48118489583333,
      "learning_rate": 0.0003,
      "loss": 10.9483,
      "loss/aux_loss": 0.04807669762521982,
      "loss/crossentropy": 2.7733189463615417,
      "loss/logits": 0.8633380651473999,
      "step": 62240
    },
    {
      "epoch": 0.6225,
      "grad_norm": 15.625,
      "grad_norm_var": 1.4867024739583334,
      "learning_rate": 0.0003,
      "loss": 10.8326,
      "loss/aux_loss": 0.04806031119078398,
      "loss/crossentropy": 2.7665975272655485,
      "loss/logits": 0.825995746254921,
      "step": 62250
    },
    {
      "epoch": 0.6226,
      "grad_norm": 17.375,
      "grad_norm_var": 31.684619140625,
      "learning_rate": 0.0003,
      "loss": 10.9359,
      "loss/aux_loss": 0.048060914315283296,
      "loss/crossentropy": 2.7299613773822786,
      "loss/logits": 0.7919081568717956,
      "step": 62260
    },
    {
      "epoch": 0.6227,
      "grad_norm": 16.0,
      "grad_norm_var": 32.25402018229167,
      "learning_rate": 0.0003,
      "loss": 10.9558,
      "loss/aux_loss": 0.048073223978281024,
      "loss/crossentropy": 2.854112696647644,
      "loss/logits": 0.8261337369680405,
      "step": 62270
    },
    {
      "epoch": 0.6228,
      "grad_norm": 16.25,
      "grad_norm_var": 0.37604166666666666,
      "learning_rate": 0.0003,
      "loss": 10.9295,
      "loss/aux_loss": 0.04806328769773245,
      "loss/crossentropy": 2.6099496364593504,
      "loss/logits": 0.7905628532171249,
      "step": 62280
    },
    {
      "epoch": 0.6229,
      "grad_norm": 15.0,
      "grad_norm_var": 0.8378743489583333,
      "learning_rate": 0.0003,
      "loss": 11.1089,
      "loss/aux_loss": 0.048074782267212866,
      "loss/crossentropy": 2.856866729259491,
      "loss/logits": 0.8273001462221146,
      "step": 62290
    },
    {
      "epoch": 0.623,
      "grad_norm": 15.375,
      "grad_norm_var": 0.5945149739583333,
      "learning_rate": 0.0003,
      "loss": 11.0759,
      "loss/aux_loss": 0.048062778823077676,
      "loss/crossentropy": 2.8540167093276976,
      "loss/logits": 0.8591305077075958,
      "step": 62300
    },
    {
      "epoch": 0.6231,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.1102701822916667,
      "learning_rate": 0.0003,
      "loss": 11.0353,
      "loss/aux_loss": 0.048072639107704165,
      "loss/crossentropy": 2.670693778991699,
      "loss/logits": 0.8144174665212631,
      "step": 62310
    },
    {
      "epoch": 0.6232,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.4649576822916667,
      "learning_rate": 0.0003,
      "loss": 10.8635,
      "loss/aux_loss": 0.04807703364640474,
      "loss/crossentropy": 2.6906314373016356,
      "loss/logits": 0.7975012451410294,
      "step": 62320
    },
    {
      "epoch": 0.6233,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.6809733072916667,
      "learning_rate": 0.0003,
      "loss": 10.9574,
      "loss/aux_loss": 0.04804598540067673,
      "loss/crossentropy": 2.7562792539596557,
      "loss/logits": 0.8315281063318253,
      "step": 62330
    },
    {
      "epoch": 0.6234,
      "grad_norm": 18.5,
      "grad_norm_var": 1.3674479166666667,
      "learning_rate": 0.0003,
      "loss": 11.0711,
      "loss/aux_loss": 0.04807227849960327,
      "loss/crossentropy": 2.699070680141449,
      "loss/logits": 0.8405324429273605,
      "step": 62340
    },
    {
      "epoch": 0.6235,
      "grad_norm": 15.375,
      "grad_norm_var": 48.110660807291666,
      "learning_rate": 0.0003,
      "loss": 10.9377,
      "loss/aux_loss": 0.04808774162083864,
      "loss/crossentropy": 2.8322594940662382,
      "loss/logits": 0.8086932510137558,
      "step": 62350
    },
    {
      "epoch": 0.6236,
      "grad_norm": 15.75,
      "grad_norm_var": 1.492041015625,
      "learning_rate": 0.0003,
      "loss": 10.8616,
      "loss/aux_loss": 0.04806898422539234,
      "loss/crossentropy": 2.5754688024520873,
      "loss/logits": 0.7867444813251495,
      "step": 62360
    },
    {
      "epoch": 0.6237,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.5119140625,
      "learning_rate": 0.0003,
      "loss": 10.9684,
      "loss/aux_loss": 0.04807077944278717,
      "loss/crossentropy": 2.6778059184551237,
      "loss/logits": 0.8169686466455459,
      "step": 62370
    },
    {
      "epoch": 0.6238,
      "grad_norm": 16.125,
      "grad_norm_var": 0.6291015625,
      "learning_rate": 0.0003,
      "loss": 10.9766,
      "loss/aux_loss": 0.04807309564203024,
      "loss/crossentropy": 2.6437867105007173,
      "loss/logits": 0.823999360203743,
      "step": 62380
    },
    {
      "epoch": 0.6239,
      "grad_norm": 16.25,
      "grad_norm_var": 0.7306640625,
      "learning_rate": 0.0003,
      "loss": 10.8911,
      "loss/aux_loss": 0.04806749243289232,
      "loss/crossentropy": 2.6562050104141237,
      "loss/logits": 0.8306028187274933,
      "step": 62390
    },
    {
      "epoch": 0.624,
      "grad_norm": 15.5,
      "grad_norm_var": 0.3,
      "learning_rate": 0.0003,
      "loss": 11.061,
      "loss/aux_loss": 0.04807000830769539,
      "loss/crossentropy": 2.786527621746063,
      "loss/logits": 0.8158238917589188,
      "step": 62400
    },
    {
      "epoch": 0.6241,
      "grad_norm": 16.0,
      "grad_norm_var": 0.3340983072916667,
      "learning_rate": 0.0003,
      "loss": 11.0293,
      "loss/aux_loss": 0.04807388223707676,
      "loss/crossentropy": 2.7131783425807954,
      "loss/logits": 0.8209474682807922,
      "step": 62410
    },
    {
      "epoch": 0.6242,
      "grad_norm": 14.5,
      "grad_norm_var": 0.22109375,
      "learning_rate": 0.0003,
      "loss": 10.9286,
      "loss/aux_loss": 0.04806325174868107,
      "loss/crossentropy": 2.6579012751579283,
      "loss/logits": 0.8379012405872345,
      "step": 62420
    },
    {
      "epoch": 0.6243,
      "grad_norm": 15.25,
      "grad_norm_var": 0.3780598958333333,
      "learning_rate": 0.0003,
      "loss": 10.8599,
      "loss/aux_loss": 0.048072734661400315,
      "loss/crossentropy": 2.668544816970825,
      "loss/logits": 0.8266326695680618,
      "step": 62430
    },
    {
      "epoch": 0.6244,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.6106608072916667,
      "learning_rate": 0.0003,
      "loss": 10.8735,
      "loss/aux_loss": 0.048060843162238596,
      "loss/crossentropy": 2.692414402961731,
      "loss/logits": 0.8246606469154358,
      "step": 62440
    },
    {
      "epoch": 0.6245,
      "grad_norm": 14.9375,
      "grad_norm_var": 1.0809733072916667,
      "learning_rate": 0.0003,
      "loss": 10.9023,
      "loss/aux_loss": 0.04808099400252104,
      "loss/crossentropy": 2.865987467765808,
      "loss/logits": 0.8370956897735595,
      "step": 62450
    },
    {
      "epoch": 0.6246,
      "grad_norm": 14.625,
      "grad_norm_var": 0.835791015625,
      "learning_rate": 0.0003,
      "loss": 10.8651,
      "loss/aux_loss": 0.04806222338229418,
      "loss/crossentropy": 2.5183817207813264,
      "loss/logits": 0.7817242562770843,
      "step": 62460
    },
    {
      "epoch": 0.6247,
      "grad_norm": 14.25,
      "grad_norm_var": 2.8445149739583333,
      "learning_rate": 0.0003,
      "loss": 10.8275,
      "loss/aux_loss": 0.04807907696813345,
      "loss/crossentropy": 2.5393788814544678,
      "loss/logits": 0.7698053836822509,
      "step": 62470
    },
    {
      "epoch": 0.6248,
      "grad_norm": 14.75,
      "grad_norm_var": 0.21964518229166666,
      "learning_rate": 0.0003,
      "loss": 10.9445,
      "loss/aux_loss": 0.04807716142386198,
      "loss/crossentropy": 2.879362916946411,
      "loss/logits": 0.8249101668596268,
      "step": 62480
    },
    {
      "epoch": 0.6249,
      "grad_norm": 15.5,
      "grad_norm_var": 0.3416666666666667,
      "learning_rate": 0.0003,
      "loss": 10.8909,
      "loss/aux_loss": 0.04806219730526209,
      "loss/crossentropy": 2.6007526874542237,
      "loss/logits": 0.8132065325975418,
      "step": 62490
    },
    {
      "epoch": 0.625,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.5270670572916667,
      "learning_rate": 0.0003,
      "loss": 11.0119,
      "loss/aux_loss": 0.04807214587926865,
      "loss/crossentropy": 2.636463737487793,
      "loss/logits": 0.7892209351062774,
      "step": 62500
    },
    {
      "epoch": 0.6251,
      "grad_norm": 14.5,
      "grad_norm_var": 1.1276041666666667,
      "learning_rate": 0.0003,
      "loss": 10.9606,
      "loss/aux_loss": 0.04807151295244694,
      "loss/crossentropy": 2.6543030560016634,
      "loss/logits": 0.8350883662700653,
      "step": 62510
    },
    {
      "epoch": 0.6252,
      "grad_norm": 14.875,
      "grad_norm_var": 0.31354166666666666,
      "learning_rate": 0.0003,
      "loss": 10.8797,
      "loss/aux_loss": 0.04806313067674637,
      "loss/crossentropy": 2.7374988555908204,
      "loss/logits": 0.8234562575817108,
      "step": 62520
    },
    {
      "epoch": 0.6253,
      "grad_norm": 14.125,
      "grad_norm_var": 0.9880208333333333,
      "learning_rate": 0.0003,
      "loss": 11.2108,
      "loss/aux_loss": 0.048078093118965624,
      "loss/crossentropy": 2.745024061203003,
      "loss/logits": 0.8560461461544037,
      "step": 62530
    },
    {
      "epoch": 0.6254,
      "grad_norm": 15.0,
      "grad_norm_var": 0.7145182291666666,
      "learning_rate": 0.0003,
      "loss": 10.987,
      "loss/aux_loss": 0.04806946255266666,
      "loss/crossentropy": 2.651322227716446,
      "loss/logits": 0.8073702841997147,
      "step": 62540
    },
    {
      "epoch": 0.6255,
      "grad_norm": 15.75,
      "grad_norm_var": 0.2684733072916667,
      "learning_rate": 0.0003,
      "loss": 10.8866,
      "loss/aux_loss": 0.048070280253887175,
      "loss/crossentropy": 2.6663502156734467,
      "loss/logits": 0.823998111486435,
      "step": 62550
    },
    {
      "epoch": 0.6256,
      "grad_norm": 72.5,
      "grad_norm_var": 205.42701822916666,
      "learning_rate": 0.0003,
      "loss": 10.9477,
      "loss/aux_loss": 0.04807772878557444,
      "loss/crossentropy": 2.639860916137695,
      "loss/logits": 0.8050632417201996,
      "step": 62560
    },
    {
      "epoch": 0.6257,
      "grad_norm": 18.0,
      "grad_norm_var": 201.77667643229168,
      "learning_rate": 0.0003,
      "loss": 10.9815,
      "loss/aux_loss": 0.048079793155193326,
      "loss/crossentropy": 2.8103298008441926,
      "loss/logits": 0.8344414174556732,
      "step": 62570
    },
    {
      "epoch": 0.6258,
      "grad_norm": 15.8125,
      "grad_norm_var": 1.1109212239583333,
      "learning_rate": 0.0003,
      "loss": 10.9126,
      "loss/aux_loss": 0.04806471895426512,
      "loss/crossentropy": 2.6820645689964295,
      "loss/logits": 0.8160485446453094,
      "step": 62580
    },
    {
      "epoch": 0.6259,
      "grad_norm": 17.0,
      "grad_norm_var": 0.9077473958333333,
      "learning_rate": 0.0003,
      "loss": 10.8826,
      "loss/aux_loss": 0.048061324283480644,
      "loss/crossentropy": 2.5685730636119843,
      "loss/logits": 0.7997966796159744,
      "step": 62590
    },
    {
      "epoch": 0.626,
      "grad_norm": 15.25,
      "grad_norm_var": 1.097900390625,
      "learning_rate": 0.0003,
      "loss": 10.8269,
      "loss/aux_loss": 0.04806754421442747,
      "loss/crossentropy": 2.563853049278259,
      "loss/logits": 0.7696677416563034,
      "step": 62600
    },
    {
      "epoch": 0.6261,
      "grad_norm": 15.75,
      "grad_norm_var": 1.073681640625,
      "learning_rate": 0.0003,
      "loss": 10.7331,
      "loss/aux_loss": 0.04807633589953184,
      "loss/crossentropy": 2.7461453557014464,
      "loss/logits": 0.8335110425949097,
      "step": 62610
    },
    {
      "epoch": 0.6262,
      "grad_norm": 15.5,
      "grad_norm_var": 0.9044108072916667,
      "learning_rate": 0.0003,
      "loss": 10.9591,
      "loss/aux_loss": 0.04808416999876499,
      "loss/crossentropy": 2.652498370409012,
      "loss/logits": 0.7771803379058838,
      "step": 62620
    },
    {
      "epoch": 0.6263,
      "grad_norm": 15.125,
      "grad_norm_var": 0.30597330729166666,
      "learning_rate": 0.0003,
      "loss": 10.9905,
      "loss/aux_loss": 0.048068183846771716,
      "loss/crossentropy": 2.7204720437526704,
      "loss/logits": 0.8556759804487228,
      "step": 62630
    },
    {
      "epoch": 0.6264,
      "grad_norm": 14.625,
      "grad_norm_var": 0.813134765625,
      "learning_rate": 0.0003,
      "loss": 10.7167,
      "loss/aux_loss": 0.048065423220396045,
      "loss/crossentropy": 2.565179693698883,
      "loss/logits": 0.8034500062465668,
      "step": 62640
    },
    {
      "epoch": 0.6265,
      "grad_norm": 15.0625,
      "grad_norm_var": 13.729166666666666,
      "learning_rate": 0.0003,
      "loss": 10.8313,
      "loss/aux_loss": 0.048078210465610026,
      "loss/crossentropy": 2.7543790459632875,
      "loss/logits": 0.8006289631128312,
      "step": 62650
    },
    {
      "epoch": 0.6266,
      "grad_norm": 16.0,
      "grad_norm_var": 0.9395833333333333,
      "learning_rate": 0.0003,
      "loss": 10.9459,
      "loss/aux_loss": 0.04806745704263449,
      "loss/crossentropy": 2.822178053855896,
      "loss/logits": 0.8426857680082321,
      "step": 62660
    },
    {
      "epoch": 0.6267,
      "grad_norm": 15.0,
      "grad_norm_var": 0.7831868489583333,
      "learning_rate": 0.0003,
      "loss": 10.9596,
      "loss/aux_loss": 0.04807326514273882,
      "loss/crossentropy": 2.694602167606354,
      "loss/logits": 0.8324411004781723,
      "step": 62670
    },
    {
      "epoch": 0.6268,
      "grad_norm": 15.5625,
      "grad_norm_var": 86.090869140625,
      "learning_rate": 0.0003,
      "loss": 11.0313,
      "loss/aux_loss": 0.04808346442878246,
      "loss/crossentropy": 2.6940039336681365,
      "loss/logits": 0.8582751452922821,
      "step": 62680
    },
    {
      "epoch": 0.6269,
      "grad_norm": 17.0,
      "grad_norm_var": 84.3541015625,
      "learning_rate": 0.0003,
      "loss": 11.0566,
      "loss/aux_loss": 0.04807037822902203,
      "loss/crossentropy": 2.7277477622032165,
      "loss/logits": 0.8286092817783356,
      "step": 62690
    },
    {
      "epoch": 0.627,
      "grad_norm": 15.0,
      "grad_norm_var": 1.0344889322916666,
      "learning_rate": 0.0003,
      "loss": 10.897,
      "loss/aux_loss": 0.048066021874547005,
      "loss/crossentropy": 2.6495929658412933,
      "loss/logits": 0.7907640814781189,
      "step": 62700
    },
    {
      "epoch": 0.6271,
      "grad_norm": 14.8125,
      "grad_norm_var": 1.0577962239583334,
      "learning_rate": 0.0003,
      "loss": 11.0379,
      "loss/aux_loss": 0.04806892462074756,
      "loss/crossentropy": 2.6996763944625854,
      "loss/logits": 0.8464843809604645,
      "step": 62710
    },
    {
      "epoch": 0.6272,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.22701822916666667,
      "learning_rate": 0.0003,
      "loss": 10.8966,
      "loss/aux_loss": 0.04808309208601713,
      "loss/crossentropy": 2.7269538223743437,
      "loss/logits": 0.797277769446373,
      "step": 62720
    },
    {
      "epoch": 0.6273,
      "grad_norm": 16.25,
      "grad_norm_var": 0.9309895833333334,
      "learning_rate": 0.0003,
      "loss": 10.9687,
      "loss/aux_loss": 0.04806727655231953,
      "loss/crossentropy": 2.64298877120018,
      "loss/logits": 0.7983599692583084,
      "step": 62730
    },
    {
      "epoch": 0.6274,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.6864420572916666,
      "learning_rate": 0.0003,
      "loss": 11.0072,
      "loss/aux_loss": 0.04806558284908533,
      "loss/crossentropy": 2.675836908817291,
      "loss/logits": 0.8062641978263855,
      "step": 62740
    },
    {
      "epoch": 0.6275,
      "grad_norm": 16.25,
      "grad_norm_var": 0.7261555989583334,
      "learning_rate": 0.0003,
      "loss": 10.8478,
      "loss/aux_loss": 0.04808370973914862,
      "loss/crossentropy": 2.6298579216003417,
      "loss/logits": 0.8091606229543686,
      "step": 62750
    },
    {
      "epoch": 0.6276,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.6263020833333334,
      "learning_rate": 0.0003,
      "loss": 10.9488,
      "loss/aux_loss": 0.048074055649340156,
      "loss/crossentropy": 2.684184890985489,
      "loss/logits": 0.8185036033391953,
      "step": 62760
    },
    {
      "epoch": 0.6277,
      "grad_norm": 15.0,
      "grad_norm_var": 0.7436848958333333,
      "learning_rate": 0.0003,
      "loss": 10.9509,
      "loss/aux_loss": 0.04805560186505318,
      "loss/crossentropy": 2.7323277831077575,
      "loss/logits": 0.8214883893728256,
      "step": 62770
    },
    {
      "epoch": 0.6278,
      "grad_norm": 16.375,
      "grad_norm_var": 0.6624837239583333,
      "learning_rate": 0.0003,
      "loss": 10.9952,
      "loss/aux_loss": 0.04808086436241865,
      "loss/crossentropy": 2.7757518172264097,
      "loss/logits": 0.8345901370048523,
      "step": 62780
    },
    {
      "epoch": 0.6279,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.7156087239583333,
      "learning_rate": 0.0003,
      "loss": 10.8995,
      "loss/aux_loss": 0.04808343015611172,
      "loss/crossentropy": 2.809204262495041,
      "loss/logits": 0.8202072083950043,
      "step": 62790
    },
    {
      "epoch": 0.628,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.37701822916666666,
      "learning_rate": 0.0003,
      "loss": 10.8546,
      "loss/aux_loss": 0.048064966686069965,
      "loss/crossentropy": 2.7755215167999268,
      "loss/logits": 0.8226945012807846,
      "step": 62800
    },
    {
      "epoch": 0.6281,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.3634765625,
      "learning_rate": 0.0003,
      "loss": 10.8531,
      "loss/aux_loss": 0.04806779157370329,
      "loss/crossentropy": 2.684882569313049,
      "loss/logits": 0.82384153008461,
      "step": 62810
    },
    {
      "epoch": 0.6282,
      "grad_norm": 14.25,
      "grad_norm_var": 0.4567057291666667,
      "learning_rate": 0.0003,
      "loss": 10.8806,
      "loss/aux_loss": 0.048072170466184616,
      "loss/crossentropy": 2.750021505355835,
      "loss/logits": 0.7991617172956467,
      "step": 62820
    },
    {
      "epoch": 0.6283,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.2503743489583333,
      "learning_rate": 0.0003,
      "loss": 10.9362,
      "loss/aux_loss": 0.04807143583893776,
      "loss/crossentropy": 2.749982488155365,
      "loss/logits": 0.8353980958461762,
      "step": 62830
    },
    {
      "epoch": 0.6284,
      "grad_norm": 14.25,
      "grad_norm_var": 0.517041015625,
      "learning_rate": 0.0003,
      "loss": 10.9349,
      "loss/aux_loss": 0.048057589866220954,
      "loss/crossentropy": 2.761917233467102,
      "loss/logits": 0.8192497193813324,
      "step": 62840
    },
    {
      "epoch": 0.6285,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.5915201822916667,
      "learning_rate": 0.0003,
      "loss": 10.7967,
      "loss/aux_loss": 0.04808051139116287,
      "loss/crossentropy": 2.4791474997997285,
      "loss/logits": 0.8087964832782746,
      "step": 62850
    },
    {
      "epoch": 0.6286,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.5188639322916667,
      "learning_rate": 0.0003,
      "loss": 11.022,
      "loss/aux_loss": 0.048080192692577836,
      "loss/crossentropy": 2.8895226955413817,
      "loss/logits": 0.8381287634372712,
      "step": 62860
    },
    {
      "epoch": 0.6287,
      "grad_norm": 15.5,
      "grad_norm_var": 0.5929524739583333,
      "learning_rate": 0.0003,
      "loss": 10.908,
      "loss/aux_loss": 0.04806222971528769,
      "loss/crossentropy": 2.747699362039566,
      "loss/logits": 0.8261835396289825,
      "step": 62870
    },
    {
      "epoch": 0.6288,
      "grad_norm": 15.375,
      "grad_norm_var": 1.2239420572916666,
      "learning_rate": 0.0003,
      "loss": 10.9217,
      "loss/aux_loss": 0.048062012530863285,
      "loss/crossentropy": 2.6717309832572935,
      "loss/logits": 0.8120827436447143,
      "step": 62880
    },
    {
      "epoch": 0.6289,
      "grad_norm": 13.9375,
      "grad_norm_var": 1.063525390625,
      "learning_rate": 0.0003,
      "loss": 10.7873,
      "loss/aux_loss": 0.048078616708517076,
      "loss/crossentropy": 2.6327943921089174,
      "loss/logits": 0.7977903634309769,
      "step": 62890
    },
    {
      "epoch": 0.629,
      "grad_norm": 16.0,
      "grad_norm_var": 0.4988932291666667,
      "learning_rate": 0.0003,
      "loss": 10.948,
      "loss/aux_loss": 0.04807599578052759,
      "loss/crossentropy": 2.727197366952896,
      "loss/logits": 0.8394771188497543,
      "step": 62900
    },
    {
      "epoch": 0.6291,
      "grad_norm": 15.375,
      "grad_norm_var": 0.3973307291666667,
      "learning_rate": 0.0003,
      "loss": 10.902,
      "loss/aux_loss": 0.04805990718305111,
      "loss/crossentropy": 2.791462790966034,
      "loss/logits": 0.8735287189483643,
      "step": 62910
    },
    {
      "epoch": 0.6292,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.3952473958333333,
      "learning_rate": 0.0003,
      "loss": 10.9858,
      "loss/aux_loss": 0.04808229636400938,
      "loss/crossentropy": 2.740624117851257,
      "loss/logits": 0.7988775402307511,
      "step": 62920
    },
    {
      "epoch": 0.6293,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.968212890625,
      "learning_rate": 0.0003,
      "loss": 10.8832,
      "loss/aux_loss": 0.0480513833463192,
      "loss/crossentropy": 2.785011887550354,
      "loss/logits": 0.8363262772560119,
      "step": 62930
    },
    {
      "epoch": 0.6294,
      "grad_norm": 16.25,
      "grad_norm_var": 0.5317708333333333,
      "learning_rate": 0.0003,
      "loss": 10.8444,
      "loss/aux_loss": 0.04807438999414444,
      "loss/crossentropy": 2.6182597100734712,
      "loss/logits": 0.7917582601308822,
      "step": 62940
    },
    {
      "epoch": 0.6295,
      "grad_norm": 14.375,
      "grad_norm_var": 0.4007649739583333,
      "learning_rate": 0.0003,
      "loss": 10.8933,
      "loss/aux_loss": 0.048065260984003544,
      "loss/crossentropy": 2.6386733055114746,
      "loss/logits": 0.8080016434192657,
      "step": 62950
    },
    {
      "epoch": 0.6296,
      "grad_norm": 14.5625,
      "grad_norm_var": 4.309358723958334,
      "learning_rate": 0.0003,
      "loss": 10.9506,
      "loss/aux_loss": 0.04806258585304022,
      "loss/crossentropy": 2.6573799908161164,
      "loss/logits": 0.797971498966217,
      "step": 62960
    },
    {
      "epoch": 0.6297,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.6682291666666667,
      "learning_rate": 0.0003,
      "loss": 10.8314,
      "loss/aux_loss": 0.04807965587824583,
      "loss/crossentropy": 2.614883852005005,
      "loss/logits": 0.7928066223859787,
      "step": 62970
    },
    {
      "epoch": 0.6298,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.452587890625,
      "learning_rate": 0.0003,
      "loss": 11.0064,
      "loss/aux_loss": 0.048063984513282774,
      "loss/crossentropy": 2.7016715586185454,
      "loss/logits": 0.8424327522516251,
      "step": 62980
    },
    {
      "epoch": 0.6299,
      "grad_norm": 15.0,
      "grad_norm_var": 0.3759765625,
      "learning_rate": 0.0003,
      "loss": 10.818,
      "loss/aux_loss": 0.04806662555783987,
      "loss/crossentropy": 2.7241014719009398,
      "loss/logits": 0.8228190451860428,
      "step": 62990
    },
    {
      "epoch": 0.63,
      "grad_norm": 15.625,
      "grad_norm_var": 0.3109212239583333,
      "learning_rate": 0.0003,
      "loss": 10.8628,
      "loss/aux_loss": 0.048064174503087996,
      "loss/crossentropy": 2.558414030075073,
      "loss/logits": 0.8088842839002609,
      "step": 63000
    },
    {
      "epoch": 0.6301,
      "grad_norm": 15.125,
      "grad_norm_var": 0.5624348958333333,
      "learning_rate": 0.0003,
      "loss": 11.0454,
      "loss/aux_loss": 0.04806617610156536,
      "loss/crossentropy": 2.8958580434322356,
      "loss/logits": 0.8480107396841049,
      "step": 63010
    },
    {
      "epoch": 0.6302,
      "grad_norm": 15.375,
      "grad_norm_var": 0.42185872395833335,
      "learning_rate": 0.0003,
      "loss": 10.8501,
      "loss/aux_loss": 0.04805904608219862,
      "loss/crossentropy": 2.912857186794281,
      "loss/logits": 0.8123132467269898,
      "step": 63020
    },
    {
      "epoch": 0.6303,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.6196451822916667,
      "learning_rate": 0.0003,
      "loss": 10.6561,
      "loss/aux_loss": 0.04808768462389708,
      "loss/crossentropy": 2.677269399166107,
      "loss/logits": 0.8051055639982223,
      "step": 63030
    },
    {
      "epoch": 0.6304,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.6065104166666667,
      "learning_rate": 0.0003,
      "loss": 10.784,
      "loss/aux_loss": 0.04805712196975946,
      "loss/crossentropy": 2.9472272872924803,
      "loss/logits": 0.8176089495420455,
      "step": 63040
    },
    {
      "epoch": 0.6305,
      "grad_norm": 15.25,
      "grad_norm_var": 0.51953125,
      "learning_rate": 0.0003,
      "loss": 10.8028,
      "loss/aux_loss": 0.04806398153305054,
      "loss/crossentropy": 2.6117322742938995,
      "loss/logits": 0.8162994027137757,
      "step": 63050
    },
    {
      "epoch": 0.6306,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.9244140625,
      "learning_rate": 0.0003,
      "loss": 10.9476,
      "loss/aux_loss": 0.04808130543678999,
      "loss/crossentropy": 2.674235236644745,
      "loss/logits": 0.8312394112348557,
      "step": 63060
    },
    {
      "epoch": 0.6307,
      "grad_norm": 15.5,
      "grad_norm_var": 0.9276041666666667,
      "learning_rate": 0.0003,
      "loss": 11.0446,
      "loss/aux_loss": 0.048066967912018296,
      "loss/crossentropy": 2.751528322696686,
      "loss/logits": 0.8499272048473359,
      "step": 63070
    },
    {
      "epoch": 0.6308,
      "grad_norm": 14.4375,
      "grad_norm_var": 1.1157389322916667,
      "learning_rate": 0.0003,
      "loss": 10.9221,
      "loss/aux_loss": 0.04807424377650023,
      "loss/crossentropy": 2.756152319908142,
      "loss/logits": 0.8447676509618759,
      "step": 63080
    },
    {
      "epoch": 0.6309,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.7453125,
      "learning_rate": 0.0003,
      "loss": 10.8395,
      "loss/aux_loss": 0.048067429848015306,
      "loss/crossentropy": 2.895149755477905,
      "loss/logits": 0.8409383088350296,
      "step": 63090
    },
    {
      "epoch": 0.631,
      "grad_norm": 14.0,
      "grad_norm_var": 0.9541666666666667,
      "learning_rate": 0.0003,
      "loss": 11.026,
      "loss/aux_loss": 0.04806844405829906,
      "loss/crossentropy": 2.747306799888611,
      "loss/logits": 0.8143503844738007,
      "step": 63100
    },
    {
      "epoch": 0.6311,
      "grad_norm": 15.125,
      "grad_norm_var": 4.254671223958334,
      "learning_rate": 0.0003,
      "loss": 10.9367,
      "loss/aux_loss": 0.04806724544614553,
      "loss/crossentropy": 2.741036427021027,
      "loss/logits": 0.8391730457544326,
      "step": 63110
    },
    {
      "epoch": 0.6312,
      "grad_norm": 14.1875,
      "grad_norm_var": 1.7449055989583333,
      "learning_rate": 0.0003,
      "loss": 11.0246,
      "loss/aux_loss": 0.04807869717478752,
      "loss/crossentropy": 2.748949956893921,
      "loss/logits": 0.8150217235088348,
      "step": 63120
    },
    {
      "epoch": 0.6313,
      "grad_norm": 15.0,
      "grad_norm_var": 1.1575520833333333,
      "learning_rate": 0.0003,
      "loss": 10.8627,
      "loss/aux_loss": 0.048072864301502705,
      "loss/crossentropy": 2.5791411340236663,
      "loss/logits": 0.7991462841629982,
      "step": 63130
    },
    {
      "epoch": 0.6314,
      "grad_norm": 15.25,
      "grad_norm_var": 1.3233723958333334,
      "learning_rate": 0.0003,
      "loss": 10.8953,
      "loss/aux_loss": 0.04805458467453718,
      "loss/crossentropy": 2.609523779153824,
      "loss/logits": 0.8489516407251358,
      "step": 63140
    },
    {
      "epoch": 0.6315,
      "grad_norm": 14.125,
      "grad_norm_var": 0.6304524739583334,
      "learning_rate": 0.0003,
      "loss": 10.934,
      "loss/aux_loss": 0.0480818985030055,
      "loss/crossentropy": 2.618219095468521,
      "loss/logits": 0.8005220651626587,
      "step": 63150
    },
    {
      "epoch": 0.6316,
      "grad_norm": 17.125,
      "grad_norm_var": 0.9078125,
      "learning_rate": 0.0003,
      "loss": 10.9303,
      "loss/aux_loss": 0.04806983359158039,
      "loss/crossentropy": 2.686432045698166,
      "loss/logits": 0.8284903228282928,
      "step": 63160
    },
    {
      "epoch": 0.6317,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.4434895833333334,
      "learning_rate": 0.0003,
      "loss": 10.9313,
      "loss/aux_loss": 0.04806499164551496,
      "loss/crossentropy": 2.7233918964862824,
      "loss/logits": 0.8174569487571717,
      "step": 63170
    },
    {
      "epoch": 0.6318,
      "grad_norm": 16.0,
      "grad_norm_var": 169.39816080729167,
      "learning_rate": 0.0003,
      "loss": 10.8758,
      "loss/aux_loss": 0.048072904162108895,
      "loss/crossentropy": 2.759899604320526,
      "loss/logits": 0.8145837306976318,
      "step": 63180
    },
    {
      "epoch": 0.6319,
      "grad_norm": 15.75,
      "grad_norm_var": 164.56328125,
      "learning_rate": 0.0003,
      "loss": 10.949,
      "loss/aux_loss": 0.048071921803057194,
      "loss/crossentropy": 2.555657994747162,
      "loss/logits": 0.793342587351799,
      "step": 63190
    },
    {
      "epoch": 0.632,
      "grad_norm": 14.375,
      "grad_norm_var": 0.3575358072916667,
      "learning_rate": 0.0003,
      "loss": 10.9903,
      "loss/aux_loss": 0.04807258564978838,
      "loss/crossentropy": 2.7257075905799866,
      "loss/logits": 0.8129594385623932,
      "step": 63200
    },
    {
      "epoch": 0.6321,
      "grad_norm": 14.0,
      "grad_norm_var": 0.46295572916666666,
      "learning_rate": 0.0003,
      "loss": 10.8189,
      "loss/aux_loss": 0.048059084080159666,
      "loss/crossentropy": 2.704482650756836,
      "loss/logits": 0.8401682913303375,
      "step": 63210
    },
    {
      "epoch": 0.6322,
      "grad_norm": 14.75,
      "grad_norm_var": 0.42337239583333336,
      "learning_rate": 0.0003,
      "loss": 10.9708,
      "loss/aux_loss": 0.04807595741003752,
      "loss/crossentropy": 2.6612473666667937,
      "loss/logits": 0.8036254912614822,
      "step": 63220
    },
    {
      "epoch": 0.6323,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.4369140625,
      "learning_rate": 0.0003,
      "loss": 10.8829,
      "loss/aux_loss": 0.04806538727134466,
      "loss/crossentropy": 2.730154258012772,
      "loss/logits": 0.8400603294372558,
      "step": 63230
    },
    {
      "epoch": 0.6324,
      "grad_norm": 15.3125,
      "grad_norm_var": 3.090559895833333,
      "learning_rate": 0.0003,
      "loss": 11.0641,
      "loss/aux_loss": 0.048070489801466464,
      "loss/crossentropy": 2.8468264818191527,
      "loss/logits": 0.838485524058342,
      "step": 63240
    },
    {
      "epoch": 0.6325,
      "grad_norm": 14.6875,
      "grad_norm_var": 3.206770833333333,
      "learning_rate": 0.0003,
      "loss": 11.0373,
      "loss/aux_loss": 0.04807015266269445,
      "loss/crossentropy": 2.78941011428833,
      "loss/logits": 0.8361764669418335,
      "step": 63250
    },
    {
      "epoch": 0.6326,
      "grad_norm": 14.75,
      "grad_norm_var": 29.7541015625,
      "learning_rate": 0.0003,
      "loss": 11.0234,
      "loss/aux_loss": 0.04807714801281691,
      "loss/crossentropy": 2.579346811771393,
      "loss/logits": 0.8216876536607742,
      "step": 63260
    },
    {
      "epoch": 0.6327,
      "grad_norm": 16.25,
      "grad_norm_var": 73.72159830729167,
      "learning_rate": 0.0003,
      "loss": 10.9517,
      "loss/aux_loss": 0.04807807840406895,
      "loss/crossentropy": 2.7519372761249543,
      "loss/logits": 0.8636613190174103,
      "step": 63270
    },
    {
      "epoch": 0.6328,
      "grad_norm": 17.0,
      "grad_norm_var": 0.8097493489583333,
      "learning_rate": 0.0003,
      "loss": 10.835,
      "loss/aux_loss": 0.04807962123304606,
      "loss/crossentropy": 2.561204981803894,
      "loss/logits": 0.7664595246315002,
      "step": 63280
    },
    {
      "epoch": 0.6329,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.8628743489583334,
      "learning_rate": 0.0003,
      "loss": 10.8773,
      "loss/aux_loss": 0.04806769024580717,
      "loss/crossentropy": 2.592850297689438,
      "loss/logits": 0.8082565724849701,
      "step": 63290
    },
    {
      "epoch": 0.633,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.5722493489583333,
      "learning_rate": 0.0003,
      "loss": 11.072,
      "loss/aux_loss": 0.048081412352621554,
      "loss/crossentropy": 2.8436991333961488,
      "loss/logits": 0.8220110654830932,
      "step": 63300
    },
    {
      "epoch": 0.6331,
      "grad_norm": 15.5,
      "grad_norm_var": 0.4627604166666667,
      "learning_rate": 0.0003,
      "loss": 10.9644,
      "loss/aux_loss": 0.04806417748332024,
      "loss/crossentropy": 2.746978682279587,
      "loss/logits": 0.8097629576921463,
      "step": 63310
    },
    {
      "epoch": 0.6332,
      "grad_norm": 14.125,
      "grad_norm_var": 1.061572265625,
      "learning_rate": 0.0003,
      "loss": 10.7537,
      "loss/aux_loss": 0.04806242845952511,
      "loss/crossentropy": 2.6207932353019716,
      "loss/logits": 0.8020304828882218,
      "step": 63320
    },
    {
      "epoch": 0.6333,
      "grad_norm": 14.375,
      "grad_norm_var": 0.3042805989583333,
      "learning_rate": 0.0003,
      "loss": 10.9099,
      "loss/aux_loss": 0.04806431401520968,
      "loss/crossentropy": 2.7724860310554504,
      "loss/logits": 0.812814936041832,
      "step": 63330
    },
    {
      "epoch": 0.6334,
      "grad_norm": 14.8125,
      "grad_norm_var": 3.206103515625,
      "learning_rate": 0.0003,
      "loss": 11.0152,
      "loss/aux_loss": 0.04808428026735782,
      "loss/crossentropy": 2.6957937836647035,
      "loss/logits": 0.8201660066843033,
      "step": 63340
    },
    {
      "epoch": 0.6335,
      "grad_norm": 18.625,
      "grad_norm_var": 4.637744140625,
      "learning_rate": 0.0003,
      "loss": 11.0486,
      "loss/aux_loss": 0.04807388950139284,
      "loss/crossentropy": 2.706111788749695,
      "loss/logits": 0.8277266383171081,
      "step": 63350
    },
    {
      "epoch": 0.6336,
      "grad_norm": 13.8125,
      "grad_norm_var": 1.4661458333333333,
      "learning_rate": 0.0003,
      "loss": 10.6886,
      "loss/aux_loss": 0.04806654676795006,
      "loss/crossentropy": 2.594613701105118,
      "loss/logits": 0.787641778588295,
      "step": 63360
    },
    {
      "epoch": 0.6337,
      "grad_norm": 16.875,
      "grad_norm_var": 0.5614420572916666,
      "learning_rate": 0.0003,
      "loss": 10.9344,
      "loss/aux_loss": 0.04806236121803522,
      "loss/crossentropy": 2.695681321620941,
      "loss/logits": 0.8070782214403153,
      "step": 63370
    },
    {
      "epoch": 0.6338,
      "grad_norm": 16.125,
      "grad_norm_var": 0.5291666666666667,
      "learning_rate": 0.0003,
      "loss": 10.9202,
      "loss/aux_loss": 0.04807351212948561,
      "loss/crossentropy": 2.5633945643901823,
      "loss/logits": 0.770171768963337,
      "step": 63380
    },
    {
      "epoch": 0.6339,
      "grad_norm": 15.0,
      "grad_norm_var": 0.3859375,
      "learning_rate": 0.0003,
      "loss": 10.9848,
      "loss/aux_loss": 0.04807458482682705,
      "loss/crossentropy": 2.643518990278244,
      "loss/logits": 0.8119804114103317,
      "step": 63390
    },
    {
      "epoch": 0.634,
      "grad_norm": 15.625,
      "grad_norm_var": 0.79609375,
      "learning_rate": 0.0003,
      "loss": 10.9034,
      "loss/aux_loss": 0.04807896073907614,
      "loss/crossentropy": 2.580906796455383,
      "loss/logits": 0.7909560561180115,
      "step": 63400
    },
    {
      "epoch": 0.6341,
      "grad_norm": 15.375,
      "grad_norm_var": 0.6630045572916666,
      "learning_rate": 0.0003,
      "loss": 10.8749,
      "loss/aux_loss": 0.04806428924202919,
      "loss/crossentropy": 2.6164624214172365,
      "loss/logits": 0.8118317008018494,
      "step": 63410
    },
    {
      "epoch": 0.6342,
      "grad_norm": 16.375,
      "grad_norm_var": 9.6837890625,
      "learning_rate": 0.0003,
      "loss": 10.9738,
      "loss/aux_loss": 0.0480818934738636,
      "loss/crossentropy": 2.6591660141944886,
      "loss/logits": 0.8064444810152054,
      "step": 63420
    },
    {
      "epoch": 0.6343,
      "grad_norm": 16.5,
      "grad_norm_var": 10.77578125,
      "learning_rate": 0.0003,
      "loss": 11.0038,
      "loss/aux_loss": 0.04806845411658287,
      "loss/crossentropy": 2.8173150777816773,
      "loss/logits": 0.839667072892189,
      "step": 63430
    },
    {
      "epoch": 0.6344,
      "grad_norm": 15.125,
      "grad_norm_var": 0.5028483072916666,
      "learning_rate": 0.0003,
      "loss": 10.8932,
      "loss/aux_loss": 0.04805213697254658,
      "loss/crossentropy": 2.636157047748566,
      "loss/logits": 0.792957991361618,
      "step": 63440
    },
    {
      "epoch": 0.6345,
      "grad_norm": 16.5,
      "grad_norm_var": 0.7291015625,
      "learning_rate": 0.0003,
      "loss": 10.8117,
      "loss/aux_loss": 0.048077466525137426,
      "loss/crossentropy": 2.6534729659557343,
      "loss/logits": 0.8073912143707276,
      "step": 63450
    },
    {
      "epoch": 0.6346,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.768994140625,
      "learning_rate": 0.0003,
      "loss": 10.7352,
      "loss/aux_loss": 0.04807067047804594,
      "loss/crossentropy": 2.716173303127289,
      "loss/logits": 0.8196294963359833,
      "step": 63460
    },
    {
      "epoch": 0.6347,
      "grad_norm": 14.875,
      "grad_norm_var": 0.490869140625,
      "learning_rate": 0.0003,
      "loss": 10.8034,
      "loss/aux_loss": 0.04808057863265276,
      "loss/crossentropy": 2.6360740780830385,
      "loss/logits": 0.7901035279035569,
      "step": 63470
    },
    {
      "epoch": 0.6348,
      "grad_norm": 15.5,
      "grad_norm_var": 0.7166015625,
      "learning_rate": 0.0003,
      "loss": 10.8123,
      "loss/aux_loss": 0.048066640831530096,
      "loss/crossentropy": 2.6251393437385557,
      "loss/logits": 0.7680756062269211,
      "step": 63480
    },
    {
      "epoch": 0.6349,
      "grad_norm": 16.5,
      "grad_norm_var": 2.012744140625,
      "learning_rate": 0.0003,
      "loss": 10.8699,
      "loss/aux_loss": 0.048078449070453645,
      "loss/crossentropy": 2.72235426902771,
      "loss/logits": 0.8374341070652008,
      "step": 63490
    },
    {
      "epoch": 0.635,
      "grad_norm": 14.9375,
      "grad_norm_var": 2.2,
      "learning_rate": 0.0003,
      "loss": 10.886,
      "loss/aux_loss": 0.04805882424116135,
      "loss/crossentropy": 2.775067353248596,
      "loss/logits": 0.8465858489274979,
      "step": 63500
    },
    {
      "epoch": 0.6351,
      "grad_norm": 15.25,
      "grad_norm_var": 0.1453125,
      "learning_rate": 0.0003,
      "loss": 10.8996,
      "loss/aux_loss": 0.048069519177079204,
      "loss/crossentropy": 2.8206980526447296,
      "loss/logits": 0.8248533338308335,
      "step": 63510
    },
    {
      "epoch": 0.6352,
      "grad_norm": 15.125,
      "grad_norm_var": 0.60625,
      "learning_rate": 0.0003,
      "loss": 10.8778,
      "loss/aux_loss": 0.04807919226586819,
      "loss/crossentropy": 2.8253234326839447,
      "loss/logits": 0.8029891848564148,
      "step": 63520
    },
    {
      "epoch": 0.6353,
      "grad_norm": 15.75,
      "grad_norm_var": 0.830712890625,
      "learning_rate": 0.0003,
      "loss": 10.8775,
      "loss/aux_loss": 0.048057425394654275,
      "loss/crossentropy": 2.6366010308265686,
      "loss/logits": 0.8082585781812668,
      "step": 63530
    },
    {
      "epoch": 0.6354,
      "grad_norm": 15.9375,
      "grad_norm_var": 1.255322265625,
      "learning_rate": 0.0003,
      "loss": 10.7782,
      "loss/aux_loss": 0.048088168166577815,
      "loss/crossentropy": 2.5838097631931305,
      "loss/logits": 0.7870519459247589,
      "step": 63540
    },
    {
      "epoch": 0.6355,
      "grad_norm": 14.875,
      "grad_norm_var": 1.31015625,
      "learning_rate": 0.0003,
      "loss": 10.8468,
      "loss/aux_loss": 0.04806020092219114,
      "loss/crossentropy": 2.711851143836975,
      "loss/logits": 0.8394827723503113,
      "step": 63550
    },
    {
      "epoch": 0.6356,
      "grad_norm": 16.375,
      "grad_norm_var": 0.5389973958333333,
      "learning_rate": 0.0003,
      "loss": 10.8928,
      "loss/aux_loss": 0.048066692799329756,
      "loss/crossentropy": 2.7870961904525755,
      "loss/logits": 0.8038838863372803,
      "step": 63560
    },
    {
      "epoch": 0.6357,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.41015625,
      "learning_rate": 0.0003,
      "loss": 10.9666,
      "loss/aux_loss": 0.04806511420756578,
      "loss/crossentropy": 2.641837865114212,
      "loss/logits": 0.8012272834777832,
      "step": 63570
    },
    {
      "epoch": 0.6358,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.35625,
      "learning_rate": 0.0003,
      "loss": 10.8966,
      "loss/aux_loss": 0.0480894086882472,
      "loss/crossentropy": 2.6827530384063722,
      "loss/logits": 0.7748128771781921,
      "step": 63580
    },
    {
      "epoch": 0.6359,
      "grad_norm": 14.75,
      "grad_norm_var": 0.496337890625,
      "learning_rate": 0.0003,
      "loss": 10.8975,
      "loss/aux_loss": 0.048070944286882876,
      "loss/crossentropy": 2.441706246137619,
      "loss/logits": 0.8006876438856125,
      "step": 63590
    },
    {
      "epoch": 0.636,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.2744140625,
      "learning_rate": 0.0003,
      "loss": 10.9769,
      "loss/aux_loss": 0.04805447738617659,
      "loss/crossentropy": 2.801032680273056,
      "loss/logits": 0.8238119214773179,
      "step": 63600
    },
    {
      "epoch": 0.6361,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.48359375,
      "learning_rate": 0.0003,
      "loss": 10.8361,
      "loss/aux_loss": 0.04808128047734499,
      "loss/crossentropy": 2.6498410642147063,
      "loss/logits": 0.7981126606464386,
      "step": 63610
    },
    {
      "epoch": 0.6362,
      "grad_norm": 14.375,
      "grad_norm_var": 0.28046875,
      "learning_rate": 0.0003,
      "loss": 10.9804,
      "loss/aux_loss": 0.04807472582906484,
      "loss/crossentropy": 2.6279158115386965,
      "loss/logits": 0.8193077623844147,
      "step": 63620
    },
    {
      "epoch": 0.6363,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.19568684895833333,
      "learning_rate": 0.0003,
      "loss": 10.7969,
      "loss/aux_loss": 0.048069669492542745,
      "loss/crossentropy": 2.8434048295021057,
      "loss/logits": 0.8453941226005555,
      "step": 63630
    },
    {
      "epoch": 0.6364,
      "grad_norm": 15.0,
      "grad_norm_var": 1.27265625,
      "learning_rate": 0.0003,
      "loss": 10.9003,
      "loss/aux_loss": 0.0480651993304491,
      "loss/crossentropy": 2.757810640335083,
      "loss/logits": 0.8333944648504257,
      "step": 63640
    },
    {
      "epoch": 0.6365,
      "grad_norm": 15.375,
      "grad_norm_var": 1.1129557291666667,
      "learning_rate": 0.0003,
      "loss": 11.0213,
      "loss/aux_loss": 0.04808567147701979,
      "loss/crossentropy": 2.717263233661652,
      "loss/logits": 0.862332072854042,
      "step": 63650
    },
    {
      "epoch": 0.6366,
      "grad_norm": 14.625,
      "grad_norm_var": 0.43743489583333334,
      "learning_rate": 0.0003,
      "loss": 11.0693,
      "loss/aux_loss": 0.04806395098567009,
      "loss/crossentropy": 2.705856317281723,
      "loss/logits": 0.7979970872402191,
      "step": 63660
    },
    {
      "epoch": 0.6367,
      "grad_norm": 16.125,
      "grad_norm_var": 0.489697265625,
      "learning_rate": 0.0003,
      "loss": 10.872,
      "loss/aux_loss": 0.048058228194713594,
      "loss/crossentropy": 2.552783203125,
      "loss/logits": 0.8018041133880616,
      "step": 63670
    },
    {
      "epoch": 0.6368,
      "grad_norm": 15.125,
      "grad_norm_var": 0.5059895833333333,
      "learning_rate": 0.0003,
      "loss": 10.7682,
      "loss/aux_loss": 0.048081094212830064,
      "loss/crossentropy": 2.757079029083252,
      "loss/logits": 0.8517242342233657,
      "step": 63680
    },
    {
      "epoch": 0.6369,
      "grad_norm": 15.875,
      "grad_norm_var": 0.4239420572916667,
      "learning_rate": 0.0003,
      "loss": 10.9756,
      "loss/aux_loss": 0.04806440509855747,
      "loss/crossentropy": 2.679883936047554,
      "loss/logits": 0.8242890566587449,
      "step": 63690
    },
    {
      "epoch": 0.637,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.792431640625,
      "learning_rate": 0.0003,
      "loss": 10.6549,
      "loss/aux_loss": 0.04806427750736475,
      "loss/crossentropy": 2.6404387235641478,
      "loss/logits": 0.8252344757318497,
      "step": 63700
    },
    {
      "epoch": 0.6371,
      "grad_norm": 15.125,
      "grad_norm_var": 0.6921223958333333,
      "learning_rate": 0.0003,
      "loss": 10.952,
      "loss/aux_loss": 0.04807978924363852,
      "loss/crossentropy": 2.7173975467681886,
      "loss/logits": 0.8082460671663284,
      "step": 63710
    },
    {
      "epoch": 0.6372,
      "grad_norm": 16.5,
      "grad_norm_var": 0.566650390625,
      "learning_rate": 0.0003,
      "loss": 10.7532,
      "loss/aux_loss": 0.04806181751191616,
      "loss/crossentropy": 2.790048438310623,
      "loss/logits": 0.8141476571559906,
      "step": 63720
    },
    {
      "epoch": 0.6373,
      "grad_norm": 16.125,
      "grad_norm_var": 0.7513020833333334,
      "learning_rate": 0.0003,
      "loss": 10.9906,
      "loss/aux_loss": 0.048070454970002174,
      "loss/crossentropy": 2.7498911917209625,
      "loss/logits": 0.8331282079219818,
      "step": 63730
    },
    {
      "epoch": 0.6374,
      "grad_norm": 16.75,
      "grad_norm_var": 0.954931640625,
      "learning_rate": 0.0003,
      "loss": 10.76,
      "loss/aux_loss": 0.04806820340454578,
      "loss/crossentropy": 2.685372221469879,
      "loss/logits": 0.8030792355537415,
      "step": 63740
    },
    {
      "epoch": 0.6375,
      "grad_norm": 15.25,
      "grad_norm_var": 0.9230305989583333,
      "learning_rate": 0.0003,
      "loss": 10.9593,
      "loss/aux_loss": 0.048071705549955365,
      "loss/crossentropy": 2.553539252281189,
      "loss/logits": 0.8266629427671432,
      "step": 63750
    },
    {
      "epoch": 0.6376,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.6065104166666667,
      "learning_rate": 0.0003,
      "loss": 10.8365,
      "loss/aux_loss": 0.04807527456432581,
      "loss/crossentropy": 2.7262804925441744,
      "loss/logits": 0.801684433221817,
      "step": 63760
    },
    {
      "epoch": 0.6377,
      "grad_norm": 16.625,
      "grad_norm_var": 0.5832682291666667,
      "learning_rate": 0.0003,
      "loss": 10.9552,
      "loss/aux_loss": 0.04806269612163305,
      "loss/crossentropy": 2.7759795606136324,
      "loss/logits": 0.8241303324699402,
      "step": 63770
    },
    {
      "epoch": 0.6378,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.2555826822916667,
      "learning_rate": 0.0003,
      "loss": 10.8722,
      "loss/aux_loss": 0.04808154441416264,
      "loss/crossentropy": 2.723454737663269,
      "loss/logits": 0.7963994681835175,
      "step": 63780
    },
    {
      "epoch": 0.6379,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.0734375,
      "learning_rate": 0.0003,
      "loss": 10.9994,
      "loss/aux_loss": 0.04806034788489342,
      "loss/crossentropy": 2.787865138053894,
      "loss/logits": 0.8507139623165131,
      "step": 63790
    },
    {
      "epoch": 0.638,
      "grad_norm": 14.625,
      "grad_norm_var": 1.4801432291666667,
      "learning_rate": 0.0003,
      "loss": 10.9361,
      "loss/aux_loss": 0.048068071529269216,
      "loss/crossentropy": 2.6697638273239135,
      "loss/logits": 0.8172403901815415,
      "step": 63800
    },
    {
      "epoch": 0.6381,
      "grad_norm": 16.25,
      "grad_norm_var": 0.7082682291666667,
      "learning_rate": 0.0003,
      "loss": 10.862,
      "loss/aux_loss": 0.048073775880038735,
      "loss/crossentropy": 2.798969733715057,
      "loss/logits": 0.8269981414079666,
      "step": 63810
    },
    {
      "epoch": 0.6382,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.2596354166666667,
      "learning_rate": 0.0003,
      "loss": 10.9564,
      "loss/aux_loss": 0.04805988427251577,
      "loss/crossentropy": 2.732244443893433,
      "loss/logits": 0.8475836634635925,
      "step": 63820
    },
    {
      "epoch": 0.6383,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.482666015625,
      "learning_rate": 0.0003,
      "loss": 10.9159,
      "loss/aux_loss": 0.04807668384164572,
      "loss/crossentropy": 2.782858157157898,
      "loss/logits": 0.7943806976079941,
      "step": 63830
    },
    {
      "epoch": 0.6384,
      "grad_norm": 16.25,
      "grad_norm_var": 0.328369140625,
      "learning_rate": 0.0003,
      "loss": 11.0277,
      "loss/aux_loss": 0.0480587437748909,
      "loss/crossentropy": 2.840771198272705,
      "loss/logits": 0.8426368027925492,
      "step": 63840
    },
    {
      "epoch": 0.6385,
      "grad_norm": 16.0,
      "grad_norm_var": 0.5332682291666667,
      "learning_rate": 0.0003,
      "loss": 10.9838,
      "loss/aux_loss": 0.04806698095053434,
      "loss/crossentropy": 2.771585577726364,
      "loss/logits": 0.8477590322494507,
      "step": 63850
    },
    {
      "epoch": 0.6386,
      "grad_norm": 15.875,
      "grad_norm_var": 0.3931640625,
      "learning_rate": 0.0003,
      "loss": 10.7073,
      "loss/aux_loss": 0.04806830566376448,
      "loss/crossentropy": 2.6541366040706635,
      "loss/logits": 0.8144404917955399,
      "step": 63860
    },
    {
      "epoch": 0.6387,
      "grad_norm": 15.875,
      "grad_norm_var": 0.6769368489583333,
      "learning_rate": 0.0003,
      "loss": 10.8338,
      "loss/aux_loss": 0.048068562522530556,
      "loss/crossentropy": 2.7276011228561403,
      "loss/logits": 0.7975292503833771,
      "step": 63870
    },
    {
      "epoch": 0.6388,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.0471354166666667,
      "learning_rate": 0.0003,
      "loss": 10.9173,
      "loss/aux_loss": 0.04807192627340555,
      "loss/crossentropy": 2.703585624694824,
      "loss/logits": 0.8457301408052444,
      "step": 63880
    },
    {
      "epoch": 0.6389,
      "grad_norm": 15.8125,
      "grad_norm_var": 18.350455729166665,
      "learning_rate": 0.0003,
      "loss": 10.986,
      "loss/aux_loss": 0.04805469363927841,
      "loss/crossentropy": 2.7493717789649965,
      "loss/logits": 0.7949663013219833,
      "step": 63890
    },
    {
      "epoch": 0.639,
      "grad_norm": 15.375,
      "grad_norm_var": 17.873030598958334,
      "learning_rate": 0.0003,
      "loss": 10.8859,
      "loss/aux_loss": 0.048075062409043315,
      "loss/crossentropy": 2.909009563922882,
      "loss/logits": 0.8053748130798339,
      "step": 63900
    },
    {
      "epoch": 0.6391,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.364306640625,
      "learning_rate": 0.0003,
      "loss": 10.9087,
      "loss/aux_loss": 0.048067734017968176,
      "loss/crossentropy": 2.9225926876068113,
      "loss/logits": 0.835890656709671,
      "step": 63910
    },
    {
      "epoch": 0.6392,
      "grad_norm": 15.75,
      "grad_norm_var": 3.35234375,
      "learning_rate": 0.0003,
      "loss": 10.8436,
      "loss/aux_loss": 0.048074383102357385,
      "loss/crossentropy": 2.780510759353638,
      "loss/logits": 0.8370512515306473,
      "step": 63920
    },
    {
      "epoch": 0.6393,
      "grad_norm": 14.6875,
      "grad_norm_var": 3.1134765625,
      "learning_rate": 0.0003,
      "loss": 10.8743,
      "loss/aux_loss": 0.048071058467030525,
      "loss/crossentropy": 2.6825768053531647,
      "loss/logits": 0.789939995110035,
      "step": 63930
    },
    {
      "epoch": 0.6394,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.42967122395833335,
      "learning_rate": 0.0003,
      "loss": 11.0965,
      "loss/aux_loss": 0.048058373667299745,
      "loss/crossentropy": 2.78253173828125,
      "loss/logits": 0.8522822350263596,
      "step": 63940
    },
    {
      "epoch": 0.6395,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.4110514322916667,
      "learning_rate": 0.0003,
      "loss": 10.8844,
      "loss/aux_loss": 0.04807241130620241,
      "loss/crossentropy": 2.608461046218872,
      "loss/logits": 0.8056067079305649,
      "step": 63950
    },
    {
      "epoch": 0.6396,
      "grad_norm": 14.375,
      "grad_norm_var": 0.46432291666666664,
      "learning_rate": 0.0003,
      "loss": 10.9174,
      "loss/aux_loss": 0.048062784038484095,
      "loss/crossentropy": 2.6751578748226166,
      "loss/logits": 0.8276819512248039,
      "step": 63960
    },
    {
      "epoch": 0.6397,
      "grad_norm": 15.625,
      "grad_norm_var": 0.788134765625,
      "learning_rate": 0.0003,
      "loss": 11.0461,
      "loss/aux_loss": 0.04806781299412251,
      "loss/crossentropy": 2.871128559112549,
      "loss/logits": 0.846360245347023,
      "step": 63970
    },
    {
      "epoch": 0.6398,
      "grad_norm": 15.75,
      "grad_norm_var": 73.32381184895833,
      "learning_rate": 0.0003,
      "loss": 11.1256,
      "loss/aux_loss": 0.04808484613895416,
      "loss/crossentropy": 2.7596030294895173,
      "loss/logits": 0.8853773176670074,
      "step": 63980
    },
    {
      "epoch": 0.6399,
      "grad_norm": 15.4375,
      "grad_norm_var": 73.80618489583334,
      "learning_rate": 0.0003,
      "loss": 10.8477,
      "loss/aux_loss": 0.04804834388196468,
      "loss/crossentropy": 2.660778295993805,
      "loss/logits": 0.8173895359039307,
      "step": 63990
    },
    {
      "epoch": 0.64,
      "grad_norm": 15.125,
      "grad_norm_var": 0.9999348958333333,
      "learning_rate": 0.0003,
      "loss": 10.8996,
      "loss/aux_loss": 0.048082450218498704,
      "loss/crossentropy": 2.6331078112125397,
      "loss/logits": 0.8155697345733642,
      "step": 64000
    },
    {
      "epoch": 0.6401,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.8478515625,
      "learning_rate": 0.0003,
      "loss": 10.8079,
      "loss/aux_loss": 0.04807614423334598,
      "loss/crossentropy": 2.6761899530887603,
      "loss/logits": 0.7967321127653122,
      "step": 64010
    },
    {
      "epoch": 0.6402,
      "grad_norm": 14.25,
      "grad_norm_var": 0.3965983072916667,
      "learning_rate": 0.0003,
      "loss": 10.8051,
      "loss/aux_loss": 0.048058840073645116,
      "loss/crossentropy": 2.688008636236191,
      "loss/logits": 0.7768597364425659,
      "step": 64020
    },
    {
      "epoch": 0.6403,
      "grad_norm": 14.375,
      "grad_norm_var": 0.4049479166666667,
      "learning_rate": 0.0003,
      "loss": 10.8649,
      "loss/aux_loss": 0.048065507970750335,
      "loss/crossentropy": 2.7258352994918824,
      "loss/logits": 0.8018498718738556,
      "step": 64030
    },
    {
      "epoch": 0.6404,
      "grad_norm": 13.875,
      "grad_norm_var": 0.6686848958333333,
      "learning_rate": 0.0003,
      "loss": 10.6553,
      "loss/aux_loss": 0.04808259606361389,
      "loss/crossentropy": 2.684278553724289,
      "loss/logits": 0.7884336978197097,
      "step": 64040
    },
    {
      "epoch": 0.6405,
      "grad_norm": 14.25,
      "grad_norm_var": 0.86640625,
      "learning_rate": 0.0003,
      "loss": 10.8835,
      "loss/aux_loss": 0.04807013440877199,
      "loss/crossentropy": 2.6649328231811524,
      "loss/logits": 0.8022267431020736,
      "step": 64050
    },
    {
      "epoch": 0.6406,
      "grad_norm": 16.125,
      "grad_norm_var": 0.6298014322916666,
      "learning_rate": 0.0003,
      "loss": 10.8014,
      "loss/aux_loss": 0.04807114787399769,
      "loss/crossentropy": 2.7330439388751984,
      "loss/logits": 0.8096017986536026,
      "step": 64060
    },
    {
      "epoch": 0.6407,
      "grad_norm": 14.875,
      "grad_norm_var": 0.4886555989583333,
      "learning_rate": 0.0003,
      "loss": 10.8495,
      "loss/aux_loss": 0.048064742051064965,
      "loss/crossentropy": 2.6271802723407744,
      "loss/logits": 0.8042764306068421,
      "step": 64070
    },
    {
      "epoch": 0.6408,
      "grad_norm": 14.25,
      "grad_norm_var": 0.4212890625,
      "learning_rate": 0.0003,
      "loss": 10.9443,
      "loss/aux_loss": 0.048074343241751194,
      "loss/crossentropy": 2.651158905029297,
      "loss/logits": 0.8192477524280548,
      "step": 64080
    },
    {
      "epoch": 0.6409,
      "grad_norm": 16.0,
      "grad_norm_var": 0.5291015625,
      "learning_rate": 0.0003,
      "loss": 10.8708,
      "loss/aux_loss": 0.04805680923163891,
      "loss/crossentropy": 2.740699511766434,
      "loss/logits": 0.8247522652149201,
      "step": 64090
    },
    {
      "epoch": 0.641,
      "grad_norm": 16.875,
      "grad_norm_var": 1.893603515625,
      "learning_rate": 0.0003,
      "loss": 10.7972,
      "loss/aux_loss": 0.0480952775105834,
      "loss/crossentropy": 2.6142990469932554,
      "loss/logits": 0.7922994047403336,
      "step": 64100
    },
    {
      "epoch": 0.6411,
      "grad_norm": 14.5,
      "grad_norm_var": 0.7624837239583333,
      "learning_rate": 0.0003,
      "loss": 11.0196,
      "loss/aux_loss": 0.04806794486939907,
      "loss/crossentropy": 2.6602042615413666,
      "loss/logits": 0.8153569340705872,
      "step": 64110
    },
    {
      "epoch": 0.6412,
      "grad_norm": 14.875,
      "grad_norm_var": 0.4712890625,
      "learning_rate": 0.0003,
      "loss": 10.9019,
      "loss/aux_loss": 0.04807754717767239,
      "loss/crossentropy": 2.6273086309432983,
      "loss/logits": 0.7900595605373383,
      "step": 64120
    },
    {
      "epoch": 0.6413,
      "grad_norm": 15.125,
      "grad_norm_var": 1.4556640625,
      "learning_rate": 0.0003,
      "loss": 11.0146,
      "loss/aux_loss": 0.048073111660778524,
      "loss/crossentropy": 2.8401905834674834,
      "loss/logits": 0.8362075448036194,
      "step": 64130
    },
    {
      "epoch": 0.6414,
      "grad_norm": 16.0,
      "grad_norm_var": 1.1136555989583334,
      "learning_rate": 0.0003,
      "loss": 11.0899,
      "loss/aux_loss": 0.04805966299027205,
      "loss/crossentropy": 2.7619579434394836,
      "loss/logits": 0.806191298365593,
      "step": 64140
    },
    {
      "epoch": 0.6415,
      "grad_norm": 14.375,
      "grad_norm_var": 0.8770182291666667,
      "learning_rate": 0.0003,
      "loss": 10.9026,
      "loss/aux_loss": 0.0480696702376008,
      "loss/crossentropy": 2.6707617938518524,
      "loss/logits": 0.8110317856073379,
      "step": 64150
    },
    {
      "epoch": 0.6416,
      "grad_norm": 16.125,
      "grad_norm_var": 0.59609375,
      "learning_rate": 0.0003,
      "loss": 10.9761,
      "loss/aux_loss": 0.04806564971804619,
      "loss/crossentropy": 2.679551374912262,
      "loss/logits": 0.8288383305072784,
      "step": 64160
    },
    {
      "epoch": 0.6417,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.6447265625,
      "learning_rate": 0.0003,
      "loss": 10.7706,
      "loss/aux_loss": 0.048071674257516864,
      "loss/crossentropy": 2.720490908622742,
      "loss/logits": 0.8180992275476455,
      "step": 64170
    },
    {
      "epoch": 0.6418,
      "grad_norm": 66.5,
      "grad_norm_var": 244.53170572916667,
      "learning_rate": 0.0003,
      "loss": 10.8762,
      "loss/aux_loss": 0.048073908500373366,
      "loss/crossentropy": 2.6952185809612272,
      "loss/logits": 0.7881834089756012,
      "step": 64180
    },
    {
      "epoch": 0.6419,
      "grad_norm": 18.375,
      "grad_norm_var": 226.25494791666668,
      "learning_rate": 0.0003,
      "loss": 10.8772,
      "loss/aux_loss": 0.04805737938731909,
      "loss/crossentropy": 2.7175555408000944,
      "loss/logits": 0.7974839717149734,
      "step": 64190
    },
    {
      "epoch": 0.642,
      "grad_norm": 15.8125,
      "grad_norm_var": 8.923697916666667,
      "learning_rate": 0.0003,
      "loss": 10.8089,
      "loss/aux_loss": 0.048077397607266904,
      "loss/crossentropy": 2.632685160636902,
      "loss/logits": 0.8100000500679017,
      "step": 64200
    },
    {
      "epoch": 0.6421,
      "grad_norm": 16.625,
      "grad_norm_var": 0.4105305989583333,
      "learning_rate": 0.0003,
      "loss": 10.9696,
      "loss/aux_loss": 0.04807335864752531,
      "loss/crossentropy": 2.6972862422466277,
      "loss/logits": 0.7903000891208649,
      "step": 64210
    },
    {
      "epoch": 0.6422,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.42576497395833335,
      "learning_rate": 0.0003,
      "loss": 10.7641,
      "loss/aux_loss": 0.048062941245734694,
      "loss/crossentropy": 2.5591843128204346,
      "loss/logits": 0.7982923656702041,
      "step": 64220
    },
    {
      "epoch": 0.6423,
      "grad_norm": 15.25,
      "grad_norm_var": 0.5587890625,
      "learning_rate": 0.0003,
      "loss": 10.882,
      "loss/aux_loss": 0.04808053784072399,
      "loss/crossentropy": 2.68142853975296,
      "loss/logits": 0.8112878233194352,
      "step": 64230
    },
    {
      "epoch": 0.6424,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.7109212239583333,
      "learning_rate": 0.0003,
      "loss": 10.903,
      "loss/aux_loss": 0.04807339143007994,
      "loss/crossentropy": 2.6936437368392943,
      "loss/logits": 0.7852249950170517,
      "step": 64240
    },
    {
      "epoch": 0.6425,
      "grad_norm": 16.5,
      "grad_norm_var": 0.6098307291666667,
      "learning_rate": 0.0003,
      "loss": 10.8919,
      "loss/aux_loss": 0.048065887205302714,
      "loss/crossentropy": 2.6046033978462217,
      "loss/logits": 0.8367180943489074,
      "step": 64250
    },
    {
      "epoch": 0.6426,
      "grad_norm": 16.375,
      "grad_norm_var": 1.3727701822916667,
      "learning_rate": 0.0003,
      "loss": 10.8046,
      "loss/aux_loss": 0.048077253997325896,
      "loss/crossentropy": 2.7186995148658752,
      "loss/logits": 0.8272952169179917,
      "step": 64260
    },
    {
      "epoch": 0.6427,
      "grad_norm": 15.0,
      "grad_norm_var": 1.4869140625,
      "learning_rate": 0.0003,
      "loss": 11.0264,
      "loss/aux_loss": 0.04806565903127193,
      "loss/crossentropy": 2.7013957381248472,
      "loss/logits": 0.8380502104759217,
      "step": 64270
    },
    {
      "epoch": 0.6428,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.6114583333333333,
      "learning_rate": 0.0003,
      "loss": 10.8768,
      "loss/aux_loss": 0.048069261759519574,
      "loss/crossentropy": 2.6103322327136995,
      "loss/logits": 0.824969407916069,
      "step": 64280
    },
    {
      "epoch": 0.6429,
      "grad_norm": 15.125,
      "grad_norm_var": 0.39791666666666664,
      "learning_rate": 0.0003,
      "loss": 10.9467,
      "loss/aux_loss": 0.04807145707309246,
      "loss/crossentropy": 2.5910118997097014,
      "loss/logits": 0.7979099124670028,
      "step": 64290
    },
    {
      "epoch": 0.643,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.7320149739583334,
      "learning_rate": 0.0003,
      "loss": 10.9267,
      "loss/aux_loss": 0.048070203140378,
      "loss/crossentropy": 2.789473479986191,
      "loss/logits": 0.7883479207754135,
      "step": 64300
    },
    {
      "epoch": 0.6431,
      "grad_norm": 15.25,
      "grad_norm_var": 1.0072916666666667,
      "learning_rate": 0.0003,
      "loss": 10.8941,
      "loss/aux_loss": 0.04807113241404295,
      "loss/crossentropy": 2.706324911117554,
      "loss/logits": 0.8335605084896087,
      "step": 64310
    },
    {
      "epoch": 0.6432,
      "grad_norm": 16.5,
      "grad_norm_var": 517.822509765625,
      "learning_rate": 0.0003,
      "loss": 10.9202,
      "loss/aux_loss": 0.04807917233556509,
      "loss/crossentropy": 2.5871843814849855,
      "loss/logits": 0.7983285367488862,
      "step": 64320
    },
    {
      "epoch": 0.6433,
      "grad_norm": 16.375,
      "grad_norm_var": 1.3219889322916667,
      "learning_rate": 0.0003,
      "loss": 10.8152,
      "loss/aux_loss": 0.04806725718080997,
      "loss/crossentropy": 2.714830732345581,
      "loss/logits": 0.7972691237926484,
      "step": 64330
    },
    {
      "epoch": 0.6434,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.44464518229166666,
      "learning_rate": 0.0003,
      "loss": 11.0088,
      "loss/aux_loss": 0.048060521483421326,
      "loss/crossentropy": 2.863740932941437,
      "loss/logits": 0.8662774622440338,
      "step": 64340
    },
    {
      "epoch": 0.6435,
      "grad_norm": 14.375,
      "grad_norm_var": 0.461572265625,
      "learning_rate": 0.0003,
      "loss": 10.8927,
      "loss/aux_loss": 0.048076084814965725,
      "loss/crossentropy": 2.6789645075798036,
      "loss/logits": 0.8414348632097244,
      "step": 64350
    },
    {
      "epoch": 0.6436,
      "grad_norm": 13.5,
      "grad_norm_var": 0.2843098958333333,
      "learning_rate": 0.0003,
      "loss": 10.7573,
      "loss/aux_loss": 0.04807751737535,
      "loss/crossentropy": 2.5758812725543976,
      "loss/logits": 0.7923395410180092,
      "step": 64360
    },
    {
      "epoch": 0.6437,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.5059733072916667,
      "learning_rate": 0.0003,
      "loss": 10.9254,
      "loss/aux_loss": 0.04806223139166832,
      "loss/crossentropy": 2.824587380886078,
      "loss/logits": 0.779283007979393,
      "step": 64370
    },
    {
      "epoch": 0.6438,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.23162434895833334,
      "learning_rate": 0.0003,
      "loss": 11.1465,
      "loss/aux_loss": 0.04806876201182604,
      "loss/crossentropy": 2.7761879444122313,
      "loss/logits": 0.8234198421239853,
      "step": 64380
    },
    {
      "epoch": 0.6439,
      "grad_norm": 14.25,
      "grad_norm_var": 23.5265625,
      "learning_rate": 0.0003,
      "loss": 10.8994,
      "loss/aux_loss": 0.048068377934396264,
      "loss/crossentropy": 2.849505627155304,
      "loss/logits": 0.7996205180883408,
      "step": 64390
    },
    {
      "epoch": 0.644,
      "grad_norm": 14.875,
      "grad_norm_var": 24.1228515625,
      "learning_rate": 0.0003,
      "loss": 10.8842,
      "loss/aux_loss": 0.04806913807988167,
      "loss/crossentropy": 2.699050772190094,
      "loss/logits": 0.8141772150993347,
      "step": 64400
    },
    {
      "epoch": 0.6441,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.29635416666666664,
      "learning_rate": 0.0003,
      "loss": 10.8829,
      "loss/aux_loss": 0.04808142352849245,
      "loss/crossentropy": 2.6662961184978484,
      "loss/logits": 0.8306810945272446,
      "step": 64410
    },
    {
      "epoch": 0.6442,
      "grad_norm": 15.25,
      "grad_norm_var": 0.5077473958333333,
      "learning_rate": 0.0003,
      "loss": 10.8389,
      "loss/aux_loss": 0.0480579923838377,
      "loss/crossentropy": 2.5457189321517943,
      "loss/logits": 0.7988121956586838,
      "step": 64420
    },
    {
      "epoch": 0.6443,
      "grad_norm": 14.5,
      "grad_norm_var": 0.24060872395833333,
      "learning_rate": 0.0003,
      "loss": 10.9997,
      "loss/aux_loss": 0.048068817704916,
      "loss/crossentropy": 2.6517822682857513,
      "loss/logits": 0.7966990500688553,
      "step": 64430
    },
    {
      "epoch": 0.6444,
      "grad_norm": 15.75,
      "grad_norm_var": 0.5145182291666667,
      "learning_rate": 0.0003,
      "loss": 10.9814,
      "loss/aux_loss": 0.048084283247590065,
      "loss/crossentropy": 2.663684105873108,
      "loss/logits": 0.8236712843179703,
      "step": 64440
    },
    {
      "epoch": 0.6445,
      "grad_norm": 16.0,
      "grad_norm_var": 0.5385416666666667,
      "learning_rate": 0.0003,
      "loss": 11.0452,
      "loss/aux_loss": 0.04805535394698381,
      "loss/crossentropy": 2.7321596264839174,
      "loss/logits": 0.81631198823452,
      "step": 64450
    },
    {
      "epoch": 0.6446,
      "grad_norm": 16.0,
      "grad_norm_var": 0.3385416666666667,
      "learning_rate": 0.0003,
      "loss": 10.7714,
      "loss/aux_loss": 0.0480718620121479,
      "loss/crossentropy": 2.5779692411422728,
      "loss/logits": 0.7793363690376282,
      "step": 64460
    },
    {
      "epoch": 0.6447,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.6223795572916667,
      "learning_rate": 0.0003,
      "loss": 10.9604,
      "loss/aux_loss": 0.048071989230811595,
      "loss/crossentropy": 2.749948966503143,
      "loss/logits": 0.8526365518569946,
      "step": 64470
    },
    {
      "epoch": 0.6448,
      "grad_norm": 15.875,
      "grad_norm_var": 0.33229166666666665,
      "learning_rate": 0.0003,
      "loss": 10.9431,
      "loss/aux_loss": 0.04805717971175909,
      "loss/crossentropy": 2.7506559550762177,
      "loss/logits": 0.8254747807979583,
      "step": 64480
    },
    {
      "epoch": 0.6449,
      "grad_norm": 15.125,
      "grad_norm_var": 0.2518229166666667,
      "learning_rate": 0.0003,
      "loss": 11.1098,
      "loss/aux_loss": 0.04806588124483824,
      "loss/crossentropy": 2.728802466392517,
      "loss/logits": 0.8510254561901093,
      "step": 64490
    },
    {
      "epoch": 0.645,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.5056640625,
      "learning_rate": 0.0003,
      "loss": 11.0118,
      "loss/aux_loss": 0.04808861147612333,
      "loss/crossentropy": 2.828171968460083,
      "loss/logits": 0.8330163925886154,
      "step": 64500
    },
    {
      "epoch": 0.6451,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.24659830729166668,
      "learning_rate": 0.0003,
      "loss": 10.6805,
      "loss/aux_loss": 0.048062241077423094,
      "loss/crossentropy": 2.703647696971893,
      "loss/logits": 0.8099043250083924,
      "step": 64510
    },
    {
      "epoch": 0.6452,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.42967122395833335,
      "learning_rate": 0.0003,
      "loss": 10.9858,
      "loss/aux_loss": 0.048076873645186424,
      "loss/crossentropy": 2.5978757619857786,
      "loss/logits": 0.807657128572464,
      "step": 64520
    },
    {
      "epoch": 0.6453,
      "grad_norm": 16.25,
      "grad_norm_var": 106.27864583333333,
      "learning_rate": 0.0003,
      "loss": 10.9333,
      "loss/aux_loss": 0.04806945752352476,
      "loss/crossentropy": 2.7974547028541563,
      "loss/logits": 0.8342884957790375,
      "step": 64530
    },
    {
      "epoch": 0.6454,
      "grad_norm": 14.3125,
      "grad_norm_var": 1.3356770833333333,
      "learning_rate": 0.0003,
      "loss": 10.9232,
      "loss/aux_loss": 0.04806990846991539,
      "loss/crossentropy": 2.650894695520401,
      "loss/logits": 0.7819722086191178,
      "step": 64540
    },
    {
      "epoch": 0.6455,
      "grad_norm": 15.375,
      "grad_norm_var": 0.658447265625,
      "learning_rate": 0.0003,
      "loss": 10.9033,
      "loss/aux_loss": 0.04806603621691465,
      "loss/crossentropy": 2.7686345756053923,
      "loss/logits": 0.7982172280550003,
      "step": 64550
    },
    {
      "epoch": 0.6456,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.490087890625,
      "learning_rate": 0.0003,
      "loss": 10.7961,
      "loss/aux_loss": 0.048073521070182326,
      "loss/crossentropy": 2.632987970113754,
      "loss/logits": 0.8115098506212235,
      "step": 64560
    },
    {
      "epoch": 0.6457,
      "grad_norm": 15.5,
      "grad_norm_var": 1.2235514322916667,
      "learning_rate": 0.0003,
      "loss": 10.9672,
      "loss/aux_loss": 0.048069255985319616,
      "loss/crossentropy": 2.612694835662842,
      "loss/logits": 0.8157520830631256,
      "step": 64570
    },
    {
      "epoch": 0.6458,
      "grad_norm": 14.75,
      "grad_norm_var": 0.765087890625,
      "learning_rate": 0.0003,
      "loss": 10.9776,
      "loss/aux_loss": 0.04807736426591873,
      "loss/crossentropy": 2.5973219871520996,
      "loss/logits": 0.7989464849233627,
      "step": 64580
    },
    {
      "epoch": 0.6459,
      "grad_norm": 17.125,
      "grad_norm_var": 0.5703125,
      "learning_rate": 0.0003,
      "loss": 10.88,
      "loss/aux_loss": 0.048061249777674675,
      "loss/crossentropy": 2.6475314140319823,
      "loss/logits": 0.7981739670038224,
      "step": 64590
    },
    {
      "epoch": 0.646,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.57109375,
      "learning_rate": 0.0003,
      "loss": 10.8287,
      "loss/aux_loss": 0.048082700744271276,
      "loss/crossentropy": 2.8341873228549956,
      "loss/logits": 0.8232771545648575,
      "step": 64600
    },
    {
      "epoch": 0.6461,
      "grad_norm": 16.25,
      "grad_norm_var": 1.3593587239583333,
      "learning_rate": 0.0003,
      "loss": 10.7596,
      "loss/aux_loss": 0.04807372409850359,
      "loss/crossentropy": 2.4986962258815764,
      "loss/logits": 0.7847854226827622,
      "step": 64610
    },
    {
      "epoch": 0.6462,
      "grad_norm": 17.375,
      "grad_norm_var": 1.5445149739583333,
      "learning_rate": 0.0003,
      "loss": 10.8791,
      "loss/aux_loss": 0.04804991818964481,
      "loss/crossentropy": 2.841459035873413,
      "loss/logits": 0.8310028403997421,
      "step": 64620
    },
    {
      "epoch": 0.6463,
      "grad_norm": 16.375,
      "grad_norm_var": 0.7822265625,
      "learning_rate": 0.0003,
      "loss": 10.9785,
      "loss/aux_loss": 0.048074251785874364,
      "loss/crossentropy": 2.6962937235832216,
      "loss/logits": 0.7954140931367875,
      "step": 64630
    },
    {
      "epoch": 0.6464,
      "grad_norm": 14.875,
      "grad_norm_var": 0.6072265625,
      "learning_rate": 0.0003,
      "loss": 11.0638,
      "loss/aux_loss": 0.04808508362621069,
      "loss/crossentropy": 2.764870321750641,
      "loss/logits": 0.8515766054391861,
      "step": 64640
    },
    {
      "epoch": 0.6465,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.8242024739583333,
      "learning_rate": 0.0003,
      "loss": 11.0148,
      "loss/aux_loss": 0.04806652627885342,
      "loss/crossentropy": 2.594625836610794,
      "loss/logits": 0.7873844116926193,
      "step": 64650
    },
    {
      "epoch": 0.6466,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.69609375,
      "learning_rate": 0.0003,
      "loss": 10.8542,
      "loss/aux_loss": 0.048073071800172326,
      "loss/crossentropy": 2.815520566701889,
      "loss/logits": 0.8115405261516571,
      "step": 64660
    },
    {
      "epoch": 0.6467,
      "grad_norm": 14.75,
      "grad_norm_var": 0.25323893229166666,
      "learning_rate": 0.0003,
      "loss": 10.866,
      "loss/aux_loss": 0.048070530965924264,
      "loss/crossentropy": 2.541173154115677,
      "loss/logits": 0.8035361468791962,
      "step": 64670
    },
    {
      "epoch": 0.6468,
      "grad_norm": 14.6875,
      "grad_norm_var": 3.2783854166666666,
      "learning_rate": 0.0003,
      "loss": 10.7697,
      "loss/aux_loss": 0.04807205218821764,
      "loss/crossentropy": 2.77914103269577,
      "loss/logits": 0.8178933262825012,
      "step": 64680
    },
    {
      "epoch": 0.6469,
      "grad_norm": 14.9375,
      "grad_norm_var": 1.8332682291666667,
      "learning_rate": 0.0003,
      "loss": 10.9381,
      "loss/aux_loss": 0.048067630268633366,
      "loss/crossentropy": 2.6256860315799715,
      "loss/logits": 0.833366334438324,
      "step": 64690
    },
    {
      "epoch": 0.647,
      "grad_norm": 14.6875,
      "grad_norm_var": 2.178759765625,
      "learning_rate": 0.0003,
      "loss": 11.0279,
      "loss/aux_loss": 0.04807144869118929,
      "loss/crossentropy": 2.684089946746826,
      "loss/logits": 0.8047218829393387,
      "step": 64700
    },
    {
      "epoch": 0.6471,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.6446451822916667,
      "learning_rate": 0.0003,
      "loss": 10.895,
      "loss/aux_loss": 0.04806271083652973,
      "loss/crossentropy": 2.5051504015922545,
      "loss/logits": 0.814690887928009,
      "step": 64710
    },
    {
      "epoch": 0.6472,
      "grad_norm": 15.875,
      "grad_norm_var": 0.5378743489583333,
      "learning_rate": 0.0003,
      "loss": 11.0694,
      "loss/aux_loss": 0.04807141367346048,
      "loss/crossentropy": 2.6718297123909,
      "loss/logits": 0.8078697264194489,
      "step": 64720
    },
    {
      "epoch": 0.6473,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.5561848958333333,
      "learning_rate": 0.0003,
      "loss": 11.1501,
      "loss/aux_loss": 0.04807430915534496,
      "loss/crossentropy": 2.7116922199726106,
      "loss/logits": 0.8617299765348434,
      "step": 64730
    },
    {
      "epoch": 0.6474,
      "grad_norm": 16.75,
      "grad_norm_var": 0.32024739583333334,
      "learning_rate": 0.0003,
      "loss": 11.0262,
      "loss/aux_loss": 0.04805788192898035,
      "loss/crossentropy": 2.7382602095603943,
      "loss/logits": 0.8403635859489441,
      "step": 64740
    },
    {
      "epoch": 0.6475,
      "grad_norm": 14.625,
      "grad_norm_var": 0.27708333333333335,
      "learning_rate": 0.0003,
      "loss": 10.9941,
      "loss/aux_loss": 0.048070405051112174,
      "loss/crossentropy": 2.7188424825668336,
      "loss/logits": 0.7995573878288269,
      "step": 64750
    },
    {
      "epoch": 0.6476,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.367431640625,
      "learning_rate": 0.0003,
      "loss": 10.9026,
      "loss/aux_loss": 0.04807642940431833,
      "loss/crossentropy": 2.7417497992515565,
      "loss/logits": 0.8509037971496582,
      "step": 64760
    },
    {
      "epoch": 0.6477,
      "grad_norm": 15.5,
      "grad_norm_var": 1.25546875,
      "learning_rate": 0.0003,
      "loss": 10.9626,
      "loss/aux_loss": 0.0480690760537982,
      "loss/crossentropy": 2.647187089920044,
      "loss/logits": 0.8061125695705413,
      "step": 64770
    },
    {
      "epoch": 0.6478,
      "grad_norm": 16.625,
      "grad_norm_var": 0.746728515625,
      "learning_rate": 0.0003,
      "loss": 10.9044,
      "loss/aux_loss": 0.048072075471282005,
      "loss/crossentropy": 2.6679067850112914,
      "loss/logits": 0.8102442860603333,
      "step": 64780
    },
    {
      "epoch": 0.6479,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.6597493489583334,
      "learning_rate": 0.0003,
      "loss": 10.8774,
      "loss/aux_loss": 0.04807139951735735,
      "loss/crossentropy": 2.679821991920471,
      "loss/logits": 0.8046330511569977,
      "step": 64790
    },
    {
      "epoch": 0.648,
      "grad_norm": 15.375,
      "grad_norm_var": 0.49777018229166664,
      "learning_rate": 0.0003,
      "loss": 10.8229,
      "loss/aux_loss": 0.04807682540267706,
      "loss/crossentropy": 2.7562019169330596,
      "loss/logits": 0.8137243837118149,
      "step": 64800
    },
    {
      "epoch": 0.6481,
      "grad_norm": 14.375,
      "grad_norm_var": 0.509619140625,
      "learning_rate": 0.0003,
      "loss": 10.8284,
      "loss/aux_loss": 0.048072621785104276,
      "loss/crossentropy": 2.723770010471344,
      "loss/logits": 0.8341768980026245,
      "step": 64810
    },
    {
      "epoch": 0.6482,
      "grad_norm": 16.0,
      "grad_norm_var": 0.34230143229166665,
      "learning_rate": 0.0003,
      "loss": 10.9179,
      "loss/aux_loss": 0.04807199724018574,
      "loss/crossentropy": 2.5898614048957826,
      "loss/logits": 0.8297031134366989,
      "step": 64820
    },
    {
      "epoch": 0.6483,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.40089518229166665,
      "learning_rate": 0.0003,
      "loss": 10.7685,
      "loss/aux_loss": 0.04806529227644205,
      "loss/crossentropy": 2.736210232973099,
      "loss/logits": 0.8199382722377777,
      "step": 64830
    },
    {
      "epoch": 0.6484,
      "grad_norm": 15.5,
      "grad_norm_var": 0.6505208333333333,
      "learning_rate": 0.0003,
      "loss": 10.8731,
      "loss/aux_loss": 0.04806740824133158,
      "loss/crossentropy": 2.7414426445960998,
      "loss/logits": 0.829671436548233,
      "step": 64840
    },
    {
      "epoch": 0.6485,
      "grad_norm": 15.5,
      "grad_norm_var": 0.7796875,
      "learning_rate": 0.0003,
      "loss": 11.1061,
      "loss/aux_loss": 0.04807157013565302,
      "loss/crossentropy": 2.6303915977478027,
      "loss/logits": 0.8207491040229797,
      "step": 64850
    },
    {
      "epoch": 0.6486,
      "grad_norm": 16.375,
      "grad_norm_var": 0.650244140625,
      "learning_rate": 0.0003,
      "loss": 10.8262,
      "loss/aux_loss": 0.04807078931480646,
      "loss/crossentropy": 2.7495046079158785,
      "loss/logits": 0.8125106036663056,
      "step": 64860
    },
    {
      "epoch": 0.6487,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.374072265625,
      "learning_rate": 0.0003,
      "loss": 10.8215,
      "loss/aux_loss": 0.04806679226458073,
      "loss/crossentropy": 2.52020383477211,
      "loss/logits": 0.7938949555158615,
      "step": 64870
    },
    {
      "epoch": 0.6488,
      "grad_norm": 14.875,
      "grad_norm_var": 0.44680989583333336,
      "learning_rate": 0.0003,
      "loss": 10.981,
      "loss/aux_loss": 0.04807438552379608,
      "loss/crossentropy": 2.713279777765274,
      "loss/logits": 0.8202762633562088,
      "step": 64880
    },
    {
      "epoch": 0.6489,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.53046875,
      "learning_rate": 0.0003,
      "loss": 10.8555,
      "loss/aux_loss": 0.048073222115635875,
      "loss/crossentropy": 2.6626059472560883,
      "loss/logits": 0.8038224250078201,
      "step": 64890
    },
    {
      "epoch": 0.649,
      "grad_norm": 16.0,
      "grad_norm_var": 0.2659993489583333,
      "learning_rate": 0.0003,
      "loss": 10.8778,
      "loss/aux_loss": 0.04806961547583342,
      "loss/crossentropy": 2.7846663117408754,
      "loss/logits": 0.8211091995239258,
      "step": 64900
    },
    {
      "epoch": 0.6491,
      "grad_norm": 14.25,
      "grad_norm_var": 0.40260416666666665,
      "learning_rate": 0.0003,
      "loss": 10.8055,
      "loss/aux_loss": 0.04807712137699127,
      "loss/crossentropy": 2.6188452005386353,
      "loss/logits": 0.7841671526432037,
      "step": 64910
    },
    {
      "epoch": 0.6492,
      "grad_norm": 15.375,
      "grad_norm_var": 0.5683430989583333,
      "learning_rate": 0.0003,
      "loss": 10.8163,
      "loss/aux_loss": 0.04806164372712374,
      "loss/crossentropy": 2.6171076774597166,
      "loss/logits": 0.8012127339839935,
      "step": 64920
    },
    {
      "epoch": 0.6493,
      "grad_norm": 15.25,
      "grad_norm_var": 0.430322265625,
      "learning_rate": 0.0003,
      "loss": 10.894,
      "loss/aux_loss": 0.04807732943445444,
      "loss/crossentropy": 2.6409548163414,
      "loss/logits": 0.8105780005455017,
      "step": 64930
    },
    {
      "epoch": 0.6494,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.6157389322916667,
      "learning_rate": 0.0003,
      "loss": 10.8077,
      "loss/aux_loss": 0.04806876610964537,
      "loss/crossentropy": 2.5447192013263704,
      "loss/logits": 0.7904939085245133,
      "step": 64940
    },
    {
      "epoch": 0.6495,
      "grad_norm": 17.0,
      "grad_norm_var": 0.6981770833333333,
      "learning_rate": 0.0003,
      "loss": 11.0475,
      "loss/aux_loss": 0.048071413300931454,
      "loss/crossentropy": 2.706156146526337,
      "loss/logits": 0.8606253623962402,
      "step": 64950
    },
    {
      "epoch": 0.6496,
      "grad_norm": 16.25,
      "grad_norm_var": 0.6577962239583334,
      "learning_rate": 0.0003,
      "loss": 10.9165,
      "loss/aux_loss": 0.04807477165013552,
      "loss/crossentropy": 2.676371121406555,
      "loss/logits": 0.8254680544137954,
      "step": 64960
    },
    {
      "epoch": 0.6497,
      "grad_norm": 16.0,
      "grad_norm_var": 0.37161458333333336,
      "learning_rate": 0.0003,
      "loss": 10.9431,
      "loss/aux_loss": 0.048062054254114625,
      "loss/crossentropy": 2.687245047092438,
      "loss/logits": 0.8192354500293731,
      "step": 64970
    },
    {
      "epoch": 0.6498,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.697900390625,
      "learning_rate": 0.0003,
      "loss": 10.8736,
      "loss/aux_loss": 0.04806843213737011,
      "loss/crossentropy": 2.6569925785064696,
      "loss/logits": 0.8111906111240387,
      "step": 64980
    },
    {
      "epoch": 0.6499,
      "grad_norm": 16.25,
      "grad_norm_var": 0.6346354166666667,
      "learning_rate": 0.0003,
      "loss": 10.8889,
      "loss/aux_loss": 0.04806424044072628,
      "loss/crossentropy": 2.7027989625930786,
      "loss/logits": 0.8000789701938629,
      "step": 64990
    },
    {
      "epoch": 0.65,
      "grad_norm": 75.5,
      "grad_norm_var": 223.42849934895833,
      "learning_rate": 0.0003,
      "loss": 10.9805,
      "loss/aux_loss": 0.048073144629597664,
      "loss/crossentropy": 2.808467972278595,
      "loss/logits": 0.8571766018867493,
      "step": 65000
    },
    {
      "epoch": 0.6501,
      "grad_norm": 16.0,
      "grad_norm_var": 220.27537434895834,
      "learning_rate": 0.0003,
      "loss": 10.8087,
      "loss/aux_loss": 0.048067417740821836,
      "loss/crossentropy": 2.7439105987548826,
      "loss/logits": 0.824249017238617,
      "step": 65010
    },
    {
      "epoch": 0.6502,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.4066243489583333,
      "learning_rate": 0.0003,
      "loss": 10.795,
      "loss/aux_loss": 0.048070468753576276,
      "loss/crossentropy": 2.763742119073868,
      "loss/logits": 0.8238922148942948,
      "step": 65020
    },
    {
      "epoch": 0.6503,
      "grad_norm": 14.75,
      "grad_norm_var": 0.5936848958333333,
      "learning_rate": 0.0003,
      "loss": 10.9753,
      "loss/aux_loss": 0.04807634837925434,
      "loss/crossentropy": 2.721911084651947,
      "loss/logits": 0.8021749824285507,
      "step": 65030
    },
    {
      "epoch": 0.6504,
      "grad_norm": 14.9375,
      "grad_norm_var": 7.0462890625,
      "learning_rate": 0.0003,
      "loss": 10.7693,
      "loss/aux_loss": 0.048060786351561545,
      "loss/crossentropy": 2.63610897064209,
      "loss/logits": 0.8058023959398269,
      "step": 65040
    },
    {
      "epoch": 0.6505,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.7958333333333333,
      "learning_rate": 0.0003,
      "loss": 10.9499,
      "loss/aux_loss": 0.0480716660618782,
      "loss/crossentropy": 2.7749450325965883,
      "loss/logits": 0.8092481285333634,
      "step": 65050
    },
    {
      "epoch": 0.6506,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.32081705729166665,
      "learning_rate": 0.0003,
      "loss": 10.9791,
      "loss/aux_loss": 0.048079953715205195,
      "loss/crossentropy": 2.901500105857849,
      "loss/logits": 0.8558017522096634,
      "step": 65060
    },
    {
      "epoch": 0.6507,
      "grad_norm": 14.625,
      "grad_norm_var": 0.49420572916666666,
      "learning_rate": 0.0003,
      "loss": 10.886,
      "loss/aux_loss": 0.04804853610694408,
      "loss/crossentropy": 2.8315212607383726,
      "loss/logits": 0.8276244908571243,
      "step": 65070
    },
    {
      "epoch": 0.6508,
      "grad_norm": 14.9375,
      "grad_norm_var": 1.0609375,
      "learning_rate": 0.0003,
      "loss": 10.9138,
      "loss/aux_loss": 0.048084153421223165,
      "loss/crossentropy": 2.681584632396698,
      "loss/logits": 0.7945889711380005,
      "step": 65080
    },
    {
      "epoch": 0.6509,
      "grad_norm": 15.625,
      "grad_norm_var": 0.94609375,
      "learning_rate": 0.0003,
      "loss": 10.9791,
      "loss/aux_loss": 0.04806964471936226,
      "loss/crossentropy": 2.7207436323165894,
      "loss/logits": 0.8214473009109498,
      "step": 65090
    },
    {
      "epoch": 0.651,
      "grad_norm": 16.125,
      "grad_norm_var": 1.1119791666666667,
      "learning_rate": 0.0003,
      "loss": 10.9402,
      "loss/aux_loss": 0.048057034611701965,
      "loss/crossentropy": 2.6684858202934265,
      "loss/logits": 0.7792475908994675,
      "step": 65100
    },
    {
      "epoch": 0.6511,
      "grad_norm": 15.25,
      "grad_norm_var": 1.1333333333333333,
      "learning_rate": 0.0003,
      "loss": 10.9291,
      "loss/aux_loss": 0.04806646164506674,
      "loss/crossentropy": 2.779614543914795,
      "loss/logits": 0.8046439945697784,
      "step": 65110
    },
    {
      "epoch": 0.6512,
      "grad_norm": 16.0,
      "grad_norm_var": 1.5386555989583333,
      "learning_rate": 0.0003,
      "loss": 11.059,
      "loss/aux_loss": 0.048073740862309935,
      "loss/crossentropy": 2.8252889752388,
      "loss/logits": 0.7956268131732941,
      "step": 65120
    },
    {
      "epoch": 0.6513,
      "grad_norm": 14.75,
      "grad_norm_var": 0.410791015625,
      "learning_rate": 0.0003,
      "loss": 11.017,
      "loss/aux_loss": 0.048064406216144565,
      "loss/crossentropy": 2.746646058559418,
      "loss/logits": 0.8085185199975967,
      "step": 65130
    },
    {
      "epoch": 0.6514,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.24296875,
      "learning_rate": 0.0003,
      "loss": 10.9533,
      "loss/aux_loss": 0.04806833751499653,
      "loss/crossentropy": 2.7476025104522703,
      "loss/logits": 0.7968869656324387,
      "step": 65140
    },
    {
      "epoch": 0.6515,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.35857747395833334,
      "learning_rate": 0.0003,
      "loss": 10.7864,
      "loss/aux_loss": 0.04806720819324255,
      "loss/crossentropy": 2.7668261766433715,
      "loss/logits": 0.7852804720401764,
      "step": 65150
    },
    {
      "epoch": 0.6516,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.259228515625,
      "learning_rate": 0.0003,
      "loss": 10.6857,
      "loss/aux_loss": 0.048074799962341784,
      "loss/crossentropy": 2.6271615505218504,
      "loss/logits": 0.7937258869409561,
      "step": 65160
    },
    {
      "epoch": 0.6517,
      "grad_norm": 14.625,
      "grad_norm_var": 0.27858072916666665,
      "learning_rate": 0.0003,
      "loss": 11.0121,
      "loss/aux_loss": 0.048050605691969395,
      "loss/crossentropy": 2.762240695953369,
      "loss/logits": 0.8204376786947251,
      "step": 65170
    },
    {
      "epoch": 0.6518,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.278125,
      "learning_rate": 0.0003,
      "loss": 10.9931,
      "loss/aux_loss": 0.048072893917560575,
      "loss/crossentropy": 2.6644616603851317,
      "loss/logits": 0.826135328412056,
      "step": 65180
    },
    {
      "epoch": 0.6519,
      "grad_norm": 14.75,
      "grad_norm_var": 0.7619140625,
      "learning_rate": 0.0003,
      "loss": 10.9311,
      "loss/aux_loss": 0.04807901922613382,
      "loss/crossentropy": 2.5317931294441225,
      "loss/logits": 0.7690812319517135,
      "step": 65190
    },
    {
      "epoch": 0.652,
      "grad_norm": 15.125,
      "grad_norm_var": 0.4796875,
      "learning_rate": 0.0003,
      "loss": 10.795,
      "loss/aux_loss": 0.04806858953088522,
      "loss/crossentropy": 2.638898861408234,
      "loss/logits": 0.7892222136259079,
      "step": 65200
    },
    {
      "epoch": 0.6521,
      "grad_norm": 16.0,
      "grad_norm_var": 0.9770182291666667,
      "learning_rate": 0.0003,
      "loss": 10.888,
      "loss/aux_loss": 0.048061699606478214,
      "loss/crossentropy": 2.654205119609833,
      "loss/logits": 0.8139635503292084,
      "step": 65210
    },
    {
      "epoch": 0.6522,
      "grad_norm": 15.3125,
      "grad_norm_var": 4.557535807291667,
      "learning_rate": 0.0003,
      "loss": 10.9919,
      "loss/aux_loss": 0.04807271305471659,
      "loss/crossentropy": 2.6672019481658937,
      "loss/logits": 0.7892401427030563,
      "step": 65220
    },
    {
      "epoch": 0.6523,
      "grad_norm": 15.625,
      "grad_norm_var": 2.3764973958333333,
      "learning_rate": 0.0003,
      "loss": 10.718,
      "loss/aux_loss": 0.04806781802326441,
      "loss/crossentropy": 2.7000105381011963,
      "loss/logits": 0.7944419324398041,
      "step": 65230
    },
    {
      "epoch": 0.6524,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5551920572916667,
      "learning_rate": 0.0003,
      "loss": 10.8404,
      "loss/aux_loss": 0.04805983956903219,
      "loss/crossentropy": 2.5622940182685854,
      "loss/logits": 0.7859783351421357,
      "step": 65240
    },
    {
      "epoch": 0.6525,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.9098307291666666,
      "learning_rate": 0.0003,
      "loss": 11.0443,
      "loss/aux_loss": 0.048075672797858716,
      "loss/crossentropy": 2.7040555834770204,
      "loss/logits": 0.8166841179132461,
      "step": 65250
    },
    {
      "epoch": 0.6526,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.656103515625,
      "learning_rate": 0.0003,
      "loss": 10.8139,
      "loss/aux_loss": 0.048063617758452894,
      "loss/crossentropy": 2.736673855781555,
      "loss/logits": 0.7982501238584518,
      "step": 65260
    },
    {
      "epoch": 0.6527,
      "grad_norm": 16.125,
      "grad_norm_var": 0.4697265625,
      "learning_rate": 0.0003,
      "loss": 10.9216,
      "loss/aux_loss": 0.04806849732995033,
      "loss/crossentropy": 2.7332601666450502,
      "loss/logits": 0.8461134731769562,
      "step": 65270
    },
    {
      "epoch": 0.6528,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.9911458333333333,
      "learning_rate": 0.0003,
      "loss": 10.9565,
      "loss/aux_loss": 0.04807373881340027,
      "loss/crossentropy": 2.682792294025421,
      "loss/logits": 0.8356576085090637,
      "step": 65280
    },
    {
      "epoch": 0.6529,
      "grad_norm": 15.125,
      "grad_norm_var": 1.2997395833333334,
      "learning_rate": 0.0003,
      "loss": 10.8412,
      "loss/aux_loss": 0.048058380000293256,
      "loss/crossentropy": 2.598079466819763,
      "loss/logits": 0.8082356095314026,
      "step": 65290
    },
    {
      "epoch": 0.653,
      "grad_norm": 14.875,
      "grad_norm_var": 1.1613118489583334,
      "learning_rate": 0.0003,
      "loss": 10.8663,
      "loss/aux_loss": 0.04806201159954071,
      "loss/crossentropy": 2.6836532950401306,
      "loss/logits": 0.7990910440683365,
      "step": 65300
    },
    {
      "epoch": 0.6531,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.5763020833333333,
      "learning_rate": 0.0003,
      "loss": 10.9157,
      "loss/aux_loss": 0.04807909373193979,
      "loss/crossentropy": 2.7008519947528837,
      "loss/logits": 0.8079722136259079,
      "step": 65310
    },
    {
      "epoch": 0.6532,
      "grad_norm": 13.75,
      "grad_norm_var": 0.53671875,
      "learning_rate": 0.0003,
      "loss": 10.8207,
      "loss/aux_loss": 0.04807158559560776,
      "loss/crossentropy": 2.5901060104370117,
      "loss/logits": 0.8299726933240891,
      "step": 65320
    },
    {
      "epoch": 0.6533,
      "grad_norm": 16.0,
      "grad_norm_var": 0.8528645833333334,
      "learning_rate": 0.0003,
      "loss": 10.891,
      "loss/aux_loss": 0.0480627816170454,
      "loss/crossentropy": 2.6457729578018188,
      "loss/logits": 0.8211910486221313,
      "step": 65330
    },
    {
      "epoch": 0.6534,
      "grad_norm": 14.875,
      "grad_norm_var": 0.904150390625,
      "learning_rate": 0.0003,
      "loss": 10.8124,
      "loss/aux_loss": 0.04807421285659075,
      "loss/crossentropy": 2.6744938433170318,
      "loss/logits": 0.7985322535037994,
      "step": 65340
    },
    {
      "epoch": 0.6535,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.1171223958333334,
      "learning_rate": 0.0003,
      "loss": 10.6537,
      "loss/aux_loss": 0.04807833898812532,
      "loss/crossentropy": 2.623306268453598,
      "loss/logits": 0.7695679128170013,
      "step": 65350
    },
    {
      "epoch": 0.6536,
      "grad_norm": 14.75,
      "grad_norm_var": 0.36248372395833334,
      "learning_rate": 0.0003,
      "loss": 10.7607,
      "loss/aux_loss": 0.048066575266420844,
      "loss/crossentropy": 2.7030728101730346,
      "loss/logits": 0.8045616328716279,
      "step": 65360
    },
    {
      "epoch": 0.6537,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.7317708333333334,
      "learning_rate": 0.0003,
      "loss": 11.0547,
      "loss/aux_loss": 0.048070757277309896,
      "loss/crossentropy": 2.8383954405784606,
      "loss/logits": 0.8456792950630188,
      "step": 65370
    },
    {
      "epoch": 0.6538,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.709228515625,
      "learning_rate": 0.0003,
      "loss": 10.8044,
      "loss/aux_loss": 0.04807031229138374,
      "loss/crossentropy": 2.7254865407943725,
      "loss/logits": 0.8441527247428894,
      "step": 65380
    },
    {
      "epoch": 0.6539,
      "grad_norm": 16.75,
      "grad_norm_var": 0.485400390625,
      "learning_rate": 0.0003,
      "loss": 10.8881,
      "loss/aux_loss": 0.04807039219886065,
      "loss/crossentropy": 2.7737102448940276,
      "loss/logits": 0.8173193544149399,
      "step": 65390
    },
    {
      "epoch": 0.654,
      "grad_norm": 14.625,
      "grad_norm_var": 0.7863932291666667,
      "learning_rate": 0.0003,
      "loss": 10.9235,
      "loss/aux_loss": 0.04807139802724123,
      "loss/crossentropy": 2.7199482560157775,
      "loss/logits": 0.8173371762037277,
      "step": 65400
    },
    {
      "epoch": 0.6541,
      "grad_norm": 14.75,
      "grad_norm_var": 1.0648274739583334,
      "learning_rate": 0.0003,
      "loss": 10.9632,
      "loss/aux_loss": 0.048072163760662076,
      "loss/crossentropy": 2.7658130168914794,
      "loss/logits": 0.8008842885494232,
      "step": 65410
    },
    {
      "epoch": 0.6542,
      "grad_norm": 15.875,
      "grad_norm_var": 0.55390625,
      "learning_rate": 0.0003,
      "loss": 10.9842,
      "loss/aux_loss": 0.04805851969867945,
      "loss/crossentropy": 2.8067606568336485,
      "loss/logits": 0.7942769289016723,
      "step": 65420
    },
    {
      "epoch": 0.6543,
      "grad_norm": 16.0,
      "grad_norm_var": 0.332275390625,
      "learning_rate": 0.0003,
      "loss": 10.9043,
      "loss/aux_loss": 0.048070518858730794,
      "loss/crossentropy": 2.683800792694092,
      "loss/logits": 0.8469008475542068,
      "step": 65430
    },
    {
      "epoch": 0.6544,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.6820149739583333,
      "learning_rate": 0.0003,
      "loss": 10.9415,
      "loss/aux_loss": 0.04807311110198498,
      "loss/crossentropy": 2.7242295682430266,
      "loss/logits": 0.8172059804201126,
      "step": 65440
    },
    {
      "epoch": 0.6545,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.5926432291666667,
      "learning_rate": 0.0003,
      "loss": 10.7765,
      "loss/aux_loss": 0.04806800615042448,
      "loss/crossentropy": 2.7106892645359038,
      "loss/logits": 0.8149084568023681,
      "step": 65450
    },
    {
      "epoch": 0.6546,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.5994140625,
      "learning_rate": 0.0003,
      "loss": 11.0235,
      "loss/aux_loss": 0.048058449663221835,
      "loss/crossentropy": 2.6193589746952055,
      "loss/logits": 0.8009304910898208,
      "step": 65460
    },
    {
      "epoch": 0.6547,
      "grad_norm": 16.75,
      "grad_norm_var": 0.7122233072916667,
      "learning_rate": 0.0003,
      "loss": 10.9139,
      "loss/aux_loss": 0.04806790947914123,
      "loss/crossentropy": 2.677752900123596,
      "loss/logits": 0.8047443449497222,
      "step": 65470
    },
    {
      "epoch": 0.6548,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.9540201822916666,
      "learning_rate": 0.0003,
      "loss": 10.966,
      "loss/aux_loss": 0.04808517023921013,
      "loss/crossentropy": 2.6315142631530763,
      "loss/logits": 0.8178540676832199,
      "step": 65480
    },
    {
      "epoch": 0.6549,
      "grad_norm": 15.875,
      "grad_norm_var": 0.6160807291666667,
      "learning_rate": 0.0003,
      "loss": 10.8793,
      "loss/aux_loss": 0.04805512484163046,
      "loss/crossentropy": 2.75492285490036,
      "loss/logits": 0.7663827478885651,
      "step": 65490
    },
    {
      "epoch": 0.655,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.5440104166666667,
      "learning_rate": 0.0003,
      "loss": 10.945,
      "loss/aux_loss": 0.048072614893317225,
      "loss/crossentropy": 2.5011337757110597,
      "loss/logits": 0.8080022811889649,
      "step": 65500
    },
    {
      "epoch": 0.6551,
      "grad_norm": 15.5,
      "grad_norm_var": 0.43203125,
      "learning_rate": 0.0003,
      "loss": 11.0347,
      "loss/aux_loss": 0.048070020973682404,
      "loss/crossentropy": 2.806613862514496,
      "loss/logits": 0.8248602509498596,
      "step": 65510
    },
    {
      "epoch": 0.6552,
      "grad_norm": 15.5,
      "grad_norm_var": 0.265869140625,
      "learning_rate": 0.0003,
      "loss": 10.8658,
      "loss/aux_loss": 0.048069593869149684,
      "loss/crossentropy": 2.7143899381160734,
      "loss/logits": 0.812701740860939,
      "step": 65520
    },
    {
      "epoch": 0.6553,
      "grad_norm": 16.125,
      "grad_norm_var": 0.42355143229166664,
      "learning_rate": 0.0003,
      "loss": 10.8261,
      "loss/aux_loss": 0.0480674784630537,
      "loss/crossentropy": 2.8173023641109465,
      "loss/logits": 0.8293744832277298,
      "step": 65530
    },
    {
      "epoch": 0.6554,
      "grad_norm": 14.8125,
      "grad_norm_var": 1.043212890625,
      "learning_rate": 0.0003,
      "loss": 10.8558,
      "loss/aux_loss": 0.04806223623454571,
      "loss/crossentropy": 2.5952585637569427,
      "loss/logits": 0.7964704751968383,
      "step": 65540
    },
    {
      "epoch": 0.6555,
      "grad_norm": 15.875,
      "grad_norm_var": 0.7447916666666666,
      "learning_rate": 0.0003,
      "loss": 10.8759,
      "loss/aux_loss": 0.048076456785202025,
      "loss/crossentropy": 2.5286275029182432,
      "loss/logits": 0.8162722438573837,
      "step": 65550
    },
    {
      "epoch": 0.6556,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.545556640625,
      "learning_rate": 0.0003,
      "loss": 10.8139,
      "loss/aux_loss": 0.04805875848978758,
      "loss/crossentropy": 2.9092560052871703,
      "loss/logits": 0.8326963096857071,
      "step": 65560
    },
    {
      "epoch": 0.6557,
      "grad_norm": 16.875,
      "grad_norm_var": 0.45284830729166664,
      "learning_rate": 0.0003,
      "loss": 10.6835,
      "loss/aux_loss": 0.04808024391531944,
      "loss/crossentropy": 2.513635885715485,
      "loss/logits": 0.7660587877035141,
      "step": 65570
    },
    {
      "epoch": 0.6558,
      "grad_norm": 15.375,
      "grad_norm_var": 0.9692545572916667,
      "learning_rate": 0.0003,
      "loss": 10.8846,
      "loss/aux_loss": 0.04806702360510826,
      "loss/crossentropy": 2.7251508593559266,
      "loss/logits": 0.815480324625969,
      "step": 65580
    },
    {
      "epoch": 0.6559,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.6831868489583334,
      "learning_rate": 0.0003,
      "loss": 10.8619,
      "loss/aux_loss": 0.04806389529258013,
      "loss/crossentropy": 2.5533951461315154,
      "loss/logits": 0.7619587257504463,
      "step": 65590
    },
    {
      "epoch": 0.656,
      "grad_norm": 15.5,
      "grad_norm_var": 0.7244791666666667,
      "learning_rate": 0.0003,
      "loss": 10.8078,
      "loss/aux_loss": 0.048077251948416236,
      "loss/crossentropy": 2.7818902015686033,
      "loss/logits": 0.8328968584537506,
      "step": 65600
    },
    {
      "epoch": 0.6561,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.9035807291666667,
      "learning_rate": 0.0003,
      "loss": 10.8577,
      "loss/aux_loss": 0.048065769299864766,
      "loss/crossentropy": 2.6951212108135225,
      "loss/logits": 0.7890205055475235,
      "step": 65610
    },
    {
      "epoch": 0.6562,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.708837890625,
      "learning_rate": 0.0003,
      "loss": 11.0567,
      "loss/aux_loss": 0.048072610050439835,
      "loss/crossentropy": 2.7550642490386963,
      "loss/logits": 0.8612349301576614,
      "step": 65620
    },
    {
      "epoch": 0.6563,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.28880208333333335,
      "learning_rate": 0.0003,
      "loss": 11.0369,
      "loss/aux_loss": 0.04806470815092325,
      "loss/crossentropy": 2.7217436909675596,
      "loss/logits": 0.8420159697532654,
      "step": 65630
    },
    {
      "epoch": 0.6564,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.35618489583333335,
      "learning_rate": 0.0003,
      "loss": 10.9453,
      "loss/aux_loss": 0.048069029301404956,
      "loss/crossentropy": 2.7288358211517334,
      "loss/logits": 0.8264297485351563,
      "step": 65640
    },
    {
      "epoch": 0.6565,
      "grad_norm": 15.125,
      "grad_norm_var": 1.4625,
      "learning_rate": 0.0003,
      "loss": 10.9144,
      "loss/aux_loss": 0.048067984730005266,
      "loss/crossentropy": 2.7028370201587677,
      "loss/logits": 0.7846741080284119,
      "step": 65650
    },
    {
      "epoch": 0.6566,
      "grad_norm": 14.9375,
      "grad_norm_var": 46.948681640625,
      "learning_rate": 0.0003,
      "loss": 10.8727,
      "loss/aux_loss": 0.04807305838912725,
      "loss/crossentropy": 2.77775114774704,
      "loss/logits": 0.8294332057237626,
      "step": 65660
    },
    {
      "epoch": 0.6567,
      "grad_norm": 15.25,
      "grad_norm_var": 172.750634765625,
      "learning_rate": 0.0003,
      "loss": 10.8284,
      "loss/aux_loss": 0.04807068482041359,
      "loss/crossentropy": 2.617089319229126,
      "loss/logits": 0.8040230572223663,
      "step": 65670
    },
    {
      "epoch": 0.6568,
      "grad_norm": 17.125,
      "grad_norm_var": 12.295247395833334,
      "learning_rate": 0.0003,
      "loss": 10.8871,
      "loss/aux_loss": 0.048083870112895964,
      "loss/crossentropy": 2.7740320563316345,
      "loss/logits": 0.8273166418075562,
      "step": 65680
    },
    {
      "epoch": 0.6569,
      "grad_norm": 14.25,
      "grad_norm_var": 0.57421875,
      "learning_rate": 0.0003,
      "loss": 10.8403,
      "loss/aux_loss": 0.048068479262292386,
      "loss/crossentropy": 2.646625280380249,
      "loss/logits": 0.7698414534330368,
      "step": 65690
    },
    {
      "epoch": 0.657,
      "grad_norm": 16.0,
      "grad_norm_var": 0.8505208333333333,
      "learning_rate": 0.0003,
      "loss": 10.7472,
      "loss/aux_loss": 0.04805990979075432,
      "loss/crossentropy": 2.5781956732273104,
      "loss/logits": 0.7773859173059463,
      "step": 65700
    },
    {
      "epoch": 0.6571,
      "grad_norm": 15.375,
      "grad_norm_var": 0.9051432291666667,
      "learning_rate": 0.0003,
      "loss": 10.9749,
      "loss/aux_loss": 0.048071971721947195,
      "loss/crossentropy": 2.6975907385349274,
      "loss/logits": 0.8216118335723877,
      "step": 65710
    },
    {
      "epoch": 0.6572,
      "grad_norm": 14.75,
      "grad_norm_var": 0.89609375,
      "learning_rate": 0.0003,
      "loss": 10.9318,
      "loss/aux_loss": 0.04807693250477314,
      "loss/crossentropy": 2.7426917433738707,
      "loss/logits": 0.8241723477840424,
      "step": 65720
    },
    {
      "epoch": 0.6573,
      "grad_norm": 16.5,
      "grad_norm_var": 0.9436848958333334,
      "learning_rate": 0.0003,
      "loss": 11.0239,
      "loss/aux_loss": 0.04806841984391212,
      "loss/crossentropy": 2.820639455318451,
      "loss/logits": 0.8430281788110733,
      "step": 65730
    },
    {
      "epoch": 0.6574,
      "grad_norm": 16.375,
      "grad_norm_var": 0.9322265625,
      "learning_rate": 0.0003,
      "loss": 10.9057,
      "loss/aux_loss": 0.04807513765990734,
      "loss/crossentropy": 2.6548421382904053,
      "loss/logits": 0.8545916020870209,
      "step": 65740
    },
    {
      "epoch": 0.6575,
      "grad_norm": 14.875,
      "grad_norm_var": 1.0886555989583333,
      "learning_rate": 0.0003,
      "loss": 11.003,
      "loss/aux_loss": 0.048061134107410905,
      "loss/crossentropy": 2.6990270137786867,
      "loss/logits": 0.823108297586441,
      "step": 65750
    },
    {
      "epoch": 0.6576,
      "grad_norm": 15.375,
      "grad_norm_var": 0.6048014322916667,
      "learning_rate": 0.0003,
      "loss": 10.8804,
      "loss/aux_loss": 0.04807158131152391,
      "loss/crossentropy": 2.6189096331596375,
      "loss/logits": 0.7941760838031768,
      "step": 65760
    },
    {
      "epoch": 0.6577,
      "grad_norm": 15.125,
      "grad_norm_var": 0.2613118489583333,
      "learning_rate": 0.0003,
      "loss": 10.7767,
      "loss/aux_loss": 0.04806184582412243,
      "loss/crossentropy": 2.6444436371326447,
      "loss/logits": 0.8036207824945449,
      "step": 65770
    },
    {
      "epoch": 0.6578,
      "grad_norm": 15.25,
      "grad_norm_var": 0.3494140625,
      "learning_rate": 0.0003,
      "loss": 10.9201,
      "loss/aux_loss": 0.04807628132402897,
      "loss/crossentropy": 2.7261348724365235,
      "loss/logits": 0.8091208696365356,
      "step": 65780
    },
    {
      "epoch": 0.6579,
      "grad_norm": 14.25,
      "grad_norm_var": 0.7093587239583333,
      "learning_rate": 0.0003,
      "loss": 10.7387,
      "loss/aux_loss": 0.04807419925928116,
      "loss/crossentropy": 2.5443699240684508,
      "loss/logits": 0.8154137402772903,
      "step": 65790
    },
    {
      "epoch": 0.658,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.664697265625,
      "learning_rate": 0.0003,
      "loss": 10.9833,
      "loss/aux_loss": 0.0480806415900588,
      "loss/crossentropy": 2.5583129703998564,
      "loss/logits": 0.830548295378685,
      "step": 65800
    },
    {
      "epoch": 0.6581,
      "grad_norm": 14.375,
      "grad_norm_var": 0.8320149739583333,
      "learning_rate": 0.0003,
      "loss": 10.9038,
      "loss/aux_loss": 0.04805789217352867,
      "loss/crossentropy": 2.6957422375679014,
      "loss/logits": 0.8219772160053254,
      "step": 65810
    },
    {
      "epoch": 0.6582,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.801025390625,
      "learning_rate": 0.0003,
      "loss": 10.9157,
      "loss/aux_loss": 0.04807321224361658,
      "loss/crossentropy": 2.6964453876018526,
      "loss/logits": 0.8138649493455887,
      "step": 65820
    },
    {
      "epoch": 0.6583,
      "grad_norm": 15.75,
      "grad_norm_var": 0.337353515625,
      "learning_rate": 0.0003,
      "loss": 10.9783,
      "loss/aux_loss": 0.048068931140005586,
      "loss/crossentropy": 2.7101471066474914,
      "loss/logits": 0.8215384483337402,
      "step": 65830
    },
    {
      "epoch": 0.6584,
      "grad_norm": 16.0,
      "grad_norm_var": 0.6258951822916666,
      "learning_rate": 0.0003,
      "loss": 10.9277,
      "loss/aux_loss": 0.048083207570016384,
      "loss/crossentropy": 2.4620073318481444,
      "loss/logits": 0.7914715379476547,
      "step": 65840
    },
    {
      "epoch": 0.6585,
      "grad_norm": 15.875,
      "grad_norm_var": 0.5516764322916666,
      "learning_rate": 0.0003,
      "loss": 10.9253,
      "loss/aux_loss": 0.048061787895858285,
      "loss/crossentropy": 2.727776914834976,
      "loss/logits": 0.7932167321443557,
      "step": 65850
    },
    {
      "epoch": 0.6586,
      "grad_norm": 14.875,
      "grad_norm_var": 0.5926920572916666,
      "learning_rate": 0.0003,
      "loss": 10.9381,
      "loss/aux_loss": 0.04806985054165125,
      "loss/crossentropy": 2.8461714386940002,
      "loss/logits": 0.7947121143341065,
      "step": 65860
    },
    {
      "epoch": 0.6587,
      "grad_norm": 14.125,
      "grad_norm_var": 0.3098958333333333,
      "learning_rate": 0.0003,
      "loss": 10.8217,
      "loss/aux_loss": 0.04806865192949772,
      "loss/crossentropy": 2.6267981052398683,
      "loss/logits": 0.7960964858531951,
      "step": 65870
    },
    {
      "epoch": 0.6588,
      "grad_norm": 15.375,
      "grad_norm_var": 0.40670572916666664,
      "learning_rate": 0.0003,
      "loss": 10.8895,
      "loss/aux_loss": 0.04806759785860777,
      "loss/crossentropy": 2.741170364618301,
      "loss/logits": 0.8563113749027252,
      "step": 65880
    },
    {
      "epoch": 0.6589,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.19542643229166667,
      "learning_rate": 0.0003,
      "loss": 10.8893,
      "loss/aux_loss": 0.04807578232139349,
      "loss/crossentropy": 2.7358233749866487,
      "loss/logits": 0.838133355975151,
      "step": 65890
    },
    {
      "epoch": 0.659,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.13956705729166666,
      "learning_rate": 0.0003,
      "loss": 10.9873,
      "loss/aux_loss": 0.048049908503890036,
      "loss/crossentropy": 2.681365489959717,
      "loss/logits": 0.8367834746837616,
      "step": 65900
    },
    {
      "epoch": 0.6591,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.347119140625,
      "learning_rate": 0.0003,
      "loss": 10.9322,
      "loss/aux_loss": 0.04807221945375204,
      "loss/crossentropy": 2.7976817011833193,
      "loss/logits": 0.8617210656404495,
      "step": 65910
    },
    {
      "epoch": 0.6592,
      "grad_norm": 14.75,
      "grad_norm_var": 1.5262858072916667,
      "learning_rate": 0.0003,
      "loss": 10.9087,
      "loss/aux_loss": 0.04806236419826746,
      "loss/crossentropy": 2.6097477436065675,
      "loss/logits": 0.8578928947448731,
      "step": 65920
    },
    {
      "epoch": 0.6593,
      "grad_norm": 17.125,
      "grad_norm_var": 1.06640625,
      "learning_rate": 0.0003,
      "loss": 11.0508,
      "loss/aux_loss": 0.048072699643671515,
      "loss/crossentropy": 2.638018161058426,
      "loss/logits": 0.8202035665512085,
      "step": 65930
    },
    {
      "epoch": 0.6594,
      "grad_norm": 16.5,
      "grad_norm_var": 1.5949055989583334,
      "learning_rate": 0.0003,
      "loss": 11.0022,
      "loss/aux_loss": 0.0480684619396925,
      "loss/crossentropy": 2.7689769506454467,
      "loss/logits": 0.8445602893829346,
      "step": 65940
    },
    {
      "epoch": 0.6595,
      "grad_norm": 15.5,
      "grad_norm_var": 2.2742024739583333,
      "learning_rate": 0.0003,
      "loss": 10.9084,
      "loss/aux_loss": 0.048072042688727376,
      "loss/crossentropy": 2.7954149782657622,
      "loss/logits": 0.7957364201545716,
      "step": 65950
    },
    {
      "epoch": 0.6596,
      "grad_norm": 15.0625,
      "grad_norm_var": 2.113916015625,
      "learning_rate": 0.0003,
      "loss": 10.9942,
      "loss/aux_loss": 0.04806188233196736,
      "loss/crossentropy": 2.71195827126503,
      "loss/logits": 0.7810200721025466,
      "step": 65960
    },
    {
      "epoch": 0.6597,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.23932291666666666,
      "learning_rate": 0.0003,
      "loss": 10.8403,
      "loss/aux_loss": 0.04807203095406294,
      "loss/crossentropy": 2.6094238460063934,
      "loss/logits": 0.7922606945037842,
      "step": 65970
    },
    {
      "epoch": 0.6598,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.396728515625,
      "learning_rate": 0.0003,
      "loss": 10.7105,
      "loss/aux_loss": 0.048070499673485756,
      "loss/crossentropy": 2.6893329977989198,
      "loss/logits": 0.7958266377449036,
      "step": 65980
    },
    {
      "epoch": 0.6599,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.8907389322916667,
      "learning_rate": 0.0003,
      "loss": 11.0927,
      "loss/aux_loss": 0.048058568872511385,
      "loss/crossentropy": 2.7194202184677123,
      "loss/logits": 0.8332067221403122,
      "step": 65990
    },
    {
      "epoch": 0.66,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.6409993489583333,
      "learning_rate": 0.0003,
      "loss": 10.7974,
      "loss/aux_loss": 0.04807265195995569,
      "loss/crossentropy": 2.690684497356415,
      "loss/logits": 0.8148763328790665,
      "step": 66000
    },
    {
      "epoch": 0.6601,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.5574055989583333,
      "learning_rate": 0.0003,
      "loss": 10.888,
      "loss/aux_loss": 0.04805999808013439,
      "loss/crossentropy": 2.8406422197818757,
      "loss/logits": 0.8340202659368515,
      "step": 66010
    },
    {
      "epoch": 0.6602,
      "grad_norm": 16.625,
      "grad_norm_var": 0.6265462239583334,
      "learning_rate": 0.0003,
      "loss": 10.9604,
      "loss/aux_loss": 0.04808083530515432,
      "loss/crossentropy": 2.6737845301628114,
      "loss/logits": 0.7914625614881515,
      "step": 66020
    },
    {
      "epoch": 0.6603,
      "grad_norm": 14.75,
      "grad_norm_var": 0.5699055989583334,
      "learning_rate": 0.0003,
      "loss": 10.954,
      "loss/aux_loss": 0.048062770254909994,
      "loss/crossentropy": 2.8464788436889648,
      "loss/logits": 0.8319862931966782,
      "step": 66030
    },
    {
      "epoch": 0.6604,
      "grad_norm": 16.5,
      "grad_norm_var": 0.5905598958333333,
      "learning_rate": 0.0003,
      "loss": 11.004,
      "loss/aux_loss": 0.04807984437793493,
      "loss/crossentropy": 2.741937702894211,
      "loss/logits": 0.8358243376016616,
      "step": 66040
    },
    {
      "epoch": 0.6605,
      "grad_norm": 15.8125,
      "grad_norm_var": 1.010009765625,
      "learning_rate": 0.0003,
      "loss": 10.8128,
      "loss/aux_loss": 0.04805782604962587,
      "loss/crossentropy": 2.4419663667678835,
      "loss/logits": 0.8032531976699829,
      "step": 66050
    },
    {
      "epoch": 0.6606,
      "grad_norm": 14.75,
      "grad_norm_var": 0.459619140625,
      "learning_rate": 0.0003,
      "loss": 10.8743,
      "loss/aux_loss": 0.048064283281564715,
      "loss/crossentropy": 2.7457400977611544,
      "loss/logits": 0.8262648940086365,
      "step": 66060
    },
    {
      "epoch": 0.6607,
      "grad_norm": 14.875,
      "grad_norm_var": 0.4903645833333333,
      "learning_rate": 0.0003,
      "loss": 10.8164,
      "loss/aux_loss": 0.048074642196297646,
      "loss/crossentropy": 2.6913636445999147,
      "loss/logits": 0.8233010709285736,
      "step": 66070
    },
    {
      "epoch": 0.6608,
      "grad_norm": 15.5,
      "grad_norm_var": 0.5546223958333333,
      "learning_rate": 0.0003,
      "loss": 10.9488,
      "loss/aux_loss": 0.04807223491370678,
      "loss/crossentropy": 2.7321924567222595,
      "loss/logits": 0.8634290426969529,
      "step": 66080
    },
    {
      "epoch": 0.6609,
      "grad_norm": 14.5,
      "grad_norm_var": 0.6843098958333333,
      "learning_rate": 0.0003,
      "loss": 10.6757,
      "loss/aux_loss": 0.048049288988113406,
      "loss/crossentropy": 2.68677796125412,
      "loss/logits": 0.8587844461202622,
      "step": 66090
    },
    {
      "epoch": 0.661,
      "grad_norm": 15.125,
      "grad_norm_var": 0.6515625,
      "learning_rate": 0.0003,
      "loss": 10.8042,
      "loss/aux_loss": 0.048063311353325845,
      "loss/crossentropy": 2.6101099252700806,
      "loss/logits": 0.8087275177240372,
      "step": 66100
    },
    {
      "epoch": 0.6611,
      "grad_norm": 13.875,
      "grad_norm_var": 0.5549479166666667,
      "learning_rate": 0.0003,
      "loss": 10.8571,
      "loss/aux_loss": 0.04808393083512783,
      "loss/crossentropy": 2.6760826587677,
      "loss/logits": 0.780521473288536,
      "step": 66110
    },
    {
      "epoch": 0.6612,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.451025390625,
      "learning_rate": 0.0003,
      "loss": 10.9433,
      "loss/aux_loss": 0.04805605374276638,
      "loss/crossentropy": 2.692962384223938,
      "loss/logits": 0.8174421191215515,
      "step": 66120
    },
    {
      "epoch": 0.6613,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.76171875,
      "learning_rate": 0.0003,
      "loss": 10.9211,
      "loss/aux_loss": 0.04807621203362942,
      "loss/crossentropy": 2.6863688111305235,
      "loss/logits": 0.798431122303009,
      "step": 66130
    },
    {
      "epoch": 0.6614,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.47630208333333335,
      "learning_rate": 0.0003,
      "loss": 10.9411,
      "loss/aux_loss": 0.04805770944803953,
      "loss/crossentropy": 2.7181039690971374,
      "loss/logits": 0.8259652733802796,
      "step": 66140
    },
    {
      "epoch": 0.6615,
      "grad_norm": 16.5,
      "grad_norm_var": 3.274853515625,
      "learning_rate": 0.0003,
      "loss": 10.8523,
      "loss/aux_loss": 0.04807611126452684,
      "loss/crossentropy": 2.8777012705802916,
      "loss/logits": 0.8209088236093521,
      "step": 66150
    },
    {
      "epoch": 0.6616,
      "grad_norm": 14.9375,
      "grad_norm_var": 3.316145833333333,
      "learning_rate": 0.0003,
      "loss": 11.0427,
      "loss/aux_loss": 0.048064004816114905,
      "loss/crossentropy": 2.9656025767326355,
      "loss/logits": 0.8535489648580551,
      "step": 66160
    },
    {
      "epoch": 0.6617,
      "grad_norm": 17.125,
      "grad_norm_var": 0.8879557291666667,
      "learning_rate": 0.0003,
      "loss": 10.7944,
      "loss/aux_loss": 0.04805393647402525,
      "loss/crossentropy": 2.6846187472343446,
      "loss/logits": 0.7934094220399857,
      "step": 66170
    },
    {
      "epoch": 0.6618,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.6486979166666667,
      "learning_rate": 0.0003,
      "loss": 10.9017,
      "loss/aux_loss": 0.04807519093155861,
      "loss/crossentropy": 2.854272258281708,
      "loss/logits": 0.8095389395952225,
      "step": 66180
    },
    {
      "epoch": 0.6619,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.613525390625,
      "learning_rate": 0.0003,
      "loss": 10.946,
      "loss/aux_loss": 0.04806575421243906,
      "loss/crossentropy": 2.7491804242134092,
      "loss/logits": 0.8097761183977127,
      "step": 66190
    },
    {
      "epoch": 0.662,
      "grad_norm": 16.625,
      "grad_norm_var": 0.4331868489583333,
      "learning_rate": 0.0003,
      "loss": 10.9215,
      "loss/aux_loss": 0.04807676300406456,
      "loss/crossentropy": 2.6795652329921724,
      "loss/logits": 0.801378121972084,
      "step": 66200
    },
    {
      "epoch": 0.6621,
      "grad_norm": 14.625,
      "grad_norm_var": 0.563134765625,
      "learning_rate": 0.0003,
      "loss": 10.8342,
      "loss/aux_loss": 0.04805709309875965,
      "loss/crossentropy": 2.752977591753006,
      "loss/logits": 0.8294487535953522,
      "step": 66210
    },
    {
      "epoch": 0.6622,
      "grad_norm": 15.375,
      "grad_norm_var": 0.8949055989583333,
      "learning_rate": 0.0003,
      "loss": 10.9269,
      "loss/aux_loss": 0.048077603057026866,
      "loss/crossentropy": 2.8537149250507357,
      "loss/logits": 0.8224076896905899,
      "step": 66220
    },
    {
      "epoch": 0.6623,
      "grad_norm": 16.75,
      "grad_norm_var": 0.5244140625,
      "learning_rate": 0.0003,
      "loss": 10.9263,
      "loss/aux_loss": 0.04807521738111973,
      "loss/crossentropy": 2.651250684261322,
      "loss/logits": 0.8318710893392562,
      "step": 66230
    },
    {
      "epoch": 0.6624,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.4410807291666667,
      "learning_rate": 0.0003,
      "loss": 10.9263,
      "loss/aux_loss": 0.048059741780161855,
      "loss/crossentropy": 2.849357432126999,
      "loss/logits": 0.8336068332195282,
      "step": 66240
    },
    {
      "epoch": 0.6625,
      "grad_norm": 16.25,
      "grad_norm_var": 0.6070149739583334,
      "learning_rate": 0.0003,
      "loss": 10.8793,
      "loss/aux_loss": 0.04806891325861216,
      "loss/crossentropy": 2.5584873795509337,
      "loss/logits": 0.8233877867460251,
      "step": 66250
    },
    {
      "epoch": 0.6626,
      "grad_norm": 15.625,
      "grad_norm_var": 0.7613932291666666,
      "learning_rate": 0.0003,
      "loss": 10.8628,
      "loss/aux_loss": 0.04806743785738945,
      "loss/crossentropy": 2.732908582687378,
      "loss/logits": 0.8170014798641205,
      "step": 66260
    },
    {
      "epoch": 0.6627,
      "grad_norm": 14.875,
      "grad_norm_var": 0.363525390625,
      "learning_rate": 0.0003,
      "loss": 10.7629,
      "loss/aux_loss": 0.04805696085095405,
      "loss/crossentropy": 2.81008266210556,
      "loss/logits": 0.8305856496095657,
      "step": 66270
    },
    {
      "epoch": 0.6628,
      "grad_norm": 15.125,
      "grad_norm_var": 0.25045572916666664,
      "learning_rate": 0.0003,
      "loss": 10.8067,
      "loss/aux_loss": 0.048075790703296664,
      "loss/crossentropy": 2.528480714559555,
      "loss/logits": 0.7946991354227066,
      "step": 66280
    },
    {
      "epoch": 0.6629,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.4090983072916667,
      "learning_rate": 0.0003,
      "loss": 10.9142,
      "loss/aux_loss": 0.048072568513453005,
      "loss/crossentropy": 2.7415711283683777,
      "loss/logits": 0.8110772639513015,
      "step": 66290
    },
    {
      "epoch": 0.663,
      "grad_norm": 14.375,
      "grad_norm_var": 0.7744791666666667,
      "learning_rate": 0.0003,
      "loss": 10.8882,
      "loss/aux_loss": 0.048075555637478826,
      "loss/crossentropy": 2.724819177389145,
      "loss/logits": 0.7944720953702926,
      "step": 66300
    },
    {
      "epoch": 0.6631,
      "grad_norm": 15.125,
      "grad_norm_var": 0.7395182291666667,
      "learning_rate": 0.0003,
      "loss": 10.9813,
      "loss/aux_loss": 0.04807244967669248,
      "loss/crossentropy": 2.643247830867767,
      "loss/logits": 0.8237002640962601,
      "step": 66310
    },
    {
      "epoch": 0.6632,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.5169108072916667,
      "learning_rate": 0.0003,
      "loss": 10.7386,
      "loss/aux_loss": 0.048069367185235023,
      "loss/crossentropy": 2.7121821284294128,
      "loss/logits": 0.8011160790920258,
      "step": 66320
    },
    {
      "epoch": 0.6633,
      "grad_norm": 14.625,
      "grad_norm_var": 0.30402018229166666,
      "learning_rate": 0.0003,
      "loss": 10.8735,
      "loss/aux_loss": 0.04806159436702728,
      "loss/crossentropy": 2.7342435657978057,
      "loss/logits": 0.8220883011817932,
      "step": 66330
    },
    {
      "epoch": 0.6634,
      "grad_norm": 15.625,
      "grad_norm_var": 0.394775390625,
      "learning_rate": 0.0003,
      "loss": 10.8719,
      "loss/aux_loss": 0.0480760769918561,
      "loss/crossentropy": 2.803659129142761,
      "loss/logits": 0.8247465431690216,
      "step": 66340
    },
    {
      "epoch": 0.6635,
      "grad_norm": 14.625,
      "grad_norm_var": 0.9119791666666667,
      "learning_rate": 0.0003,
      "loss": 10.9,
      "loss/aux_loss": 0.04806450568139553,
      "loss/crossentropy": 2.7340852856636046,
      "loss/logits": 0.810696679353714,
      "step": 66350
    },
    {
      "epoch": 0.6636,
      "grad_norm": 14.875,
      "grad_norm_var": 0.8149576822916667,
      "learning_rate": 0.0003,
      "loss": 10.9793,
      "loss/aux_loss": 0.048075934126973155,
      "loss/crossentropy": 2.481299436092377,
      "loss/logits": 0.7764072805643082,
      "step": 66360
    },
    {
      "epoch": 0.6637,
      "grad_norm": 14.75,
      "grad_norm_var": 0.2515462239583333,
      "learning_rate": 0.0003,
      "loss": 10.9342,
      "loss/aux_loss": 0.04805976003408432,
      "loss/crossentropy": 2.8292657256126406,
      "loss/logits": 0.8594965010881424,
      "step": 66370
    },
    {
      "epoch": 0.6638,
      "grad_norm": 15.5,
      "grad_norm_var": 0.47784830729166666,
      "learning_rate": 0.0003,
      "loss": 10.7546,
      "loss/aux_loss": 0.048081879131495954,
      "loss/crossentropy": 2.621725058555603,
      "loss/logits": 0.778819665312767,
      "step": 66380
    },
    {
      "epoch": 0.6639,
      "grad_norm": 16.125,
      "grad_norm_var": 0.46261393229166664,
      "learning_rate": 0.0003,
      "loss": 10.8435,
      "loss/aux_loss": 0.04807425364851951,
      "loss/crossentropy": 2.6788039445877074,
      "loss/logits": 0.8278974890708923,
      "step": 66390
    },
    {
      "epoch": 0.664,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.8796712239583333,
      "learning_rate": 0.0003,
      "loss": 10.9036,
      "loss/aux_loss": 0.04806184228509665,
      "loss/crossentropy": 2.79437460899353,
      "loss/logits": 0.8034818679094314,
      "step": 66400
    },
    {
      "epoch": 0.6641,
      "grad_norm": 14.75,
      "grad_norm_var": 1.0442057291666667,
      "learning_rate": 0.0003,
      "loss": 10.9,
      "loss/aux_loss": 0.0480803944170475,
      "loss/crossentropy": 2.8535486102104186,
      "loss/logits": 0.8078803330659866,
      "step": 66410
    },
    {
      "epoch": 0.6642,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.6542805989583333,
      "learning_rate": 0.0003,
      "loss": 10.8832,
      "loss/aux_loss": 0.04806033242493868,
      "loss/crossentropy": 2.7427396893501284,
      "loss/logits": 0.8372073888778686,
      "step": 66420
    },
    {
      "epoch": 0.6643,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.7947265625,
      "learning_rate": 0.0003,
      "loss": 10.7244,
      "loss/aux_loss": 0.048065388575196266,
      "loss/crossentropy": 2.710828936100006,
      "loss/logits": 0.8116421043872833,
      "step": 66430
    },
    {
      "epoch": 0.6644,
      "grad_norm": 15.3125,
      "grad_norm_var": 5.3578125,
      "learning_rate": 0.0003,
      "loss": 10.8632,
      "loss/aux_loss": 0.04807053990662098,
      "loss/crossentropy": 2.719035828113556,
      "loss/logits": 0.8238852351903916,
      "step": 66440
    },
    {
      "epoch": 0.6645,
      "grad_norm": 14.875,
      "grad_norm_var": 4.597639973958334,
      "learning_rate": 0.0003,
      "loss": 10.9155,
      "loss/aux_loss": 0.04806662444025278,
      "loss/crossentropy": 2.7444665908813475,
      "loss/logits": 0.8264550715684891,
      "step": 66450
    },
    {
      "epoch": 0.6646,
      "grad_norm": 15.125,
      "grad_norm_var": 0.21243489583333333,
      "learning_rate": 0.0003,
      "loss": 10.8299,
      "loss/aux_loss": 0.04806863609701395,
      "loss/crossentropy": 2.6724780917167665,
      "loss/logits": 0.8069694906473159,
      "step": 66460
    },
    {
      "epoch": 0.6647,
      "grad_norm": 19.0,
      "grad_norm_var": 1.3813639322916667,
      "learning_rate": 0.0003,
      "loss": 10.8276,
      "loss/aux_loss": 0.04807253777980804,
      "loss/crossentropy": 2.675402784347534,
      "loss/logits": 0.7911726206541061,
      "step": 66470
    },
    {
      "epoch": 0.6648,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.024853515625,
      "learning_rate": 0.0003,
      "loss": 10.9674,
      "loss/aux_loss": 0.048071261309087274,
      "loss/crossentropy": 2.833948886394501,
      "loss/logits": 0.8181155323982239,
      "step": 66480
    },
    {
      "epoch": 0.6649,
      "grad_norm": 15.5,
      "grad_norm_var": 0.44503580729166664,
      "learning_rate": 0.0003,
      "loss": 10.9112,
      "loss/aux_loss": 0.048069555498659614,
      "loss/crossentropy": 2.501497894525528,
      "loss/logits": 0.7850837290287018,
      "step": 66490
    },
    {
      "epoch": 0.665,
      "grad_norm": 14.625,
      "grad_norm_var": 0.45546875,
      "learning_rate": 0.0003,
      "loss": 10.9807,
      "loss/aux_loss": 0.04806936550885439,
      "loss/crossentropy": 2.6703847885131835,
      "loss/logits": 0.8007300883531571,
      "step": 66500
    },
    {
      "epoch": 0.6651,
      "grad_norm": 15.0,
      "grad_norm_var": 0.30974934895833334,
      "learning_rate": 0.0003,
      "loss": 10.9003,
      "loss/aux_loss": 0.04807521235197783,
      "loss/crossentropy": 2.5529791355133056,
      "loss/logits": 0.8032549649477005,
      "step": 66510
    },
    {
      "epoch": 0.6652,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.3719889322916667,
      "learning_rate": 0.0003,
      "loss": 10.8097,
      "loss/aux_loss": 0.048067670315504074,
      "loss/crossentropy": 2.7725186586380004,
      "loss/logits": 0.7987766593694687,
      "step": 66520
    },
    {
      "epoch": 0.6653,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.4192708333333333,
      "learning_rate": 0.0003,
      "loss": 11.0081,
      "loss/aux_loss": 0.04806581847369671,
      "loss/crossentropy": 2.6651151537895204,
      "loss/logits": 0.8225375205278397,
      "step": 66530
    },
    {
      "epoch": 0.6654,
      "grad_norm": 15.375,
      "grad_norm_var": 1.2058430989583333,
      "learning_rate": 0.0003,
      "loss": 10.9034,
      "loss/aux_loss": 0.04806330688297748,
      "loss/crossentropy": 2.8271175622940063,
      "loss/logits": 0.8273738652467728,
      "step": 66540
    },
    {
      "epoch": 0.6655,
      "grad_norm": 14.5,
      "grad_norm_var": 0.6911458333333333,
      "learning_rate": 0.0003,
      "loss": 10.9021,
      "loss/aux_loss": 0.0480733385309577,
      "loss/crossentropy": 2.6847646474838256,
      "loss/logits": 0.7972731322050095,
      "step": 66550
    },
    {
      "epoch": 0.6656,
      "grad_norm": 14.0,
      "grad_norm_var": 0.6874837239583333,
      "learning_rate": 0.0003,
      "loss": 10.7575,
      "loss/aux_loss": 0.048074370436370376,
      "loss/crossentropy": 2.680130976438522,
      "loss/logits": 0.7642890572547912,
      "step": 66560
    },
    {
      "epoch": 0.6657,
      "grad_norm": 14.125,
      "grad_norm_var": 0.6921712239583333,
      "learning_rate": 0.0003,
      "loss": 10.8822,
      "loss/aux_loss": 0.04806676432490349,
      "loss/crossentropy": 2.791566550731659,
      "loss/logits": 0.8233636647462845,
      "step": 66570
    },
    {
      "epoch": 0.6658,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.6950358072916667,
      "learning_rate": 0.0003,
      "loss": 10.9591,
      "loss/aux_loss": 0.04806861318647861,
      "loss/crossentropy": 2.824068772792816,
      "loss/logits": 0.8359575748443604,
      "step": 66580
    },
    {
      "epoch": 0.6659,
      "grad_norm": 16.5,
      "grad_norm_var": 3.5942057291666667,
      "learning_rate": 0.0003,
      "loss": 10.8459,
      "loss/aux_loss": 0.04806522503495216,
      "loss/crossentropy": 2.7881508350372313,
      "loss/logits": 0.8030070185661315,
      "step": 66590
    },
    {
      "epoch": 0.666,
      "grad_norm": 15.125,
      "grad_norm_var": 0.3900390625,
      "learning_rate": 0.0003,
      "loss": 10.9317,
      "loss/aux_loss": 0.048059667088091375,
      "loss/crossentropy": 2.747694218158722,
      "loss/logits": 0.8331306129693985,
      "step": 66600
    },
    {
      "epoch": 0.6661,
      "grad_norm": 16.0,
      "grad_norm_var": 0.3963541666666667,
      "learning_rate": 0.0003,
      "loss": 10.7401,
      "loss/aux_loss": 0.04808664340525866,
      "loss/crossentropy": 2.5784662127494813,
      "loss/logits": 0.7583020776510239,
      "step": 66610
    },
    {
      "epoch": 0.6662,
      "grad_norm": 15.75,
      "grad_norm_var": 0.7514973958333333,
      "learning_rate": 0.0003,
      "loss": 10.8734,
      "loss/aux_loss": 0.04807219747453928,
      "loss/crossentropy": 2.6055344462394716,
      "loss/logits": 0.8134197026491166,
      "step": 66620
    },
    {
      "epoch": 0.6663,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.31495768229166665,
      "learning_rate": 0.0003,
      "loss": 10.8212,
      "loss/aux_loss": 0.048065138049423695,
      "loss/crossentropy": 2.6512358248233796,
      "loss/logits": 0.7796749144792556,
      "step": 66630
    },
    {
      "epoch": 0.6664,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.6481770833333333,
      "learning_rate": 0.0003,
      "loss": 10.8075,
      "loss/aux_loss": 0.04805928375571966,
      "loss/crossentropy": 2.748984879255295,
      "loss/logits": 0.782018169760704,
      "step": 66640
    },
    {
      "epoch": 0.6665,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.526806640625,
      "learning_rate": 0.0003,
      "loss": 10.9915,
      "loss/aux_loss": 0.048084696754813194,
      "loss/crossentropy": 2.6403255581855776,
      "loss/logits": 0.8360554903745652,
      "step": 66650
    },
    {
      "epoch": 0.6666,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.5416666666666666,
      "learning_rate": 0.0003,
      "loss": 10.7651,
      "loss/aux_loss": 0.0480577452108264,
      "loss/crossentropy": 2.7464575350284575,
      "loss/logits": 0.816826593875885,
      "step": 66660
    },
    {
      "epoch": 0.6667,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.6425618489583333,
      "learning_rate": 0.0003,
      "loss": 10.8847,
      "loss/aux_loss": 0.04806127417832613,
      "loss/crossentropy": 2.687554585933685,
      "loss/logits": 0.8001707077026368,
      "step": 66670
    },
    {
      "epoch": 0.6668,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.3346354166666667,
      "learning_rate": 0.0003,
      "loss": 10.9473,
      "loss/aux_loss": 0.048075456917285916,
      "loss/crossentropy": 2.8568101286888123,
      "loss/logits": 0.8553566783666611,
      "step": 66680
    },
    {
      "epoch": 0.6669,
      "grad_norm": 15.25,
      "grad_norm_var": 0.2999348958333333,
      "learning_rate": 0.0003,
      "loss": 10.9538,
      "loss/aux_loss": 0.04806934054940939,
      "loss/crossentropy": 2.657517743110657,
      "loss/logits": 0.8053190678358078,
      "step": 66690
    },
    {
      "epoch": 0.667,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.9419108072916667,
      "learning_rate": 0.0003,
      "loss": 10.8266,
      "loss/aux_loss": 0.04807275123894215,
      "loss/crossentropy": 2.449772423505783,
      "loss/logits": 0.7906589955091476,
      "step": 66700
    },
    {
      "epoch": 0.6671,
      "grad_norm": 14.75,
      "grad_norm_var": 0.5174479166666667,
      "learning_rate": 0.0003,
      "loss": 10.9636,
      "loss/aux_loss": 0.048078746907413004,
      "loss/crossentropy": 2.7611198365688323,
      "loss/logits": 0.8044763505458832,
      "step": 66710
    },
    {
      "epoch": 0.6672,
      "grad_norm": 17.5,
      "grad_norm_var": 3.1023274739583333,
      "learning_rate": 0.0003,
      "loss": 10.9441,
      "loss/aux_loss": 0.04806906506419182,
      "loss/crossentropy": 2.8186138391494753,
      "loss/logits": 0.8578125566244126,
      "step": 66720
    },
    {
      "epoch": 0.6673,
      "grad_norm": 16.625,
      "grad_norm_var": 5.800504557291666,
      "learning_rate": 0.0003,
      "loss": 10.7651,
      "loss/aux_loss": 0.04806268475949764,
      "loss/crossentropy": 2.5886098742485046,
      "loss/logits": 0.7767158389091492,
      "step": 66730
    },
    {
      "epoch": 0.6674,
      "grad_norm": 15.5625,
      "grad_norm_var": 5.258854166666667,
      "learning_rate": 0.0003,
      "loss": 10.9085,
      "loss/aux_loss": 0.04808114189654589,
      "loss/crossentropy": 2.7260345458984374,
      "loss/logits": 0.79498670399189,
      "step": 66740
    },
    {
      "epoch": 0.6675,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.98125,
      "learning_rate": 0.0003,
      "loss": 10.8072,
      "loss/aux_loss": 0.048059665225446226,
      "loss/crossentropy": 2.596436160802841,
      "loss/logits": 0.7788780838251114,
      "step": 66750
    },
    {
      "epoch": 0.6676,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.4231770833333333,
      "learning_rate": 0.0003,
      "loss": 10.9401,
      "loss/aux_loss": 0.048060267791152,
      "loss/crossentropy": 2.6341087102890013,
      "loss/logits": 0.8312490910291672,
      "step": 66760
    },
    {
      "epoch": 0.6677,
      "grad_norm": 14.0,
      "grad_norm_var": 0.336962890625,
      "learning_rate": 0.0003,
      "loss": 11.0289,
      "loss/aux_loss": 0.048079300485551354,
      "loss/crossentropy": 2.835488021373749,
      "loss/logits": 0.8537455588579178,
      "step": 66770
    },
    {
      "epoch": 0.6678,
      "grad_norm": 16.25,
      "grad_norm_var": 0.43333333333333335,
      "learning_rate": 0.0003,
      "loss": 10.8726,
      "loss/aux_loss": 0.04806447774171829,
      "loss/crossentropy": 2.640529549121857,
      "loss/logits": 0.8138740628957748,
      "step": 66780
    },
    {
      "epoch": 0.6679,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.384228515625,
      "learning_rate": 0.0003,
      "loss": 10.8864,
      "loss/aux_loss": 0.048069434240460396,
      "loss/crossentropy": 2.718799889087677,
      "loss/logits": 0.804791709780693,
      "step": 66790
    },
    {
      "epoch": 0.668,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.0369140625,
      "learning_rate": 0.0003,
      "loss": 10.8305,
      "loss/aux_loss": 0.04806906692683697,
      "loss/crossentropy": 2.598710483312607,
      "loss/logits": 0.8012362569570541,
      "step": 66800
    },
    {
      "epoch": 0.6681,
      "grad_norm": 15.8125,
      "grad_norm_var": 1.2259765625,
      "learning_rate": 0.0003,
      "loss": 10.9184,
      "loss/aux_loss": 0.048060832917690276,
      "loss/crossentropy": 2.6800104796886446,
      "loss/logits": 0.8155199468135834,
      "step": 66810
    },
    {
      "epoch": 0.6682,
      "grad_norm": 16.25,
      "grad_norm_var": 23.108268229166665,
      "learning_rate": 0.0003,
      "loss": 10.7432,
      "loss/aux_loss": 0.04805918000638485,
      "loss/crossentropy": 2.729696071147919,
      "loss/logits": 0.8015040099620819,
      "step": 66820
    },
    {
      "epoch": 0.6683,
      "grad_norm": 16.875,
      "grad_norm_var": 23.670035807291665,
      "learning_rate": 0.0003,
      "loss": 10.8194,
      "loss/aux_loss": 0.04807895701378584,
      "loss/crossentropy": 2.8300251722335816,
      "loss/logits": 0.8447652935981751,
      "step": 66830
    },
    {
      "epoch": 0.6684,
      "grad_norm": 17.125,
      "grad_norm_var": 0.650244140625,
      "learning_rate": 0.0003,
      "loss": 10.9207,
      "loss/aux_loss": 0.048053346760571006,
      "loss/crossentropy": 2.675478661060333,
      "loss/logits": 0.8098080486059189,
      "step": 66840
    },
    {
      "epoch": 0.6685,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.5291015625,
      "learning_rate": 0.0003,
      "loss": 10.8967,
      "loss/aux_loss": 0.048054653219878674,
      "loss/crossentropy": 2.858685314655304,
      "loss/logits": 0.8220966100692749,
      "step": 66850
    },
    {
      "epoch": 0.6686,
      "grad_norm": 15.25,
      "grad_norm_var": 1.038134765625,
      "learning_rate": 0.0003,
      "loss": 10.8929,
      "loss/aux_loss": 0.04808123260736465,
      "loss/crossentropy": 2.7240459442138674,
      "loss/logits": 0.8174852192401886,
      "step": 66860
    },
    {
      "epoch": 0.6687,
      "grad_norm": 17.125,
      "grad_norm_var": 0.8919270833333334,
      "learning_rate": 0.0003,
      "loss": 11.0093,
      "loss/aux_loss": 0.04807883575558662,
      "loss/crossentropy": 2.665953540802002,
      "loss/logits": 0.8114261239767074,
      "step": 66870
    },
    {
      "epoch": 0.6688,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.1030598958333333,
      "learning_rate": 0.0003,
      "loss": 10.9429,
      "loss/aux_loss": 0.04805787615478039,
      "loss/crossentropy": 2.685689914226532,
      "loss/logits": 0.806901153922081,
      "step": 66880
    },
    {
      "epoch": 0.6689,
      "grad_norm": 16.375,
      "grad_norm_var": 0.511181640625,
      "learning_rate": 0.0003,
      "loss": 10.8641,
      "loss/aux_loss": 0.0480721453204751,
      "loss/crossentropy": 2.829719823598862,
      "loss/logits": 0.8213761389255524,
      "step": 66890
    },
    {
      "epoch": 0.669,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.6014973958333333,
      "learning_rate": 0.0003,
      "loss": 10.9479,
      "loss/aux_loss": 0.04806473944336176,
      "loss/crossentropy": 2.6682372391223907,
      "loss/logits": 0.8243909746408462,
      "step": 66900
    },
    {
      "epoch": 0.6691,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.3916015625,
      "learning_rate": 0.0003,
      "loss": 10.8806,
      "loss/aux_loss": 0.048068069666624066,
      "loss/crossentropy": 2.672402673959732,
      "loss/logits": 0.8250930517911911,
      "step": 66910
    },
    {
      "epoch": 0.6692,
      "grad_norm": 14.5625,
      "grad_norm_var": 1.8825358072916667,
      "learning_rate": 0.0003,
      "loss": 11.0711,
      "loss/aux_loss": 0.04807632770389318,
      "loss/crossentropy": 2.706685644388199,
      "loss/logits": 0.8509224832057953,
      "step": 66920
    },
    {
      "epoch": 0.6693,
      "grad_norm": 17.25,
      "grad_norm_var": 0.6629557291666667,
      "learning_rate": 0.0003,
      "loss": 10.6838,
      "loss/aux_loss": 0.048064228519797324,
      "loss/crossentropy": 2.7776548743247984,
      "loss/logits": 0.7853770822286605,
      "step": 66930
    },
    {
      "epoch": 0.6694,
      "grad_norm": 14.625,
      "grad_norm_var": 0.8407389322916666,
      "learning_rate": 0.0003,
      "loss": 10.912,
      "loss/aux_loss": 0.048056557215750216,
      "loss/crossentropy": 2.7243767201900484,
      "loss/logits": 0.7943523436784744,
      "step": 66940
    },
    {
      "epoch": 0.6695,
      "grad_norm": 15.1875,
      "grad_norm_var": 1.0590983072916667,
      "learning_rate": 0.0003,
      "loss": 10.9122,
      "loss/aux_loss": 0.048080825619399546,
      "loss/crossentropy": 2.541512316465378,
      "loss/logits": 0.7956676542758941,
      "step": 66950
    },
    {
      "epoch": 0.6696,
      "grad_norm": 14.25,
      "grad_norm_var": 0.619775390625,
      "learning_rate": 0.0003,
      "loss": 10.8168,
      "loss/aux_loss": 0.04807412121444941,
      "loss/crossentropy": 2.71076363325119,
      "loss/logits": 0.8469307273626328,
      "step": 66960
    },
    {
      "epoch": 0.6697,
      "grad_norm": 15.5625,
      "grad_norm_var": 1.1841145833333333,
      "learning_rate": 0.0003,
      "loss": 10.7509,
      "loss/aux_loss": 0.0480673236772418,
      "loss/crossentropy": 2.56371031999588,
      "loss/logits": 0.7859199553728103,
      "step": 66970
    },
    {
      "epoch": 0.6698,
      "grad_norm": 17.375,
      "grad_norm_var": 0.7645670572916666,
      "learning_rate": 0.0003,
      "loss": 10.8529,
      "loss/aux_loss": 0.04807327184826136,
      "loss/crossentropy": 2.7085660099983215,
      "loss/logits": 0.8172822952270508,
      "step": 66980
    },
    {
      "epoch": 0.6699,
      "grad_norm": 15.875,
      "grad_norm_var": 0.6764973958333333,
      "learning_rate": 0.0003,
      "loss": 10.6937,
      "loss/aux_loss": 0.048074647411704065,
      "loss/crossentropy": 2.551885908842087,
      "loss/logits": 0.7823489457368851,
      "step": 66990
    },
    {
      "epoch": 0.67,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.36652018229166666,
      "learning_rate": 0.0003,
      "loss": 10.999,
      "loss/aux_loss": 0.04806416109204292,
      "loss/crossentropy": 2.615692639350891,
      "loss/logits": 0.8171136409044266,
      "step": 67000
    },
    {
      "epoch": 0.6701,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.22615559895833334,
      "learning_rate": 0.0003,
      "loss": 10.8361,
      "loss/aux_loss": 0.04806163609027862,
      "loss/crossentropy": 2.696385371685028,
      "loss/logits": 0.7908263862133026,
      "step": 67010
    },
    {
      "epoch": 0.6702,
      "grad_norm": 16.5,
      "grad_norm_var": 0.5753743489583333,
      "learning_rate": 0.0003,
      "loss": 10.8475,
      "loss/aux_loss": 0.04808085560798645,
      "loss/crossentropy": 2.712275046110153,
      "loss/logits": 0.824543422460556,
      "step": 67020
    },
    {
      "epoch": 0.6703,
      "grad_norm": 14.25,
      "grad_norm_var": 0.71640625,
      "learning_rate": 0.0003,
      "loss": 10.7361,
      "loss/aux_loss": 0.04806180745363235,
      "loss/crossentropy": 2.527262020111084,
      "loss/logits": 0.7941514313220978,
      "step": 67030
    },
    {
      "epoch": 0.6704,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.5059895833333333,
      "learning_rate": 0.0003,
      "loss": 10.8482,
      "loss/aux_loss": 0.04806319680064917,
      "loss/crossentropy": 2.6808030009269714,
      "loss/logits": 0.7904377818107605,
      "step": 67040
    },
    {
      "epoch": 0.6705,
      "grad_norm": 15.125,
      "grad_norm_var": 0.41380208333333335,
      "learning_rate": 0.0003,
      "loss": 10.8096,
      "loss/aux_loss": 0.048068330809473994,
      "loss/crossentropy": 2.5817946434020995,
      "loss/logits": 0.8056021362543107,
      "step": 67050
    },
    {
      "epoch": 0.6706,
      "grad_norm": 15.0,
      "grad_norm_var": 0.9958170572916667,
      "learning_rate": 0.0003,
      "loss": 10.9695,
      "loss/aux_loss": 0.048056199215352535,
      "loss/crossentropy": 2.782631528377533,
      "loss/logits": 0.8429341733455658,
      "step": 67060
    },
    {
      "epoch": 0.6707,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.7150390625,
      "learning_rate": 0.0003,
      "loss": 11.0217,
      "loss/aux_loss": 0.04807750023901462,
      "loss/crossentropy": 2.7971240878105164,
      "loss/logits": 0.8311490327119827,
      "step": 67070
    },
    {
      "epoch": 0.6708,
      "grad_norm": 14.125,
      "grad_norm_var": 0.28619791666666666,
      "learning_rate": 0.0003,
      "loss": 10.9232,
      "loss/aux_loss": 0.048067571222782136,
      "loss/crossentropy": 2.7258487045764923,
      "loss/logits": 0.8153935343027114,
      "step": 67080
    },
    {
      "epoch": 0.6709,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.5079264322916667,
      "learning_rate": 0.0003,
      "loss": 10.7639,
      "loss/aux_loss": 0.04806251842528582,
      "loss/crossentropy": 2.828408050537109,
      "loss/logits": 0.8246762096881867,
      "step": 67090
    },
    {
      "epoch": 0.671,
      "grad_norm": 15.25,
      "grad_norm_var": 0.5353515625,
      "learning_rate": 0.0003,
      "loss": 10.8017,
      "loss/aux_loss": 0.04806637335568666,
      "loss/crossentropy": 2.6909542202949526,
      "loss/logits": 0.7874203026294708,
      "step": 67100
    },
    {
      "epoch": 0.6711,
      "grad_norm": 14.625,
      "grad_norm_var": 1.8065104166666666,
      "learning_rate": 0.0003,
      "loss": 10.7695,
      "loss/aux_loss": 0.04807747136801481,
      "loss/crossentropy": 2.7141048312187195,
      "loss/logits": 0.7738794207572937,
      "step": 67110
    },
    {
      "epoch": 0.6712,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.5468098958333334,
      "learning_rate": 0.0003,
      "loss": 10.8937,
      "loss/aux_loss": 0.0480605298653245,
      "loss/crossentropy": 2.6752750635147096,
      "loss/logits": 0.7823032259941101,
      "step": 67120
    },
    {
      "epoch": 0.6713,
      "grad_norm": 14.625,
      "grad_norm_var": 0.30323893229166665,
      "learning_rate": 0.0003,
      "loss": 10.785,
      "loss/aux_loss": 0.04806859977543354,
      "loss/crossentropy": 2.962781381607056,
      "loss/logits": 0.8514289349317551,
      "step": 67130
    },
    {
      "epoch": 0.6714,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.32109375,
      "learning_rate": 0.0003,
      "loss": 10.9113,
      "loss/aux_loss": 0.04805906768888235,
      "loss/crossentropy": 2.6575462460517882,
      "loss/logits": 0.8165967971086502,
      "step": 67140
    },
    {
      "epoch": 0.6715,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.472119140625,
      "learning_rate": 0.0003,
      "loss": 10.8406,
      "loss/aux_loss": 0.04806913398206234,
      "loss/crossentropy": 2.6859039187431337,
      "loss/logits": 0.7919700384140015,
      "step": 67150
    },
    {
      "epoch": 0.6716,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.8429524739583333,
      "learning_rate": 0.0003,
      "loss": 10.7851,
      "loss/aux_loss": 0.04807139337062836,
      "loss/crossentropy": 2.7103774309158326,
      "loss/logits": 0.8116638362407684,
      "step": 67160
    },
    {
      "epoch": 0.6717,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.40870768229166665,
      "learning_rate": 0.0003,
      "loss": 10.9319,
      "loss/aux_loss": 0.04806287419050932,
      "loss/crossentropy": 2.6983575582504273,
      "loss/logits": 0.7836291432380676,
      "step": 67170
    },
    {
      "epoch": 0.6718,
      "grad_norm": 16.25,
      "grad_norm_var": 0.44733072916666666,
      "learning_rate": 0.0003,
      "loss": 10.8345,
      "loss/aux_loss": 0.04806513842195272,
      "loss/crossentropy": 2.8540413081645966,
      "loss/logits": 0.8250791281461716,
      "step": 67180
    },
    {
      "epoch": 0.6719,
      "grad_norm": 14.875,
      "grad_norm_var": 0.6218587239583333,
      "learning_rate": 0.0003,
      "loss": 10.9294,
      "loss/aux_loss": 0.048067282512784006,
      "loss/crossentropy": 2.7587247133255004,
      "loss/logits": 0.8604197174310684,
      "step": 67190
    },
    {
      "epoch": 0.672,
      "grad_norm": 14.9375,
      "grad_norm_var": 1.4669108072916666,
      "learning_rate": 0.0003,
      "loss": 10.7877,
      "loss/aux_loss": 0.04807413946837187,
      "loss/crossentropy": 2.6343702554702757,
      "loss/logits": 0.8144495546817779,
      "step": 67200
    },
    {
      "epoch": 0.6721,
      "grad_norm": 17.25,
      "grad_norm_var": 0.6837076822916667,
      "learning_rate": 0.0003,
      "loss": 10.9378,
      "loss/aux_loss": 0.04806031696498394,
      "loss/crossentropy": 2.6540800809860228,
      "loss/logits": 0.8209151834249496,
      "step": 67210
    },
    {
      "epoch": 0.6722,
      "grad_norm": 17.25,
      "grad_norm_var": 0.6257649739583333,
      "learning_rate": 0.0003,
      "loss": 10.9277,
      "loss/aux_loss": 0.04808404482901096,
      "loss/crossentropy": 2.6092947840690615,
      "loss/logits": 0.7998175516724586,
      "step": 67220
    },
    {
      "epoch": 0.6723,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.7684733072916666,
      "learning_rate": 0.0003,
      "loss": 10.7706,
      "loss/aux_loss": 0.04805383253842592,
      "loss/crossentropy": 2.633415186405182,
      "loss/logits": 0.8068418264389038,
      "step": 67230
    },
    {
      "epoch": 0.6724,
      "grad_norm": 16.25,
      "grad_norm_var": 0.66875,
      "learning_rate": 0.0003,
      "loss": 10.8816,
      "loss/aux_loss": 0.04806835651397705,
      "loss/crossentropy": 2.6598873853683473,
      "loss/logits": 0.8227006554603576,
      "step": 67240
    },
    {
      "epoch": 0.6725,
      "grad_norm": 14.3125,
      "grad_norm_var": 0.51484375,
      "learning_rate": 0.0003,
      "loss": 10.776,
      "loss/aux_loss": 0.04807889815419912,
      "loss/crossentropy": 2.6441542148590087,
      "loss/logits": 0.8324314415454864,
      "step": 67250
    },
    {
      "epoch": 0.6726,
      "grad_norm": 14.5,
      "grad_norm_var": 0.522900390625,
      "learning_rate": 0.0003,
      "loss": 10.8126,
      "loss/aux_loss": 0.04807432275265455,
      "loss/crossentropy": 2.5847804844379425,
      "loss/logits": 0.766998502612114,
      "step": 67260
    },
    {
      "epoch": 0.6727,
      "grad_norm": 16.0,
      "grad_norm_var": 1.5234212239583333,
      "learning_rate": 0.0003,
      "loss": 10.9851,
      "loss/aux_loss": 0.04805461261421442,
      "loss/crossentropy": 2.6628905653953554,
      "loss/logits": 0.8119227319955826,
      "step": 67270
    },
    {
      "epoch": 0.6728,
      "grad_norm": 15.5,
      "grad_norm_var": 0.8550618489583334,
      "learning_rate": 0.0003,
      "loss": 10.8064,
      "loss/aux_loss": 0.0480805242434144,
      "loss/crossentropy": 2.709455114603043,
      "loss/logits": 0.7887743502855301,
      "step": 67280
    },
    {
      "epoch": 0.6729,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.3078125,
      "learning_rate": 0.0003,
      "loss": 10.8286,
      "loss/aux_loss": 0.0480688139796257,
      "loss/crossentropy": 2.5801384925842283,
      "loss/logits": 0.8218373239040375,
      "step": 67290
    },
    {
      "epoch": 0.673,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.9432291666666667,
      "learning_rate": 0.0003,
      "loss": 10.885,
      "loss/aux_loss": 0.04806957859545946,
      "loss/crossentropy": 2.741364133358002,
      "loss/logits": 0.8136252701282501,
      "step": 67300
    },
    {
      "epoch": 0.6731,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.7747395833333334,
      "learning_rate": 0.0003,
      "loss": 10.8628,
      "loss/aux_loss": 0.04806738197803497,
      "loss/crossentropy": 2.7313589334487913,
      "loss/logits": 0.8280026108026505,
      "step": 67310
    },
    {
      "epoch": 0.6732,
      "grad_norm": 14.625,
      "grad_norm_var": 0.38483072916666666,
      "learning_rate": 0.0003,
      "loss": 10.935,
      "loss/aux_loss": 0.04806512799113989,
      "loss/crossentropy": 2.731142336130142,
      "loss/logits": 0.8196133434772491,
      "step": 67320
    },
    {
      "epoch": 0.6733,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.5726399739583333,
      "learning_rate": 0.0003,
      "loss": 10.9229,
      "loss/aux_loss": 0.04806940630078316,
      "loss/crossentropy": 2.833940917253494,
      "loss/logits": 0.8169467687606812,
      "step": 67330
    },
    {
      "epoch": 0.6734,
      "grad_norm": 15.1875,
      "grad_norm_var": 1.2751139322916667,
      "learning_rate": 0.0003,
      "loss": 10.8098,
      "loss/aux_loss": 0.048075680062174796,
      "loss/crossentropy": 2.5253068923950197,
      "loss/logits": 0.7722189128398895,
      "step": 67340
    },
    {
      "epoch": 0.6735,
      "grad_norm": 16.5,
      "grad_norm_var": 1.2885416666666667,
      "learning_rate": 0.0003,
      "loss": 10.7254,
      "loss/aux_loss": 0.04805800002068281,
      "loss/crossentropy": 2.618474489450455,
      "loss/logits": 0.7805281549692153,
      "step": 67350
    },
    {
      "epoch": 0.6736,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.41456705729166665,
      "learning_rate": 0.0003,
      "loss": 10.8487,
      "loss/aux_loss": 0.04805983938276768,
      "loss/crossentropy": 2.54278524518013,
      "loss/logits": 0.7987161606550217,
      "step": 67360
    },
    {
      "epoch": 0.6737,
      "grad_norm": 14.1875,
      "grad_norm_var": 0.29889322916666666,
      "learning_rate": 0.0003,
      "loss": 10.8717,
      "loss/aux_loss": 0.04807660169899464,
      "loss/crossentropy": 2.815138578414917,
      "loss/logits": 0.8121901094913483,
      "step": 67370
    },
    {
      "epoch": 0.6738,
      "grad_norm": 15.125,
      "grad_norm_var": 0.50078125,
      "learning_rate": 0.0003,
      "loss": 10.96,
      "loss/aux_loss": 0.04807771537452936,
      "loss/crossentropy": 2.770961511135101,
      "loss/logits": 0.8236127972602845,
      "step": 67380
    },
    {
      "epoch": 0.6739,
      "grad_norm": 14.875,
      "grad_norm_var": 0.22838541666666667,
      "learning_rate": 0.0003,
      "loss": 10.9856,
      "loss/aux_loss": 0.048058960027992724,
      "loss/crossentropy": 2.645844268798828,
      "loss/logits": 0.8427874892950058,
      "step": 67390
    },
    {
      "epoch": 0.674,
      "grad_norm": 16.0,
      "grad_norm_var": 3.4936848958333333,
      "learning_rate": 0.0003,
      "loss": 10.8695,
      "loss/aux_loss": 0.04807248618453741,
      "loss/crossentropy": 2.620198917388916,
      "loss/logits": 0.8078225284814835,
      "step": 67400
    },
    {
      "epoch": 0.6741,
      "grad_norm": 16.625,
      "grad_norm_var": 3.437613932291667,
      "learning_rate": 0.0003,
      "loss": 10.7651,
      "loss/aux_loss": 0.0480686979368329,
      "loss/crossentropy": 2.5131695568561554,
      "loss/logits": 0.7861690491437912,
      "step": 67410
    },
    {
      "epoch": 0.6742,
      "grad_norm": 20.125,
      "grad_norm_var": 2.122119140625,
      "learning_rate": 0.0003,
      "loss": 10.8228,
      "loss/aux_loss": 0.04807369913905859,
      "loss/crossentropy": 2.7605391681194305,
      "loss/logits": 0.7911547005176545,
      "step": 67420
    },
    {
      "epoch": 0.6743,
      "grad_norm": 16.125,
      "grad_norm_var": 1.8026041666666666,
      "learning_rate": 0.0003,
      "loss": 10.726,
      "loss/aux_loss": 0.04808209650218487,
      "loss/crossentropy": 2.621247559785843,
      "loss/logits": 0.7596588641405105,
      "step": 67430
    },
    {
      "epoch": 0.6744,
      "grad_norm": 16.5,
      "grad_norm_var": 0.91328125,
      "learning_rate": 0.0003,
      "loss": 10.8972,
      "loss/aux_loss": 0.04805378243327141,
      "loss/crossentropy": 2.679558593034744,
      "loss/logits": 0.8097591936588288,
      "step": 67440
    },
    {
      "epoch": 0.6745,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.8770182291666667,
      "learning_rate": 0.0003,
      "loss": 10.8668,
      "loss/aux_loss": 0.04808393493294716,
      "loss/crossentropy": 2.6547152400016785,
      "loss/logits": 0.7948015958070755,
      "step": 67450
    },
    {
      "epoch": 0.6746,
      "grad_norm": 16.75,
      "grad_norm_var": 0.7478515625,
      "learning_rate": 0.0003,
      "loss": 10.943,
      "loss/aux_loss": 0.048087403364479545,
      "loss/crossentropy": 2.739590084552765,
      "loss/logits": 0.8123195976018905,
      "step": 67460
    },
    {
      "epoch": 0.6747,
      "grad_norm": 14.875,
      "grad_norm_var": 1.882666015625,
      "learning_rate": 0.0003,
      "loss": 10.9271,
      "loss/aux_loss": 0.04805273432284594,
      "loss/crossentropy": 2.7345412015914916,
      "loss/logits": 0.8273571223020554,
      "step": 67470
    },
    {
      "epoch": 0.6748,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.30930989583333335,
      "learning_rate": 0.0003,
      "loss": 10.8483,
      "loss/aux_loss": 0.04808681271970272,
      "loss/crossentropy": 2.637076383829117,
      "loss/logits": 0.7990337044000626,
      "step": 67480
    },
    {
      "epoch": 0.6749,
      "grad_norm": 15.0,
      "grad_norm_var": 0.326806640625,
      "learning_rate": 0.0003,
      "loss": 10.8461,
      "loss/aux_loss": 0.04807149153202772,
      "loss/crossentropy": 2.694927138090134,
      "loss/logits": 0.7909066528081894,
      "step": 67490
    },
    {
      "epoch": 0.675,
      "grad_norm": 15.25,
      "grad_norm_var": 0.28899739583333334,
      "learning_rate": 0.0003,
      "loss": 10.8772,
      "loss/aux_loss": 0.04805634953081608,
      "loss/crossentropy": 2.811596691608429,
      "loss/logits": 0.8140271067619324,
      "step": 67500
    },
    {
      "epoch": 0.6751,
      "grad_norm": 15.5625,
      "grad_norm_var": 1.0056640625,
      "learning_rate": 0.0003,
      "loss": 10.9332,
      "loss/aux_loss": 0.04807057473808527,
      "loss/crossentropy": 2.724851429462433,
      "loss/logits": 0.8114170014858246,
      "step": 67510
    },
    {
      "epoch": 0.6752,
      "grad_norm": 16.25,
      "grad_norm_var": 1.0827962239583333,
      "learning_rate": 0.0003,
      "loss": 10.8187,
      "loss/aux_loss": 0.04808598104864359,
      "loss/crossentropy": 2.514454412460327,
      "loss/logits": 0.7901194989681244,
      "step": 67520
    },
    {
      "epoch": 0.6753,
      "grad_norm": 15.125,
      "grad_norm_var": 1.7328125,
      "learning_rate": 0.0003,
      "loss": 10.7733,
      "loss/aux_loss": 0.04806674364954233,
      "loss/crossentropy": 2.6894044280052185,
      "loss/logits": 0.8146826893091201,
      "step": 67530
    },
    {
      "epoch": 0.6754,
      "grad_norm": 15.8125,
      "grad_norm_var": 1.8983723958333334,
      "learning_rate": 0.0003,
      "loss": 10.9634,
      "loss/aux_loss": 0.04807586632668972,
      "loss/crossentropy": 2.7447893381118775,
      "loss/logits": 0.7936123460531235,
      "step": 67540
    },
    {
      "epoch": 0.6755,
      "grad_norm": 14.0625,
      "grad_norm_var": 1.3093098958333333,
      "learning_rate": 0.0003,
      "loss": 10.7428,
      "loss/aux_loss": 0.04806775413453579,
      "loss/crossentropy": 2.6494940400123594,
      "loss/logits": 0.8177571147680283,
      "step": 67550
    },
    {
      "epoch": 0.6756,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.5523274739583334,
      "learning_rate": 0.0003,
      "loss": 10.9695,
      "loss/aux_loss": 0.04806860536336899,
      "loss/crossentropy": 2.6481561064720154,
      "loss/logits": 0.8320757627487183,
      "step": 67560
    },
    {
      "epoch": 0.6757,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.31354166666666666,
      "learning_rate": 0.0003,
      "loss": 10.9555,
      "loss/aux_loss": 0.04807276241481304,
      "loss/crossentropy": 2.7160579323768617,
      "loss/logits": 0.8053322076797486,
      "step": 67570
    },
    {
      "epoch": 0.6758,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.3108723958333333,
      "learning_rate": 0.0003,
      "loss": 10.8702,
      "loss/aux_loss": 0.04807675499469042,
      "loss/crossentropy": 2.67366309762001,
      "loss/logits": 0.7897478014230728,
      "step": 67580
    },
    {
      "epoch": 0.6759,
      "grad_norm": 15.6875,
      "grad_norm_var": 1.7702473958333333,
      "learning_rate": 0.0003,
      "loss": 10.867,
      "loss/aux_loss": 0.048066642321646216,
      "loss/crossentropy": 2.6360503315925596,
      "loss/logits": 0.8279545217752456,
      "step": 67590
    },
    {
      "epoch": 0.676,
      "grad_norm": 18.5,
      "grad_norm_var": 105.2556640625,
      "learning_rate": 0.0003,
      "loss": 10.8562,
      "loss/aux_loss": 0.04806712754070759,
      "loss/crossentropy": 2.723428654670715,
      "loss/logits": 0.8046755522489548,
      "step": 67600
    },
    {
      "epoch": 0.6761,
      "grad_norm": 15.5,
      "grad_norm_var": 1.7884765625,
      "learning_rate": 0.0003,
      "loss": 10.9624,
      "loss/aux_loss": 0.04807472750544548,
      "loss/crossentropy": 2.721188187599182,
      "loss/logits": 0.8297373622655868,
      "step": 67610
    },
    {
      "epoch": 0.6762,
      "grad_norm": 15.0,
      "grad_norm_var": 0.8551920572916667,
      "learning_rate": 0.0003,
      "loss": 10.8363,
      "loss/aux_loss": 0.04807953592389822,
      "loss/crossentropy": 2.59203023314476,
      "loss/logits": 0.8205517113208771,
      "step": 67620
    },
    {
      "epoch": 0.6763,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.448681640625,
      "learning_rate": 0.0003,
      "loss": 10.9757,
      "loss/aux_loss": 0.048056138679385185,
      "loss/crossentropy": 2.7822072982788084,
      "loss/logits": 0.8061872452497483,
      "step": 67630
    },
    {
      "epoch": 0.6764,
      "grad_norm": 16.625,
      "grad_norm_var": 0.5163899739583333,
      "learning_rate": 0.0003,
      "loss": 10.7339,
      "loss/aux_loss": 0.04806150645017624,
      "loss/crossentropy": 2.551578390598297,
      "loss/logits": 0.7957051217555999,
      "step": 67640
    },
    {
      "epoch": 0.6765,
      "grad_norm": 15.125,
      "grad_norm_var": 0.308837890625,
      "learning_rate": 0.0003,
      "loss": 10.8204,
      "loss/aux_loss": 0.048080853372812274,
      "loss/crossentropy": 2.618013346195221,
      "loss/logits": 0.7895002514123917,
      "step": 67650
    },
    {
      "epoch": 0.6766,
      "grad_norm": 16.125,
      "grad_norm_var": 0.353759765625,
      "learning_rate": 0.0003,
      "loss": 11.013,
      "loss/aux_loss": 0.048052550107240674,
      "loss/crossentropy": 2.812237298488617,
      "loss/logits": 0.8751404196023941,
      "step": 67660
    },
    {
      "epoch": 0.6767,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.385009765625,
      "learning_rate": 0.0003,
      "loss": 10.7287,
      "loss/aux_loss": 0.048068588599562645,
      "loss/crossentropy": 2.4027431547641753,
      "loss/logits": 0.7714583456516266,
      "step": 67670
    },
    {
      "epoch": 0.6768,
      "grad_norm": 15.75,
      "grad_norm_var": 0.5728515625,
      "learning_rate": 0.0003,
      "loss": 10.9295,
      "loss/aux_loss": 0.048069121316075325,
      "loss/crossentropy": 2.750480669736862,
      "loss/logits": 0.8289047926664352,
      "step": 67680
    },
    {
      "epoch": 0.6769,
      "grad_norm": 15.9375,
      "grad_norm_var": 1.20859375,
      "learning_rate": 0.0003,
      "loss": 10.9895,
      "loss/aux_loss": 0.04808015916496515,
      "loss/crossentropy": 2.8340500593185425,
      "loss/logits": 0.8436507463455201,
      "step": 67690
    },
    {
      "epoch": 0.677,
      "grad_norm": 15.1875,
      "grad_norm_var": 1.0079264322916666,
      "learning_rate": 0.0003,
      "loss": 10.9163,
      "loss/aux_loss": 0.048059361055493355,
      "loss/crossentropy": 2.6917006373405457,
      "loss/logits": 0.8295173823833466,
      "step": 67700
    },
    {
      "epoch": 0.6771,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.6603515625,
      "learning_rate": 0.0003,
      "loss": 10.8006,
      "loss/aux_loss": 0.04806683622300625,
      "loss/crossentropy": 2.6369792103767393,
      "loss/logits": 0.7871336251497268,
      "step": 67710
    },
    {
      "epoch": 0.6772,
      "grad_norm": 16.125,
      "grad_norm_var": 1.2552083333333333,
      "learning_rate": 0.0003,
      "loss": 11.0148,
      "loss/aux_loss": 0.04807326085865497,
      "loss/crossentropy": 2.8675316095352175,
      "loss/logits": 0.8307450711727142,
      "step": 67720
    },
    {
      "epoch": 0.6773,
      "grad_norm": 16.375,
      "grad_norm_var": 0.6858723958333334,
      "learning_rate": 0.0003,
      "loss": 10.7185,
      "loss/aux_loss": 0.04807858150452375,
      "loss/crossentropy": 2.577520215511322,
      "loss/logits": 0.8100444704294205,
      "step": 67730
    },
    {
      "epoch": 0.6774,
      "grad_norm": 14.875,
      "grad_norm_var": 0.5481770833333334,
      "learning_rate": 0.0003,
      "loss": 10.849,
      "loss/aux_loss": 0.04805320855230093,
      "loss/crossentropy": 2.7695468187332155,
      "loss/logits": 0.8083236128091812,
      "step": 67740
    },
    {
      "epoch": 0.6775,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.6390462239583334,
      "learning_rate": 0.0003,
      "loss": 10.8675,
      "loss/aux_loss": 0.048079329542815685,
      "loss/crossentropy": 2.576527512073517,
      "loss/logits": 0.8159837514162064,
      "step": 67750
    },
    {
      "epoch": 0.6776,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.375,
      "learning_rate": 0.0003,
      "loss": 10.8023,
      "loss/aux_loss": 0.048062733933329584,
      "loss/crossentropy": 2.8369166016578675,
      "loss/logits": 0.8276311069726944,
      "step": 67760
    },
    {
      "epoch": 0.6777,
      "grad_norm": 14.0,
      "grad_norm_var": 1.247119140625,
      "learning_rate": 0.0003,
      "loss": 10.7408,
      "loss/aux_loss": 0.04806175995618105,
      "loss/crossentropy": 2.706052553653717,
      "loss/logits": 0.8145518273115158,
      "step": 67770
    },
    {
      "epoch": 0.6778,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.5853515625,
      "learning_rate": 0.0003,
      "loss": 10.8887,
      "loss/aux_loss": 0.04806300979107618,
      "loss/crossentropy": 2.667705309391022,
      "loss/logits": 0.8158227071166039,
      "step": 67780
    },
    {
      "epoch": 0.6779,
      "grad_norm": 15.125,
      "grad_norm_var": 0.24635416666666668,
      "learning_rate": 0.0003,
      "loss": 10.8023,
      "loss/aux_loss": 0.04807372950017452,
      "loss/crossentropy": 2.7875693142414093,
      "loss/logits": 0.7981827527284622,
      "step": 67790
    },
    {
      "epoch": 0.678,
      "grad_norm": 16.625,
      "grad_norm_var": 0.38553059895833336,
      "learning_rate": 0.0003,
      "loss": 10.8735,
      "loss/aux_loss": 0.048066407814621924,
      "loss/crossentropy": 2.7808514714241026,
      "loss/logits": 0.8458144783973693,
      "step": 67800
    },
    {
      "epoch": 0.6781,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.6945149739583333,
      "learning_rate": 0.0003,
      "loss": 10.8798,
      "loss/aux_loss": 0.048075595125555995,
      "loss/crossentropy": 2.605326008796692,
      "loss/logits": 0.7936393201351166,
      "step": 67810
    },
    {
      "epoch": 0.6782,
      "grad_norm": 14.875,
      "grad_norm_var": 0.8359375,
      "learning_rate": 0.0003,
      "loss": 10.9042,
      "loss/aux_loss": 0.048067840933799746,
      "loss/crossentropy": 2.6910835683345793,
      "loss/logits": 0.8230360358953476,
      "step": 67820
    },
    {
      "epoch": 0.6783,
      "grad_norm": 16.25,
      "grad_norm_var": 3.9468587239583335,
      "learning_rate": 0.0003,
      "loss": 10.8921,
      "loss/aux_loss": 0.048061666823923585,
      "loss/crossentropy": 2.8486799359321595,
      "loss/logits": 0.8791530191898346,
      "step": 67830
    },
    {
      "epoch": 0.6784,
      "grad_norm": 15.625,
      "grad_norm_var": 0.6270182291666667,
      "learning_rate": 0.0003,
      "loss": 11.0865,
      "loss/aux_loss": 0.04808611553162336,
      "loss/crossentropy": 2.694787919521332,
      "loss/logits": 0.7927749201655387,
      "step": 67840
    },
    {
      "epoch": 0.6785,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.6895670572916667,
      "learning_rate": 0.0003,
      "loss": 10.8049,
      "loss/aux_loss": 0.048073581978678705,
      "loss/crossentropy": 2.5416905343532563,
      "loss/logits": 0.7923329859972,
      "step": 67850
    },
    {
      "epoch": 0.6786,
      "grad_norm": 14.0,
      "grad_norm_var": 0.9050618489583333,
      "learning_rate": 0.0003,
      "loss": 10.9769,
      "loss/aux_loss": 0.04805105049163103,
      "loss/crossentropy": 2.754929852485657,
      "loss/logits": 0.8427582740783691,
      "step": 67860
    },
    {
      "epoch": 0.6787,
      "grad_norm": 16.375,
      "grad_norm_var": 0.6212890625,
      "learning_rate": 0.0003,
      "loss": 10.9937,
      "loss/aux_loss": 0.04806809015572071,
      "loss/crossentropy": 2.8406196355819704,
      "loss/logits": 0.8406887620687484,
      "step": 67870
    },
    {
      "epoch": 0.6788,
      "grad_norm": 14.625,
      "grad_norm_var": 0.38201497395833334,
      "learning_rate": 0.0003,
      "loss": 10.818,
      "loss/aux_loss": 0.04806934855878353,
      "loss/crossentropy": 2.591457462310791,
      "loss/logits": 0.8105394840240479,
      "step": 67880
    },
    {
      "epoch": 0.6789,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.4227701822916667,
      "learning_rate": 0.0003,
      "loss": 10.8923,
      "loss/aux_loss": 0.048066012747585776,
      "loss/crossentropy": 2.705242431163788,
      "loss/logits": 0.8005460679531098,
      "step": 67890
    },
    {
      "epoch": 0.679,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.7940104166666667,
      "learning_rate": 0.0003,
      "loss": 10.7941,
      "loss/aux_loss": 0.04805295336991548,
      "loss/crossentropy": 2.646135312318802,
      "loss/logits": 0.8061649814248085,
      "step": 67900
    },
    {
      "epoch": 0.6791,
      "grad_norm": 16.0,
      "grad_norm_var": 0.6841145833333333,
      "learning_rate": 0.0003,
      "loss": 10.8556,
      "loss/aux_loss": 0.04807949885725975,
      "loss/crossentropy": 2.5016194105148317,
      "loss/logits": 0.7795857936143875,
      "step": 67910
    },
    {
      "epoch": 0.6792,
      "grad_norm": 16.0,
      "grad_norm_var": 0.5186848958333333,
      "learning_rate": 0.0003,
      "loss": 10.8385,
      "loss/aux_loss": 0.04806459601968527,
      "loss/crossentropy": 2.701348972320557,
      "loss/logits": 0.804606556892395,
      "step": 67920
    },
    {
      "epoch": 0.6793,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.3329264322916667,
      "learning_rate": 0.0003,
      "loss": 10.8824,
      "loss/aux_loss": 0.04806465972214937,
      "loss/crossentropy": 2.708846724033356,
      "loss/logits": 0.7914534270763397,
      "step": 67930
    },
    {
      "epoch": 0.6794,
      "grad_norm": 16.5,
      "grad_norm_var": 285.405712890625,
      "learning_rate": 0.0003,
      "loss": 10.877,
      "loss/aux_loss": 0.048062794655561444,
      "loss/crossentropy": 2.6500784277915956,
      "loss/logits": 0.791703137755394,
      "step": 67940
    },
    {
      "epoch": 0.6795,
      "grad_norm": 17.0,
      "grad_norm_var": 281.64635416666664,
      "learning_rate": 0.0003,
      "loss": 11.0174,
      "loss/aux_loss": 0.04806160032749176,
      "loss/crossentropy": 2.6734558582305907,
      "loss/logits": 0.7966185420751571,
      "step": 67950
    },
    {
      "epoch": 0.6796,
      "grad_norm": 17.375,
      "grad_norm_var": 2.1645833333333333,
      "learning_rate": 0.0003,
      "loss": 10.655,
      "loss/aux_loss": 0.04807016905397177,
      "loss/crossentropy": 2.725010406970978,
      "loss/logits": 0.7850367069244385,
      "step": 67960
    },
    {
      "epoch": 0.6797,
      "grad_norm": 15.5,
      "grad_norm_var": 1.8442057291666667,
      "learning_rate": 0.0003,
      "loss": 11.0602,
      "loss/aux_loss": 0.04807140734046698,
      "loss/crossentropy": 2.7007255434989927,
      "loss/logits": 0.843214625120163,
      "step": 67970
    },
    {
      "epoch": 0.6798,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.37303059895833335,
      "learning_rate": 0.0003,
      "loss": 10.7407,
      "loss/aux_loss": 0.0480677118524909,
      "loss/crossentropy": 2.6968838930130006,
      "loss/logits": 0.7861210882663727,
      "step": 67980
    },
    {
      "epoch": 0.6799,
      "grad_norm": 16.625,
      "grad_norm_var": 1.053369140625,
      "learning_rate": 0.0003,
      "loss": 10.8169,
      "loss/aux_loss": 0.04806595295667648,
      "loss/crossentropy": 2.692828023433685,
      "loss/logits": 0.8357434421777725,
      "step": 67990
    },
    {
      "epoch": 0.68,
      "grad_norm": 17.625,
      "grad_norm_var": 1.1062337239583333,
      "learning_rate": 0.0003,
      "loss": 10.9263,
      "loss/aux_loss": 0.04806125350296497,
      "loss/crossentropy": 2.8140974402427674,
      "loss/logits": 0.8311895668506623,
      "step": 68000
    },
    {
      "epoch": 0.6801,
      "grad_norm": 16.75,
      "grad_norm_var": 2.515738932291667,
      "learning_rate": 0.0003,
      "loss": 10.8513,
      "loss/aux_loss": 0.04805536307394505,
      "loss/crossentropy": 2.7598934888839723,
      "loss/logits": 0.817400798201561,
      "step": 68010
    },
    {
      "epoch": 0.6802,
      "grad_norm": 16.5,
      "grad_norm_var": 3.612434895833333,
      "learning_rate": 0.0003,
      "loss": 11.0643,
      "loss/aux_loss": 0.04808505550026894,
      "loss/crossentropy": 2.6912566304206846,
      "loss/logits": 0.819332605600357,
      "step": 68020
    },
    {
      "epoch": 0.6803,
      "grad_norm": 15.375,
      "grad_norm_var": 1.826025390625,
      "learning_rate": 0.0003,
      "loss": 10.9309,
      "loss/aux_loss": 0.04807189963757992,
      "loss/crossentropy": 2.62255003452301,
      "loss/logits": 0.8158010393381119,
      "step": 68030
    },
    {
      "epoch": 0.6804,
      "grad_norm": 16.375,
      "grad_norm_var": 2.052604166666667,
      "learning_rate": 0.0003,
      "loss": 10.9309,
      "loss/aux_loss": 0.048042737506330015,
      "loss/crossentropy": 2.7515727818012237,
      "loss/logits": 0.8346040636301041,
      "step": 68040
    },
    {
      "epoch": 0.6805,
      "grad_norm": 14.5625,
      "grad_norm_var": 2.3296223958333333,
      "learning_rate": 0.0003,
      "loss": 10.8757,
      "loss/aux_loss": 0.048085806891322136,
      "loss/crossentropy": 2.7306901931762697,
      "loss/logits": 0.7944915473461152,
      "step": 68050
    },
    {
      "epoch": 0.6806,
      "grad_norm": 16.875,
      "grad_norm_var": 0.5645833333333333,
      "learning_rate": 0.0003,
      "loss": 10.9716,
      "loss/aux_loss": 0.04805421140044928,
      "loss/crossentropy": 2.759699082374573,
      "loss/logits": 0.8278161138296127,
      "step": 68060
    },
    {
      "epoch": 0.6807,
      "grad_norm": 16.5,
      "grad_norm_var": 0.5499348958333333,
      "learning_rate": 0.0003,
      "loss": 10.984,
      "loss/aux_loss": 0.04806980360299349,
      "loss/crossentropy": 2.7111220836639403,
      "loss/logits": 0.8429874509572983,
      "step": 68070
    },
    {
      "epoch": 0.6808,
      "grad_norm": 14.625,
      "grad_norm_var": 0.7937337239583333,
      "learning_rate": 0.0003,
      "loss": 10.8038,
      "loss/aux_loss": 0.04806726835668087,
      "loss/crossentropy": 2.7184378623962404,
      "loss/logits": 0.8051327586174011,
      "step": 68080
    },
    {
      "epoch": 0.6809,
      "grad_norm": 19.625,
      "grad_norm_var": 1.8660807291666666,
      "learning_rate": 0.0003,
      "loss": 10.9857,
      "loss/aux_loss": 0.048076169565320015,
      "loss/crossentropy": 2.623359727859497,
      "loss/logits": 0.8120907008647918,
      "step": 68090
    },
    {
      "epoch": 0.681,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.6804524739583333,
      "learning_rate": 0.0003,
      "loss": 10.7738,
      "loss/aux_loss": 0.04806400742381811,
      "loss/crossentropy": 2.5843277633190156,
      "loss/logits": 0.7641439378261566,
      "step": 68100
    },
    {
      "epoch": 0.6811,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.33671875,
      "learning_rate": 0.0003,
      "loss": 11.0272,
      "loss/aux_loss": 0.048069718293845654,
      "loss/crossentropy": 2.7510910749435427,
      "loss/logits": 0.8262420713901519,
      "step": 68110
    },
    {
      "epoch": 0.6812,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.5855305989583334,
      "learning_rate": 0.0003,
      "loss": 10.9944,
      "loss/aux_loss": 0.04808128289878368,
      "loss/crossentropy": 2.745889973640442,
      "loss/logits": 0.8404574304819107,
      "step": 68120
    },
    {
      "epoch": 0.6813,
      "grad_norm": 15.625,
      "grad_norm_var": 0.40792643229166664,
      "learning_rate": 0.0003,
      "loss": 10.9824,
      "loss/aux_loss": 0.04806574918329716,
      "loss/crossentropy": 2.8554471492767335,
      "loss/logits": 0.827678182721138,
      "step": 68130
    },
    {
      "epoch": 0.6814,
      "grad_norm": 18.125,
      "grad_norm_var": 0.9089680989583333,
      "learning_rate": 0.0003,
      "loss": 10.8597,
      "loss/aux_loss": 0.048068815097212794,
      "loss/crossentropy": 2.684776157140732,
      "loss/logits": 0.7816103935241699,
      "step": 68140
    },
    {
      "epoch": 0.6815,
      "grad_norm": 16.375,
      "grad_norm_var": 0.9602701822916667,
      "learning_rate": 0.0003,
      "loss": 10.7884,
      "loss/aux_loss": 0.04806648455560207,
      "loss/crossentropy": 2.6992865085601805,
      "loss/logits": 0.8477433979511261,
      "step": 68150
    },
    {
      "epoch": 0.6816,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.48072916666666665,
      "learning_rate": 0.0003,
      "loss": 10.8101,
      "loss/aux_loss": 0.048081612959504125,
      "loss/crossentropy": 2.5780653059482574,
      "loss/logits": 0.7993250101804733,
      "step": 68160
    },
    {
      "epoch": 0.6817,
      "grad_norm": 14.5,
      "grad_norm_var": 0.5562337239583334,
      "learning_rate": 0.0003,
      "loss": 10.8097,
      "loss/aux_loss": 0.04806546475738287,
      "loss/crossentropy": 2.5478107750415804,
      "loss/logits": 0.8167504072189331,
      "step": 68170
    },
    {
      "epoch": 0.6818,
      "grad_norm": 16.0,
      "grad_norm_var": 0.9333170572916667,
      "learning_rate": 0.0003,
      "loss": 10.8763,
      "loss/aux_loss": 0.048067673482000826,
      "loss/crossentropy": 2.6177058100700377,
      "loss/logits": 0.8171544075012207,
      "step": 68180
    },
    {
      "epoch": 0.6819,
      "grad_norm": 13.9375,
      "grad_norm_var": 0.3876139322916667,
      "learning_rate": 0.0003,
      "loss": 10.8284,
      "loss/aux_loss": 0.04806404709815979,
      "loss/crossentropy": 2.6563953340053557,
      "loss/logits": 0.8121503591537476,
      "step": 68190
    },
    {
      "epoch": 0.682,
      "grad_norm": 20.625,
      "grad_norm_var": 2.582666015625,
      "learning_rate": 0.0003,
      "loss": 10.7687,
      "loss/aux_loss": 0.048071419820189476,
      "loss/crossentropy": 2.6710281014442443,
      "loss/logits": 0.8111292243003845,
      "step": 68200
    },
    {
      "epoch": 0.6821,
      "grad_norm": 16.25,
      "grad_norm_var": 2.412483723958333,
      "learning_rate": 0.0003,
      "loss": 10.9164,
      "loss/aux_loss": 0.04807704593986273,
      "loss/crossentropy": 2.562616801261902,
      "loss/logits": 0.8096489131450653,
      "step": 68210
    },
    {
      "epoch": 0.6822,
      "grad_norm": 16.5,
      "grad_norm_var": 1.0212076822916667,
      "learning_rate": 0.0003,
      "loss": 10.8428,
      "loss/aux_loss": 0.04805521406233311,
      "loss/crossentropy": 2.7523882746696473,
      "loss/logits": 0.8298066765069961,
      "step": 68220
    },
    {
      "epoch": 0.6823,
      "grad_norm": 14.875,
      "grad_norm_var": 0.9782389322916667,
      "learning_rate": 0.0003,
      "loss": 10.9563,
      "loss/aux_loss": 0.04807618539780378,
      "loss/crossentropy": 2.7051311850547792,
      "loss/logits": 0.7973050862550736,
      "step": 68230
    },
    {
      "epoch": 0.6824,
      "grad_norm": 14.875,
      "grad_norm_var": 0.420166015625,
      "learning_rate": 0.0003,
      "loss": 10.882,
      "loss/aux_loss": 0.048058620654046535,
      "loss/crossentropy": 2.6264807403087618,
      "loss/logits": 0.8164067506790161,
      "step": 68240
    },
    {
      "epoch": 0.6825,
      "grad_norm": 16.25,
      "grad_norm_var": 0.4014973958333333,
      "learning_rate": 0.0003,
      "loss": 11.0203,
      "loss/aux_loss": 0.048072101175785066,
      "loss/crossentropy": 2.7212952256202696,
      "loss/logits": 0.8090760707855225,
      "step": 68250
    },
    {
      "epoch": 0.6826,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.3411458333333333,
      "learning_rate": 0.0003,
      "loss": 10.9662,
      "loss/aux_loss": 0.04806735776364803,
      "loss/crossentropy": 2.8346715688705446,
      "loss/logits": 0.8262193471193313,
      "step": 68260
    },
    {
      "epoch": 0.6827,
      "grad_norm": 15.25,
      "grad_norm_var": 0.539697265625,
      "learning_rate": 0.0003,
      "loss": 10.845,
      "loss/aux_loss": 0.04806448295712471,
      "loss/crossentropy": 2.8213131070137023,
      "loss/logits": 0.8190656453371048,
      "step": 68270
    },
    {
      "epoch": 0.6828,
      "grad_norm": 16.125,
      "grad_norm_var": 0.6005045572916666,
      "learning_rate": 0.0003,
      "loss": 10.8459,
      "loss/aux_loss": 0.048075663857162,
      "loss/crossentropy": 2.743839997053146,
      "loss/logits": 0.8118878155946732,
      "step": 68280
    },
    {
      "epoch": 0.6829,
      "grad_norm": 15.625,
      "grad_norm_var": 0.4852701822916667,
      "learning_rate": 0.0003,
      "loss": 11.0045,
      "loss/aux_loss": 0.048066263645887376,
      "loss/crossentropy": 2.638486051559448,
      "loss/logits": 0.8266521632671356,
      "step": 68290
    },
    {
      "epoch": 0.683,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.48776041666666664,
      "learning_rate": 0.0003,
      "loss": 11.0403,
      "loss/aux_loss": 0.04806353356689215,
      "loss/crossentropy": 2.6697838246822356,
      "loss/logits": 0.8448014736175538,
      "step": 68300
    },
    {
      "epoch": 0.6831,
      "grad_norm": 14.875,
      "grad_norm_var": 0.6639973958333333,
      "learning_rate": 0.0003,
      "loss": 10.967,
      "loss/aux_loss": 0.04807850923389197,
      "loss/crossentropy": 2.746517300605774,
      "loss/logits": 0.8058427959680557,
      "step": 68310
    },
    {
      "epoch": 0.6832,
      "grad_norm": 15.125,
      "grad_norm_var": 0.6393229166666666,
      "learning_rate": 0.0003,
      "loss": 10.8865,
      "loss/aux_loss": 0.0480657272040844,
      "loss/crossentropy": 2.5843187630176545,
      "loss/logits": 0.768140897154808,
      "step": 68320
    },
    {
      "epoch": 0.6833,
      "grad_norm": 16.25,
      "grad_norm_var": 0.5322265625,
      "learning_rate": 0.0003,
      "loss": 11.0019,
      "loss/aux_loss": 0.04805855434387922,
      "loss/crossentropy": 2.7240235090255736,
      "loss/logits": 0.8157852947711944,
      "step": 68330
    },
    {
      "epoch": 0.6834,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.8430826822916667,
      "learning_rate": 0.0003,
      "loss": 10.8722,
      "loss/aux_loss": 0.04806504771113396,
      "loss/crossentropy": 2.6174010276794433,
      "loss/logits": 0.8211093872785569,
      "step": 68340
    },
    {
      "epoch": 0.6835,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.5624348958333333,
      "learning_rate": 0.0003,
      "loss": 10.7703,
      "loss/aux_loss": 0.0480718906968832,
      "loss/crossentropy": 2.7147361874580382,
      "loss/logits": 0.8232816010713577,
      "step": 68350
    },
    {
      "epoch": 0.6836,
      "grad_norm": 17.125,
      "grad_norm_var": 0.713916015625,
      "learning_rate": 0.0003,
      "loss": 10.7898,
      "loss/aux_loss": 0.048076497949659826,
      "loss/crossentropy": 2.6525621116161346,
      "loss/logits": 0.7956002086400986,
      "step": 68360
    },
    {
      "epoch": 0.6837,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.9614583333333333,
      "learning_rate": 0.0003,
      "loss": 11.029,
      "loss/aux_loss": 0.0480541817843914,
      "loss/crossentropy": 2.7248359322547913,
      "loss/logits": 0.8173481345176696,
      "step": 68370
    },
    {
      "epoch": 0.6838,
      "grad_norm": 14.125,
      "grad_norm_var": 0.4525390625,
      "learning_rate": 0.0003,
      "loss": 11.0335,
      "loss/aux_loss": 0.0480697525665164,
      "loss/crossentropy": 2.772666358947754,
      "loss/logits": 0.8384395599365234,
      "step": 68380
    },
    {
      "epoch": 0.6839,
      "grad_norm": 16.5,
      "grad_norm_var": 0.455322265625,
      "learning_rate": 0.0003,
      "loss": 11.01,
      "loss/aux_loss": 0.04807109702378511,
      "loss/crossentropy": 2.5988758385181425,
      "loss/logits": 0.8189985305070877,
      "step": 68390
    },
    {
      "epoch": 0.684,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.2900390625,
      "learning_rate": 0.0003,
      "loss": 10.8031,
      "loss/aux_loss": 0.04807253852486611,
      "loss/crossentropy": 2.8541467905044557,
      "loss/logits": 0.8169606924057007,
      "step": 68400
    },
    {
      "epoch": 0.6841,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.44680989583333336,
      "learning_rate": 0.0003,
      "loss": 10.8272,
      "loss/aux_loss": 0.04806390330195427,
      "loss/crossentropy": 2.6487698316574098,
      "loss/logits": 0.83295978307724,
      "step": 68410
    },
    {
      "epoch": 0.6842,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.5655598958333333,
      "learning_rate": 0.0003,
      "loss": 10.7979,
      "loss/aux_loss": 0.0480561263859272,
      "loss/crossentropy": 2.6623626351356506,
      "loss/logits": 0.8088810354471206,
      "step": 68420
    },
    {
      "epoch": 0.6843,
      "grad_norm": 16.125,
      "grad_norm_var": 0.6546223958333334,
      "learning_rate": 0.0003,
      "loss": 10.9656,
      "loss/aux_loss": 0.04806807264685631,
      "loss/crossentropy": 2.766378217935562,
      "loss/logits": 0.8358203887939453,
      "step": 68430
    },
    {
      "epoch": 0.6844,
      "grad_norm": 16.375,
      "grad_norm_var": 0.37745768229166665,
      "learning_rate": 0.0003,
      "loss": 10.9736,
      "loss/aux_loss": 0.04807545747607946,
      "loss/crossentropy": 2.5721539914608003,
      "loss/logits": 0.8290560871362687,
      "step": 68440
    },
    {
      "epoch": 0.6845,
      "grad_norm": 16.75,
      "grad_norm_var": 0.4228515625,
      "learning_rate": 0.0003,
      "loss": 10.696,
      "loss/aux_loss": 0.04805667717009783,
      "loss/crossentropy": 2.80389918088913,
      "loss/logits": 0.8191724687814712,
      "step": 68450
    },
    {
      "epoch": 0.6846,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.42823893229166665,
      "learning_rate": 0.0003,
      "loss": 10.7993,
      "loss/aux_loss": 0.04807515386492014,
      "loss/crossentropy": 2.597550481557846,
      "loss/logits": 0.7920944511890411,
      "step": 68460
    },
    {
      "epoch": 0.6847,
      "grad_norm": 16.75,
      "grad_norm_var": 0.52421875,
      "learning_rate": 0.0003,
      "loss": 10.7448,
      "loss/aux_loss": 0.048058021068573,
      "loss/crossentropy": 2.759678292274475,
      "loss/logits": 0.8082679748535156,
      "step": 68470
    },
    {
      "epoch": 0.6848,
      "grad_norm": 16.625,
      "grad_norm_var": 0.5075358072916667,
      "learning_rate": 0.0003,
      "loss": 10.8687,
      "loss/aux_loss": 0.0480703329667449,
      "loss/crossentropy": 2.637404328584671,
      "loss/logits": 0.8026473224163055,
      "step": 68480
    },
    {
      "epoch": 0.6849,
      "grad_norm": 15.375,
      "grad_norm_var": 1.1485514322916666,
      "learning_rate": 0.0003,
      "loss": 10.8992,
      "loss/aux_loss": 0.04807462096214295,
      "loss/crossentropy": 2.501510390639305,
      "loss/logits": 0.7927737981081009,
      "step": 68490
    },
    {
      "epoch": 0.685,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.1325520833333333,
      "learning_rate": 0.0003,
      "loss": 10.9832,
      "loss/aux_loss": 0.04806219376623631,
      "loss/crossentropy": 2.791027194261551,
      "loss/logits": 0.8303872972726822,
      "step": 68500
    },
    {
      "epoch": 0.6851,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.8973307291666667,
      "learning_rate": 0.0003,
      "loss": 11.0139,
      "loss/aux_loss": 0.04807308483868837,
      "loss/crossentropy": 2.621407997608185,
      "loss/logits": 0.8331938594579696,
      "step": 68510
    },
    {
      "epoch": 0.6852,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.6895670572916667,
      "learning_rate": 0.0003,
      "loss": 10.9548,
      "loss/aux_loss": 0.04806851521134377,
      "loss/crossentropy": 2.852750539779663,
      "loss/logits": 0.8136879056692123,
      "step": 68520
    },
    {
      "epoch": 0.6853,
      "grad_norm": 14.875,
      "grad_norm_var": 0.3726399739583333,
      "learning_rate": 0.0003,
      "loss": 10.7068,
      "loss/aux_loss": 0.04807034097611904,
      "loss/crossentropy": 2.626950180530548,
      "loss/logits": 0.8226811677217484,
      "step": 68530
    },
    {
      "epoch": 0.6854,
      "grad_norm": 15.25,
      "grad_norm_var": 0.39609375,
      "learning_rate": 0.0003,
      "loss": 10.893,
      "loss/aux_loss": 0.048067341558635235,
      "loss/crossentropy": 2.7131328761577604,
      "loss/logits": 0.8315279483795166,
      "step": 68540
    },
    {
      "epoch": 0.6855,
      "grad_norm": 14.75,
      "grad_norm_var": 0.36666666666666664,
      "learning_rate": 0.0003,
      "loss": 10.8631,
      "loss/aux_loss": 0.048068701103329656,
      "loss/crossentropy": 2.760225808620453,
      "loss/logits": 0.8215482652187347,
      "step": 68550
    },
    {
      "epoch": 0.6856,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.3462890625,
      "learning_rate": 0.0003,
      "loss": 10.728,
      "loss/aux_loss": 0.04806747734546661,
      "loss/crossentropy": 2.6939137518405913,
      "loss/logits": 0.7923362493515015,
      "step": 68560
    },
    {
      "epoch": 0.6857,
      "grad_norm": 15.75,
      "grad_norm_var": 0.9894368489583333,
      "learning_rate": 0.0003,
      "loss": 10.8082,
      "loss/aux_loss": 0.048071125708520415,
      "loss/crossentropy": 2.578646457195282,
      "loss/logits": 0.7892535030841827,
      "step": 68570
    },
    {
      "epoch": 0.6858,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.22578125,
      "learning_rate": 0.0003,
      "loss": 10.7482,
      "loss/aux_loss": 0.048062393255531785,
      "loss/crossentropy": 2.7403541207313538,
      "loss/logits": 0.7984594285488129,
      "step": 68580
    },
    {
      "epoch": 0.6859,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.2327473958333333,
      "learning_rate": 0.0003,
      "loss": 10.8886,
      "loss/aux_loss": 0.04806282836943865,
      "loss/crossentropy": 2.47440989613533,
      "loss/logits": 0.7788677424192428,
      "step": 68590
    },
    {
      "epoch": 0.686,
      "grad_norm": 17.25,
      "grad_norm_var": 0.651806640625,
      "learning_rate": 0.0003,
      "loss": 10.8691,
      "loss/aux_loss": 0.04807308055460453,
      "loss/crossentropy": 2.790786528587341,
      "loss/logits": 0.8180954813957214,
      "step": 68600
    },
    {
      "epoch": 0.6861,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.53203125,
      "learning_rate": 0.0003,
      "loss": 10.8299,
      "loss/aux_loss": 0.04806508533656597,
      "loss/crossentropy": 2.843202555179596,
      "loss/logits": 0.8343409359455108,
      "step": 68610
    },
    {
      "epoch": 0.6862,
      "grad_norm": 16.375,
      "grad_norm_var": 0.434228515625,
      "learning_rate": 0.0003,
      "loss": 10.9189,
      "loss/aux_loss": 0.048060751520097256,
      "loss/crossentropy": 2.684927535057068,
      "loss/logits": 0.8208200216293335,
      "step": 68620
    },
    {
      "epoch": 0.6863,
      "grad_norm": 16.0,
      "grad_norm_var": 0.5707682291666667,
      "learning_rate": 0.0003,
      "loss": 10.9396,
      "loss/aux_loss": 0.04805750884115696,
      "loss/crossentropy": 2.725750833749771,
      "loss/logits": 0.8101972997188568,
      "step": 68630
    },
    {
      "epoch": 0.6864,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.48118489583333335,
      "learning_rate": 0.0003,
      "loss": 10.8437,
      "loss/aux_loss": 0.04807729534804821,
      "loss/crossentropy": 2.7160585641860964,
      "loss/logits": 0.8321511924266816,
      "step": 68640
    },
    {
      "epoch": 0.6865,
      "grad_norm": 15.0625,
      "grad_norm_var": 60.0947265625,
      "learning_rate": 0.0003,
      "loss": 10.7697,
      "loss/aux_loss": 0.048073595762252806,
      "loss/crossentropy": 2.7934968948364256,
      "loss/logits": 0.8110801339149475,
      "step": 68650
    },
    {
      "epoch": 0.6866,
      "grad_norm": 17.625,
      "grad_norm_var": 59.416666666666664,
      "learning_rate": 0.0003,
      "loss": 10.8273,
      "loss/aux_loss": 0.048069017380476,
      "loss/crossentropy": 2.611198389530182,
      "loss/logits": 0.7912805765867233,
      "step": 68660
    },
    {
      "epoch": 0.6867,
      "grad_norm": 15.875,
      "grad_norm_var": 2.5278645833333333,
      "learning_rate": 0.0003,
      "loss": 10.8545,
      "loss/aux_loss": 0.0480608643963933,
      "loss/crossentropy": 2.714128017425537,
      "loss/logits": 0.8020155668258667,
      "step": 68670
    },
    {
      "epoch": 0.6868,
      "grad_norm": 15.375,
      "grad_norm_var": 0.8078125,
      "learning_rate": 0.0003,
      "loss": 10.8363,
      "loss/aux_loss": 0.048069582879543306,
      "loss/crossentropy": 2.7775703012943267,
      "loss/logits": 0.8089812129735947,
      "step": 68680
    },
    {
      "epoch": 0.6869,
      "grad_norm": 17.875,
      "grad_norm_var": 1.0457682291666666,
      "learning_rate": 0.0003,
      "loss": 10.7583,
      "loss/aux_loss": 0.048077752627432344,
      "loss/crossentropy": 2.6942376673221586,
      "loss/logits": 0.7967723488807679,
      "step": 68690
    },
    {
      "epoch": 0.687,
      "grad_norm": 14.375,
      "grad_norm_var": 0.8697265625,
      "learning_rate": 0.0003,
      "loss": 10.9463,
      "loss/aux_loss": 0.04806126933544874,
      "loss/crossentropy": 2.6490222990512846,
      "loss/logits": 0.8524997681379318,
      "step": 68700
    },
    {
      "epoch": 0.6871,
      "grad_norm": 15.375,
      "grad_norm_var": 0.35149739583333334,
      "learning_rate": 0.0003,
      "loss": 10.6899,
      "loss/aux_loss": 0.04805758167058229,
      "loss/crossentropy": 2.6266492545604705,
      "loss/logits": 0.7861977398395539,
      "step": 68710
    },
    {
      "epoch": 0.6872,
      "grad_norm": 16.375,
      "grad_norm_var": 0.5044270833333333,
      "learning_rate": 0.0003,
      "loss": 11.0628,
      "loss/aux_loss": 0.048070350848138335,
      "loss/crossentropy": 2.7783553838729858,
      "loss/logits": 0.8349015235900878,
      "step": 68720
    },
    {
      "epoch": 0.6873,
      "grad_norm": 14.5625,
      "grad_norm_var": 0.9837890625,
      "learning_rate": 0.0003,
      "loss": 10.8576,
      "loss/aux_loss": 0.04807405862957239,
      "loss/crossentropy": 2.7715602993965147,
      "loss/logits": 0.7893172383308411,
      "step": 68730
    },
    {
      "epoch": 0.6874,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.4676920572916667,
      "learning_rate": 0.0003,
      "loss": 10.7511,
      "loss/aux_loss": 0.04806721042841673,
      "loss/crossentropy": 2.721312952041626,
      "loss/logits": 0.8222410500049591,
      "step": 68740
    },
    {
      "epoch": 0.6875,
      "grad_norm": 14.375,
      "grad_norm_var": 0.4657389322916667,
      "learning_rate": 0.0003,
      "loss": 11.0532,
      "loss/aux_loss": 0.04806132633239031,
      "loss/crossentropy": 2.6498945474624636,
      "loss/logits": 0.8259395629167556,
      "step": 68750
    },
    {
      "epoch": 0.6876,
      "grad_norm": 14.0625,
      "grad_norm_var": 0.298681640625,
      "learning_rate": 0.0003,
      "loss": 10.7399,
      "loss/aux_loss": 0.04808110278099775,
      "loss/crossentropy": 2.6188538670539856,
      "loss/logits": 0.7968878641724586,
      "step": 68760
    },
    {
      "epoch": 0.6877,
      "grad_norm": 14.6875,
      "grad_norm_var": 0.4171223958333333,
      "learning_rate": 0.0003,
      "loss": 10.9881,
      "loss/aux_loss": 0.048065911047160625,
      "loss/crossentropy": 2.623822647333145,
      "loss/logits": 0.8174702137708664,
      "step": 68770
    },
    {
      "epoch": 0.6878,
      "grad_norm": 14.5,
      "grad_norm_var": 1.20625,
      "learning_rate": 0.0003,
      "loss": 10.9751,
      "loss/aux_loss": 0.04807086084038019,
      "loss/crossentropy": 2.7264267265796662,
      "loss/logits": 0.8461625635623932,
      "step": 68780
    },
    {
      "epoch": 0.6879,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.814697265625,
      "learning_rate": 0.0003,
      "loss": 10.7834,
      "loss/aux_loss": 0.04806190486997366,
      "loss/crossentropy": 2.8499103784561157,
      "loss/logits": 0.846915426850319,
      "step": 68790
    },
    {
      "epoch": 0.688,
      "grad_norm": 14.5,
      "grad_norm_var": 0.7809895833333333,
      "learning_rate": 0.0003,
      "loss": 11.0182,
      "loss/aux_loss": 0.048072070069611075,
      "loss/crossentropy": 2.6494312465190886,
      "loss/logits": 0.8267855823040009,
      "step": 68800
    },
    {
      "epoch": 0.6881,
      "grad_norm": 17.5,
      "grad_norm_var": 1.037744140625,
      "learning_rate": 0.0003,
      "loss": 10.9319,
      "loss/aux_loss": 0.04805615525692701,
      "loss/crossentropy": 2.509679216146469,
      "loss/logits": 0.79253771007061,
      "step": 68810
    },
    {
      "epoch": 0.6882,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.62421875,
      "learning_rate": 0.0003,
      "loss": 10.9166,
      "loss/aux_loss": 0.04807599224150181,
      "loss/crossentropy": 2.87341451048851,
      "loss/logits": 0.8474191457033158,
      "step": 68820
    },
    {
      "epoch": 0.6883,
      "grad_norm": 15.375,
      "grad_norm_var": 0.2955729166666667,
      "learning_rate": 0.0003,
      "loss": 11.0466,
      "loss/aux_loss": 0.048066175729036334,
      "loss/crossentropy": 2.767427670955658,
      "loss/logits": 0.8232954949140548,
      "step": 68830
    },
    {
      "epoch": 0.6884,
      "grad_norm": 14.875,
      "grad_norm_var": 0.38409830729166666,
      "learning_rate": 0.0003,
      "loss": 10.9533,
      "loss/aux_loss": 0.04806645177304745,
      "loss/crossentropy": 2.707893443107605,
      "loss/logits": 0.8553780347108841,
      "step": 68840
    },
    {
      "epoch": 0.6885,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.5254557291666667,
      "learning_rate": 0.0003,
      "loss": 11.0061,
      "loss/aux_loss": 0.04807383120059967,
      "loss/crossentropy": 2.6774882674217224,
      "loss/logits": 0.8080006390810013,
      "step": 68850
    },
    {
      "epoch": 0.6886,
      "grad_norm": 15.4375,
      "grad_norm_var": 2.9567057291666665,
      "learning_rate": 0.0003,
      "loss": 10.856,
      "loss/aux_loss": 0.048062294721603394,
      "loss/crossentropy": 2.6642824053764342,
      "loss/logits": 0.7930444091558456,
      "step": 68860
    },
    {
      "epoch": 0.6887,
      "grad_norm": 15.8125,
      "grad_norm_var": 3.0775390625,
      "learning_rate": 0.0003,
      "loss": 10.9136,
      "loss/aux_loss": 0.048069755733013156,
      "loss/crossentropy": 2.7065019488334654,
      "loss/logits": 0.8077657282352447,
      "step": 68870
    },
    {
      "epoch": 0.6888,
      "grad_norm": 16.875,
      "grad_norm_var": 0.6134765625,
      "learning_rate": 0.0003,
      "loss": 11.0391,
      "loss/aux_loss": 0.048073760420084,
      "loss/crossentropy": 2.668808138370514,
      "loss/logits": 0.8384716600179672,
      "step": 68880
    },
    {
      "epoch": 0.6889,
      "grad_norm": 15.75,
      "grad_norm_var": 0.561962890625,
      "learning_rate": 0.0003,
      "loss": 10.8771,
      "loss/aux_loss": 0.048064139857888225,
      "loss/crossentropy": 2.6391066908836365,
      "loss/logits": 0.8003528326749801,
      "step": 68890
    },
    {
      "epoch": 0.689,
      "grad_norm": 15.0,
      "grad_norm_var": 328.2468587239583,
      "learning_rate": 0.0003,
      "loss": 10.9101,
      "loss/aux_loss": 0.048088057711720464,
      "loss/crossentropy": 2.670439213514328,
      "loss/logits": 0.7999959751963616,
      "step": 68900
    },
    {
      "epoch": 0.6891,
      "grad_norm": 16.75,
      "grad_norm_var": 0.926416015625,
      "learning_rate": 0.0003,
      "loss": 10.7369,
      "loss/aux_loss": 0.048071911372244355,
      "loss/crossentropy": 2.590096038579941,
      "loss/logits": 0.7963913947343826,
      "step": 68910
    },
    {
      "epoch": 0.6892,
      "grad_norm": 16.25,
      "grad_norm_var": 0.5931640625,
      "learning_rate": 0.0003,
      "loss": 10.8433,
      "loss/aux_loss": 0.04806236661970616,
      "loss/crossentropy": 2.7095581710338594,
      "loss/logits": 0.808975538611412,
      "step": 68920
    },
    {
      "epoch": 0.6893,
      "grad_norm": 15.0,
      "grad_norm_var": 0.7262858072916667,
      "learning_rate": 0.0003,
      "loss": 10.8429,
      "loss/aux_loss": 0.04807297587394714,
      "loss/crossentropy": 2.716857922077179,
      "loss/logits": 0.8298698961734772,
      "step": 68930
    },
    {
      "epoch": 0.6894,
      "grad_norm": 16.125,
      "grad_norm_var": 0.5973958333333333,
      "learning_rate": 0.0003,
      "loss": 10.8001,
      "loss/aux_loss": 0.04806691724807024,
      "loss/crossentropy": 2.7727342784404754,
      "loss/logits": 0.7861407697200775,
      "step": 68940
    },
    {
      "epoch": 0.6895,
      "grad_norm": 15.875,
      "grad_norm_var": 0.4127604166666667,
      "learning_rate": 0.0003,
      "loss": 10.6628,
      "loss/aux_loss": 0.04806840233504772,
      "loss/crossentropy": 2.7098950922489164,
      "loss/logits": 0.82764173746109,
      "step": 68950
    },
    {
      "epoch": 0.6896,
      "grad_norm": 16.5,
      "grad_norm_var": 0.3653483072916667,
      "learning_rate": 0.0003,
      "loss": 10.8558,
      "loss/aux_loss": 0.048067934811115265,
      "loss/crossentropy": 2.679134911298752,
      "loss/logits": 0.8346406280994415,
      "step": 68960
    },
    {
      "epoch": 0.6897,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.42083333333333334,
      "learning_rate": 0.0003,
      "loss": 10.706,
      "loss/aux_loss": 0.04807941559702158,
      "loss/crossentropy": 2.5862072229385378,
      "loss/logits": 0.784822764992714,
      "step": 68970
    },
    {
      "epoch": 0.6898,
      "grad_norm": 15.25,
      "grad_norm_var": 0.38333333333333336,
      "learning_rate": 0.0003,
      "loss": 10.969,
      "loss/aux_loss": 0.04805704411119223,
      "loss/crossentropy": 2.7672839522361756,
      "loss/logits": 0.8178101569414139,
      "step": 68980
    },
    {
      "epoch": 0.6899,
      "grad_norm": 15.25,
      "grad_norm_var": 3.1681640625,
      "learning_rate": 0.0003,
      "loss": 10.7957,
      "loss/aux_loss": 0.0480627154931426,
      "loss/crossentropy": 2.7157513022422792,
      "loss/logits": 0.8189638644456864,
      "step": 68990
    },
    {
      "epoch": 0.69,
      "grad_norm": 14.625,
      "grad_norm_var": 0.68828125,
      "learning_rate": 0.0003,
      "loss": 10.8248,
      "loss/aux_loss": 0.048067789524793625,
      "loss/crossentropy": 2.6678106248378755,
      "loss/logits": 0.8147345900535583,
      "step": 69000
    },
    {
      "epoch": 0.6901,
      "grad_norm": 16.5,
      "grad_norm_var": 0.6473958333333333,
      "learning_rate": 0.0003,
      "loss": 10.9064,
      "loss/aux_loss": 0.04807272534817457,
      "loss/crossentropy": 2.617716884613037,
      "loss/logits": 0.8001246243715286,
      "step": 69010
    },
    {
      "epoch": 0.6902,
      "grad_norm": 16.75,
      "grad_norm_var": 3.076416015625,
      "learning_rate": 0.0003,
      "loss": 10.9515,
      "loss/aux_loss": 0.0480681125074625,
      "loss/crossentropy": 2.7977681756019592,
      "loss/logits": 0.8114293158054352,
      "step": 69020
    },
    {
      "epoch": 0.6903,
      "grad_norm": 15.875,
      "grad_norm_var": 2.7058430989583333,
      "learning_rate": 0.0003,
      "loss": 10.7312,
      "loss/aux_loss": 0.048084371723234653,
      "loss/crossentropy": 2.6386759102344515,
      "loss/logits": 0.808656194806099,
      "step": 69030
    },
    {
      "epoch": 0.6904,
      "grad_norm": 16.75,
      "grad_norm_var": 0.43430989583333335,
      "learning_rate": 0.0003,
      "loss": 10.9418,
      "loss/aux_loss": 0.04805478285998106,
      "loss/crossentropy": 2.640076959133148,
      "loss/logits": 0.7902828812599182,
      "step": 69040
    },
    {
      "epoch": 0.6905,
      "grad_norm": 16.375,
      "grad_norm_var": 1.1566243489583334,
      "learning_rate": 0.0003,
      "loss": 10.8981,
      "loss/aux_loss": 0.048069654405117034,
      "loss/crossentropy": 2.6928559839725494,
      "loss/logits": 0.8163411170244217,
      "step": 69050
    },
    {
      "epoch": 0.6906,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.7915201822916667,
      "learning_rate": 0.0003,
      "loss": 10.9199,
      "loss/aux_loss": 0.048076878674328326,
      "loss/crossentropy": 2.6690307438373564,
      "loss/logits": 0.8052759945392609,
      "step": 69060
    },
    {
      "epoch": 0.6907,
      "grad_norm": 14.875,
      "grad_norm_var": 0.46599934895833334,
      "learning_rate": 0.0003,
      "loss": 10.7491,
      "loss/aux_loss": 0.048068926110863684,
      "loss/crossentropy": 2.593144977092743,
      "loss/logits": 0.7935424596071243,
      "step": 69070
    },
    {
      "epoch": 0.6908,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.41868489583333335,
      "learning_rate": 0.0003,
      "loss": 10.8175,
      "loss/aux_loss": 0.04806020874530077,
      "loss/crossentropy": 2.6784588575363157,
      "loss/logits": 0.8021058231592179,
      "step": 69080
    },
    {
      "epoch": 0.6909,
      "grad_norm": 15.125,
      "grad_norm_var": 0.7081868489583333,
      "learning_rate": 0.0003,
      "loss": 10.9733,
      "loss/aux_loss": 0.04807012509554624,
      "loss/crossentropy": 2.667149120569229,
      "loss/logits": 0.8256219893693924,
      "step": 69090
    },
    {
      "epoch": 0.691,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.5306640625,
      "learning_rate": 0.0003,
      "loss": 10.6466,
      "loss/aux_loss": 0.04807849489152431,
      "loss/crossentropy": 2.6570124447345735,
      "loss/logits": 0.7915462791919708,
      "step": 69100
    },
    {
      "epoch": 0.6911,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.324853515625,
      "learning_rate": 0.0003,
      "loss": 10.8218,
      "loss/aux_loss": 0.048054102994501594,
      "loss/crossentropy": 2.5824302971363067,
      "loss/logits": 0.8005838513374328,
      "step": 69110
    },
    {
      "epoch": 0.6912,
      "grad_norm": 16.75,
      "grad_norm_var": 0.48748372395833334,
      "learning_rate": 0.0003,
      "loss": 10.9588,
      "loss/aux_loss": 0.04807182941585779,
      "loss/crossentropy": 2.7127415359020235,
      "loss/logits": 0.824643325805664,
      "step": 69120
    },
    {
      "epoch": 0.6913,
      "grad_norm": 15.5,
      "grad_norm_var": 0.5541015625,
      "learning_rate": 0.0003,
      "loss": 10.8355,
      "loss/aux_loss": 0.0480794757604599,
      "loss/crossentropy": 2.832990896701813,
      "loss/logits": 0.835834476351738,
      "step": 69130
    },
    {
      "epoch": 0.6914,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.6528483072916667,
      "learning_rate": 0.0003,
      "loss": 10.8559,
      "loss/aux_loss": 0.04806724786758423,
      "loss/crossentropy": 2.5886457681655886,
      "loss/logits": 0.792993089556694,
      "step": 69140
    },
    {
      "epoch": 0.6915,
      "grad_norm": 14.875,
      "grad_norm_var": 0.24088541666666666,
      "learning_rate": 0.0003,
      "loss": 10.8768,
      "loss/aux_loss": 0.04806765224784613,
      "loss/crossentropy": 2.728767251968384,
      "loss/logits": 0.8263113409280777,
      "step": 69150
    },
    {
      "epoch": 0.6916,
      "grad_norm": 16.0,
      "grad_norm_var": 0.5479166666666667,
      "learning_rate": 0.0003,
      "loss": 10.8623,
      "loss/aux_loss": 0.048062493838369844,
      "loss/crossentropy": 2.649292767047882,
      "loss/logits": 0.8204698622226715,
      "step": 69160
    },
    {
      "epoch": 0.6917,
      "grad_norm": 17.375,
      "grad_norm_var": 0.8387858072916666,
      "learning_rate": 0.0003,
      "loss": 11.0247,
      "loss/aux_loss": 0.04808208290487528,
      "loss/crossentropy": 2.7280562281608582,
      "loss/logits": 0.8480396270751953,
      "step": 69170
    },
    {
      "epoch": 0.6918,
      "grad_norm": 14.6875,
      "grad_norm_var": 1.9921223958333334,
      "learning_rate": 0.0003,
      "loss": 10.8223,
      "loss/aux_loss": 0.04805909302085638,
      "loss/crossentropy": 2.467037004232407,
      "loss/logits": 0.7907186537981034,
      "step": 69180
    },
    {
      "epoch": 0.6919,
      "grad_norm": 17.75,
      "grad_norm_var": 0.7739583333333333,
      "learning_rate": 0.0003,
      "loss": 10.8994,
      "loss/aux_loss": 0.04806915447115898,
      "loss/crossentropy": 2.8982559561729433,
      "loss/logits": 0.8535742044448853,
      "step": 69190
    },
    {
      "epoch": 0.692,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.9844889322916667,
      "learning_rate": 0.0003,
      "loss": 10.8113,
      "loss/aux_loss": 0.04806341417133808,
      "loss/crossentropy": 2.7215474128723143,
      "loss/logits": 0.8118506580591202,
      "step": 69200
    },
    {
      "epoch": 0.6921,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.2166015625,
      "learning_rate": 0.0003,
      "loss": 10.9878,
      "loss/aux_loss": 0.04807480592280626,
      "loss/crossentropy": 2.6422359228134153,
      "loss/logits": 0.8116691440343857,
      "step": 69210
    },
    {
      "epoch": 0.6922,
      "grad_norm": 16.125,
      "grad_norm_var": 0.509375,
      "learning_rate": 0.0003,
      "loss": 10.9659,
      "loss/aux_loss": 0.048063729889690876,
      "loss/crossentropy": 2.697904723882675,
      "loss/logits": 0.8118081420660019,
      "step": 69220
    },
    {
      "epoch": 0.6923,
      "grad_norm": 14.8125,
      "grad_norm_var": 3.744124348958333,
      "learning_rate": 0.0003,
      "loss": 10.758,
      "loss/aux_loss": 0.04806367959827185,
      "loss/crossentropy": 2.5523222506046297,
      "loss/logits": 0.7924966961145401,
      "step": 69230
    },
    {
      "epoch": 0.6924,
      "grad_norm": 15.375,
      "grad_norm_var": 4.15390625,
      "learning_rate": 0.0003,
      "loss": 10.8883,
      "loss/aux_loss": 0.04806468244642019,
      "loss/crossentropy": 2.8213607549667357,
      "loss/logits": 0.8581427276134491,
      "step": 69240
    },
    {
      "epoch": 0.6925,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.776806640625,
      "learning_rate": 0.0003,
      "loss": 10.9512,
      "loss/aux_loss": 0.048063874058425424,
      "loss/crossentropy": 2.7791464805603026,
      "loss/logits": 0.8555617034435272,
      "step": 69250
    },
    {
      "epoch": 0.6926,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.5567057291666667,
      "learning_rate": 0.0003,
      "loss": 10.8125,
      "loss/aux_loss": 0.04807287901639938,
      "loss/crossentropy": 2.721563369035721,
      "loss/logits": 0.8256457418203353,
      "step": 69260
    },
    {
      "epoch": 0.6927,
      "grad_norm": 15.625,
      "grad_norm_var": 1.0127604166666666,
      "learning_rate": 0.0003,
      "loss": 10.7597,
      "loss/aux_loss": 0.04807109721004963,
      "loss/crossentropy": 2.6567570507526397,
      "loss/logits": 0.7937098532915116,
      "step": 69270
    },
    {
      "epoch": 0.6928,
      "grad_norm": 14.625,
      "grad_norm_var": 0.8239420572916667,
      "learning_rate": 0.0003,
      "loss": 10.922,
      "loss/aux_loss": 0.04806143771857023,
      "loss/crossentropy": 2.618191432952881,
      "loss/logits": 0.7884357571601868,
      "step": 69280
    },
    {
      "epoch": 0.6929,
      "grad_norm": 15.3125,
      "grad_norm_var": 1.0782389322916666,
      "learning_rate": 0.0003,
      "loss": 10.9623,
      "loss/aux_loss": 0.04808080028742552,
      "loss/crossentropy": 2.732917082309723,
      "loss/logits": 0.8358202904462815,
      "step": 69290
    },
    {
      "epoch": 0.693,
      "grad_norm": 14.625,
      "grad_norm_var": 1.6150390625,
      "learning_rate": 0.0003,
      "loss": 10.949,
      "loss/aux_loss": 0.048059186339378356,
      "loss/crossentropy": 2.7098691940307615,
      "loss/logits": 0.8036975592374802,
      "step": 69300
    },
    {
      "epoch": 0.6931,
      "grad_norm": 14.5,
      "grad_norm_var": 0.6299479166666667,
      "learning_rate": 0.0003,
      "loss": 10.8893,
      "loss/aux_loss": 0.04807203523814678,
      "loss/crossentropy": 2.675479108095169,
      "loss/logits": 0.8248216599225998,
      "step": 69310
    },
    {
      "epoch": 0.6932,
      "grad_norm": 16.375,
      "grad_norm_var": 0.5020833333333333,
      "learning_rate": 0.0003,
      "loss": 10.7723,
      "loss/aux_loss": 0.04805539548397064,
      "loss/crossentropy": 2.6765593349933625,
      "loss/logits": 0.8203548967838288,
      "step": 69320
    },
    {
      "epoch": 0.6933,
      "grad_norm": 14.125,
      "grad_norm_var": 1.6524576822916666,
      "learning_rate": 0.0003,
      "loss": 10.8687,
      "loss/aux_loss": 0.04807414021342993,
      "loss/crossentropy": 2.7173945188522337,
      "loss/logits": 0.8036992192268372,
      "step": 69330
    },
    {
      "epoch": 0.6934,
      "grad_norm": 15.25,
      "grad_norm_var": 1.7469889322916667,
      "learning_rate": 0.0003,
      "loss": 10.9554,
      "loss/aux_loss": 0.04807598683983087,
      "loss/crossentropy": 2.8862260222434997,
      "loss/logits": 0.809663537144661,
      "step": 69340
    },
    {
      "epoch": 0.6935,
      "grad_norm": 15.375,
      "grad_norm_var": 0.6254557291666667,
      "learning_rate": 0.0003,
      "loss": 10.6077,
      "loss/aux_loss": 0.04807170238345861,
      "loss/crossentropy": 2.7360516667366026,
      "loss/logits": 0.8002244532108307,
      "step": 69350
    },
    {
      "epoch": 0.6936,
      "grad_norm": 15.625,
      "grad_norm_var": 0.5206868489583333,
      "learning_rate": 0.0003,
      "loss": 10.9361,
      "loss/aux_loss": 0.04806582704186439,
      "loss/crossentropy": 2.6366516649723053,
      "loss/logits": 0.7836940854787826,
      "step": 69360
    },
    {
      "epoch": 0.6937,
      "grad_norm": 15.0625,
      "grad_norm_var": 1.025244140625,
      "learning_rate": 0.0003,
      "loss": 10.8865,
      "loss/aux_loss": 0.04807285238057375,
      "loss/crossentropy": 2.700425660610199,
      "loss/logits": 0.786887913942337,
      "step": 69370
    },
    {
      "epoch": 0.6938,
      "grad_norm": 15.9375,
      "grad_norm_var": 1.1244140625,
      "learning_rate": 0.0003,
      "loss": 10.7267,
      "loss/aux_loss": 0.048068417236208916,
      "loss/crossentropy": 2.751612478494644,
      "loss/logits": 0.8176582008600235,
      "step": 69380
    },
    {
      "epoch": 0.6939,
      "grad_norm": 14.5,
      "grad_norm_var": 0.6707682291666667,
      "learning_rate": 0.0003,
      "loss": 10.8515,
      "loss/aux_loss": 0.04806055538356304,
      "loss/crossentropy": 2.6871352314949037,
      "loss/logits": 0.8337746620178222,
      "step": 69390
    },
    {
      "epoch": 0.694,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.42239583333333336,
      "learning_rate": 0.0003,
      "loss": 10.9541,
      "loss/aux_loss": 0.04807214047759771,
      "loss/crossentropy": 2.9056159615516663,
      "loss/logits": 0.8280203819274903,
      "step": 69400
    },
    {
      "epoch": 0.6941,
      "grad_norm": 14.25,
      "grad_norm_var": 0.9585774739583334,
      "learning_rate": 0.0003,
      "loss": 10.8548,
      "loss/aux_loss": 0.048070849664509294,
      "loss/crossentropy": 2.7352217197418214,
      "loss/logits": 0.822101253271103,
      "step": 69410
    },
    {
      "epoch": 0.6942,
      "grad_norm": 17.0,
      "grad_norm_var": 1.1666015625,
      "learning_rate": 0.0003,
      "loss": 10.8417,
      "loss/aux_loss": 0.04806300960481167,
      "loss/crossentropy": 2.747141933441162,
      "loss/logits": 0.8111588656902313,
      "step": 69420
    },
    {
      "epoch": 0.6943,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.666259765625,
      "learning_rate": 0.0003,
      "loss": 10.9775,
      "loss/aux_loss": 0.04806242380291224,
      "loss/crossentropy": 2.7164130806922913,
      "loss/logits": 0.8515024065971375,
      "step": 69430
    },
    {
      "epoch": 0.6944,
      "grad_norm": 16.75,
      "grad_norm_var": 128.33709309895832,
      "learning_rate": 0.0003,
      "loss": 11.0138,
      "loss/aux_loss": 0.048085224255919455,
      "loss/crossentropy": 2.6374498426914217,
      "loss/logits": 0.8130934327840805,
      "step": 69440
    },
    {
      "epoch": 0.6945,
      "grad_norm": 16.25,
      "grad_norm_var": 2.3645833333333335,
      "learning_rate": 0.0003,
      "loss": 10.7526,
      "loss/aux_loss": 0.04807570818811655,
      "loss/crossentropy": 2.6251815021038056,
      "loss/logits": 0.8005797922611236,
      "step": 69450
    },
    {
      "epoch": 0.6946,
      "grad_norm": 14.875,
      "grad_norm_var": 0.9205729166666666,
      "learning_rate": 0.0003,
      "loss": 10.845,
      "loss/aux_loss": 0.048060524836182596,
      "loss/crossentropy": 2.734144937992096,
      "loss/logits": 0.8050288885831833,
      "step": 69460
    },
    {
      "epoch": 0.6947,
      "grad_norm": 15.625,
      "grad_norm_var": 0.60078125,
      "learning_rate": 0.0003,
      "loss": 10.8845,
      "loss/aux_loss": 0.048075083270668985,
      "loss/crossentropy": 2.705908918380737,
      "loss/logits": 0.8168601602315902,
      "step": 69470
    },
    {
      "epoch": 0.6948,
      "grad_norm": 15.5,
      "grad_norm_var": 0.7356770833333334,
      "learning_rate": 0.0003,
      "loss": 10.7593,
      "loss/aux_loss": 0.048058357648551465,
      "loss/crossentropy": 2.618184173107147,
      "loss/logits": 0.8116142481565476,
      "step": 69480
    },
    {
      "epoch": 0.6949,
      "grad_norm": 16.125,
      "grad_norm_var": 1.1541015625,
      "learning_rate": 0.0003,
      "loss": 10.9445,
      "loss/aux_loss": 0.0480714937672019,
      "loss/crossentropy": 2.6427643597126007,
      "loss/logits": 0.8324632406234741,
      "step": 69490
    },
    {
      "epoch": 0.695,
      "grad_norm": 15.0625,
      "grad_norm_var": 0.9432291666666667,
      "learning_rate": 0.0003,
      "loss": 10.7763,
      "loss/aux_loss": 0.048056024312973025,
      "loss/crossentropy": 2.7632019460201263,
      "loss/logits": 0.8252893060445785,
      "step": 69500
    },
    {
      "epoch": 0.6951,
      "grad_norm": 15.25,
      "grad_norm_var": 0.4384765625,
      "learning_rate": 0.0003,
      "loss": 10.904,
      "loss/aux_loss": 0.04805950913578272,
      "loss/crossentropy": 2.741923874616623,
      "loss/logits": 0.8043259769678116,
      "step": 69510
    },
    {
      "epoch": 0.6952,
      "grad_norm": 14.8125,
      "grad_norm_var": 0.211962890625,
      "learning_rate": 0.0003,
      "loss": 10.8344,
      "loss/aux_loss": 0.04806842133402824,
      "loss/crossentropy": 2.824173706769943,
      "loss/logits": 0.8347906857728958,
      "step": 69520
    },
    {
      "epoch": 0.6953,
      "grad_norm": 15.75,
      "grad_norm_var": 0.379541015625,
      "learning_rate": 0.0003,
      "loss": 10.9516,
      "loss/aux_loss": 0.04806260485202074,
      "loss/crossentropy": 2.81458033323288,
      "loss/logits": 0.8338780552148819,
      "step": 69530
    },
    {
      "epoch": 0.6954,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.35201822916666664,
      "learning_rate": 0.0003,
      "loss": 10.7228,
      "loss/aux_loss": 0.04807497151196003,
      "loss/crossentropy": 2.718851935863495,
      "loss/logits": 0.7873619675636292,
      "step": 69540
    },
    {
      "epoch": 0.6955,
      "grad_norm": 15.25,
      "grad_norm_var": 0.40358072916666665,
      "learning_rate": 0.0003,
      "loss": 11.0079,
      "loss/aux_loss": 0.04806389175355434,
      "loss/crossentropy": 2.8200283885002135,
      "loss/logits": 0.8427982300519943,
      "step": 69550
    },
    {
      "epoch": 0.6956,
      "grad_norm": 16.125,
      "grad_norm_var": 0.8676432291666667,
      "learning_rate": 0.0003,
      "loss": 10.9712,
      "loss/aux_loss": 0.04806965868920088,
      "loss/crossentropy": 2.617030918598175,
      "loss/logits": 0.7800733983516693,
      "step": 69560
    },
    {
      "epoch": 0.6957,
      "grad_norm": 15.25,
      "grad_norm_var": 0.790869140625,
      "learning_rate": 0.0003,
      "loss": 10.6778,
      "loss/aux_loss": 0.0480612862855196,
      "loss/crossentropy": 2.6069294095039366,
      "loss/logits": 0.7806821346282959,
      "step": 69570
    },
    {
      "epoch": 0.6958,
      "grad_norm": 15.3125,
      "grad_norm_var": 0.493994140625,
      "learning_rate": 0.0003,
      "loss": 10.7764,
      "loss/aux_loss": 0.04807495810091496,
      "loss/crossentropy": 2.655094450712204,
      "loss/logits": 0.8132032155990601,
      "step": 69580
    },
    {
      "epoch": 0.6959,
      "grad_norm": 15.875,
      "grad_norm_var": 0.35052083333333334,
      "learning_rate": 0.0003,
      "loss": 10.6866,
      "loss/aux_loss": 0.04805904570966959,
      "loss/crossentropy": 2.5849641382694246,
      "loss/logits": 0.7947615712881089,
      "step": 69590
    },
    {
      "epoch": 0.696,
      "grad_norm": 15.625,
      "grad_norm_var": 0.5973958333333333,
      "learning_rate": 0.0003,
      "loss": 10.9278,
      "loss/aux_loss": 0.048071693442761895,
      "loss/crossentropy": 2.529132205247879,
      "loss/logits": 0.7914834886789321,
      "step": 69600
    },
    {
      "epoch": 0.6961,
      "grad_norm": 15.5,
      "grad_norm_var": 0.7426432291666667,
      "learning_rate": 0.0003,
      "loss": 10.7448,
      "loss/aux_loss": 0.048061798140406606,
      "loss/crossentropy": 2.5973862528800966,
      "loss/logits": 0.762446054816246,
      "step": 69610
    },
    {
      "epoch": 0.6962,
      "grad_norm": 15.625,
      "grad_norm_var": 0.7150390625,
      "learning_rate": 0.0003,
      "loss": 10.7611,
      "loss/aux_loss": 0.04808028992265463,
      "loss/crossentropy": 2.580735170841217,
      "loss/logits": 0.8113909959793091,
      "step": 69620
    },
    {
      "epoch": 0.6963,
      "grad_norm": 14.375,
      "grad_norm_var": 0.9327473958333333,
      "learning_rate": 0.0003,
      "loss": 10.7292,
      "loss/aux_loss": 0.04805351886898279,
      "loss/crossentropy": 2.6865119695663453,
      "loss/logits": 0.7755003601312638,
      "step": 69630
    },
    {
      "epoch": 0.6964,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.8343098958333334,
      "learning_rate": 0.0003,
      "loss": 10.8817,
      "loss/aux_loss": 0.048071601428091526,
      "loss/crossentropy": 2.7158267498016357,
      "loss/logits": 0.813782611489296,
      "step": 69640
    },
    {
      "epoch": 0.6965,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.877978515625,
      "learning_rate": 0.0003,
      "loss": 10.7957,
      "loss/aux_loss": 0.048066675662994385,
      "loss/crossentropy": 2.715426343679428,
      "loss/logits": 0.8276042312383651,
      "step": 69650
    },
    {
      "epoch": 0.6966,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.6184895833333334,
      "learning_rate": 0.0003,
      "loss": 10.9359,
      "loss/aux_loss": 0.048063802719116214,
      "loss/crossentropy": 2.6631912708282472,
      "loss/logits": 0.8037597626447678,
      "step": 69660
    },
    {
      "epoch": 0.6967,
      "grad_norm": 15.5625,
      "grad_norm_var": 1.0847493489583333,
      "learning_rate": 0.0003,
      "loss": 11.0285,
      "loss/aux_loss": 0.0480733547359705,
      "loss/crossentropy": 2.6649845838546753,
      "loss/logits": 0.824079555273056,
      "step": 69670
    },
    {
      "epoch": 0.6968,
      "grad_norm": 19.75,
      "grad_norm_var": 2.1988932291666665,
      "learning_rate": 0.0003,
      "loss": 10.7858,
      "loss/aux_loss": 0.04807499777525663,
      "loss/crossentropy": 2.559821057319641,
      "loss/logits": 0.8164191097021103,
      "step": 69680
    },
    {
      "epoch": 0.6969,
      "grad_norm": 16.0,
      "grad_norm_var": 1.6702473958333333,
      "learning_rate": 0.0003,
      "loss": 10.7732,
      "loss/aux_loss": 0.048064416646957396,
      "loss/crossentropy": 2.5081125438213348,
      "loss/logits": 0.7806854665279388,
      "step": 69690
    },
    {
      "epoch": 0.697,
      "grad_norm": 17.125,
      "grad_norm_var": 0.537744140625,
      "learning_rate": 0.0003,
      "loss": 10.911,
      "loss/aux_loss": 0.048071997612714766,
      "loss/crossentropy": 2.798080360889435,
      "loss/logits": 0.849156191945076,
      "step": 69700
    },
    {
      "epoch": 0.6971,
      "grad_norm": 15.5,
      "grad_norm_var": 0.8555826822916667,
      "learning_rate": 0.0003,
      "loss": 10.7062,
      "loss/aux_loss": 0.048063857667148116,
      "loss/crossentropy": 2.721605783700943,
      "loss/logits": 0.7785751849412919,
      "step": 69710
    },
    {
      "epoch": 0.6972,
      "grad_norm": 15.5625,
      "grad_norm_var": 0.411572265625,
      "learning_rate": 0.0003,
      "loss": 10.8278,
      "loss/aux_loss": 0.048065428622066975,
      "loss/crossentropy": 2.7682719230651855,
      "loss/logits": 0.8334241211414337,
      "step": 69720
    },
    {
      "epoch": 0.6973,
      "grad_norm": 15.25,
      "grad_norm_var": 0.6947265625,
      "learning_rate": 0.0003,
      "loss": 10.7517,
      "loss/aux_loss": 0.04808158706873655,
      "loss/crossentropy": 2.7136940717697144,
      "loss/logits": 0.799360203742981,
      "step": 69730
    },
    {
      "epoch": 0.6974,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.6452473958333333,
      "learning_rate": 0.0003,
      "loss": 10.871,
      "loss/aux_loss": 0.04807530529797077,
      "loss/crossentropy": 2.723317527770996,
      "loss/logits": 0.7894266813993454,
      "step": 69740
    },
    {
      "epoch": 0.6975,
      "grad_norm": 15.8125,
      "grad_norm_var": 140.85598958333333,
      "learning_rate": 0.0003,
      "loss": 10.8967,
      "loss/aux_loss": 0.048066935315728185,
      "loss/crossentropy": 2.7271577537059786,
      "loss/logits": 0.8186393707990647,
      "step": 69750
    },
    {
      "epoch": 0.6976,
      "grad_norm": 17.125,
      "grad_norm_var": 3.801806640625,
      "learning_rate": 0.0003,
      "loss": 10.8478,
      "loss/aux_loss": 0.04806602392345667,
      "loss/crossentropy": 2.499061381816864,
      "loss/logits": 0.7904832571744919,
      "step": 69760
    },
    {
      "epoch": 0.6977,
      "grad_norm": 15.1875,
      "grad_norm_var": 0.8098307291666667,
      "learning_rate": 0.0003,
      "loss": 10.9179,
      "loss/aux_loss": 0.04806220382452011,
      "loss/crossentropy": 2.8025425612926482,
      "loss/logits": 0.8429517328739167,
      "step": 69770
    },
    {
      "epoch": 0.6978,
      "grad_norm": 15.4375,
      "grad_norm_var": 0.5463541666666667,
      "learning_rate": 0.0003,
      "loss": 10.8747,
      "loss/aux_loss": 0.0480809373781085,
      "loss/crossentropy": 2.549819737672806,
      "loss/logits": 0.7724178716540336,
      "step": 69780
    },
    {
      "epoch": 0.6979,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.5058430989583333,
      "learning_rate": 0.0003,
      "loss": 10.7673,
      "loss/aux_loss": 0.048068621568381785,
      "loss/crossentropy": 2.629793846607208,
      "loss/logits": 0.8028360933065415,
      "step": 69790
    },
    {
      "epoch": 0.698,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.8476399739583333,
      "learning_rate": 0.0003,
      "loss": 10.6601,
      "loss/aux_loss": 0.048068128526210785,
      "loss/crossentropy": 2.6547737777233125,
      "loss/logits": 0.8297581821680069,
      "step": 69800
    },
    {
      "epoch": 0.6981,
      "grad_norm": 15.8125,
      "grad_norm_var": 0.863916015625,
      "learning_rate": 0.0003,
      "loss": 10.9559,
      "loss/aux_loss": 0.04806609004735947,
      "loss/crossentropy": 2.636369228363037,
      "loss/logits": 0.8080786511301994,
      "step": 69810
    },
    {
      "epoch": 0.6982,
      "grad_norm": 16.375,
      "grad_norm_var": 16.676416015625,
      "learning_rate": 0.0003,
      "loss": 10.9601,
      "loss/aux_loss": 0.04808267876505852,
      "loss/crossentropy": 2.6405935764312742,
      "loss/logits": 0.7962011188268662,
      "step": 69820
    },
    {
      "epoch": 0.6983,
      "grad_norm": 15.4375,
      "grad_norm_var": 1.4374348958333334,
      "learning_rate": 0.0003,
      "loss": 10.7869,
      "loss/aux_loss": 0.04806174710392952,
      "loss/crossentropy": 2.7505713582038878,
      "loss/logits": 0.7872932314872741,
      "step": 69830
    },
    {
      "epoch": 0.6984,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.9222493489583333,
      "learning_rate": 0.0003,
      "loss": 10.9906,
      "loss/aux_loss": 0.04806131403893232,
      "loss/crossentropy": 2.8466971039772035,
      "loss/logits": 0.8570821315050126,
      "step": 69840
    },
    {
      "epoch": 0.6985,
      "grad_norm": 15.25,
      "grad_norm_var": 0.22389322916666668,
      "learning_rate": 0.0003,
      "loss": 10.897,
      "loss/aux_loss": 0.048060120269656184,
      "loss/crossentropy": 2.6072149515151977,
      "loss/logits": 0.8024741411209106,
      "step": 69850
    },
    {
      "epoch": 0.6986,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.25201822916666666,
      "learning_rate": 0.0003,
      "loss": 10.7511,
      "loss/aux_loss": 0.048070829920470716,
      "loss/crossentropy": 2.805588722229004,
      "loss/logits": 0.8278827935457229,
      "step": 69860
    },
    {
      "epoch": 0.6987,
      "grad_norm": 16.125,
      "grad_norm_var": 0.35154622395833335,
      "learning_rate": 0.0003,
      "loss": 10.905,
      "loss/aux_loss": 0.04806218836456537,
      "loss/crossentropy": 2.727338945865631,
      "loss/logits": 0.7851577132940293,
      "step": 69870
    },
    {
      "epoch": 0.6988,
      "grad_norm": 15.375,
      "grad_norm_var": 0.5751139322916666,
      "learning_rate": 0.0003,
      "loss": 10.75,
      "loss/aux_loss": 0.04807434901595116,
      "loss/crossentropy": 2.7194652020931245,
      "loss/logits": 0.8074722796678543,
      "step": 69880
    },
    {
      "epoch": 0.6989,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.5465983072916667,
      "learning_rate": 0.0003,
      "loss": 10.7433,
      "loss/aux_loss": 0.048061872646212575,
      "loss/crossentropy": 2.685518753528595,
      "loss/logits": 0.8617990851402283,
      "step": 69890
    },
    {
      "epoch": 0.699,
      "grad_norm": 14.9375,
      "grad_norm_var": 0.4423014322916667,
      "learning_rate": 0.0003,
      "loss": 10.7309,
      "loss/aux_loss": 0.04807621408253908,
      "loss/crossentropy": 2.622563087940216,
      "loss/logits": 0.809404906630516,
      "step": 69900
    },
    {
      "epoch": 0.6991,
      "grad_norm": 14.75,
      "grad_norm_var": 0.31417643229166664,
      "learning_rate": 0.0003,
      "loss": 10.9159,
      "loss/aux_loss": 0.04805949460715055,
      "loss/crossentropy": 2.748386710882187,
      "loss/logits": 0.8233764231204986,
      "step": 69910
    },
    {
      "epoch": 0.6992,
      "grad_norm": 15.25,
      "grad_norm_var": 0.4359212239583333,
      "learning_rate": 0.0003,
      "loss": 10.7166,
      "loss/aux_loss": 0.04807121455669403,
      "loss/crossentropy": 2.661421650648117,
      "loss/logits": 0.7985509872436524,
      "step": 69920
    },
    {
      "epoch": 0.6993,
      "grad_norm": 15.9375,
      "grad_norm_var": 1.0502604166666667,
      "learning_rate": 0.0003,
      "loss": 10.8889,
      "loss/aux_loss": 0.048076589964330195,
      "loss/crossentropy": 2.886363685131073,
      "loss/logits": 0.8310510069131851,
      "step": 69930
    },
    {
      "epoch": 0.6994,
      "grad_norm": 14.875,
      "grad_norm_var": 1.1340983072916666,
      "learning_rate": 0.0003,
      "loss": 10.9695,
      "loss/aux_loss": 0.04806211348623037,
      "loss/crossentropy": 2.730562311410904,
      "loss/logits": 0.8359936803579331,
      "step": 69940
    },
    {
      "epoch": 0.6995,
      "grad_norm": 15.0,
      "grad_norm_var": 0.21261393229166667,
      "learning_rate": 0.0003,
      "loss": 10.8209,
      "loss/aux_loss": 0.04806340225040913,
      "loss/crossentropy": 2.6769157886505126,
      "loss/logits": 0.7736663967370987,
      "step": 69950
    },
    {
      "epoch": 0.6996,
      "grad_norm": 17.25,
      "grad_norm_var": 0.4559733072916667,
      "learning_rate": 0.0003,
      "loss": 10.8065,
      "loss/aux_loss": 0.048078119195997714,
      "loss/crossentropy": 2.6120175421237946,
      "loss/logits": 0.8157159000635147,
      "step": 69960
    },
    {
      "epoch": 0.6997,
      "grad_norm": 15.9375,
      "grad_norm_var": 0.9344889322916666,
      "learning_rate": 0.0003,
      "loss": 10.9741,
      "loss/aux_loss": 0.04807462692260742,
      "loss/crossentropy": 2.7217097640037538,
      "loss/logits": 0.806912750005722,
      "step": 69970
    },
    {
      "epoch": 0.6998,
      "grad_norm": 14.4375,
      "grad_norm_var": 0.9408854166666667,
      "learning_rate": 0.0003,
      "loss": 10.7853,
      "loss/aux_loss": 0.04805513937026262,
      "loss/crossentropy": 2.603360629081726,
      "loss/logits": 0.8143667846918106,
      "step": 69980
    },
    {
      "epoch": 0.6999,
      "grad_norm": 15.6875,
      "grad_norm_var": 0.5075358072916667,
      "learning_rate": 0.0003,
      "loss": 10.9126,
      "loss/aux_loss": 0.04806795883923769,
      "loss/crossentropy": 2.860744071006775,
      "loss/logits": 0.8322966694831848,
      "step": 69990
    },
    {
      "epoch": 0.7,
      "grad_norm": 16.125,
      "grad_norm_var": 0.4610514322916667,
      "learning_rate": 0.0003,
      "loss": 10.8683,
      "loss/aux_loss": 0.04808022417128086,
      "loss/crossentropy": 2.708540141582489,
      "loss/logits": 0.8456598520278931,
      "step": 70000
    }
  ],
  "logging_steps": 10,
  "max_steps": 100000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 10000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.9787190713817498e+20,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}