{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.029864118261908316,
  "eval_steps": 2000,
  "global_step": 2000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.4932059130954158e-05,
      "grad_norm": 0.8359375,
      "learning_rate": 2e-05,
      "loss": 1.3962,
      "loss/crossentropy": 2.609541177749634,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.19302886724472046,
      "step": 1
    },
    {
      "epoch": 2.9864118261908317e-05,
      "grad_norm": 0.80859375,
      "learning_rate": 2e-05,
      "loss": 1.2844,
      "loss/crossentropy": 2.702785015106201,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1750669926404953,
      "step": 2
    },
    {
      "epoch": 4.4796177392862473e-05,
      "grad_norm": 0.74609375,
      "learning_rate": 2e-05,
      "loss": 1.2457,
      "loss/crossentropy": 2.620382308959961,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16754117608070374,
      "step": 3
    },
    {
      "epoch": 5.9728236523816634e-05,
      "grad_norm": 0.7265625,
      "learning_rate": 2e-05,
      "loss": 1.3366,
      "loss/crossentropy": 2.566118001937866,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.18033114075660706,
      "step": 4
    },
    {
      "epoch": 7.466029565477079e-05,
      "grad_norm": 0.6953125,
      "learning_rate": 2e-05,
      "loss": 1.292,
      "loss/crossentropy": 2.561917304992676,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17484982311725616,
      "step": 5
    },
    {
      "epoch": 8.959235478572495e-05,
      "grad_norm": 0.734375,
      "learning_rate": 2e-05,
      "loss": 1.315,
      "loss/crossentropy": 2.606935977935791,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17437440156936646,
      "step": 6
    },
    {
      "epoch": 0.00010452441391667911,
      "grad_norm": 0.74609375,
      "learning_rate": 2e-05,
      "loss": 1.4291,
      "loss/crossentropy": 2.555368661880493,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 12.0,
      "loss/logits": 0.19471214711666107,
      "step": 7
    },
    {
      "epoch": 0.00011945647304763327,
      "grad_norm": 0.78515625,
      "learning_rate": 2e-05,
      "loss": 1.5255,
      "loss/crossentropy": 2.5476245880126953,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.28125,
      "loss/idx": 12.0,
      "loss/logits": 0.24422992765903473,
      "step": 8
    },
    {
      "epoch": 0.00013438853217858743,
      "grad_norm": 0.69140625,
      "learning_rate": 2e-05,
      "loss": 1.3099,
      "loss/crossentropy": 2.2711799144744873,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.16932150721549988,
      "step": 9
    },
    {
      "epoch": 0.00014932059130954157,
      "grad_norm": 0.84375,
      "learning_rate": 2e-05,
      "loss": 1.3835,
      "loss/crossentropy": 2.5518879890441895,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.19604898989200592,
      "step": 10
    },
    {
      "epoch": 0.00016425265044049575,
      "grad_norm": 0.828125,
      "learning_rate": 2e-05,
      "loss": 1.4655,
      "loss/crossentropy": 2.5716614723205566,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.2233092039823532,
      "step": 11
    },
    {
      "epoch": 0.0001791847095714499,
      "grad_norm": 0.71484375,
      "learning_rate": 2e-05,
      "loss": 1.3127,
      "loss/crossentropy": 2.6517248153686523,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17209960520267487,
      "step": 12
    },
    {
      "epoch": 0.00019411676870240407,
      "grad_norm": 0.7109375,
      "learning_rate": 2e-05,
      "loss": 1.403,
      "loss/crossentropy": 2.4482481479644775,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 12.0,
      "loss/logits": 0.17639976739883423,
      "step": 13
    },
    {
      "epoch": 0.00020904882783335821,
      "grad_norm": 0.73046875,
      "learning_rate": 2e-05,
      "loss": 1.2437,
      "loss/crossentropy": 2.5636048316955566,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1577576994895935,
      "step": 14
    },
    {
      "epoch": 0.0002239808869643124,
      "grad_norm": 0.59375,
      "learning_rate": 2e-05,
      "loss": 1.2923,
      "loss/crossentropy": 2.559340238571167,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17509810626506805,
      "step": 15
    },
    {
      "epoch": 0.00023891294609526653,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.005140113830566406,
      "learning_rate": 2e-05,
      "loss": 1.2483,
      "loss/crossentropy": 2.5928773880004883,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.17019006609916687,
      "step": 16
    },
    {
      "epoch": 0.0002538450052262207,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.005712890625,
      "learning_rate": 2e-05,
      "loss": 1.3097,
      "loss/crossentropy": 2.7123403549194336,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.176863431930542,
      "step": 17
    },
    {
      "epoch": 0.00026877706435717485,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.006197102864583333,
      "learning_rate": 2e-05,
      "loss": 1.3289,
      "loss/crossentropy": 2.7460012435913086,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18828681111335754,
      "step": 18
    },
    {
      "epoch": 0.000283709123488129,
      "grad_norm": 1.28125,
      "grad_norm_var": 0.026744524637858074,
      "learning_rate": 2e-05,
      "loss": 1.6745,
      "loss/crossentropy": 2.6814517974853516,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.4140625,
      "loss/idx": 12.0,
      "loss/logits": 0.2604835033416748,
      "step": 19
    },
    {
      "epoch": 0.00029864118261908315,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.028202056884765625,
      "learning_rate": 2e-05,
      "loss": 1.2942,
      "loss/crossentropy": 2.8028454780578613,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1770225465297699,
      "step": 20
    },
    {
      "epoch": 0.00031357324175003735,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.02951227823893229,
      "learning_rate": 2e-05,
      "loss": 1.3311,
      "loss/crossentropy": 2.590350866317749,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.19830407202243805,
      "step": 21
    },
    {
      "epoch": 0.0003285053008809915,
      "grad_norm": 0.6953125,
      "grad_norm_var": 0.029569498697916665,
      "learning_rate": 2e-05,
      "loss": 1.4609,
      "loss/crossentropy": 2.5552988052368164,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.21873216331005096,
      "step": 22
    },
    {
      "epoch": 0.00034343736001194564,
      "grad_norm": 0.7265625,
      "grad_norm_var": 0.029537391662597657,
      "learning_rate": 2e-05,
      "loss": 1.4856,
      "loss/crossentropy": 2.727858066558838,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 12.0,
      "loss/logits": 0.21994858980178833,
      "step": 23
    },
    {
      "epoch": 0.0003583694191428998,
      "grad_norm": 0.6484375,
      "grad_norm_var": 0.029579671223958333,
      "learning_rate": 2e-05,
      "loss": 1.371,
      "loss/crossentropy": 2.3856289386749268,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.18346479535102844,
      "step": 24
    },
    {
      "epoch": 0.000373301478273854,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.03048089345296224,
      "learning_rate": 2e-05,
      "loss": 1.282,
      "loss/crossentropy": 2.530938148498535,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.15697604417800903,
      "step": 25
    },
    {
      "epoch": 0.00038823353740480814,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.029403114318847658,
      "learning_rate": 2e-05,
      "loss": 1.4404,
      "loss/crossentropy": 2.4393346309661865,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.19825200736522675,
      "step": 26
    },
    {
      "epoch": 0.0004031655965357623,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.028580474853515624,
      "learning_rate": 2e-05,
      "loss": 1.3121,
      "loss/crossentropy": 2.767091989517212,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.1792472004890442,
      "step": 27
    },
    {
      "epoch": 0.00041809765566671643,
      "grad_norm": 0.671875,
      "grad_norm_var": 0.028508440653483073,
      "learning_rate": 2e-05,
      "loss": 1.428,
      "loss/crossentropy": 2.497144937515259,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 12.0,
      "loss/logits": 0.21709555387496948,
      "step": 28
    },
    {
      "epoch": 0.0004330297147976706,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.028796831766764324,
      "learning_rate": 2e-05,
      "loss": 1.2806,
      "loss/crossentropy": 2.503953218460083,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.18687917292118073,
      "step": 29
    },
    {
      "epoch": 0.0004479617739286248,
      "grad_norm": 0.6875,
      "grad_norm_var": 0.028580729166666666,
      "learning_rate": 2e-05,
      "loss": 1.3877,
      "loss/crossentropy": 2.498080015182495,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.20022732019424438,
      "step": 30
    },
    {
      "epoch": 0.0004628938330595789,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.02818190256754557,
      "learning_rate": 2e-05,
      "loss": 1.3267,
      "loss/crossentropy": 2.71108341217041,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.1782739758491516,
      "step": 31
    },
    {
      "epoch": 0.00047782589219053307,
      "grad_norm": 1.390625,
      "grad_norm_var": 0.05970350901285807,
      "learning_rate": 2e-05,
      "loss": 1.7218,
      "loss/crossentropy": 2.422400951385498,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.46875,
      "loss/idx": 12.0,
      "loss/logits": 0.2530236542224884,
      "step": 32
    },
    {
      "epoch": 0.0004927579513214872,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.058646074930826825,
      "learning_rate": 2e-05,
      "loss": 1.4255,
      "loss/crossentropy": 2.750814437866211,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.20671629905700684,
      "step": 33
    },
    {
      "epoch": 0.0005076900104524414,
      "grad_norm": 1.1015625,
      "grad_norm_var": 0.0656005859375,
      "learning_rate": 2e-05,
      "loss": 1.3081,
      "loss/crossentropy": 2.8478612899780273,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.15186628699302673,
      "step": 34
    },
    {
      "epoch": 0.0005226220695833955,
      "grad_norm": 0.69140625,
      "grad_norm_var": 0.04633274078369141,
      "learning_rate": 2e-05,
      "loss": 1.3061,
      "loss/crossentropy": 2.4926323890686035,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17327454686164856,
      "step": 35
    },
    {
      "epoch": 0.0005375541287143497,
      "grad_norm": 0.8125,
      "grad_norm_var": 0.045481109619140626,
      "learning_rate": 2e-05,
      "loss": 1.3796,
      "loss/crossentropy": 2.6361165046691895,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.1921408474445343,
      "step": 36
    },
    {
      "epoch": 0.0005524861878453039,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.044178199768066403,
      "learning_rate": 2e-05,
      "loss": 1.3217,
      "loss/crossentropy": 2.5386064052581787,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18107610940933228,
      "step": 37
    },
    {
      "epoch": 0.000567418246976258,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.045613034566243486,
      "learning_rate": 2e-05,
      "loss": 1.3732,
      "loss/crossentropy": 2.542595863342285,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 12.0,
      "loss/logits": 0.19354979693889618,
      "step": 38
    },
    {
      "epoch": 0.0005823503061072122,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.047247060139973956,
      "learning_rate": 2e-05,
      "loss": 1.2929,
      "loss/crossentropy": 2.339637279510498,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.18351908028125763,
      "step": 39
    },
    {
      "epoch": 0.0005972823652381663,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.048766835530598955,
      "learning_rate": 2e-05,
      "loss": 1.2777,
      "loss/crossentropy": 2.626256227493286,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.16047844290733337,
      "step": 40
    },
    {
      "epoch": 0.0006122144243691205,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.048638916015625,
      "learning_rate": 2e-05,
      "loss": 1.2725,
      "loss/crossentropy": 2.5306503772735596,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17098692059516907,
      "step": 41
    },
    {
      "epoch": 0.0006271464835000747,
      "grad_norm": 0.6328125,
      "grad_norm_var": 0.04872614542643229,
      "learning_rate": 2e-05,
      "loss": 1.4129,
      "loss/crossentropy": 2.4811081886291504,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 12.0,
      "loss/logits": 0.20194479823112488,
      "step": 42
    },
    {
      "epoch": 0.0006420785426310288,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.049119059244791666,
      "learning_rate": 2e-05,
      "loss": 1.274,
      "loss/crossentropy": 2.4502978324890137,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16458770632743835,
      "step": 43
    },
    {
      "epoch": 0.000657010601761983,
      "grad_norm": 0.69140625,
      "grad_norm_var": 0.04902083079020182,
      "learning_rate": 2e-05,
      "loss": 1.5054,
      "loss/crossentropy": 2.416804075241089,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.28125,
      "loss/idx": 12.0,
      "loss/logits": 0.22411639988422394,
      "step": 44
    },
    {
      "epoch": 0.0006719426608929372,
      "grad_norm": 0.79296875,
      "grad_norm_var": 0.048288726806640626,
      "learning_rate": 2e-05,
      "loss": 1.4078,
      "loss/crossentropy": 2.742251396179199,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.18909800052642822,
      "step": 45
    },
    {
      "epoch": 0.0006868747200238913,
      "grad_norm": 0.70703125,
      "grad_norm_var": 0.04819685618082682,
      "learning_rate": 2e-05,
      "loss": 1.4589,
      "loss/crossentropy": 2.6130266189575195,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 12.0,
      "loss/logits": 0.232346311211586,
      "step": 46
    },
    {
      "epoch": 0.0007018067791548455,
      "grad_norm": 0.69140625,
      "grad_norm_var": 0.04795373280843099,
      "learning_rate": 2e-05,
      "loss": 1.4667,
      "loss/crossentropy": 2.4245617389678955,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.25,
      "loss/idx": 12.0,
      "loss/logits": 0.21665045619010925,
      "step": 47
    },
    {
      "epoch": 0.0007167388382857996,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.018373616536458335,
      "learning_rate": 2e-05,
      "loss": 1.3413,
      "loss/crossentropy": 2.6861648559570312,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.19289466738700867,
      "step": 48
    },
    {
      "epoch": 0.0007316708974167538,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.019614410400390626,
      "learning_rate": 2e-05,
      "loss": 1.2877,
      "loss/crossentropy": 2.713362455368042,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17047566175460815,
      "step": 49
    },
    {
      "epoch": 0.000746602956547708,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.007645416259765625,
      "learning_rate": 2e-05,
      "loss": 1.2322,
      "loss/crossentropy": 2.661055564880371,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.1618708372116089,
      "step": 50
    },
    {
      "epoch": 0.0007615350156786621,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.0074541727701822914,
      "learning_rate": 2e-05,
      "loss": 1.3611,
      "loss/crossentropy": 2.7492740154266357,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1892453134059906,
      "step": 51
    },
    {
      "epoch": 0.0007764670748096163,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.005238596598307292,
      "learning_rate": 2e-05,
      "loss": 1.4406,
      "loss/crossentropy": 2.341090679168701,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.25,
      "loss/idx": 12.0,
      "loss/logits": 0.19059142470359802,
      "step": 52
    },
    {
      "epoch": 0.0007913991339405704,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.005212847391764323,
      "learning_rate": 2e-05,
      "loss": 1.2364,
      "loss/crossentropy": 2.77945613861084,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.15829287469387054,
      "step": 53
    },
    {
      "epoch": 0.0008063311930715246,
      "grad_norm": 0.6328125,
      "grad_norm_var": 0.0051502863566080725,
      "learning_rate": 2e-05,
      "loss": 1.2944,
      "loss/crossentropy": 2.8645284175872803,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1772599220275879,
      "step": 54
    },
    {
      "epoch": 0.0008212632522024788,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0053670247395833336,
      "learning_rate": 2e-05,
      "loss": 1.3286,
      "loss/crossentropy": 2.2789793014526367,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.1957651972770691,
      "step": 55
    },
    {
      "epoch": 0.0008361953113334329,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.00507806142171224,
      "learning_rate": 2e-05,
      "loss": 1.4199,
      "loss/crossentropy": 2.734726667404175,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.21681487560272217,
      "step": 56
    },
    {
      "epoch": 0.0008511273704643871,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.0051375706990559895,
      "learning_rate": 2e-05,
      "loss": 1.2676,
      "loss/crossentropy": 2.6685731410980225,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16598857939243317,
      "step": 57
    },
    {
      "epoch": 0.0008660594295953411,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.005128987630208333,
      "learning_rate": 2e-05,
      "loss": 1.2632,
      "loss/crossentropy": 2.5432820320129395,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16164365410804749,
      "step": 58
    },
    {
      "epoch": 0.0008809914887262953,
      "grad_norm": 0.671875,
      "grad_norm_var": 0.0051655451456705725,
      "learning_rate": 2e-05,
      "loss": 1.3446,
      "loss/crossentropy": 2.400588035583496,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17270785570144653,
      "step": 59
    },
    {
      "epoch": 0.0008959235478572496,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0050129572550455725,
      "learning_rate": 2e-05,
      "loss": 1.2711,
      "loss/crossentropy": 2.9404215812683105,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16168653964996338,
      "step": 60
    },
    {
      "epoch": 0.0009108556069882036,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.002937571207682292,
      "learning_rate": 2e-05,
      "loss": 1.343,
      "loss/crossentropy": 2.4893975257873535,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.17896610498428345,
      "step": 61
    },
    {
      "epoch": 0.0009257876661191578,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0023706436157226564,
      "learning_rate": 2e-05,
      "loss": 1.286,
      "loss/crossentropy": 2.544616460800171,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17664407193660736,
      "step": 62
    },
    {
      "epoch": 0.000940719725250112,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.0018599828084309895,
      "learning_rate": 2e-05,
      "loss": 1.3906,
      "loss/crossentropy": 2.5881662368774414,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.19525527954101562,
      "step": 63
    },
    {
      "epoch": 0.0009556517843810661,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0018208821614583333,
      "learning_rate": 2e-05,
      "loss": 1.1933,
      "loss/crossentropy": 2.7437222003936768,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.14645323157310486,
      "step": 64
    },
    {
      "epoch": 0.0009705838435120203,
      "grad_norm": 0.6328125,
      "grad_norm_var": 0.0016702651977539063,
      "learning_rate": 2e-05,
      "loss": 1.4415,
      "loss/crossentropy": 2.6524834632873535,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 12.0,
      "loss/logits": 0.21492895483970642,
      "step": 65
    },
    {
      "epoch": 0.0009855159026429744,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.001224517822265625,
      "learning_rate": 2e-05,
      "loss": 1.3729,
      "loss/crossentropy": 2.853750705718994,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.2009965479373932,
      "step": 66
    },
    {
      "epoch": 0.0010004479617739285,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0013872782389322917,
      "learning_rate": 2e-05,
      "loss": 1.205,
      "loss/crossentropy": 2.3778915405273438,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.1425057351589203,
      "step": 67
    },
    {
      "epoch": 0.0010153800209048828,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.0013872782389322917,
      "learning_rate": 2e-05,
      "loss": 1.4857,
      "loss/crossentropy": 2.0992250442504883,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 12.0,
      "loss/logits": 0.22008036077022552,
      "step": 68
    },
    {
      "epoch": 0.001030312080035837,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0013711929321289062,
      "learning_rate": 2e-05,
      "loss": 1.3042,
      "loss/crossentropy": 2.557607650756836,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.17921671271324158,
      "step": 69
    },
    {
      "epoch": 0.001045244139166791,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0015825907389322917,
      "learning_rate": 2e-05,
      "loss": 1.1715,
      "loss/crossentropy": 2.5834288597106934,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.14024239778518677,
      "step": 70
    },
    {
      "epoch": 0.0010601761982977453,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.0017567316691080729,
      "learning_rate": 2e-05,
      "loss": 1.4302,
      "loss/crossentropy": 2.542942523956299,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 12.0,
      "loss/logits": 0.2036018967628479,
      "step": 71
    },
    {
      "epoch": 0.0010751082574286994,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0018633524576822916,
      "learning_rate": 2e-05,
      "loss": 1.252,
      "loss/crossentropy": 2.635038137435913,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16602204740047455,
      "step": 72
    },
    {
      "epoch": 0.0010900403165596535,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.0018633524576822916,
      "learning_rate": 2e-05,
      "loss": 1.3169,
      "loss/crossentropy": 2.5402872562408447,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.18406565487384796,
      "step": 73
    },
    {
      "epoch": 0.0011049723756906078,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.001970354715983073,
      "learning_rate": 2e-05,
      "loss": 1.2864,
      "loss/crossentropy": 2.5613765716552734,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.177069291472435,
      "step": 74
    },
    {
      "epoch": 0.001119904434821562,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0016253153483072917,
      "learning_rate": 2e-05,
      "loss": 1.2234,
      "loss/crossentropy": 2.5081839561462402,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15304957330226898,
      "step": 75
    },
    {
      "epoch": 0.001134836493952516,
      "grad_norm": 0.6796875,
      "grad_norm_var": 0.002080217997233073,
      "learning_rate": 2e-05,
      "loss": 1.3845,
      "loss/crossentropy": 2.4124844074249268,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.18140918016433716,
      "step": 76
    },
    {
      "epoch": 0.0011497685530834703,
      "grad_norm": 0.87109375,
      "grad_norm_var": 0.006712849934895833,
      "learning_rate": 2e-05,
      "loss": 1.4476,
      "loss/crossentropy": 2.6826772689819336,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.22889642417430878,
      "step": 77
    },
    {
      "epoch": 0.0011647006122144244,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.0067626317342122395,
      "learning_rate": 2e-05,
      "loss": 1.5034,
      "loss/crossentropy": 2.1851906776428223,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3125,
      "loss/idx": 12.0,
      "loss/logits": 0.19086772203445435,
      "step": 78
    },
    {
      "epoch": 0.0011796326713453785,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.00676720937093099,
      "learning_rate": 2e-05,
      "loss": 1.1937,
      "loss/crossentropy": 2.655413866043091,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1467989981174469,
      "step": 79
    },
    {
      "epoch": 0.0011945647304763326,
      "grad_norm": 0.64453125,
      "grad_norm_var": 0.006690470377604166,
      "learning_rate": 2e-05,
      "loss": 1.3068,
      "loss/crossentropy": 2.6873862743377686,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.18183887004852295,
      "step": 80
    },
    {
      "epoch": 0.001209496789607287,
      "grad_norm": 0.65625,
      "grad_norm_var": 0.006758371988932292,
      "learning_rate": 2e-05,
      "loss": 1.334,
      "loss/crossentropy": 2.697080373764038,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.19333507120609283,
      "step": 81
    },
    {
      "epoch": 0.001224428848738241,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.007358741760253906,
      "learning_rate": 2e-05,
      "loss": 1.19,
      "loss/crossentropy": 2.5790112018585205,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.14316534996032715,
      "step": 82
    },
    {
      "epoch": 0.001239360907869195,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.007433509826660157,
      "learning_rate": 2e-05,
      "loss": 1.2365,
      "loss/crossentropy": 2.552305221557617,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.15837864577770233,
      "step": 83
    },
    {
      "epoch": 0.0012542929670001494,
      "grad_norm": 0.7421875,
      "grad_norm_var": 0.008379046122233074,
      "learning_rate": 2e-05,
      "loss": 1.5673,
      "loss/crossentropy": 2.189481019973755,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3515625,
      "loss/idx": 12.0,
      "loss/logits": 0.21574443578720093,
      "step": 84
    },
    {
      "epoch": 0.0012692250261311035,
      "grad_norm": 0.72265625,
      "grad_norm_var": 0.008755938212076823,
      "learning_rate": 2e-05,
      "loss": 1.4194,
      "loss/crossentropy": 2.523226261138916,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.20060396194458008,
      "step": 85
    },
    {
      "epoch": 0.0012841570852620576,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.008404986063639323,
      "learning_rate": 2e-05,
      "loss": 1.3345,
      "loss/crossentropy": 2.6093485355377197,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.1860586702823639,
      "step": 86
    },
    {
      "epoch": 0.0012990891443930119,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.008847808837890625,
      "learning_rate": 2e-05,
      "loss": 1.2861,
      "loss/crossentropy": 2.5548102855682373,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17671170830726624,
      "step": 87
    },
    {
      "epoch": 0.001314021203523966,
      "grad_norm": 1.2265625,
      "grad_norm_var": 0.030658976236979166,
      "learning_rate": 2e-05,
      "loss": 1.7591,
      "loss/crossentropy": 2.089616298675537,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.5,
      "loss/idx": 12.0,
      "loss/logits": 0.259127676486969,
      "step": 88
    },
    {
      "epoch": 0.00132895326265492,
      "grad_norm": 0.6484375,
      "grad_norm_var": 0.030211385091145834,
      "learning_rate": 2e-05,
      "loss": 1.3975,
      "loss/crossentropy": 2.563173770904541,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.19433674216270447,
      "step": 89
    },
    {
      "epoch": 0.0013438853217858744,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.029572486877441406,
      "learning_rate": 2e-05,
      "loss": 1.4763,
      "loss/crossentropy": 2.6154820919036865,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.23407219350337982,
      "step": 90
    },
    {
      "epoch": 0.0013588173809168285,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.02890313466389974,
      "learning_rate": 2e-05,
      "loss": 1.4736,
      "loss/crossentropy": 2.460665225982666,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 12.0,
      "loss/logits": 0.2470313310623169,
      "step": 91
    },
    {
      "epoch": 0.0013737494400477826,
      "grad_norm": 0.65625,
      "grad_norm_var": 0.02893822987874349,
      "learning_rate": 2e-05,
      "loss": 1.2087,
      "loss/crossentropy": 2.815687417984009,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.1540374755859375,
      "step": 92
    },
    {
      "epoch": 0.0013886814991787367,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.027428181966145833,
      "learning_rate": 2e-05,
      "loss": 1.2891,
      "loss/crossentropy": 2.7470219135284424,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17968374490737915,
      "step": 93
    },
    {
      "epoch": 0.001403613558309691,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.02825819651285807,
      "learning_rate": 2e-05,
      "loss": 1.178,
      "loss/crossentropy": 2.582261562347412,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.15451796352863312,
      "step": 94
    },
    {
      "epoch": 0.001418545617440645,
      "grad_norm": 0.9609375,
      "grad_norm_var": 0.03410746256510417,
      "learning_rate": 2e-05,
      "loss": 1.6059,
      "loss/crossentropy": 2.5164883136749268,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.359375,
      "loss/idx": 12.0,
      "loss/logits": 0.24653397500514984,
      "step": 95
    },
    {
      "epoch": 0.0014334776765715992,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.03559919993082682,
      "learning_rate": 2e-05,
      "loss": 1.1938,
      "loss/crossentropy": 2.423619031906128,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.154771625995636,
      "step": 96
    },
    {
      "epoch": 0.0014484097357025535,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.03628107706705729,
      "learning_rate": 2e-05,
      "loss": 1.2842,
      "loss/crossentropy": 2.7245681285858154,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17486220598220825,
      "step": 97
    },
    {
      "epoch": 0.0014633417948335076,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.036423746744791666,
      "learning_rate": 2e-05,
      "loss": 1.2278,
      "loss/crossentropy": 2.596822500228882,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15747135877609253,
      "step": 98
    },
    {
      "epoch": 0.0014782738539644616,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.035853068033854164,
      "learning_rate": 2e-05,
      "loss": 1.3496,
      "loss/crossentropy": 2.319052219390869,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.20119673013687134,
      "step": 99
    },
    {
      "epoch": 0.001493205913095416,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.036622047424316406,
      "learning_rate": 2e-05,
      "loss": 1.2263,
      "loss/crossentropy": 2.8021628856658936,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15594205260276794,
      "step": 100
    },
    {
      "epoch": 0.00150813797222637,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.03652540842692057,
      "learning_rate": 2e-05,
      "loss": 1.3127,
      "loss/crossentropy": 2.776284694671631,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1876915991306305,
      "step": 101
    },
    {
      "epoch": 0.0015230700313573241,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.03692423502604167,
      "learning_rate": 2e-05,
      "loss": 1.2802,
      "loss/crossentropy": 2.548290967941284,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17086531221866608,
      "step": 102
    },
    {
      "epoch": 0.0015380020904882782,
      "grad_norm": 0.96484375,
      "grad_norm_var": 0.04293257395426432,
      "learning_rate": 2e-05,
      "loss": 1.6039,
      "loss/crossentropy": 2.2254953384399414,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.359375,
      "loss/idx": 12.0,
      "loss/logits": 0.24454209208488464,
      "step": 103
    },
    {
      "epoch": 0.0015529341496192325,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.020662371317545572,
      "learning_rate": 2e-05,
      "loss": 1.1787,
      "loss/crossentropy": 2.4688055515289307,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.14745503664016724,
      "step": 104
    },
    {
      "epoch": 0.0015678662087501866,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.020929400126139322,
      "learning_rate": 2e-05,
      "loss": 1.3059,
      "loss/crossentropy": 2.3868861198425293,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17307642102241516,
      "step": 105
    },
    {
      "epoch": 0.0015827982678811407,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.02116877237955729,
      "learning_rate": 2e-05,
      "loss": 1.2415,
      "loss/crossentropy": 2.660839319229126,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.17113830149173737,
      "step": 106
    },
    {
      "epoch": 0.001597730327012095,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.021277872721354167,
      "learning_rate": 2e-05,
      "loss": 1.3782,
      "loss/crossentropy": 2.385211944580078,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.19073891639709473,
      "step": 107
    },
    {
      "epoch": 0.0016126623861430491,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.021129290262858074,
      "learning_rate": 2e-05,
      "loss": 1.2911,
      "loss/crossentropy": 2.6263484954833984,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.18175816535949707,
      "step": 108
    },
    {
      "epoch": 0.0016275944452740032,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.020806630452473957,
      "learning_rate": 2e-05,
      "loss": 1.3712,
      "loss/crossentropy": 2.2086172103881836,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.17591926455497742,
      "step": 109
    },
    {
      "epoch": 0.0016425265044049575,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.020806630452473957,
      "learning_rate": 2e-05,
      "loss": 1.2894,
      "loss/crossentropy": 2.563765048980713,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1721740961074829,
      "step": 110
    },
    {
      "epoch": 0.0016574585635359116,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.011944325764973958,
      "learning_rate": 2e-05,
      "loss": 1.2239,
      "loss/crossentropy": 2.4681785106658936,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16138719022274017,
      "step": 111
    },
    {
      "epoch": 0.0016723906226668657,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.011643918355305989,
      "learning_rate": 2e-05,
      "loss": 1.3192,
      "loss/crossentropy": 2.641052484512329,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.17078858613967896,
      "step": 112
    },
    {
      "epoch": 0.00168732268179782,
      "grad_norm": 0.6640625,
      "grad_norm_var": 0.011889394124348958,
      "learning_rate": 2e-05,
      "loss": 1.4469,
      "loss/crossentropy": 2.031921863555908,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 12.0,
      "loss/logits": 0.21249458193778992,
      "step": 113
    },
    {
      "epoch": 0.0017022547409287741,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.01141808827718099,
      "learning_rate": 2e-05,
      "loss": 1.3311,
      "loss/crossentropy": 2.430854082107544,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.1826540231704712,
      "step": 114
    },
    {
      "epoch": 0.0017171868000597282,
      "grad_norm": 0.671875,
      "grad_norm_var": 0.011702473958333333,
      "learning_rate": 2e-05,
      "loss": 1.267,
      "loss/crossentropy": 2.7262022495269775,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.17326927185058594,
      "step": 115
    },
    {
      "epoch": 0.0017321188591906823,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.011169370015462239,
      "learning_rate": 2e-05,
      "loss": 1.1959,
      "loss/crossentropy": 2.7001309394836426,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.1568140983581543,
      "step": 116
    },
    {
      "epoch": 0.0017470509183216366,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.01134332021077474,
      "learning_rate": 2e-05,
      "loss": 1.273,
      "loss/crossentropy": 2.252134323120117,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.1714470088481903,
      "step": 117
    },
    {
      "epoch": 0.0017619829774525907,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.010945638020833334,
      "learning_rate": 2e-05,
      "loss": 1.2842,
      "loss/crossentropy": 2.4008445739746094,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17484425008296967,
      "step": 118
    },
    {
      "epoch": 0.0017769150365835448,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.0021565755208333335,
      "learning_rate": 2e-05,
      "loss": 1.3173,
      "loss/crossentropy": 2.561591863632202,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.18449710309505463,
      "step": 119
    },
    {
      "epoch": 0.001791847095714499,
      "grad_norm": 0.78125,
      "grad_norm_var": 0.0040280659993489586,
      "learning_rate": 2e-05,
      "loss": 1.4499,
      "loss/crossentropy": 2.298919677734375,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2578125,
      "loss/idx": 12.0,
      "loss/logits": 0.19211535155773163,
      "step": 120
    },
    {
      "epoch": 0.0018067791548454532,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.0037200291951497394,
      "learning_rate": 2e-05,
      "loss": 1.3325,
      "loss/crossentropy": 2.5992934703826904,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.19187986850738525,
      "step": 121
    },
    {
      "epoch": 0.0018217112139764073,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.003907267252604167,
      "learning_rate": 2e-05,
      "loss": 1.2822,
      "loss/crossentropy": 2.6393258571624756,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17281374335289001,
      "step": 122
    },
    {
      "epoch": 0.0018366432731073616,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.003956858317057292,
      "learning_rate": 2e-05,
      "loss": 1.5573,
      "loss/crossentropy": 2.521825075149536,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.296875,
      "loss/idx": 12.0,
      "loss/logits": 0.26045745611190796,
      "step": 123
    },
    {
      "epoch": 0.0018515753322383157,
      "grad_norm": 0.625,
      "grad_norm_var": 0.00391839345296224,
      "learning_rate": 2e-05,
      "loss": 1.4125,
      "loss/crossentropy": 2.404489278793335,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 12.0,
      "loss/logits": 0.2015247493982315,
      "step": 124
    },
    {
      "epoch": 0.0018665073913692698,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.004149373372395833,
      "learning_rate": 2e-05,
      "loss": 1.3093,
      "loss/crossentropy": 2.4341983795166016,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.16871654987335205,
      "step": 125
    },
    {
      "epoch": 0.001881439450500224,
      "grad_norm": 0.71484375,
      "grad_norm_var": 0.00450127919514974,
      "learning_rate": 2e-05,
      "loss": 1.4935,
      "loss/crossentropy": 2.46096134185791,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.28125,
      "loss/idx": 12.0,
      "loss/logits": 0.2122688889503479,
      "step": 126
    },
    {
      "epoch": 0.0018963715096311782,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.00521081288655599,
      "learning_rate": 2e-05,
      "loss": 1.1707,
      "loss/crossentropy": 2.6259350776672363,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.13940490782260895,
      "step": 127
    },
    {
      "epoch": 0.0019113035687621323,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.005224545796712239,
      "learning_rate": 2e-05,
      "loss": 1.3569,
      "loss/crossentropy": 2.5117621421813965,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.19283828139305115,
      "step": 128
    },
    {
      "epoch": 0.0019262356278930864,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.005397478739420573,
      "learning_rate": 2e-05,
      "loss": 1.3103,
      "loss/crossentropy": 2.7031896114349365,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.1774989813566208,
      "step": 129
    },
    {
      "epoch": 0.0019411676870240407,
      "grad_norm": 0.63671875,
      "grad_norm_var": 0.005463600158691406,
      "learning_rate": 2e-05,
      "loss": 1.2254,
      "loss/crossentropy": 2.3635990619659424,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14724132418632507,
      "step": 130
    },
    {
      "epoch": 0.0019560997461549948,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.005653889973958334,
      "learning_rate": 2e-05,
      "loss": 1.2139,
      "loss/crossentropy": 2.5982468128204346,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15138475596904755,
      "step": 131
    },
    {
      "epoch": 0.001971031805285949,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0057021458943684895,
      "learning_rate": 2e-05,
      "loss": 1.2847,
      "loss/crossentropy": 2.7570533752441406,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1674671769142151,
      "step": 132
    },
    {
      "epoch": 0.001985963864416903,
      "grad_norm": 0.66796875,
      "grad_norm_var": 0.005812009175618489,
      "learning_rate": 2e-05,
      "loss": 1.362,
      "loss/crossentropy": 2.513373374938965,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.1745297610759735,
      "step": 133
    },
    {
      "epoch": 0.002000895923547857,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.0058197021484375,
      "learning_rate": 2e-05,
      "loss": 1.2976,
      "loss/crossentropy": 2.5316669940948486,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1726335734128952,
      "step": 134
    },
    {
      "epoch": 0.0020158279826788116,
      "grad_norm": 0.63671875,
      "grad_norm_var": 0.005877685546875,
      "learning_rate": 2e-05,
      "loss": 1.395,
      "loss/crossentropy": 2.557969331741333,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.19964131712913513,
      "step": 135
    },
    {
      "epoch": 0.0020307600418097657,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.004100990295410156,
      "learning_rate": 2e-05,
      "loss": 1.216,
      "loss/crossentropy": 2.6619279384613037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.14569371938705444,
      "step": 136
    },
    {
      "epoch": 0.0020456921009407198,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.00416711171468099,
      "learning_rate": 2e-05,
      "loss": 1.2596,
      "loss/crossentropy": 2.415104389190674,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.1580391526222229,
      "step": 137
    },
    {
      "epoch": 0.002060624160071674,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.003918202718098959,
      "learning_rate": 2e-05,
      "loss": 1.4596,
      "loss/crossentropy": 2.653369903564453,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 12.0,
      "loss/logits": 0.2330111861228943,
      "step": 138
    },
    {
      "epoch": 0.002075556219202628,
      "grad_norm": 0.8984375,
      "grad_norm_var": 0.009250831604003907,
      "learning_rate": 2e-05,
      "loss": 1.4266,
      "loss/crossentropy": 2.440645694732666,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.2078884392976761,
      "step": 139
    },
    {
      "epoch": 0.002090488278333582,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.009299468994140626,
      "learning_rate": 2e-05,
      "loss": 1.2998,
      "loss/crossentropy": 2.5413432121276855,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1748320460319519,
      "step": 140
    },
    {
      "epoch": 0.0021054203374645366,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.008953857421875,
      "learning_rate": 2e-05,
      "loss": 1.4042,
      "loss/crossentropy": 2.618962287902832,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.20887598395347595,
      "step": 141
    },
    {
      "epoch": 0.0021203523965954907,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.008452796936035156,
      "learning_rate": 2e-05,
      "loss": 1.2957,
      "loss/crossentropy": 2.5938720703125,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17847199738025665,
      "step": 142
    },
    {
      "epoch": 0.0021352844557264447,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.007852935791015625,
      "learning_rate": 2e-05,
      "loss": 1.2851,
      "loss/crossentropy": 2.5696861743927,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.167904332280159,
      "step": 143
    },
    {
      "epoch": 0.002150216514857399,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.008208656311035156,
      "learning_rate": 2e-05,
      "loss": 1.294,
      "loss/crossentropy": 2.61997389793396,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17682784795761108,
      "step": 144
    },
    {
      "epoch": 0.002165148573988353,
      "grad_norm": 0.91796875,
      "grad_norm_var": 0.013388824462890626,
      "learning_rate": 2e-05,
      "loss": 1.4053,
      "loss/crossentropy": 2.3499011993408203,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.18656103312969208,
      "step": 145
    },
    {
      "epoch": 0.002180080633119307,
      "grad_norm": 0.69921875,
      "grad_norm_var": 0.013637034098307292,
      "learning_rate": 2e-05,
      "loss": 1.4045,
      "loss/crossentropy": 2.7330119609832764,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.21699491143226624,
      "step": 146
    },
    {
      "epoch": 0.002195012692250261,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.01292870839436849,
      "learning_rate": 2e-05,
      "loss": 1.2919,
      "loss/crossentropy": 2.430858612060547,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16690674424171448,
      "step": 147
    },
    {
      "epoch": 0.0022099447513812156,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0132843017578125,
      "learning_rate": 2e-05,
      "loss": 1.2364,
      "loss/crossentropy": 2.6031928062438965,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1582430899143219,
      "step": 148
    },
    {
      "epoch": 0.0022248768105121697,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0136474609375,
      "learning_rate": 2e-05,
      "loss": 1.2916,
      "loss/crossentropy": 2.755666494369507,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17443333566188812,
      "step": 149
    },
    {
      "epoch": 0.002239808869643124,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.013544146219889324,
      "learning_rate": 2e-05,
      "loss": 1.3718,
      "loss/crossentropy": 2.467615842819214,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.18433909118175507,
      "step": 150
    },
    {
      "epoch": 0.002254740928774078,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.014130655924479167,
      "learning_rate": 2e-05,
      "loss": 1.2852,
      "loss/crossentropy": 2.555243730545044,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17583933472633362,
      "step": 151
    },
    {
      "epoch": 0.002269672987905032,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.013986651102701824,
      "learning_rate": 2e-05,
      "loss": 1.3463,
      "loss/crossentropy": 2.4775476455688477,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.19002023339271545,
      "step": 152
    },
    {
      "epoch": 0.002284605047035986,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.014166259765625,
      "learning_rate": 2e-05,
      "loss": 1.2389,
      "loss/crossentropy": 2.747436761856079,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.14515338838100433,
      "step": 153
    },
    {
      "epoch": 0.0022995371061669406,
      "grad_norm": 0.625,
      "grad_norm_var": 0.014148966471354166,
      "learning_rate": 2e-05,
      "loss": 1.3508,
      "loss/crossentropy": 2.550513505935669,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.20233154296875,
      "step": 154
    },
    {
      "epoch": 0.0023144691652978947,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.008794911702473958,
      "learning_rate": 2e-05,
      "loss": 1.3803,
      "loss/crossentropy": 2.761523723602295,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.19279026985168457,
      "step": 155
    },
    {
      "epoch": 0.002329401224428849,
      "grad_norm": 0.625,
      "grad_norm_var": 0.008796628316243489,
      "learning_rate": 2e-05,
      "loss": 1.3714,
      "loss/crossentropy": 2.6067566871643066,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.22298991680145264,
      "step": 156
    },
    {
      "epoch": 0.002344333283559803,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.00970927874247233,
      "learning_rate": 2e-05,
      "loss": 1.166,
      "loss/crossentropy": 2.559112548828125,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.1503329873085022,
      "step": 157
    },
    {
      "epoch": 0.002359265342690757,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.009786335627237956,
      "learning_rate": 2e-05,
      "loss": 1.2461,
      "loss/crossentropy": 2.5379300117492676,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16015547513961792,
      "step": 158
    },
    {
      "epoch": 0.002374197401821711,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.009824101130167644,
      "learning_rate": 2e-05,
      "loss": 1.3303,
      "loss/crossentropy": 2.4808268547058105,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.1740918755531311,
      "step": 159
    },
    {
      "epoch": 0.002389129460952665,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.01053314208984375,
      "learning_rate": 2e-05,
      "loss": 1.1762,
      "loss/crossentropy": 2.506295919418335,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.15280288457870483,
      "step": 160
    },
    {
      "epoch": 0.0024040615200836197,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0031035741170247397,
      "learning_rate": 2e-05,
      "loss": 1.2835,
      "loss/crossentropy": 2.7988052368164062,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17412468791007996,
      "step": 161
    },
    {
      "epoch": 0.002418993579214574,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.001976458231608073,
      "learning_rate": 2e-05,
      "loss": 1.3794,
      "loss/crossentropy": 2.4478092193603516,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.19193212687969208,
      "step": 162
    },
    {
      "epoch": 0.002433925638345528,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0020662943522135415,
      "learning_rate": 2e-05,
      "loss": 1.2295,
      "loss/crossentropy": 2.6355202198028564,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.1592077910900116,
      "step": 163
    },
    {
      "epoch": 0.002448857697476482,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0021031697591145835,
      "learning_rate": 2e-05,
      "loss": 1.2719,
      "loss/crossentropy": 2.6865055561065674,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17034964263439178,
      "step": 164
    },
    {
      "epoch": 0.002463789756607436,
      "grad_norm": 0.625,
      "grad_norm_var": 0.002344195048014323,
      "learning_rate": 2e-05,
      "loss": 1.4733,
      "loss/crossentropy": 2.4416587352752686,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.23110373318195343,
      "step": 165
    },
    {
      "epoch": 0.00247872181573839,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0022371927897135418,
      "learning_rate": 2e-05,
      "loss": 1.4188,
      "loss/crossentropy": 2.4493439197540283,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.20008787512779236,
      "step": 166
    },
    {
      "epoch": 0.0024936538748693447,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.002206865946451823,
      "learning_rate": 2e-05,
      "loss": 1.2253,
      "loss/crossentropy": 2.712056875228882,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16277046501636505,
      "step": 167
    },
    {
      "epoch": 0.002508585934000299,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.002206865946451823,
      "learning_rate": 2e-05,
      "loss": 1.4075,
      "loss/crossentropy": 2.426335096359253,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.21219667792320251,
      "step": 168
    },
    {
      "epoch": 0.002523517993131253,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.0022094090779622394,
      "learning_rate": 2e-05,
      "loss": 1.4624,
      "loss/crossentropy": 2.7482047080993652,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 12.0,
      "loss/logits": 0.22799468040466309,
      "step": 169
    },
    {
      "epoch": 0.002538450052262207,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0019810994466145835,
      "learning_rate": 2e-05,
      "loss": 1.2488,
      "loss/crossentropy": 2.6758551597595215,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16287586092948914,
      "step": 170
    },
    {
      "epoch": 0.002553382111393161,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0018254597981770834,
      "learning_rate": 2e-05,
      "loss": 1.2867,
      "loss/crossentropy": 2.5498204231262207,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17730045318603516,
      "step": 171
    },
    {
      "epoch": 0.002568314170524115,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.001546160380045573,
      "learning_rate": 2e-05,
      "loss": 1.2392,
      "loss/crossentropy": 2.717747926712036,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16104069352149963,
      "step": 172
    },
    {
      "epoch": 0.0025832462296550692,
      "grad_norm": 0.78515625,
      "grad_norm_var": 0.004432789484659831,
      "learning_rate": 2e-05,
      "loss": 1.3913,
      "loss/crossentropy": 2.50931715965271,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.18817588686943054,
      "step": 173
    },
    {
      "epoch": 0.0025981782887860238,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0045685927073160805,
      "learning_rate": 2e-05,
      "loss": 1.2485,
      "loss/crossentropy": 2.446424961090088,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16260743141174316,
      "step": 174
    },
    {
      "epoch": 0.002613110347916978,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.00457927385965983,
      "learning_rate": 2e-05,
      "loss": 1.4057,
      "loss/crossentropy": 2.4681448936462402,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.20260846614837646,
      "step": 175
    },
    {
      "epoch": 0.002628042407047932,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.003986040751139323,
      "learning_rate": 2e-05,
      "loss": 1.2474,
      "loss/crossentropy": 2.8297557830810547,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1614263653755188,
      "step": 176
    },
    {
      "epoch": 0.002642974466178886,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0040283203125,
      "learning_rate": 2e-05,
      "loss": 1.1839,
      "loss/crossentropy": 2.594815731048584,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.1526121199131012,
      "step": 177
    },
    {
      "epoch": 0.00265790652530984,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.004229482014973958,
      "learning_rate": 2e-05,
      "loss": 1.3533,
      "loss/crossentropy": 2.3881778717041016,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.20487645268440247,
      "step": 178
    },
    {
      "epoch": 0.0026728385844407942,
      "grad_norm": 0.5,
      "grad_norm_var": 0.00444176991780599,
      "learning_rate": 2e-05,
      "loss": 1.1749,
      "loss/crossentropy": 2.5949110984802246,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.15150848031044006,
      "step": 179
    },
    {
      "epoch": 0.0026877706435717488,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.004284413655598959,
      "learning_rate": 2e-05,
      "loss": 1.2842,
      "loss/crossentropy": 2.8450071811676025,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.16698706150054932,
      "step": 180
    },
    {
      "epoch": 0.002702702702702703,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.004535865783691406,
      "learning_rate": 2e-05,
      "loss": 1.2074,
      "loss/crossentropy": 2.5095417499542236,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1605302095413208,
      "step": 181
    },
    {
      "epoch": 0.002717634761833657,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.004612159729003906,
      "learning_rate": 2e-05,
      "loss": 1.359,
      "loss/crossentropy": 2.6669504642486572,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.20277641713619232,
      "step": 182
    },
    {
      "epoch": 0.002732566820964611,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0045928955078125,
      "learning_rate": 2e-05,
      "loss": 1.1927,
      "loss/crossentropy": 2.5329155921936035,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.14582672715187073,
      "step": 183
    },
    {
      "epoch": 0.002747498880095565,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.004430071512858073,
      "learning_rate": 2e-05,
      "loss": 1.354,
      "loss/crossentropy": 2.6010122299194336,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.19775637984275818,
      "step": 184
    },
    {
      "epoch": 0.0027624309392265192,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0044024149576822914,
      "learning_rate": 2e-05,
      "loss": 1.3048,
      "loss/crossentropy": 2.39243483543396,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.17982321977615356,
      "step": 185
    },
    {
      "epoch": 0.0027773629983574733,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.004546038309733073,
      "learning_rate": 2e-05,
      "loss": 1.2813,
      "loss/crossentropy": 2.5203473567962646,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.16413094103336334,
      "step": 186
    },
    {
      "epoch": 0.002792295057488428,
      "grad_norm": 0.68359375,
      "grad_norm_var": 0.0054585774739583336,
      "learning_rate": 2e-05,
      "loss": 1.5839,
      "loss/crossentropy": 2.391411542892456,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.328125,
      "loss/idx": 12.0,
      "loss/logits": 0.2557827830314636,
      "step": 187
    },
    {
      "epoch": 0.002807227116619382,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.00547784169514974,
      "learning_rate": 2e-05,
      "loss": 1.2742,
      "loss/crossentropy": 2.7311580181121826,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17259860038757324,
      "step": 188
    },
    {
      "epoch": 0.002822159175750336,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0021982192993164062,
      "learning_rate": 2e-05,
      "loss": 1.2556,
      "loss/crossentropy": 2.5843493938446045,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16964314877986908,
      "step": 189
    },
    {
      "epoch": 0.00283709123488129,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.002147865295410156,
      "learning_rate": 2e-05,
      "loss": 1.2337,
      "loss/crossentropy": 2.5467610359191895,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.15552528202533722,
      "step": 190
    },
    {
      "epoch": 0.002852023294012244,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.0021311442057291665,
      "learning_rate": 2e-05,
      "loss": 1.3968,
      "loss/crossentropy": 2.381016492843628,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.19368363916873932,
      "step": 191
    },
    {
      "epoch": 0.0028669553531431983,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.002132606506347656,
      "learning_rate": 2e-05,
      "loss": 1.257,
      "loss/crossentropy": 2.8202872276306152,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1710858792066574,
      "step": 192
    },
    {
      "epoch": 0.0028818874122741524,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.0030318578084309895,
      "learning_rate": 2e-05,
      "loss": 1.4907,
      "loss/crossentropy": 2.774198055267334,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.25,
      "loss/idx": 12.0,
      "loss/logits": 0.24069786071777344,
      "step": 193
    },
    {
      "epoch": 0.002896819471405107,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.0029744466145833334,
      "learning_rate": 2e-05,
      "loss": 1.2802,
      "loss/crossentropy": 2.622847557067871,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17865772545337677,
      "step": 194
    },
    {
      "epoch": 0.002911751530536061,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0028472900390625,
      "learning_rate": 2e-05,
      "loss": 1.1273,
      "loss/crossentropy": 2.44476056098938,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9921875,
      "loss/idx": 12.0,
      "loss/logits": 0.13513167202472687,
      "step": 195
    },
    {
      "epoch": 0.002926683589667015,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.002904192606608073,
      "learning_rate": 2e-05,
      "loss": 1.4153,
      "loss/crossentropy": 2.6610636711120605,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.21217352151870728,
      "step": 196
    },
    {
      "epoch": 0.002941615648797969,
      "grad_norm": 0.6640625,
      "grad_norm_var": 0.002907053629557292,
      "learning_rate": 2e-05,
      "loss": 1.48,
      "loss/crossentropy": 2.434468984603882,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.28125,
      "loss/idx": 12.0,
      "loss/logits": 0.19873744249343872,
      "step": 197
    },
    {
      "epoch": 0.0029565477079289233,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0031717300415039064,
      "learning_rate": 2e-05,
      "loss": 1.2033,
      "loss/crossentropy": 2.4664409160614014,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.1642196774482727,
      "step": 198
    },
    {
      "epoch": 0.0029714797670598774,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.0031695048014322917,
      "learning_rate": 2e-05,
      "loss": 1.3863,
      "loss/crossentropy": 2.6245970726013184,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17531853914260864,
      "step": 199
    },
    {
      "epoch": 0.002986411826190832,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0032225926717122395,
      "learning_rate": 2e-05,
      "loss": 1.2205,
      "loss/crossentropy": 2.24330735206604,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.13458162546157837,
      "step": 200
    },
    {
      "epoch": 0.003001343885321786,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0032882054646809896,
      "learning_rate": 2e-05,
      "loss": 1.2716,
      "loss/crossentropy": 2.551177978515625,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.17783880233764648,
      "step": 201
    },
    {
      "epoch": 0.00301627594445274,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0031575520833333334,
      "learning_rate": 2e-05,
      "loss": 1.1211,
      "loss/crossentropy": 2.748706102371216,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.984375,
      "loss/idx": 12.0,
      "loss/logits": 0.13667932152748108,
      "step": 202
    },
    {
      "epoch": 0.003031208003583694,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.002357737223307292,
      "learning_rate": 2e-05,
      "loss": 1.2637,
      "loss/crossentropy": 2.560105800628662,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.15430858731269836,
      "step": 203
    },
    {
      "epoch": 0.0030461400627146483,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.002357737223307292,
      "learning_rate": 2e-05,
      "loss": 1.2106,
      "loss/crossentropy": 2.519240140914917,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15595705807209015,
      "step": 204
    },
    {
      "epoch": 0.0030610721218456024,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.002316729227701823,
      "learning_rate": 2e-05,
      "loss": 1.2509,
      "loss/crossentropy": 2.8139536380767822,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1649806946516037,
      "step": 205
    },
    {
      "epoch": 0.0030760041809765565,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.002394549051920573,
      "learning_rate": 2e-05,
      "loss": 1.2708,
      "loss/crossentropy": 2.5938565731048584,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16919182240962982,
      "step": 206
    },
    {
      "epoch": 0.003090936240107511,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0024169286092122397,
      "learning_rate": 2e-05,
      "loss": 1.3906,
      "loss/crossentropy": 2.7333359718322754,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.20309199392795563,
      "step": 207
    },
    {
      "epoch": 0.003105868299238465,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0023976643880208332,
      "learning_rate": 2e-05,
      "loss": 1.2733,
      "loss/crossentropy": 2.491389513015747,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.17951218783855438,
      "step": 208
    },
    {
      "epoch": 0.003120800358369419,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0015927632649739584,
      "learning_rate": 2e-05,
      "loss": 1.2968,
      "loss/crossentropy": 2.423560380935669,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.17177289724349976,
      "step": 209
    },
    {
      "epoch": 0.0031357324175003733,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0015181859334309896,
      "learning_rate": 2e-05,
      "loss": 1.2264,
      "loss/crossentropy": 2.598179817199707,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15610140562057495,
      "step": 210
    },
    {
      "epoch": 0.0031506644766313274,
      "grad_norm": 0.8828125,
      "grad_norm_var": 0.007877031962076822,
      "learning_rate": 2e-05,
      "loss": 1.3882,
      "loss/crossentropy": 2.521733045578003,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.2007344365119934,
      "step": 211
    },
    {
      "epoch": 0.0031655965357622814,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.00786431630452474,
      "learning_rate": 2e-05,
      "loss": 1.2254,
      "loss/crossentropy": 2.67375111579895,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16288092732429504,
      "step": 212
    },
    {
      "epoch": 0.003180528594893236,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.007344563802083333,
      "learning_rate": 2e-05,
      "loss": 1.2893,
      "loss/crossentropy": 2.398942470550537,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17206481099128723,
      "step": 213
    },
    {
      "epoch": 0.00319546065402419,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0070841471354166664,
      "learning_rate": 2e-05,
      "loss": 1.2304,
      "loss/crossentropy": 2.648841142654419,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16006574034690857,
      "step": 214
    },
    {
      "epoch": 0.003210392713155144,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.007127888997395833,
      "learning_rate": 2e-05,
      "loss": 1.3215,
      "loss/crossentropy": 2.5586395263671875,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18091149628162384,
      "step": 215
    },
    {
      "epoch": 0.0032253247722860983,
      "grad_norm": 0.828125,
      "grad_norm_var": 0.010936482747395834,
      "learning_rate": 2e-05,
      "loss": 1.4868,
      "loss/crossentropy": 2.3754496574401855,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.28125,
      "loss/idx": 12.0,
      "loss/logits": 0.20558351278305054,
      "step": 216
    },
    {
      "epoch": 0.0032402568314170523,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0107818603515625,
      "learning_rate": 2e-05,
      "loss": 1.2598,
      "loss/crossentropy": 2.624929189682007,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.15819445252418518,
      "step": 217
    },
    {
      "epoch": 0.0032551888905480064,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.010623931884765625,
      "learning_rate": 2e-05,
      "loss": 1.3027,
      "loss/crossentropy": 2.589963674545288,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.16989606618881226,
      "step": 218
    },
    {
      "epoch": 0.0032701209496789605,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.010487620035807292,
      "learning_rate": 2e-05,
      "loss": 1.3079,
      "loss/crossentropy": 2.4396564960479736,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17511269450187683,
      "step": 219
    },
    {
      "epoch": 0.003285053008809915,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.010158030192057292,
      "learning_rate": 2e-05,
      "loss": 1.3446,
      "loss/crossentropy": 2.4202687740325928,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.1805376559495926,
      "step": 220
    },
    {
      "epoch": 0.003299985067940869,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.010469563802083333,
      "learning_rate": 2e-05,
      "loss": 1.1811,
      "loss/crossentropy": 2.558259963989258,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.14983907341957092,
      "step": 221
    },
    {
      "epoch": 0.0033149171270718232,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.010469563802083333,
      "learning_rate": 2e-05,
      "loss": 1.2646,
      "loss/crossentropy": 2.6712141036987305,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.1708478480577469,
      "step": 222
    },
    {
      "epoch": 0.0033298491862027773,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.01097558339436849,
      "learning_rate": 2e-05,
      "loss": 1.2885,
      "loss/crossentropy": 2.7163174152374268,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17126557230949402,
      "step": 223
    },
    {
      "epoch": 0.0033447812453337314,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.010944048563639322,
      "learning_rate": 2e-05,
      "loss": 1.2871,
      "loss/crossentropy": 2.553407907485962,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1699165552854538,
      "step": 224
    },
    {
      "epoch": 0.0033597133044646855,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.011039161682128906,
      "learning_rate": 2e-05,
      "loss": 1.2835,
      "loss/crossentropy": 2.4799208641052246,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.15845397114753723,
      "step": 225
    },
    {
      "epoch": 0.00337464536359564,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.010979652404785156,
      "learning_rate": 2e-05,
      "loss": 1.2787,
      "loss/crossentropy": 2.745670795440674,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16931718587875366,
      "step": 226
    },
    {
      "epoch": 0.003389577422726594,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.0051971435546875,
      "learning_rate": 2e-05,
      "loss": 1.3744,
      "loss/crossentropy": 2.385148286819458,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.21031928062438965,
      "step": 227
    },
    {
      "epoch": 0.0034045094818575482,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.005304400126139323,
      "learning_rate": 2e-05,
      "loss": 1.3196,
      "loss/crossentropy": 2.319401264190674,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.1868358552455902,
      "step": 228
    },
    {
      "epoch": 0.0034194415409885023,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.005299631754557292,
      "learning_rate": 2e-05,
      "loss": 1.3091,
      "loss/crossentropy": 2.3205957412719727,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.16845813393592834,
      "step": 229
    },
    {
      "epoch": 0.0034343736001194564,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.0054094950358072914,
      "learning_rate": 2e-05,
      "loss": 1.4095,
      "loss/crossentropy": 2.571542978286743,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.21414990723133087,
      "step": 230
    },
    {
      "epoch": 0.0034493056592504105,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0053708394368489586,
      "learning_rate": 2e-05,
      "loss": 1.2948,
      "loss/crossentropy": 2.497636556625366,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1775931417942047,
      "step": 231
    },
    {
      "epoch": 0.0034642377183813646,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.0013274510701497396,
      "learning_rate": 2e-05,
      "loss": 1.1676,
      "loss/crossentropy": 2.585477352142334,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.14414075016975403,
      "step": 232
    },
    {
      "epoch": 0.003479169777512319,
      "grad_norm": 0.70703125,
      "grad_norm_var": 0.002710914611816406,
      "learning_rate": 2e-05,
      "loss": 1.3074,
      "loss/crossentropy": 2.792330503463745,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.16680563986301422,
      "step": 233
    },
    {
      "epoch": 0.003494101836643273,
      "grad_norm": 1.015625,
      "grad_norm_var": 0.015274810791015624,
      "learning_rate": 2e-05,
      "loss": 1.3413,
      "loss/crossentropy": 3.3043012619018555,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.1381298005580902,
      "step": 234
    },
    {
      "epoch": 0.0035090338957742273,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.015274810791015624,
      "learning_rate": 2e-05,
      "loss": 1.2644,
      "loss/crossentropy": 2.5281269550323486,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16281655430793762,
      "step": 235
    },
    {
      "epoch": 0.0035239659549051814,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.015500831604003906,
      "learning_rate": 2e-05,
      "loss": 1.2285,
      "loss/crossentropy": 2.3544559478759766,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.1581532061100006,
      "step": 236
    },
    {
      "epoch": 0.0035388980140361355,
      "grad_norm": 1.46875,
      "grad_norm_var": 0.0627664566040039,
      "learning_rate": 2e-05,
      "loss": 1.5838,
      "loss/crossentropy": 2.6616692543029785,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.40625,
      "loss/idx": 12.0,
      "loss/logits": 0.17750610411167145,
      "step": 237
    },
    {
      "epoch": 0.0035538300731670896,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.061882972717285156,
      "learning_rate": 2e-05,
      "loss": 1.4213,
      "loss/crossentropy": 2.2179884910583496,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 12.0,
      "loss/logits": 0.1947222650051117,
      "step": 238
    },
    {
      "epoch": 0.003568762132298044,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.062365150451660155,
      "learning_rate": 2e-05,
      "loss": 1.1698,
      "loss/crossentropy": 2.5931408405303955,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.14633141458034515,
      "step": 239
    },
    {
      "epoch": 0.003583694191428998,
      "grad_norm": 0.80859375,
      "grad_norm_var": 0.06326878865559896,
      "learning_rate": 2e-05,
      "loss": 1.6428,
      "loss/crossentropy": 2.3654534816741943,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.359375,
      "loss/idx": 12.0,
      "loss/logits": 0.28339850902557373,
      "step": 240
    },
    {
      "epoch": 0.0035986262505599523,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.06314188639322917,
      "learning_rate": 2e-05,
      "loss": 1.2658,
      "loss/crossentropy": 2.5046465396881104,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.1720809042453766,
      "step": 241
    },
    {
      "epoch": 0.0036135583096909064,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.06314188639322917,
      "learning_rate": 2e-05,
      "loss": 1.3045,
      "loss/crossentropy": 2.845069646835327,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.17947256565093994,
      "step": 242
    },
    {
      "epoch": 0.0036284903688218605,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0641845703125,
      "learning_rate": 2e-05,
      "loss": 1.2002,
      "loss/crossentropy": 2.601872682571411,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15330010652542114,
      "step": 243
    },
    {
      "epoch": 0.0036434224279528146,
      "grad_norm": 0.7734375,
      "grad_norm_var": 0.06363773345947266,
      "learning_rate": 2e-05,
      "loss": 1.316,
      "loss/crossentropy": 2.63727068901062,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.19103199243545532,
      "step": 244
    },
    {
      "epoch": 0.0036583544870837687,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0644287109375,
      "learning_rate": 2e-05,
      "loss": 1.2223,
      "loss/crossentropy": 2.713804006576538,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.16758683323860168,
      "step": 245
    },
    {
      "epoch": 0.003673286546214723,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.0647623062133789,
      "learning_rate": 2e-05,
      "loss": 1.2487,
      "loss/crossentropy": 2.487891674041748,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.1783592849969864,
      "step": 246
    },
    {
      "epoch": 0.0036882186053456773,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.06517130533854167,
      "learning_rate": 2e-05,
      "loss": 1.2519,
      "loss/crossentropy": 2.4887685775756836,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16592524945735931,
      "step": 247
    },
    {
      "epoch": 0.0037031506644766314,
      "grad_norm": 0.63671875,
      "grad_norm_var": 0.06291478474934896,
      "learning_rate": 2e-05,
      "loss": 1.3709,
      "loss/crossentropy": 2.388550043106079,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.19902655482292175,
      "step": 248
    },
    {
      "epoch": 0.0037180827236075855,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.06446507771809896,
      "learning_rate": 2e-05,
      "loss": 1.1646,
      "loss/crossentropy": 2.6850759983062744,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.14900657534599304,
      "step": 249
    },
    {
      "epoch": 0.0037330147827385396,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.056423886617024736,
      "learning_rate": 2e-05,
      "loss": 1.2667,
      "loss/crossentropy": 2.3784635066986084,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1572844386100769,
      "step": 250
    },
    {
      "epoch": 0.0037479468418694937,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.05622533162434896,
      "learning_rate": 2e-05,
      "loss": 1.3129,
      "loss/crossentropy": 2.604210376739502,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17225471138954163,
      "step": 251
    },
    {
      "epoch": 0.003762878901000448,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.056465403238932295,
      "learning_rate": 2e-05,
      "loss": 1.235,
      "loss/crossentropy": 2.756725549697876,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16468365490436554,
      "step": 252
    },
    {
      "epoch": 0.0037778109601314023,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.008092689514160156,
      "learning_rate": 2e-05,
      "loss": 1.3165,
      "loss/crossentropy": 2.769130229949951,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.183657705783844,
      "step": 253
    },
    {
      "epoch": 0.0037927430192623564,
      "grad_norm": 0.5,
      "grad_norm_var": 0.008510780334472657,
      "learning_rate": 2e-05,
      "loss": 1.2422,
      "loss/crossentropy": 2.54736065864563,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.17974743247032166,
      "step": 254
    },
    {
      "epoch": 0.0038076750783933105,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.008465321858723958,
      "learning_rate": 2e-05,
      "loss": 1.2686,
      "loss/crossentropy": 2.463906764984131,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16703197360038757,
      "step": 255
    },
    {
      "epoch": 0.0038226071375242645,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.0051102797190348305,
      "learning_rate": 2e-05,
      "loss": 1.0878,
      "loss/crossentropy": 2.503507614135742,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.95703125,
      "loss/idx": 12.0,
      "loss/logits": 0.13080117106437683,
      "step": 256
    },
    {
      "epoch": 0.0038375391966552186,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.005276219050089518,
      "learning_rate": 2e-05,
      "loss": 1.3397,
      "loss/crossentropy": 2.539508819580078,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.17561593651771545,
      "step": 257
    },
    {
      "epoch": 0.0038524712557861727,
      "grad_norm": 0.71484375,
      "grad_norm_var": 0.00671690305074056,
      "learning_rate": 2e-05,
      "loss": 1.3383,
      "loss/crossentropy": 2.8462297916412354,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.1976788341999054,
      "step": 258
    },
    {
      "epoch": 0.0038674033149171273,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.006694904963175456,
      "learning_rate": 2e-05,
      "loss": 1.2151,
      "loss/crossentropy": 2.5267205238342285,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15262790024280548,
      "step": 259
    },
    {
      "epoch": 0.0038823353740480814,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.003835026423136393,
      "learning_rate": 2e-05,
      "loss": 1.2916,
      "loss/crossentropy": 2.566385269165039,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17439204454421997,
      "step": 260
    },
    {
      "epoch": 0.0038972674331790354,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0037991682688395183,
      "learning_rate": 2e-05,
      "loss": 1.2338,
      "loss/crossentropy": 2.4941866397857666,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.15566781163215637,
      "step": 261
    },
    {
      "epoch": 0.0039121994923099895,
      "grad_norm": 0.671875,
      "grad_norm_var": 0.004550282160441081,
      "learning_rate": 2e-05,
      "loss": 1.3631,
      "loss/crossentropy": 2.345531702041626,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.17564262449741364,
      "step": 262
    },
    {
      "epoch": 0.003927131551440944,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0047173659006754555,
      "learning_rate": 2e-05,
      "loss": 1.2948,
      "loss/crossentropy": 2.719332695007324,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1697680652141571,
      "step": 263
    },
    {
      "epoch": 0.003942063610571898,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.004503361384073893,
      "learning_rate": 2e-05,
      "loss": 1.2181,
      "loss/crossentropy": 2.4483582973480225,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.1634569764137268,
      "step": 264
    },
    {
      "epoch": 0.003956995669702852,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.004413334528605143,
      "learning_rate": 2e-05,
      "loss": 1.3577,
      "loss/crossentropy": 2.466128349304199,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.20145492255687714,
      "step": 265
    },
    {
      "epoch": 0.003971927728833806,
      "grad_norm": 0.474609375,
      "grad_norm_var": 0.00484460194905599,
      "learning_rate": 2e-05,
      "loss": 1.1326,
      "loss/crossentropy": 2.559739351272583,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.99609375,
      "loss/idx": 12.0,
      "loss/logits": 0.1364823430776596,
      "step": 266
    },
    {
      "epoch": 0.00398685978796476,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.004725074768066407,
      "learning_rate": 2e-05,
      "loss": 1.3285,
      "loss/crossentropy": 2.488020896911621,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18785008788108826,
      "step": 267
    },
    {
      "epoch": 0.004001791847095714,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0046656290690104164,
      "learning_rate": 2e-05,
      "loss": 1.3112,
      "loss/crossentropy": 2.3776917457580566,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17841312289237976,
      "step": 268
    },
    {
      "epoch": 0.004016723906226669,
      "grad_norm": 0.70703125,
      "grad_norm_var": 0.006075286865234375,
      "learning_rate": 2e-05,
      "loss": 1.4075,
      "loss/crossentropy": 2.6192870140075684,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 12.0,
      "loss/logits": 0.18098263442516327,
      "step": 269
    },
    {
      "epoch": 0.004031655965357623,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.005803934733072917,
      "learning_rate": 2e-05,
      "loss": 1.2378,
      "loss/crossentropy": 2.7433526515960693,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.15190985798835754,
      "step": 270
    },
    {
      "epoch": 0.004046588024488577,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.005597178141276042,
      "learning_rate": 2e-05,
      "loss": 1.2776,
      "loss/crossentropy": 2.572636842727661,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17604324221611023,
      "step": 271
    },
    {
      "epoch": 0.004061520083619531,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0050343672434488935,
      "learning_rate": 2e-05,
      "loss": 1.3095,
      "loss/crossentropy": 2.5277881622314453,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17667779326438904,
      "step": 272
    },
    {
      "epoch": 0.004076452142750485,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.005008427302042643,
      "learning_rate": 2e-05,
      "loss": 1.2538,
      "loss/crossentropy": 2.541118621826172,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1678951382637024,
      "step": 273
    },
    {
      "epoch": 0.0040913842018814395,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0036959171295166014,
      "learning_rate": 2e-05,
      "loss": 1.205,
      "loss/crossentropy": 2.4771127700805664,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.16591356694698334,
      "step": 274
    },
    {
      "epoch": 0.004106316261012394,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0037110487620035807,
      "learning_rate": 2e-05,
      "loss": 1.2732,
      "loss/crossentropy": 2.7245373725891113,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.1716119647026062,
      "step": 275
    },
    {
      "epoch": 0.004121248320143348,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.003930393854777018,
      "learning_rate": 2e-05,
      "loss": 1.3769,
      "loss/crossentropy": 2.581962823867798,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.17378033697605133,
      "step": 276
    },
    {
      "epoch": 0.004136180379274302,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.004032627741495768,
      "learning_rate": 2e-05,
      "loss": 1.203,
      "loss/crossentropy": 2.607046604156494,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15608051419258118,
      "step": 277
    },
    {
      "epoch": 0.004151112438405256,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0032010237375895184,
      "learning_rate": 2e-05,
      "loss": 1.1885,
      "loss/crossentropy": 2.6051206588745117,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.1494494080543518,
      "step": 278
    },
    {
      "epoch": 0.00416604449753621,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.0032595157623291015,
      "learning_rate": 2e-05,
      "loss": 1.3056,
      "loss/crossentropy": 2.5447115898132324,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.18058553338050842,
      "step": 279
    },
    {
      "epoch": 0.004180976556667164,
      "grad_norm": 0.99609375,
      "grad_norm_var": 0.015116866429646809,
      "learning_rate": 2e-05,
      "loss": 1.4477,
      "loss/crossentropy": 2.5050199031829834,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.28125,
      "loss/idx": 12.0,
      "loss/logits": 0.1664591133594513,
      "step": 280
    },
    {
      "epoch": 0.004195908615798118,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.015258391698201498,
      "learning_rate": 2e-05,
      "loss": 1.2369,
      "loss/crossentropy": 2.526259422302246,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.1665583997964859,
      "step": 281
    },
    {
      "epoch": 0.004210840674929073,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.014697710673014322,
      "learning_rate": 2e-05,
      "loss": 1.2211,
      "loss/crossentropy": 2.4373950958251953,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15083222091197968,
      "step": 282
    },
    {
      "epoch": 0.004225772734060027,
      "grad_norm": 1.9375,
      "grad_norm_var": 0.12889601389567057,
      "learning_rate": 2e-05,
      "loss": 1.5671,
      "loss/crossentropy": 2.5966246128082275,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.34375,
      "loss/idx": 12.0,
      "loss/logits": 0.2233429104089737,
      "step": 283
    },
    {
      "epoch": 0.004240704793190981,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.12950331370035809,
      "learning_rate": 2e-05,
      "loss": 1.1653,
      "loss/crossentropy": 2.717890739440918,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.14189787209033966,
      "step": 284
    },
    {
      "epoch": 0.004255636852321935,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.13006083170572916,
      "learning_rate": 2e-05,
      "loss": 1.2765,
      "loss/crossentropy": 2.6981263160705566,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17491918802261353,
      "step": 285
    },
    {
      "epoch": 0.0042705689114528895,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.13105646769205728,
      "learning_rate": 2e-05,
      "loss": 1.3008,
      "loss/crossentropy": 2.629808187484741,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.16800275444984436,
      "step": 286
    },
    {
      "epoch": 0.004285500970583844,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.1304814020792643,
      "learning_rate": 2e-05,
      "loss": 1.2972,
      "loss/crossentropy": 2.7882864475250244,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1878424435853958,
      "step": 287
    },
    {
      "epoch": 0.004300433029714798,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.1309849421183268,
      "learning_rate": 2e-05,
      "loss": 1.2366,
      "loss/crossentropy": 2.4925997257232666,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16624397039413452,
      "step": 288
    },
    {
      "epoch": 0.004315365088845752,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.13071695963541666,
      "learning_rate": 2e-05,
      "loss": 1.2994,
      "loss/crossentropy": 2.804802417755127,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.18225803971290588,
      "step": 289
    },
    {
      "epoch": 0.004330297147976706,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.13064263661702474,
      "learning_rate": 2e-05,
      "loss": 1.2799,
      "loss/crossentropy": 2.5255799293518066,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.1861756294965744,
      "step": 290
    },
    {
      "epoch": 0.00434522920710766,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.13016554514567058,
      "learning_rate": 2e-05,
      "loss": 1.3202,
      "loss/crossentropy": 2.419299602508545,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.179526686668396,
      "step": 291
    },
    {
      "epoch": 0.004360161266238614,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.13188754717508952,
      "learning_rate": 2e-05,
      "loss": 1.1478,
      "loss/crossentropy": 2.4527664184570312,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14002804458141327,
      "step": 292
    },
    {
      "epoch": 0.004375093325369568,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.13097087542215982,
      "learning_rate": 2e-05,
      "loss": 1.334,
      "loss/crossentropy": 2.6172571182250977,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.17773565649986267,
      "step": 293
    },
    {
      "epoch": 0.004390025384500522,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.130056365331014,
      "learning_rate": 2e-05,
      "loss": 1.2928,
      "loss/crossentropy": 2.644300699234009,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17558696866035461,
      "step": 294
    },
    {
      "epoch": 0.004404957443631477,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.13096477190653483,
      "learning_rate": 2e-05,
      "loss": 1.2111,
      "loss/crossentropy": 2.701231002807617,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.14079666137695312,
      "step": 295
    },
    {
      "epoch": 0.004419889502762431,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.12374617258707682,
      "learning_rate": 2e-05,
      "loss": 1.1536,
      "loss/crossentropy": 2.5944371223449707,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14583569765090942,
      "step": 296
    },
    {
      "epoch": 0.004434821561893385,
      "grad_norm": 1.2265625,
      "grad_norm_var": 0.14540328979492187,
      "learning_rate": 2e-05,
      "loss": 1.3935,
      "loss/crossentropy": 2.704197883605957,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.205990731716156,
      "step": 297
    },
    {
      "epoch": 0.0044497536210243395,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.14445521036783854,
      "learning_rate": 2e-05,
      "loss": 1.3361,
      "loss/crossentropy": 2.60979962348938,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.18767428398132324,
      "step": 298
    },
    {
      "epoch": 0.0044646856801552936,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.030499712626139323,
      "learning_rate": 2e-05,
      "loss": 1.3711,
      "loss/crossentropy": 2.3737831115722656,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1992519050836563,
      "step": 299
    },
    {
      "epoch": 0.004479617739286248,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.03014367421468099,
      "learning_rate": 2e-05,
      "loss": 1.3883,
      "loss/crossentropy": 2.3658077716827393,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.18512727320194244,
      "step": 300
    },
    {
      "epoch": 0.004494549798417202,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.030359840393066405,
      "learning_rate": 2e-05,
      "loss": 1.2623,
      "loss/crossentropy": 2.541961431503296,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1764090359210968,
      "step": 301
    },
    {
      "epoch": 0.004509481857548156,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.030087788899739582,
      "learning_rate": 2e-05,
      "loss": 1.2756,
      "loss/crossentropy": 2.721057891845703,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17400358617305756,
      "step": 302
    },
    {
      "epoch": 0.00452441391667911,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.030038960774739585,
      "learning_rate": 2e-05,
      "loss": 1.3062,
      "loss/crossentropy": 2.519401788711548,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.16561126708984375,
      "step": 303
    },
    {
      "epoch": 0.004539345975810064,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.02982018788655599,
      "learning_rate": 2e-05,
      "loss": 1.2715,
      "loss/crossentropy": 2.8109989166259766,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1621253490447998,
      "step": 304
    },
    {
      "epoch": 0.004554278034941018,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.02986036936442057,
      "learning_rate": 2e-05,
      "loss": 1.1901,
      "loss/crossentropy": 2.4882760047912598,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15099531412124634,
      "step": 305
    },
    {
      "epoch": 0.004569210094071972,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.029390970865885418,
      "learning_rate": 2e-05,
      "loss": 1.3448,
      "loss/crossentropy": 2.2777934074401855,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.19636347889900208,
      "step": 306
    },
    {
      "epoch": 0.004584142153202926,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.03026096026102702,
      "learning_rate": 2e-05,
      "loss": 1.1451,
      "loss/crossentropy": 2.3440771102905273,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.12943994998931885,
      "step": 307
    },
    {
      "epoch": 0.004599074212333881,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.03026096026102702,
      "learning_rate": 2e-05,
      "loss": 1.2176,
      "loss/crossentropy": 2.565845251083374,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15513211488723755,
      "step": 308
    },
    {
      "epoch": 0.004614006271464835,
      "grad_norm": 0.78125,
      "grad_norm_var": 0.03235446612040202,
      "learning_rate": 2e-05,
      "loss": 1.3562,
      "loss/crossentropy": 2.702106475830078,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 12.0,
      "loss/logits": 0.17654916644096375,
      "step": 309
    },
    {
      "epoch": 0.0046289383305957894,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.03277014096577962,
      "learning_rate": 2e-05,
      "loss": 1.2382,
      "loss/crossentropy": 2.545269727706909,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16790466010570526,
      "step": 310
    },
    {
      "epoch": 0.0046438703897267435,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.032621367772420244,
      "learning_rate": 2e-05,
      "loss": 1.2643,
      "loss/crossentropy": 2.53337025642395,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.17057746648788452,
      "step": 311
    },
    {
      "epoch": 0.004658802448857698,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.03177642822265625,
      "learning_rate": 2e-05,
      "loss": 1.3344,
      "loss/crossentropy": 2.68241548538208,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.1938180923461914,
      "step": 312
    },
    {
      "epoch": 0.004673734507988652,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.005132484436035156,
      "learning_rate": 2e-05,
      "loss": 1.3496,
      "loss/crossentropy": 2.7061564922332764,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.201199471950531,
      "step": 313
    },
    {
      "epoch": 0.004688666567119606,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.005774434407552083,
      "learning_rate": 2e-05,
      "loss": 1.4513,
      "loss/crossentropy": 2.6005072593688965,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.20914174616336823,
      "step": 314
    },
    {
      "epoch": 0.00470359862625056,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.00566094716389974,
      "learning_rate": 2e-05,
      "loss": 1.2654,
      "loss/crossentropy": 2.7302968502044678,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.1716044545173645,
      "step": 315
    },
    {
      "epoch": 0.004718530685381514,
      "grad_norm": 0.66796875,
      "grad_norm_var": 0.0060918172200520836,
      "learning_rate": 2e-05,
      "loss": 1.5089,
      "loss/crossentropy": 2.707127094268799,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2734375,
      "loss/idx": 12.0,
      "loss/logits": 0.23551242053508759,
      "step": 316
    },
    {
      "epoch": 0.004733462744512468,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.005826314290364583,
      "learning_rate": 2e-05,
      "loss": 1.2823,
      "loss/crossentropy": 2.592078924179077,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.16508805751800537,
      "step": 317
    },
    {
      "epoch": 0.004748394803643422,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.005774434407552083,
      "learning_rate": 2e-05,
      "loss": 1.2459,
      "loss/crossentropy": 2.4738409519195557,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16779488325119019,
      "step": 318
    },
    {
      "epoch": 0.004763326862774376,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.005790138244628906,
      "learning_rate": 2e-05,
      "loss": 1.3254,
      "loss/crossentropy": 2.321881055831909,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.1769586205482483,
      "step": 319
    },
    {
      "epoch": 0.00477825892190533,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.005641937255859375,
      "learning_rate": 2e-05,
      "loss": 1.2608,
      "loss/crossentropy": 2.6014082431793213,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.17482781410217285,
      "step": 320
    },
    {
      "epoch": 0.004793190981036285,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.005932044982910156,
      "learning_rate": 2e-05,
      "loss": 1.3777,
      "loss/crossentropy": 2.7242867946624756,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.20579351484775543,
      "step": 321
    },
    {
      "epoch": 0.004808123040167239,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.006096839904785156,
      "learning_rate": 2e-05,
      "loss": 1.2116,
      "loss/crossentropy": 2.6165010929107666,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.1569620966911316,
      "step": 322
    },
    {
      "epoch": 0.0048230550992981935,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.005353275934855143,
      "learning_rate": 2e-05,
      "loss": 1.2708,
      "loss/crossentropy": 2.8225040435791016,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16922032833099365,
      "step": 323
    },
    {
      "epoch": 0.004837987158429148,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.004695574442545573,
      "learning_rate": 2e-05,
      "loss": 1.2872,
      "loss/crossentropy": 2.497213125228882,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16218045353889465,
      "step": 324
    },
    {
      "epoch": 0.004852919217560102,
      "grad_norm": 0.7265625,
      "grad_norm_var": 0.0035277684529622395,
      "learning_rate": 2e-05,
      "loss": 1.5149,
      "loss/crossentropy": 2.276867389678955,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2890625,
      "loss/idx": 12.0,
      "loss/logits": 0.22580742835998535,
      "step": 325
    },
    {
      "epoch": 0.004867851276691056,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0034929911295572915,
      "learning_rate": 2e-05,
      "loss": 1.2771,
      "loss/crossentropy": 2.719574213027954,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.18333600461483002,
      "step": 326
    },
    {
      "epoch": 0.00488278333582201,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0033315022786458335,
      "learning_rate": 2e-05,
      "loss": 1.4085,
      "loss/crossentropy": 2.591456413269043,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1975385546684265,
      "step": 327
    },
    {
      "epoch": 0.004897715394952964,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0034665425618489584,
      "learning_rate": 2e-05,
      "loss": 1.2639,
      "loss/crossentropy": 2.5922658443450928,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.18573111295700073,
      "step": 328
    },
    {
      "epoch": 0.004912647454083918,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.003714752197265625,
      "learning_rate": 2e-05,
      "loss": 1.1678,
      "loss/crossentropy": 2.6114420890808105,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.1521402895450592,
      "step": 329
    },
    {
      "epoch": 0.004927579513214872,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.003231239318847656,
      "learning_rate": 2e-05,
      "loss": 1.3684,
      "loss/crossentropy": 2.68989896774292,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1965211182832718,
      "step": 330
    },
    {
      "epoch": 0.004942511572345826,
      "grad_norm": 0.63671875,
      "grad_norm_var": 0.003305816650390625,
      "learning_rate": 2e-05,
      "loss": 1.2985,
      "loss/crossentropy": 2.6312994956970215,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.18911811709403992,
      "step": 331
    },
    {
      "epoch": 0.00495744363147678,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.003049468994140625,
      "learning_rate": 2e-05,
      "loss": 1.2595,
      "loss/crossentropy": 2.5765206813812256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.17355464398860931,
      "step": 332
    },
    {
      "epoch": 0.004972375690607734,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0030455907185872396,
      "learning_rate": 2e-05,
      "loss": 1.463,
      "loss/crossentropy": 2.599970579147339,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.22083698213100433,
      "step": 333
    },
    {
      "epoch": 0.004987307749738689,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.003049468994140625,
      "learning_rate": 2e-05,
      "loss": 1.3341,
      "loss/crossentropy": 2.6213738918304443,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.17781299352645874,
      "step": 334
    },
    {
      "epoch": 0.0050022398088696435,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.003084754943847656,
      "learning_rate": 2e-05,
      "loss": 1.2978,
      "loss/crossentropy": 2.6995716094970703,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1727505922317505,
      "step": 335
    },
    {
      "epoch": 0.005017171868000598,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0033487319946289063,
      "learning_rate": 2e-05,
      "loss": 1.1847,
      "loss/crossentropy": 2.6471781730651855,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.15342769026756287,
      "step": 336
    },
    {
      "epoch": 0.005032103927131552,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.0033487319946289063,
      "learning_rate": 2e-05,
      "loss": 1.5682,
      "loss/crossentropy": 2.331575393676758,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3359375,
      "loss/idx": 12.0,
      "loss/logits": 0.2322523295879364,
      "step": 337
    },
    {
      "epoch": 0.005047035986262506,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0035104751586914062,
      "learning_rate": 2e-05,
      "loss": 1.2217,
      "loss/crossentropy": 2.6712942123413086,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15924036502838135,
      "step": 338
    },
    {
      "epoch": 0.00506196804539346,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0038677056630452475,
      "learning_rate": 2e-05,
      "loss": 1.1757,
      "loss/crossentropy": 2.6050660610198975,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16003666818141937,
      "step": 339
    },
    {
      "epoch": 0.005076900104524414,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.004115660985310872,
      "learning_rate": 2e-05,
      "loss": 1.2327,
      "loss/crossentropy": 2.417349100112915,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16236600279808044,
      "step": 340
    },
    {
      "epoch": 0.005091832163655368,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0023254235585530598,
      "learning_rate": 2e-05,
      "loss": 1.3032,
      "loss/crossentropy": 2.8112549781799316,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1859789788722992,
      "step": 341
    },
    {
      "epoch": 0.005106764222786322,
      "grad_norm": 0.625,
      "grad_norm_var": 0.0025288740793863933,
      "learning_rate": 2e-05,
      "loss": 1.3182,
      "loss/crossentropy": 2.38157057762146,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17755183577537537,
      "step": 342
    },
    {
      "epoch": 0.005121696281917276,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.0026667118072509766,
      "learning_rate": 2e-05,
      "loss": 1.2629,
      "loss/crossentropy": 2.5023629665374756,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.16914424300193787,
      "step": 343
    },
    {
      "epoch": 0.00513662834104823,
      "grad_norm": 0.6328125,
      "grad_norm_var": 0.00290067990620931,
      "learning_rate": 2e-05,
      "loss": 1.4134,
      "loss/crossentropy": 2.5533506870269775,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 12.0,
      "loss/logits": 0.2024352252483368,
      "step": 344
    },
    {
      "epoch": 0.005151560400179184,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.00290067990620931,
      "learning_rate": 2e-05,
      "loss": 1.1969,
      "loss/crossentropy": 2.6583385467529297,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15788167715072632,
      "step": 345
    },
    {
      "epoch": 0.0051664924593101385,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.002897500991821289,
      "learning_rate": 2e-05,
      "loss": 1.1828,
      "loss/crossentropy": 2.7132012844085693,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.1515815556049347,
      "step": 346
    },
    {
      "epoch": 0.0051814245184410935,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.002600208918253581,
      "learning_rate": 2e-05,
      "loss": 1.1514,
      "loss/crossentropy": 2.7961926460266113,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14358270168304443,
      "step": 347
    },
    {
      "epoch": 0.0051963565775720475,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0027310530344645183,
      "learning_rate": 2e-05,
      "loss": 1.1785,
      "loss/crossentropy": 2.5494437217712402,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.15509198606014252,
      "step": 348
    },
    {
      "epoch": 0.005211288636703002,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.002712361017862956,
      "learning_rate": 2e-05,
      "loss": 1.3236,
      "loss/crossentropy": 2.6538543701171875,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1985650658607483,
      "step": 349
    },
    {
      "epoch": 0.005226220695833956,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0026986281077067058,
      "learning_rate": 2e-05,
      "loss": 1.3186,
      "loss/crossentropy": 2.7938647270202637,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.18574939668178558,
      "step": 350
    },
    {
      "epoch": 0.00524115275496491,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.002704477310180664,
      "learning_rate": 2e-05,
      "loss": 1.2769,
      "loss/crossentropy": 2.6201303005218506,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16753770411014557,
      "step": 351
    },
    {
      "epoch": 0.005256084814095864,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.002696847915649414,
      "learning_rate": 2e-05,
      "loss": 1.4235,
      "loss/crossentropy": 2.322477102279663,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 12.0,
      "loss/logits": 0.18908751010894775,
      "step": 352
    },
    {
      "epoch": 0.005271016873226818,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.0021241346995035807,
      "learning_rate": 2e-05,
      "loss": 1.3541,
      "loss/crossentropy": 2.4053268432617188,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.1978444755077362,
      "step": 353
    },
    {
      "epoch": 0.005285948932357772,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0019971052805582683,
      "learning_rate": 2e-05,
      "loss": 1.3755,
      "loss/crossentropy": 2.505030393600464,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.18796448409557343,
      "step": 354
    },
    {
      "epoch": 0.005300880991488726,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0018187840779622397,
      "learning_rate": 2e-05,
      "loss": 1.213,
      "loss/crossentropy": 2.673353433609009,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1661037802696228,
      "step": 355
    },
    {
      "epoch": 0.00531581305061968,
      "grad_norm": 1.6015625,
      "grad_norm_var": 0.06836236317952474,
      "learning_rate": 2e-05,
      "loss": 1.3959,
      "loss/crossentropy": 1.8594982624053955,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 12.0,
      "loss/logits": 0.1302594691514969,
      "step": 356
    },
    {
      "epoch": 0.005330745109750634,
      "grad_norm": 0.69140625,
      "grad_norm_var": 0.06830895741780599,
      "learning_rate": 2e-05,
      "loss": 1.4121,
      "loss/crossentropy": 2.4870803356170654,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.19338038563728333,
      "step": 357
    },
    {
      "epoch": 0.0053456771688815885,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.06867720286051432,
      "learning_rate": 2e-05,
      "loss": 1.3687,
      "loss/crossentropy": 2.3528172969818115,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.19687314331531525,
      "step": 358
    },
    {
      "epoch": 0.0053606092280125426,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.06889082590738932,
      "learning_rate": 2e-05,
      "loss": 1.4012,
      "loss/crossentropy": 2.2566211223602295,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.18240945041179657,
      "step": 359
    },
    {
      "epoch": 0.0053755412871434975,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.06940409342447916,
      "learning_rate": 2e-05,
      "loss": 1.3009,
      "loss/crossentropy": 2.8327674865722656,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.19157303869724274,
      "step": 360
    },
    {
      "epoch": 0.005390473346274452,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.06995283762613932,
      "learning_rate": 2e-05,
      "loss": 1.2257,
      "loss/crossentropy": 2.573021173477173,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16322672367095947,
      "step": 361
    },
    {
      "epoch": 0.005405405405405406,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.06953226725260417,
      "learning_rate": 2e-05,
      "loss": 1.2096,
      "loss/crossentropy": 2.7299983501434326,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.1548905074596405,
      "step": 362
    },
    {
      "epoch": 0.00542033746453636,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.06896101633707682,
      "learning_rate": 2e-05,
      "loss": 1.3065,
      "loss/crossentropy": 2.708285331726074,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.18154960870742798,
      "step": 363
    },
    {
      "epoch": 0.005435269523667314,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.06807295481363933,
      "learning_rate": 2e-05,
      "loss": 1.2052,
      "loss/crossentropy": 2.836975336074829,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15837103128433228,
      "step": 364
    },
    {
      "epoch": 0.005450201582798268,
      "grad_norm": 0.8125,
      "grad_norm_var": 0.06952966054280599,
      "learning_rate": 2e-05,
      "loss": 1.7326,
      "loss/crossentropy": 2.6771881580352783,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.4453125,
      "loss/idx": 12.0,
      "loss/logits": 0.28733551502227783,
      "step": 365
    },
    {
      "epoch": 0.005465133641929222,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.06957906087239583,
      "learning_rate": 2e-05,
      "loss": 1.3377,
      "loss/crossentropy": 2.6525285243988037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.18148328363895416,
      "step": 366
    },
    {
      "epoch": 0.005480065701060176,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.07011693318684896,
      "learning_rate": 2e-05,
      "loss": 1.2411,
      "loss/crossentropy": 2.624660015106201,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1551695019006729,
      "step": 367
    },
    {
      "epoch": 0.00549499776019113,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.07001546223958334,
      "learning_rate": 2e-05,
      "loss": 1.2908,
      "loss/crossentropy": 2.51216197013855,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16580525040626526,
      "step": 368
    },
    {
      "epoch": 0.005509929819322084,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.06988499959309896,
      "learning_rate": 2e-05,
      "loss": 1.3284,
      "loss/crossentropy": 2.7236480712890625,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18772506713867188,
      "step": 369
    },
    {
      "epoch": 0.0055248618784530384,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.06988499959309896,
      "learning_rate": 2e-05,
      "loss": 1.2295,
      "loss/crossentropy": 2.7294671535491943,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16700142621994019,
      "step": 370
    },
    {
      "epoch": 0.0055397939375839925,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.06892878214518229,
      "learning_rate": 2e-05,
      "loss": 1.2704,
      "loss/crossentropy": 2.6511926651000977,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16887199878692627,
      "step": 371
    },
    {
      "epoch": 0.005554725996714947,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.005724016825358073,
      "learning_rate": 2e-05,
      "loss": 1.2096,
      "loss/crossentropy": 2.696777105331421,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1627081334590912,
      "step": 372
    },
    {
      "epoch": 0.005569658055845901,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.004996744791666666,
      "learning_rate": 2e-05,
      "loss": 1.2566,
      "loss/crossentropy": 2.6416056156158447,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1706182360649109,
      "step": 373
    },
    {
      "epoch": 0.005584590114976856,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.005092112223307291,
      "learning_rate": 2e-05,
      "loss": 1.2752,
      "loss/crossentropy": 2.701991319656372,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1657867729663849,
      "step": 374
    },
    {
      "epoch": 0.00559952217410781,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.005389149983723958,
      "learning_rate": 2e-05,
      "loss": 1.1155,
      "loss/crossentropy": 2.4490652084350586,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9765625,
      "loss/idx": 12.0,
      "loss/logits": 0.1389380842447281,
      "step": 375
    },
    {
      "epoch": 0.005614454233238764,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.005407651265462239,
      "learning_rate": 2e-05,
      "loss": 1.239,
      "loss/crossentropy": 2.5287365913391113,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1609053909778595,
      "step": 376
    },
    {
      "epoch": 0.005629386292369718,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.005452473958333333,
      "learning_rate": 2e-05,
      "loss": 1.1656,
      "loss/crossentropy": 2.5641028881073,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.1421457827091217,
      "step": 377
    },
    {
      "epoch": 0.005644318351500672,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.005690956115722656,
      "learning_rate": 2e-05,
      "loss": 1.2171,
      "loss/crossentropy": 2.590167284011841,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.1546175181865692,
      "step": 378
    },
    {
      "epoch": 0.005659250410631626,
      "grad_norm": 0.734375,
      "grad_norm_var": 0.007314491271972656,
      "learning_rate": 2e-05,
      "loss": 1.3905,
      "loss/crossentropy": 2.8093738555908203,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.2029891312122345,
      "step": 379
    },
    {
      "epoch": 0.00567418246976258,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0073094050089518225,
      "learning_rate": 2e-05,
      "loss": 1.412,
      "loss/crossentropy": 2.499774217605591,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.21667346358299255,
      "step": 380
    },
    {
      "epoch": 0.005689114528893534,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0035776774088541667,
      "learning_rate": 2e-05,
      "loss": 1.1953,
      "loss/crossentropy": 2.5769855976104736,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15628309547901154,
      "step": 381
    },
    {
      "epoch": 0.005704046588024488,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.0035776774088541667,
      "learning_rate": 2e-05,
      "loss": 1.3599,
      "loss/crossentropy": 2.3219430446624756,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.20361411571502686,
      "step": 382
    },
    {
      "epoch": 0.0057189786471554425,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0037877241770426433,
      "learning_rate": 2e-05,
      "loss": 1.1961,
      "loss/crossentropy": 2.521282911300659,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.14920538663864136,
      "step": 383
    },
    {
      "epoch": 0.005733910706286397,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.0037682692209879557,
      "learning_rate": 2e-05,
      "loss": 1.2406,
      "loss/crossentropy": 2.704392671585083,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.15467111766338348,
      "step": 384
    },
    {
      "epoch": 0.005748842765417351,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.0036030928293863933,
      "learning_rate": 2e-05,
      "loss": 1.2842,
      "loss/crossentropy": 2.674487829208374,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.18259578943252563,
      "step": 385
    },
    {
      "epoch": 0.005763774824548305,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.003750038146972656,
      "learning_rate": 2e-05,
      "loss": 1.1793,
      "loss/crossentropy": 2.782691478729248,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.14800548553466797,
      "step": 386
    },
    {
      "epoch": 0.00577870688367926,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0036410013834635418,
      "learning_rate": 2e-05,
      "loss": 1.3885,
      "loss/crossentropy": 2.3553826808929443,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.1931438148021698,
      "step": 387
    },
    {
      "epoch": 0.005793638942810214,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0036410013834635418,
      "learning_rate": 2e-05,
      "loss": 1.3019,
      "loss/crossentropy": 2.500701427459717,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.17689158022403717,
      "step": 388
    },
    {
      "epoch": 0.005808571001941168,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.00362701416015625,
      "learning_rate": 2e-05,
      "loss": 1.3106,
      "loss/crossentropy": 2.561689615249634,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1855672150850296,
      "step": 389
    },
    {
      "epoch": 0.005823503061072122,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0036816914876302083,
      "learning_rate": 2e-05,
      "loss": 1.1974,
      "loss/crossentropy": 2.4336016178131104,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1505298614501953,
      "step": 390
    },
    {
      "epoch": 0.005838435120203076,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.003586069742838542,
      "learning_rate": 2e-05,
      "loss": 1.2446,
      "loss/crossentropy": 2.371649980545044,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.15085071325302124,
      "step": 391
    },
    {
      "epoch": 0.00585336717933403,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.003575897216796875,
      "learning_rate": 2e-05,
      "loss": 1.2947,
      "loss/crossentropy": 2.6943581104278564,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1775604784488678,
      "step": 392
    },
    {
      "epoch": 0.005868299238464984,
      "grad_norm": 0.703125,
      "grad_norm_var": 0.004628435770670573,
      "learning_rate": 2e-05,
      "loss": 1.4691,
      "loss/crossentropy": 2.582803726196289,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 12.0,
      "loss/logits": 0.20347224175930023,
      "step": 393
    },
    {
      "epoch": 0.005883231297595938,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.004424285888671875,
      "learning_rate": 2e-05,
      "loss": 1.2891,
      "loss/crossentropy": 2.5786473751068115,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17973393201828003,
      "step": 394
    },
    {
      "epoch": 0.0058981633567268925,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.002904510498046875,
      "learning_rate": 2e-05,
      "loss": 1.2877,
      "loss/crossentropy": 2.0246448516845703,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16268569231033325,
      "step": 395
    },
    {
      "epoch": 0.005913095415857847,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.003087615966796875,
      "learning_rate": 2e-05,
      "loss": 1.2483,
      "loss/crossentropy": 2.597654104232788,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.17802008986473083,
      "step": 396
    },
    {
      "epoch": 0.005928027474988801,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0031325658162434894,
      "learning_rate": 2e-05,
      "loss": 1.1191,
      "loss/crossentropy": 2.6132638454437256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9921875,
      "loss/idx": 12.0,
      "loss/logits": 0.12693801522254944,
      "step": 397
    },
    {
      "epoch": 0.005942959534119755,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0031615575154622395,
      "learning_rate": 2e-05,
      "loss": 1.3393,
      "loss/crossentropy": 2.3903872966766357,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.17523705959320068,
      "step": 398
    },
    {
      "epoch": 0.005957891593250709,
      "grad_norm": 0.8671875,
      "grad_norm_var": 0.00873411496480306,
      "learning_rate": 2e-05,
      "loss": 1.7769,
      "loss/crossentropy": 2.4915974140167236,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.5078125,
      "loss/idx": 12.0,
      "loss/logits": 0.2690865993499756,
      "step": 399
    },
    {
      "epoch": 0.005972823652381664,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.008649555842081706,
      "learning_rate": 2e-05,
      "loss": 1.2025,
      "loss/crossentropy": 2.4921159744262695,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1556488275527954,
      "step": 400
    },
    {
      "epoch": 0.005987755711512618,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.008683506647745769,
      "learning_rate": 2e-05,
      "loss": 1.416,
      "loss/crossentropy": 2.8674352169036865,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.2129102349281311,
      "step": 401
    },
    {
      "epoch": 0.006002687770643572,
      "grad_norm": 0.466796875,
      "grad_norm_var": 0.009094985326131184,
      "learning_rate": 2e-05,
      "loss": 1.1529,
      "loss/crossentropy": 2.636471748352051,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.1373138427734375,
      "step": 402
    },
    {
      "epoch": 0.006017619829774526,
      "grad_norm": 1.5703125,
      "grad_norm_var": 0.07038000424702963,
      "learning_rate": 2e-05,
      "loss": 1.518,
      "loss/crossentropy": 2.292736530303955,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2734375,
      "loss/idx": 12.0,
      "loss/logits": 0.24452432990074158,
      "step": 403
    },
    {
      "epoch": 0.00603255188890548,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.06996343930562338,
      "learning_rate": 2e-05,
      "loss": 1.3221,
      "loss/crossentropy": 2.7590014934539795,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18144939839839935,
      "step": 404
    },
    {
      "epoch": 0.006047483948036434,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.06936173439025879,
      "learning_rate": 2e-05,
      "loss": 1.3817,
      "loss/crossentropy": 2.3799400329589844,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.186435729265213,
      "step": 405
    },
    {
      "epoch": 0.006062416007167388,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.07065277099609375,
      "learning_rate": 2e-05,
      "loss": 1.2203,
      "loss/crossentropy": 2.47124981880188,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.14994587004184723,
      "step": 406
    },
    {
      "epoch": 0.0060773480662983425,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.07075932820638021,
      "learning_rate": 2e-05,
      "loss": 1.2415,
      "loss/crossentropy": 2.5655479431152344,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16334325075149536,
      "step": 407
    },
    {
      "epoch": 0.0060922801254292966,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.07063287099202474,
      "learning_rate": 2e-05,
      "loss": 1.2976,
      "loss/crossentropy": 2.325611114501953,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.15702426433563232,
      "step": 408
    },
    {
      "epoch": 0.006107212184560251,
      "grad_norm": 0.46484375,
      "grad_norm_var": 0.07223459879557291,
      "learning_rate": 2e-05,
      "loss": 1.1735,
      "loss/crossentropy": 2.4934916496276855,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.13443033397197723,
      "step": 409
    },
    {
      "epoch": 0.006122144243691205,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.07214247385660807,
      "learning_rate": 2e-05,
      "loss": 1.2699,
      "loss/crossentropy": 2.694333791732788,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.17613661289215088,
      "step": 410
    },
    {
      "epoch": 0.006137076302822159,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.07233015696207683,
      "learning_rate": 2e-05,
      "loss": 1.2064,
      "loss/crossentropy": 2.710723400115967,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.151699036359787,
      "step": 411
    },
    {
      "epoch": 0.006152008361953113,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.07168299357096354,
      "learning_rate": 2e-05,
      "loss": 1.3126,
      "loss/crossentropy": 2.4599716663360596,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.1798081398010254,
      "step": 412
    },
    {
      "epoch": 0.006166940421084068,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.07158762613932292,
      "learning_rate": 2e-05,
      "loss": 1.2299,
      "loss/crossentropy": 2.5145263671875,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15962854027748108,
      "step": 413
    },
    {
      "epoch": 0.006181872480215022,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.07213058471679687,
      "learning_rate": 2e-05,
      "loss": 1.2114,
      "loss/crossentropy": 2.5661544799804688,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.1489061415195465,
      "step": 414
    },
    {
      "epoch": 0.006196804539345976,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.06843414306640624,
      "learning_rate": 2e-05,
      "loss": 1.2189,
      "loss/crossentropy": 2.6023993492126465,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.16417017579078674,
      "step": 415
    },
    {
      "epoch": 0.00621173659847693,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.06838423411051432,
      "learning_rate": 2e-05,
      "loss": 1.2502,
      "loss/crossentropy": 2.4928228855133057,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.14868320524692535,
      "step": 416
    },
    {
      "epoch": 0.006226668657607884,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0684401830037435,
      "learning_rate": 2e-05,
      "loss": 1.3053,
      "loss/crossentropy": 2.4073102474212646,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.1725049614906311,
      "step": 417
    },
    {
      "epoch": 0.006241600716738838,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.06732099850972494,
      "learning_rate": 2e-05,
      "loss": 1.2862,
      "loss/crossentropy": 2.30145525932312,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1689978539943695,
      "step": 418
    },
    {
      "epoch": 0.0062565327758697924,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.0012425740559895834,
      "learning_rate": 2e-05,
      "loss": 1.2577,
      "loss/crossentropy": 2.6010894775390625,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.17175039649009705,
      "step": 419
    },
    {
      "epoch": 0.0062714648350007465,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0012145360310872396,
      "learning_rate": 2e-05,
      "loss": 1.2791,
      "loss/crossentropy": 2.4492437839508057,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17758145928382874,
      "step": 420
    },
    {
      "epoch": 0.006286396894131701,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.0011623223622639974,
      "learning_rate": 2e-05,
      "loss": 1.2604,
      "loss/crossentropy": 2.675687313079834,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.16660946607589722,
      "step": 421
    },
    {
      "epoch": 0.006301328953262655,
      "grad_norm": 0.63671875,
      "grad_norm_var": 0.0017094930013020833,
      "learning_rate": 2e-05,
      "loss": 1.3558,
      "loss/crossentropy": 2.114575147628784,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.15267613530158997,
      "step": 422
    },
    {
      "epoch": 0.006316261012393609,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.0019037246704101563,
      "learning_rate": 2e-05,
      "loss": 1.196,
      "loss/crossentropy": 2.609177827835083,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15691204369068146,
      "step": 423
    },
    {
      "epoch": 0.006331193071524563,
      "grad_norm": 0.71484375,
      "grad_norm_var": 0.003865496317545573,
      "learning_rate": 2e-05,
      "loss": 1.3174,
      "loss/crossentropy": 2.4156365394592285,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17677493393421173,
      "step": 424
    },
    {
      "epoch": 0.006346125130655517,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0034052530924479165,
      "learning_rate": 2e-05,
      "loss": 1.2332,
      "loss/crossentropy": 2.472134590148926,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.15507778525352478,
      "step": 425
    },
    {
      "epoch": 0.006361057189786472,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0034212748209635417,
      "learning_rate": 2e-05,
      "loss": 1.309,
      "loss/crossentropy": 2.4787662029266357,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.18404549360275269,
      "step": 426
    },
    {
      "epoch": 0.006375989248917426,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.003456560770670573,
      "learning_rate": 2e-05,
      "loss": 1.2076,
      "loss/crossentropy": 2.5816304683685303,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.16856208443641663,
      "step": 427
    },
    {
      "epoch": 0.00639092130804838,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0034517923990885417,
      "learning_rate": 2e-05,
      "loss": 1.3818,
      "loss/crossentropy": 2.716796398162842,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.21773184835910797,
      "step": 428
    },
    {
      "epoch": 0.006405853367179334,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.003450965881347656,
      "learning_rate": 2e-05,
      "loss": 1.1217,
      "loss/crossentropy": 2.690194845199585,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.984375,
      "loss/idx": 12.0,
      "loss/logits": 0.13730208575725555,
      "step": 429
    },
    {
      "epoch": 0.006420785426310288,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0034418741861979166,
      "learning_rate": 2e-05,
      "loss": 1.1929,
      "loss/crossentropy": 2.5792243480682373,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1459844559431076,
      "step": 430
    },
    {
      "epoch": 0.006435717485441242,
      "grad_norm": 0.625,
      "grad_norm_var": 0.0037907918294270834,
      "learning_rate": 2e-05,
      "loss": 1.4976,
      "loss/crossentropy": 2.277367353439331,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 12.0,
      "loss/logits": 0.23194152116775513,
      "step": 431
    },
    {
      "epoch": 0.0064506495445721965,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.003665669759114583,
      "learning_rate": 2e-05,
      "loss": 1.2346,
      "loss/crossentropy": 2.6008970737457275,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.15651211142539978,
      "step": 432
    },
    {
      "epoch": 0.006465581603703151,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.003864034016927083,
      "learning_rate": 2e-05,
      "loss": 1.1928,
      "loss/crossentropy": 2.4385178089141846,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15374068915843964,
      "step": 433
    },
    {
      "epoch": 0.006480513662834105,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0038573582967122394,
      "learning_rate": 2e-05,
      "loss": 1.2827,
      "loss/crossentropy": 2.591653823852539,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.18110871315002441,
      "step": 434
    },
    {
      "epoch": 0.006495445721965059,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.00366514523824056,
      "learning_rate": 2e-05,
      "loss": 1.2192,
      "loss/crossentropy": 2.5972487926483154,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.14887724816799164,
      "step": 435
    },
    {
      "epoch": 0.006510377781096013,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0036881605784098307,
      "learning_rate": 2e-05,
      "loss": 1.2291,
      "loss/crossentropy": 2.6286871433258057,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15877765417099,
      "step": 436
    },
    {
      "epoch": 0.006525309840226967,
      "grad_norm": 0.5,
      "grad_norm_var": 0.003647295633951823,
      "learning_rate": 2e-05,
      "loss": 1.2138,
      "loss/crossentropy": 2.6377251148223877,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15911364555358887,
      "step": 437
    },
    {
      "epoch": 0.006540241899357921,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.003198687235514323,
      "learning_rate": 2e-05,
      "loss": 1.3142,
      "loss/crossentropy": 2.6262760162353516,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1891767680644989,
      "step": 438
    },
    {
      "epoch": 0.006555173958488876,
      "grad_norm": 0.470703125,
      "grad_norm_var": 0.0033229668935139973,
      "learning_rate": 2e-05,
      "loss": 1.1893,
      "loss/crossentropy": 2.4748237133026123,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.1502346694469452,
      "step": 439
    },
    {
      "epoch": 0.00657010601761983,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.001291640599568685,
      "learning_rate": 2e-05,
      "loss": 1.2477,
      "loss/crossentropy": 2.4698257446289062,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16178780794143677,
      "step": 440
    },
    {
      "epoch": 0.006585038076750784,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.001299905776977539,
      "learning_rate": 2e-05,
      "loss": 1.2288,
      "loss/crossentropy": 2.2895803451538086,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1506274938583374,
      "step": 441
    },
    {
      "epoch": 0.006599970135881738,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0015221754709879556,
      "learning_rate": 2e-05,
      "loss": 1.295,
      "loss/crossentropy": 2.6053385734558105,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1778094321489334,
      "step": 442
    },
    {
      "epoch": 0.006614902195012692,
      "grad_norm": 0.7109375,
      "grad_norm_var": 0.003344456354777018,
      "learning_rate": 2e-05,
      "loss": 1.4482,
      "loss/crossentropy": 2.7315480709075928,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 12.0,
      "loss/logits": 0.2138347327709198,
      "step": 443
    },
    {
      "epoch": 0.0066298342541436465,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0033356825510660808,
      "learning_rate": 2e-05,
      "loss": 1.2976,
      "loss/crossentropy": 2.4568560123443604,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.17260998487472534,
      "step": 444
    },
    {
      "epoch": 0.006644766313274601,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.003331740697224935,
      "learning_rate": 2e-05,
      "loss": 1.215,
      "loss/crossentropy": 2.6158523559570312,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.1525478959083557,
      "step": 445
    },
    {
      "epoch": 0.006659698372405555,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0033044020334879556,
      "learning_rate": 2e-05,
      "loss": 1.1846,
      "loss/crossentropy": 2.301199436187744,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.14553159475326538,
      "step": 446
    },
    {
      "epoch": 0.006674630431536509,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.0032335758209228516,
      "learning_rate": 2e-05,
      "loss": 1.289,
      "loss/crossentropy": 2.4552204608917236,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.163978710770607,
      "step": 447
    },
    {
      "epoch": 0.006689562490667463,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.003262186050415039,
      "learning_rate": 2e-05,
      "loss": 1.3447,
      "loss/crossentropy": 2.410238742828369,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.19623002409934998,
      "step": 448
    },
    {
      "epoch": 0.006704494549798417,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.0030129591623942057,
      "learning_rate": 2e-05,
      "loss": 1.2677,
      "loss/crossentropy": 2.524290084838867,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.1661645472049713,
      "step": 449
    },
    {
      "epoch": 0.006719426608929371,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0029900709788004557,
      "learning_rate": 2e-05,
      "loss": 1.303,
      "loss/crossentropy": 2.5573766231536865,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.18579092621803284,
      "step": 450
    },
    {
      "epoch": 0.006734358668060325,
      "grad_norm": 0.73828125,
      "grad_norm_var": 0.005056111017862955,
      "learning_rate": 2e-05,
      "loss": 1.4536,
      "loss/crossentropy": 2.5473504066467285,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.25,
      "loss/idx": 12.0,
      "loss/logits": 0.20360559225082397,
      "step": 451
    },
    {
      "epoch": 0.00674929072719128,
      "grad_norm": 0.80078125,
      "grad_norm_var": 0.008224980036417643,
      "learning_rate": 2e-05,
      "loss": 1.5703,
      "loss/crossentropy": 2.538242816925049,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 12.0,
      "loss/logits": 0.3046456277370453,
      "step": 452
    },
    {
      "epoch": 0.006764222786322234,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.007947270075480144,
      "learning_rate": 2e-05,
      "loss": 1.3163,
      "loss/crossentropy": 2.378641128540039,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17571493983268738,
      "step": 453
    },
    {
      "epoch": 0.006779154845453188,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.008197768529256185,
      "learning_rate": 2e-05,
      "loss": 1.3884,
      "loss/crossentropy": 2.3066680431365967,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.19306373596191406,
      "step": 454
    },
    {
      "epoch": 0.006794086904584142,
      "grad_norm": 0.69140625,
      "grad_norm_var": 0.007452392578125,
      "learning_rate": 2e-05,
      "loss": 1.3553,
      "loss/crossentropy": 2.4432783126831055,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.20682473480701447,
      "step": 455
    },
    {
      "epoch": 0.0068090189637150965,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.007358551025390625,
      "learning_rate": 2e-05,
      "loss": 1.2052,
      "loss/crossentropy": 2.449265718460083,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15830518305301666,
      "step": 456
    },
    {
      "epoch": 0.0068239510228460505,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.006727536519368489,
      "learning_rate": 2e-05,
      "loss": 1.3472,
      "loss/crossentropy": 2.5877275466918945,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.1831488013267517,
      "step": 457
    },
    {
      "epoch": 0.006838883081977005,
      "grad_norm": 0.703125,
      "grad_norm_var": 0.007094256083170573,
      "learning_rate": 2e-05,
      "loss": 1.4365,
      "loss/crossentropy": 2.5130813121795654,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.21774663031101227,
      "step": 458
    },
    {
      "epoch": 0.006853815141107959,
      "grad_norm": 0.6796875,
      "grad_norm_var": 0.006804339090983073,
      "learning_rate": 2e-05,
      "loss": 1.2911,
      "loss/crossentropy": 2.49009108543396,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16606926918029785,
      "step": 459
    },
    {
      "epoch": 0.006868747200238913,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.007045427958170573,
      "learning_rate": 2e-05,
      "loss": 1.205,
      "loss/crossentropy": 2.6400084495544434,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15812143683433533,
      "step": 460
    },
    {
      "epoch": 0.006883679259369867,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.006880442301432292,
      "learning_rate": 2e-05,
      "loss": 1.2798,
      "loss/crossentropy": 2.443336248397827,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.18602094054222107,
      "step": 461
    },
    {
      "epoch": 0.006898611318500821,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.00732873280843099,
      "learning_rate": 2e-05,
      "loss": 1.2403,
      "loss/crossentropy": 2.221099376678467,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16219985485076904,
      "step": 462
    },
    {
      "epoch": 0.006913543377631775,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.007843462626139323,
      "learning_rate": 2e-05,
      "loss": 1.2735,
      "loss/crossentropy": 2.568125009536743,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17195746302604675,
      "step": 463
    },
    {
      "epoch": 0.006928475436762729,
      "grad_norm": 0.6328125,
      "grad_norm_var": 0.007334327697753907,
      "learning_rate": 2e-05,
      "loss": 1.2505,
      "loss/crossentropy": 2.489778518676758,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1646047830581665,
      "step": 464
    },
    {
      "epoch": 0.006943407495893684,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.007409095764160156,
      "learning_rate": 2e-05,
      "loss": 1.299,
      "loss/crossentropy": 2.5794758796691895,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1739940047264099,
      "step": 465
    },
    {
      "epoch": 0.006958339555024638,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0071807861328125,
      "learning_rate": 2e-05,
      "loss": 1.3035,
      "loss/crossentropy": 2.4775702953338623,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17069995403289795,
      "step": 466
    },
    {
      "epoch": 0.006973271614155592,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.007186746597290039,
      "learning_rate": 2e-05,
      "loss": 1.16,
      "loss/crossentropy": 2.651700258255005,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.14432933926582336,
      "step": 467
    },
    {
      "epoch": 0.006988203673286546,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.004795948664347331,
      "learning_rate": 2e-05,
      "loss": 1.2376,
      "loss/crossentropy": 2.6250648498535156,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.1673288345336914,
      "step": 468
    },
    {
      "epoch": 0.0070031357324175005,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.004558293024698893,
      "learning_rate": 2e-05,
      "loss": 1.2862,
      "loss/crossentropy": 2.5528345108032227,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1767835021018982,
      "step": 469
    },
    {
      "epoch": 0.007018067791548455,
      "grad_norm": 0.474609375,
      "grad_norm_var": 0.0049010594685872395,
      "learning_rate": 2e-05,
      "loss": 1.166,
      "loss/crossentropy": 2.459474563598633,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.14254210889339447,
      "step": 470
    },
    {
      "epoch": 0.007032999850679409,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.0045094172159830725,
      "learning_rate": 2e-05,
      "loss": 1.1841,
      "loss/crossentropy": 2.6750423908233643,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.15288898348808289,
      "step": 471
    },
    {
      "epoch": 0.007047931909810363,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.004443613688151041,
      "learning_rate": 2e-05,
      "loss": 1.3021,
      "loss/crossentropy": 2.6386568546295166,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1770569384098053,
      "step": 472
    },
    {
      "epoch": 0.007062863968941317,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.004354349772135417,
      "learning_rate": 2e-05,
      "loss": 1.2594,
      "loss/crossentropy": 2.706113576889038,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.17347458004951477,
      "step": 473
    },
    {
      "epoch": 0.007077796028072271,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.003172747294108073,
      "learning_rate": 2e-05,
      "loss": 1.2548,
      "loss/crossentropy": 2.6007003784179688,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16884616017341614,
      "step": 474
    },
    {
      "epoch": 0.007092728087203225,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0020197550455729168,
      "learning_rate": 2e-05,
      "loss": 1.2828,
      "loss/crossentropy": 2.5858445167541504,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.16564837098121643,
      "step": 475
    },
    {
      "epoch": 0.007107660146334179,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.0022866408030192058,
      "learning_rate": 2e-05,
      "loss": 1.1638,
      "loss/crossentropy": 2.386579751968384,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.14035974442958832,
      "step": 476
    },
    {
      "epoch": 0.007122592205465133,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.0024722894032796223,
      "learning_rate": 2e-05,
      "loss": 1.2395,
      "loss/crossentropy": 2.5994484424591064,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1613873541355133,
      "step": 477
    },
    {
      "epoch": 0.007137524264596088,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0024563948313395183,
      "learning_rate": 2e-05,
      "loss": 1.3159,
      "loss/crossentropy": 2.616286039352417,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.1752912998199463,
      "step": 478
    },
    {
      "epoch": 0.007152456323727042,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0024563948313395183,
      "learning_rate": 2e-05,
      "loss": 1.1997,
      "loss/crossentropy": 2.7094411849975586,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.16060031950473785,
      "step": 479
    },
    {
      "epoch": 0.007167388382857996,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0020831902821858723,
      "learning_rate": 2e-05,
      "loss": 1.2477,
      "loss/crossentropy": 2.761913776397705,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16173386573791504,
      "step": 480
    },
    {
      "epoch": 0.0071823204419889505,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0021238803863525392,
      "learning_rate": 2e-05,
      "loss": 1.2121,
      "loss/crossentropy": 2.754338502883911,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15745031833648682,
      "step": 481
    },
    {
      "epoch": 0.007197252501119905,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.0032099246978759765,
      "learning_rate": 2e-05,
      "loss": 1.3736,
      "loss/crossentropy": 2.5661139488220215,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.18609124422073364,
      "step": 482
    },
    {
      "epoch": 0.007212184560250859,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.003008460998535156,
      "learning_rate": 2e-05,
      "loss": 1.2358,
      "loss/crossentropy": 2.3610997200012207,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.15763944387435913,
      "step": 483
    },
    {
      "epoch": 0.007227116619381813,
      "grad_norm": 0.76171875,
      "grad_norm_var": 0.00573724110921224,
      "learning_rate": 2e-05,
      "loss": 1.4967,
      "loss/crossentropy": 2.4400460720062256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.28125,
      "loss/idx": 12.0,
      "loss/logits": 0.21541057527065277,
      "step": 484
    },
    {
      "epoch": 0.007242048678512767,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.00577691396077474,
      "learning_rate": 2e-05,
      "loss": 1.2353,
      "loss/crossentropy": 2.7640154361724854,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16499778628349304,
      "step": 485
    },
    {
      "epoch": 0.007256980737643721,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.005800231297810873,
      "learning_rate": 2e-05,
      "loss": 1.1987,
      "loss/crossentropy": 2.694920301437378,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15962320566177368,
      "step": 486
    },
    {
      "epoch": 0.007271912796774675,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.005239470799763998,
      "learning_rate": 2e-05,
      "loss": 1.2831,
      "loss/crossentropy": 2.8368988037109375,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17376646399497986,
      "step": 487
    },
    {
      "epoch": 0.007286844855905629,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.005339797337849935,
      "learning_rate": 2e-05,
      "loss": 1.2062,
      "loss/crossentropy": 2.394050121307373,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.14370450377464294,
      "step": 488
    },
    {
      "epoch": 0.007301776915036583,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.005156310399373373,
      "learning_rate": 2e-05,
      "loss": 1.2921,
      "loss/crossentropy": 2.6243531703948975,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17488384246826172,
      "step": 489
    },
    {
      "epoch": 0.007316708974167537,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.005259450276692708,
      "learning_rate": 2e-05,
      "loss": 1.2395,
      "loss/crossentropy": 2.6446375846862793,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16142112016677856,
      "step": 490
    },
    {
      "epoch": 0.007331641033298492,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.005516163508097331,
      "learning_rate": 2e-05,
      "loss": 1.2261,
      "loss/crossentropy": 2.3884522914886475,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14793342351913452,
      "step": 491
    },
    {
      "epoch": 0.007346573092429446,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.00520782470703125,
      "learning_rate": 2e-05,
      "loss": 1.2395,
      "loss/crossentropy": 2.611057758331299,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16138747334480286,
      "step": 492
    },
    {
      "epoch": 0.0073615051515604005,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.005091285705566407,
      "learning_rate": 2e-05,
      "loss": 1.235,
      "loss/crossentropy": 2.760316848754883,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16464349627494812,
      "step": 493
    },
    {
      "epoch": 0.0073764372106913546,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.005087725321451823,
      "learning_rate": 2e-05,
      "loss": 1.3381,
      "loss/crossentropy": 2.4796364307403564,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.19745641946792603,
      "step": 494
    },
    {
      "epoch": 0.007391369269822309,
      "grad_norm": 0.7578125,
      "grad_norm_var": 0.0074035008748372395,
      "learning_rate": 2e-05,
      "loss": 1.5507,
      "loss/crossentropy": 2.632960796356201,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3125,
      "loss/idx": 12.0,
      "loss/logits": 0.23823606967926025,
      "step": 495
    },
    {
      "epoch": 0.007406301328953263,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.007379595438639323,
      "learning_rate": 2e-05,
      "loss": 1.3475,
      "loss/crossentropy": 2.4685165882110596,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 12.0,
      "loss/logits": 0.16783174872398376,
      "step": 496
    },
    {
      "epoch": 0.007421233388084217,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.00743554433186849,
      "learning_rate": 2e-05,
      "loss": 1.2911,
      "loss/crossentropy": 2.674586534500122,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17387951910495758,
      "step": 497
    },
    {
      "epoch": 0.007436165447215171,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.006826273600260417,
      "learning_rate": 2e-05,
      "loss": 1.1969,
      "loss/crossentropy": 2.428183078765869,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15000945329666138,
      "step": 498
    },
    {
      "epoch": 0.007451097506346125,
      "grad_norm": 0.466796875,
      "grad_norm_var": 0.007436863581339518,
      "learning_rate": 2e-05,
      "loss": 1.1538,
      "loss/crossentropy": 2.430645704269409,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.13817110657691956,
      "step": 499
    },
    {
      "epoch": 0.007466029565477079,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.004628864924112955,
      "learning_rate": 2e-05,
      "loss": 1.2676,
      "loss/crossentropy": 2.6222951412200928,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16602060198783875,
      "step": 500
    },
    {
      "epoch": 0.007480961624608033,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.004681634902954102,
      "learning_rate": 2e-05,
      "loss": 1.2974,
      "loss/crossentropy": 2.3674845695495605,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.16458511352539062,
      "step": 501
    },
    {
      "epoch": 0.007495893683738987,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.00454875628153483,
      "learning_rate": 2e-05,
      "loss": 1.1938,
      "loss/crossentropy": 2.597952127456665,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15470948815345764,
      "step": 502
    },
    {
      "epoch": 0.007510825742869941,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.004706811904907226,
      "learning_rate": 2e-05,
      "loss": 1.1595,
      "loss/crossentropy": 2.6619369983673096,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 12.0,
      "loss/logits": 0.15948548913002014,
      "step": 503
    },
    {
      "epoch": 0.007525757802000896,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.004655186335245768,
      "learning_rate": 2e-05,
      "loss": 1.2799,
      "loss/crossentropy": 2.4827001094818115,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17829132080078125,
      "step": 504
    },
    {
      "epoch": 0.0075406898611318504,
      "grad_norm": 0.71875,
      "grad_norm_var": 0.006306568781534831,
      "learning_rate": 2e-05,
      "loss": 1.3244,
      "loss/crossentropy": 2.6411755084991455,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.19154754281044006,
      "step": 505
    },
    {
      "epoch": 0.0075556219202628045,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.00607446034749349,
      "learning_rate": 2e-05,
      "loss": 1.1721,
      "loss/crossentropy": 2.6066651344299316,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.1486879289150238,
      "step": 506
    },
    {
      "epoch": 0.007570553979393759,
      "grad_norm": 1.09375,
      "grad_norm_var": 0.022688023249308267,
      "learning_rate": 2e-05,
      "loss": 1.8032,
      "loss/crossentropy": 2.4730823040008545,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.5390625,
      "loss/idx": 12.0,
      "loss/logits": 0.264101505279541,
      "step": 507
    },
    {
      "epoch": 0.007585486038524713,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.022344700495402017,
      "learning_rate": 2e-05,
      "loss": 1.3164,
      "loss/crossentropy": 2.587294101715088,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.18363715708255768,
      "step": 508
    },
    {
      "epoch": 0.007600418097655667,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.02259837786356608,
      "learning_rate": 2e-05,
      "loss": 1.186,
      "loss/crossentropy": 2.5303711891174316,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.14696934819221497,
      "step": 509
    },
    {
      "epoch": 0.007615350156786621,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.022860066095987955,
      "learning_rate": 2e-05,
      "loss": 1.2258,
      "loss/crossentropy": 2.4873058795928955,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16325148940086365,
      "step": 510
    },
    {
      "epoch": 0.007630282215917575,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.021160618464152018,
      "learning_rate": 2e-05,
      "loss": 1.3853,
      "loss/crossentropy": 2.499600887298584,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.22127383947372437,
      "step": 511
    },
    {
      "epoch": 0.007645214275048529,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.02164139747619629,
      "learning_rate": 2e-05,
      "loss": 1.1943,
      "loss/crossentropy": 2.507723569869995,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.1552710235118866,
      "step": 512
    },
    {
      "epoch": 0.007660146334179483,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.021642033259073892,
      "learning_rate": 2e-05,
      "loss": 1.2238,
      "loss/crossentropy": 2.786867380142212,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15346887707710266,
      "step": 513
    },
    {
      "epoch": 0.007675078393310437,
      "grad_norm": 0.78125,
      "grad_norm_var": 0.023761987686157227,
      "learning_rate": 2e-05,
      "loss": 1.5063,
      "loss/crossentropy": 2.463454246520996,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2890625,
      "loss/idx": 12.0,
      "loss/logits": 0.21725308895111084,
      "step": 514
    },
    {
      "epoch": 0.007690010452441391,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.022735595703125,
      "learning_rate": 2e-05,
      "loss": 1.3415,
      "loss/crossentropy": 2.8017828464508057,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.19304242730140686,
      "step": 515
    },
    {
      "epoch": 0.0077049425115723455,
      "grad_norm": 0.6796875,
      "grad_norm_var": 0.022922515869140625,
      "learning_rate": 2e-05,
      "loss": 1.3884,
      "loss/crossentropy": 2.391439914703369,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.1931254267692566,
      "step": 516
    },
    {
      "epoch": 0.0077198745707032996,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.022409820556640626,
      "learning_rate": 2e-05,
      "loss": 1.3426,
      "loss/crossentropy": 2.592740058898926,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17067590355873108,
      "step": 517
    },
    {
      "epoch": 0.0077348066298342545,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.022965240478515624,
      "learning_rate": 2e-05,
      "loss": 1.2129,
      "loss/crossentropy": 2.682835340499878,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15816320478916168,
      "step": 518
    },
    {
      "epoch": 0.007749738688965209,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.022428131103515624,
      "learning_rate": 2e-05,
      "loss": 1.3196,
      "loss/crossentropy": 2.841771125793457,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.19456353783607483,
      "step": 519
    },
    {
      "epoch": 0.007764670748096163,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.021978187561035156,
      "learning_rate": 2e-05,
      "loss": 1.3445,
      "loss/crossentropy": 2.2829132080078125,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17264382541179657,
      "step": 520
    },
    {
      "epoch": 0.007779602807227117,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.02152551015218099,
      "learning_rate": 2e-05,
      "loss": 1.2809,
      "loss/crossentropy": 2.52323317527771,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17150172591209412,
      "step": 521
    },
    {
      "epoch": 0.007794534866358071,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.021214803059895832,
      "learning_rate": 2e-05,
      "loss": 1.3486,
      "loss/crossentropy": 2.559417724609375,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.20019292831420898,
      "step": 522
    },
    {
      "epoch": 0.007809466925489025,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.005003865559895833,
      "learning_rate": 2e-05,
      "loss": 1.2866,
      "loss/crossentropy": 2.2705278396606445,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1694566011428833,
      "step": 523
    },
    {
      "epoch": 0.007824398984619979,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.00509033203125,
      "learning_rate": 2e-05,
      "loss": 1.2626,
      "loss/crossentropy": 2.5298879146575928,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.16886663436889648,
      "step": 524
    },
    {
      "epoch": 0.007839331043750933,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.00489800771077474,
      "learning_rate": 2e-05,
      "loss": 1.3763,
      "loss/crossentropy": 2.5087928771972656,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.18884728848934174,
      "step": 525
    },
    {
      "epoch": 0.007854263102881887,
      "grad_norm": 0.6796875,
      "grad_norm_var": 0.00517724355061849,
      "learning_rate": 2e-05,
      "loss": 1.3889,
      "loss/crossentropy": 2.522796869277954,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17794877290725708,
      "step": 526
    },
    {
      "epoch": 0.007869195162012841,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0051986058553059895,
      "learning_rate": 2e-05,
      "loss": 1.1859,
      "loss/crossentropy": 2.575768232345581,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.1546417772769928,
      "step": 527
    },
    {
      "epoch": 0.007884127221143795,
      "grad_norm": 1.2734375,
      "grad_norm_var": 0.032515462239583334,
      "learning_rate": 2e-05,
      "loss": 1.826,
      "loss/crossentropy": 2.2920806407928467,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.4453125,
      "loss/idx": 12.0,
      "loss/logits": 0.38067495822906494,
      "step": 528
    },
    {
      "epoch": 0.00789905928027475,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.03280003865559896,
      "learning_rate": 2e-05,
      "loss": 1.3219,
      "loss/crossentropy": 2.600083351135254,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18125802278518677,
      "step": 529
    },
    {
      "epoch": 0.007913991339405704,
      "grad_norm": 0.71484375,
      "grad_norm_var": 0.03186944325764974,
      "learning_rate": 2e-05,
      "loss": 1.35,
      "loss/crossentropy": 2.3968639373779297,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.1625278890132904,
      "step": 530
    },
    {
      "epoch": 0.007928923398536658,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.031538836161295575,
      "learning_rate": 2e-05,
      "loss": 1.327,
      "loss/crossentropy": 2.8377633094787598,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.1941969245672226,
      "step": 531
    },
    {
      "epoch": 0.007943855457667612,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.032133992513020834,
      "learning_rate": 2e-05,
      "loss": 1.2754,
      "loss/crossentropy": 2.437499523162842,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17379987239837646,
      "step": 532
    },
    {
      "epoch": 0.007958787516798566,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.032719357808430986,
      "learning_rate": 2e-05,
      "loss": 1.3285,
      "loss/crossentropy": 2.624368190765381,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18789049983024597,
      "step": 533
    },
    {
      "epoch": 0.00797371957592952,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.032999420166015626,
      "learning_rate": 2e-05,
      "loss": 1.1739,
      "loss/crossentropy": 2.702047824859619,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.14263641834259033,
      "step": 534
    },
    {
      "epoch": 0.007988651635060474,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.032731119791666666,
      "learning_rate": 2e-05,
      "loss": 1.3157,
      "loss/crossentropy": 2.7412476539611816,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17504537105560303,
      "step": 535
    },
    {
      "epoch": 0.008003583694191428,
      "grad_norm": 0.66796875,
      "grad_norm_var": 0.032831827799479164,
      "learning_rate": 2e-05,
      "loss": 1.3453,
      "loss/crossentropy": 2.646535634994507,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.19684037566184998,
      "step": 536
    },
    {
      "epoch": 0.008018515753322384,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.03286787668863932,
      "learning_rate": 2e-05,
      "loss": 1.3575,
      "loss/crossentropy": 2.4461722373962402,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.18560636043548584,
      "step": 537
    },
    {
      "epoch": 0.008033447812453338,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.033014869689941405,
      "learning_rate": 2e-05,
      "loss": 1.2235,
      "loss/crossentropy": 2.7021944522857666,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16099202632904053,
      "step": 538
    },
    {
      "epoch": 0.008048379871584292,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.033599599202473955,
      "learning_rate": 2e-05,
      "loss": 1.1725,
      "loss/crossentropy": 2.6571671962738037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.14905613660812378,
      "step": 539
    },
    {
      "epoch": 0.008063311930715246,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.03315575917561849,
      "learning_rate": 2e-05,
      "loss": 1.3608,
      "loss/crossentropy": 2.54116153717041,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.18891382217407227,
      "step": 540
    },
    {
      "epoch": 0.0080782439898462,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.034057362874348955,
      "learning_rate": 2e-05,
      "loss": 1.2093,
      "loss/crossentropy": 2.552755355834961,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.16238316893577576,
      "step": 541
    },
    {
      "epoch": 0.008093176048977154,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.033943430582682295,
      "learning_rate": 2e-05,
      "loss": 1.21,
      "loss/crossentropy": 2.474992275238037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.16313990950584412,
      "step": 542
    },
    {
      "epoch": 0.008108108108108109,
      "grad_norm": 0.64453125,
      "grad_norm_var": 0.03388163248697917,
      "learning_rate": 2e-05,
      "loss": 1.4651,
      "loss/crossentropy": 2.347513198852539,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.22293345630168915,
      "step": 543
    },
    {
      "epoch": 0.008123040167239063,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.003536415100097656,
      "learning_rate": 2e-05,
      "loss": 1.1549,
      "loss/crossentropy": 2.6457583904266357,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.13925421237945557,
      "step": 544
    },
    {
      "epoch": 0.008137972226370017,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0036101659138997396,
      "learning_rate": 2e-05,
      "loss": 1.2341,
      "loss/crossentropy": 2.5168657302856445,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16381186246871948,
      "step": 545
    },
    {
      "epoch": 0.00815290428550097,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.0024449030558268228,
      "learning_rate": 2e-05,
      "loss": 1.1984,
      "loss/crossentropy": 2.518291711807251,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15153710544109344,
      "step": 546
    },
    {
      "epoch": 0.008167836344631925,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.003009033203125,
      "learning_rate": 2e-05,
      "loss": 1.42,
      "loss/crossentropy": 2.566648244857788,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 12.0,
      "loss/logits": 0.18559721112251282,
      "step": 547
    },
    {
      "epoch": 0.008182768403762879,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0032207330067952475,
      "learning_rate": 2e-05,
      "loss": 1.1543,
      "loss/crossentropy": 2.616701364517212,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14649763703346252,
      "step": 548
    },
    {
      "epoch": 0.008197700462893833,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.003171523412068685,
      "learning_rate": 2e-05,
      "loss": 1.2761,
      "loss/crossentropy": 2.670872688293457,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16675950586795807,
      "step": 549
    },
    {
      "epoch": 0.008212632522024787,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0029764652252197267,
      "learning_rate": 2e-05,
      "loss": 1.2667,
      "loss/crossentropy": 2.361363410949707,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.172979474067688,
      "step": 550
    },
    {
      "epoch": 0.008227564581155741,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0030925591786702474,
      "learning_rate": 2e-05,
      "loss": 1.3208,
      "loss/crossentropy": 2.6893482208251953,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18016394972801208,
      "step": 551
    },
    {
      "epoch": 0.008242496640286695,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0022516727447509767,
      "learning_rate": 2e-05,
      "loss": 1.2538,
      "loss/crossentropy": 2.5788474082946777,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16790160536766052,
      "step": 552
    },
    {
      "epoch": 0.00825742869941765,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.002258920669555664,
      "learning_rate": 2e-05,
      "loss": 1.2469,
      "loss/crossentropy": 2.7054810523986816,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16093963384628296,
      "step": 553
    },
    {
      "epoch": 0.008272360758548604,
      "grad_norm": 0.7421875,
      "grad_norm_var": 0.004607884089152018,
      "learning_rate": 2e-05,
      "loss": 1.4921,
      "loss/crossentropy": 2.5595617294311523,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.25,
      "loss/idx": 12.0,
      "loss/logits": 0.2420843541622162,
      "step": 554
    },
    {
      "epoch": 0.008287292817679558,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.004591608047485351,
      "learning_rate": 2e-05,
      "loss": 1.2663,
      "loss/crossentropy": 3.0859930515289307,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16476529836654663,
      "step": 555
    },
    {
      "epoch": 0.008302224876810512,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.004555368423461914,
      "learning_rate": 2e-05,
      "loss": 1.3437,
      "loss/crossentropy": 2.519860029220581,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.1952182948589325,
      "step": 556
    },
    {
      "epoch": 0.008317156935941466,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0045825799306233725,
      "learning_rate": 2e-05,
      "loss": 1.2765,
      "loss/crossentropy": 2.5596110820770264,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17497843503952026,
      "step": 557
    },
    {
      "epoch": 0.00833208899507242,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.004819997151692708,
      "learning_rate": 2e-05,
      "loss": 1.1638,
      "loss/crossentropy": 2.6705644130706787,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1560230553150177,
      "step": 558
    },
    {
      "epoch": 0.008347021054203374,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.004242897033691406,
      "learning_rate": 2e-05,
      "loss": 1.2259,
      "loss/crossentropy": 2.432647466659546,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.1556343138217926,
      "step": 559
    },
    {
      "epoch": 0.008361953113334328,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0042652765909830725,
      "learning_rate": 2e-05,
      "loss": 1.3295,
      "loss/crossentropy": 2.516251564025879,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18889586627483368,
      "step": 560
    },
    {
      "epoch": 0.008376885172465282,
      "grad_norm": 1.0390625,
      "grad_norm_var": 0.019082132975260416,
      "learning_rate": 2e-05,
      "loss": 1.6007,
      "loss/crossentropy": 2.3152377605438232,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.34375,
      "loss/idx": 12.0,
      "loss/logits": 0.2569894790649414,
      "step": 561
    },
    {
      "epoch": 0.008391817231596236,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.018512217203776042,
      "learning_rate": 2e-05,
      "loss": 1.1934,
      "loss/crossentropy": 2.74574875831604,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15431912243366241,
      "step": 562
    },
    {
      "epoch": 0.008406749290727192,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.01868602434794108,
      "learning_rate": 2e-05,
      "loss": 1.2298,
      "loss/crossentropy": 2.555695056915283,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1516464799642563,
      "step": 563
    },
    {
      "epoch": 0.008421681349858146,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.018361918131510415,
      "learning_rate": 2e-05,
      "loss": 1.1969,
      "loss/crossentropy": 2.6115164756774902,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1500345766544342,
      "step": 564
    },
    {
      "epoch": 0.0084366134089891,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.018352699279785157,
      "learning_rate": 2e-05,
      "loss": 1.311,
      "loss/crossentropy": 2.468400478363037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17037324607372284,
      "step": 565
    },
    {
      "epoch": 0.008451545468120054,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.018457984924316405,
      "learning_rate": 2e-05,
      "loss": 1.2793,
      "loss/crossentropy": 2.5954904556274414,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17773208022117615,
      "step": 566
    },
    {
      "epoch": 0.008466477527251009,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.01805267333984375,
      "learning_rate": 2e-05,
      "loss": 1.3878,
      "loss/crossentropy": 2.4109535217285156,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.19250379502773285,
      "step": 567
    },
    {
      "epoch": 0.008481409586381963,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.018475786844889323,
      "learning_rate": 2e-05,
      "loss": 1.1878,
      "loss/crossentropy": 2.3730239868164062,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.14876341819763184,
      "step": 568
    },
    {
      "epoch": 0.008496341645512917,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.01833648681640625,
      "learning_rate": 2e-05,
      "loss": 1.3256,
      "loss/crossentropy": 2.475072145462036,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18494603037834167,
      "step": 569
    },
    {
      "epoch": 0.00851127370464387,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.016826883951822916,
      "learning_rate": 2e-05,
      "loss": 1.153,
      "loss/crossentropy": 2.537174940109253,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1451968550682068,
      "step": 570
    },
    {
      "epoch": 0.008526205763774825,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.016962623596191405,
      "learning_rate": 2e-05,
      "loss": 1.2862,
      "loss/crossentropy": 2.5827090740203857,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1767972707748413,
      "step": 571
    },
    {
      "epoch": 0.008541137822905779,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.01691411336263021,
      "learning_rate": 2e-05,
      "loss": 1.3106,
      "loss/crossentropy": 2.3603527545928955,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17780755460262299,
      "step": 572
    },
    {
      "epoch": 0.008556069882036733,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.01665948232014974,
      "learning_rate": 2e-05,
      "loss": 1.2905,
      "loss/crossentropy": 2.3075900077819824,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16551288962364197,
      "step": 573
    },
    {
      "epoch": 0.008571001941167687,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.01626585324605306,
      "learning_rate": 2e-05,
      "loss": 1.3477,
      "loss/crossentropy": 2.506995439529419,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.19144755601882935,
      "step": 574
    },
    {
      "epoch": 0.008585934000298641,
      "grad_norm": 0.71484375,
      "grad_norm_var": 0.01706070899963379,
      "learning_rate": 2e-05,
      "loss": 1.5414,
      "loss/crossentropy": 2.3521230220794678,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3203125,
      "loss/idx": 12.0,
      "loss/logits": 0.2211102545261383,
      "step": 575
    },
    {
      "epoch": 0.008600866059429595,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.01742386817932129,
      "learning_rate": 2e-05,
      "loss": 1.3131,
      "loss/crossentropy": 2.6059999465942383,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.18809755146503448,
      "step": 576
    },
    {
      "epoch": 0.00861579811856055,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0032976627349853515,
      "learning_rate": 2e-05,
      "loss": 1.403,
      "loss/crossentropy": 2.578143835067749,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 12.0,
      "loss/logits": 0.19208408892154694,
      "step": 577
    },
    {
      "epoch": 0.008630730177691504,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0033836205800374347,
      "learning_rate": 2e-05,
      "loss": 1.2463,
      "loss/crossentropy": 2.582569122314453,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16822180151939392,
      "step": 578
    },
    {
      "epoch": 0.008645662236822458,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.0035033543904622396,
      "learning_rate": 2e-05,
      "loss": 1.4421,
      "loss/crossentropy": 2.4856603145599365,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.22337768971920013,
      "step": 579
    },
    {
      "epoch": 0.008660594295953412,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0037914117177327475,
      "learning_rate": 2e-05,
      "loss": 1.2455,
      "loss/crossentropy": 2.372971534729004,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.15174807608127594,
      "step": 580
    },
    {
      "epoch": 0.008675526355084366,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.003861729303995768,
      "learning_rate": 2e-05,
      "loss": 1.2073,
      "loss/crossentropy": 2.7692155838012695,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1604694277048111,
      "step": 581
    },
    {
      "epoch": 0.00869045841421532,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.003681039810180664,
      "learning_rate": 2e-05,
      "loss": 1.2814,
      "loss/crossentropy": 2.6545069217681885,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17197799682617188,
      "step": 582
    },
    {
      "epoch": 0.008705390473346274,
      "grad_norm": 0.462890625,
      "grad_norm_var": 0.004316139221191406,
      "learning_rate": 2e-05,
      "loss": 1.1049,
      "loss/crossentropy": 2.683872938156128,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.97265625,
      "loss/idx": 12.0,
      "loss/logits": 0.13223010301589966,
      "step": 583
    },
    {
      "epoch": 0.008720322532477228,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.004009437561035156,
      "learning_rate": 2e-05,
      "loss": 1.311,
      "loss/crossentropy": 2.4532418251037598,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17814823985099792,
      "step": 584
    },
    {
      "epoch": 0.008735254591608182,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.00422210693359375,
      "learning_rate": 2e-05,
      "loss": 1.2304,
      "loss/crossentropy": 2.5566062927246094,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16788913309574127,
      "step": 585
    },
    {
      "epoch": 0.008750186650739136,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.004189300537109375,
      "learning_rate": 2e-05,
      "loss": 1.2254,
      "loss/crossentropy": 2.733366012573242,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.17072361707687378,
      "step": 586
    },
    {
      "epoch": 0.00876511870987009,
      "grad_norm": 0.6640625,
      "grad_norm_var": 0.004677772521972656,
      "learning_rate": 2e-05,
      "loss": 1.2663,
      "loss/crossentropy": 2.689211845397949,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1803634762763977,
      "step": 587
    },
    {
      "epoch": 0.008780050769001044,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0047609965006510414,
      "learning_rate": 2e-05,
      "loss": 1.1999,
      "loss/crossentropy": 2.5483739376068115,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.16079798340797424,
      "step": 588
    },
    {
      "epoch": 0.008794982828131999,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.00543969472249349,
      "learning_rate": 2e-05,
      "loss": 1.2913,
      "loss/crossentropy": 2.7356832027435303,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16630901396274567,
      "step": 589
    },
    {
      "epoch": 0.008809914887262954,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.005695025126139323,
      "learning_rate": 2e-05,
      "loss": 1.3674,
      "loss/crossentropy": 2.607666015625,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 12.0,
      "loss/logits": 0.18775686621665955,
      "step": 590
    },
    {
      "epoch": 0.008824846946393908,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.004665867487589518,
      "learning_rate": 2e-05,
      "loss": 1.2201,
      "loss/crossentropy": 2.525197982788086,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15761615335941315,
      "step": 591
    },
    {
      "epoch": 0.008839779005524863,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0045473575592041016,
      "learning_rate": 2e-05,
      "loss": 1.2657,
      "loss/crossentropy": 2.3301258087158203,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.18756815791130066,
      "step": 592
    },
    {
      "epoch": 0.008854711064655817,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.004490772883097331,
      "learning_rate": 2e-05,
      "loss": 1.2597,
      "loss/crossentropy": 2.576165199279785,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.17378875613212585,
      "step": 593
    },
    {
      "epoch": 0.00886964312378677,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.004696766535441081,
      "learning_rate": 2e-05,
      "loss": 1.1644,
      "loss/crossentropy": 2.6105165481567383,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.14877916872501373,
      "step": 594
    },
    {
      "epoch": 0.008884575182917725,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0041913191477457685,
      "learning_rate": 2e-05,
      "loss": 1.2399,
      "loss/crossentropy": 2.6493771076202393,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16178762912750244,
      "step": 595
    },
    {
      "epoch": 0.008899507242048679,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.004147783915201823,
      "learning_rate": 2e-05,
      "loss": 1.1916,
      "loss/crossentropy": 2.4031014442443848,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15257549285888672,
      "step": 596
    },
    {
      "epoch": 0.008914439301179633,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.004147783915201823,
      "learning_rate": 2e-05,
      "loss": 1.219,
      "loss/crossentropy": 2.6648566722869873,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.16428467631340027,
      "step": 597
    },
    {
      "epoch": 0.008929371360310587,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.004361073176066081,
      "learning_rate": 2e-05,
      "loss": 1.1408,
      "loss/crossentropy": 2.4159302711486816,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.99609375,
      "loss/idx": 12.0,
      "loss/logits": 0.14472083747386932,
      "step": 598
    },
    {
      "epoch": 0.008944303419441541,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.00417327880859375,
      "learning_rate": 2e-05,
      "loss": 1.3695,
      "loss/crossentropy": 2.6700379848480225,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.20542120933532715,
      "step": 599
    },
    {
      "epoch": 0.008959235478572495,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.004172706604003906,
      "learning_rate": 2e-05,
      "loss": 1.2161,
      "loss/crossentropy": 2.6093008518218994,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15361179411411285,
      "step": 600
    },
    {
      "epoch": 0.00897416753770345,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.003957621256510417,
      "learning_rate": 2e-05,
      "loss": 1.322,
      "loss/crossentropy": 2.6258511543273926,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18138790130615234,
      "step": 601
    },
    {
      "epoch": 0.008989099596834403,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.004235331217447917,
      "learning_rate": 2e-05,
      "loss": 1.521,
      "loss/crossentropy": 2.5401480197906494,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.296875,
      "loss/idx": 12.0,
      "loss/logits": 0.22416627407073975,
      "step": 602
    },
    {
      "epoch": 0.009004031655965358,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.003630510965983073,
      "learning_rate": 2e-05,
      "loss": 1.3557,
      "loss/crossentropy": 2.61795973777771,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1838516741991043,
      "step": 603
    },
    {
      "epoch": 0.009018963715096312,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0035535176595052082,
      "learning_rate": 2e-05,
      "loss": 1.2715,
      "loss/crossentropy": 2.5267536640167236,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16214627027511597,
      "step": 604
    },
    {
      "epoch": 0.009033895774227266,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0027175267537434896,
      "learning_rate": 2e-05,
      "loss": 1.2625,
      "loss/crossentropy": 2.503329038619995,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.1608983874320984,
      "step": 605
    },
    {
      "epoch": 0.00904882783335822,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0021313985188802084,
      "learning_rate": 2e-05,
      "loss": 1.3283,
      "loss/crossentropy": 2.4117980003356934,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.1720181107521057,
      "step": 606
    },
    {
      "epoch": 0.009063759892489174,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0018709659576416015,
      "learning_rate": 2e-05,
      "loss": 1.2359,
      "loss/crossentropy": 2.691850423812866,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.1734330952167511,
      "step": 607
    },
    {
      "epoch": 0.009078691951620128,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.001930093765258789,
      "learning_rate": 2e-05,
      "loss": 1.2051,
      "loss/crossentropy": 2.514829635620117,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15824373066425323,
      "step": 608
    },
    {
      "epoch": 0.009093624010751082,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0019861698150634766,
      "learning_rate": 2e-05,
      "loss": 1.2934,
      "loss/crossentropy": 2.523049831390381,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17622219026088715,
      "step": 609
    },
    {
      "epoch": 0.009108556069882036,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.001901865005493164,
      "learning_rate": 2e-05,
      "loss": 1.1657,
      "loss/crossentropy": 2.4890053272247314,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.14229866862297058,
      "step": 610
    },
    {
      "epoch": 0.00912348812901299,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0018049716949462891,
      "learning_rate": 2e-05,
      "loss": 1.279,
      "loss/crossentropy": 2.4220166206359863,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.1774497777223587,
      "step": 611
    },
    {
      "epoch": 0.009138420188143944,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0016600131988525391,
      "learning_rate": 2e-05,
      "loss": 1.2903,
      "loss/crossentropy": 2.6942455768585205,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1808762103319168,
      "step": 612
    },
    {
      "epoch": 0.009153352247274898,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0016888777414957683,
      "learning_rate": 2e-05,
      "loss": 1.3349,
      "loss/crossentropy": 2.5151455402374268,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.17866647243499756,
      "step": 613
    },
    {
      "epoch": 0.009168284306405853,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.0018091201782226562,
      "learning_rate": 2e-05,
      "loss": 1.3485,
      "loss/crossentropy": 2.5160040855407715,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.19221991300582886,
      "step": 614
    },
    {
      "epoch": 0.009183216365536807,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0015380859375,
      "learning_rate": 2e-05,
      "loss": 1.2869,
      "loss/crossentropy": 2.493112087249756,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16190239787101746,
      "step": 615
    },
    {
      "epoch": 0.009198148424667763,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.0021563212076822916,
      "learning_rate": 2e-05,
      "loss": 1.2114,
      "loss/crossentropy": 2.559445381164551,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.14888477325439453,
      "step": 616
    },
    {
      "epoch": 0.009213080483798717,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.002269490559895833,
      "learning_rate": 2e-05,
      "loss": 1.3424,
      "loss/crossentropy": 2.2312510013580322,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.15492798388004303,
      "step": 617
    },
    {
      "epoch": 0.00922801254292967,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.002109527587890625,
      "learning_rate": 2e-05,
      "loss": 1.1577,
      "loss/crossentropy": 2.72347354888916,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14986461400985718,
      "step": 618
    },
    {
      "epoch": 0.009242944602060625,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0021787007649739583,
      "learning_rate": 2e-05,
      "loss": 1.3219,
      "loss/crossentropy": 2.683133125305176,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18123763799667358,
      "step": 619
    },
    {
      "epoch": 0.009257876661191579,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.0026152928670247397,
      "learning_rate": 2e-05,
      "loss": 1.2966,
      "loss/crossentropy": 2.640098810195923,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.17159606516361237,
      "step": 620
    },
    {
      "epoch": 0.009272808720322533,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0028195699055989583,
      "learning_rate": 2e-05,
      "loss": 1.1244,
      "loss/crossentropy": 2.522538661956787,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9921875,
      "loss/idx": 12.0,
      "loss/logits": 0.13216978311538696,
      "step": 621
    },
    {
      "epoch": 0.009287740779453487,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0028090794881184896,
      "learning_rate": 2e-05,
      "loss": 1.2727,
      "loss/crossentropy": 2.597336530685425,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.171115443110466,
      "step": 622
    },
    {
      "epoch": 0.009302672838584441,
      "grad_norm": 1.625,
      "grad_norm_var": 0.07398656209309896,
      "learning_rate": 2e-05,
      "loss": 1.4228,
      "loss/crossentropy": 3.3440957069396973,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.25,
      "loss/idx": 12.0,
      "loss/logits": 0.1728263944387436,
      "step": 623
    },
    {
      "epoch": 0.009317604897715395,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.073442014058431,
      "learning_rate": 2e-05,
      "loss": 1.2968,
      "loss/crossentropy": 2.5757291316986084,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1718222051858902,
      "step": 624
    },
    {
      "epoch": 0.00933253695684635,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0733407974243164,
      "learning_rate": 2e-05,
      "loss": 1.2285,
      "loss/crossentropy": 2.482468605041504,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.1582183539867401,
      "step": 625
    },
    {
      "epoch": 0.009347469015977303,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0725778579711914,
      "learning_rate": 2e-05,
      "loss": 1.4247,
      "loss/crossentropy": 2.2671515941619873,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.2216186374425888,
      "step": 626
    },
    {
      "epoch": 0.009362401075108258,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0723785400390625,
      "learning_rate": 2e-05,
      "loss": 1.2715,
      "loss/crossentropy": 2.383666515350342,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.19337865710258484,
      "step": 627
    },
    {
      "epoch": 0.009377333134239212,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.07320753733317058,
      "learning_rate": 2e-05,
      "loss": 1.1818,
      "loss/crossentropy": 2.647897243499756,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.15054702758789062,
      "step": 628
    },
    {
      "epoch": 0.009392265193370166,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.07304865519205729,
      "learning_rate": 2e-05,
      "loss": 1.2364,
      "loss/crossentropy": 2.7212166786193848,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16603776812553406,
      "step": 629
    },
    {
      "epoch": 0.00940719725250112,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.07349014282226562,
      "learning_rate": 2e-05,
      "loss": 1.3161,
      "loss/crossentropy": 2.613542318344116,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.19105498492717743,
      "step": 630
    },
    {
      "epoch": 0.009422129311632074,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.07334365844726562,
      "learning_rate": 2e-05,
      "loss": 1.2691,
      "loss/crossentropy": 2.55253529548645,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16752402484416962,
      "step": 631
    },
    {
      "epoch": 0.009437061370763028,
      "grad_norm": 0.6640625,
      "grad_norm_var": 0.07336266835530598,
      "learning_rate": 2e-05,
      "loss": 1.2329,
      "loss/crossentropy": 2.688462734222412,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.1703636348247528,
      "step": 632
    },
    {
      "epoch": 0.009451993429893982,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.07370503743489583,
      "learning_rate": 2e-05,
      "loss": 1.2271,
      "loss/crossentropy": 2.488166570663452,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16464681923389435,
      "step": 633
    },
    {
      "epoch": 0.009466925489024936,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.073765500386556,
      "learning_rate": 2e-05,
      "loss": 1.226,
      "loss/crossentropy": 2.471609115600586,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.155724436044693,
      "step": 634
    },
    {
      "epoch": 0.00948185754815589,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0734392801920573,
      "learning_rate": 2e-05,
      "loss": 1.2426,
      "loss/crossentropy": 2.4193055629730225,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.15662391483783722,
      "step": 635
    },
    {
      "epoch": 0.009496789607286844,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.07389418284098308,
      "learning_rate": 2e-05,
      "loss": 1.2934,
      "loss/crossentropy": 2.5824780464172363,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.18399065732955933,
      "step": 636
    },
    {
      "epoch": 0.009511721666417798,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.07299340565999349,
      "learning_rate": 2e-05,
      "loss": 1.2094,
      "loss/crossentropy": 2.6305127143859863,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15475600957870483,
      "step": 637
    },
    {
      "epoch": 0.009526653725548753,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.07276509602864584,
      "learning_rate": 2e-05,
      "loss": 1.2025,
      "loss/crossentropy": 2.63283371925354,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.163466677069664,
      "step": 638
    },
    {
      "epoch": 0.009541585784679707,
      "grad_norm": 0.5,
      "grad_norm_var": 0.0020131429036458334,
      "learning_rate": 2e-05,
      "loss": 1.1414,
      "loss/crossentropy": 2.563518762588501,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 12.0,
      "loss/logits": 0.14137643575668335,
      "step": 639
    },
    {
      "epoch": 0.00955651784381066,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0020050048828125,
      "learning_rate": 2e-05,
      "loss": 1.143,
      "loss/crossentropy": 2.7085118293762207,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 12.0,
      "loss/logits": 0.14298370480537415,
      "step": 640
    },
    {
      "epoch": 0.009571449902941615,
      "grad_norm": 0.482421875,
      "grad_norm_var": 0.0022955417633056642,
      "learning_rate": 2e-05,
      "loss": 1.0613,
      "loss/crossentropy": 2.453303098678589,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.94140625,
      "loss/idx": 12.0,
      "loss/logits": 0.11989939212799072,
      "step": 641
    },
    {
      "epoch": 0.00958638196207257,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0022699832916259766,
      "learning_rate": 2e-05,
      "loss": 1.3519,
      "loss/crossentropy": 2.531151294708252,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.20343336462974548,
      "step": 642
    },
    {
      "epoch": 0.009601314021203525,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0023386478424072266,
      "learning_rate": 2e-05,
      "loss": 1.226,
      "loss/crossentropy": 2.747368097305298,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.1635451763868332,
      "step": 643
    },
    {
      "epoch": 0.009616246080334479,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.002294158935546875,
      "learning_rate": 2e-05,
      "loss": 1.1569,
      "loss/crossentropy": 2.6408183574676514,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14904196560382843,
      "step": 644
    },
    {
      "epoch": 0.009631178139465433,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.002356402079264323,
      "learning_rate": 2e-05,
      "loss": 1.292,
      "loss/crossentropy": 2.741863489151001,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16696280241012573,
      "step": 645
    },
    {
      "epoch": 0.009646110198596387,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.002453104654947917,
      "learning_rate": 2e-05,
      "loss": 1.2767,
      "loss/crossentropy": 2.5982935428619385,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17511314153671265,
      "step": 646
    },
    {
      "epoch": 0.009661042257727341,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0025873819986979166,
      "learning_rate": 2e-05,
      "loss": 1.3794,
      "loss/crossentropy": 2.221534252166748,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.18411913514137268,
      "step": 647
    },
    {
      "epoch": 0.009675974316858295,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0016718546549479166,
      "learning_rate": 2e-05,
      "loss": 1.2579,
      "loss/crossentropy": 2.5770785808563232,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.17191347479820251,
      "step": 648
    },
    {
      "epoch": 0.00969090637598925,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.001659075419108073,
      "learning_rate": 2e-05,
      "loss": 1.1903,
      "loss/crossentropy": 2.5759243965148926,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15121833980083466,
      "step": 649
    },
    {
      "epoch": 0.009705838435120203,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0015848159790039062,
      "learning_rate": 2e-05,
      "loss": 1.2818,
      "loss/crossentropy": 2.791914224624634,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.18024246394634247,
      "step": 650
    },
    {
      "epoch": 0.009720770494251157,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.001580047607421875,
      "learning_rate": 2e-05,
      "loss": 1.3524,
      "loss/crossentropy": 2.622012138366699,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.18833482265472412,
      "step": 651
    },
    {
      "epoch": 0.009735702553382112,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0016458511352539062,
      "learning_rate": 2e-05,
      "loss": 1.318,
      "loss/crossentropy": 2.5040524005889893,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.1773415207862854,
      "step": 652
    },
    {
      "epoch": 0.009750634612513066,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.001262664794921875,
      "learning_rate": 2e-05,
      "loss": 1.2424,
      "loss/crossentropy": 2.6082024574279785,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16425400972366333,
      "step": 653
    },
    {
      "epoch": 0.00976556667164402,
      "grad_norm": 0.5,
      "grad_norm_var": 0.001073455810546875,
      "learning_rate": 2e-05,
      "loss": 1.2584,
      "loss/crossentropy": 2.7121970653533936,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.17245107889175415,
      "step": 654
    },
    {
      "epoch": 0.009780498730774974,
      "grad_norm": 0.46484375,
      "grad_norm_var": 0.0012857437133789063,
      "learning_rate": 2e-05,
      "loss": 1.1393,
      "loss/crossentropy": 2.605868101119995,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 12.0,
      "loss/logits": 0.13928866386413574,
      "step": 655
    },
    {
      "epoch": 0.009795430789905928,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.00193634033203125,
      "learning_rate": 2e-05,
      "loss": 1.4061,
      "loss/crossentropy": 2.5328142642974854,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1951315701007843,
      "step": 656
    },
    {
      "epoch": 0.009810362849036882,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0018085320790608725,
      "learning_rate": 2e-05,
      "loss": 1.1623,
      "loss/crossentropy": 2.591285228729248,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.1467236578464508,
      "step": 657
    },
    {
      "epoch": 0.009825294908167836,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0017818291982014975,
      "learning_rate": 2e-05,
      "loss": 1.2404,
      "loss/crossentropy": 2.678740978240967,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16228888928890228,
      "step": 658
    },
    {
      "epoch": 0.00984022696729879,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0017978509267171225,
      "learning_rate": 2e-05,
      "loss": 1.197,
      "loss/crossentropy": 2.5414230823516846,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15012088418006897,
      "step": 659
    },
    {
      "epoch": 0.009855159026429744,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.0020608901977539062,
      "learning_rate": 2e-05,
      "loss": 1.369,
      "loss/crossentropy": 2.403024435043335,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.18149128556251526,
      "step": 660
    },
    {
      "epoch": 0.009870091085560698,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.0021647135416666668,
      "learning_rate": 2e-05,
      "loss": 1.2125,
      "loss/crossentropy": 2.634225368499756,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.16562089323997498,
      "step": 661
    },
    {
      "epoch": 0.009885023144691652,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0021071751912434896,
      "learning_rate": 2e-05,
      "loss": 1.1779,
      "loss/crossentropy": 2.8136699199676514,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16229188442230225,
      "step": 662
    },
    {
      "epoch": 0.009899955203822607,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.0021666844685872396,
      "learning_rate": 2e-05,
      "loss": 1.417,
      "loss/crossentropy": 2.579958915710449,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.19826620817184448,
      "step": 663
    },
    {
      "epoch": 0.00991488726295356,
      "grad_norm": 0.65625,
      "grad_norm_var": 0.0028914769490559896,
      "learning_rate": 2e-05,
      "loss": 1.4121,
      "loss/crossentropy": 2.441436529159546,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.20899558067321777,
      "step": 664
    },
    {
      "epoch": 0.009929819322084515,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0029782613118489584,
      "learning_rate": 2e-05,
      "loss": 1.2005,
      "loss/crossentropy": 2.5218026638031006,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1536444127559662,
      "step": 665
    },
    {
      "epoch": 0.009944751381215469,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0030364354451497396,
      "learning_rate": 2e-05,
      "loss": 1.2123,
      "loss/crossentropy": 2.6483314037323,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15763527154922485,
      "step": 666
    },
    {
      "epoch": 0.009959683440346423,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0030476252237955728,
      "learning_rate": 2e-05,
      "loss": 1.1919,
      "loss/crossentropy": 2.708850383758545,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.1528831422328949,
      "step": 667
    },
    {
      "epoch": 0.009974615499477379,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.003114763895670573,
      "learning_rate": 2e-05,
      "loss": 1.202,
      "loss/crossentropy": 2.585891008377075,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15510644018650055,
      "step": 668
    },
    {
      "epoch": 0.009989547558608333,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.003212229410807292,
      "learning_rate": 2e-05,
      "loss": 1.2312,
      "loss/crossentropy": 2.487285614013672,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16083845496177673,
      "step": 669
    },
    {
      "epoch": 0.010004479617739287,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.0032483259836832683,
      "learning_rate": 2e-05,
      "loss": 1.1847,
      "loss/crossentropy": 2.699873924255371,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.15343204140663147,
      "step": 670
    },
    {
      "epoch": 0.010019411676870241,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.002868509292602539,
      "learning_rate": 2e-05,
      "loss": 1.2348,
      "loss/crossentropy": 2.5884616374969482,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.18012240529060364,
      "step": 671
    },
    {
      "epoch": 0.010034343736001195,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.002467966079711914,
      "learning_rate": 2e-05,
      "loss": 1.1819,
      "loss/crossentropy": 2.445880889892578,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.1506287306547165,
      "step": 672
    },
    {
      "epoch": 0.01004927579513215,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0024401187896728516,
      "learning_rate": 2e-05,
      "loss": 1.2579,
      "loss/crossentropy": 2.3222944736480713,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.15637820959091187,
      "step": 673
    },
    {
      "epoch": 0.010064207854263103,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0024401187896728516,
      "learning_rate": 2e-05,
      "loss": 1.2937,
      "loss/crossentropy": 2.3992764949798584,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1843375265598297,
      "step": 674
    },
    {
      "epoch": 0.010079139913394057,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0023333072662353516,
      "learning_rate": 2e-05,
      "loss": 1.3425,
      "loss/crossentropy": 2.4430034160614014,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.1940709352493286,
      "step": 675
    },
    {
      "epoch": 0.010094071972525012,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0019924004872639975,
      "learning_rate": 2e-05,
      "loss": 1.2304,
      "loss/crossentropy": 2.6293787956237793,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16787387430667877,
      "step": 676
    },
    {
      "epoch": 0.010109004031655966,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0017811934153238933,
      "learning_rate": 2e-05,
      "loss": 1.2056,
      "loss/crossentropy": 2.738004207611084,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15091140568256378,
      "step": 677
    },
    {
      "epoch": 0.01012393609078692,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0017575422922770183,
      "learning_rate": 2e-05,
      "loss": 1.2279,
      "loss/crossentropy": 2.484860897064209,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15762406587600708,
      "step": 678
    },
    {
      "epoch": 0.010138868149917874,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.0017343997955322266,
      "learning_rate": 2e-05,
      "loss": 1.2223,
      "loss/crossentropy": 2.5346856117248535,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.1675938218832016,
      "step": 679
    },
    {
      "epoch": 0.010153800209048828,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0008088270823160807,
      "learning_rate": 2e-05,
      "loss": 1.2444,
      "loss/crossentropy": 2.5577213764190674,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1663036346435547,
      "step": 680
    },
    {
      "epoch": 0.010168732268179782,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0007760206858317058,
      "learning_rate": 2e-05,
      "loss": 1.2781,
      "loss/crossentropy": 2.5874197483062744,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.1843561828136444,
      "step": 681
    },
    {
      "epoch": 0.010183664327310736,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0008008162180582683,
      "learning_rate": 2e-05,
      "loss": 1.2692,
      "loss/crossentropy": 2.458387613296509,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.15981708467006683,
      "step": 682
    },
    {
      "epoch": 0.01019859638644169,
      "grad_norm": 0.65625,
      "grad_norm_var": 0.0016343275705973308,
      "learning_rate": 2e-05,
      "loss": 1.4047,
      "loss/crossentropy": 2.532681941986084,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.20941874384880066,
      "step": 683
    },
    {
      "epoch": 0.010213528445572644,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0015393416086832681,
      "learning_rate": 2e-05,
      "loss": 1.1006,
      "loss/crossentropy": 2.7314085960388184,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.97265625,
      "loss/idx": 12.0,
      "loss/logits": 0.12796571850776672,
      "step": 684
    },
    {
      "epoch": 0.010228460504703598,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0014809767405192058,
      "learning_rate": 2e-05,
      "loss": 1.1961,
      "loss/crossentropy": 2.662325859069824,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15699967741966248,
      "step": 685
    },
    {
      "epoch": 0.010243392563834552,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.0015853246053059895,
      "learning_rate": 2e-05,
      "loss": 1.3114,
      "loss/crossentropy": 2.2350664138793945,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17081522941589355,
      "step": 686
    },
    {
      "epoch": 0.010258324622965507,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0015807469685872396,
      "learning_rate": 2e-05,
      "loss": 1.2881,
      "loss/crossentropy": 2.4432411193847656,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17870429158210754,
      "step": 687
    },
    {
      "epoch": 0.01027325668209646,
      "grad_norm": 0.87109375,
      "grad_norm_var": 0.0079498291015625,
      "learning_rate": 2e-05,
      "loss": 1.5581,
      "loss/crossentropy": 2.6931755542755127,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.34375,
      "loss/idx": 12.0,
      "loss/logits": 0.2143464982509613,
      "step": 688
    },
    {
      "epoch": 0.010288188741227415,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.00791015625,
      "learning_rate": 2e-05,
      "loss": 1.298,
      "loss/crossentropy": 2.6877715587615967,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1730184555053711,
      "step": 689
    },
    {
      "epoch": 0.010303120800358369,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.007888730367024739,
      "learning_rate": 2e-05,
      "loss": 1.2563,
      "loss/crossentropy": 2.4702701568603516,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.1625899374485016,
      "step": 690
    },
    {
      "epoch": 0.010318052859489323,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.007883453369140625,
      "learning_rate": 2e-05,
      "loss": 1.3245,
      "loss/crossentropy": 2.4865882396698,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.1839236319065094,
      "step": 691
    },
    {
      "epoch": 0.010332984918620277,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.008251174290974935,
      "learning_rate": 2e-05,
      "loss": 1.2138,
      "loss/crossentropy": 2.5186684131622314,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.1591419279575348,
      "step": 692
    },
    {
      "epoch": 0.010347916977751231,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.008144744237263997,
      "learning_rate": 2e-05,
      "loss": 1.276,
      "loss/crossentropy": 2.6817424297332764,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17447999119758606,
      "step": 693
    },
    {
      "epoch": 0.010362849036882187,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.008113590876261394,
      "learning_rate": 2e-05,
      "loss": 1.3738,
      "loss/crossentropy": 2.546079397201538,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.21759110689163208,
      "step": 694
    },
    {
      "epoch": 0.010377781096013141,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.007648960749308268,
      "learning_rate": 2e-05,
      "loss": 1.2983,
      "loss/crossentropy": 2.4528214931488037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.18111282587051392,
      "step": 695
    },
    {
      "epoch": 0.010392713155144095,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.007602421442667643,
      "learning_rate": 2e-05,
      "loss": 1.2616,
      "loss/crossentropy": 2.686127185821533,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.16781781613826752,
      "step": 696
    },
    {
      "epoch": 0.01040764521427505,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.007446018854777018,
      "learning_rate": 2e-05,
      "loss": 1.3101,
      "loss/crossentropy": 2.54367995262146,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.1694590151309967,
      "step": 697
    },
    {
      "epoch": 0.010422577273406003,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.007515319188435872,
      "learning_rate": 2e-05,
      "loss": 1.2795,
      "loss/crossentropy": 2.6796493530273438,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17017018795013428,
      "step": 698
    },
    {
      "epoch": 0.010437509332536957,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.007178099950154623,
      "learning_rate": 2e-05,
      "loss": 1.3181,
      "loss/crossentropy": 2.4632835388183594,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.1774502694606781,
      "step": 699
    },
    {
      "epoch": 0.010452441391667911,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.007357899347941081,
      "learning_rate": 2e-05,
      "loss": 1.1805,
      "loss/crossentropy": 2.715266466140747,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.14927467703819275,
      "step": 700
    },
    {
      "epoch": 0.010467373450798866,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.007198063532511393,
      "learning_rate": 2e-05,
      "loss": 1.2262,
      "loss/crossentropy": 2.36779522895813,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.1558821052312851,
      "step": 701
    },
    {
      "epoch": 0.01048230550992982,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.007141224543253581,
      "learning_rate": 2e-05,
      "loss": 1.3637,
      "loss/crossentropy": 2.60080885887146,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.19179855287075043,
      "step": 702
    },
    {
      "epoch": 0.010497237569060774,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.007042042414347331,
      "learning_rate": 2e-05,
      "loss": 1.2853,
      "loss/crossentropy": 2.4730658531188965,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1759296953678131,
      "step": 703
    },
    {
      "epoch": 0.010512169628191728,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.001206827163696289,
      "learning_rate": 2e-05,
      "loss": 1.4148,
      "loss/crossentropy": 2.071516990661621,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 12.0,
      "loss/logits": 0.1960187554359436,
      "step": 704
    },
    {
      "epoch": 0.010527101687322682,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0011599063873291016,
      "learning_rate": 2e-05,
      "loss": 1.3046,
      "loss/crossentropy": 2.5084221363067627,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.1718074232339859,
      "step": 705
    },
    {
      "epoch": 0.010542033746453636,
      "grad_norm": 0.71484375,
      "grad_norm_var": 0.0025256951649983723,
      "learning_rate": 2e-05,
      "loss": 1.4087,
      "loss/crossentropy": 2.703789234161377,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.22122114896774292,
      "step": 706
    },
    {
      "epoch": 0.01055696580558459,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0025461673736572265,
      "learning_rate": 2e-05,
      "loss": 1.2491,
      "loss/crossentropy": 2.3329367637634277,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.15533186495304108,
      "step": 707
    },
    {
      "epoch": 0.010571897864715544,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0022979736328125,
      "learning_rate": 2e-05,
      "loss": 1.2526,
      "loss/crossentropy": 2.6226069927215576,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.15883222222328186,
      "step": 708
    },
    {
      "epoch": 0.010586829923846498,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.002304522196451823,
      "learning_rate": 2e-05,
      "loss": 1.2615,
      "loss/crossentropy": 2.480863332748413,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.15995028614997864,
      "step": 709
    },
    {
      "epoch": 0.010601761982977452,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.002382342020670573,
      "learning_rate": 2e-05,
      "loss": 1.2916,
      "loss/crossentropy": 2.587437868118286,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1821785271167755,
      "step": 710
    },
    {
      "epoch": 0.010616694042108406,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.002863502502441406,
      "learning_rate": 2e-05,
      "loss": 1.2136,
      "loss/crossentropy": 2.6183738708496094,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15106935799121857,
      "step": 711
    },
    {
      "epoch": 0.01063162610123936,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.002887980143229167,
      "learning_rate": 2e-05,
      "loss": 1.3275,
      "loss/crossentropy": 2.7090811729431152,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.17910704016685486,
      "step": 712
    },
    {
      "epoch": 0.010646558160370315,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.002814165751139323,
      "learning_rate": 2e-05,
      "loss": 1.4072,
      "loss/crossentropy": 2.540616273880005,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.21185210347175598,
      "step": 713
    },
    {
      "epoch": 0.010661490219501269,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.002811686197916667,
      "learning_rate": 2e-05,
      "loss": 1.3452,
      "loss/crossentropy": 2.587371349334717,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.18108756840229034,
      "step": 714
    },
    {
      "epoch": 0.010676422278632223,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0029703776041666665,
      "learning_rate": 2e-05,
      "loss": 1.1809,
      "loss/crossentropy": 2.543191909790039,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.14962825179100037,
      "step": 715
    },
    {
      "epoch": 0.010691354337763177,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0028757731119791667,
      "learning_rate": 2e-05,
      "loss": 1.2791,
      "loss/crossentropy": 2.650752544403076,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16970160603523254,
      "step": 716
    },
    {
      "epoch": 0.010706286396894131,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0029784520467122395,
      "learning_rate": 2e-05,
      "loss": 1.2036,
      "loss/crossentropy": 2.721712350845337,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15671955049037933,
      "step": 717
    },
    {
      "epoch": 0.010721218456025085,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.0032101790110270183,
      "learning_rate": 2e-05,
      "loss": 1.2164,
      "loss/crossentropy": 2.4478020668029785,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.16174601018428802,
      "step": 718
    },
    {
      "epoch": 0.01073615051515604,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0032242933909098306,
      "learning_rate": 2e-05,
      "loss": 1.2431,
      "loss/crossentropy": 2.5908939838409424,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1649816781282425,
      "step": 719
    },
    {
      "epoch": 0.010751082574286995,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.0032242933909098306,
      "learning_rate": 2e-05,
      "loss": 1.3963,
      "loss/crossentropy": 2.453248977661133,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.19315370917320251,
      "step": 720
    },
    {
      "epoch": 0.01076601463341795,
      "grad_norm": 0.828125,
      "grad_norm_var": 0.00772258440653483,
      "learning_rate": 2e-05,
      "loss": 1.3003,
      "loss/crossentropy": 2.477731704711914,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.16752782464027405,
      "step": 721
    },
    {
      "epoch": 0.010780946692548903,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.007097609837849935,
      "learning_rate": 2e-05,
      "loss": 1.4393,
      "loss/crossentropy": 2.5516936779022217,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.1970784217119217,
      "step": 722
    },
    {
      "epoch": 0.010795878751679857,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.007266982396443685,
      "learning_rate": 2e-05,
      "loss": 1.4367,
      "loss/crossentropy": 2.6101393699645996,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 12.0,
      "loss/logits": 0.21016988158226013,
      "step": 723
    },
    {
      "epoch": 0.010810810810810811,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.007454284032185872,
      "learning_rate": 2e-05,
      "loss": 1.2009,
      "loss/crossentropy": 2.484208822250366,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.1696794629096985,
      "step": 724
    },
    {
      "epoch": 0.010825742869941766,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0074452559153238935,
      "learning_rate": 2e-05,
      "loss": 1.2156,
      "loss/crossentropy": 2.6739721298217773,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15314337611198425,
      "step": 725
    },
    {
      "epoch": 0.01084067492907272,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.007307163874308268,
      "learning_rate": 2e-05,
      "loss": 1.3033,
      "loss/crossentropy": 2.596822500228882,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17045846581459045,
      "step": 726
    },
    {
      "epoch": 0.010855606988203674,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0067378838857014975,
      "learning_rate": 2e-05,
      "loss": 1.2591,
      "loss/crossentropy": 2.6170504093170166,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.1575794816017151,
      "step": 727
    },
    {
      "epoch": 0.010870539047334628,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.00672453244527181,
      "learning_rate": 2e-05,
      "loss": 1.3929,
      "loss/crossentropy": 2.4130985736846924,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.19758152961730957,
      "step": 728
    },
    {
      "epoch": 0.010885471106465582,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.006911961237589518,
      "learning_rate": 2e-05,
      "loss": 1.2616,
      "loss/crossentropy": 2.508866786956787,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1756208837032318,
      "step": 729
    },
    {
      "epoch": 0.010900403165596536,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.007033014297485351,
      "learning_rate": 2e-05,
      "loss": 1.1935,
      "loss/crossentropy": 2.5010106563568115,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15440748631954193,
      "step": 730
    },
    {
      "epoch": 0.01091533522472749,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.006941080093383789,
      "learning_rate": 2e-05,
      "loss": 1.1836,
      "loss/crossentropy": 2.571686029434204,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.15230761468410492,
      "step": 731
    },
    {
      "epoch": 0.010930267283858444,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.007117700576782226,
      "learning_rate": 2e-05,
      "loss": 1.2025,
      "loss/crossentropy": 2.565176486968994,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.14785486459732056,
      "step": 732
    },
    {
      "epoch": 0.010945199342989398,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.006977701187133789,
      "learning_rate": 2e-05,
      "loss": 1.2446,
      "loss/crossentropy": 2.555361747741699,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.15867501497268677,
      "step": 733
    },
    {
      "epoch": 0.010960131402120352,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.006445058186848958,
      "learning_rate": 2e-05,
      "loss": 1.3327,
      "loss/crossentropy": 2.6520895957946777,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.19203567504882812,
      "step": 734
    },
    {
      "epoch": 0.010975063461251306,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.006635983784993489,
      "learning_rate": 2e-05,
      "loss": 1.1915,
      "loss/crossentropy": 2.4574670791625977,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.14458885788917542,
      "step": 735
    },
    {
      "epoch": 0.01098999552038226,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.0065769831339518225,
      "learning_rate": 2e-05,
      "loss": 1.3282,
      "loss/crossentropy": 2.5529794692993164,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.17192694544792175,
      "step": 736
    },
    {
      "epoch": 0.011004927579513215,
      "grad_norm": 0.63671875,
      "grad_norm_var": 0.0024553934733072915,
      "learning_rate": 2e-05,
      "loss": 1.3139,
      "loss/crossentropy": 2.5145184993743896,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17325331270694733,
      "step": 737
    },
    {
      "epoch": 0.011019859638644169,
      "grad_norm": 0.70703125,
      "grad_norm_var": 0.0029782613118489584,
      "learning_rate": 2e-05,
      "loss": 1.5417,
      "loss/crossentropy": 2.3598456382751465,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2890625,
      "loss/idx": 12.0,
      "loss/logits": 0.2526322901248932,
      "step": 738
    },
    {
      "epoch": 0.011034791697775123,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0027058919270833335,
      "learning_rate": 2e-05,
      "loss": 1.341,
      "loss/crossentropy": 2.66998291015625,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.20035037398338318,
      "step": 739
    },
    {
      "epoch": 0.011049723756906077,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0026486714680989585,
      "learning_rate": 2e-05,
      "loss": 1.2284,
      "loss/crossentropy": 2.527078628540039,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.17375284433364868,
      "step": 740
    },
    {
      "epoch": 0.011064655816037031,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0027058919270833335,
      "learning_rate": 2e-05,
      "loss": 1.2061,
      "loss/crossentropy": 2.663687229156494,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15137803554534912,
      "step": 741
    },
    {
      "epoch": 0.011079587875167985,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0027160008748372396,
      "learning_rate": 2e-05,
      "loss": 1.3247,
      "loss/crossentropy": 2.5827627182006836,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.1840566098690033,
      "step": 742
    },
    {
      "epoch": 0.01109451993429894,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0027694066365559896,
      "learning_rate": 2e-05,
      "loss": 1.2818,
      "loss/crossentropy": 2.684978723526001,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17245015501976013,
      "step": 743
    },
    {
      "epoch": 0.011109451993429893,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.002751604715983073,
      "learning_rate": 2e-05,
      "loss": 1.2827,
      "loss/crossentropy": 2.6512203216552734,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.17336753010749817,
      "step": 744
    },
    {
      "epoch": 0.011124384052560847,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0027384440104166667,
      "learning_rate": 2e-05,
      "loss": 1.2578,
      "loss/crossentropy": 2.4307868480682373,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.15619587898254395,
      "step": 745
    },
    {
      "epoch": 0.011139316111691801,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.002783648173014323,
      "learning_rate": 2e-05,
      "loss": 1.1904,
      "loss/crossentropy": 2.794666290283203,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.1513822376728058,
      "step": 746
    },
    {
      "epoch": 0.011154248170822757,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0028624852498372396,
      "learning_rate": 2e-05,
      "loss": 1.2677,
      "loss/crossentropy": 2.5204267501831055,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16616524755954742,
      "step": 747
    },
    {
      "epoch": 0.011169180229953711,
      "grad_norm": 0.48046875,
      "grad_norm_var": 0.003073883056640625,
      "learning_rate": 2e-05,
      "loss": 1.1894,
      "loss/crossentropy": 2.630366563796997,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.1581723392009735,
      "step": 748
    },
    {
      "epoch": 0.011184112289084665,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0031341552734375,
      "learning_rate": 2e-05,
      "loss": 1.2354,
      "loss/crossentropy": 2.55263090133667,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16509470343589783,
      "step": 749
    },
    {
      "epoch": 0.01119904434821562,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.003359079360961914,
      "learning_rate": 2e-05,
      "loss": 1.1695,
      "loss/crossentropy": 2.5358965396881104,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.14609494805335999,
      "step": 750
    },
    {
      "epoch": 0.011213976407346574,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.003323221206665039,
      "learning_rate": 2e-05,
      "loss": 1.3294,
      "loss/crossentropy": 2.5020415782928467,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18877586722373962,
      "step": 751
    },
    {
      "epoch": 0.011228908466477528,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0034273624420166015,
      "learning_rate": 2e-05,
      "loss": 1.2785,
      "loss/crossentropy": 2.7053909301757812,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17688840627670288,
      "step": 752
    },
    {
      "epoch": 0.011243840525608482,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0030063470204671223,
      "learning_rate": 2e-05,
      "loss": 1.3516,
      "loss/crossentropy": 2.440305471420288,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.1953657865524292,
      "step": 753
    },
    {
      "epoch": 0.011258772584739436,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.0016521294911702475,
      "learning_rate": 2e-05,
      "loss": 1.3206,
      "loss/crossentropy": 2.6588921546936035,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17999888956546783,
      "step": 754
    },
    {
      "epoch": 0.01127370464387039,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0016521294911702475,
      "learning_rate": 2e-05,
      "loss": 1.1845,
      "loss/crossentropy": 2.6511154174804688,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.14538779854774475,
      "step": 755
    },
    {
      "epoch": 0.011288636703001344,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.001680739720662435,
      "learning_rate": 2e-05,
      "loss": 1.2223,
      "loss/crossentropy": 2.579488754272461,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15982869267463684,
      "step": 756
    },
    {
      "epoch": 0.011303568762132298,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0017144362131754558,
      "learning_rate": 2e-05,
      "loss": 1.208,
      "loss/crossentropy": 2.4899256229400635,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.16107669472694397,
      "step": 757
    },
    {
      "epoch": 0.011318500821263252,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.001612710952758789,
      "learning_rate": 2e-05,
      "loss": 1.2585,
      "loss/crossentropy": 2.424293279647827,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.16471582651138306,
      "step": 758
    },
    {
      "epoch": 0.011333432880394206,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.0018131097157796225,
      "learning_rate": 2e-05,
      "loss": 1.2444,
      "loss/crossentropy": 2.6930503845214844,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1662687361240387,
      "step": 759
    },
    {
      "epoch": 0.01134836493952516,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0018407026926676431,
      "learning_rate": 2e-05,
      "loss": 1.1926,
      "loss/crossentropy": 2.4682953357696533,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.14569604396820068,
      "step": 760
    },
    {
      "epoch": 0.011363296998656115,
      "grad_norm": 0.671875,
      "grad_norm_var": 0.002946201960245768,
      "learning_rate": 2e-05,
      "loss": 1.3256,
      "loss/crossentropy": 2.677440643310547,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.1850149929523468,
      "step": 761
    },
    {
      "epoch": 0.011378229057787069,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.003107134501139323,
      "learning_rate": 2e-05,
      "loss": 1.1689,
      "loss/crossentropy": 2.6096267700195312,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.15331940352916718,
      "step": 762
    },
    {
      "epoch": 0.011393161116918023,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.003072039286295573,
      "learning_rate": 2e-05,
      "loss": 1.1372,
      "loss/crossentropy": 2.6900992393493652,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.984375,
      "loss/idx": 12.0,
      "loss/logits": 0.15282993018627167,
      "step": 763
    },
    {
      "epoch": 0.011408093176048977,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.003007952372233073,
      "learning_rate": 2e-05,
      "loss": 1.2392,
      "loss/crossentropy": 2.6735024452209473,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16892734169960022,
      "step": 764
    },
    {
      "epoch": 0.011423025235179931,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0029677708943684896,
      "learning_rate": 2e-05,
      "loss": 1.2317,
      "loss/crossentropy": 2.434821367263794,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16139961779117584,
      "step": 765
    },
    {
      "epoch": 0.011437957294310885,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.00269773801167806,
      "learning_rate": 2e-05,
      "loss": 1.2853,
      "loss/crossentropy": 2.514920234680176,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.160325825214386,
      "step": 766
    },
    {
      "epoch": 0.011452889353441839,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.00269773801167806,
      "learning_rate": 2e-05,
      "loss": 1.256,
      "loss/crossentropy": 2.647106409072876,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.17788350582122803,
      "step": 767
    },
    {
      "epoch": 0.011467821412572793,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.00291136105855306,
      "learning_rate": 2e-05,
      "loss": 1.2025,
      "loss/crossentropy": 2.546200752258301,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.14780209958553314,
      "step": 768
    },
    {
      "epoch": 0.011482753471703747,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.002915175755818685,
      "learning_rate": 2e-05,
      "loss": 1.2694,
      "loss/crossentropy": 2.6620922088623047,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.17561113834381104,
      "step": 769
    },
    {
      "epoch": 0.011497685530834701,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0025019168853759764,
      "learning_rate": 2e-05,
      "loss": 1.2409,
      "loss/crossentropy": 2.733931064605713,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.15500226616859436,
      "step": 770
    },
    {
      "epoch": 0.011512617589965655,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.002555068333943685,
      "learning_rate": 2e-05,
      "loss": 1.1855,
      "loss/crossentropy": 2.6056385040283203,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.14647497236728668,
      "step": 771
    },
    {
      "epoch": 0.01152754964909661,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.002448256810506185,
      "learning_rate": 2e-05,
      "loss": 1.2866,
      "loss/crossentropy": 2.3778257369995117,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1616000533103943,
      "step": 772
    },
    {
      "epoch": 0.011542481708227565,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0024135430653889974,
      "learning_rate": 2e-05,
      "loss": 1.2556,
      "loss/crossentropy": 2.5326895713806152,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1696186363697052,
      "step": 773
    },
    {
      "epoch": 0.01155741376735852,
      "grad_norm": 0.64453125,
      "grad_norm_var": 0.0029796441396077473,
      "learning_rate": 2e-05,
      "loss": 1.4358,
      "loss/crossentropy": 2.400148630142212,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.19359630346298218,
      "step": 774
    },
    {
      "epoch": 0.011572345826489474,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.003068908055623372,
      "learning_rate": 2e-05,
      "loss": 1.2743,
      "loss/crossentropy": 2.5815742015838623,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.164922833442688,
      "step": 775
    },
    {
      "epoch": 0.011587277885620428,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.0033002217610677083,
      "learning_rate": 2e-05,
      "loss": 1.1144,
      "loss/crossentropy": 2.582948684692383,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98046875,
      "loss/idx": 12.0,
      "loss/logits": 0.13390488922595978,
      "step": 776
    },
    {
      "epoch": 0.011602209944751382,
      "grad_norm": 0.78515625,
      "grad_norm_var": 0.005923906962076823,
      "learning_rate": 2e-05,
      "loss": 1.4428,
      "loss/crossentropy": 2.4833004474639893,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 12.0,
      "loss/logits": 0.20838040113449097,
      "step": 777
    },
    {
      "epoch": 0.011617142003882336,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0056294600168863935,
      "learning_rate": 2e-05,
      "loss": 1.2143,
      "loss/crossentropy": 2.672031879425049,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15958479046821594,
      "step": 778
    },
    {
      "epoch": 0.01163207406301329,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0055493513743082685,
      "learning_rate": 2e-05,
      "loss": 1.2599,
      "loss/crossentropy": 2.485051155090332,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.17396780848503113,
      "step": 779
    },
    {
      "epoch": 0.011647006122144244,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.005325937271118164,
      "learning_rate": 2e-05,
      "loss": 1.1861,
      "loss/crossentropy": 2.4769065380096436,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.14706002175807953,
      "step": 780
    },
    {
      "epoch": 0.011661938181275198,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.005379724502563477,
      "learning_rate": 2e-05,
      "loss": 1.2594,
      "loss/crossentropy": 2.6715643405914307,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.1656656712293625,
      "step": 781
    },
    {
      "epoch": 0.011676870240406152,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.005429188410441081,
      "learning_rate": 2e-05,
      "loss": 1.2034,
      "loss/crossentropy": 2.6194474697113037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1565479040145874,
      "step": 782
    },
    {
      "epoch": 0.011691802299537106,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.005432621637980143,
      "learning_rate": 2e-05,
      "loss": 1.2735,
      "loss/crossentropy": 2.634058713912964,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16408279538154602,
      "step": 783
    },
    {
      "epoch": 0.01170673435866806,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.005359141031901041,
      "learning_rate": 2e-05,
      "loss": 1.2094,
      "loss/crossentropy": 2.4988787174224854,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.14692716300487518,
      "step": 784
    },
    {
      "epoch": 0.011721666417799015,
      "grad_norm": 0.482421875,
      "grad_norm_var": 0.005603138605753581,
      "learning_rate": 2e-05,
      "loss": 1.1987,
      "loss/crossentropy": 2.6358911991119385,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15186846256256104,
      "step": 785
    },
    {
      "epoch": 0.011736598476929969,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.005866607030232747,
      "learning_rate": 2e-05,
      "loss": 1.115,
      "loss/crossentropy": 2.591740131378174,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98046875,
      "loss/idx": 12.0,
      "loss/logits": 0.13453420996665955,
      "step": 786
    },
    {
      "epoch": 0.011751530536060923,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.005787769953409831,
      "learning_rate": 2e-05,
      "loss": 1.2283,
      "loss/crossentropy": 2.444399833679199,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15801313519477844,
      "step": 787
    },
    {
      "epoch": 0.011766462595191877,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.005787769953409831,
      "learning_rate": 2e-05,
      "loss": 1.3204,
      "loss/crossentropy": 2.599078416824341,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.19537828862667084,
      "step": 788
    },
    {
      "epoch": 0.011781394654322831,
      "grad_norm": 0.6875,
      "grad_norm_var": 0.006843042373657226,
      "learning_rate": 2e-05,
      "loss": 1.3781,
      "loss/crossentropy": 2.5863723754882812,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.174960196018219,
      "step": 789
    },
    {
      "epoch": 0.011796326713453785,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.006381972630818685,
      "learning_rate": 2e-05,
      "loss": 1.2814,
      "loss/crossentropy": 2.3581089973449707,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.18761396408081055,
      "step": 790
    },
    {
      "epoch": 0.011811258772584739,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.006433550516764323,
      "learning_rate": 2e-05,
      "loss": 1.2193,
      "loss/crossentropy": 2.3400156497955322,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15682953596115112,
      "step": 791
    },
    {
      "epoch": 0.011826190831715693,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.0063237349192301435,
      "learning_rate": 2e-05,
      "loss": 1.2358,
      "loss/crossentropy": 2.597322702407837,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16544011235237122,
      "step": 792
    },
    {
      "epoch": 0.011841122890846647,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.002515268325805664,
      "learning_rate": 2e-05,
      "loss": 1.255,
      "loss/crossentropy": 2.618713617324829,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16905856132507324,
      "step": 793
    },
    {
      "epoch": 0.011856054949977601,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.002618408203125,
      "learning_rate": 2e-05,
      "loss": 1.2597,
      "loss/crossentropy": 2.586865186691284,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.16593782603740692,
      "step": 794
    },
    {
      "epoch": 0.011870987009108555,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.003064409891764323,
      "learning_rate": 2e-05,
      "loss": 1.4704,
      "loss/crossentropy": 2.281075954437256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 12.0,
      "loss/logits": 0.2047278881072998,
      "step": 795
    },
    {
      "epoch": 0.01188591906823951,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.003025245666503906,
      "learning_rate": 2e-05,
      "loss": 1.2074,
      "loss/crossentropy": 2.56146502494812,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.1527431160211563,
      "step": 796
    },
    {
      "epoch": 0.011900851127370464,
      "grad_norm": 0.6328125,
      "grad_norm_var": 0.003491655985514323,
      "learning_rate": 2e-05,
      "loss": 1.3282,
      "loss/crossentropy": 2.544595241546631,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.17975857853889465,
      "step": 797
    },
    {
      "epoch": 0.011915783186501418,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.003441111246744792,
      "learning_rate": 2e-05,
      "loss": 1.1355,
      "loss/crossentropy": 2.5778257846832275,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.99609375,
      "loss/idx": 12.0,
      "loss/logits": 0.1393672674894333,
      "step": 798
    },
    {
      "epoch": 0.011930715245632374,
      "grad_norm": 0.462890625,
      "grad_norm_var": 0.003875589370727539,
      "learning_rate": 2e-05,
      "loss": 1.1403,
      "loss/crossentropy": 2.7800252437591553,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 12.0,
      "loss/logits": 0.1403147280216217,
      "step": 799
    },
    {
      "epoch": 0.011945647304763328,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.003844960530598958,
      "learning_rate": 2e-05,
      "loss": 1.3118,
      "loss/crossentropy": 2.5456595420837402,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.18681630492210388,
      "step": 800
    },
    {
      "epoch": 0.011960579363894282,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0035584608713785807,
      "learning_rate": 2e-05,
      "loss": 1.2338,
      "loss/crossentropy": 2.46443247795105,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16349388659000397,
      "step": 801
    },
    {
      "epoch": 0.011975511423025236,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0033066908518473307,
      "learning_rate": 2e-05,
      "loss": 1.2967,
      "loss/crossentropy": 2.6430821418762207,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17946891486644745,
      "step": 802
    },
    {
      "epoch": 0.01199044348215619,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.0035851637522379557,
      "learning_rate": 2e-05,
      "loss": 1.1305,
      "loss/crossentropy": 2.51657772064209,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9921875,
      "loss/idx": 12.0,
      "loss/logits": 0.13827310502529144,
      "step": 803
    },
    {
      "epoch": 0.012005375541287144,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0035763899485270183,
      "learning_rate": 2e-05,
      "loss": 1.2621,
      "loss/crossentropy": 2.462827205657959,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16057859361171722,
      "step": 804
    },
    {
      "epoch": 0.012020307600418098,
      "grad_norm": 0.482421875,
      "grad_norm_var": 0.002463213602701823,
      "learning_rate": 2e-05,
      "loss": 1.1779,
      "loss/crossentropy": 2.651974678039551,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.1466044932603836,
      "step": 805
    },
    {
      "epoch": 0.012035239659549052,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.002629709243774414,
      "learning_rate": 2e-05,
      "loss": 1.1487,
      "loss/crossentropy": 2.6436069011688232,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 12.0,
      "loss/logits": 0.1487184464931488,
      "step": 806
    },
    {
      "epoch": 0.012050171718680006,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.002544593811035156,
      "learning_rate": 2e-05,
      "loss": 1.1571,
      "loss/crossentropy": 2.6559572219848633,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14927107095718384,
      "step": 807
    },
    {
      "epoch": 0.01206510377781096,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0024279276529947918,
      "learning_rate": 2e-05,
      "loss": 1.2641,
      "loss/crossentropy": 2.5706608295440674,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16250476241111755,
      "step": 808
    },
    {
      "epoch": 0.012080035836941914,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.002455584208170573,
      "learning_rate": 2e-05,
      "loss": 1.2112,
      "loss/crossentropy": 2.501370906829834,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15652695298194885,
      "step": 809
    },
    {
      "epoch": 0.012094967896072869,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.002356449762980143,
      "learning_rate": 2e-05,
      "loss": 1.2613,
      "loss/crossentropy": 2.7686879634857178,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.17538884282112122,
      "step": 810
    },
    {
      "epoch": 0.012109899955203823,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.0018960158030192056,
      "learning_rate": 2e-05,
      "loss": 1.2619,
      "loss/crossentropy": 2.6589901447296143,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.17594030499458313,
      "step": 811
    },
    {
      "epoch": 0.012124832014334777,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0020173231760660807,
      "learning_rate": 2e-05,
      "loss": 1.2311,
      "loss/crossentropy": 2.3903369903564453,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16083644330501556,
      "step": 812
    },
    {
      "epoch": 0.01213976407346573,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0013624668121337891,
      "learning_rate": 2e-05,
      "loss": 1.3336,
      "loss/crossentropy": 2.5818023681640625,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.19297264516353607,
      "step": 813
    },
    {
      "epoch": 0.012154696132596685,
      "grad_norm": 0.6796875,
      "grad_norm_var": 0.0027383009592692057,
      "learning_rate": 2e-05,
      "loss": 1.3454,
      "loss/crossentropy": 2.5759518146514893,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.17351481318473816,
      "step": 814
    },
    {
      "epoch": 0.012169628191727639,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0023416519165039063,
      "learning_rate": 2e-05,
      "loss": 1.2492,
      "loss/crossentropy": 2.6695284843444824,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16327539086341858,
      "step": 815
    },
    {
      "epoch": 0.012184560250858593,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0021956761678059897,
      "learning_rate": 2e-05,
      "loss": 1.3266,
      "loss/crossentropy": 2.319685459136963,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18595829606056213,
      "step": 816
    },
    {
      "epoch": 0.012199492309989547,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0022307713826497395,
      "learning_rate": 2e-05,
      "loss": 1.2435,
      "loss/crossentropy": 2.4563002586364746,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.15760290622711182,
      "step": 817
    },
    {
      "epoch": 0.012214424369120501,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0023340861002604167,
      "learning_rate": 2e-05,
      "loss": 1.324,
      "loss/crossentropy": 2.5283279418945312,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.16777649521827698,
      "step": 818
    },
    {
      "epoch": 0.012229356428251455,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0021814346313476563,
      "learning_rate": 2e-05,
      "loss": 1.2184,
      "loss/crossentropy": 2.776594638824463,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15586011111736298,
      "step": 819
    },
    {
      "epoch": 0.01224428848738241,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.002261861165364583,
      "learning_rate": 2e-05,
      "loss": 1.2115,
      "loss/crossentropy": 2.5414376258850098,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15676796436309814,
      "step": 820
    },
    {
      "epoch": 0.012259220546513364,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.0021649519602457683,
      "learning_rate": 2e-05,
      "loss": 1.2741,
      "loss/crossentropy": 2.4355485439300537,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16474318504333496,
      "step": 821
    },
    {
      "epoch": 0.012274152605644318,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0020517985026041667,
      "learning_rate": 2e-05,
      "loss": 1.1965,
      "loss/crossentropy": 2.4327552318573,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1496448963880539,
      "step": 822
    },
    {
      "epoch": 0.012289084664775272,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0019683202107747396,
      "learning_rate": 2e-05,
      "loss": 1.3843,
      "loss/crossentropy": 2.559605360031128,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.19683653116226196,
      "step": 823
    },
    {
      "epoch": 0.012304016723906226,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0019606908162434896,
      "learning_rate": 2e-05,
      "loss": 1.2149,
      "loss/crossentropy": 2.5897631645202637,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.1601862609386444,
      "step": 824
    },
    {
      "epoch": 0.012318948783037182,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0019606908162434896,
      "learning_rate": 2e-05,
      "loss": 1.2356,
      "loss/crossentropy": 2.696868658065796,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16526451706886292,
      "step": 825
    },
    {
      "epoch": 0.012333880842168136,
      "grad_norm": 0.6484375,
      "grad_norm_var": 0.0026336034138997396,
      "learning_rate": 2e-05,
      "loss": 1.303,
      "loss/crossentropy": 2.709047794342041,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17016342282295227,
      "step": 826
    },
    {
      "epoch": 0.01234881290129909,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0026364644368489583,
      "learning_rate": 2e-05,
      "loss": 1.2634,
      "loss/crossentropy": 2.4290895462036133,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.16962262988090515,
      "step": 827
    },
    {
      "epoch": 0.012363744960430044,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0026486714680989585,
      "learning_rate": 2e-05,
      "loss": 1.2122,
      "loss/crossentropy": 2.5961177349090576,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.16535454988479614,
      "step": 828
    },
    {
      "epoch": 0.012378677019560998,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.002643775939941406,
      "learning_rate": 2e-05,
      "loss": 1.2599,
      "loss/crossentropy": 2.601069211959839,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.15833136439323425,
      "step": 829
    },
    {
      "epoch": 0.012393609078691952,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0014154434204101563,
      "learning_rate": 2e-05,
      "loss": 1.2341,
      "loss/crossentropy": 2.6840217113494873,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.16378390789031982,
      "step": 830
    },
    {
      "epoch": 0.012408541137822906,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0016031265258789062,
      "learning_rate": 2e-05,
      "loss": 1.3101,
      "loss/crossentropy": 2.6370441913604736,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.18508955836296082,
      "step": 831
    },
    {
      "epoch": 0.01242347319695386,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0016692479451497395,
      "learning_rate": 2e-05,
      "loss": 1.3561,
      "loss/crossentropy": 2.3607304096221924,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 12.0,
      "loss/logits": 0.1763923168182373,
      "step": 832
    },
    {
      "epoch": 0.012438405256084814,
      "grad_norm": 0.482421875,
      "grad_norm_var": 0.0018602848052978516,
      "learning_rate": 2e-05,
      "loss": 1.1611,
      "loss/crossentropy": 2.4794504642486572,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.13761460781097412,
      "step": 833
    },
    {
      "epoch": 0.012453337315215769,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0017420291900634766,
      "learning_rate": 2e-05,
      "loss": 1.3138,
      "loss/crossentropy": 2.515113353729248,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.18878057599067688,
      "step": 834
    },
    {
      "epoch": 0.012468269374346723,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0017642815907796224,
      "learning_rate": 2e-05,
      "loss": 1.3528,
      "loss/crossentropy": 2.7300655841827393,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.2043353170156479,
      "step": 835
    },
    {
      "epoch": 0.012483201433477677,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.001782846450805664,
      "learning_rate": 2e-05,
      "loss": 1.1872,
      "loss/crossentropy": 2.455660104751587,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.14813506603240967,
      "step": 836
    },
    {
      "epoch": 0.01249813349260863,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0017206668853759766,
      "learning_rate": 2e-05,
      "loss": 1.2639,
      "loss/crossentropy": 2.3937854766845703,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1545325219631195,
      "step": 837
    },
    {
      "epoch": 0.012513065551739585,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.001635599136352539,
      "learning_rate": 2e-05,
      "loss": 1.201,
      "loss/crossentropy": 2.608152389526367,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15416556596755981,
      "step": 838
    },
    {
      "epoch": 0.012527997610870539,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.0019674777984619142,
      "learning_rate": 2e-05,
      "loss": 1.3746,
      "loss/crossentropy": 2.6124019622802734,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 12.0,
      "loss/logits": 0.19495141506195068,
      "step": 839
    },
    {
      "epoch": 0.012542929670001493,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0019274234771728515,
      "learning_rate": 2e-05,
      "loss": 1.145,
      "loss/crossentropy": 2.5301358699798584,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 12.0,
      "loss/logits": 0.14495986700057983,
      "step": 840
    },
    {
      "epoch": 0.012557861729132447,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.002129364013671875,
      "learning_rate": 2e-05,
      "loss": 1.0545,
      "loss/crossentropy": 2.5924758911132812,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.93359375,
      "loss/idx": 12.0,
      "loss/logits": 0.12090451270341873,
      "step": 841
    },
    {
      "epoch": 0.012572793788263401,
      "grad_norm": 0.6328125,
      "grad_norm_var": 0.001927947998046875,
      "learning_rate": 2e-05,
      "loss": 1.2721,
      "loss/crossentropy": 2.3995118141174316,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16268111765384674,
      "step": 842
    },
    {
      "epoch": 0.012587725847394355,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.001927947998046875,
      "learning_rate": 2e-05,
      "loss": 1.3116,
      "loss/crossentropy": 2.5142955780029297,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.18662039935588837,
      "step": 843
    },
    {
      "epoch": 0.01260265790652531,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.00207061767578125,
      "learning_rate": 2e-05,
      "loss": 1.336,
      "loss/crossentropy": 2.4487991333007812,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.17975641787052155,
      "step": 844
    },
    {
      "epoch": 0.012617589965656264,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.002081743876139323,
      "learning_rate": 2e-05,
      "loss": 1.2271,
      "loss/crossentropy": 2.799164295196533,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.17243638634681702,
      "step": 845
    },
    {
      "epoch": 0.012632522024787218,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.002210601170857747,
      "learning_rate": 2e-05,
      "loss": 1.2006,
      "loss/crossentropy": 2.636415958404541,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1537102460861206,
      "step": 846
    },
    {
      "epoch": 0.012647454083918172,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.0022264957427978516,
      "learning_rate": 2e-05,
      "loss": 1.2061,
      "loss/crossentropy": 2.377129316329956,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15926313400268555,
      "step": 847
    },
    {
      "epoch": 0.012662386143049126,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.0023066043853759766,
      "learning_rate": 2e-05,
      "loss": 1.2835,
      "loss/crossentropy": 2.4958112239837646,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.1897384524345398,
      "step": 848
    },
    {
      "epoch": 0.01267731820218008,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.0022059122721354166,
      "learning_rate": 2e-05,
      "loss": 1.2354,
      "loss/crossentropy": 2.732330560684204,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.17292934656143188,
      "step": 849
    },
    {
      "epoch": 0.012692250261311034,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0022882461547851563,
      "learning_rate": 2e-05,
      "loss": 1.1959,
      "loss/crossentropy": 2.8346798419952393,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.14898401498794556,
      "step": 850
    },
    {
      "epoch": 0.01270718232044199,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.002237892150878906,
      "learning_rate": 2e-05,
      "loss": 1.1314,
      "loss/crossentropy": 2.544158697128296,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98828125,
      "loss/idx": 12.0,
      "loss/logits": 0.14313051104545593,
      "step": 851
    },
    {
      "epoch": 0.012722114379572944,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.002202288309733073,
      "learning_rate": 2e-05,
      "loss": 1.2397,
      "loss/crossentropy": 2.5338921546936035,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16162025928497314,
      "step": 852
    },
    {
      "epoch": 0.012737046438703898,
      "grad_norm": 0.671875,
      "grad_norm_var": 0.0031315485636393228,
      "learning_rate": 2e-05,
      "loss": 1.2927,
      "loss/crossentropy": 2.4311304092407227,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16769030690193176,
      "step": 853
    },
    {
      "epoch": 0.012751978497834852,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0032208760579427085,
      "learning_rate": 2e-05,
      "loss": 1.2106,
      "loss/crossentropy": 2.668276309967041,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15591159462928772,
      "step": 854
    },
    {
      "epoch": 0.012766910556965806,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0029729207356770835,
      "learning_rate": 2e-05,
      "loss": 1.3015,
      "loss/crossentropy": 2.482598304748535,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.18431049585342407,
      "step": 855
    },
    {
      "epoch": 0.01278184261609676,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0029841105143229166,
      "learning_rate": 2e-05,
      "loss": 1.3188,
      "loss/crossentropy": 2.7403719425201416,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.19376035034656525,
      "step": 856
    },
    {
      "epoch": 0.012796774675227714,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0027885278065999347,
      "learning_rate": 2e-05,
      "loss": 1.2216,
      "loss/crossentropy": 2.433129072189331,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.16688039898872375,
      "step": 857
    },
    {
      "epoch": 0.012811706734358668,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.002435668309529622,
      "learning_rate": 2e-05,
      "loss": 1.2295,
      "loss/crossentropy": 2.5015032291412354,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15920080244541168,
      "step": 858
    },
    {
      "epoch": 0.012826638793489623,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0025185743967692056,
      "learning_rate": 2e-05,
      "loss": 1.2442,
      "loss/crossentropy": 2.488417625427246,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.1816791594028473,
      "step": 859
    },
    {
      "epoch": 0.012841570852620577,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0022504011789957683,
      "learning_rate": 2e-05,
      "loss": 1.2024,
      "loss/crossentropy": 2.665573835372925,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15554329752922058,
      "step": 860
    },
    {
      "epoch": 0.01285650291175153,
      "grad_norm": 0.8046875,
      "grad_norm_var": 0.006795740127563477,
      "learning_rate": 2e-05,
      "loss": 1.4828,
      "loss/crossentropy": 2.3143980503082275,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2578125,
      "loss/idx": 12.0,
      "loss/logits": 0.22494599223136902,
      "step": 861
    },
    {
      "epoch": 0.012871434970882485,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.006611887613932292,
      "learning_rate": 2e-05,
      "loss": 1.2513,
      "loss/crossentropy": 2.563246965408325,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.15756869316101074,
      "step": 862
    },
    {
      "epoch": 0.012886367030013439,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.00640862782796224,
      "learning_rate": 2e-05,
      "loss": 1.2763,
      "loss/crossentropy": 2.4165306091308594,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17470136284828186,
      "step": 863
    },
    {
      "epoch": 0.012901299089144393,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.006382179260253906,
      "learning_rate": 2e-05,
      "loss": 1.2261,
      "loss/crossentropy": 2.7474277019500732,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1479920744895935,
      "step": 864
    },
    {
      "epoch": 0.012916231148275347,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.006471745173136393,
      "learning_rate": 2e-05,
      "loss": 1.1288,
      "loss/crossentropy": 2.628307819366455,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98828125,
      "loss/idx": 12.0,
      "loss/logits": 0.14052993059158325,
      "step": 865
    },
    {
      "epoch": 0.012931163207406301,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.00628355344136556,
      "learning_rate": 2e-05,
      "loss": 1.2903,
      "loss/crossentropy": 2.6581015586853027,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16525937616825104,
      "step": 866
    },
    {
      "epoch": 0.012946095266537255,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.00643919308980306,
      "learning_rate": 2e-05,
      "loss": 1.2729,
      "loss/crossentropy": 2.480175256729126,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.17913323640823364,
      "step": 867
    },
    {
      "epoch": 0.01296102732566821,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.006266005833943685,
      "learning_rate": 2e-05,
      "loss": 1.1887,
      "loss/crossentropy": 2.5329577922821045,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.14967145025730133,
      "step": 868
    },
    {
      "epoch": 0.012975959384799163,
      "grad_norm": 0.5,
      "grad_norm_var": 0.005647770563761393,
      "learning_rate": 2e-05,
      "loss": 1.2151,
      "loss/crossentropy": 2.5917510986328125,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.16825619339942932,
      "step": 869
    },
    {
      "epoch": 0.012990891443930118,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.005498997370402018,
      "learning_rate": 2e-05,
      "loss": 1.279,
      "loss/crossentropy": 2.703120231628418,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.1852026879787445,
      "step": 870
    },
    {
      "epoch": 0.013005823503061072,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.005489206314086914,
      "learning_rate": 2e-05,
      "loss": 1.3381,
      "loss/crossentropy": 2.6077189445495605,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.18187852203845978,
      "step": 871
    },
    {
      "epoch": 0.013020755562192026,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.005506245295206705,
      "learning_rate": 2e-05,
      "loss": 1.2242,
      "loss/crossentropy": 2.229553461074829,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14606034755706787,
      "step": 872
    },
    {
      "epoch": 0.01303568762132298,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.005650440851847331,
      "learning_rate": 2e-05,
      "loss": 1.0931,
      "loss/crossentropy": 2.4416704177856445,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9609375,
      "loss/idx": 12.0,
      "loss/logits": 0.13215383887290955,
      "step": 873
    },
    {
      "epoch": 0.013050619680453934,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.00536650021870931,
      "learning_rate": 2e-05,
      "loss": 1.3962,
      "loss/crossentropy": 2.580476760864258,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.20873740315437317,
      "step": 874
    },
    {
      "epoch": 0.013065551739584888,
      "grad_norm": 0.625,
      "grad_norm_var": 0.005574782689412435,
      "learning_rate": 2e-05,
      "loss": 1.4374,
      "loss/crossentropy": 2.3341832160949707,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.19524669647216797,
      "step": 875
    },
    {
      "epoch": 0.013080483798715842,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.005486408869425456,
      "learning_rate": 2e-05,
      "loss": 1.3415,
      "loss/crossentropy": 2.2510344982147217,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.19304239749908447,
      "step": 876
    },
    {
      "epoch": 0.013095415857846796,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.0018020470937093098,
      "learning_rate": 2e-05,
      "loss": 1.3444,
      "loss/crossentropy": 2.42315936088562,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1725073605775833,
      "step": 877
    },
    {
      "epoch": 0.013110347916977752,
      "grad_norm": 0.6484375,
      "grad_norm_var": 0.0022861321767171225,
      "learning_rate": 2e-05,
      "loss": 1.206,
      "loss/crossentropy": 2.3976566791534424,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1590883731842041,
      "step": 878
    },
    {
      "epoch": 0.013125279976108706,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0022553602854410806,
      "learning_rate": 2e-05,
      "loss": 1.3037,
      "loss/crossentropy": 2.417356014251709,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.17873302102088928,
      "step": 879
    },
    {
      "epoch": 0.01314021203523966,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.0025651137034098308,
      "learning_rate": 2e-05,
      "loss": 1.25,
      "loss/crossentropy": 2.579538345336914,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1640225350856781,
      "step": 880
    },
    {
      "epoch": 0.013155144094370614,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.002402178446451823,
      "learning_rate": 2e-05,
      "loss": 1.397,
      "loss/crossentropy": 2.5399506092071533,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.1938353031873703,
      "step": 881
    },
    {
      "epoch": 0.013170076153501568,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0024027506510416667,
      "learning_rate": 2e-05,
      "loss": 1.3593,
      "loss/crossentropy": 2.570274591445923,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 12.0,
      "loss/logits": 0.19524267315864563,
      "step": 882
    },
    {
      "epoch": 0.013185008212632522,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0022074381510416665,
      "learning_rate": 2e-05,
      "loss": 1.2983,
      "loss/crossentropy": 2.8754701614379883,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.18115171790122986,
      "step": 883
    },
    {
      "epoch": 0.013199940271763477,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.002201080322265625,
      "learning_rate": 2e-05,
      "loss": 1.2878,
      "loss/crossentropy": 2.8438570499420166,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1705954670906067,
      "step": 884
    },
    {
      "epoch": 0.01321487233089443,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0018960952758789063,
      "learning_rate": 2e-05,
      "loss": 1.3113,
      "loss/crossentropy": 2.6516339778900146,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1863495111465454,
      "step": 885
    },
    {
      "epoch": 0.013229804390025385,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.0023518721262613933,
      "learning_rate": 2e-05,
      "loss": 1.1807,
      "loss/crossentropy": 2.603248119354248,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.14165057241916656,
      "step": 886
    },
    {
      "epoch": 0.013244736449156339,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.002282444636027018,
      "learning_rate": 2e-05,
      "loss": 1.2735,
      "loss/crossentropy": 2.409811019897461,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16412316262722015,
      "step": 887
    },
    {
      "epoch": 0.013259668508287293,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0023247877756754558,
      "learning_rate": 2e-05,
      "loss": 1.2055,
      "loss/crossentropy": 2.680741548538208,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15857717394828796,
      "step": 888
    },
    {
      "epoch": 0.013274600567418247,
      "grad_norm": 1.84375,
      "grad_norm_var": 0.10388995806376139,
      "learning_rate": 2e-05,
      "loss": 1.3991,
      "loss/crossentropy": 2.831256628036499,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.2428184151649475,
      "step": 889
    },
    {
      "epoch": 0.013289532626549201,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.10374690691630045,
      "learning_rate": 2e-05,
      "loss": 1.3895,
      "loss/crossentropy": 2.541971206665039,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.18634910881519318,
      "step": 890
    },
    {
      "epoch": 0.013304464685680155,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.10400427182515462,
      "learning_rate": 2e-05,
      "loss": 1.2184,
      "loss/crossentropy": 2.6130967140197754,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.16373895108699799,
      "step": 891
    },
    {
      "epoch": 0.01331939674481111,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.10400427182515462,
      "learning_rate": 2e-05,
      "loss": 1.19,
      "loss/crossentropy": 2.482786178588867,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.14307764172554016,
      "step": 892
    },
    {
      "epoch": 0.013334328803942063,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.10560949643452962,
      "learning_rate": 2e-05,
      "loss": 1.1326,
      "loss/crossentropy": 2.541658639907837,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98828125,
      "loss/idx": 12.0,
      "loss/logits": 0.1443423479795456,
      "step": 893
    },
    {
      "epoch": 0.013349260863073018,
      "grad_norm": 0.65625,
      "grad_norm_var": 0.1056228478749593,
      "learning_rate": 2e-05,
      "loss": 1.3966,
      "loss/crossentropy": 2.303764581680298,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.1934724748134613,
      "step": 894
    },
    {
      "epoch": 0.013364192922203972,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.10672783851623535,
      "learning_rate": 2e-05,
      "loss": 1.1688,
      "loss/crossentropy": 2.6050453186035156,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.1453702449798584,
      "step": 895
    },
    {
      "epoch": 0.013379124981334926,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.10579705238342285,
      "learning_rate": 2e-05,
      "loss": 1.2725,
      "loss/crossentropy": 2.772411823272705,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.17090922594070435,
      "step": 896
    },
    {
      "epoch": 0.01339405704046588,
      "grad_norm": 0.78515625,
      "grad_norm_var": 0.10708196957906087,
      "learning_rate": 2e-05,
      "loss": 1.7039,
      "loss/crossentropy": 2.8474199771881104,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3984375,
      "loss/idx": 12.0,
      "loss/logits": 0.30551040172576904,
      "step": 897
    },
    {
      "epoch": 0.013408989099596834,
      "grad_norm": 1.328125,
      "grad_norm_var": 0.13481214841206868,
      "learning_rate": 2e-05,
      "loss": 1.5814,
      "loss/crossentropy": 2.6117067337036133,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3203125,
      "loss/idx": 12.0,
      "loss/logits": 0.2610923647880554,
      "step": 898
    },
    {
      "epoch": 0.013423921158727788,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.13508350054423016,
      "learning_rate": 2e-05,
      "loss": 1.2476,
      "loss/crossentropy": 2.5433382987976074,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16162243485450745,
      "step": 899
    },
    {
      "epoch": 0.013438853217858742,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.1346571445465088,
      "learning_rate": 2e-05,
      "loss": 1.3289,
      "loss/crossentropy": 2.3905489444732666,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18823018670082092,
      "step": 900
    },
    {
      "epoch": 0.013453785276989696,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.1337714989980062,
      "learning_rate": 2e-05,
      "loss": 1.222,
      "loss/crossentropy": 2.8749287128448486,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15945787727832794,
      "step": 901
    },
    {
      "epoch": 0.01346871733612065,
      "grad_norm": 0.73828125,
      "grad_norm_var": 0.13051751454671223,
      "learning_rate": 2e-05,
      "loss": 1.2667,
      "loss/crossentropy": 2.56249737739563,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16514375805854797,
      "step": 902
    },
    {
      "epoch": 0.013483649395251604,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.13097432454427083,
      "learning_rate": 2e-05,
      "loss": 1.3496,
      "loss/crossentropy": 2.5442233085632324,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 12.0,
      "loss/logits": 0.16989666223526,
      "step": 903
    },
    {
      "epoch": 0.01349858145438256,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.12918675740559896,
      "learning_rate": 2e-05,
      "loss": 1.3425,
      "loss/crossentropy": 2.4813945293426514,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.18623802065849304,
      "step": 904
    },
    {
      "epoch": 0.013513513513513514,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.04024499257405599,
      "learning_rate": 2e-05,
      "loss": 1.1192,
      "loss/crossentropy": 2.650784969329834,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98046875,
      "loss/idx": 12.0,
      "loss/logits": 0.1387377828359604,
      "step": 905
    },
    {
      "epoch": 0.013528445572644468,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.04045384724934896,
      "learning_rate": 2e-05,
      "loss": 1.3307,
      "loss/crossentropy": 2.550124168395996,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.1822178065776825,
      "step": 906
    },
    {
      "epoch": 0.013543377631775422,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.040289052327473956,
      "learning_rate": 2e-05,
      "loss": 1.4404,
      "loss/crossentropy": 2.7158029079437256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.24511241912841797,
      "step": 907
    },
    {
      "epoch": 0.013558309690906377,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0408599853515625,
      "learning_rate": 2e-05,
      "loss": 1.2551,
      "loss/crossentropy": 2.580396890640259,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16913624107837677,
      "step": 908
    },
    {
      "epoch": 0.01357324175003733,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.03955122629801432,
      "learning_rate": 2e-05,
      "loss": 1.2294,
      "loss/crossentropy": 2.6257517337799072,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16689662635326385,
      "step": 909
    },
    {
      "epoch": 0.013588173809168285,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.039581298828125,
      "learning_rate": 2e-05,
      "loss": 1.3795,
      "loss/crossentropy": 2.5408027172088623,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 12.0,
      "loss/logits": 0.1763436645269394,
      "step": 910
    },
    {
      "epoch": 0.013603105868299239,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.038750648498535156,
      "learning_rate": 2e-05,
      "loss": 1.2114,
      "loss/crossentropy": 2.5792062282562256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.1567598581314087,
      "step": 911
    },
    {
      "epoch": 0.013618037927430193,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.039081764221191403,
      "learning_rate": 2e-05,
      "loss": 1.2693,
      "loss/crossentropy": 2.639925956726074,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.17551803588867188,
      "step": 912
    },
    {
      "epoch": 0.013632969986561147,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.03836409250895182,
      "learning_rate": 2e-05,
      "loss": 1.2264,
      "loss/crossentropy": 2.6736505031585693,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.1639370322227478,
      "step": 913
    },
    {
      "epoch": 0.013647902045692101,
      "grad_norm": 0.625,
      "grad_norm_var": 0.0032307306925455728,
      "learning_rate": 2e-05,
      "loss": 1.3798,
      "loss/crossentropy": 2.731677293777466,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.19231237471103668,
      "step": 914
    },
    {
      "epoch": 0.013662834104823055,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.003500811258951823,
      "learning_rate": 2e-05,
      "loss": 1.2027,
      "loss/crossentropy": 2.551647424697876,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15584951639175415,
      "step": 915
    },
    {
      "epoch": 0.01367776616395401,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0035837809244791668,
      "learning_rate": 2e-05,
      "loss": 1.2998,
      "loss/crossentropy": 2.5736746788024902,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.18263675272464752,
      "step": 916
    },
    {
      "epoch": 0.013692698223084963,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.003792063395182292,
      "learning_rate": 2e-05,
      "loss": 1.2474,
      "loss/crossentropy": 2.5645570755004883,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16151148080825806,
      "step": 917
    },
    {
      "epoch": 0.013707630282215917,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.0019236246744791666,
      "learning_rate": 2e-05,
      "loss": 1.1903,
      "loss/crossentropy": 2.7008137702941895,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.1512683928012848,
      "step": 918
    },
    {
      "epoch": 0.013722562341346872,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0018992106119791667,
      "learning_rate": 2e-05,
      "loss": 1.2117,
      "loss/crossentropy": 2.576681613922119,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.16480094194412231,
      "step": 919
    },
    {
      "epoch": 0.013737494400477826,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.0020222981770833333,
      "learning_rate": 2e-05,
      "loss": 1.2225,
      "loss/crossentropy": 2.2980234622955322,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.1522141844034195,
      "step": 920
    },
    {
      "epoch": 0.01375242645960878,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.0022785027821858725,
      "learning_rate": 2e-05,
      "loss": 1.1559,
      "loss/crossentropy": 2.6368680000305176,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14811134338378906,
      "step": 921
    },
    {
      "epoch": 0.013767358518739734,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0022785027821858725,
      "learning_rate": 2e-05,
      "loss": 1.2656,
      "loss/crossentropy": 2.3946034908294678,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16408073902130127,
      "step": 922
    },
    {
      "epoch": 0.013782290577870688,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0020816644032796224,
      "learning_rate": 2e-05,
      "loss": 1.2416,
      "loss/crossentropy": 2.6989355087280273,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16348567605018616,
      "step": 923
    },
    {
      "epoch": 0.013797222637001642,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0020609378814697267,
      "learning_rate": 2e-05,
      "loss": 1.1568,
      "loss/crossentropy": 2.457051992416382,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1490294486284256,
      "step": 924
    },
    {
      "epoch": 0.013812154696132596,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.002199745178222656,
      "learning_rate": 2e-05,
      "loss": 1.209,
      "loss/crossentropy": 2.6960437297821045,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.16211289167404175,
      "step": 925
    },
    {
      "epoch": 0.01382708675526355,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0019378026326497396,
      "learning_rate": 2e-05,
      "loss": 1.2168,
      "loss/crossentropy": 2.486149549484253,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.1543126404285431,
      "step": 926
    },
    {
      "epoch": 0.013842018814394504,
      "grad_norm": 0.74609375,
      "grad_norm_var": 0.00453637440999349,
      "learning_rate": 2e-05,
      "loss": 1.2962,
      "loss/crossentropy": 2.531057119369507,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1868131458759308,
      "step": 927
    },
    {
      "epoch": 0.013856950873525458,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.004612477620442709,
      "learning_rate": 2e-05,
      "loss": 1.3788,
      "loss/crossentropy": 2.445338726043701,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 12.0,
      "loss/logits": 0.19916069507598877,
      "step": 928
    },
    {
      "epoch": 0.013871882932656412,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.004504648844401041,
      "learning_rate": 2e-05,
      "loss": 1.2241,
      "loss/crossentropy": 2.5794379711151123,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.15381918847560883,
      "step": 929
    },
    {
      "epoch": 0.013886814991787368,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.004229990641276041,
      "learning_rate": 2e-05,
      "loss": 1.3103,
      "loss/crossentropy": 2.6032307147979736,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17746026813983917,
      "step": 930
    },
    {
      "epoch": 0.013901747050918322,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.004122416178385417,
      "learning_rate": 2e-05,
      "loss": 1.2506,
      "loss/crossentropy": 2.637634515762329,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.15681351721286774,
      "step": 931
    },
    {
      "epoch": 0.013916679110049276,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.004254595438639323,
      "learning_rate": 2e-05,
      "loss": 1.3071,
      "loss/crossentropy": 2.4573991298675537,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.17433026432991028,
      "step": 932
    },
    {
      "epoch": 0.01393161116918023,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.004180399576822916,
      "learning_rate": 2e-05,
      "loss": 1.2987,
      "loss/crossentropy": 2.4106740951538086,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1737232506275177,
      "step": 933
    },
    {
      "epoch": 0.013946543228311185,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.0041315714518229164,
      "learning_rate": 2e-05,
      "loss": 1.3689,
      "loss/crossentropy": 2.61064076423645,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 12.0,
      "loss/logits": 0.181406170129776,
      "step": 934
    },
    {
      "epoch": 0.013961475287442139,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.0046009699503580725,
      "learning_rate": 2e-05,
      "loss": 1.2803,
      "loss/crossentropy": 2.4577136039733887,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.16315729916095734,
      "step": 935
    },
    {
      "epoch": 0.013976407346573093,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.004567909240722656,
      "learning_rate": 2e-05,
      "loss": 1.2566,
      "loss/crossentropy": 2.2968335151672363,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.1706232726573944,
      "step": 936
    },
    {
      "epoch": 0.013991339405704047,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.004443852106730143,
      "learning_rate": 2e-05,
      "loss": 1.162,
      "loss/crossentropy": 2.473719596862793,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.146341010928154,
      "step": 937
    },
    {
      "epoch": 0.014006271464835001,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.004598347345987955,
      "learning_rate": 2e-05,
      "loss": 1.1695,
      "loss/crossentropy": 2.7954347133636475,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.1460927426815033,
      "step": 938
    },
    {
      "epoch": 0.014021203523965955,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.004979960123697917,
      "learning_rate": 2e-05,
      "loss": 1.1899,
      "loss/crossentropy": 2.491903781890869,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.14299684762954712,
      "step": 939
    },
    {
      "epoch": 0.01403613558309691,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.004992167154947917,
      "learning_rate": 2e-05,
      "loss": 1.2752,
      "loss/crossentropy": 2.651737928390503,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.15803387761116028,
      "step": 940
    },
    {
      "epoch": 0.014051067642227863,
      "grad_norm": 0.9140625,
      "grad_norm_var": 0.012295007705688477,
      "learning_rate": 2e-05,
      "loss": 1.4622,
      "loss/crossentropy": 2.304933547973633,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2578125,
      "loss/idx": 12.0,
      "loss/logits": 0.20437663793563843,
      "step": 941
    },
    {
      "epoch": 0.014065999701358817,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.012431192398071288,
      "learning_rate": 2e-05,
      "loss": 1.2685,
      "loss/crossentropy": 2.5132477283477783,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16695216298103333,
      "step": 942
    },
    {
      "epoch": 0.014080931760489772,
      "grad_norm": 0.5,
      "grad_norm_var": 0.010917139053344727,
      "learning_rate": 2e-05,
      "loss": 1.1307,
      "loss/crossentropy": 2.515592336654663,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9921875,
      "loss/idx": 12.0,
      "loss/logits": 0.13850846886634827,
      "step": 943
    },
    {
      "epoch": 0.014095863819620726,
      "grad_norm": 0.5,
      "grad_norm_var": 0.011102533340454102,
      "learning_rate": 2e-05,
      "loss": 1.2549,
      "loss/crossentropy": 2.392749071121216,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.16117683053016663,
      "step": 944
    },
    {
      "epoch": 0.01411079587875168,
      "grad_norm": 0.6875,
      "grad_norm_var": 0.012054936091105143,
      "learning_rate": 2e-05,
      "loss": 1.4447,
      "loss/crossentropy": 2.619136095046997,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 12.0,
      "loss/logits": 0.21033376455307007,
      "step": 945
    },
    {
      "epoch": 0.014125727937882634,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.012276824315388997,
      "learning_rate": 2e-05,
      "loss": 1.2539,
      "loss/crossentropy": 2.70526385307312,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16797472536563873,
      "step": 946
    },
    {
      "epoch": 0.014140659997013588,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.012201166152954102,
      "learning_rate": 2e-05,
      "loss": 1.3053,
      "loss/crossentropy": 2.671525239944458,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1802533119916916,
      "step": 947
    },
    {
      "epoch": 0.014155592056144542,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.011984872817993163,
      "learning_rate": 2e-05,
      "loss": 1.2934,
      "loss/crossentropy": 2.5209715366363525,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.16836240887641907,
      "step": 948
    },
    {
      "epoch": 0.014170524115275496,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.011808379491170248,
      "learning_rate": 2e-05,
      "loss": 1.2201,
      "loss/crossentropy": 2.352734327316284,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.14974716305732727,
      "step": 949
    },
    {
      "epoch": 0.01418545617440645,
      "grad_norm": 0.64453125,
      "grad_norm_var": 0.011988051732381185,
      "learning_rate": 2e-05,
      "loss": 1.3441,
      "loss/crossentropy": 2.5131075382232666,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.20351985096931458,
      "step": 950
    },
    {
      "epoch": 0.014200388233537404,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.011623112360636394,
      "learning_rate": 2e-05,
      "loss": 1.1609,
      "loss/crossentropy": 2.6400680541992188,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 12.0,
      "loss/logits": 0.14532148838043213,
      "step": 951
    },
    {
      "epoch": 0.014215320292668358,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.011453866958618164,
      "learning_rate": 2e-05,
      "loss": 1.2853,
      "loss/crossentropy": 2.4889473915100098,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.1681395173072815,
      "step": 952
    },
    {
      "epoch": 0.014230252351799312,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.01156322161356608,
      "learning_rate": 2e-05,
      "loss": 1.3387,
      "loss/crossentropy": 2.304206609725952,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.18247899413108826,
      "step": 953
    },
    {
      "epoch": 0.014245184410930267,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.011328617731730143,
      "learning_rate": 2e-05,
      "loss": 1.3366,
      "loss/crossentropy": 2.4242758750915527,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.18031245470046997,
      "step": 954
    },
    {
      "epoch": 0.01426011647006122,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.010461171468098959,
      "learning_rate": 2e-05,
      "loss": 1.2421,
      "loss/crossentropy": 2.681748151779175,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 12.0,
      "loss/logits": 0.17177164554595947,
      "step": 955
    },
    {
      "epoch": 0.014275048529192176,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.011227862040201823,
      "learning_rate": 2e-05,
      "loss": 1.1478,
      "loss/crossentropy": 2.6037683486938477,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 12.0,
      "loss/logits": 0.14775672554969788,
      "step": 956
    },
    {
      "epoch": 0.01428998058832313,
      "grad_norm": 0.88671875,
      "grad_norm_var": 0.010088094075520833,
      "learning_rate": 2e-05,
      "loss": 1.5679,
      "loss/crossentropy": 2.7519948482513428,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.296875,
      "loss/idx": 12.0,
      "loss/logits": 0.2710202634334564,
      "step": 957
    },
    {
      "epoch": 0.014304912647454085,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0103485107421875,
      "learning_rate": 2e-05,
      "loss": 1.2848,
      "loss/crossentropy": 2.3958358764648438,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.1754007339477539,
      "step": 958
    },
    {
      "epoch": 0.014319844706585039,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.009848976135253906,
      "learning_rate": 2e-05,
      "loss": 1.496,
      "loss/crossentropy": 2.428069591522217,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2734375,
      "loss/idx": 12.0,
      "loss/logits": 0.2225390374660492,
      "step": 959
    },
    {
      "epoch": 0.014334776765715993,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.009597206115722656,
      "learning_rate": 2e-05,
      "loss": 1.2105,
      "loss/crossentropy": 2.5576891899108887,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15579423308372498,
      "step": 960
    },
    {
      "epoch": 0.014349708824846947,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.009244537353515625,
      "learning_rate": 2e-05,
      "loss": 1.2722,
      "loss/crossentropy": 2.3733532428741455,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 12.0,
      "loss/logits": 0.17849120497703552,
      "step": 961
    },
    {
      "epoch": 0.014364640883977901,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.009244537353515625,
      "learning_rate": 2e-05,
      "loss": 1.1481,
      "loss/crossentropy": 2.5622546672821045,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 12.0,
      "loss/logits": 0.14027273654937744,
      "step": 962
    },
    {
      "epoch": 0.014379572943108855,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.009285481770833333,
      "learning_rate": 2e-05,
      "loss": 1.2864,
      "loss/crossentropy": 2.436474561691284,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.16921366751194,
      "step": 963
    },
    {
      "epoch": 0.01439450500223981,
      "grad_norm": 0.71875,
      "grad_norm_var": 0.010209592183430989,
      "learning_rate": 2e-05,
      "loss": 1.4983,
      "loss/crossentropy": 2.7202954292297363,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 12.0,
      "loss/logits": 0.25612711906433105,
      "step": 964
    },
    {
      "epoch": 0.014409437061370763,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.010479164123535157,
      "learning_rate": 2e-05,
      "loss": 1.2016,
      "loss/crossentropy": 2.370645523071289,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.14687049388885498,
      "step": 965
    },
    {
      "epoch": 0.014424369120501717,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.010563087463378907,
      "learning_rate": 2e-05,
      "loss": 1.3283,
      "loss/crossentropy": 2.7037761211395264,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.18769502639770508,
      "step": 966
    },
    {
      "epoch": 0.014439301179632671,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.010810279846191406,
      "learning_rate": 2e-05,
      "loss": 1.2502,
      "loss/crossentropy": 2.5512642860412598,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16423162817955017,
      "step": 967
    },
    {
      "epoch": 0.014454233238763626,
      "grad_norm": 0.482421875,
      "grad_norm_var": 0.011458698908487957,
      "learning_rate": 2e-05,
      "loss": 1.173,
      "loss/crossentropy": 2.560576915740967,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.1495593786239624,
      "step": 968
    },
    {
      "epoch": 0.01446916529789458,
      "grad_norm": 0.70703125,
      "grad_norm_var": 0.01209270159403483,
      "learning_rate": 2e-05,
      "loss": 1.3237,
      "loss/crossentropy": 2.5032005310058594,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 12.0,
      "loss/logits": 0.1908506453037262,
      "step": 969
    },
    {
      "epoch": 0.014484097357025534,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.01200242042541504,
      "learning_rate": 2e-05,
      "loss": 1.1987,
      "loss/crossentropy": 2.6098976135253906,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 12.0,
      "loss/logits": 0.15182408690452576,
      "step": 970
    },
    {
      "epoch": 0.014499029416156488,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.01206192970275879,
      "learning_rate": 2e-05,
      "loss": 1.2095,
      "loss/crossentropy": 2.6711175441741943,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.15485651791095734,
      "step": 971
    },
    {
      "epoch": 0.014513961475287442,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.011530160903930664,
      "learning_rate": 2e-05,
      "loss": 1.2459,
      "loss/crossentropy": 2.7971813678741455,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.16782422363758087,
      "step": 972
    },
    {
      "epoch": 0.014528893534418396,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.004891316095987956,
      "learning_rate": 2e-05,
      "loss": 1.3771,
      "loss/crossentropy": 2.5039517879486084,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 12.0,
      "loss/logits": 0.18174386024475098,
      "step": 973
    },
    {
      "epoch": 0.01454382559354935,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0047864119211832685,
      "learning_rate": 2e-05,
      "loss": 1.2518,
      "loss/crossentropy": 2.4862096309661865,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 12.0,
      "loss/logits": 0.1736270785331726,
      "step": 974
    },
    {
      "epoch": 0.014558757652680304,
      "grad_norm": 0.76953125,
      "grad_norm_var": 0.007496754328409831,
      "learning_rate": 2e-05,
      "loss": 1.32,
      "loss/crossentropy": 2.335102081298828,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 12.0,
      "loss/logits": 0.17159795761108398,
      "step": 975
    },
    {
      "epoch": 0.014573689711811258,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.007389561335245768,
      "learning_rate": 2e-05,
      "loss": 1.2981,
      "loss/crossentropy": 2.5871307849884033,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.1731010526418686,
      "step": 976
    },
    {
      "epoch": 0.014588621770942212,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.0077042738596598305,
      "learning_rate": 2e-05,
      "loss": 1.2361,
      "loss/crossentropy": 2.640996217727661,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.17356736958026886,
      "step": 977
    },
    {
      "epoch": 0.014603553830073166,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.007499424616495768,
      "learning_rate": 2e-05,
      "loss": 1.2752,
      "loss/crossentropy": 2.4583990573883057,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.16585969924926758,
      "step": 978
    },
    {
      "epoch": 0.01461848588920412,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.007342386245727539,
      "learning_rate": 2e-05,
      "loss": 1.2629,
      "loss/crossentropy": 2.440524101257324,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 12.0,
      "loss/logits": 0.16134318709373474,
      "step": 979
    },
    {
      "epoch": 0.014633417948335075,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.00588072141011556,
      "learning_rate": 2e-05,
      "loss": 1.2182,
      "loss/crossentropy": 2.598440647125244,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.15566852688789368,
      "step": 980
    },
    {
      "epoch": 0.014648350007466029,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.005844990412394206,
      "learning_rate": 2e-05,
      "loss": 1.1937,
      "loss/crossentropy": 2.516242742538452,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15460515022277832,
      "step": 981
    },
    {
      "epoch": 0.014663282066596985,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.005876652399698893,
      "learning_rate": 2e-05,
      "loss": 1.1113,
      "loss/crossentropy": 2.374080181121826,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.97265625,
      "loss/idx": 12.0,
      "loss/logits": 0.13867977261543274,
      "step": 982
    },
    {
      "epoch": 0.014678214125727939,
      "grad_norm": 0.91015625,
      "grad_norm_var": 0.013574330012003581,
      "learning_rate": 2e-05,
      "loss": 1.4734,
      "loss/crossentropy": 2.396512269973755,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 12.0,
      "loss/logits": 0.20776385068893433,
      "step": 983
    },
    {
      "epoch": 0.014693146184858893,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.012961260477701823,
      "learning_rate": 2e-05,
      "loss": 1.1341,
      "loss/crossentropy": 2.6779584884643555,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.984375,
      "loss/idx": 12.0,
      "loss/logits": 0.14977312088012695,
      "step": 984
    },
    {
      "epoch": 0.014708078243989847,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.012064043680826824,
      "learning_rate": 2e-05,
      "loss": 1.2131,
      "loss/crossentropy": 2.5011801719665527,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 12.0,
      "loss/logits": 0.1583985984325409,
      "step": 985
    },
    {
      "epoch": 0.014723010303120801,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.012186431884765625,
      "learning_rate": 2e-05,
      "loss": 1.2479,
      "loss/crossentropy": 2.4844136238098145,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16194245219230652,
      "step": 986
    },
    {
      "epoch": 0.014737942362251755,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.012145741780598959,
      "learning_rate": 2e-05,
      "loss": 1.2528,
      "loss/crossentropy": 2.221806526184082,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 12.0,
      "loss/logits": 0.16683350503444672,
      "step": 987
    },
    {
      "epoch": 0.014752874421382709,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.0121368408203125,
      "learning_rate": 2e-05,
      "loss": 1.3223,
      "loss/crossentropy": 2.5378036499023438,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 12.0,
      "loss/logits": 0.19727113842964172,
      "step": 988
    },
    {
      "epoch": 0.014767806480513663,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.012041155497233074,
      "learning_rate": 2e-05,
      "loss": 1.1958,
      "loss/crossentropy": 2.597865581512451,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.1567688286304474,
      "step": 989
    },
    {
      "epoch": 0.014782738539644617,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.012278858820597332,
      "learning_rate": 2e-05,
      "loss": 1.1742,
      "loss/crossentropy": 2.7298946380615234,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 12.0,
      "loss/logits": 0.14295458793640137,
      "step": 990
    },
    {
      "epoch": 0.014797670598775571,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.009531895319620768,
      "learning_rate": 2e-05,
      "loss": 1.2208,
      "loss/crossentropy": 2.394542932510376,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.1583481729030609,
      "step": 991
    },
    {
      "epoch": 0.014812602657906525,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.009715127944946288,
      "learning_rate": 2e-05,
      "loss": 1.3119,
      "loss/crossentropy": 2.8174941539764404,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 12.0,
      "loss/logits": 0.20255360007286072,
      "step": 992
    },
    {
      "epoch": 0.01482753471703748,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.009419997533162435,
      "learning_rate": 2e-05,
      "loss": 1.1653,
      "loss/crossentropy": 2.6789565086364746,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 12.0,
      "loss/logits": 0.14188051223754883,
      "step": 993
    },
    {
      "epoch": 0.014842466776168434,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.009429152806599934,
      "learning_rate": 2e-05,
      "loss": 1.2278,
      "loss/crossentropy": 2.6719415187835693,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 12.0,
      "loss/logits": 0.16530798375606537,
      "step": 994
    },
    {
      "epoch": 0.014857398835299388,
      "grad_norm": 0.5,
      "grad_norm_var": 0.00963451067606608,
      "learning_rate": 2e-05,
      "loss": 1.1983,
      "loss/crossentropy": 2.6873083114624023,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 12.0,
      "loss/logits": 0.15920904278755188,
      "step": 995
    },
    {
      "epoch": 0.014872330894430342,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.009456745783487956,
      "learning_rate": 2e-05,
      "loss": 1.2986,
      "loss/crossentropy": 2.5818088054656982,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 12.0,
      "loss/logits": 0.18138398230075836,
      "step": 996
    },
    {
      "epoch": 0.014887262953561296,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.009412495295206706,
      "learning_rate": 2e-05,
      "loss": 1.3294,
      "loss/crossentropy": 2.5327281951904297,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.1731855869293213,
      "step": 997
    },
    {
      "epoch": 0.01490219501269225,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.009376255671183269,
      "learning_rate": 2e-05,
      "loss": 1.3438,
      "loss/crossentropy": 2.5216119289398193,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.18757742643356323,
      "step": 998
    },
    {
      "epoch": 0.014917127071823204,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.0009270826975504557,
      "learning_rate": 2e-05,
      "loss": 1.1393,
      "loss/crossentropy": 2.517537832260132,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 12.0,
      "loss/logits": 0.13927598297595978,
      "step": 999
    },
    {
      "epoch": 0.014932059130954158,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0009011427561442057,
      "learning_rate": 2e-05,
      "loss": 1.3215,
      "loss/crossentropy": 2.4011945724487305,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 12.0,
      "loss/logits": 0.16521359980106354,
      "step": 1000
    },
    {
      "epoch": 0.014946991190085112,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0008880456288655598,
      "learning_rate": 2e-05,
      "loss": 1.3127,
      "loss/crossentropy": 2.5374038219451904,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 12.0,
      "loss/logits": 0.17211785912513733,
      "step": 1001
    },
    {
      "epoch": 0.014961923249216066,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0009166558583577473,
      "learning_rate": 2e-05,
      "loss": 1.3361,
      "loss/crossentropy": 2.324538230895996,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.1876780390739441,
      "step": 1002
    },
    {
      "epoch": 0.01497685530834702,
      "grad_norm": 1.0546875,
      "grad_norm_var": 0.017824538548787437,
      "learning_rate": 2e-05,
      "loss": 1.3262,
      "loss/crossentropy": 2.5217180252075195,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.19337180256843567,
      "step": 1003
    },
    {
      "epoch": 0.014991787367477975,
      "grad_norm": 0.91796875,
      "grad_norm_var": 0.02557371457417806,
      "learning_rate": 2e-05,
      "loss": 1.2566,
      "loss/crossentropy": 2.5869264602661133,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17063188552856445,
      "step": 1004
    },
    {
      "epoch": 0.015006719426608929,
      "grad_norm": 1.0078125,
      "grad_norm_var": 0.03638443946838379,
      "learning_rate": 2e-05,
      "loss": 1.5329,
      "loss/crossentropy": 2.5455098152160645,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.28125,
      "loss/idx": 13.0,
      "loss/logits": 0.25163742899894714,
      "step": 1005
    },
    {
      "epoch": 0.015021651485739883,
      "grad_norm": 0.953125,
      "grad_norm_var": 0.042180315653483076,
      "learning_rate": 2e-05,
      "loss": 1.3301,
      "loss/crossentropy": 2.805210590362549,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.18944759666919708,
      "step": 1006
    },
    {
      "epoch": 0.015036583544870837,
      "grad_norm": 0.92578125,
      "grad_norm_var": 0.04623209635416667,
      "learning_rate": 2e-05,
      "loss": 1.397,
      "loss/crossentropy": 2.673166275024414,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.209548681974411,
      "step": 1007
    },
    {
      "epoch": 0.015051515604001793,
      "grad_norm": 0.80859375,
      "grad_norm_var": 0.04536921183268229,
      "learning_rate": 2e-05,
      "loss": 1.353,
      "loss/crossentropy": 2.5452094078063965,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 13.0,
      "loss/logits": 0.1967710256576538,
      "step": 1008
    },
    {
      "epoch": 0.015066447663132747,
      "grad_norm": 0.796875,
      "grad_norm_var": 0.044171587626139326,
      "learning_rate": 2e-05,
      "loss": 1.2264,
      "loss/crossentropy": 2.614394426345825,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.15607105195522308,
      "step": 1009
    },
    {
      "epoch": 0.015081379722263701,
      "grad_norm": 0.80859375,
      "grad_norm_var": 0.04278971354166667,
      "learning_rate": 2e-05,
      "loss": 1.4443,
      "loss/crossentropy": 2.5008745193481445,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 13.0,
      "loss/logits": 0.20992863178253174,
      "step": 1010
    },
    {
      "epoch": 0.015096311781394655,
      "grad_norm": 1.0078125,
      "grad_norm_var": 0.04396336873372396,
      "learning_rate": 2e-05,
      "loss": 1.6703,
      "loss/crossentropy": 2.8562960624694824,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3828125,
      "loss/idx": 13.0,
      "loss/logits": 0.28753405809402466,
      "step": 1011
    },
    {
      "epoch": 0.015111243840525609,
      "grad_norm": 0.734375,
      "grad_norm_var": 0.04113356272379557,
      "learning_rate": 2e-05,
      "loss": 1.3257,
      "loss/crossentropy": 2.57487416267395,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.19289004802703857,
      "step": 1012
    },
    {
      "epoch": 0.015126175899656563,
      "grad_norm": 0.7109375,
      "grad_norm_var": 0.03770319620768229,
      "learning_rate": 2e-05,
      "loss": 1.2732,
      "loss/crossentropy": 2.6012637615203857,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.17167770862579346,
      "step": 1013
    },
    {
      "epoch": 0.015141107958787517,
      "grad_norm": 0.734375,
      "grad_norm_var": 0.03554255167643229,
      "learning_rate": 2e-05,
      "loss": 1.2555,
      "loss/crossentropy": 2.406501531600952,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15391208231449127,
      "step": 1014
    },
    {
      "epoch": 0.015156040017918471,
      "grad_norm": 0.72265625,
      "grad_norm_var": 0.029904619852701823,
      "learning_rate": 2e-05,
      "loss": 1.2593,
      "loss/crossentropy": 2.6688358783721924,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17337998747825623,
      "step": 1015
    },
    {
      "epoch": 0.015170972077049425,
      "grad_norm": 0.74609375,
      "grad_norm_var": 0.025712076822916666,
      "learning_rate": 2e-05,
      "loss": 1.36,
      "loss/crossentropy": 2.654153823852539,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 13.0,
      "loss/logits": 0.20374688506126404,
      "step": 1016
    },
    {
      "epoch": 0.01518590413618038,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.02223656972249349,
      "learning_rate": 2e-05,
      "loss": 1.34,
      "loss/crossentropy": 2.397961139678955,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.19154663383960724,
      "step": 1017
    },
    {
      "epoch": 0.015200836195311334,
      "grad_norm": 0.6640625,
      "grad_norm_var": 0.017473347981770835,
      "learning_rate": 2e-05,
      "loss": 1.2604,
      "loss/crossentropy": 2.5992560386657715,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17447641491889954,
      "step": 1018
    },
    {
      "epoch": 0.015215768254442288,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.015232276916503907,
      "learning_rate": 2e-05,
      "loss": 1.3838,
      "loss/crossentropy": 2.2740230560302734,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.19633014500141144,
      "step": 1019
    },
    {
      "epoch": 0.015230700313573242,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.01671288808186849,
      "learning_rate": 2e-05,
      "loss": 1.2765,
      "loss/crossentropy": 2.6276321411132812,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18275076150894165,
      "step": 1020
    },
    {
      "epoch": 0.015245632372704196,
      "grad_norm": 0.7890625,
      "grad_norm_var": 0.013131141662597656,
      "learning_rate": 2e-05,
      "loss": 1.5263,
      "loss/crossentropy": 2.5657906532287598,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.25,
      "loss/idx": 13.0,
      "loss/logits": 0.27633097767829895,
      "step": 1021
    },
    {
      "epoch": 0.01526056443183515,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.011393229166666666,
      "learning_rate": 2e-05,
      "loss": 1.2135,
      "loss/crossentropy": 2.5474112033843994,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1510053277015686,
      "step": 1022
    },
    {
      "epoch": 0.015275496490966104,
      "grad_norm": 0.8984375,
      "grad_norm_var": 0.010799090067545572,
      "learning_rate": 2e-05,
      "loss": 1.6306,
      "loss/crossentropy": 2.913024425506592,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3515625,
      "loss/idx": 13.0,
      "loss/logits": 0.278994619846344,
      "step": 1023
    },
    {
      "epoch": 0.015290428550097058,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.011956532796223959,
      "learning_rate": 2e-05,
      "loss": 1.2351,
      "loss/crossentropy": 2.50426983833313,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.172644704580307,
      "step": 1024
    },
    {
      "epoch": 0.015305360609228012,
      "grad_norm": 0.77734375,
      "grad_norm_var": 0.011818885803222656,
      "learning_rate": 2e-05,
      "loss": 1.4706,
      "loss/crossentropy": 2.4272844791412354,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 13.0,
      "loss/logits": 0.20502135157585144,
      "step": 1025
    },
    {
      "epoch": 0.015320292668358966,
      "grad_norm": 0.625,
      "grad_norm_var": 0.012090810139973958,
      "learning_rate": 2e-05,
      "loss": 1.3414,
      "loss/crossentropy": 2.1835615634918213,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.19297602772712708,
      "step": 1026
    },
    {
      "epoch": 0.01533522472748992,
      "grad_norm": 1.0078125,
      "grad_norm_var": 0.012090810139973958,
      "learning_rate": 2e-05,
      "loss": 1.4718,
      "loss/crossentropy": 2.999908924102783,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 13.0,
      "loss/logits": 0.2296452820301056,
      "step": 1027
    },
    {
      "epoch": 0.015350156786620875,
      "grad_norm": 0.6484375,
      "grad_norm_var": 0.012412516276041667,
      "learning_rate": 2e-05,
      "loss": 1.2357,
      "loss/crossentropy": 2.710797071456909,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.15754911303520203,
      "step": 1028
    },
    {
      "epoch": 0.015365088845751829,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.013136545817057291,
      "learning_rate": 2e-05,
      "loss": 1.264,
      "loss/crossentropy": 2.562701940536499,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17028763890266418,
      "step": 1029
    },
    {
      "epoch": 0.015380020904882783,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.014295450846354167,
      "learning_rate": 2e-05,
      "loss": 1.2993,
      "loss/crossentropy": 2.5587525367736816,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1899479776620865,
      "step": 1030
    },
    {
      "epoch": 0.015394952964013737,
      "grad_norm": 0.6640625,
      "grad_norm_var": 0.014334551493326823,
      "learning_rate": 2e-05,
      "loss": 1.2617,
      "loss/crossentropy": 2.8359696865081787,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17577612400054932,
      "step": 1031
    },
    {
      "epoch": 0.015409885023144691,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.014559364318847657,
      "learning_rate": 2e-05,
      "loss": 1.2215,
      "loss/crossentropy": 2.6557297706604004,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16680006682872772,
      "step": 1032
    },
    {
      "epoch": 0.015424817082275645,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.015775299072265624,
      "learning_rate": 2e-05,
      "loss": 1.1809,
      "loss/crossentropy": 2.598259687423706,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15747103095054626,
      "step": 1033
    },
    {
      "epoch": 0.015439749141406599,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.01621087392171224,
      "learning_rate": 2e-05,
      "loss": 1.293,
      "loss/crossentropy": 2.3652303218841553,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.18361005187034607,
      "step": 1034
    },
    {
      "epoch": 0.015454681200537555,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.016527748107910155,
      "learning_rate": 2e-05,
      "loss": 1.2546,
      "loss/crossentropy": 2.5818984508514404,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.16868820786476135,
      "step": 1035
    },
    {
      "epoch": 0.015469613259668509,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.016382789611816405,
      "learning_rate": 2e-05,
      "loss": 1.2933,
      "loss/crossentropy": 2.655116081237793,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1839730441570282,
      "step": 1036
    },
    {
      "epoch": 0.015484545318799463,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.016382789611816405,
      "learning_rate": 2e-05,
      "loss": 1.2268,
      "loss/crossentropy": 2.541788339614868,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16428236663341522,
      "step": 1037
    },
    {
      "epoch": 0.015499477377930417,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.017032814025878907,
      "learning_rate": 2e-05,
      "loss": 1.264,
      "loss/crossentropy": 2.7263083457946777,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17802877724170685,
      "step": 1038
    },
    {
      "epoch": 0.015514409437061371,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.013324928283691407,
      "learning_rate": 2e-05,
      "loss": 1.2371,
      "loss/crossentropy": 2.8279428482055664,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.18236854672431946,
      "step": 1039
    },
    {
      "epoch": 0.015529341496192325,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.013892555236816406,
      "learning_rate": 2e-05,
      "loss": 1.2164,
      "loss/crossentropy": 2.6993460655212402,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16949616372585297,
      "step": 1040
    },
    {
      "epoch": 0.01554427355532328,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.012467193603515624,
      "learning_rate": 2e-05,
      "loss": 1.2521,
      "loss/crossentropy": 2.532785654067993,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.16616228222846985,
      "step": 1041
    },
    {
      "epoch": 0.015559205614454234,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.012461344401041666,
      "learning_rate": 2e-05,
      "loss": 1.2867,
      "loss/crossentropy": 2.5695011615753174,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1772921234369278,
      "step": 1042
    },
    {
      "epoch": 0.015574137673585188,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.001683489481608073,
      "learning_rate": 2e-05,
      "loss": 1.2487,
      "loss/crossentropy": 2.461456537246704,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1706066131591797,
      "step": 1043
    },
    {
      "epoch": 0.015589069732716142,
      "grad_norm": 0.63671875,
      "grad_norm_var": 0.0015940348307291667,
      "learning_rate": 2e-05,
      "loss": 1.2816,
      "loss/crossentropy": 2.573848247528076,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1722354292869568,
      "step": 1044
    },
    {
      "epoch": 0.015604001791847096,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.001602935791015625,
      "learning_rate": 2e-05,
      "loss": 1.179,
      "loss/crossentropy": 2.5369319915771484,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.1555238664150238,
      "step": 1045
    },
    {
      "epoch": 0.01561893385097805,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.0017297744750976562,
      "learning_rate": 2e-05,
      "loss": 1.3623,
      "loss/crossentropy": 2.646678924560547,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.19046559929847717,
      "step": 1046
    },
    {
      "epoch": 0.015633865910109002,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0014605204264322917,
      "learning_rate": 2e-05,
      "loss": 1.2948,
      "loss/crossentropy": 2.7469944953918457,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.18540921807289124,
      "step": 1047
    },
    {
      "epoch": 0.015648797969239958,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.0014605204264322917,
      "learning_rate": 2e-05,
      "loss": 1.246,
      "loss/crossentropy": 2.574913501739502,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17573140561580658,
      "step": 1048
    },
    {
      "epoch": 0.015663730028370914,
      "grad_norm": 0.5,
      "grad_norm_var": 0.0017689387003580728,
      "learning_rate": 2e-05,
      "loss": 1.2004,
      "loss/crossentropy": 2.689748525619507,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16129891574382782,
      "step": 1049
    },
    {
      "epoch": 0.015678662087501866,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.0021712621053059894,
      "learning_rate": 2e-05,
      "loss": 1.2207,
      "loss/crossentropy": 2.6240992546081543,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16604174673557281,
      "step": 1050
    },
    {
      "epoch": 0.015693594146632822,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.0021066665649414062,
      "learning_rate": 2e-05,
      "loss": 1.3609,
      "loss/crossentropy": 2.4291961193084717,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 13.0,
      "loss/logits": 0.20462797582149506,
      "step": 1051
    },
    {
      "epoch": 0.015708526205763775,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0019973119099934897,
      "learning_rate": 2e-05,
      "loss": 1.1655,
      "loss/crossentropy": 2.6186795234680176,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1498570740222931,
      "step": 1052
    },
    {
      "epoch": 0.01572345826489473,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.002118364969889323,
      "learning_rate": 2e-05,
      "loss": 1.3027,
      "loss/crossentropy": 2.752519369125366,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.18552502989768982,
      "step": 1053
    },
    {
      "epoch": 0.015738390324025683,
      "grad_norm": 0.76171875,
      "grad_norm_var": 0.0046772638956705725,
      "learning_rate": 2e-05,
      "loss": 1.3994,
      "loss/crossentropy": 2.4993913173675537,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 13.0,
      "loss/logits": 0.1962486207485199,
      "step": 1054
    },
    {
      "epoch": 0.01575332238315664,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.004691314697265625,
      "learning_rate": 2e-05,
      "loss": 1.213,
      "loss/crossentropy": 2.584184408187866,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1661267727613449,
      "step": 1055
    },
    {
      "epoch": 0.01576825444228759,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.00460961659749349,
      "learning_rate": 2e-05,
      "loss": 1.3191,
      "loss/crossentropy": 2.708296775817871,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.1941191405057907,
      "step": 1056
    },
    {
      "epoch": 0.015783186501418547,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.004681841532389323,
      "learning_rate": 2e-05,
      "loss": 1.3431,
      "loss/crossentropy": 2.7722063064575195,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.20250889658927917,
      "step": 1057
    },
    {
      "epoch": 0.0157981185605495,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.004871098200480143,
      "learning_rate": 2e-05,
      "loss": 1.1876,
      "loss/crossentropy": 2.6514158248901367,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.16421112418174744,
      "step": 1058
    },
    {
      "epoch": 0.015813050619680455,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.004814640680948893,
      "learning_rate": 2e-05,
      "loss": 1.2953,
      "loss/crossentropy": 2.65419864654541,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.19374266266822815,
      "step": 1059
    },
    {
      "epoch": 0.015827982678811407,
      "grad_norm": 0.6953125,
      "grad_norm_var": 0.0055871168772379555,
      "learning_rate": 2e-05,
      "loss": 1.3446,
      "loss/crossentropy": 2.398844003677368,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.19617103040218353,
      "step": 1060
    },
    {
      "epoch": 0.015842914737942363,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.005597416559855143,
      "learning_rate": 2e-05,
      "loss": 1.2199,
      "loss/crossentropy": 2.6054039001464844,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.15744562447071075,
      "step": 1061
    },
    {
      "epoch": 0.015857846797073315,
      "grad_norm": 0.8125,
      "grad_norm_var": 0.009117492039998372,
      "learning_rate": 2e-05,
      "loss": 1.2721,
      "loss/crossentropy": 2.718179702758789,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1940201371908188,
      "step": 1062
    },
    {
      "epoch": 0.01587277885620427,
      "grad_norm": 0.765625,
      "grad_norm_var": 0.010909255345662434,
      "learning_rate": 2e-05,
      "loss": 1.422,
      "loss/crossentropy": 2.877493381500244,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.2344614416360855,
      "step": 1063
    },
    {
      "epoch": 0.015887710915335224,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.01095732053120931,
      "learning_rate": 2e-05,
      "loss": 1.4013,
      "loss/crossentropy": 2.4012539386749268,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 13.0,
      "loss/logits": 0.1981934905052185,
      "step": 1064
    },
    {
      "epoch": 0.01590264297446618,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.01057279904683431,
      "learning_rate": 2e-05,
      "loss": 1.2988,
      "loss/crossentropy": 2.4239413738250732,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.18942078948020935,
      "step": 1065
    },
    {
      "epoch": 0.015917575033597132,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.009684356053670247,
      "learning_rate": 2e-05,
      "loss": 1.3502,
      "loss/crossentropy": 2.4800355434417725,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.2017608880996704,
      "step": 1066
    },
    {
      "epoch": 0.015932507092728088,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.010129658381144206,
      "learning_rate": 2e-05,
      "loss": 1.2782,
      "loss/crossentropy": 2.4825854301452637,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.16887298226356506,
      "step": 1067
    },
    {
      "epoch": 0.01594743915185904,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.010615984598795572,
      "learning_rate": 2e-05,
      "loss": 1.2356,
      "loss/crossentropy": 2.487943649291992,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17307588458061218,
      "step": 1068
    },
    {
      "epoch": 0.015962371210989996,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.010489145914713541,
      "learning_rate": 2e-05,
      "loss": 1.2028,
      "loss/crossentropy": 2.282266855239868,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1559266895055771,
      "step": 1069
    },
    {
      "epoch": 0.015977303270120948,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.00914605458577474,
      "learning_rate": 2e-05,
      "loss": 1.2308,
      "loss/crossentropy": 2.5250964164733887,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17615896463394165,
      "step": 1070
    },
    {
      "epoch": 0.015992235329251904,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.009123992919921876,
      "learning_rate": 2e-05,
      "loss": 1.2686,
      "loss/crossentropy": 2.4969565868377686,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17482084035873413,
      "step": 1071
    },
    {
      "epoch": 0.016007167388382856,
      "grad_norm": 0.72265625,
      "grad_norm_var": 0.010131072998046876,
      "learning_rate": 2e-05,
      "loss": 1.4118,
      "loss/crossentropy": 2.3616156578063965,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.2243403196334839,
      "step": 1072
    },
    {
      "epoch": 0.016022099447513812,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.009897104899088542,
      "learning_rate": 2e-05,
      "loss": 1.2862,
      "loss/crossentropy": 2.4683635234832764,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.17678457498550415,
      "step": 1073
    },
    {
      "epoch": 0.016037031506644768,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.009135293960571288,
      "learning_rate": 2e-05,
      "loss": 1.2834,
      "loss/crossentropy": 2.6184275150299072,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1817963421344757,
      "step": 1074
    },
    {
      "epoch": 0.01605196356577572,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.009017419815063477,
      "learning_rate": 2e-05,
      "loss": 1.4443,
      "loss/crossentropy": 2.3622615337371826,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 13.0,
      "loss/logits": 0.20212198793888092,
      "step": 1075
    },
    {
      "epoch": 0.016066895624906676,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.009087610244750976,
      "learning_rate": 2e-05,
      "loss": 1.2307,
      "loss/crossentropy": 2.550598382949829,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1681874394416809,
      "step": 1076
    },
    {
      "epoch": 0.01608182768403763,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.009439961115519205,
      "learning_rate": 2e-05,
      "loss": 1.2534,
      "loss/crossentropy": 2.5999906063079834,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.183104008436203,
      "step": 1077
    },
    {
      "epoch": 0.016096759743168584,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.006123971939086914,
      "learning_rate": 2e-05,
      "loss": 1.3151,
      "loss/crossentropy": 2.518636703491211,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.190095454454422,
      "step": 1078
    },
    {
      "epoch": 0.016111691802299537,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0036707401275634767,
      "learning_rate": 2e-05,
      "loss": 1.2221,
      "loss/crossentropy": 2.473445177078247,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.15955936908721924,
      "step": 1079
    },
    {
      "epoch": 0.016126623861430493,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0035547733306884764,
      "learning_rate": 2e-05,
      "loss": 1.2402,
      "loss/crossentropy": 2.5388095378875732,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16985295712947845,
      "step": 1080
    },
    {
      "epoch": 0.016141555920561445,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.003527180353800456,
      "learning_rate": 2e-05,
      "loss": 1.3255,
      "loss/crossentropy": 2.577446222305298,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.19264891743659973,
      "step": 1081
    },
    {
      "epoch": 0.0161564879796924,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.00364073117574056,
      "learning_rate": 2e-05,
      "loss": 1.1981,
      "loss/crossentropy": 2.561262369155884,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1590115875005722,
      "step": 1082
    },
    {
      "epoch": 0.016171420038823353,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.0036990960439046224,
      "learning_rate": 2e-05,
      "loss": 1.3113,
      "loss/crossentropy": 2.3770103454589844,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18632197380065918,
      "step": 1083
    },
    {
      "epoch": 0.01618635209795431,
      "grad_norm": 0.6796875,
      "grad_norm_var": 0.004416338602701823,
      "learning_rate": 2e-05,
      "loss": 1.4186,
      "loss/crossentropy": 2.4611380100250244,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 13.0,
      "loss/logits": 0.19985929131507874,
      "step": 1084
    },
    {
      "epoch": 0.01620128415708526,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.004416338602701823,
      "learning_rate": 2e-05,
      "loss": 1.2343,
      "loss/crossentropy": 2.508803129196167,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17179152369499207,
      "step": 1085
    },
    {
      "epoch": 0.016216216216216217,
      "grad_norm": 0.7578125,
      "grad_norm_var": 0.00645898183186849,
      "learning_rate": 2e-05,
      "loss": 1.271,
      "loss/crossentropy": 2.593477964401245,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.20067906379699707,
      "step": 1086
    },
    {
      "epoch": 0.01623114827534717,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.006655311584472657,
      "learning_rate": 2e-05,
      "loss": 1.1943,
      "loss/crossentropy": 2.566943407058716,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16300199925899506,
      "step": 1087
    },
    {
      "epoch": 0.016246080334478125,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.005193010965983073,
      "learning_rate": 2e-05,
      "loss": 1.1865,
      "loss/crossentropy": 2.6508474349975586,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.1630159616470337,
      "step": 1088
    },
    {
      "epoch": 0.016261012393609078,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.005515289306640625,
      "learning_rate": 2e-05,
      "loss": 1.1207,
      "loss/crossentropy": 2.662527561187744,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98046875,
      "loss/idx": 13.0,
      "loss/logits": 0.14020352065563202,
      "step": 1089
    },
    {
      "epoch": 0.016275944452740033,
      "grad_norm": 0.65625,
      "grad_norm_var": 0.006122779846191406,
      "learning_rate": 2e-05,
      "loss": 1.2878,
      "loss/crossentropy": 2.4766385555267334,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.2018873393535614,
      "step": 1090
    },
    {
      "epoch": 0.016290876511870986,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.006078084309895833,
      "learning_rate": 2e-05,
      "loss": 1.3068,
      "loss/crossentropy": 2.465484380722046,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18179619312286377,
      "step": 1091
    },
    {
      "epoch": 0.01630580857100194,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.006004842122395834,
      "learning_rate": 2e-05,
      "loss": 1.383,
      "loss/crossentropy": 2.4888992309570312,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.21115002036094666,
      "step": 1092
    },
    {
      "epoch": 0.016320740630132894,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.006443214416503906,
      "learning_rate": 2e-05,
      "loss": 1.5633,
      "loss/crossentropy": 2.5339741706848145,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3125,
      "loss/idx": 13.0,
      "loss/logits": 0.2507936358451843,
      "step": 1093
    },
    {
      "epoch": 0.01633567268926385,
      "grad_norm": 0.48046875,
      "grad_norm_var": 0.006941477457682292,
      "learning_rate": 2e-05,
      "loss": 1.1839,
      "loss/crossentropy": 2.5070247650146484,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1526746153831482,
      "step": 1094
    },
    {
      "epoch": 0.016350604748394802,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0068743387858072914,
      "learning_rate": 2e-05,
      "loss": 1.3714,
      "loss/crossentropy": 2.454162359237671,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.19956299662590027,
      "step": 1095
    },
    {
      "epoch": 0.016365536807525758,
      "grad_norm": 0.5,
      "grad_norm_var": 0.006910133361816406,
      "learning_rate": 2e-05,
      "loss": 1.1066,
      "loss/crossentropy": 2.6837570667266846,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9609375,
      "loss/idx": 13.0,
      "loss/logits": 0.14565584063529968,
      "step": 1096
    },
    {
      "epoch": 0.01638046886665671,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.006963539123535156,
      "learning_rate": 2e-05,
      "loss": 1.3122,
      "loss/crossentropy": 2.467454433441162,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18724094331264496,
      "step": 1097
    },
    {
      "epoch": 0.016395400925787666,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.006577491760253906,
      "learning_rate": 2e-05,
      "loss": 1.3914,
      "loss/crossentropy": 2.465182065963745,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 13.0,
      "loss/logits": 0.19610178470611572,
      "step": 1098
    },
    {
      "epoch": 0.01641033298491862,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.006586710611979167,
      "learning_rate": 2e-05,
      "loss": 1.3055,
      "loss/crossentropy": 2.500645637512207,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.17266511917114258,
      "step": 1099
    },
    {
      "epoch": 0.016425265044049574,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.005940500895182292,
      "learning_rate": 2e-05,
      "loss": 1.3624,
      "loss/crossentropy": 2.6782145500183105,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.21395066380500793,
      "step": 1100
    },
    {
      "epoch": 0.01644019710318053,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.005803871154785156,
      "learning_rate": 2e-05,
      "loss": 1.2681,
      "loss/crossentropy": 2.5062341690063477,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17436693608760834,
      "step": 1101
    },
    {
      "epoch": 0.016455129162311483,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0036208470662434894,
      "learning_rate": 2e-05,
      "loss": 1.2351,
      "loss/crossentropy": 2.7024452686309814,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17257672548294067,
      "step": 1102
    },
    {
      "epoch": 0.01647006122144244,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.003458086649576823,
      "learning_rate": 2e-05,
      "loss": 1.3367,
      "loss/crossentropy": 2.4043080806732178,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.1883116364479065,
      "step": 1103
    },
    {
      "epoch": 0.01648499328057339,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0034362157185872395,
      "learning_rate": 2e-05,
      "loss": 1.2919,
      "loss/crossentropy": 2.891212224960327,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.19036878645420074,
      "step": 1104
    },
    {
      "epoch": 0.016499925339704347,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0030047098795572915,
      "learning_rate": 2e-05,
      "loss": 1.2393,
      "loss/crossentropy": 2.4849252700805664,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16896244883537292,
      "step": 1105
    },
    {
      "epoch": 0.0165148573988353,
      "grad_norm": 0.6953125,
      "grad_norm_var": 0.0035451253255208335,
      "learning_rate": 2e-05,
      "loss": 1.376,
      "loss/crossentropy": 2.5396435260772705,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.18845024704933167,
      "step": 1106
    },
    {
      "epoch": 0.016529789457966255,
      "grad_norm": 0.4765625,
      "grad_norm_var": 0.004017066955566406,
      "learning_rate": 2e-05,
      "loss": 1.0813,
      "loss/crossentropy": 2.8166513442993164,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9453125,
      "loss/idx": 13.0,
      "loss/logits": 0.13603615760803223,
      "step": 1107
    },
    {
      "epoch": 0.016544721517097207,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.004053688049316407,
      "learning_rate": 2e-05,
      "loss": 1.3427,
      "loss/crossentropy": 2.6875510215759277,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.1942945122718811,
      "step": 1108
    },
    {
      "epoch": 0.016559653576228163,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.003684234619140625,
      "learning_rate": 2e-05,
      "loss": 1.2945,
      "loss/crossentropy": 2.7076685428619385,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.19290290772914886,
      "step": 1109
    },
    {
      "epoch": 0.016574585635359115,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.003223609924316406,
      "learning_rate": 2e-05,
      "loss": 1.2231,
      "loss/crossentropy": 2.6345443725585938,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16839203238487244,
      "step": 1110
    },
    {
      "epoch": 0.01658951769449007,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.003214263916015625,
      "learning_rate": 2e-05,
      "loss": 1.305,
      "loss/crossentropy": 2.5353426933288574,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.17995133996009827,
      "step": 1111
    },
    {
      "epoch": 0.016604449753621024,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0030047098795572915,
      "learning_rate": 2e-05,
      "loss": 1.2216,
      "loss/crossentropy": 2.474064826965332,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1669555902481079,
      "step": 1112
    },
    {
      "epoch": 0.01661938181275198,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0029886881510416668,
      "learning_rate": 2e-05,
      "loss": 1.2778,
      "loss/crossentropy": 2.3786816596984863,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.17628170549869537,
      "step": 1113
    },
    {
      "epoch": 0.01663431387188293,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.002657810846964518,
      "learning_rate": 2e-05,
      "loss": 1.2608,
      "loss/crossentropy": 2.5369842052459717,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17481496930122375,
      "step": 1114
    },
    {
      "epoch": 0.016649245931013888,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.0027690728505452475,
      "learning_rate": 2e-05,
      "loss": 1.3831,
      "loss/crossentropy": 2.764906167984009,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.20345237851142883,
      "step": 1115
    },
    {
      "epoch": 0.01666417799014484,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0026902357737223306,
      "learning_rate": 2e-05,
      "loss": 1.42,
      "loss/crossentropy": 2.3619296550750732,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 13.0,
      "loss/logits": 0.22464251518249512,
      "step": 1116
    },
    {
      "epoch": 0.016679110049275796,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0027773380279541016,
      "learning_rate": 2e-05,
      "loss": 1.2734,
      "loss/crossentropy": 2.6021158695220947,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.18749283254146576,
      "step": 1117
    },
    {
      "epoch": 0.016694042108406748,
      "grad_norm": 0.703125,
      "grad_norm_var": 0.004178857803344727,
      "learning_rate": 2e-05,
      "loss": 1.4517,
      "loss/crossentropy": 2.440187931060791,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.25,
      "loss/idx": 13.0,
      "loss/logits": 0.20173925161361694,
      "step": 1118
    },
    {
      "epoch": 0.016708974167537704,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.004178857803344727,
      "learning_rate": 2e-05,
      "loss": 1.4031,
      "loss/crossentropy": 2.343580722808838,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.21561887860298157,
      "step": 1119
    },
    {
      "epoch": 0.016723906226668656,
      "grad_norm": 0.6328125,
      "grad_norm_var": 0.004483270645141602,
      "learning_rate": 2e-05,
      "loss": 1.4455,
      "loss/crossentropy": 2.702117681503296,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 13.0,
      "loss/logits": 0.24238847196102142,
      "step": 1120
    },
    {
      "epoch": 0.016738838285799612,
      "grad_norm": 0.7734375,
      "grad_norm_var": 0.006887674331665039,
      "learning_rate": 2e-05,
      "loss": 1.5223,
      "loss/crossentropy": 2.4388134479522705,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2890625,
      "loss/idx": 13.0,
      "loss/logits": 0.23323826491832733,
      "step": 1121
    },
    {
      "epoch": 0.016753770344930564,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.006028604507446289,
      "learning_rate": 2e-05,
      "loss": 1.3789,
      "loss/crossentropy": 2.9548146724700928,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.20707201957702637,
      "step": 1122
    },
    {
      "epoch": 0.01676870240406152,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.005402866999308268,
      "learning_rate": 2e-05,
      "loss": 1.2119,
      "loss/crossentropy": 2.4389278888702393,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1572415977716446,
      "step": 1123
    },
    {
      "epoch": 0.016783634463192473,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.0055620670318603516,
      "learning_rate": 2e-05,
      "loss": 1.4007,
      "loss/crossentropy": 2.364082098007202,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 13.0,
      "loss/logits": 0.20534616708755493,
      "step": 1124
    },
    {
      "epoch": 0.01679856652232343,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.005534728368123372,
      "learning_rate": 2e-05,
      "loss": 1.3358,
      "loss/crossentropy": 2.7452070713043213,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.19514214992523193,
      "step": 1125
    },
    {
      "epoch": 0.016813498581454384,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.005521122614542643,
      "learning_rate": 2e-05,
      "loss": 1.3119,
      "loss/crossentropy": 2.608513116836548,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.2025601863861084,
      "step": 1126
    },
    {
      "epoch": 0.016828430640585337,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0055705865224202475,
      "learning_rate": 2e-05,
      "loss": 1.2455,
      "loss/crossentropy": 2.6770386695861816,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17516326904296875,
      "step": 1127
    },
    {
      "epoch": 0.016843362699716292,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.0052670637766520185,
      "learning_rate": 2e-05,
      "loss": 1.2574,
      "loss/crossentropy": 2.6152310371398926,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17150159180164337,
      "step": 1128
    },
    {
      "epoch": 0.016858294758847245,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0049691359202067055,
      "learning_rate": 2e-05,
      "loss": 1.2696,
      "loss/crossentropy": 2.4857561588287354,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.1758662760257721,
      "step": 1129
    },
    {
      "epoch": 0.0168732268179782,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.004389381408691407,
      "learning_rate": 2e-05,
      "loss": 1.2337,
      "loss/crossentropy": 2.617910623550415,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.1634291708469391,
      "step": 1130
    },
    {
      "epoch": 0.016888158877109153,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.004847208658854167,
      "learning_rate": 2e-05,
      "loss": 1.2272,
      "loss/crossentropy": 2.406134605407715,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16469454765319824,
      "step": 1131
    },
    {
      "epoch": 0.01690309093624011,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0048323949178059895,
      "learning_rate": 2e-05,
      "loss": 1.3356,
      "loss/crossentropy": 2.5499508380889893,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.2028346061706543,
      "step": 1132
    },
    {
      "epoch": 0.01691802299537106,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0045882542928059895,
      "learning_rate": 2e-05,
      "loss": 1.2556,
      "loss/crossentropy": 2.609267234802246,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.17749843001365662,
      "step": 1133
    },
    {
      "epoch": 0.016932955054502017,
      "grad_norm": 0.92578125,
      "grad_norm_var": 0.010564168294270834,
      "learning_rate": 2e-05,
      "loss": 1.5228,
      "loss/crossentropy": 2.679161787033081,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.25,
      "loss/idx": 13.0,
      "loss/logits": 0.2727677822113037,
      "step": 1134
    },
    {
      "epoch": 0.01694788711363297,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.010599199930826824,
      "learning_rate": 2e-05,
      "loss": 1.2627,
      "loss/crossentropy": 2.477123737335205,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.1767975389957428,
      "step": 1135
    },
    {
      "epoch": 0.016962819172763925,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.011112467447916666,
      "learning_rate": 2e-05,
      "loss": 1.1844,
      "loss/crossentropy": 2.6230485439300537,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.16095471382141113,
      "step": 1136
    },
    {
      "epoch": 0.016977751231894878,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.009378814697265625,
      "learning_rate": 2e-05,
      "loss": 1.3407,
      "loss/crossentropy": 2.6676883697509766,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.20009231567382812,
      "step": 1137
    },
    {
      "epoch": 0.016992683291025833,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.009423828125,
      "learning_rate": 2e-05,
      "loss": 1.3611,
      "loss/crossentropy": 2.3190951347351074,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.18917620182037354,
      "step": 1138
    },
    {
      "epoch": 0.017007615350156786,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.00941162109375,
      "learning_rate": 2e-05,
      "loss": 1.4375,
      "loss/crossentropy": 2.5025153160095215,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 13.0,
      "loss/logits": 0.22656379640102386,
      "step": 1139
    },
    {
      "epoch": 0.01702254740928774,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.00934136708577474,
      "learning_rate": 2e-05,
      "loss": 1.3811,
      "loss/crossentropy": 2.7573082447052,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 13.0,
      "loss/logits": 0.2170415222644806,
      "step": 1140
    },
    {
      "epoch": 0.017037479468418694,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.00892480214436849,
      "learning_rate": 2e-05,
      "loss": 1.2483,
      "loss/crossentropy": 2.612473249435425,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17800605297088623,
      "step": 1141
    },
    {
      "epoch": 0.01705241152754965,
      "grad_norm": 0.72265625,
      "grad_norm_var": 0.00996850331624349,
      "learning_rate": 2e-05,
      "loss": 1.4418,
      "loss/crossentropy": 2.723935604095459,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 13.0,
      "loss/logits": 0.22303350269794464,
      "step": 1142
    },
    {
      "epoch": 0.017067343586680602,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.010131581624348959,
      "learning_rate": 2e-05,
      "loss": 1.2575,
      "loss/crossentropy": 2.4441022872924805,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17158004641532898,
      "step": 1143
    },
    {
      "epoch": 0.017082275645811558,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.010247230529785156,
      "learning_rate": 2e-05,
      "loss": 1.2389,
      "loss/crossentropy": 2.5366430282592773,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1764407753944397,
      "step": 1144
    },
    {
      "epoch": 0.01709720770494251,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.010514259338378906,
      "learning_rate": 2e-05,
      "loss": 1.2357,
      "loss/crossentropy": 2.7200098037719727,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1732417792081833,
      "step": 1145
    },
    {
      "epoch": 0.017112139764073466,
      "grad_norm": 0.6328125,
      "grad_norm_var": 0.010430908203125,
      "learning_rate": 2e-05,
      "loss": 1.4005,
      "loss/crossentropy": 2.693432331085205,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.21298031508922577,
      "step": 1146
    },
    {
      "epoch": 0.01712707182320442,
      "grad_norm": 0.6796875,
      "grad_norm_var": 0.010410563151041666,
      "learning_rate": 2e-05,
      "loss": 1.4696,
      "loss/crossentropy": 2.30118989944458,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 13.0,
      "loss/logits": 0.20401182770729065,
      "step": 1147
    },
    {
      "epoch": 0.017142003882335374,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.010770098368326823,
      "learning_rate": 2e-05,
      "loss": 1.1958,
      "loss/crossentropy": 2.67213773727417,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.15674254298210144,
      "step": 1148
    },
    {
      "epoch": 0.017156935941466327,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.010880533854166667,
      "learning_rate": 2e-05,
      "loss": 1.2911,
      "loss/crossentropy": 2.788635730743408,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.19733943045139313,
      "step": 1149
    },
    {
      "epoch": 0.017171868000597282,
      "grad_norm": 0.671875,
      "grad_norm_var": 0.003999773661295573,
      "learning_rate": 2e-05,
      "loss": 1.2827,
      "loss/crossentropy": 2.373025894165039,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.18114924430847168,
      "step": 1150
    },
    {
      "epoch": 0.017186800059728235,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.003981526692708333,
      "learning_rate": 2e-05,
      "loss": 1.3812,
      "loss/crossentropy": 2.4267663955688477,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.2015307992696762,
      "step": 1151
    },
    {
      "epoch": 0.01720173211885919,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.003750038146972656,
      "learning_rate": 2e-05,
      "loss": 1.263,
      "loss/crossentropy": 2.414804458618164,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1849151998758316,
      "step": 1152
    },
    {
      "epoch": 0.017216664177990147,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.0035723368326822918,
      "learning_rate": 2e-05,
      "loss": 1.3073,
      "loss/crossentropy": 2.3469202518463135,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.19007420539855957,
      "step": 1153
    },
    {
      "epoch": 0.0172315962371211,
      "grad_norm": 0.7109375,
      "grad_norm_var": 0.004510498046875,
      "learning_rate": 2e-05,
      "loss": 1.36,
      "loss/crossentropy": 2.6144962310791016,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.18814045190811157,
      "step": 1154
    },
    {
      "epoch": 0.017246528296252055,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.004740142822265625,
      "learning_rate": 2e-05,
      "loss": 1.1889,
      "loss/crossentropy": 2.7515432834625244,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15762561559677124,
      "step": 1155
    },
    {
      "epoch": 0.017261460355383007,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.005408732096354166,
      "learning_rate": 2e-05,
      "loss": 1.142,
      "loss/crossentropy": 2.41715407371521,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.14197902381420135,
      "step": 1156
    },
    {
      "epoch": 0.017276392414513963,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.005545488993326823,
      "learning_rate": 2e-05,
      "loss": 1.2009,
      "loss/crossentropy": 2.6549770832061768,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16962096095085144,
      "step": 1157
    },
    {
      "epoch": 0.017291324473644915,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.004223060607910156,
      "learning_rate": 2e-05,
      "loss": 1.3874,
      "loss/crossentropy": 2.5990960597991943,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.1999187469482422,
      "step": 1158
    },
    {
      "epoch": 0.01730625653277587,
      "grad_norm": 0.875,
      "grad_norm_var": 0.009479777018229166,
      "learning_rate": 2e-05,
      "loss": 1.4493,
      "loss/crossentropy": 2.7729477882385254,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 13.0,
      "loss/logits": 0.22276878356933594,
      "step": 1159
    },
    {
      "epoch": 0.017321188591906823,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.009325917561848958,
      "learning_rate": 2e-05,
      "loss": 1.3001,
      "loss/crossentropy": 3.0190675258636475,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.17512644827365875,
      "step": 1160
    },
    {
      "epoch": 0.01733612065103778,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.009157752990722657,
      "learning_rate": 2e-05,
      "loss": 1.2894,
      "loss/crossentropy": 2.6917951107025146,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.18787968158721924,
      "step": 1161
    },
    {
      "epoch": 0.01735105271016873,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.009200032552083333,
      "learning_rate": 2e-05,
      "loss": 1.396,
      "loss/crossentropy": 2.4003427028656006,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.21633100509643555,
      "step": 1162
    },
    {
      "epoch": 0.017365984769299687,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.009322341283162434,
      "learning_rate": 2e-05,
      "loss": 1.2178,
      "loss/crossentropy": 2.5328409671783447,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.17093852162361145,
      "step": 1163
    },
    {
      "epoch": 0.01738091682843064,
      "grad_norm": 0.5,
      "grad_norm_var": 0.009583139419555664,
      "learning_rate": 2e-05,
      "loss": 1.2184,
      "loss/crossentropy": 2.6213250160217285,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16373440623283386,
      "step": 1164
    },
    {
      "epoch": 0.017395848887561596,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.009680795669555663,
      "learning_rate": 2e-05,
      "loss": 1.2133,
      "loss/crossentropy": 2.523061513900757,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1664462834596634,
      "step": 1165
    },
    {
      "epoch": 0.017410780946692548,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.009127664566040038,
      "learning_rate": 2e-05,
      "loss": 1.2568,
      "loss/crossentropy": 2.529860496520996,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.18652039766311646,
      "step": 1166
    },
    {
      "epoch": 0.017425713005823504,
      "grad_norm": 0.66796875,
      "grad_norm_var": 0.009584919611612955,
      "learning_rate": 2e-05,
      "loss": 1.3846,
      "loss/crossentropy": 2.6294994354248047,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 13.0,
      "loss/logits": 0.2205285131931305,
      "step": 1167
    },
    {
      "epoch": 0.017440645064954456,
      "grad_norm": 0.79296875,
      "grad_norm_var": 0.012259403864542643,
      "learning_rate": 2e-05,
      "loss": 1.5955,
      "loss/crossentropy": 2.7622482776641846,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3203125,
      "loss/idx": 13.0,
      "loss/logits": 0.2751520276069641,
      "step": 1168
    },
    {
      "epoch": 0.017455577124085412,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.01294244130452474,
      "learning_rate": 2e-05,
      "loss": 1.3178,
      "loss/crossentropy": 2.5934271812438965,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19280162453651428,
      "step": 1169
    },
    {
      "epoch": 0.017470509183216364,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.012414026260375976,
      "learning_rate": 2e-05,
      "loss": 1.0967,
      "loss/crossentropy": 2.6452291011810303,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.953125,
      "loss/idx": 13.0,
      "loss/logits": 0.14357757568359375,
      "step": 1170
    },
    {
      "epoch": 0.01748544124234732,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.012463744481404622,
      "learning_rate": 2e-05,
      "loss": 1.1795,
      "loss/crossentropy": 2.3400866985321045,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.16387495398521423,
      "step": 1171
    },
    {
      "epoch": 0.017500373301478273,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.012252028783162434,
      "learning_rate": 2e-05,
      "loss": 1.2582,
      "loss/crossentropy": 2.6386451721191406,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17226719856262207,
      "step": 1172
    },
    {
      "epoch": 0.01751530536060923,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.012136316299438477,
      "learning_rate": 2e-05,
      "loss": 1.3139,
      "loss/crossentropy": 2.514528274536133,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18887433409690857,
      "step": 1173
    },
    {
      "epoch": 0.01753023741974018,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.012309122085571288,
      "learning_rate": 2e-05,
      "loss": 1.225,
      "loss/crossentropy": 2.5932071208953857,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1703052967786789,
      "step": 1174
    },
    {
      "epoch": 0.017545169478871137,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.006130075454711914,
      "learning_rate": 2e-05,
      "loss": 1.1948,
      "loss/crossentropy": 2.6108434200286865,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.163537859916687,
      "step": 1175
    },
    {
      "epoch": 0.01756010153800209,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.006296523412068685,
      "learning_rate": 2e-05,
      "loss": 1.4186,
      "loss/crossentropy": 2.4866180419921875,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.23113754391670227,
      "step": 1176
    },
    {
      "epoch": 0.017575033597133045,
      "grad_norm": 0.87109375,
      "grad_norm_var": 0.012354516983032226,
      "learning_rate": 2e-05,
      "loss": 1.2533,
      "loss/crossentropy": 2.478165626525879,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.16738183796405792,
      "step": 1177
    },
    {
      "epoch": 0.017589965656263997,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.012690083185831705,
      "learning_rate": 2e-05,
      "loss": 1.2588,
      "loss/crossentropy": 2.6207003593444824,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1807083934545517,
      "step": 1178
    },
    {
      "epoch": 0.017604897715394953,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.012349955240885417,
      "learning_rate": 2e-05,
      "loss": 1.2262,
      "loss/crossentropy": 2.719006299972534,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1715444028377533,
      "step": 1179
    },
    {
      "epoch": 0.01761982977452591,
      "grad_norm": 0.625,
      "grad_norm_var": 0.012024434407552083,
      "learning_rate": 2e-05,
      "loss": 1.3838,
      "loss/crossentropy": 2.394318103790283,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.20415380597114563,
      "step": 1180
    },
    {
      "epoch": 0.01763476183365686,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.011839040120442708,
      "learning_rate": 2e-05,
      "loss": 1.2821,
      "loss/crossentropy": 2.665447235107422,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18832457065582275,
      "step": 1181
    },
    {
      "epoch": 0.017649693892787817,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.011845143636067708,
      "learning_rate": 2e-05,
      "loss": 1.3763,
      "loss/crossentropy": 2.765406608581543,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.2044430673122406,
      "step": 1182
    },
    {
      "epoch": 0.01766462595191877,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.01153106689453125,
      "learning_rate": 2e-05,
      "loss": 1.288,
      "loss/crossentropy": 2.4687106609344482,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.20986786484718323,
      "step": 1183
    },
    {
      "epoch": 0.017679558011049725,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.009071842829386393,
      "learning_rate": 2e-05,
      "loss": 1.2231,
      "loss/crossentropy": 2.5798656940460205,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.17622314393520355,
      "step": 1184
    },
    {
      "epoch": 0.017694490070180677,
      "grad_norm": 0.6328125,
      "grad_norm_var": 0.00892175038655599,
      "learning_rate": 2e-05,
      "loss": 1.1994,
      "loss/crossentropy": 2.4811015129089355,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1525367796421051,
      "step": 1185
    },
    {
      "epoch": 0.017709422129311633,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.008527485529581706,
      "learning_rate": 2e-05,
      "loss": 1.3831,
      "loss/crossentropy": 2.6285629272460938,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.21119612455368042,
      "step": 1186
    },
    {
      "epoch": 0.017724354188442586,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.008389012018839518,
      "learning_rate": 2e-05,
      "loss": 1.251,
      "loss/crossentropy": 2.726686716079712,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1728990077972412,
      "step": 1187
    },
    {
      "epoch": 0.01773928624757354,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.008389012018839518,
      "learning_rate": 2e-05,
      "loss": 1.2366,
      "loss/crossentropy": 2.5716280937194824,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16626042127609253,
      "step": 1188
    },
    {
      "epoch": 0.017754218306704494,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.008746830622355144,
      "learning_rate": 2e-05,
      "loss": 1.261,
      "loss/crossentropy": 2.5722556114196777,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17502065002918243,
      "step": 1189
    },
    {
      "epoch": 0.01776915036583545,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.008869663874308268,
      "learning_rate": 2e-05,
      "loss": 1.1607,
      "loss/crossentropy": 2.6687557697296143,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.145055890083313,
      "step": 1190
    },
    {
      "epoch": 0.017784082424966402,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.009162839253743489,
      "learning_rate": 2e-05,
      "loss": 1.1919,
      "loss/crossentropy": 2.54484486579895,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16066983342170715,
      "step": 1191
    },
    {
      "epoch": 0.017799014484097358,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.009063148498535156,
      "learning_rate": 2e-05,
      "loss": 1.2078,
      "loss/crossentropy": 2.6763405799865723,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16090230643749237,
      "step": 1192
    },
    {
      "epoch": 0.01781394654322831,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0027053197224934894,
      "learning_rate": 2e-05,
      "loss": 1.3166,
      "loss/crossentropy": 2.541527509689331,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.1915903240442276,
      "step": 1193
    },
    {
      "epoch": 0.017828878602359266,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.0027444839477539064,
      "learning_rate": 2e-05,
      "loss": 1.2664,
      "loss/crossentropy": 2.8826029300689697,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.18048372864723206,
      "step": 1194
    },
    {
      "epoch": 0.01784381066149022,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.002715301513671875,
      "learning_rate": 2e-05,
      "loss": 1.2014,
      "loss/crossentropy": 2.8553855419158936,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16232401132583618,
      "step": 1195
    },
    {
      "epoch": 0.017858742720621174,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.002458635965983073,
      "learning_rate": 2e-05,
      "loss": 1.3419,
      "loss/crossentropy": 2.377991199493408,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 13.0,
      "loss/logits": 0.17786559462547302,
      "step": 1196
    },
    {
      "epoch": 0.017873674779752127,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.002481524149576823,
      "learning_rate": 2e-05,
      "loss": 1.257,
      "loss/crossentropy": 2.6475048065185547,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.17889858782291412,
      "step": 1197
    },
    {
      "epoch": 0.017888606838883082,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.002481524149576823,
      "learning_rate": 2e-05,
      "loss": 1.3621,
      "loss/crossentropy": 2.4759228229522705,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 13.0,
      "loss/logits": 0.2058965563774109,
      "step": 1198
    },
    {
      "epoch": 0.017903538898014035,
      "grad_norm": 0.5,
      "grad_norm_var": 0.0022822062174479166,
      "learning_rate": 2e-05,
      "loss": 1.2517,
      "loss/crossentropy": 2.5964038372039795,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.18137618899345398,
      "step": 1199
    },
    {
      "epoch": 0.01791847095714499,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.001996342341105143,
      "learning_rate": 2e-05,
      "loss": 1.3369,
      "loss/crossentropy": 2.4271297454833984,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.18846943974494934,
      "step": 1200
    },
    {
      "epoch": 0.017933403016275943,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0015759627024332682,
      "learning_rate": 2e-05,
      "loss": 1.3796,
      "loss/crossentropy": 2.558906316757202,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.23895680904388428,
      "step": 1201
    },
    {
      "epoch": 0.0179483350754069,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0013722578684488933,
      "learning_rate": 2e-05,
      "loss": 1.2437,
      "loss/crossentropy": 2.63244891166687,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.15778325498104095,
      "step": 1202
    },
    {
      "epoch": 0.01796326713453785,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0013978163401285808,
      "learning_rate": 2e-05,
      "loss": 1.2569,
      "loss/crossentropy": 2.5377118587493896,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17098784446716309,
      "step": 1203
    },
    {
      "epoch": 0.017978199193668807,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0013978163401285808,
      "learning_rate": 2e-05,
      "loss": 1.2133,
      "loss/crossentropy": 2.4338786602020264,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.15082281827926636,
      "step": 1204
    },
    {
      "epoch": 0.017993131252799763,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.0015811761220296224,
      "learning_rate": 2e-05,
      "loss": 1.3381,
      "loss/crossentropy": 2.4920754432678223,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.20530369877815247,
      "step": 1205
    },
    {
      "epoch": 0.018008063311930715,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0016038099924723308,
      "learning_rate": 2e-05,
      "loss": 1.226,
      "loss/crossentropy": 2.680633783340454,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.17915096879005432,
      "step": 1206
    },
    {
      "epoch": 0.01802299537106167,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.0019243876139322916,
      "learning_rate": 2e-05,
      "loss": 1.3583,
      "loss/crossentropy": 2.5132720470428467,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.18643470108509064,
      "step": 1207
    },
    {
      "epoch": 0.018037927430192623,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0020873387654622394,
      "learning_rate": 2e-05,
      "loss": 1.2533,
      "loss/crossentropy": 2.6504547595977783,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.18298813700675964,
      "step": 1208
    },
    {
      "epoch": 0.01805285948932358,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.0022617975870768228,
      "learning_rate": 2e-05,
      "loss": 1.3371,
      "loss/crossentropy": 2.7215096950531006,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.20427459478378296,
      "step": 1209
    },
    {
      "epoch": 0.01806779154845453,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.002115631103515625,
      "learning_rate": 2e-05,
      "loss": 1.2598,
      "loss/crossentropy": 2.750105857849121,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17385736107826233,
      "step": 1210
    },
    {
      "epoch": 0.018082723607585487,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0021178563435872394,
      "learning_rate": 2e-05,
      "loss": 1.268,
      "loss/crossentropy": 2.3910109996795654,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.16642415523529053,
      "step": 1211
    },
    {
      "epoch": 0.01809765566671644,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0021077473958333332,
      "learning_rate": 2e-05,
      "loss": 1.2759,
      "loss/crossentropy": 2.6208412647247314,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.17433887720108032,
      "step": 1212
    },
    {
      "epoch": 0.018112587725847396,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0021420796712239582,
      "learning_rate": 2e-05,
      "loss": 1.2242,
      "loss/crossentropy": 2.5190320014953613,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16950549185276031,
      "step": 1213
    },
    {
      "epoch": 0.018127519784978348,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0020078023274739585,
      "learning_rate": 2e-05,
      "loss": 1.2889,
      "loss/crossentropy": 2.4932422637939453,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.17951592803001404,
      "step": 1214
    },
    {
      "epoch": 0.018142451844109304,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0019286473592122395,
      "learning_rate": 2e-05,
      "loss": 1.1917,
      "loss/crossentropy": 2.5093982219696045,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16048479080200195,
      "step": 1215
    },
    {
      "epoch": 0.018157383903240256,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0018694559733072917,
      "learning_rate": 2e-05,
      "loss": 1.3799,
      "loss/crossentropy": 2.4472479820251465,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 13.0,
      "loss/logits": 0.21582560241222382,
      "step": 1216
    },
    {
      "epoch": 0.018172315962371212,
      "grad_norm": 0.5,
      "grad_norm_var": 0.002057329813639323,
      "learning_rate": 2e-05,
      "loss": 1.234,
      "loss/crossentropy": 2.574943780899048,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17926263809204102,
      "step": 1217
    },
    {
      "epoch": 0.018187248021502164,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.002147865295410156,
      "learning_rate": 2e-05,
      "loss": 1.2759,
      "loss/crossentropy": 2.5302133560180664,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.16648699343204498,
      "step": 1218
    },
    {
      "epoch": 0.01820218008063312,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.002113596598307292,
      "learning_rate": 2e-05,
      "loss": 1.2878,
      "loss/crossentropy": 2.620727777481079,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1784372329711914,
      "step": 1219
    },
    {
      "epoch": 0.018217112139764072,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0021397272745768228,
      "learning_rate": 2e-05,
      "loss": 1.2389,
      "loss/crossentropy": 2.8881278038024902,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1763637661933899,
      "step": 1220
    },
    {
      "epoch": 0.018232044198895028,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.001923052469889323,
      "learning_rate": 2e-05,
      "loss": 1.1603,
      "loss/crossentropy": 2.626577854156494,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.15248607099056244,
      "step": 1221
    },
    {
      "epoch": 0.01824697625802598,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0018656412760416667,
      "learning_rate": 2e-05,
      "loss": 1.3248,
      "loss/crossentropy": 2.4721579551696777,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.19197949767112732,
      "step": 1222
    },
    {
      "epoch": 0.018261908317156936,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.0013120015462239583,
      "learning_rate": 2e-05,
      "loss": 1.2957,
      "loss/crossentropy": 2.1448283195495605,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1863187849521637,
      "step": 1223
    },
    {
      "epoch": 0.01827684037628789,
      "grad_norm": 0.74609375,
      "grad_norm_var": 0.003631337483723958,
      "learning_rate": 2e-05,
      "loss": 1.3701,
      "loss/crossentropy": 2.505596399307251,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.1826344132423401,
      "step": 1224
    },
    {
      "epoch": 0.018291772435418845,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.003459676106770833,
      "learning_rate": 2e-05,
      "loss": 1.191,
      "loss/crossentropy": 2.5166234970092773,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15974509716033936,
      "step": 1225
    },
    {
      "epoch": 0.018306704494549797,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.003513590494791667,
      "learning_rate": 2e-05,
      "loss": 1.2205,
      "loss/crossentropy": 2.7810256481170654,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1658242642879486,
      "step": 1226
    },
    {
      "epoch": 0.018321636553680753,
      "grad_norm": 0.5,
      "grad_norm_var": 0.003683916727701823,
      "learning_rate": 2e-05,
      "loss": 1.2462,
      "loss/crossentropy": 2.5059738159179688,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17585018277168274,
      "step": 1227
    },
    {
      "epoch": 0.018336568612811705,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0037535985310872396,
      "learning_rate": 2e-05,
      "loss": 1.4086,
      "loss/crossentropy": 2.800818681716919,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.22110095620155334,
      "step": 1228
    },
    {
      "epoch": 0.01835150067194266,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0038543701171875,
      "learning_rate": 2e-05,
      "loss": 1.1752,
      "loss/crossentropy": 2.5914788246154785,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.1517515331506729,
      "step": 1229
    },
    {
      "epoch": 0.018366432731073613,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.004046630859375,
      "learning_rate": 2e-05,
      "loss": 1.2081,
      "loss/crossentropy": 2.6223032474517822,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.153452530503273,
      "step": 1230
    },
    {
      "epoch": 0.01838136479020457,
      "grad_norm": 0.7109375,
      "grad_norm_var": 0.005541419982910157,
      "learning_rate": 2e-05,
      "loss": 1.4043,
      "loss/crossentropy": 2.614365339279175,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 13.0,
      "loss/logits": 0.2089834213256836,
      "step": 1231
    },
    {
      "epoch": 0.018396296849335525,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.005597941080729167,
      "learning_rate": 2e-05,
      "loss": 1.2692,
      "loss/crossentropy": 2.5265705585479736,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17544037103652954,
      "step": 1232
    },
    {
      "epoch": 0.018411228908466477,
      "grad_norm": 0.63671875,
      "grad_norm_var": 0.005680274963378906,
      "learning_rate": 2e-05,
      "loss": 1.4872,
      "loss/crossentropy": 2.4311468601226807,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 13.0,
      "loss/logits": 0.2606537342071533,
      "step": 1233
    },
    {
      "epoch": 0.018426160967597433,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.006105486551920573,
      "learning_rate": 2e-05,
      "loss": 1.47,
      "loss/crossentropy": 2.592331647872925,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 13.0,
      "loss/logits": 0.23566170036792755,
      "step": 1234
    },
    {
      "epoch": 0.018441093026728386,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.00617364247639974,
      "learning_rate": 2e-05,
      "loss": 1.3208,
      "loss/crossentropy": 2.7657077312469482,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19580461084842682,
      "step": 1235
    },
    {
      "epoch": 0.01845602508585934,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.00600121815999349,
      "learning_rate": 2e-05,
      "loss": 1.2421,
      "loss/crossentropy": 2.8439533710479736,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.18744774162769318,
      "step": 1236
    },
    {
      "epoch": 0.018470957144990294,
      "grad_norm": 0.64453125,
      "grad_norm_var": 0.006141153971354166,
      "learning_rate": 2e-05,
      "loss": 1.2085,
      "loss/crossentropy": 3.1795899868011475,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.14597997069358826,
      "step": 1237
    },
    {
      "epoch": 0.01848588920412125,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.006032307942708333,
      "learning_rate": 2e-05,
      "loss": 1.2747,
      "loss/crossentropy": 2.7262730598449707,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.1887180060148239,
      "step": 1238
    },
    {
      "epoch": 0.018500821263252202,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.00607446034749349,
      "learning_rate": 2e-05,
      "loss": 1.3052,
      "loss/crossentropy": 2.5821917057037354,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.18802396953105927,
      "step": 1239
    },
    {
      "epoch": 0.018515753322383158,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.00404351552327474,
      "learning_rate": 2e-05,
      "loss": 1.3231,
      "loss/crossentropy": 2.5506041049957275,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.17467817664146423,
      "step": 1240
    },
    {
      "epoch": 0.01853068538151411,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.004015858968098958,
      "learning_rate": 2e-05,
      "loss": 1.2676,
      "loss/crossentropy": 2.6439409255981445,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.16604889929294586,
      "step": 1241
    },
    {
      "epoch": 0.018545617440645066,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.0039066950480143225,
      "learning_rate": 2e-05,
      "loss": 1.384,
      "loss/crossentropy": 2.2677359580993652,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 13.0,
      "loss/logits": 0.1886504888534546,
      "step": 1242
    },
    {
      "epoch": 0.01856054949977602,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.003836504618326823,
      "learning_rate": 2e-05,
      "loss": 1.2263,
      "loss/crossentropy": 2.5122861862182617,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16376549005508423,
      "step": 1243
    },
    {
      "epoch": 0.018575481558906974,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0038955052693684894,
      "learning_rate": 2e-05,
      "loss": 1.3596,
      "loss/crossentropy": 2.6457715034484863,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.21896395087242126,
      "step": 1244
    },
    {
      "epoch": 0.018590413618037926,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.003753407796223958,
      "learning_rate": 2e-05,
      "loss": 1.1308,
      "loss/crossentropy": 2.356555700302124,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98828125,
      "loss/idx": 13.0,
      "loss/logits": 0.14256852865219116,
      "step": 1245
    },
    {
      "epoch": 0.018605345677168882,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0033770243326822916,
      "learning_rate": 2e-05,
      "loss": 1.2262,
      "loss/crossentropy": 2.6997029781341553,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1715344786643982,
      "step": 1246
    },
    {
      "epoch": 0.018620277736299835,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0020405451456705728,
      "learning_rate": 2e-05,
      "loss": 1.3046,
      "loss/crossentropy": 2.6006901264190674,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.1796230673789978,
      "step": 1247
    },
    {
      "epoch": 0.01863520979543079,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0019642512003580728,
      "learning_rate": 2e-05,
      "loss": 1.2811,
      "loss/crossentropy": 2.6090171337127686,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1717006117105484,
      "step": 1248
    },
    {
      "epoch": 0.018650141854561743,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0018259048461914062,
      "learning_rate": 2e-05,
      "loss": 1.2577,
      "loss/crossentropy": 2.1411545276641846,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.16393724083900452,
      "step": 1249
    },
    {
      "epoch": 0.0186650739136927,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0012082417805989584,
      "learning_rate": 2e-05,
      "loss": 1.3501,
      "loss/crossentropy": 2.4617106914520264,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 13.0,
      "loss/logits": 0.18599101901054382,
      "step": 1250
    },
    {
      "epoch": 0.01868000597282365,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0011993408203125,
      "learning_rate": 2e-05,
      "loss": 1.2825,
      "loss/crossentropy": 2.587517261505127,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18875601887702942,
      "step": 1251
    },
    {
      "epoch": 0.018694938031954607,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.0014113744099934896,
      "learning_rate": 2e-05,
      "loss": 1.2102,
      "loss/crossentropy": 2.5046262741088867,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.15552225708961487,
      "step": 1252
    },
    {
      "epoch": 0.01870987009108556,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.0010274251302083333,
      "learning_rate": 2e-05,
      "loss": 1.258,
      "loss/crossentropy": 2.6143996715545654,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17202343046665192,
      "step": 1253
    },
    {
      "epoch": 0.018724802150216515,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.001002947489420573,
      "learning_rate": 2e-05,
      "loss": 1.2749,
      "loss/crossentropy": 2.6341636180877686,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1733606904745102,
      "step": 1254
    },
    {
      "epoch": 0.018739734209347467,
      "grad_norm": 0.625,
      "grad_norm_var": 0.001285235087076823,
      "learning_rate": 2e-05,
      "loss": 1.2895,
      "loss/crossentropy": 2.7565486431121826,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1879180669784546,
      "step": 1255
    },
    {
      "epoch": 0.018754666268478423,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.0015811761220296224,
      "learning_rate": 2e-05,
      "loss": 1.1834,
      "loss/crossentropy": 2.7358415126800537,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1677880734205246,
      "step": 1256
    },
    {
      "epoch": 0.01876959832760938,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0015828291575113933,
      "learning_rate": 2e-05,
      "loss": 1.2657,
      "loss/crossentropy": 2.661904811859131,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.1798032820224762,
      "step": 1257
    },
    {
      "epoch": 0.01878453038674033,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0015107313791910806,
      "learning_rate": 2e-05,
      "loss": 1.2148,
      "loss/crossentropy": 2.6133949756622314,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1523081362247467,
      "step": 1258
    },
    {
      "epoch": 0.018799462445871287,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0014393965403238932,
      "learning_rate": 2e-05,
      "loss": 1.2584,
      "loss/crossentropy": 2.6154913902282715,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.18810322880744934,
      "step": 1259
    },
    {
      "epoch": 0.01881439450500224,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0013989607493082683,
      "learning_rate": 2e-05,
      "loss": 1.3253,
      "loss/crossentropy": 2.4987523555755615,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.19253703951835632,
      "step": 1260
    },
    {
      "epoch": 0.018829326564133195,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.0012967268625895183,
      "learning_rate": 2e-05,
      "loss": 1.1954,
      "loss/crossentropy": 2.6275758743286133,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1563832014799118,
      "step": 1261
    },
    {
      "epoch": 0.018844258623264148,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0012904961903889975,
      "learning_rate": 2e-05,
      "loss": 1.1805,
      "loss/crossentropy": 2.654968738555908,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.1571100354194641,
      "step": 1262
    },
    {
      "epoch": 0.018859190682395104,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.001288588841756185,
      "learning_rate": 2e-05,
      "loss": 1.2607,
      "loss/crossentropy": 2.5465691089630127,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17477178573608398,
      "step": 1263
    },
    {
      "epoch": 0.018874122741526056,
      "grad_norm": 0.48046875,
      "grad_norm_var": 0.0017243544260660806,
      "learning_rate": 2e-05,
      "loss": 1.2487,
      "loss/crossentropy": 2.625317096710205,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.17062163352966309,
      "step": 1264
    },
    {
      "epoch": 0.018889054800657012,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0015559991200764973,
      "learning_rate": 2e-05,
      "loss": 1.2303,
      "loss/crossentropy": 2.710569143295288,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16783851385116577,
      "step": 1265
    },
    {
      "epoch": 0.018903986859787964,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0015259901682535806,
      "learning_rate": 2e-05,
      "loss": 1.2482,
      "loss/crossentropy": 2.6588263511657715,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.1778830587863922,
      "step": 1266
    },
    {
      "epoch": 0.01891891891891892,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0016102949778238932,
      "learning_rate": 2e-05,
      "loss": 1.2365,
      "loss/crossentropy": 2.613532304763794,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1740056276321411,
      "step": 1267
    },
    {
      "epoch": 0.018933850978049872,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0014995416005452475,
      "learning_rate": 2e-05,
      "loss": 1.2785,
      "loss/crossentropy": 2.453362464904785,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.17693351209163666,
      "step": 1268
    },
    {
      "epoch": 0.018948783037180828,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.001372512181599935,
      "learning_rate": 2e-05,
      "loss": 1.3397,
      "loss/crossentropy": 2.748429775238037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.20684918761253357,
      "step": 1269
    },
    {
      "epoch": 0.01896371509631178,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0013842105865478516,
      "learning_rate": 2e-05,
      "loss": 1.26,
      "loss/crossentropy": 2.556675672531128,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17401845753192902,
      "step": 1270
    },
    {
      "epoch": 0.018978647155442736,
      "grad_norm": 0.5,
      "grad_norm_var": 0.0010892073313395181,
      "learning_rate": 2e-05,
      "loss": 1.2804,
      "loss/crossentropy": 2.5527727603912354,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.17879468202590942,
      "step": 1271
    },
    {
      "epoch": 0.01899357921457369,
      "grad_norm": 0.88671875,
      "grad_norm_var": 0.008236122131347657,
      "learning_rate": 2e-05,
      "loss": 1.4474,
      "loss/crossentropy": 2.2951905727386475,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 13.0,
      "loss/logits": 0.21297743916511536,
      "step": 1272
    },
    {
      "epoch": 0.019008511273704645,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.008316993713378906,
      "learning_rate": 2e-05,
      "loss": 1.2259,
      "loss/crossentropy": 2.5471127033233643,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1712278127670288,
      "step": 1273
    },
    {
      "epoch": 0.019023443332835597,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0084197998046875,
      "learning_rate": 2e-05,
      "loss": 1.3398,
      "loss/crossentropy": 2.5242245197296143,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.20698873698711395,
      "step": 1274
    },
    {
      "epoch": 0.019038375391966553,
      "grad_norm": 0.466796875,
      "grad_norm_var": 0.008881616592407226,
      "learning_rate": 2e-05,
      "loss": 1.1402,
      "loss/crossentropy": 2.6311800479888916,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.99609375,
      "loss/idx": 13.0,
      "loss/logits": 0.14407965540885925,
      "step": 1275
    },
    {
      "epoch": 0.019053307451097505,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.008845758438110352,
      "learning_rate": 2e-05,
      "loss": 1.3024,
      "loss/crossentropy": 2.553720712661743,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.19305121898651123,
      "step": 1276
    },
    {
      "epoch": 0.01906823951022846,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.008856693903605143,
      "learning_rate": 2e-05,
      "loss": 1.2891,
      "loss/crossentropy": 2.5351758003234863,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1875266134738922,
      "step": 1277
    },
    {
      "epoch": 0.019083171569359413,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.008856693903605143,
      "learning_rate": 2e-05,
      "loss": 1.3024,
      "loss/crossentropy": 2.4513752460479736,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.17735695838928223,
      "step": 1278
    },
    {
      "epoch": 0.01909810362849037,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.00885618527730306,
      "learning_rate": 2e-05,
      "loss": 1.2502,
      "loss/crossentropy": 2.5539772510528564,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.17203769087791443,
      "step": 1279
    },
    {
      "epoch": 0.01911303568762132,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.008524688084920247,
      "learning_rate": 2e-05,
      "loss": 1.2212,
      "loss/crossentropy": 2.49832820892334,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.17433378100395203,
      "step": 1280
    },
    {
      "epoch": 0.019127967746752277,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.008600346247355143,
      "learning_rate": 2e-05,
      "loss": 1.2678,
      "loss/crossentropy": 2.638371229171753,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17406100034713745,
      "step": 1281
    },
    {
      "epoch": 0.01914289980588323,
      "grad_norm": 0.734375,
      "grad_norm_var": 0.01064311663309733,
      "learning_rate": 2e-05,
      "loss": 1.4935,
      "loss/crossentropy": 2.581265687942505,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.28125,
      "loss/idx": 13.0,
      "loss/logits": 0.21223483979701996,
      "step": 1282
    },
    {
      "epoch": 0.019157831865014185,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.010526768366495768,
      "learning_rate": 2e-05,
      "loss": 1.3831,
      "loss/crossentropy": 2.5751612186431885,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.21123623847961426,
      "step": 1283
    },
    {
      "epoch": 0.01917276392414514,
      "grad_norm": 0.462890625,
      "grad_norm_var": 0.011058489481608072,
      "learning_rate": 2e-05,
      "loss": 1.1104,
      "loss/crossentropy": 2.5615251064300537,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9609375,
      "loss/idx": 13.0,
      "loss/logits": 0.14948110282421112,
      "step": 1284
    },
    {
      "epoch": 0.019187695983276094,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.011058489481608072,
      "learning_rate": 2e-05,
      "loss": 1.2032,
      "loss/crossentropy": 2.5952653884887695,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1641014665365219,
      "step": 1285
    },
    {
      "epoch": 0.01920262804240705,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.011095619201660157,
      "learning_rate": 2e-05,
      "loss": 1.2654,
      "loss/crossentropy": 2.237917423248291,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.19509923458099365,
      "step": 1286
    },
    {
      "epoch": 0.019217560101538002,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.010864194234212239,
      "learning_rate": 2e-05,
      "loss": 1.2028,
      "loss/crossentropy": 2.4912095069885254,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.15591605007648468,
      "step": 1287
    },
    {
      "epoch": 0.019232492160668958,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0035170873006184896,
      "learning_rate": 2e-05,
      "loss": 1.2284,
      "loss/crossentropy": 2.849947214126587,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17369095981121063,
      "step": 1288
    },
    {
      "epoch": 0.01924742421979991,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.003505961100260417,
      "learning_rate": 2e-05,
      "loss": 1.3009,
      "loss/crossentropy": 2.718153953552246,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.17590981721878052,
      "step": 1289
    },
    {
      "epoch": 0.019262356278930866,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0034957249959309896,
      "learning_rate": 2e-05,
      "loss": 1.2431,
      "loss/crossentropy": 2.539076805114746,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17277245223522186,
      "step": 1290
    },
    {
      "epoch": 0.019277288338061818,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.003107055028279622,
      "learning_rate": 2e-05,
      "loss": 1.3905,
      "loss/crossentropy": 2.501863479614258,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.21077433228492737,
      "step": 1291
    },
    {
      "epoch": 0.019292220397192774,
      "grad_norm": 0.70703125,
      "grad_norm_var": 0.004612588882446289,
      "learning_rate": 2e-05,
      "loss": 1.5402,
      "loss/crossentropy": 2.5748298168182373,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.28125,
      "loss/idx": 13.0,
      "loss/logits": 0.2589094042778015,
      "step": 1292
    },
    {
      "epoch": 0.019307152456323726,
      "grad_norm": 1.046875,
      "grad_norm_var": 0.01923368771870931,
      "learning_rate": 2e-05,
      "loss": 1.4531,
      "loss/crossentropy": 2.400190830230713,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.25,
      "loss/idx": 13.0,
      "loss/logits": 0.2031039446592331,
      "step": 1293
    },
    {
      "epoch": 0.019322084515454682,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.01991729736328125,
      "learning_rate": 2e-05,
      "loss": 1.1589,
      "loss/crossentropy": 2.452254056930542,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.15112650394439697,
      "step": 1294
    },
    {
      "epoch": 0.019337016574585635,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.020435523986816407,
      "learning_rate": 2e-05,
      "loss": 1.2109,
      "loss/crossentropy": 2.6677145957946777,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1640741527080536,
      "step": 1295
    },
    {
      "epoch": 0.01935194863371659,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.020420265197753907,
      "learning_rate": 2e-05,
      "loss": 1.3198,
      "loss/crossentropy": 2.658365488052368,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.202656090259552,
      "step": 1296
    },
    {
      "epoch": 0.019366880692847543,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.020081520080566406,
      "learning_rate": 2e-05,
      "loss": 1.3752,
      "loss/crossentropy": 2.398197650909424,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 13.0,
      "loss/logits": 0.21891216933727264,
      "step": 1297
    },
    {
      "epoch": 0.0193818127519785,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.018903096516927082,
      "learning_rate": 2e-05,
      "loss": 1.2435,
      "loss/crossentropy": 2.6253135204315186,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17318454384803772,
      "step": 1298
    },
    {
      "epoch": 0.01939674481110945,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.019113604227701822,
      "learning_rate": 2e-05,
      "loss": 1.2117,
      "loss/crossentropy": 2.595719575881958,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1647767871618271,
      "step": 1299
    },
    {
      "epoch": 0.019411676870240407,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.018216435114542642,
      "learning_rate": 2e-05,
      "loss": 1.2591,
      "loss/crossentropy": 2.4858176708221436,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1809636652469635,
      "step": 1300
    },
    {
      "epoch": 0.01942660892937136,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.018074909845987957,
      "learning_rate": 2e-05,
      "loss": 1.2194,
      "loss/crossentropy": 2.464454174041748,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16469821333885193,
      "step": 1301
    },
    {
      "epoch": 0.019441540988502315,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.018344608942667644,
      "learning_rate": 2e-05,
      "loss": 1.1929,
      "loss/crossentropy": 2.5054361820220947,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16160087287425995,
      "step": 1302
    },
    {
      "epoch": 0.019456473047633267,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.01836838722229004,
      "learning_rate": 2e-05,
      "loss": 1.1693,
      "loss/crossentropy": 2.579584836959839,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15363293886184692,
      "step": 1303
    },
    {
      "epoch": 0.019471405106764223,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.01836838722229004,
      "learning_rate": 2e-05,
      "loss": 1.2129,
      "loss/crossentropy": 2.4479448795318604,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16602320969104767,
      "step": 1304
    },
    {
      "epoch": 0.019486337165895175,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.018325408299763996,
      "learning_rate": 2e-05,
      "loss": 1.334,
      "loss/crossentropy": 2.685575485229492,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.18556523323059082,
      "step": 1305
    },
    {
      "epoch": 0.01950126922502613,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.018138869603474935,
      "learning_rate": 2e-05,
      "loss": 1.3211,
      "loss/crossentropy": 2.4253220558166504,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.18828678131103516,
      "step": 1306
    },
    {
      "epoch": 0.019516201284157084,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.018213637669881187,
      "learning_rate": 2e-05,
      "loss": 1.2963,
      "loss/crossentropy": 2.4698915481567383,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1947701871395111,
      "step": 1307
    },
    {
      "epoch": 0.01953113334328804,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.017139418919881185,
      "learning_rate": 2e-05,
      "loss": 1.3248,
      "loss/crossentropy": 2.5888915061950684,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.18418516218662262,
      "step": 1308
    },
    {
      "epoch": 0.019546065402418992,
      "grad_norm": 0.5,
      "grad_norm_var": 0.0015004316965738932,
      "learning_rate": 2e-05,
      "loss": 1.1915,
      "loss/crossentropy": 2.698927640914917,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16026300191879272,
      "step": 1309
    },
    {
      "epoch": 0.019560997461549948,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0014222304026285807,
      "learning_rate": 2e-05,
      "loss": 1.1648,
      "loss/crossentropy": 2.4757766723632812,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.14918801188468933,
      "step": 1310
    },
    {
      "epoch": 0.019575929520680904,
      "grad_norm": 0.90234375,
      "grad_norm_var": 0.009095875422159831,
      "learning_rate": 2e-05,
      "loss": 1.5092,
      "loss/crossentropy": 2.956965684890747,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.25,
      "loss/idx": 13.0,
      "loss/logits": 0.2591836452484131,
      "step": 1311
    },
    {
      "epoch": 0.019590861579811856,
      "grad_norm": 0.5,
      "grad_norm_var": 0.009315220514933269,
      "learning_rate": 2e-05,
      "loss": 1.227,
      "loss/crossentropy": 2.597576379776001,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17235302925109863,
      "step": 1312
    },
    {
      "epoch": 0.01960579363894281,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.009259653091430665,
      "learning_rate": 2e-05,
      "loss": 1.2917,
      "loss/crossentropy": 2.78556752204895,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.19013968110084534,
      "step": 1313
    },
    {
      "epoch": 0.019620725698073764,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.009191497166951498,
      "learning_rate": 2e-05,
      "loss": 1.3658,
      "loss/crossentropy": 2.502690553665161,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.19392375648021698,
      "step": 1314
    },
    {
      "epoch": 0.01963565775720472,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.00927580197652181,
      "learning_rate": 2e-05,
      "loss": 1.297,
      "loss/crossentropy": 2.6288228034973145,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.18761998414993286,
      "step": 1315
    },
    {
      "epoch": 0.019650589816335672,
      "grad_norm": 0.875,
      "grad_norm_var": 0.015192524592081705,
      "learning_rate": 2e-05,
      "loss": 1.2782,
      "loss/crossentropy": 2.738717794418335,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.1844879537820816,
      "step": 1316
    },
    {
      "epoch": 0.019665521875466628,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.015208037694295247,
      "learning_rate": 2e-05,
      "loss": 1.2752,
      "loss/crossentropy": 2.660844564437866,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18141654133796692,
      "step": 1317
    },
    {
      "epoch": 0.01968045393459758,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.01552427609761556,
      "learning_rate": 2e-05,
      "loss": 1.204,
      "loss/crossentropy": 2.632686138153076,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16492034494876862,
      "step": 1318
    },
    {
      "epoch": 0.019695385993728536,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.01552427609761556,
      "learning_rate": 2e-05,
      "loss": 1.1667,
      "loss/crossentropy": 2.642601728439331,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1511181890964508,
      "step": 1319
    },
    {
      "epoch": 0.01971031805285949,
      "grad_norm": 0.4609375,
      "grad_norm_var": 0.01636020342508952,
      "learning_rate": 2e-05,
      "loss": 1.2313,
      "loss/crossentropy": 2.6074163913726807,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17656564712524414,
      "step": 1320
    },
    {
      "epoch": 0.019725250111990444,
      "grad_norm": 0.828125,
      "grad_norm_var": 0.020174519220987955,
      "learning_rate": 2e-05,
      "loss": 1.2131,
      "loss/crossentropy": 2.755542755126953,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16619285941123962,
      "step": 1321
    },
    {
      "epoch": 0.019740182171121397,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.020106744766235352,
      "learning_rate": 2e-05,
      "loss": 1.3149,
      "loss/crossentropy": 2.5030322074890137,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18986953794956207,
      "step": 1322
    },
    {
      "epoch": 0.019755114230252353,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.02016129493713379,
      "learning_rate": 2e-05,
      "loss": 1.2952,
      "loss/crossentropy": 2.4982292652130127,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.185785174369812,
      "step": 1323
    },
    {
      "epoch": 0.019770046289383305,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.020202493667602538,
      "learning_rate": 2e-05,
      "loss": 1.2813,
      "loss/crossentropy": 2.668501138687134,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.1875031292438507,
      "step": 1324
    },
    {
      "epoch": 0.01978497834851426,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.02015226682027181,
      "learning_rate": 2e-05,
      "loss": 1.2135,
      "loss/crossentropy": 2.592796564102173,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.17439380288124084,
      "step": 1325
    },
    {
      "epoch": 0.019799910407645213,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.019893328348795574,
      "learning_rate": 2e-05,
      "loss": 1.3221,
      "loss/crossentropy": 2.619886636734009,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19710972905158997,
      "step": 1326
    },
    {
      "epoch": 0.01981484246677617,
      "grad_norm": 0.6484375,
      "grad_norm_var": 0.013682047526041666,
      "learning_rate": 2e-05,
      "loss": 1.5511,
      "loss/crossentropy": 2.5196568965911865,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3046875,
      "loss/idx": 13.0,
      "loss/logits": 0.2463717758655548,
      "step": 1327
    },
    {
      "epoch": 0.01982977452590712,
      "grad_norm": 0.6484375,
      "grad_norm_var": 0.013396962483723959,
      "learning_rate": 2e-05,
      "loss": 1.3578,
      "loss/crossentropy": 2.68768572807312,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.1859176903963089,
      "step": 1328
    },
    {
      "epoch": 0.019844706585038077,
      "grad_norm": 0.46484375,
      "grad_norm_var": 0.014121500651041667,
      "learning_rate": 2e-05,
      "loss": 1.1804,
      "loss/crossentropy": 2.659552812576294,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15694257616996765,
      "step": 1329
    },
    {
      "epoch": 0.01985963864416903,
      "grad_norm": 0.470703125,
      "grad_norm_var": 0.015012089411417644,
      "learning_rate": 2e-05,
      "loss": 1.2425,
      "loss/crossentropy": 2.698822498321533,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1799800544977188,
      "step": 1330
    },
    {
      "epoch": 0.019874570703299985,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.014936431248982748,
      "learning_rate": 2e-05,
      "loss": 1.3199,
      "loss/crossentropy": 2.2921221256256104,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.18708041310310364,
      "step": 1331
    },
    {
      "epoch": 0.019889502762430938,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.008853133519490559,
      "learning_rate": 2e-05,
      "loss": 1.319,
      "loss/crossentropy": 2.7646992206573486,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19404536485671997,
      "step": 1332
    },
    {
      "epoch": 0.019904434821561894,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.009245665868123372,
      "learning_rate": 2e-05,
      "loss": 1.2248,
      "loss/crossentropy": 2.6878888607025146,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17010048031806946,
      "step": 1333
    },
    {
      "epoch": 0.019919366880692846,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.008713388442993164,
      "learning_rate": 2e-05,
      "loss": 1.2177,
      "loss/crossentropy": 2.486751079559326,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.17087268829345703,
      "step": 1334
    },
    {
      "epoch": 0.0199342989398238,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.008650827407836913,
      "learning_rate": 2e-05,
      "loss": 1.3721,
      "loss/crossentropy": 2.5809147357940674,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.2001952826976776,
      "step": 1335
    },
    {
      "epoch": 0.019949230998954758,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.007947778701782227,
      "learning_rate": 2e-05,
      "loss": 1.2824,
      "loss/crossentropy": 2.8265273571014404,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18861952424049377,
      "step": 1336
    },
    {
      "epoch": 0.01996416305808571,
      "grad_norm": 0.72265625,
      "grad_norm_var": 0.005032968521118164,
      "learning_rate": 2e-05,
      "loss": 1.2615,
      "loss/crossentropy": 2.333455801010132,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1599290519952774,
      "step": 1337
    },
    {
      "epoch": 0.019979095117216666,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.005680958429972331,
      "learning_rate": 2e-05,
      "loss": 1.2279,
      "loss/crossentropy": 2.4327051639556885,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16535300016403198,
      "step": 1338
    },
    {
      "epoch": 0.019994027176347618,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.005729786554972331,
      "learning_rate": 2e-05,
      "loss": 1.202,
      "loss/crossentropy": 2.7616231441497803,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16289827227592468,
      "step": 1339
    },
    {
      "epoch": 0.020008959235478574,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.005836089452107747,
      "learning_rate": 2e-05,
      "loss": 1.4349,
      "loss/crossentropy": 2.4606475830078125,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 13.0,
      "loss/logits": 0.22398307919502258,
      "step": 1340
    },
    {
      "epoch": 0.020023891294609526,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.005522012710571289,
      "learning_rate": 2e-05,
      "loss": 1.2027,
      "loss/crossentropy": 2.614811897277832,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1558469831943512,
      "step": 1341
    },
    {
      "epoch": 0.020038823353740482,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.005584192276000976,
      "learning_rate": 2e-05,
      "loss": 1.15,
      "loss/crossentropy": 2.557891368865967,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.14996448159217834,
      "step": 1342
    },
    {
      "epoch": 0.020053755412871434,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0055266698201497395,
      "learning_rate": 2e-05,
      "loss": 1.2479,
      "loss/crossentropy": 2.5452401638031006,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17753981053829193,
      "step": 1343
    },
    {
      "epoch": 0.02006868747200239,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.00539849599202474,
      "learning_rate": 2e-05,
      "loss": 1.1854,
      "loss/crossentropy": 2.5871667861938477,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1541636437177658,
      "step": 1344
    },
    {
      "epoch": 0.020083619531133343,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.004865455627441406,
      "learning_rate": 2e-05,
      "loss": 1.2847,
      "loss/crossentropy": 2.5764195919036865,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.17535443603992462,
      "step": 1345
    },
    {
      "epoch": 0.0200985515902643,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.004314152399698893,
      "learning_rate": 2e-05,
      "loss": 1.2904,
      "loss/crossentropy": 2.349005699157715,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.19662730395793915,
      "step": 1346
    },
    {
      "epoch": 0.02011348364939525,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.004238621393839518,
      "learning_rate": 2e-05,
      "loss": 1.2428,
      "loss/crossentropy": 2.576354503631592,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.1724541187286377,
      "step": 1347
    },
    {
      "epoch": 0.020128415708526207,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.004304742813110352,
      "learning_rate": 2e-05,
      "loss": 1.2087,
      "loss/crossentropy": 2.7604458332061768,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16968321800231934,
      "step": 1348
    },
    {
      "epoch": 0.02014334776765716,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.00389402707417806,
      "learning_rate": 2e-05,
      "loss": 1.2885,
      "loss/crossentropy": 2.5020458698272705,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.17917054891586304,
      "step": 1349
    },
    {
      "epoch": 0.020158279826788115,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.004013808568318685,
      "learning_rate": 2e-05,
      "loss": 1.4814,
      "loss/crossentropy": 2.569965124130249,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 13.0,
      "loss/logits": 0.23924951255321503,
      "step": 1350
    },
    {
      "epoch": 0.020173211885919067,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.004053862889607748,
      "learning_rate": 2e-05,
      "loss": 1.2074,
      "loss/crossentropy": 2.6130759716033936,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16052843630313873,
      "step": 1351
    },
    {
      "epoch": 0.020188143945050023,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.00401304562886556,
      "learning_rate": 2e-05,
      "loss": 1.2967,
      "loss/crossentropy": 2.5374364852905273,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.18736249208450317,
      "step": 1352
    },
    {
      "epoch": 0.020203076004180975,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.0024981021881103514,
      "learning_rate": 2e-05,
      "loss": 1.3419,
      "loss/crossentropy": 2.4236462116241455,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 13.0,
      "loss/logits": 0.18566705286502838,
      "step": 1353
    },
    {
      "epoch": 0.02021800806331193,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.0018175601959228515,
      "learning_rate": 2e-05,
      "loss": 1.205,
      "loss/crossentropy": 2.845634937286377,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.17379263043403625,
      "step": 1354
    },
    {
      "epoch": 0.020232940122442884,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.002005116144816081,
      "learning_rate": 2e-05,
      "loss": 1.2024,
      "loss/crossentropy": 2.4425594806671143,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16329693794250488,
      "step": 1355
    },
    {
      "epoch": 0.02024787218157384,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0017686049143473307,
      "learning_rate": 2e-05,
      "loss": 1.1883,
      "loss/crossentropy": 2.421473741531372,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15703192353248596,
      "step": 1356
    },
    {
      "epoch": 0.020262804240704792,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0016537825266520181,
      "learning_rate": 2e-05,
      "loss": 1.3472,
      "loss/crossentropy": 2.572152853012085,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.19879058003425598,
      "step": 1357
    },
    {
      "epoch": 0.020277736299835748,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.12938116391499838,
      "learning_rate": 2e-05,
      "loss": 1.7107,
      "loss/crossentropy": 2.3684675693511963,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.421875,
      "loss/idx": 13.0,
      "loss/logits": 0.2888346314430237,
      "step": 1358
    },
    {
      "epoch": 0.0202926683589667,
      "grad_norm": 0.48046875,
      "grad_norm_var": 0.12970574696858725,
      "learning_rate": 2e-05,
      "loss": 1.181,
      "loss/crossentropy": 2.509111166000366,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.16538101434707642,
      "step": 1359
    },
    {
      "epoch": 0.020307600418097656,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.12875970204671225,
      "learning_rate": 2e-05,
      "loss": 1.2878,
      "loss/crossentropy": 2.669523000717163,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.1940631866455078,
      "step": 1360
    },
    {
      "epoch": 0.020322532477228608,
      "grad_norm": 0.61328125,
      "grad_norm_var": 0.12866509755452474,
      "learning_rate": 2e-05,
      "loss": 1.4801,
      "loss/crossentropy": 2.491579055786133,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 13.0,
      "loss/logits": 0.23791025578975677,
      "step": 1361
    },
    {
      "epoch": 0.020337464536359564,
      "grad_norm": 0.474609375,
      "grad_norm_var": 0.12972830136617025,
      "learning_rate": 2e-05,
      "loss": 1.193,
      "loss/crossentropy": 2.5316779613494873,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16174541413784027,
      "step": 1362
    },
    {
      "epoch": 0.02035239659549052,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.13051985104878744,
      "learning_rate": 2e-05,
      "loss": 1.2706,
      "loss/crossentropy": 2.616147518157959,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17682576179504395,
      "step": 1363
    },
    {
      "epoch": 0.020367328654621472,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.13080786069234213,
      "learning_rate": 2e-05,
      "loss": 1.266,
      "loss/crossentropy": 2.4946200847625732,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17224857211112976,
      "step": 1364
    },
    {
      "epoch": 0.020382260713752428,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.13077492713928224,
      "learning_rate": 2e-05,
      "loss": 1.3026,
      "loss/crossentropy": 2.7409372329711914,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.19320283830165863,
      "step": 1365
    },
    {
      "epoch": 0.02039719277288338,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.13103445370992026,
      "learning_rate": 2e-05,
      "loss": 1.2833,
      "loss/crossentropy": 2.5230894088745117,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18950234353542328,
      "step": 1366
    },
    {
      "epoch": 0.020412124832014336,
      "grad_norm": 0.734375,
      "grad_norm_var": 0.13133975664774578,
      "learning_rate": 2e-05,
      "loss": 1.4051,
      "loss/crossentropy": 2.4019763469696045,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 13.0,
      "loss/logits": 0.20979498326778412,
      "step": 1367
    },
    {
      "epoch": 0.02042705689114529,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.13194680213928223,
      "learning_rate": 2e-05,
      "loss": 1.227,
      "loss/crossentropy": 2.572502851486206,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17235463857650757,
      "step": 1368
    },
    {
      "epoch": 0.020441988950276244,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.13212927182515463,
      "learning_rate": 2e-05,
      "loss": 1.3113,
      "loss/crossentropy": 2.350470781326294,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.17066575586795807,
      "step": 1369
    },
    {
      "epoch": 0.020456921009407197,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.13102644284566242,
      "learning_rate": 2e-05,
      "loss": 1.3753,
      "loss/crossentropy": 2.5796074867248535,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.20337635278701782,
      "step": 1370
    },
    {
      "epoch": 0.020471853068538153,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.13062170346577961,
      "learning_rate": 2e-05,
      "loss": 1.1941,
      "loss/crossentropy": 2.5275111198425293,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16285260021686554,
      "step": 1371
    },
    {
      "epoch": 0.020486785127669105,
      "grad_norm": 0.470703125,
      "grad_norm_var": 0.13145777384440105,
      "learning_rate": 2e-05,
      "loss": 1.1291,
      "loss/crossentropy": 2.7132022380828857,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.97265625,
      "loss/idx": 13.0,
      "loss/logits": 0.156441330909729,
      "step": 1372
    },
    {
      "epoch": 0.02050171718680006,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.13077284495035807,
      "learning_rate": 2e-05,
      "loss": 1.3682,
      "loss/crossentropy": 2.4123904705047607,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.18850690126419067,
      "step": 1373
    },
    {
      "epoch": 0.020516649245931013,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.004807790120442708,
      "learning_rate": 2e-05,
      "loss": 1.1859,
      "loss/crossentropy": 2.519430160522461,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1546916663646698,
      "step": 1374
    },
    {
      "epoch": 0.02053158130506197,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.004693857828776042,
      "learning_rate": 2e-05,
      "loss": 1.1965,
      "loss/crossentropy": 2.733642816543579,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16526637971401215,
      "step": 1375
    },
    {
      "epoch": 0.02054651336419292,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.004831886291503907,
      "learning_rate": 2e-05,
      "loss": 1.1669,
      "loss/crossentropy": 2.5803768634796143,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1512264758348465,
      "step": 1376
    },
    {
      "epoch": 0.020561445423323877,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0046656290690104164,
      "learning_rate": 2e-05,
      "loss": 1.3094,
      "loss/crossentropy": 2.4563205242156982,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.1922210454940796,
      "step": 1377
    },
    {
      "epoch": 0.02057637748245483,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.004498545328776042,
      "learning_rate": 2e-05,
      "loss": 1.2834,
      "loss/crossentropy": 2.5536391735076904,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.18183785676956177,
      "step": 1378
    },
    {
      "epoch": 0.020591309541585785,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.004421234130859375,
      "learning_rate": 2e-05,
      "loss": 1.1879,
      "loss/crossentropy": 2.3600947856903076,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15669815242290497,
      "step": 1379
    },
    {
      "epoch": 0.020606241600716738,
      "grad_norm": 0.5,
      "grad_norm_var": 0.00444176991780599,
      "learning_rate": 2e-05,
      "loss": 1.2191,
      "loss/crossentropy": 2.5085413455963135,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16443030536174774,
      "step": 1380
    },
    {
      "epoch": 0.020621173659847693,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.004435475667317708,
      "learning_rate": 2e-05,
      "loss": 1.2258,
      "loss/crossentropy": 2.6902709007263184,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16326066851615906,
      "step": 1381
    },
    {
      "epoch": 0.020636105718978646,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.004665565490722656,
      "learning_rate": 2e-05,
      "loss": 1.282,
      "loss/crossentropy": 2.8826005458831787,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18827125430107117,
      "step": 1382
    },
    {
      "epoch": 0.0206510377781096,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0022806167602539063,
      "learning_rate": 2e-05,
      "loss": 1.3672,
      "loss/crossentropy": 2.341332197189331,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.19533485174179077,
      "step": 1383
    },
    {
      "epoch": 0.020665969837240554,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0022592544555664062,
      "learning_rate": 2e-05,
      "loss": 1.2868,
      "loss/crossentropy": 2.7123072147369385,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.16963346302509308,
      "step": 1384
    },
    {
      "epoch": 0.02068090189637151,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.002194658915201823,
      "learning_rate": 2e-05,
      "loss": 1.224,
      "loss/crossentropy": 2.544621706008911,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16929784417152405,
      "step": 1385
    },
    {
      "epoch": 0.020695833955502462,
      "grad_norm": 0.5,
      "grad_norm_var": 0.002171770731608073,
      "learning_rate": 2e-05,
      "loss": 1.2222,
      "loss/crossentropy": 2.4783518314361572,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1753370463848114,
      "step": 1386
    },
    {
      "epoch": 0.020710766014633418,
      "grad_norm": 0.466796875,
      "grad_norm_var": 0.002417739232381185,
      "learning_rate": 2e-05,
      "loss": 1.1808,
      "loss/crossentropy": 2.5404293537139893,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.16517174243927002,
      "step": 1387
    },
    {
      "epoch": 0.020725698073764374,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0021972020467122396,
      "learning_rate": 2e-05,
      "loss": 1.2112,
      "loss/crossentropy": 2.6268763542175293,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.17210936546325684,
      "step": 1388
    },
    {
      "epoch": 0.020740630132895326,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0019225438435872396,
      "learning_rate": 2e-05,
      "loss": 1.2616,
      "loss/crossentropy": 2.555655002593994,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17567789554595947,
      "step": 1389
    },
    {
      "epoch": 0.020755562192026282,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.0017836888631184895,
      "learning_rate": 2e-05,
      "loss": 1.2087,
      "loss/crossentropy": 2.5104944705963135,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.15401938557624817,
      "step": 1390
    },
    {
      "epoch": 0.020770494251157234,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.001775217056274414,
      "learning_rate": 2e-05,
      "loss": 1.2413,
      "loss/crossentropy": 2.602848768234253,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.170992910861969,
      "step": 1391
    },
    {
      "epoch": 0.02078542631028819,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.001702737808227539,
      "learning_rate": 2e-05,
      "loss": 1.2999,
      "loss/crossentropy": 2.5092689990997314,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.19050829112529755,
      "step": 1392
    },
    {
      "epoch": 0.020800358369419143,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0014544010162353515,
      "learning_rate": 2e-05,
      "loss": 1.2414,
      "loss/crossentropy": 2.510206460952759,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.18671731650829315,
      "step": 1393
    },
    {
      "epoch": 0.0208152904285501,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.00155485471089681,
      "learning_rate": 2e-05,
      "loss": 1.1186,
      "loss/crossentropy": 2.801673650741577,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.96484375,
      "loss/idx": 13.0,
      "loss/logits": 0.15374580025672913,
      "step": 1394
    },
    {
      "epoch": 0.02083022248768105,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0015633742014567057,
      "learning_rate": 2e-05,
      "loss": 1.196,
      "loss/crossentropy": 2.528714418411255,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1569829136133194,
      "step": 1395
    },
    {
      "epoch": 0.020845154546812007,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0015153090159098308,
      "learning_rate": 2e-05,
      "loss": 1.1815,
      "loss/crossentropy": 2.5752596855163574,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15807154774665833,
      "step": 1396
    },
    {
      "epoch": 0.02086008660594296,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.0016009012858072917,
      "learning_rate": 2e-05,
      "loss": 1.1608,
      "loss/crossentropy": 2.6302576065063477,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.15298575162887573,
      "step": 1397
    },
    {
      "epoch": 0.020875018665073915,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0012063980102539062,
      "learning_rate": 2e-05,
      "loss": 1.2726,
      "loss/crossentropy": 2.4865758419036865,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.17103740572929382,
      "step": 1398
    },
    {
      "epoch": 0.020889950724204867,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0009091695149739584,
      "learning_rate": 2e-05,
      "loss": 1.2263,
      "loss/crossentropy": 2.63130259513855,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17159323394298553,
      "step": 1399
    },
    {
      "epoch": 0.020904882783335823,
      "grad_norm": 0.46875,
      "grad_norm_var": 0.0009398778279622396,
      "learning_rate": 2e-05,
      "loss": 1.1366,
      "loss/crossentropy": 2.5764553546905518,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98828125,
      "loss/idx": 13.0,
      "loss/logits": 0.1483464539051056,
      "step": 1400
    },
    {
      "epoch": 0.020919814842466775,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.0008584181467692057,
      "learning_rate": 2e-05,
      "loss": 1.2287,
      "loss/crossentropy": 2.4545843601226807,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16616512835025787,
      "step": 1401
    },
    {
      "epoch": 0.02093474690159773,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0011868635813395182,
      "learning_rate": 2e-05,
      "loss": 1.3896,
      "loss/crossentropy": 2.566432476043701,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.2099205106496811,
      "step": 1402
    },
    {
      "epoch": 0.020949678960728683,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0010363260904947917,
      "learning_rate": 2e-05,
      "loss": 1.1944,
      "loss/crossentropy": 2.694551706314087,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.17097516357898712,
      "step": 1403
    },
    {
      "epoch": 0.02096461101985964,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.001043701171875,
      "learning_rate": 2e-05,
      "loss": 1.1465,
      "loss/crossentropy": 2.600843906402588,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.1465233862400055,
      "step": 1404
    },
    {
      "epoch": 0.02097954307899059,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0012959798177083334,
      "learning_rate": 2e-05,
      "loss": 1.28,
      "loss/crossentropy": 2.5780487060546875,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18626543879508972,
      "step": 1405
    },
    {
      "epoch": 0.020994475138121547,
      "grad_norm": 0.5,
      "grad_norm_var": 0.001285235087076823,
      "learning_rate": 2e-05,
      "loss": 1.2806,
      "loss/crossentropy": 2.555168867111206,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.17903593182563782,
      "step": 1406
    },
    {
      "epoch": 0.0210094071972525,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0014116764068603516,
      "learning_rate": 2e-05,
      "loss": 1.2721,
      "loss/crossentropy": 2.6439151763916016,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.17056259512901306,
      "step": 1407
    },
    {
      "epoch": 0.021024339256383456,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.0014397780100504558,
      "learning_rate": 2e-05,
      "loss": 1.192,
      "loss/crossentropy": 2.6460981369018555,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16073650121688843,
      "step": 1408
    },
    {
      "epoch": 0.021039271315514408,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0014557997385660807,
      "learning_rate": 2e-05,
      "loss": 1.1734,
      "loss/crossentropy": 2.7225704193115234,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.14998149871826172,
      "step": 1409
    },
    {
      "epoch": 0.021054203374645364,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.00141447385152181,
      "learning_rate": 2e-05,
      "loss": 1.1947,
      "loss/crossentropy": 2.7134530544281006,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.17125816643238068,
      "step": 1410
    },
    {
      "epoch": 0.021069135433776316,
      "grad_norm": 0.65625,
      "grad_norm_var": 0.0025040785471598308,
      "learning_rate": 2e-05,
      "loss": 1.4376,
      "loss/crossentropy": 2.8304383754730225,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.234375,
      "loss/idx": 13.0,
      "loss/logits": 0.20326532423496246,
      "step": 1411
    },
    {
      "epoch": 0.021084067492907272,
      "grad_norm": 0.796875,
      "grad_norm_var": 0.00689098040262858,
      "learning_rate": 2e-05,
      "loss": 1.6109,
      "loss/crossentropy": 2.3552732467651367,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.375,
      "loss/idx": 13.0,
      "loss/logits": 0.23586499691009521,
      "step": 1412
    },
    {
      "epoch": 0.021098999552038224,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.0069222609202067055,
      "learning_rate": 2e-05,
      "loss": 1.1958,
      "loss/crossentropy": 2.665379524230957,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16456547379493713,
      "step": 1413
    },
    {
      "epoch": 0.02111393161116918,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.007126617431640625,
      "learning_rate": 2e-05,
      "loss": 1.2232,
      "loss/crossentropy": 2.6303813457489014,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16855427622795105,
      "step": 1414
    },
    {
      "epoch": 0.021128863670300136,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.007124773661295573,
      "learning_rate": 2e-05,
      "loss": 1.2708,
      "loss/crossentropy": 2.770017385482788,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.18481460213661194,
      "step": 1415
    },
    {
      "epoch": 0.02114379572943109,
      "grad_norm": 0.482421875,
      "grad_norm_var": 0.006997156143188477,
      "learning_rate": 2e-05,
      "loss": 1.2358,
      "loss/crossentropy": 2.4545326232910156,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17330729961395264,
      "step": 1416
    },
    {
      "epoch": 0.021158727788562044,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.0068895975748697914,
      "learning_rate": 2e-05,
      "loss": 1.3533,
      "loss/crossentropy": 2.5513885021209717,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.2204749584197998,
      "step": 1417
    },
    {
      "epoch": 0.021173659847692997,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.006918780008951823,
      "learning_rate": 2e-05,
      "loss": 1.2852,
      "loss/crossentropy": 2.4511773586273193,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.19149178266525269,
      "step": 1418
    },
    {
      "epoch": 0.021188591906823952,
      "grad_norm": 0.5,
      "grad_norm_var": 0.006966590881347656,
      "learning_rate": 2e-05,
      "loss": 1.2128,
      "loss/crossentropy": 2.630352258682251,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1737767457962036,
      "step": 1419
    },
    {
      "epoch": 0.021203523965954905,
      "grad_norm": 0.75,
      "grad_norm_var": 0.009405517578125,
      "learning_rate": 2e-05,
      "loss": 1.4607,
      "loss/crossentropy": 2.5818517208099365,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 13.0,
      "loss/logits": 0.24980100989341736,
      "step": 1420
    },
    {
      "epoch": 0.02121845602508586,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.009520212809244791,
      "learning_rate": 2e-05,
      "loss": 1.1809,
      "loss/crossentropy": 2.4227993488311768,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15742167830467224,
      "step": 1421
    },
    {
      "epoch": 0.021233388084216813,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.009490903218587239,
      "learning_rate": 2e-05,
      "loss": 1.1791,
      "loss/crossentropy": 2.596496820449829,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15562020242214203,
      "step": 1422
    },
    {
      "epoch": 0.02124832014334777,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.009553464253743489,
      "learning_rate": 2e-05,
      "loss": 1.2777,
      "loss/crossentropy": 2.4700193405151367,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18397745490074158,
      "step": 1423
    },
    {
      "epoch": 0.02126325220247872,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.00939019521077474,
      "learning_rate": 2e-05,
      "loss": 1.2129,
      "loss/crossentropy": 2.675663471221924,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1582183986902237,
      "step": 1424
    },
    {
      "epoch": 0.021278184261609677,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.009793535868326823,
      "learning_rate": 2e-05,
      "loss": 1.3463,
      "loss/crossentropy": 2.5702874660491943,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 13.0,
      "loss/logits": 0.19006071984767914,
      "step": 1425
    },
    {
      "epoch": 0.02129311632074063,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.009401814142862955,
      "learning_rate": 2e-05,
      "loss": 1.4265,
      "loss/crossentropy": 2.700167417526245,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 13.0,
      "loss/logits": 0.21554800868034363,
      "step": 1426
    },
    {
      "epoch": 0.021308048379871585,
      "grad_norm": 0.48046875,
      "grad_norm_var": 0.009241596857706705,
      "learning_rate": 2e-05,
      "loss": 1.1925,
      "loss/crossentropy": 2.780790328979492,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.1690763682126999,
      "step": 1427
    },
    {
      "epoch": 0.021322980439002538,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.005121469497680664,
      "learning_rate": 2e-05,
      "loss": 1.2917,
      "loss/crossentropy": 2.366610288619995,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.18228915333747864,
      "step": 1428
    },
    {
      "epoch": 0.021337912498133493,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.004967689514160156,
      "learning_rate": 2e-05,
      "loss": 1.3195,
      "loss/crossentropy": 2.4140758514404297,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19454874098300934,
      "step": 1429
    },
    {
      "epoch": 0.021352844557264446,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.004784886042277018,
      "learning_rate": 2e-05,
      "loss": 1.2121,
      "loss/crossentropy": 2.3538424968719482,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1652664840221405,
      "step": 1430
    },
    {
      "epoch": 0.0213677766163954,
      "grad_norm": 0.71875,
      "grad_norm_var": 0.006673161188761393,
      "learning_rate": 2e-05,
      "loss": 1.3674,
      "loss/crossentropy": 2.611670970916748,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.23455733060836792,
      "step": 1431
    },
    {
      "epoch": 0.021382708675526354,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.006440226236979167,
      "learning_rate": 2e-05,
      "loss": 1.1873,
      "loss/crossentropy": 2.4568278789520264,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.14822477102279663,
      "step": 1432
    },
    {
      "epoch": 0.02139764073465731,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0062590916951497395,
      "learning_rate": 2e-05,
      "loss": 1.26,
      "loss/crossentropy": 2.767918348312378,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17406600713729858,
      "step": 1433
    },
    {
      "epoch": 0.021412572793788262,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.006329091389973959,
      "learning_rate": 2e-05,
      "loss": 1.2008,
      "loss/crossentropy": 2.643681764602661,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16954705119132996,
      "step": 1434
    },
    {
      "epoch": 0.021427504852919218,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.0066787083943684895,
      "learning_rate": 2e-05,
      "loss": 1.4312,
      "loss/crossentropy": 2.535278797149658,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 13.0,
      "loss/logits": 0.22029095888137817,
      "step": 1435
    },
    {
      "epoch": 0.02144243691205017,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.00422051747639974,
      "learning_rate": 2e-05,
      "loss": 1.3012,
      "loss/crossentropy": 2.571066379547119,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.19182069599628448,
      "step": 1436
    },
    {
      "epoch": 0.021457368971181126,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.004093360900878906,
      "learning_rate": 2e-05,
      "loss": 1.2651,
      "loss/crossentropy": 2.668915271759033,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.18694379925727844,
      "step": 1437
    },
    {
      "epoch": 0.02147230103031208,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.003940582275390625,
      "learning_rate": 2e-05,
      "loss": 1.171,
      "loss/crossentropy": 2.5324816703796387,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1553664356470108,
      "step": 1438
    },
    {
      "epoch": 0.021487233089443034,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.004047075907389323,
      "learning_rate": 2e-05,
      "loss": 1.245,
      "loss/crossentropy": 2.754875421524048,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17472638189792633,
      "step": 1439
    },
    {
      "epoch": 0.02150216514857399,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.00394287109375,
      "learning_rate": 2e-05,
      "loss": 1.2567,
      "loss/crossentropy": 2.51790189743042,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1785835325717926,
      "step": 1440
    },
    {
      "epoch": 0.021517097207704942,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.0034421284993489585,
      "learning_rate": 2e-05,
      "loss": 1.2437,
      "loss/crossentropy": 2.6603500843048096,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1655387580394745,
      "step": 1441
    },
    {
      "epoch": 0.0215320292668359,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0034407933553059896,
      "learning_rate": 2e-05,
      "loss": 1.2036,
      "loss/crossentropy": 2.661207437515259,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.17234490811824799,
      "step": 1442
    },
    {
      "epoch": 0.02154696132596685,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0031491597493489582,
      "learning_rate": 2e-05,
      "loss": 1.0976,
      "loss/crossentropy": 2.7283310890197754,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.95703125,
      "loss/idx": 13.0,
      "loss/logits": 0.14056336879730225,
      "step": 1443
    },
    {
      "epoch": 0.021561893385097806,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.003221575419108073,
      "learning_rate": 2e-05,
      "loss": 1.3786,
      "loss/crossentropy": 2.423133134841919,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.19894269108772278,
      "step": 1444
    },
    {
      "epoch": 0.02157682544422876,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.003122393290201823,
      "learning_rate": 2e-05,
      "loss": 1.1607,
      "loss/crossentropy": 2.6964542865753174,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.15290293097496033,
      "step": 1445
    },
    {
      "epoch": 0.021591757503359715,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.003145790100097656,
      "learning_rate": 2e-05,
      "loss": 1.2395,
      "loss/crossentropy": 2.5600531101226807,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16921450197696686,
      "step": 1446
    },
    {
      "epoch": 0.021606689562490667,
      "grad_norm": 0.46484375,
      "grad_norm_var": 0.0018605550130208334,
      "learning_rate": 2e-05,
      "loss": 1.1883,
      "loss/crossentropy": 2.557687282562256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.16487538814544678,
      "step": 1447
    },
    {
      "epoch": 0.021621621621621623,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.001955604553222656,
      "learning_rate": 2e-05,
      "loss": 1.319,
      "loss/crossentropy": 2.5055274963378906,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19401580095291138,
      "step": 1448
    },
    {
      "epoch": 0.021636553680752575,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0020159403483072918,
      "learning_rate": 2e-05,
      "loss": 1.1947,
      "loss/crossentropy": 2.861999988555908,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16344812512397766,
      "step": 1449
    },
    {
      "epoch": 0.02165148573988353,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0020159403483072918,
      "learning_rate": 2e-05,
      "loss": 1.2473,
      "loss/crossentropy": 2.4316065311431885,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1691448986530304,
      "step": 1450
    },
    {
      "epoch": 0.021666417799014483,
      "grad_norm": 0.70703125,
      "grad_norm_var": 0.0029612223307291666,
      "learning_rate": 2e-05,
      "loss": 1.512,
      "loss/crossentropy": 2.4315688610076904,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2890625,
      "loss/idx": 13.0,
      "loss/logits": 0.22292405366897583,
      "step": 1451
    },
    {
      "epoch": 0.02168134985814544,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.00329283078511556,
      "learning_rate": 2e-05,
      "loss": 1.1174,
      "loss/crossentropy": 2.7632553577423096,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.96875,
      "loss/idx": 13.0,
      "loss/logits": 0.14863690733909607,
      "step": 1452
    },
    {
      "epoch": 0.02169628191727639,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0032932122548421225,
      "learning_rate": 2e-05,
      "loss": 1.3365,
      "loss/crossentropy": 2.5227863788604736,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.1958889216184616,
      "step": 1453
    },
    {
      "epoch": 0.021711213976407347,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.003356154759724935,
      "learning_rate": 2e-05,
      "loss": 1.2874,
      "loss/crossentropy": 2.528759241104126,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.201430082321167,
      "step": 1454
    },
    {
      "epoch": 0.0217261460355383,
      "grad_norm": 0.455078125,
      "grad_norm_var": 0.003811136881510417,
      "learning_rate": 2e-05,
      "loss": 1.1504,
      "loss/crossentropy": 2.579636812210083,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.99609375,
      "loss/idx": 13.0,
      "loss/logits": 0.1543428748846054,
      "step": 1455
    },
    {
      "epoch": 0.021741078094669256,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0038176854451497395,
      "learning_rate": 2e-05,
      "loss": 1.293,
      "loss/crossentropy": 2.594700574874878,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.19148565828800201,
      "step": 1456
    },
    {
      "epoch": 0.021756010153800208,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.00405267079671224,
      "learning_rate": 2e-05,
      "loss": 1.3389,
      "loss/crossentropy": 2.5115139484405518,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 13.0,
      "loss/logits": 0.1826532483100891,
      "step": 1457
    },
    {
      "epoch": 0.021770942212931164,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.004133351643880208,
      "learning_rate": 2e-05,
      "loss": 1.1826,
      "loss/crossentropy": 2.4750778675079346,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15130820870399475,
      "step": 1458
    },
    {
      "epoch": 0.021785874272062116,
      "grad_norm": 0.8125,
      "grad_norm_var": 0.008358256022135416,
      "learning_rate": 2e-05,
      "loss": 1.2464,
      "loss/crossentropy": 2.7200441360473633,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.16831210255622864,
      "step": 1459
    },
    {
      "epoch": 0.021800806331193072,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.008765920003255209,
      "learning_rate": 2e-05,
      "loss": 1.3127,
      "loss/crossentropy": 2.4744434356689453,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18768146634101868,
      "step": 1460
    },
    {
      "epoch": 0.021815738390324024,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.008707110087076824,
      "learning_rate": 2e-05,
      "loss": 1.286,
      "loss/crossentropy": 2.4717938899993896,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.18439996242523193,
      "step": 1461
    },
    {
      "epoch": 0.02183067044945498,
      "grad_norm": 0.5,
      "grad_norm_var": 0.009018198649088541,
      "learning_rate": 2e-05,
      "loss": 1.2192,
      "loss/crossentropy": 2.5739426612854004,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16450907289981842,
      "step": 1462
    },
    {
      "epoch": 0.021845602508585932,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.008582051595052083,
      "learning_rate": 2e-05,
      "loss": 1.1912,
      "loss/crossentropy": 2.4712491035461426,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.15212152898311615,
      "step": 1463
    },
    {
      "epoch": 0.02186053456771689,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.008544858296712239,
      "learning_rate": 2e-05,
      "loss": 1.2548,
      "loss/crossentropy": 2.2979588508605957,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1766788214445114,
      "step": 1464
    },
    {
      "epoch": 0.02187546662684784,
      "grad_norm": 0.6640625,
      "grad_norm_var": 0.008931414286295573,
      "learning_rate": 2e-05,
      "loss": 1.4653,
      "loss/crossentropy": 2.055795669555664,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.28125,
      "loss/idx": 13.0,
      "loss/logits": 0.18409845232963562,
      "step": 1465
    },
    {
      "epoch": 0.021890398685978796,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.008770243326822916,
      "learning_rate": 2e-05,
      "loss": 1.1843,
      "loss/crossentropy": 2.5227856636047363,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.16089648008346558,
      "step": 1466
    },
    {
      "epoch": 0.021905330745109752,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.007983843485514322,
      "learning_rate": 2e-05,
      "loss": 1.2299,
      "loss/crossentropy": 2.611480474472046,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1751788854598999,
      "step": 1467
    },
    {
      "epoch": 0.021920262804240705,
      "grad_norm": 0.46875,
      "grad_norm_var": 0.008098840713500977,
      "learning_rate": 2e-05,
      "loss": 1.1278,
      "loss/crossentropy": 2.6512179374694824,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.984375,
      "loss/idx": 13.0,
      "loss/logits": 0.14338138699531555,
      "step": 1468
    },
    {
      "epoch": 0.02193519486337166,
      "grad_norm": 0.5,
      "grad_norm_var": 0.008333571751912435,
      "learning_rate": 2e-05,
      "loss": 1.2038,
      "loss/crossentropy": 2.5303971767425537,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.15689189732074738,
      "step": 1469
    },
    {
      "epoch": 0.021950126922502613,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.008294407526652019,
      "learning_rate": 2e-05,
      "loss": 1.2558,
      "loss/crossentropy": 2.435598850250244,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.16985587775707245,
      "step": 1470
    },
    {
      "epoch": 0.02196505898163357,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.007680193583170573,
      "learning_rate": 2e-05,
      "loss": 1.264,
      "loss/crossentropy": 2.4546844959259033,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.1702587753534317,
      "step": 1471
    },
    {
      "epoch": 0.02197999104076452,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.007854652404785157,
      "learning_rate": 2e-05,
      "loss": 1.248,
      "loss/crossentropy": 2.5671000480651855,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17768289148807526,
      "step": 1472
    },
    {
      "epoch": 0.021994923099895477,
      "grad_norm": 0.48046875,
      "grad_norm_var": 0.007999420166015625,
      "learning_rate": 2e-05,
      "loss": 1.1841,
      "loss/crossentropy": 2.4480648040771484,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15280106663703918,
      "step": 1473
    },
    {
      "epoch": 0.02200985515902643,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.007982826232910157,
      "learning_rate": 2e-05,
      "loss": 1.2384,
      "loss/crossentropy": 2.707908868789673,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17594537138938904,
      "step": 1474
    },
    {
      "epoch": 0.022024787218157385,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0031385898590087892,
      "learning_rate": 2e-05,
      "loss": 1.1188,
      "loss/crossentropy": 2.5222115516662598,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.97265625,
      "loss/idx": 13.0,
      "loss/logits": 0.14612950384616852,
      "step": 1475
    },
    {
      "epoch": 0.022039719277288337,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0020913283030192056,
      "learning_rate": 2e-05,
      "loss": 1.087,
      "loss/crossentropy": 2.3494150638580322,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.95703125,
      "loss/idx": 13.0,
      "loss/logits": 0.13001090288162231,
      "step": 1476
    },
    {
      "epoch": 0.022054651336419293,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.002031707763671875,
      "learning_rate": 2e-05,
      "loss": 1.2642,
      "loss/crossentropy": 2.571301221847534,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.18606534600257874,
      "step": 1477
    },
    {
      "epoch": 0.022069583395550246,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0020227432250976562,
      "learning_rate": 2e-05,
      "loss": 1.2481,
      "loss/crossentropy": 2.5197813510894775,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17777016758918762,
      "step": 1478
    },
    {
      "epoch": 0.0220845154546812,
      "grad_norm": 0.625,
      "grad_norm_var": 0.002690887451171875,
      "learning_rate": 2e-05,
      "loss": 1.2635,
      "loss/crossentropy": 2.594855785369873,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.19315627217292786,
      "step": 1479
    },
    {
      "epoch": 0.022099447513812154,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.00299530029296875,
      "learning_rate": 2e-05,
      "loss": 1.3524,
      "loss/crossentropy": 2.5978474617004395,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.21956896781921387,
      "step": 1480
    },
    {
      "epoch": 0.02211437957294311,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0019525527954101563,
      "learning_rate": 2e-05,
      "loss": 1.3905,
      "loss/crossentropy": 2.5185165405273438,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.21082568168640137,
      "step": 1481
    },
    {
      "epoch": 0.022129311632074062,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0021270116170247397,
      "learning_rate": 2e-05,
      "loss": 1.2688,
      "loss/crossentropy": 2.6426360607147217,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17500849068164825,
      "step": 1482
    },
    {
      "epoch": 0.022144243691205018,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0020581404368082683,
      "learning_rate": 2e-05,
      "loss": 1.2863,
      "loss/crossentropy": 2.5090346336364746,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1846894472837448,
      "step": 1483
    },
    {
      "epoch": 0.02215917575033597,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.00192106564839681,
      "learning_rate": 2e-05,
      "loss": 1.3025,
      "loss/crossentropy": 2.463310718536377,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.18533632159233093,
      "step": 1484
    },
    {
      "epoch": 0.022174107809466926,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0018318017323811849,
      "learning_rate": 2e-05,
      "loss": 1.2817,
      "loss/crossentropy": 2.671934127807617,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.180099219083786,
      "step": 1485
    },
    {
      "epoch": 0.02218903986859788,
      "grad_norm": 0.4765625,
      "grad_norm_var": 0.0020517826080322264,
      "learning_rate": 2e-05,
      "loss": 1.2166,
      "loss/crossentropy": 2.4652843475341797,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1697027087211609,
      "step": 1486
    },
    {
      "epoch": 0.022203971927728834,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.002379337946573893,
      "learning_rate": 2e-05,
      "loss": 1.3923,
      "loss/crossentropy": 2.6956992149353027,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.21260452270507812,
      "step": 1487
    },
    {
      "epoch": 0.022218903986859787,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.0026070753733317058,
      "learning_rate": 2e-05,
      "loss": 1.1581,
      "loss/crossentropy": 2.682551145553589,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.15028738975524902,
      "step": 1488
    },
    {
      "epoch": 0.022233836045990742,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.002599191665649414,
      "learning_rate": 2e-05,
      "loss": 1.3929,
      "loss/crossentropy": 2.7902488708496094,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.2132531702518463,
      "step": 1489
    },
    {
      "epoch": 0.022248768105121695,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.002555958429972331,
      "learning_rate": 2e-05,
      "loss": 1.2911,
      "loss/crossentropy": 2.5189132690429688,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.18173748254776,
      "step": 1490
    },
    {
      "epoch": 0.02226370016425265,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0024022420247395834,
      "learning_rate": 2e-05,
      "loss": 1.1905,
      "loss/crossentropy": 2.603708028793335,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1592203825712204,
      "step": 1491
    },
    {
      "epoch": 0.022278632223383603,
      "grad_norm": 0.458984375,
      "grad_norm_var": 0.0029072920481363934,
      "learning_rate": 2e-05,
      "loss": 1.1689,
      "loss/crossentropy": 2.576422691345215,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15326352417469025,
      "step": 1492
    },
    {
      "epoch": 0.02229356428251456,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.002773539225260417,
      "learning_rate": 2e-05,
      "loss": 1.1926,
      "loss/crossentropy": 2.671536684036255,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1613408625125885,
      "step": 1493
    },
    {
      "epoch": 0.022308496341645515,
      "grad_norm": 0.671875,
      "grad_norm_var": 0.0035964330037434895,
      "learning_rate": 2e-05,
      "loss": 1.3892,
      "loss/crossentropy": 2.2959797382354736,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 13.0,
      "loss/logits": 0.19386935234069824,
      "step": 1494
    },
    {
      "epoch": 0.022323428400776467,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.003343645731608073,
      "learning_rate": 2e-05,
      "loss": 1.2218,
      "loss/crossentropy": 2.720688819885254,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16712167859077454,
      "step": 1495
    },
    {
      "epoch": 0.022338360459907423,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0032587051391601562,
      "learning_rate": 2e-05,
      "loss": 1.3552,
      "loss/crossentropy": 2.4977471828460693,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.18331705033779144,
      "step": 1496
    },
    {
      "epoch": 0.022353292519038375,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0032042821248372396,
      "learning_rate": 2e-05,
      "loss": 1.3051,
      "loss/crossentropy": 2.5807783603668213,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18012891709804535,
      "step": 1497
    },
    {
      "epoch": 0.02236822457816933,
      "grad_norm": 0.474609375,
      "grad_norm_var": 0.0034527937571207684,
      "learning_rate": 2e-05,
      "loss": 1.1901,
      "loss/crossentropy": 2.650909900665283,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.16662496328353882,
      "step": 1498
    },
    {
      "epoch": 0.022383156637300283,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0034212748209635417,
      "learning_rate": 2e-05,
      "loss": 1.2063,
      "loss/crossentropy": 2.6215226650238037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16723014414310455,
      "step": 1499
    },
    {
      "epoch": 0.02239808869643124,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.0034749190012613933,
      "learning_rate": 2e-05,
      "loss": 1.1455,
      "loss/crossentropy": 2.5625998973846436,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.99609375,
      "loss/idx": 13.0,
      "loss/logits": 0.14940068125724792,
      "step": 1500
    },
    {
      "epoch": 0.02241302075556219,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.003467416763305664,
      "learning_rate": 2e-05,
      "loss": 1.2824,
      "loss/crossentropy": 2.5618104934692383,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.18080656230449677,
      "step": 1501
    },
    {
      "epoch": 0.022427952814693147,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0032656192779541016,
      "learning_rate": 2e-05,
      "loss": 1.3115,
      "loss/crossentropy": 2.55956768989563,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.20210814476013184,
      "step": 1502
    },
    {
      "epoch": 0.0224428848738241,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.0031048933664957683,
      "learning_rate": 2e-05,
      "loss": 1.1382,
      "loss/crossentropy": 2.7115917205810547,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9921875,
      "loss/idx": 13.0,
      "loss/logits": 0.14602671563625336,
      "step": 1503
    },
    {
      "epoch": 0.022457816932955055,
      "grad_norm": 0.6875,
      "grad_norm_var": 0.004251845677693685,
      "learning_rate": 2e-05,
      "loss": 1.5219,
      "loss/crossentropy": 2.5612852573394775,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2890625,
      "loss/idx": 13.0,
      "loss/logits": 0.23288561403751373,
      "step": 1504
    },
    {
      "epoch": 0.022472748992086008,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.004239654541015625,
      "learning_rate": 2e-05,
      "loss": 1.2115,
      "loss/crossentropy": 2.5381405353546143,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.17247450351715088,
      "step": 1505
    },
    {
      "epoch": 0.022487681051216964,
      "grad_norm": 0.8125,
      "grad_norm_var": 0.008894856770833333,
      "learning_rate": 2e-05,
      "loss": 1.3213,
      "loss/crossentropy": 2.6162917613983154,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19628921151161194,
      "step": 1506
    },
    {
      "epoch": 0.022502613110347916,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.009166463216145834,
      "learning_rate": 2e-05,
      "loss": 1.1868,
      "loss/crossentropy": 2.6764116287231445,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15558165311813354,
      "step": 1507
    },
    {
      "epoch": 0.022517545169478872,
      "grad_norm": 0.6484375,
      "grad_norm_var": 0.009016911188761393,
      "learning_rate": 2e-05,
      "loss": 1.2914,
      "loss/crossentropy": 2.6869983673095703,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.19766151905059814,
      "step": 1508
    },
    {
      "epoch": 0.022532477228609824,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.009035730361938476,
      "learning_rate": 2e-05,
      "loss": 1.19,
      "loss/crossentropy": 2.548644781112671,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15873447060585022,
      "step": 1509
    },
    {
      "epoch": 0.02254740928774078,
      "grad_norm": 0.482421875,
      "grad_norm_var": 0.008587074279785157,
      "learning_rate": 2e-05,
      "loss": 1.1595,
      "loss/crossentropy": 2.6315722465515137,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.15952712297439575,
      "step": 1510
    },
    {
      "epoch": 0.022562341346871732,
      "grad_norm": 0.85546875,
      "grad_norm_var": 0.014090728759765626,
      "learning_rate": 2e-05,
      "loss": 1.2821,
      "loss/crossentropy": 2.651576519012451,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.2039494812488556,
      "step": 1511
    },
    {
      "epoch": 0.022577273406002688,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.014202308654785157,
      "learning_rate": 2e-05,
      "loss": 1.2496,
      "loss/crossentropy": 2.5648045539855957,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.16364048421382904,
      "step": 1512
    },
    {
      "epoch": 0.02259220546513364,
      "grad_norm": 0.63671875,
      "grad_norm_var": 0.014463233947753906,
      "learning_rate": 2e-05,
      "loss": 1.1766,
      "loss/crossentropy": 2.465576410293579,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1609870195388794,
      "step": 1513
    },
    {
      "epoch": 0.022607137524264596,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.013852167129516601,
      "learning_rate": 2e-05,
      "loss": 1.2467,
      "loss/crossentropy": 2.382476568222046,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.1607544869184494,
      "step": 1514
    },
    {
      "epoch": 0.02262206958339555,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.013454421361287435,
      "learning_rate": 2e-05,
      "loss": 1.3323,
      "loss/crossentropy": 2.588047742843628,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.19164502620697021,
      "step": 1515
    },
    {
      "epoch": 0.022637001642526505,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.012946001688639323,
      "learning_rate": 2e-05,
      "loss": 1.2083,
      "loss/crossentropy": 2.6603829860687256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16927656531333923,
      "step": 1516
    },
    {
      "epoch": 0.022651933701657457,
      "grad_norm": 0.625,
      "grad_norm_var": 0.01285088857014974,
      "learning_rate": 2e-05,
      "loss": 1.2823,
      "loss/crossentropy": 2.647714614868164,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.18076732754707336,
      "step": 1517
    },
    {
      "epoch": 0.022666865760788413,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.013509559631347656,
      "learning_rate": 2e-05,
      "loss": 1.1729,
      "loss/crossentropy": 2.624861717224121,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1651315689086914,
      "step": 1518
    },
    {
      "epoch": 0.02268179781991937,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.013138262430826823,
      "learning_rate": 2e-05,
      "loss": 1.2071,
      "loss/crossentropy": 2.556081771850586,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16020020842552185,
      "step": 1519
    },
    {
      "epoch": 0.02269672987905032,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.012719980875651042,
      "learning_rate": 2e-05,
      "loss": 1.2024,
      "loss/crossentropy": 2.708319902420044,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16335517168045044,
      "step": 1520
    },
    {
      "epoch": 0.022711661938181277,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.01226181983947754,
      "learning_rate": 2e-05,
      "loss": 1.3096,
      "loss/crossentropy": 2.614462375640869,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18464729189872742,
      "step": 1521
    },
    {
      "epoch": 0.02272659399731223,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.008595641454060872,
      "learning_rate": 2e-05,
      "loss": 1.2894,
      "loss/crossentropy": 2.635050058364868,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1800360381603241,
      "step": 1522
    },
    {
      "epoch": 0.022741526056443185,
      "grad_norm": 0.470703125,
      "grad_norm_var": 0.008805783589680989,
      "learning_rate": 2e-05,
      "loss": 1.1752,
      "loss/crossentropy": 2.6181414127349854,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15956082940101624,
      "step": 1523
    },
    {
      "epoch": 0.022756458115574137,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.00838921864827474,
      "learning_rate": 2e-05,
      "loss": 1.2508,
      "loss/crossentropy": 2.428799629211426,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.1649072766304016,
      "step": 1524
    },
    {
      "epoch": 0.022771390174705093,
      "grad_norm": 0.64453125,
      "grad_norm_var": 0.00870965321858724,
      "learning_rate": 2e-05,
      "loss": 1.438,
      "loss/crossentropy": 2.635791778564453,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 13.0,
      "loss/logits": 0.21926459670066833,
      "step": 1525
    },
    {
      "epoch": 0.022786322233836045,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.008490228652954101,
      "learning_rate": 2e-05,
      "loss": 1.2384,
      "loss/crossentropy": 2.5704894065856934,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16805407404899597,
      "step": 1526
    },
    {
      "epoch": 0.022801254292967,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0027491092681884766,
      "learning_rate": 2e-05,
      "loss": 1.2464,
      "loss/crossentropy": 2.7401912212371826,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17604930698871613,
      "step": 1527
    },
    {
      "epoch": 0.022816186352097954,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0027491092681884766,
      "learning_rate": 2e-05,
      "loss": 1.3106,
      "loss/crossentropy": 2.4598357677459717,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18563039600849152,
      "step": 1528
    },
    {
      "epoch": 0.02283111841122891,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.002285623550415039,
      "learning_rate": 2e-05,
      "loss": 1.3289,
      "loss/crossentropy": 2.4256432056427,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.18043887615203857,
      "step": 1529
    },
    {
      "epoch": 0.022846050470359862,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.002328221003214518,
      "learning_rate": 2e-05,
      "loss": 1.2916,
      "loss/crossentropy": 2.513697624206543,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1822143942117691,
      "step": 1530
    },
    {
      "epoch": 0.022860982529490818,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0022973219553629556,
      "learning_rate": 2e-05,
      "loss": 1.2614,
      "loss/crossentropy": 2.432072639465332,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.1676977425813675,
      "step": 1531
    },
    {
      "epoch": 0.02287591458862177,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0024296442667643228,
      "learning_rate": 2e-05,
      "loss": 1.1784,
      "loss/crossentropy": 2.608954668045044,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.16277967393398285,
      "step": 1532
    },
    {
      "epoch": 0.022890846647752726,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0019759496053059896,
      "learning_rate": 2e-05,
      "loss": 1.3215,
      "loss/crossentropy": 2.744267225265503,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19652540981769562,
      "step": 1533
    },
    {
      "epoch": 0.022905778706883678,
      "grad_norm": 0.625,
      "grad_norm_var": 0.0022496541341145834,
      "learning_rate": 2e-05,
      "loss": 1.3236,
      "loss/crossentropy": 2.448258638381958,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.17515279352664948,
      "step": 1534
    },
    {
      "epoch": 0.022920710766014634,
      "grad_norm": 0.474609375,
      "grad_norm_var": 0.0025203545888264974,
      "learning_rate": 2e-05,
      "loss": 1.1635,
      "loss/crossentropy": 2.6411309242248535,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.14791785180568695,
      "step": 1535
    },
    {
      "epoch": 0.022935642825145586,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.00249937375386556,
      "learning_rate": 2e-05,
      "loss": 1.2836,
      "loss/crossentropy": 2.6703877449035645,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.18201038241386414,
      "step": 1536
    },
    {
      "epoch": 0.022950574884276542,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0026462395985921224,
      "learning_rate": 2e-05,
      "loss": 1.3684,
      "loss/crossentropy": 2.5531914234161377,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 13.0,
      "loss/logits": 0.2043484002351761,
      "step": 1537
    },
    {
      "epoch": 0.022965506943407495,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.002407185236612956,
      "learning_rate": 2e-05,
      "loss": 1.2455,
      "loss/crossentropy": 2.6327946186065674,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17522411048412323,
      "step": 1538
    },
    {
      "epoch": 0.02298043900253845,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0020350138346354168,
      "learning_rate": 2e-05,
      "loss": 1.2707,
      "loss/crossentropy": 2.820997476577759,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.20818859338760376,
      "step": 1539
    },
    {
      "epoch": 0.022995371061669403,
      "grad_norm": 0.451171875,
      "grad_norm_var": 0.002620808283487956,
      "learning_rate": 2e-05,
      "loss": 1.1121,
      "loss/crossentropy": 2.2270283699035645,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.97265625,
      "loss/idx": 13.0,
      "loss/logits": 0.13947048783302307,
      "step": 1540
    },
    {
      "epoch": 0.02301030312080036,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0018944899241129557,
      "learning_rate": 2e-05,
      "loss": 1.2607,
      "loss/crossentropy": 2.485645294189453,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1826171576976776,
      "step": 1541
    },
    {
      "epoch": 0.02302523517993131,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0018551985422770182,
      "learning_rate": 2e-05,
      "loss": 1.2134,
      "loss/crossentropy": 2.5995469093322754,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16654683649539948,
      "step": 1542
    },
    {
      "epoch": 0.023040167239062267,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.002537393569946289,
      "learning_rate": 2e-05,
      "loss": 1.3908,
      "loss/crossentropy": 2.5561470985412598,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.2111516296863556,
      "step": 1543
    },
    {
      "epoch": 0.02305509929819322,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.002589146296183268,
      "learning_rate": 2e-05,
      "loss": 1.3671,
      "loss/crossentropy": 2.6751511096954346,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.18742230534553528,
      "step": 1544
    },
    {
      "epoch": 0.023070031357324175,
      "grad_norm": 0.470703125,
      "grad_norm_var": 0.0028365453084309897,
      "learning_rate": 2e-05,
      "loss": 1.1518,
      "loss/crossentropy": 2.600984811782837,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.15175320208072662,
      "step": 1545
    },
    {
      "epoch": 0.02308496341645513,
      "grad_norm": 0.69921875,
      "grad_norm_var": 0.004404131571451823,
      "learning_rate": 2e-05,
      "loss": 1.3883,
      "loss/crossentropy": 2.5492827892303467,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.24766142666339874,
      "step": 1546
    },
    {
      "epoch": 0.023099895475586083,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.004586140314737956,
      "learning_rate": 2e-05,
      "loss": 1.2833,
      "loss/crossentropy": 2.368687629699707,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.189529687166214,
      "step": 1547
    },
    {
      "epoch": 0.02311482753471704,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.004431915283203125,
      "learning_rate": 2e-05,
      "loss": 1.313,
      "loss/crossentropy": 2.526824951171875,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18795964121818542,
      "step": 1548
    },
    {
      "epoch": 0.02312975959384799,
      "grad_norm": 0.5,
      "grad_norm_var": 0.004566192626953125,
      "learning_rate": 2e-05,
      "loss": 1.2229,
      "loss/crossentropy": 2.5661303997039795,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.17601008713245392,
      "step": 1549
    },
    {
      "epoch": 0.023144691652978947,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.004206085205078125,
      "learning_rate": 2e-05,
      "loss": 1.3267,
      "loss/crossentropy": 2.568767786026001,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.20167773962020874,
      "step": 1550
    },
    {
      "epoch": 0.0231596237121099,
      "grad_norm": 0.474609375,
      "grad_norm_var": 0.004206085205078125,
      "learning_rate": 2e-05,
      "loss": 1.168,
      "loss/crossentropy": 2.607841968536377,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15234646201133728,
      "step": 1551
    },
    {
      "epoch": 0.023174555771240855,
      "grad_norm": 0.63671875,
      "grad_norm_var": 0.004733022054036458,
      "learning_rate": 2e-05,
      "loss": 1.5019,
      "loss/crossentropy": 2.2986114025115967,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2890625,
      "loss/idx": 13.0,
      "loss/logits": 0.21287450194358826,
      "step": 1552
    },
    {
      "epoch": 0.023189487830371808,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.004840850830078125,
      "learning_rate": 2e-05,
      "loss": 1.2576,
      "loss/crossentropy": 2.6668930053710938,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17167997360229492,
      "step": 1553
    },
    {
      "epoch": 0.023204419889502764,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.004883766174316406,
      "learning_rate": 2e-05,
      "loss": 1.2429,
      "loss/crossentropy": 2.417006254196167,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.16477948427200317,
      "step": 1554
    },
    {
      "epoch": 0.023219351948633716,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.004937171936035156,
      "learning_rate": 2e-05,
      "loss": 1.3243,
      "loss/crossentropy": 2.640455722808838,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19927874207496643,
      "step": 1555
    },
    {
      "epoch": 0.02323428400776467,
      "grad_norm": 0.5,
      "grad_norm_var": 0.004407485326131185,
      "learning_rate": 2e-05,
      "loss": 1.2037,
      "loss/crossentropy": 2.4920125007629395,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1646072268486023,
      "step": 1556
    },
    {
      "epoch": 0.023249216066895624,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.004596185684204101,
      "learning_rate": 2e-05,
      "loss": 1.1922,
      "loss/crossentropy": 2.554762601852417,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16096070408821106,
      "step": 1557
    },
    {
      "epoch": 0.02326414812602658,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.004476404190063477,
      "learning_rate": 2e-05,
      "loss": 1.2629,
      "loss/crossentropy": 2.679831027984619,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17697837948799133,
      "step": 1558
    },
    {
      "epoch": 0.023279080185157532,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.004035425186157226,
      "learning_rate": 2e-05,
      "loss": 1.3702,
      "loss/crossentropy": 2.5628817081451416,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.190528005361557,
      "step": 1559
    },
    {
      "epoch": 0.023294012244288488,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.004107904434204101,
      "learning_rate": 2e-05,
      "loss": 1.3442,
      "loss/crossentropy": 2.408496141433716,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.19575239717960358,
      "step": 1560
    },
    {
      "epoch": 0.02330894430341944,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.00371856689453125,
      "learning_rate": 2e-05,
      "loss": 1.3114,
      "loss/crossentropy": 2.3996641635894775,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.1863994300365448,
      "step": 1561
    },
    {
      "epoch": 0.023323876362550396,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0024443944295247395,
      "learning_rate": 2e-05,
      "loss": 1.1977,
      "loss/crossentropy": 2.4856419563293457,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.15866494178771973,
      "step": 1562
    },
    {
      "epoch": 0.02333880842168135,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.002242263158162435,
      "learning_rate": 2e-05,
      "loss": 1.3169,
      "loss/crossentropy": 2.454580545425415,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.18412557244300842,
      "step": 1563
    },
    {
      "epoch": 0.023353740480812304,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0023006280263264973,
      "learning_rate": 2e-05,
      "loss": 1.2856,
      "loss/crossentropy": 2.640057325363159,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.19184106588363647,
      "step": 1564
    },
    {
      "epoch": 0.023368672539943257,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.0023747762044270832,
      "learning_rate": 2e-05,
      "loss": 1.1696,
      "loss/crossentropy": 2.4749562740325928,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15401500463485718,
      "step": 1565
    },
    {
      "epoch": 0.023383604599074213,
      "grad_norm": 0.5,
      "grad_norm_var": 0.0024815877278645832,
      "learning_rate": 2e-05,
      "loss": 1.1622,
      "loss/crossentropy": 2.4315335750579834,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.15435267984867096,
      "step": 1566
    },
    {
      "epoch": 0.023398536658205165,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.002191527684529622,
      "learning_rate": 2e-05,
      "loss": 1.2196,
      "loss/crossentropy": 2.7022817134857178,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.17277126014232635,
      "step": 1567
    },
    {
      "epoch": 0.02341346871733612,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.00168608029683431,
      "learning_rate": 2e-05,
      "loss": 1.218,
      "loss/crossentropy": 2.5333712100982666,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1633320152759552,
      "step": 1568
    },
    {
      "epoch": 0.023428400776467073,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0014311313629150391,
      "learning_rate": 2e-05,
      "loss": 1.2387,
      "loss/crossentropy": 2.753187417984009,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16835424304008484,
      "step": 1569
    },
    {
      "epoch": 0.02344333283559803,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0013548374176025391,
      "learning_rate": 2e-05,
      "loss": 1.1516,
      "loss/crossentropy": 2.419675588607788,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.14382390677928925,
      "step": 1570
    },
    {
      "epoch": 0.023458264894728985,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0013063907623291015,
      "learning_rate": 2e-05,
      "loss": 1.2286,
      "loss/crossentropy": 2.2976953983306885,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.15043297410011292,
      "step": 1571
    },
    {
      "epoch": 0.023473196953859937,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.001284646987915039,
      "learning_rate": 2e-05,
      "loss": 1.3051,
      "loss/crossentropy": 2.31030535697937,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18014974892139435,
      "step": 1572
    },
    {
      "epoch": 0.023488129012990893,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0011582533518473307,
      "learning_rate": 2e-05,
      "loss": 1.2815,
      "loss/crossentropy": 2.604799270629883,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.17212437093257904,
      "step": 1573
    },
    {
      "epoch": 0.023503061072121845,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0011911869049072265,
      "learning_rate": 2e-05,
      "loss": 1.2331,
      "loss/crossentropy": 2.6337313652038574,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.162765234708786,
      "step": 1574
    },
    {
      "epoch": 0.0235179931312528,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.001097726821899414,
      "learning_rate": 2e-05,
      "loss": 1.3357,
      "loss/crossentropy": 2.5624470710754395,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.21068018674850464,
      "step": 1575
    },
    {
      "epoch": 0.023532925190383754,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0008711338043212891,
      "learning_rate": 2e-05,
      "loss": 1.3721,
      "loss/crossentropy": 2.4522528648376465,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.20022107660770416,
      "step": 1576
    },
    {
      "epoch": 0.02354785724951471,
      "grad_norm": 0.5,
      "grad_norm_var": 0.0009217421213785807,
      "learning_rate": 2e-05,
      "loss": 1.2497,
      "loss/crossentropy": 2.6643879413604736,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.17159616947174072,
      "step": 1577
    },
    {
      "epoch": 0.023562789308645662,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0008835951487223307,
      "learning_rate": 2e-05,
      "loss": 1.2574,
      "loss/crossentropy": 2.673330545425415,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1793064922094345,
      "step": 1578
    },
    {
      "epoch": 0.023577721367776618,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0008727868398030598,
      "learning_rate": 2e-05,
      "loss": 1.2391,
      "loss/crossentropy": 2.4731786251068115,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1844569444656372,
      "step": 1579
    },
    {
      "epoch": 0.02359265342690757,
      "grad_norm": 0.7890625,
      "grad_norm_var": 0.004923105239868164,
      "learning_rate": 2e-05,
      "loss": 1.335,
      "loss/crossentropy": 2.567404270172119,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 13.0,
      "loss/logits": 0.17879244685173035,
      "step": 1580
    },
    {
      "epoch": 0.023607585486038526,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.005232747395833333,
      "learning_rate": 2e-05,
      "loss": 1.4227,
      "loss/crossentropy": 2.81486177444458,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 13.0,
      "loss/logits": 0.21953287720680237,
      "step": 1581
    },
    {
      "epoch": 0.023622517545169478,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.005023638407389323,
      "learning_rate": 2e-05,
      "loss": 1.3109,
      "loss/crossentropy": 2.5990700721740723,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18592441082000732,
      "step": 1582
    },
    {
      "epoch": 0.023637449604300434,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.005098215738932292,
      "learning_rate": 2e-05,
      "loss": 1.1859,
      "loss/crossentropy": 2.800184488296509,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15463992953300476,
      "step": 1583
    },
    {
      "epoch": 0.023652381663431386,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.005019060770670573,
      "learning_rate": 2e-05,
      "loss": 1.3002,
      "loss/crossentropy": 2.5168678760528564,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.19082492589950562,
      "step": 1584
    },
    {
      "epoch": 0.023667313722562342,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.005083147684733073,
      "learning_rate": 2e-05,
      "loss": 1.2893,
      "loss/crossentropy": 2.3718113899230957,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.18773557245731354,
      "step": 1585
    },
    {
      "epoch": 0.023682245781693295,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0049855550130208336,
      "learning_rate": 2e-05,
      "loss": 1.2704,
      "loss/crossentropy": 2.434890031814575,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.19229555130004883,
      "step": 1586
    },
    {
      "epoch": 0.02369717784082425,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.00497887929280599,
      "learning_rate": 2e-05,
      "loss": 1.2931,
      "loss/crossentropy": 2.461606025695801,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.1758810579776764,
      "step": 1587
    },
    {
      "epoch": 0.023712109899955203,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.005114173889160157,
      "learning_rate": 2e-05,
      "loss": 1.2502,
      "loss/crossentropy": 2.5047669410705566,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.179841548204422,
      "step": 1588
    },
    {
      "epoch": 0.02372704195908616,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.005258417129516602,
      "learning_rate": 2e-05,
      "loss": 1.1957,
      "loss/crossentropy": 2.441140651702881,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1488042175769806,
      "step": 1589
    },
    {
      "epoch": 0.02374197401821711,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.0054323832194010414,
      "learning_rate": 2e-05,
      "loss": 1.1902,
      "loss/crossentropy": 2.5383846759796143,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15891912579536438,
      "step": 1590
    },
    {
      "epoch": 0.023756906077348067,
      "grad_norm": 0.482421875,
      "grad_norm_var": 0.005760685602823893,
      "learning_rate": 2e-05,
      "loss": 1.2418,
      "loss/crossentropy": 2.5855181217193604,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17932924628257751,
      "step": 1591
    },
    {
      "epoch": 0.02377183813647902,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.005790440241495768,
      "learning_rate": 2e-05,
      "loss": 1.2238,
      "loss/crossentropy": 2.640465259552002,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.17696192860603333,
      "step": 1592
    },
    {
      "epoch": 0.023786770195609975,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.005661757787068685,
      "learning_rate": 2e-05,
      "loss": 1.3372,
      "loss/crossentropy": 2.1728391647338867,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.20438703894615173,
      "step": 1593
    },
    {
      "epoch": 0.023801702254740927,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.005678923924763998,
      "learning_rate": 2e-05,
      "loss": 1.2761,
      "loss/crossentropy": 2.580386161804199,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18235522508621216,
      "step": 1594
    },
    {
      "epoch": 0.023816634313871883,
      "grad_norm": 0.66796875,
      "grad_norm_var": 0.006388076146443685,
      "learning_rate": 2e-05,
      "loss": 1.4137,
      "loss/crossentropy": 2.3353309631347656,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 13.0,
      "loss/logits": 0.2027420699596405,
      "step": 1595
    },
    {
      "epoch": 0.023831566373002835,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.0029510339101155598,
      "learning_rate": 2e-05,
      "loss": 1.3433,
      "loss/crossentropy": 2.4447288513183594,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.19487924873828888,
      "step": 1596
    },
    {
      "epoch": 0.02384649843213379,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.002714141209920247,
      "learning_rate": 2e-05,
      "loss": 1.3034,
      "loss/crossentropy": 2.6335086822509766,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.17839547991752625,
      "step": 1597
    },
    {
      "epoch": 0.023861430491264747,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.002715921401977539,
      "learning_rate": 2e-05,
      "loss": 1.2338,
      "loss/crossentropy": 2.8217856884002686,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1713387668132782,
      "step": 1598
    },
    {
      "epoch": 0.0238763625503957,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.0025728702545166015,
      "learning_rate": 2e-05,
      "loss": 1.3584,
      "loss/crossentropy": 2.3990859985351562,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.18652434647083282,
      "step": 1599
    },
    {
      "epoch": 0.023891294609526655,
      "grad_norm": 0.48046875,
      "grad_norm_var": 0.002887582778930664,
      "learning_rate": 2e-05,
      "loss": 1.2107,
      "loss/crossentropy": 2.350006103515625,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16381904482841492,
      "step": 1600
    },
    {
      "epoch": 0.023906226668657608,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.002761697769165039,
      "learning_rate": 2e-05,
      "loss": 1.2017,
      "loss/crossentropy": 2.7609221935272217,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16260434687137604,
      "step": 1601
    },
    {
      "epoch": 0.023921158727788563,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.002777719497680664,
      "learning_rate": 2e-05,
      "loss": 1.2588,
      "loss/crossentropy": 2.6673271656036377,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.18064871430397034,
      "step": 1602
    },
    {
      "epoch": 0.023936090786919516,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.002766275405883789,
      "learning_rate": 2e-05,
      "loss": 1.3639,
      "loss/crossentropy": 2.7430176734924316,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.19205442070960999,
      "step": 1603
    },
    {
      "epoch": 0.02395102284605047,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.0028940836588541665,
      "learning_rate": 2e-05,
      "loss": 1.2124,
      "loss/crossentropy": 2.53092360496521,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1655370444059372,
      "step": 1604
    },
    {
      "epoch": 0.023965954905181424,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.002710835138956706,
      "learning_rate": 2e-05,
      "loss": 1.3779,
      "loss/crossentropy": 2.3667619228363037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.19819000363349915,
      "step": 1605
    },
    {
      "epoch": 0.02398088696431238,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0024050394694010418,
      "learning_rate": 2e-05,
      "loss": 1.2546,
      "loss/crossentropy": 2.244283676147461,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.1686820089817047,
      "step": 1606
    },
    {
      "epoch": 0.023995819023443332,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.002018594741821289,
      "learning_rate": 2e-05,
      "loss": 1.2936,
      "loss/crossentropy": 2.713747501373291,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.1764499694108963,
      "step": 1607
    },
    {
      "epoch": 0.024010751082574288,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.0024668216705322266,
      "learning_rate": 2e-05,
      "loss": 1.1716,
      "loss/crossentropy": 2.828679323196411,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.155990868806839,
      "step": 1608
    },
    {
      "epoch": 0.02402568314170524,
      "grad_norm": 0.76171875,
      "grad_norm_var": 0.005054457982381185,
      "learning_rate": 2e-05,
      "loss": 1.2463,
      "loss/crossentropy": 2.567664623260498,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.16816666722297668,
      "step": 1609
    },
    {
      "epoch": 0.024040615200836196,
      "grad_norm": 0.98828125,
      "grad_norm_var": 0.015782785415649415,
      "learning_rate": 2e-05,
      "loss": 1.342,
      "loss/crossentropy": 2.756133556365967,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.20140567421913147,
      "step": 1610
    },
    {
      "epoch": 0.02405554725996715,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.0161592960357666,
      "learning_rate": 2e-05,
      "loss": 1.2295,
      "loss/crossentropy": 2.6116912364959717,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1748572140932083,
      "step": 1611
    },
    {
      "epoch": 0.024070479319098104,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.016498804092407227,
      "learning_rate": 2e-05,
      "loss": 1.2077,
      "loss/crossentropy": 2.7342991828918457,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16085676848888397,
      "step": 1612
    },
    {
      "epoch": 0.024085411378229057,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.016406488418579102,
      "learning_rate": 2e-05,
      "loss": 1.3091,
      "loss/crossentropy": 2.641632318496704,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18407666683197021,
      "step": 1613
    },
    {
      "epoch": 0.024100343437360013,
      "grad_norm": 0.470703125,
      "grad_norm_var": 0.017087745666503906,
      "learning_rate": 2e-05,
      "loss": 1.1709,
      "loss/crossentropy": 2.5103869438171387,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.14749841392040253,
      "step": 1614
    },
    {
      "epoch": 0.024115275496490965,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.0174807071685791,
      "learning_rate": 2e-05,
      "loss": 1.242,
      "loss/crossentropy": 2.5742335319519043,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.1717085838317871,
      "step": 1615
    },
    {
      "epoch": 0.02413020755562192,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.01697703997294108,
      "learning_rate": 2e-05,
      "loss": 1.3399,
      "loss/crossentropy": 2.6849160194396973,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.19930125772953033,
      "step": 1616
    },
    {
      "epoch": 0.024145139614752873,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.01696623166402181,
      "learning_rate": 2e-05,
      "loss": 1.3899,
      "loss/crossentropy": 2.5048611164093018,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.2179987132549286,
      "step": 1617
    },
    {
      "epoch": 0.02416007167388383,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.01700272560119629,
      "learning_rate": 2e-05,
      "loss": 1.3458,
      "loss/crossentropy": 2.225867509841919,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.17394158244132996,
      "step": 1618
    },
    {
      "epoch": 0.02417500373301478,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.01702739397684733,
      "learning_rate": 2e-05,
      "loss": 1.2265,
      "loss/crossentropy": 2.765789747238159,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17184340953826904,
      "step": 1619
    },
    {
      "epoch": 0.024189935792145737,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.01673018137613932,
      "learning_rate": 2e-05,
      "loss": 1.2812,
      "loss/crossentropy": 2.774526596069336,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.17186947166919708,
      "step": 1620
    },
    {
      "epoch": 0.02420486785127669,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.016666094462076824,
      "learning_rate": 2e-05,
      "loss": 1.3168,
      "loss/crossentropy": 2.60170578956604,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19177797436714172,
      "step": 1621
    },
    {
      "epoch": 0.024219799910407645,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.016649881998697918,
      "learning_rate": 2e-05,
      "loss": 1.2087,
      "loss/crossentropy": 2.606919527053833,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16964177787303925,
      "step": 1622
    },
    {
      "epoch": 0.024234731969538598,
      "grad_norm": 0.625,
      "grad_norm_var": 0.016714986165364584,
      "learning_rate": 2e-05,
      "loss": 1.3444,
      "loss/crossentropy": 2.387601375579834,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.1725083887577057,
      "step": 1623
    },
    {
      "epoch": 0.024249664028669553,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.01587518056233724,
      "learning_rate": 2e-05,
      "loss": 1.3219,
      "loss/crossentropy": 2.5789592266082764,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19694536924362183,
      "step": 1624
    },
    {
      "epoch": 0.02426459608780051,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.014444224039713542,
      "learning_rate": 2e-05,
      "loss": 1.2397,
      "loss/crossentropy": 2.5164992809295654,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17721965909004211,
      "step": 1625
    },
    {
      "epoch": 0.02427952814693146,
      "grad_norm": 0.625,
      "grad_norm_var": 0.002707354227701823,
      "learning_rate": 2e-05,
      "loss": 1.2661,
      "loss/crossentropy": 2.8884806632995605,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.18014132976531982,
      "step": 1626
    },
    {
      "epoch": 0.024294460206062417,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.00237274169921875,
      "learning_rate": 2e-05,
      "loss": 1.4009,
      "loss/crossentropy": 2.534945249557495,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 13.0,
      "loss/logits": 0.19778071343898773,
      "step": 1627
    },
    {
      "epoch": 0.02430939226519337,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0022231419881184895,
      "learning_rate": 2e-05,
      "loss": 1.3571,
      "loss/crossentropy": 2.6048007011413574,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.20868733525276184,
      "step": 1628
    },
    {
      "epoch": 0.024324324324324326,
      "grad_norm": 0.76953125,
      "grad_norm_var": 0.004957008361816406,
      "learning_rate": 2e-05,
      "loss": 1.4905,
      "loss/crossentropy": 2.398721218109131,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 13.0,
      "loss/logits": 0.22485968470573425,
      "step": 1629
    },
    {
      "epoch": 0.024339256383455278,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.004736566543579101,
      "learning_rate": 2e-05,
      "loss": 1.1915,
      "loss/crossentropy": 2.464036703109741,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1602393090724945,
      "step": 1630
    },
    {
      "epoch": 0.024354188442586234,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.004602495829264323,
      "learning_rate": 2e-05,
      "loss": 1.174,
      "loss/crossentropy": 2.519684076309204,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15833880007266998,
      "step": 1631
    },
    {
      "epoch": 0.024369120501717186,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.004546546936035156,
      "learning_rate": 2e-05,
      "loss": 1.3098,
      "loss/crossentropy": 2.3867616653442383,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18479761481285095,
      "step": 1632
    },
    {
      "epoch": 0.024384052560848142,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.004651323954264323,
      "learning_rate": 2e-05,
      "loss": 1.2205,
      "loss/crossentropy": 2.6318466663360596,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16580361127853394,
      "step": 1633
    },
    {
      "epoch": 0.024398984619979094,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.005088917414347331,
      "learning_rate": 2e-05,
      "loss": 1.1839,
      "loss/crossentropy": 2.615931749343872,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15263916552066803,
      "step": 1634
    },
    {
      "epoch": 0.02441391667911005,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.005309406916300456,
      "learning_rate": 2e-05,
      "loss": 1.1888,
      "loss/crossentropy": 2.495640277862549,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15757544338703156,
      "step": 1635
    },
    {
      "epoch": 0.024428848738241003,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.005074167251586914,
      "learning_rate": 2e-05,
      "loss": 1.1999,
      "loss/crossentropy": 2.633312463760376,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1686273217201233,
      "step": 1636
    },
    {
      "epoch": 0.02444378079737196,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.00545190175374349,
      "learning_rate": 2e-05,
      "loss": 1.2016,
      "loss/crossentropy": 2.4377596378326416,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16258299350738525,
      "step": 1637
    },
    {
      "epoch": 0.02445871285650291,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.005521138509114583,
      "learning_rate": 2e-05,
      "loss": 1.184,
      "loss/crossentropy": 2.7175605297088623,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.16056030988693237,
      "step": 1638
    },
    {
      "epoch": 0.024473644915633867,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.005132293701171875,
      "learning_rate": 2e-05,
      "loss": 1.2285,
      "loss/crossentropy": 2.648740530014038,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17380774021148682,
      "step": 1639
    },
    {
      "epoch": 0.02448857697476482,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.005138079325358073,
      "learning_rate": 2e-05,
      "loss": 1.2751,
      "loss/crossentropy": 2.3271639347076416,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18137691915035248,
      "step": 1640
    },
    {
      "epoch": 0.024503509033895775,
      "grad_norm": 0.482421875,
      "grad_norm_var": 0.005154275894165039,
      "learning_rate": 2e-05,
      "loss": 1.2039,
      "loss/crossentropy": 2.5689260959625244,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16480699181556702,
      "step": 1641
    },
    {
      "epoch": 0.024518441093026727,
      "grad_norm": 1.40625,
      "grad_norm_var": 0.05157914161682129,
      "learning_rate": 2e-05,
      "loss": 1.6373,
      "loss/crossentropy": 2.645709991455078,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3828125,
      "loss/idx": 13.0,
      "loss/logits": 0.25451111793518066,
      "step": 1642
    },
    {
      "epoch": 0.024533373152157683,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.051696125666300455,
      "learning_rate": 2e-05,
      "loss": 1.2251,
      "loss/crossentropy": 2.5970401763916016,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17040389776229858,
      "step": 1643
    },
    {
      "epoch": 0.024548305211288635,
      "grad_norm": 0.462890625,
      "grad_norm_var": 0.05272318522135417,
      "learning_rate": 2e-05,
      "loss": 1.1941,
      "loss/crossentropy": 2.482206344604492,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.14718057215213776,
      "step": 1644
    },
    {
      "epoch": 0.02456323727041959,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.050414784749348955,
      "learning_rate": 2e-05,
      "loss": 1.3091,
      "loss/crossentropy": 2.300069808959961,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.19193615019321442,
      "step": 1645
    },
    {
      "epoch": 0.024578169329550544,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.050004005432128906,
      "learning_rate": 2e-05,
      "loss": 1.2527,
      "loss/crossentropy": 2.6057968139648438,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.18236851692199707,
      "step": 1646
    },
    {
      "epoch": 0.0245931013886815,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.049906158447265626,
      "learning_rate": 2e-05,
      "loss": 1.2824,
      "loss/crossentropy": 2.6754231452941895,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.2042427510023117,
      "step": 1647
    },
    {
      "epoch": 0.02460803344781245,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.050393104553222656,
      "learning_rate": 2e-05,
      "loss": 1.156,
      "loss/crossentropy": 2.59796142578125,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.156040221452713,
      "step": 1648
    },
    {
      "epoch": 0.024622965506943408,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.05058364868164063,
      "learning_rate": 2e-05,
      "loss": 1.336,
      "loss/crossentropy": 2.5802266597747803,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.1875656247138977,
      "step": 1649
    },
    {
      "epoch": 0.024637897566074363,
      "grad_norm": 0.6328125,
      "grad_norm_var": 0.05014138221740723,
      "learning_rate": 2e-05,
      "loss": 1.2801,
      "loss/crossentropy": 2.673807382583618,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.19418036937713623,
      "step": 1650
    },
    {
      "epoch": 0.024652829625205316,
      "grad_norm": 0.66796875,
      "grad_norm_var": 0.05005796750386556,
      "learning_rate": 2e-05,
      "loss": 1.5013,
      "loss/crossentropy": 2.436178684234619,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2734375,
      "loss/idx": 13.0,
      "loss/logits": 0.22788530588150024,
      "step": 1651
    },
    {
      "epoch": 0.02466776168433627,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.04988745053609212,
      "learning_rate": 2e-05,
      "loss": 1.3592,
      "loss/crossentropy": 2.245730400085449,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.21073272824287415,
      "step": 1652
    },
    {
      "epoch": 0.024682693743467224,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.04933770497639974,
      "learning_rate": 2e-05,
      "loss": 1.2983,
      "loss/crossentropy": 2.5788753032684326,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1889631152153015,
      "step": 1653
    },
    {
      "epoch": 0.02469762580259818,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.04965322812398275,
      "learning_rate": 2e-05,
      "loss": 1.1939,
      "loss/crossentropy": 2.6785736083984375,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16263613104820251,
      "step": 1654
    },
    {
      "epoch": 0.024712557861729132,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.04996501604715983,
      "learning_rate": 2e-05,
      "loss": 1.2169,
      "loss/crossentropy": 2.441274404525757,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1544494479894638,
      "step": 1655
    },
    {
      "epoch": 0.024727489920860088,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.05000913937886556,
      "learning_rate": 2e-05,
      "loss": 1.2835,
      "loss/crossentropy": 2.6980459690093994,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1819465607404709,
      "step": 1656
    },
    {
      "epoch": 0.02474242197999104,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.04941349029541016,
      "learning_rate": 2e-05,
      "loss": 1.2336,
      "loss/crossentropy": 2.562973976135254,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.1632436215877533,
      "step": 1657
    },
    {
      "epoch": 0.024757354039121996,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.003185462951660156,
      "learning_rate": 2e-05,
      "loss": 1.2196,
      "loss/crossentropy": 2.669048547744751,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.17273685336112976,
      "step": 1658
    },
    {
      "epoch": 0.02477228609825295,
      "grad_norm": 0.43359375,
      "grad_norm_var": 0.003966522216796875,
      "learning_rate": 2e-05,
      "loss": 1.1219,
      "loss/crossentropy": 2.5299949645996094,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9765625,
      "loss/idx": 13.0,
      "loss/logits": 0.14536432921886444,
      "step": 1659
    },
    {
      "epoch": 0.024787218157383904,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.003560495376586914,
      "learning_rate": 2e-05,
      "loss": 1.2227,
      "loss/crossentropy": 2.4549379348754883,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16801050305366516,
      "step": 1660
    },
    {
      "epoch": 0.024802150216514857,
      "grad_norm": 0.5,
      "grad_norm_var": 0.003677988052368164,
      "learning_rate": 2e-05,
      "loss": 1.1772,
      "loss/crossentropy": 2.661327600479126,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15374130010604858,
      "step": 1661
    },
    {
      "epoch": 0.024817082275645812,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.003876479466756185,
      "learning_rate": 2e-05,
      "loss": 1.163,
      "loss/crossentropy": 2.5966739654541016,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.16298674046993256,
      "step": 1662
    },
    {
      "epoch": 0.024832014334776765,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.003928613662719726,
      "learning_rate": 2e-05,
      "loss": 1.1938,
      "loss/crossentropy": 2.5892300605773926,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.17037644982337952,
      "step": 1663
    },
    {
      "epoch": 0.02484694639390772,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.004037332534790039,
      "learning_rate": 2e-05,
      "loss": 1.4414,
      "loss/crossentropy": 2.285784959793091,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2421875,
      "loss/idx": 13.0,
      "loss/logits": 0.19916491210460663,
      "step": 1664
    },
    {
      "epoch": 0.024861878453038673,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.003541421890258789,
      "learning_rate": 2e-05,
      "loss": 1.2812,
      "loss/crossentropy": 2.531317949295044,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1796582043170929,
      "step": 1665
    },
    {
      "epoch": 0.02487681051216963,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.003025166193644206,
      "learning_rate": 2e-05,
      "loss": 1.237,
      "loss/crossentropy": 2.617490530014038,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1823294758796692,
      "step": 1666
    },
    {
      "epoch": 0.02489174257130058,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.0018648624420166016,
      "learning_rate": 2e-05,
      "loss": 1.2051,
      "loss/crossentropy": 2.699169635772705,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16599290072917938,
      "step": 1667
    },
    {
      "epoch": 0.024906674630431537,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.0022632439931233725,
      "learning_rate": 2e-05,
      "loss": 1.391,
      "loss/crossentropy": 2.284773588180542,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.21133294701576233,
      "step": 1668
    },
    {
      "epoch": 0.02492160668956249,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.002263625462849935,
      "learning_rate": 2e-05,
      "loss": 1.3096,
      "loss/crossentropy": 2.398963212966919,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.17675255239009857,
      "step": 1669
    },
    {
      "epoch": 0.024936538748693445,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.002208900451660156,
      "learning_rate": 2e-05,
      "loss": 1.2286,
      "loss/crossentropy": 2.7221715450286865,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17392107844352722,
      "step": 1670
    },
    {
      "epoch": 0.024951470807824398,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.002201080322265625,
      "learning_rate": 2e-05,
      "loss": 1.2543,
      "loss/crossentropy": 2.7048890590667725,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.18397437036037445,
      "step": 1671
    },
    {
      "epoch": 0.024966402866955353,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.0025374730428059894,
      "learning_rate": 2e-05,
      "loss": 1.2544,
      "loss/crossentropy": 2.427884101867676,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.16849087178707123,
      "step": 1672
    },
    {
      "epoch": 0.024981334926086306,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0025593439737955728,
      "learning_rate": 2e-05,
      "loss": 1.2987,
      "loss/crossentropy": 2.7837252616882324,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1893191933631897,
      "step": 1673
    },
    {
      "epoch": 0.02499626698521726,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.002565447489420573,
      "learning_rate": 2e-05,
      "loss": 1.3511,
      "loss/crossentropy": 2.4340031147003174,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.21051189303398132,
      "step": 1674
    },
    {
      "epoch": 0.025011199044348214,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0019602457682291667,
      "learning_rate": 2e-05,
      "loss": 1.1157,
      "loss/crossentropy": 2.662384510040283,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.96875,
      "loss/idx": 13.0,
      "loss/logits": 0.1469482183456421,
      "step": 1675
    },
    {
      "epoch": 0.02502613110347917,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0019891738891601564,
      "learning_rate": 2e-05,
      "loss": 1.1957,
      "loss/crossentropy": 2.637355327606201,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1644275039434433,
      "step": 1676
    },
    {
      "epoch": 0.025041063162610126,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.002227783203125,
      "learning_rate": 2e-05,
      "loss": 1.2562,
      "loss/crossentropy": 2.616171360015869,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17029576003551483,
      "step": 1677
    },
    {
      "epoch": 0.025055995221741078,
      "grad_norm": 0.73046875,
      "grad_norm_var": 0.004218482971191406,
      "learning_rate": 2e-05,
      "loss": 1.3086,
      "loss/crossentropy": 2.3912839889526367,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.19144338369369507,
      "step": 1678
    },
    {
      "epoch": 0.025070927280872034,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.004094886779785156,
      "learning_rate": 2e-05,
      "loss": 1.2694,
      "loss/crossentropy": 2.4914817810058594,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.16782964766025543,
      "step": 1679
    },
    {
      "epoch": 0.025085859340002986,
      "grad_norm": 0.48046875,
      "grad_norm_var": 0.004245440165201823,
      "learning_rate": 2e-05,
      "loss": 1.1771,
      "loss/crossentropy": 2.6493070125579834,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15367591381072998,
      "step": 1680
    },
    {
      "epoch": 0.025100791399133942,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.004205767313639323,
      "learning_rate": 2e-05,
      "loss": 1.2893,
      "loss/crossentropy": 2.348886013031006,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.18777824938297272,
      "step": 1681
    },
    {
      "epoch": 0.025115723458264894,
      "grad_norm": 0.6796875,
      "grad_norm_var": 0.005051422119140625,
      "learning_rate": 2e-05,
      "loss": 1.5518,
      "loss/crossentropy": 2.78147029876709,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 13.0,
      "loss/logits": 0.28619956970214844,
      "step": 1682
    },
    {
      "epoch": 0.02513065551739585,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.004572486877441407,
      "learning_rate": 2e-05,
      "loss": 1.3742,
      "loss/crossentropy": 2.9234964847564697,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.18667152523994446,
      "step": 1683
    },
    {
      "epoch": 0.025145587576526802,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.004493141174316406,
      "learning_rate": 2e-05,
      "loss": 1.2891,
      "loss/crossentropy": 2.454906702041626,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1797175407409668,
      "step": 1684
    },
    {
      "epoch": 0.02516051963565776,
      "grad_norm": 0.5,
      "grad_norm_var": 0.0046689351399739586,
      "learning_rate": 2e-05,
      "loss": 1.2387,
      "loss/crossentropy": 2.572845458984375,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1761704385280609,
      "step": 1685
    },
    {
      "epoch": 0.02517545169478871,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.004794677098592122,
      "learning_rate": 2e-05,
      "loss": 1.1848,
      "loss/crossentropy": 2.493640184402466,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15350091457366943,
      "step": 1686
    },
    {
      "epoch": 0.025190383753919666,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.004629373550415039,
      "learning_rate": 2e-05,
      "loss": 1.196,
      "loss/crossentropy": 2.6362812519073486,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16470015048980713,
      "step": 1687
    },
    {
      "epoch": 0.02520531581305062,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.004564523696899414,
      "learning_rate": 2e-05,
      "loss": 1.2056,
      "loss/crossentropy": 2.431504249572754,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.15874925255775452,
      "step": 1688
    },
    {
      "epoch": 0.025220247872181575,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.004807519912719727,
      "learning_rate": 2e-05,
      "loss": 1.2304,
      "loss/crossentropy": 2.4948151111602783,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16791260242462158,
      "step": 1689
    },
    {
      "epoch": 0.025235179931312527,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.004857619603474935,
      "learning_rate": 2e-05,
      "loss": 1.2481,
      "loss/crossentropy": 2.4789421558380127,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.1777571737766266,
      "step": 1690
    },
    {
      "epoch": 0.025250111990443483,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.00479276974995931,
      "learning_rate": 2e-05,
      "loss": 1.2302,
      "loss/crossentropy": 2.2739431858062744,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16770566999912262,
      "step": 1691
    },
    {
      "epoch": 0.025265044049574435,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.004770898818969726,
      "learning_rate": 2e-05,
      "loss": 1.2194,
      "loss/crossentropy": 2.639508008956909,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1725163459777832,
      "step": 1692
    },
    {
      "epoch": 0.02527997610870539,
      "grad_norm": 0.5,
      "grad_norm_var": 0.004767465591430664,
      "learning_rate": 2e-05,
      "loss": 1.2304,
      "loss/crossentropy": 2.8804821968078613,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1756765991449356,
      "step": 1693
    },
    {
      "epoch": 0.025294908167836343,
      "grad_norm": 1.1796875,
      "grad_norm_var": 0.028237390518188476,
      "learning_rate": 2e-05,
      "loss": 1.9296,
      "loss/crossentropy": 2.852426290512085,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.578125,
      "loss/idx": 13.0,
      "loss/logits": 0.35142582654953003,
      "step": 1694
    },
    {
      "epoch": 0.0253098402269673,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.028072722752889,
      "learning_rate": 2e-05,
      "loss": 1.2908,
      "loss/crossentropy": 2.6262359619140625,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.18921533226966858,
      "step": 1695
    },
    {
      "epoch": 0.02532477228609825,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.02753599484761556,
      "learning_rate": 2e-05,
      "loss": 1.3023,
      "loss/crossentropy": 2.71830153465271,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.19293737411499023,
      "step": 1696
    },
    {
      "epoch": 0.025339704345229207,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.02763708432515462,
      "learning_rate": 2e-05,
      "loss": 1.2915,
      "loss/crossentropy": 2.5848164558410645,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.19779077172279358,
      "step": 1697
    },
    {
      "epoch": 0.02535463640436016,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.02696429888407389,
      "learning_rate": 2e-05,
      "loss": 1.3879,
      "loss/crossentropy": 2.7005844116210938,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.20819774270057678,
      "step": 1698
    },
    {
      "epoch": 0.025369568463491116,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.02758316993713379,
      "learning_rate": 2e-05,
      "loss": 1.1186,
      "loss/crossentropy": 2.633463144302368,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9765625,
      "loss/idx": 13.0,
      "loss/logits": 0.1420612782239914,
      "step": 1699
    },
    {
      "epoch": 0.025384500522622068,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.02757121721903483,
      "learning_rate": 2e-05,
      "loss": 1.264,
      "loss/crossentropy": 2.642566204071045,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1858481764793396,
      "step": 1700
    },
    {
      "epoch": 0.025399432581753024,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.02760758399963379,
      "learning_rate": 2e-05,
      "loss": 1.3168,
      "loss/crossentropy": 2.675619125366211,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19182080030441284,
      "step": 1701
    },
    {
      "epoch": 0.02541436464088398,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.027347564697265625,
      "learning_rate": 2e-05,
      "loss": 1.3172,
      "loss/crossentropy": 2.6206746101379395,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19216333329677582,
      "step": 1702
    },
    {
      "epoch": 0.025429296700014932,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.027375221252441406,
      "learning_rate": 2e-05,
      "loss": 1.264,
      "loss/crossentropy": 2.7116100788116455,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.1937001645565033,
      "step": 1703
    },
    {
      "epoch": 0.025444228759145888,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.027375221252441406,
      "learning_rate": 2e-05,
      "loss": 1.3182,
      "loss/crossentropy": 2.672400951385498,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19316034018993378,
      "step": 1704
    },
    {
      "epoch": 0.02545916081827684,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.027009073893229166,
      "learning_rate": 2e-05,
      "loss": 1.3287,
      "loss/crossentropy": 2.59317946434021,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.19592443108558655,
      "step": 1705
    },
    {
      "epoch": 0.025474092877407796,
      "grad_norm": 0.466796875,
      "grad_norm_var": 0.02761521339416504,
      "learning_rate": 2e-05,
      "loss": 1.2262,
      "loss/crossentropy": 2.5838565826416016,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16374395787715912,
      "step": 1706
    },
    {
      "epoch": 0.02548902493653875,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.027743132909138997,
      "learning_rate": 2e-05,
      "loss": 1.1815,
      "loss/crossentropy": 2.6330811977386475,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.16590842604637146,
      "step": 1707
    },
    {
      "epoch": 0.025503956995669704,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.02756663958231608,
      "learning_rate": 2e-05,
      "loss": 1.2692,
      "loss/crossentropy": 2.5513384342193604,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.16764463484287262,
      "step": 1708
    },
    {
      "epoch": 0.025518889054800657,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.027528746922810873,
      "learning_rate": 2e-05,
      "loss": 1.1706,
      "loss/crossentropy": 2.727013111114502,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15500634908676147,
      "step": 1709
    },
    {
      "epoch": 0.025533821113931612,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.0016778151194254557,
      "learning_rate": 2e-05,
      "loss": 1.3518,
      "loss/crossentropy": 2.346733570098877,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.20339244604110718,
      "step": 1710
    },
    {
      "epoch": 0.025548753173062565,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.0017491022745768229,
      "learning_rate": 2e-05,
      "loss": 1.1178,
      "loss/crossentropy": 2.4764509201049805,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.97265625,
      "loss/idx": 13.0,
      "loss/logits": 0.145157128572464,
      "step": 1711
    },
    {
      "epoch": 0.02556368523219352,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0017689387003580728,
      "learning_rate": 2e-05,
      "loss": 1.2626,
      "loss/crossentropy": 2.531623125076294,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.18448594212532043,
      "step": 1712
    },
    {
      "epoch": 0.025578617291324473,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.0017916361490885417,
      "learning_rate": 2e-05,
      "loss": 1.321,
      "loss/crossentropy": 2.4013497829437256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.18041828274726868,
      "step": 1713
    },
    {
      "epoch": 0.02559354935045543,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.001543426513671875,
      "learning_rate": 2e-05,
      "loss": 1.3033,
      "loss/crossentropy": 2.6992998123168945,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1939333975315094,
      "step": 1714
    },
    {
      "epoch": 0.02560848140958638,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0013483047485351562,
      "learning_rate": 2e-05,
      "loss": 1.1803,
      "loss/crossentropy": 2.517133951187134,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.14903077483177185,
      "step": 1715
    },
    {
      "epoch": 0.025623413468717337,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.002071571350097656,
      "learning_rate": 2e-05,
      "loss": 1.6195,
      "loss/crossentropy": 2.476125717163086,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.359375,
      "loss/idx": 13.0,
      "loss/logits": 0.26009926199913025,
      "step": 1716
    },
    {
      "epoch": 0.02563834552784829,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.001980018615722656,
      "learning_rate": 2e-05,
      "loss": 1.3432,
      "loss/crossentropy": 2.2813334465026855,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.20258614420890808,
      "step": 1717
    },
    {
      "epoch": 0.025653277586979245,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.0018282572428385416,
      "learning_rate": 2e-05,
      "loss": 1.1883,
      "loss/crossentropy": 2.476081132888794,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15700972080230713,
      "step": 1718
    },
    {
      "epoch": 0.025668209646110197,
      "grad_norm": 0.62890625,
      "grad_norm_var": 0.002367401123046875,
      "learning_rate": 2e-05,
      "loss": 1.3278,
      "loss/crossentropy": 2.189779281616211,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.1871606558561325,
      "step": 1719
    },
    {
      "epoch": 0.025683141705241153,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.002367591857910156,
      "learning_rate": 2e-05,
      "loss": 1.1858,
      "loss/crossentropy": 2.363250732421875,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15456654131412506,
      "step": 1720
    },
    {
      "epoch": 0.025698073764372106,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0024800459543863934,
      "learning_rate": 2e-05,
      "loss": 1.1912,
      "loss/crossentropy": 2.333819627761841,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15996934473514557,
      "step": 1721
    },
    {
      "epoch": 0.02571300582350306,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.002164141337076823,
      "learning_rate": 2e-05,
      "loss": 1.2155,
      "loss/crossentropy": 2.6888930797576904,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16863149404525757,
      "step": 1722
    },
    {
      "epoch": 0.025727937882634014,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0020746866861979167,
      "learning_rate": 2e-05,
      "loss": 1.3424,
      "loss/crossentropy": 2.607393980026245,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.2017740160226822,
      "step": 1723
    },
    {
      "epoch": 0.02574286994176497,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0021071751912434896,
      "learning_rate": 2e-05,
      "loss": 1.2383,
      "loss/crossentropy": 2.4375128746032715,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16799165308475494,
      "step": 1724
    },
    {
      "epoch": 0.025757802000895922,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.00221403439839681,
      "learning_rate": 2e-05,
      "loss": 1.2517,
      "loss/crossentropy": 2.7144973278045654,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.18143236637115479,
      "step": 1725
    },
    {
      "epoch": 0.025772734060026878,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.00208433469136556,
      "learning_rate": 2e-05,
      "loss": 1.316,
      "loss/crossentropy": 2.503783941268921,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19102910161018372,
      "step": 1726
    },
    {
      "epoch": 0.02578766611915783,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0019597371419270834,
      "learning_rate": 2e-05,
      "loss": 1.2821,
      "loss/crossentropy": 2.499298572540283,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.17273728549480438,
      "step": 1727
    },
    {
      "epoch": 0.025802598178288786,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.001977984110514323,
      "learning_rate": 2e-05,
      "loss": 1.259,
      "loss/crossentropy": 2.5022952556610107,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.18091173470020294,
      "step": 1728
    },
    {
      "epoch": 0.025817530237419742,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0019652684529622394,
      "learning_rate": 2e-05,
      "loss": 1.3357,
      "loss/crossentropy": 2.4653351306915283,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.19503894448280334,
      "step": 1729
    },
    {
      "epoch": 0.025832462296550694,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0019617080688476562,
      "learning_rate": 2e-05,
      "loss": 1.1965,
      "loss/crossentropy": 2.6985909938812256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16525985300540924,
      "step": 1730
    },
    {
      "epoch": 0.02584739435568165,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.00191802978515625,
      "learning_rate": 2e-05,
      "loss": 1.2125,
      "loss/crossentropy": 2.709136486053467,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.18129640817642212,
      "step": 1731
    },
    {
      "epoch": 0.025862326414812602,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0012738545735677083,
      "learning_rate": 2e-05,
      "loss": 1.2335,
      "loss/crossentropy": 2.7097113132476807,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17096135020256042,
      "step": 1732
    },
    {
      "epoch": 0.025877258473943558,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.001576677958170573,
      "learning_rate": 2e-05,
      "loss": 1.2684,
      "loss/crossentropy": 2.601806879043579,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.18242479860782623,
      "step": 1733
    },
    {
      "epoch": 0.02589219053307451,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0014165242513020833,
      "learning_rate": 2e-05,
      "loss": 1.3134,
      "loss/crossentropy": 2.4615402221679688,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18838651478290558,
      "step": 1734
    },
    {
      "epoch": 0.025907122592205466,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0008539835611979167,
      "learning_rate": 2e-05,
      "loss": 1.2638,
      "loss/crossentropy": 2.577078104019165,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.18569207191467285,
      "step": 1735
    },
    {
      "epoch": 0.02592205465133642,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.0010256449381510417,
      "learning_rate": 2e-05,
      "loss": 1.1798,
      "loss/crossentropy": 2.5145535469055176,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15635466575622559,
      "step": 1736
    },
    {
      "epoch": 0.025936986710467375,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.0009591261545817058,
      "learning_rate": 2e-05,
      "loss": 1.2788,
      "loss/crossentropy": 2.691556453704834,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.17723232507705688,
      "step": 1737
    },
    {
      "epoch": 0.025951918769598327,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.0012566725413004558,
      "learning_rate": 2e-05,
      "loss": 1.2817,
      "loss/crossentropy": 2.559390068054199,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.20356020331382751,
      "step": 1738
    },
    {
      "epoch": 0.025966850828729283,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0012490431467692058,
      "learning_rate": 2e-05,
      "loss": 1.2244,
      "loss/crossentropy": 2.600177526473999,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16185130178928375,
      "step": 1739
    },
    {
      "epoch": 0.025981782887860235,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0012255191802978515,
      "learning_rate": 2e-05,
      "loss": 1.2417,
      "loss/crossentropy": 2.7534642219543457,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17136284708976746,
      "step": 1740
    },
    {
      "epoch": 0.02599671494699119,
      "grad_norm": 0.6640625,
      "grad_norm_var": 0.0018142064412434895,
      "learning_rate": 2e-05,
      "loss": 1.5145,
      "loss/crossentropy": 2.1807971000671387,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2734375,
      "loss/idx": 13.0,
      "loss/logits": 0.2410614937543869,
      "step": 1741
    },
    {
      "epoch": 0.026011647006122143,
      "grad_norm": 0.79296875,
      "grad_norm_var": 0.005324045817057292,
      "learning_rate": 2e-05,
      "loss": 1.5923,
      "loss/crossentropy": 2.4337072372436523,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.3515625,
      "loss/idx": 13.0,
      "loss/logits": 0.24070346355438232,
      "step": 1742
    },
    {
      "epoch": 0.0260265790652531,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.005674235026041667,
      "learning_rate": 2e-05,
      "loss": 1.1684,
      "loss/crossentropy": 2.5552825927734375,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15277054905891418,
      "step": 1743
    },
    {
      "epoch": 0.02604151112438405,
      "grad_norm": 0.80859375,
      "grad_norm_var": 0.009122657775878906,
      "learning_rate": 2e-05,
      "loss": 1.5857,
      "loss/crossentropy": 2.7988672256469727,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 13.0,
      "loss/logits": 0.32007214426994324,
      "step": 1744
    },
    {
      "epoch": 0.026056443183515007,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.00937188466389974,
      "learning_rate": 2e-05,
      "loss": 1.1453,
      "loss/crossentropy": 2.5977418422698975,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.14532379806041718,
      "step": 1745
    },
    {
      "epoch": 0.02607137524264596,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.009338823954264323,
      "learning_rate": 2e-05,
      "loss": 1.2278,
      "loss/crossentropy": 2.459958076477051,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1731024980545044,
      "step": 1746
    },
    {
      "epoch": 0.026086307301776916,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.009067789713541666,
      "learning_rate": 2e-05,
      "loss": 1.257,
      "loss/crossentropy": 2.615450859069824,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17106476426124573,
      "step": 1747
    },
    {
      "epoch": 0.026101239360907868,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.008951250712076824,
      "learning_rate": 2e-05,
      "loss": 1.2121,
      "loss/crossentropy": 2.551990270614624,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1652519255876541,
      "step": 1748
    },
    {
      "epoch": 0.026116171420038824,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.008971913655598959,
      "learning_rate": 2e-05,
      "loss": 1.3636,
      "loss/crossentropy": 2.399773120880127,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.1839275360107422,
      "step": 1749
    },
    {
      "epoch": 0.026131103479169776,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.00939782460530599,
      "learning_rate": 2e-05,
      "loss": 1.1708,
      "loss/crossentropy": 2.5663254261016846,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.16302275657653809,
      "step": 1750
    },
    {
      "epoch": 0.026146035538300732,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.009150950113932292,
      "learning_rate": 2e-05,
      "loss": 1.3825,
      "loss/crossentropy": 2.4493865966796875,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.1950165033340454,
      "step": 1751
    },
    {
      "epoch": 0.026160967597431684,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.009160296122233073,
      "learning_rate": 2e-05,
      "loss": 1.3006,
      "loss/crossentropy": 2.4346399307250977,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1912744641304016,
      "step": 1752
    },
    {
      "epoch": 0.02617589965656264,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.00881646474202474,
      "learning_rate": 2e-05,
      "loss": 1.2118,
      "loss/crossentropy": 2.5589816570281982,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.15713083744049072,
      "step": 1753
    },
    {
      "epoch": 0.026190831715693592,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.008880360921223959,
      "learning_rate": 2e-05,
      "loss": 1.3028,
      "loss/crossentropy": 2.65625,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.19340017437934875,
      "step": 1754
    },
    {
      "epoch": 0.026205763774824548,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.008805084228515624,
      "learning_rate": 2e-05,
      "loss": 1.342,
      "loss/crossentropy": 2.6520872116088867,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.217010498046875,
      "step": 1755
    },
    {
      "epoch": 0.026220695833955504,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.00916131337483724,
      "learning_rate": 2e-05,
      "loss": 1.273,
      "loss/crossentropy": 2.5524790287017822,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.1870691478252411,
      "step": 1756
    },
    {
      "epoch": 0.026235627893086456,
      "grad_norm": 0.5,
      "grad_norm_var": 0.00909722646077474,
      "learning_rate": 2e-05,
      "loss": 1.2431,
      "loss/crossentropy": 2.7991576194763184,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.180614173412323,
      "step": 1757
    },
    {
      "epoch": 0.026250559952217412,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.005736287434895833,
      "learning_rate": 2e-05,
      "loss": 1.2284,
      "loss/crossentropy": 2.677903652191162,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1736885905265808,
      "step": 1758
    },
    {
      "epoch": 0.026265492011348365,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.00584100087483724,
      "learning_rate": 2e-05,
      "loss": 1.1874,
      "loss/crossentropy": 2.39847469329834,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15619158744812012,
      "step": 1759
    },
    {
      "epoch": 0.02628042407047932,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.0014566421508789063,
      "learning_rate": 2e-05,
      "loss": 1.2115,
      "loss/crossentropy": 2.773829936981201,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.172477588057518,
      "step": 1760
    },
    {
      "epoch": 0.026295356129610273,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0014035542805989583,
      "learning_rate": 2e-05,
      "loss": 1.2803,
      "loss/crossentropy": 2.3061296939849854,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1709517389535904,
      "step": 1761
    },
    {
      "epoch": 0.02631028818874123,
      "grad_norm": 0.4765625,
      "grad_norm_var": 0.0016171773274739583,
      "learning_rate": 2e-05,
      "loss": 1.1998,
      "loss/crossentropy": 2.6350574493408203,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16071206331253052,
      "step": 1762
    },
    {
      "epoch": 0.02632522024787218,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0013501326243082683,
      "learning_rate": 2e-05,
      "loss": 1.1946,
      "loss/crossentropy": 2.479978322982788,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.155495285987854,
      "step": 1763
    },
    {
      "epoch": 0.026340152307003137,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.001453081766764323,
      "learning_rate": 2e-05,
      "loss": 1.1679,
      "loss/crossentropy": 2.6815295219421387,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.14445266127586365,
      "step": 1764
    },
    {
      "epoch": 0.02635508436613409,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.0019759496053059896,
      "learning_rate": 2e-05,
      "loss": 1.2447,
      "loss/crossentropy": 2.6957926750183105,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17434380948543549,
      "step": 1765
    },
    {
      "epoch": 0.026370016425265045,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0018620808919270833,
      "learning_rate": 2e-05,
      "loss": 1.1802,
      "loss/crossentropy": 2.4276416301727295,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15674927830696106,
      "step": 1766
    },
    {
      "epoch": 0.026384948484395997,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0018325169881184896,
      "learning_rate": 2e-05,
      "loss": 1.2002,
      "loss/crossentropy": 2.8092257976531982,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1611369252204895,
      "step": 1767
    },
    {
      "epoch": 0.026399880543526953,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.001546478271484375,
      "learning_rate": 2e-05,
      "loss": 1.2647,
      "loss/crossentropy": 2.672966718673706,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17874416708946228,
      "step": 1768
    },
    {
      "epoch": 0.026414812602657906,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.001350847880045573,
      "learning_rate": 2e-05,
      "loss": 1.1984,
      "loss/crossentropy": 2.601475715637207,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.1749573051929474,
      "step": 1769
    },
    {
      "epoch": 0.02642974466178886,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0013125101725260417,
      "learning_rate": 2e-05,
      "loss": 1.3379,
      "loss/crossentropy": 2.344796895980835,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.2128661870956421,
      "step": 1770
    },
    {
      "epoch": 0.026444676720919814,
      "grad_norm": 0.4453125,
      "grad_norm_var": 0.0015319188435872395,
      "learning_rate": 2e-05,
      "loss": 1.1482,
      "loss/crossentropy": 2.720777750015259,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9921875,
      "loss/idx": 13.0,
      "loss/logits": 0.15602290630340576,
      "step": 1771
    },
    {
      "epoch": 0.02645960878005077,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.0015578587849934896,
      "learning_rate": 2e-05,
      "loss": 1.1621,
      "loss/crossentropy": 2.65152645111084,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.15432672202587128,
      "step": 1772
    },
    {
      "epoch": 0.026474540839181722,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0015505472819010416,
      "learning_rate": 2e-05,
      "loss": 1.2169,
      "loss/crossentropy": 2.48185133934021,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16998444497585297,
      "step": 1773
    },
    {
      "epoch": 0.026489472898312678,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0017400105794270833,
      "learning_rate": 2e-05,
      "loss": 1.1641,
      "loss/crossentropy": 2.5464279651641846,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.14069680869579315,
      "step": 1774
    },
    {
      "epoch": 0.02650440495744363,
      "grad_norm": 0.6484375,
      "grad_norm_var": 0.002738698323567708,
      "learning_rate": 2e-05,
      "loss": 1.3625,
      "loss/crossentropy": 2.5577807426452637,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.19061937928199768,
      "step": 1775
    },
    {
      "epoch": 0.026519337016574586,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.002746693293253581,
      "learning_rate": 2e-05,
      "loss": 1.1661,
      "loss/crossentropy": 2.5085034370422363,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15048107504844666,
      "step": 1776
    },
    {
      "epoch": 0.02653426907570554,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.002776066462198893,
      "learning_rate": 2e-05,
      "loss": 1.2534,
      "loss/crossentropy": 2.579402208328247,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.19094473123550415,
      "step": 1777
    },
    {
      "epoch": 0.026549201134836494,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0026140689849853517,
      "learning_rate": 2e-05,
      "loss": 1.1913,
      "loss/crossentropy": 2.696247100830078,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16005630791187286,
      "step": 1778
    },
    {
      "epoch": 0.026564133193967446,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0025721232096354166,
      "learning_rate": 2e-05,
      "loss": 1.1651,
      "loss/crossentropy": 2.7263166904449463,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1572725623846054,
      "step": 1779
    },
    {
      "epoch": 0.026579065253098402,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.002532196044921875,
      "learning_rate": 2e-05,
      "loss": 1.2075,
      "loss/crossentropy": 2.452711820602417,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16845420002937317,
      "step": 1780
    },
    {
      "epoch": 0.026593997312229358,
      "grad_norm": 0.46484375,
      "grad_norm_var": 0.002135467529296875,
      "learning_rate": 2e-05,
      "loss": 1.1348,
      "loss/crossentropy": 2.5930423736572266,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98046875,
      "loss/idx": 13.0,
      "loss/logits": 0.15436789393424988,
      "step": 1781
    },
    {
      "epoch": 0.02660892937136031,
      "grad_norm": 0.734375,
      "grad_norm_var": 0.00503997802734375,
      "learning_rate": 2e-05,
      "loss": 1.3972,
      "loss/crossentropy": 2.6180036067962646,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 13.0,
      "loss/logits": 0.2018566131591797,
      "step": 1782
    },
    {
      "epoch": 0.026623861430491266,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.00510400136311849,
      "learning_rate": 2e-05,
      "loss": 1.3258,
      "loss/crossentropy": 2.556471109390259,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.1930120587348938,
      "step": 1783
    },
    {
      "epoch": 0.02663879348962222,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.005189243952433268,
      "learning_rate": 2e-05,
      "loss": 1.2076,
      "loss/crossentropy": 2.686593532562256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16853547096252441,
      "step": 1784
    },
    {
      "epoch": 0.026653725548753174,
      "grad_norm": 0.46875,
      "grad_norm_var": 0.005427026748657226,
      "learning_rate": 2e-05,
      "loss": 1.2387,
      "loss/crossentropy": 2.6526505947113037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.18397173285484314,
      "step": 1785
    },
    {
      "epoch": 0.026668657607884127,
      "grad_norm": 0.640625,
      "grad_norm_var": 0.00618907610575358,
      "learning_rate": 2e-05,
      "loss": 1.3109,
      "loss/crossentropy": 2.4550328254699707,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.1859399974346161,
      "step": 1786
    },
    {
      "epoch": 0.026683589667015083,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.005641794204711914,
      "learning_rate": 2e-05,
      "loss": 1.341,
      "loss/crossentropy": 2.7371487617492676,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.21602407097816467,
      "step": 1787
    },
    {
      "epoch": 0.026698521726146035,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.006232309341430664,
      "learning_rate": 2e-05,
      "loss": 1.3813,
      "loss/crossentropy": 2.7988855838775635,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.2093946784734726,
      "step": 1788
    },
    {
      "epoch": 0.02671345378527699,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.006214761734008789,
      "learning_rate": 2e-05,
      "loss": 1.3025,
      "loss/crossentropy": 2.5311191082000732,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1931311935186386,
      "step": 1789
    },
    {
      "epoch": 0.026728385844407943,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.006357431411743164,
      "learning_rate": 2e-05,
      "loss": 1.2538,
      "loss/crossentropy": 2.6057794094085693,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.18352286517620087,
      "step": 1790
    },
    {
      "epoch": 0.0267433179035389,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.005703083674112956,
      "learning_rate": 2e-05,
      "loss": 1.1792,
      "loss/crossentropy": 2.5075063705444336,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1635546088218689,
      "step": 1791
    },
    {
      "epoch": 0.02675824996266985,
      "grad_norm": 0.625,
      "grad_norm_var": 0.005910746256510417,
      "learning_rate": 2e-05,
      "loss": 1.3609,
      "loss/crossentropy": 2.534444570541382,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.18119356036186218,
      "step": 1792
    },
    {
      "epoch": 0.026773182021800807,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.005826314290364583,
      "learning_rate": 2e-05,
      "loss": 1.2744,
      "loss/crossentropy": 2.717726230621338,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18060529232025146,
      "step": 1793
    },
    {
      "epoch": 0.02678811408093176,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.005828094482421875,
      "learning_rate": 2e-05,
      "loss": 1.3391,
      "loss/crossentropy": 2.476660966873169,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.1984376311302185,
      "step": 1794
    },
    {
      "epoch": 0.026803046140062715,
      "grad_norm": 0.5,
      "grad_norm_var": 0.005906105041503906,
      "learning_rate": 2e-05,
      "loss": 1.2207,
      "loss/crossentropy": 2.204763174057007,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16599825024604797,
      "step": 1795
    },
    {
      "epoch": 0.026817978199193668,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.005642048517862956,
      "learning_rate": 2e-05,
      "loss": 1.314,
      "loss/crossentropy": 2.2588131427764893,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18899735808372498,
      "step": 1796
    },
    {
      "epoch": 0.026832910258324624,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0050225416819254555,
      "learning_rate": 2e-05,
      "loss": 1.266,
      "loss/crossentropy": 2.7214598655700684,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1878923773765564,
      "step": 1797
    },
    {
      "epoch": 0.026847842317455576,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.0035912672678629558,
      "learning_rate": 2e-05,
      "loss": 1.4791,
      "loss/crossentropy": 2.7222535610198975,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 13.0,
      "loss/logits": 0.25250500440597534,
      "step": 1798
    },
    {
      "epoch": 0.026862774376586532,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0036637465159098308,
      "learning_rate": 2e-05,
      "loss": 1.2162,
      "loss/crossentropy": 2.938828468322754,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16931620240211487,
      "step": 1799
    },
    {
      "epoch": 0.026877706435717484,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.003389422098795573,
      "learning_rate": 2e-05,
      "loss": 1.2342,
      "loss/crossentropy": 2.7594287395477295,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16388383507728577,
      "step": 1800
    },
    {
      "epoch": 0.02689263849484844,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.002794329325358073,
      "learning_rate": 2e-05,
      "loss": 1.3562,
      "loss/crossentropy": 2.6729891300201416,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.2077617645263672,
      "step": 1801
    },
    {
      "epoch": 0.026907570553979392,
      "grad_norm": 0.462890625,
      "grad_norm_var": 0.003004058202107747,
      "learning_rate": 2e-05,
      "loss": 1.1714,
      "loss/crossentropy": 2.5881118774414062,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15578031539916992,
      "step": 1802
    },
    {
      "epoch": 0.026922502613110348,
      "grad_norm": 0.74609375,
      "grad_norm_var": 0.005292876561482748,
      "learning_rate": 2e-05,
      "loss": 1.3937,
      "loss/crossentropy": 2.675889253616333,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 13.0,
      "loss/logits": 0.19843614101409912,
      "step": 1803
    },
    {
      "epoch": 0.0269374346722413,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.004680617650349935,
      "learning_rate": 2e-05,
      "loss": 1.2514,
      "loss/crossentropy": 2.4744293689727783,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.18113207817077637,
      "step": 1804
    },
    {
      "epoch": 0.026952366731372256,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.004796330134073893,
      "learning_rate": 2e-05,
      "loss": 1.1718,
      "loss/crossentropy": 2.706061363220215,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1561264991760254,
      "step": 1805
    },
    {
      "epoch": 0.02696729879050321,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.004680617650349935,
      "learning_rate": 2e-05,
      "loss": 1.1883,
      "loss/crossentropy": 2.48380970954895,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15707790851593018,
      "step": 1806
    },
    {
      "epoch": 0.026982230849634165,
      "grad_norm": 0.6484375,
      "grad_norm_var": 0.005090570449829102,
      "learning_rate": 2e-05,
      "loss": 1.3034,
      "loss/crossentropy": 2.59531569480896,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.17839841544628143,
      "step": 1807
    },
    {
      "epoch": 0.02699716290876512,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.004940144220987956,
      "learning_rate": 2e-05,
      "loss": 1.2338,
      "loss/crossentropy": 2.7297565937042236,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1869654804468155,
      "step": 1808
    },
    {
      "epoch": 0.027012094967896073,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0049860477447509766,
      "learning_rate": 2e-05,
      "loss": 1.2296,
      "loss/crossentropy": 2.546668291091919,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16706717014312744,
      "step": 1809
    },
    {
      "epoch": 0.02702702702702703,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.00522001584370931,
      "learning_rate": 2e-05,
      "loss": 1.2034,
      "loss/crossentropy": 2.6435706615448,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.17213952541351318,
      "step": 1810
    },
    {
      "epoch": 0.02704195908615798,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.00505674680074056,
      "learning_rate": 2e-05,
      "loss": 1.2388,
      "loss/crossentropy": 2.6985273361206055,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17626091837882996,
      "step": 1811
    },
    {
      "epoch": 0.027056891145288937,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.005127700169881185,
      "learning_rate": 2e-05,
      "loss": 1.2427,
      "loss/crossentropy": 2.4755988121032715,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.18802842497825623,
      "step": 1812
    },
    {
      "epoch": 0.02707182320441989,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.005254220962524414,
      "learning_rate": 2e-05,
      "loss": 1.1422,
      "loss/crossentropy": 2.6311707496643066,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98828125,
      "loss/idx": 13.0,
      "loss/logits": 0.1539306342601776,
      "step": 1813
    },
    {
      "epoch": 0.027086755263550845,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.00458982785542806,
      "learning_rate": 2e-05,
      "loss": 1.2927,
      "loss/crossentropy": 2.8410966396331787,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.20679564774036407,
      "step": 1814
    },
    {
      "epoch": 0.027101687322681797,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.004760217666625976,
      "learning_rate": 2e-05,
      "loss": 1.2574,
      "loss/crossentropy": 2.6344683170318604,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.1714169979095459,
      "step": 1815
    },
    {
      "epoch": 0.027116619381812753,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0048394362131754555,
      "learning_rate": 2e-05,
      "loss": 1.2733,
      "loss/crossentropy": 2.4946045875549316,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.18738268315792084,
      "step": 1816
    },
    {
      "epoch": 0.027131551440943705,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.004808410008748373,
      "learning_rate": 2e-05,
      "loss": 1.1028,
      "loss/crossentropy": 2.759798526763916,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.94921875,
      "loss/idx": 13.0,
      "loss/logits": 0.15359053015708923,
      "step": 1817
    },
    {
      "epoch": 0.02714648350007466,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.004481951395670573,
      "learning_rate": 2e-05,
      "loss": 1.2177,
      "loss/crossentropy": 2.5690910816192627,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16301162540912628,
      "step": 1818
    },
    {
      "epoch": 0.027161415559205614,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.001544189453125,
      "learning_rate": 2e-05,
      "loss": 1.2606,
      "loss/crossentropy": 2.410215377807617,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.16685530543327332,
      "step": 1819
    },
    {
      "epoch": 0.02717634761833657,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.0016314188639322917,
      "learning_rate": 2e-05,
      "loss": 1.1857,
      "loss/crossentropy": 2.719848394393921,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15441551804542542,
      "step": 1820
    },
    {
      "epoch": 0.027191279677467522,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0016924540201822917,
      "learning_rate": 2e-05,
      "loss": 1.2924,
      "loss/crossentropy": 2.547701358795166,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.1986786127090454,
      "step": 1821
    },
    {
      "epoch": 0.027206211736598478,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0016997655232747395,
      "learning_rate": 2e-05,
      "loss": 1.2618,
      "loss/crossentropy": 2.6193835735321045,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17586740851402283,
      "step": 1822
    },
    {
      "epoch": 0.02722114379572943,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.0017618815104166667,
      "learning_rate": 2e-05,
      "loss": 1.2637,
      "loss/crossentropy": 2.512247323989868,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.1855495274066925,
      "step": 1823
    },
    {
      "epoch": 0.027236075854860386,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0017934163411458333,
      "learning_rate": 2e-05,
      "loss": 1.235,
      "loss/crossentropy": 2.514695167541504,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16470174491405487,
      "step": 1824
    },
    {
      "epoch": 0.027251007913991338,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.0018473307291666666,
      "learning_rate": 2e-05,
      "loss": 1.1994,
      "loss/crossentropy": 2.5031635761260986,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16035684943199158,
      "step": 1825
    },
    {
      "epoch": 0.027265939973122294,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0017501195271809897,
      "learning_rate": 2e-05,
      "loss": 1.1901,
      "loss/crossentropy": 2.6170687675476074,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1588709056377411,
      "step": 1826
    },
    {
      "epoch": 0.027280872032253246,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0017506917317708333,
      "learning_rate": 2e-05,
      "loss": 1.29,
      "loss/crossentropy": 2.467294216156006,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.18067091703414917,
      "step": 1827
    },
    {
      "epoch": 0.027295804091384202,
      "grad_norm": 0.48046875,
      "grad_norm_var": 0.0019121805826822916,
      "learning_rate": 2e-05,
      "loss": 1.1621,
      "loss/crossentropy": 2.658353805541992,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.16208136081695557,
      "step": 1828
    },
    {
      "epoch": 0.027310736150515155,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.0020151774088541666,
      "learning_rate": 2e-05,
      "loss": 1.1345,
      "loss/crossentropy": 2.707339286804199,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.984375,
      "loss/idx": 13.0,
      "loss/logits": 0.15014402568340302,
      "step": 1829
    },
    {
      "epoch": 0.02732566820964611,
      "grad_norm": 0.7578125,
      "grad_norm_var": 0.0052263895670572914,
      "learning_rate": 2e-05,
      "loss": 1.3429,
      "loss/crossentropy": 2.3926897048950195,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.17105039954185486,
      "step": 1830
    },
    {
      "epoch": 0.027340600268777063,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.0052836100260416664,
      "learning_rate": 2e-05,
      "loss": 1.389,
      "loss/crossentropy": 2.5021653175354004,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 13.0,
      "loss/logits": 0.18584418296813965,
      "step": 1831
    },
    {
      "epoch": 0.02735553232790802,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.005183664957682291,
      "learning_rate": 2e-05,
      "loss": 1.1209,
      "loss/crossentropy": 2.6762871742248535,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.97265625,
      "loss/idx": 13.0,
      "loss/logits": 0.14821532368659973,
      "step": 1832
    },
    {
      "epoch": 0.027370464387038974,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0051680882771809895,
      "learning_rate": 2e-05,
      "loss": 1.2086,
      "loss/crossentropy": 2.7123446464538574,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16171371936798096,
      "step": 1833
    },
    {
      "epoch": 0.027385396446169927,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.005060259501139323,
      "learning_rate": 2e-05,
      "loss": 1.2813,
      "loss/crossentropy": 2.3558154106140137,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1797207146883011,
      "step": 1834
    },
    {
      "epoch": 0.027400328505300883,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.005060259501139323,
      "learning_rate": 2e-05,
      "loss": 1.2775,
      "loss/crossentropy": 2.6045339107513428,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1759113073348999,
      "step": 1835
    },
    {
      "epoch": 0.027415260564431835,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0048476537068684895,
      "learning_rate": 2e-05,
      "loss": 1.0849,
      "loss/crossentropy": 2.608766794204712,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.94140625,
      "loss/idx": 13.0,
      "loss/logits": 0.14344725012779236,
      "step": 1836
    },
    {
      "epoch": 0.02743019262356279,
      "grad_norm": 0.4609375,
      "grad_norm_var": 0.005395253499348958,
      "learning_rate": 2e-05,
      "loss": 1.1483,
      "loss/crossentropy": 2.852187395095825,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9921875,
      "loss/idx": 13.0,
      "loss/logits": 0.1560676395893097,
      "step": 1837
    },
    {
      "epoch": 0.027445124682693743,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.005535888671875,
      "learning_rate": 2e-05,
      "loss": 1.3112,
      "loss/crossentropy": 2.568100690841675,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.17836827039718628,
      "step": 1838
    },
    {
      "epoch": 0.0274600567418247,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.004830360412597656,
      "learning_rate": 2e-05,
      "loss": 1.2512,
      "loss/crossentropy": 2.4580633640289307,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.18085670471191406,
      "step": 1839
    },
    {
      "epoch": 0.02747498880095565,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.004811350504557292,
      "learning_rate": 2e-05,
      "loss": 1.1555,
      "loss/crossentropy": 2.5179049968719482,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.13983239233493805,
      "step": 1840
    },
    {
      "epoch": 0.027489920860086607,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.004644775390625,
      "learning_rate": 2e-05,
      "loss": 1.2934,
      "loss/crossentropy": 2.557543992996216,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.19966451823711395,
      "step": 1841
    },
    {
      "epoch": 0.02750485291921756,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.004674720764160156,
      "learning_rate": 2e-05,
      "loss": 1.2074,
      "loss/crossentropy": 2.637477159500122,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16053849458694458,
      "step": 1842
    },
    {
      "epoch": 0.027519784978348515,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.004668617248535156,
      "learning_rate": 2e-05,
      "loss": 1.2512,
      "loss/crossentropy": 2.749081611633301,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.1809091717004776,
      "step": 1843
    },
    {
      "epoch": 0.027534717037479468,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.004447364807128906,
      "learning_rate": 2e-05,
      "loss": 1.2723,
      "loss/crossentropy": 2.6513166427612305,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.18633897602558136,
      "step": 1844
    },
    {
      "epoch": 0.027549649096610423,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.0042938232421875,
      "learning_rate": 2e-05,
      "loss": 1.2902,
      "loss/crossentropy": 2.4566802978515625,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.18077588081359863,
      "step": 1845
    },
    {
      "epoch": 0.027564581155741376,
      "grad_norm": 0.46484375,
      "grad_norm_var": 0.0021432876586914063,
      "learning_rate": 2e-05,
      "loss": 1.1489,
      "loss/crossentropy": 2.5728206634521484,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.99609375,
      "loss/idx": 13.0,
      "loss/logits": 0.15283794701099396,
      "step": 1846
    },
    {
      "epoch": 0.02757951321487233,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.002064005533854167,
      "learning_rate": 2e-05,
      "loss": 1.1915,
      "loss/crossentropy": 2.5025198459625244,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1602761149406433,
      "step": 1847
    },
    {
      "epoch": 0.027594445274003284,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.002295668919881185,
      "learning_rate": 2e-05,
      "loss": 1.154,
      "loss/crossentropy": 2.742009401321411,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.15398138761520386,
      "step": 1848
    },
    {
      "epoch": 0.02760937733313424,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.0024261315663655597,
      "learning_rate": 2e-05,
      "loss": 1.2092,
      "loss/crossentropy": 2.5691721439361572,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.17790091037750244,
      "step": 1849
    },
    {
      "epoch": 0.027624309392265192,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0023867289225260415,
      "learning_rate": 2e-05,
      "loss": 1.2136,
      "loss/crossentropy": 2.7507925033569336,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.1589614599943161,
      "step": 1850
    },
    {
      "epoch": 0.027639241451396148,
      "grad_norm": 0.482421875,
      "grad_norm_var": 0.002454360326131185,
      "learning_rate": 2e-05,
      "loss": 1.2141,
      "loss/crossentropy": 2.597674608230591,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.17499211430549622,
      "step": 1851
    },
    {
      "epoch": 0.0276541735105271,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.0027611891428629557,
      "learning_rate": 2e-05,
      "loss": 1.2882,
      "loss/crossentropy": 2.4266016483306885,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.18663495779037476,
      "step": 1852
    },
    {
      "epoch": 0.027669105569658056,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.002459446589152018,
      "learning_rate": 2e-05,
      "loss": 1.2623,
      "loss/crossentropy": 2.6035945415496826,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1607305407524109,
      "step": 1853
    },
    {
      "epoch": 0.02768403762878901,
      "grad_norm": 0.48828125,
      "grad_norm_var": 0.002240482966105143,
      "learning_rate": 2e-05,
      "loss": 1.2368,
      "loss/crossentropy": 2.7356526851654053,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17425121366977692,
      "step": 1854
    },
    {
      "epoch": 0.027698969687919964,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0022092024485270184,
      "learning_rate": 2e-05,
      "loss": 1.1971,
      "loss/crossentropy": 2.591665029525757,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16583198308944702,
      "step": 1855
    },
    {
      "epoch": 0.027713901747050917,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0023312727610270184,
      "learning_rate": 2e-05,
      "loss": 1.2682,
      "loss/crossentropy": 2.8954193592071533,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.1822158247232437,
      "step": 1856
    },
    {
      "epoch": 0.027728833806181873,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.002390400568644206,
      "learning_rate": 2e-05,
      "loss": 1.4086,
      "loss/crossentropy": 2.160271167755127,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1953125,
      "loss/idx": 13.0,
      "loss/logits": 0.21325430274009705,
      "step": 1857
    },
    {
      "epoch": 0.027743765865312825,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.002388620376586914,
      "learning_rate": 2e-05,
      "loss": 1.2161,
      "loss/crossentropy": 2.652884006500244,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16925424337387085,
      "step": 1858
    },
    {
      "epoch": 0.02775869792444378,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.002342081069946289,
      "learning_rate": 2e-05,
      "loss": 1.3669,
      "loss/crossentropy": 2.712960720062256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.19504106044769287,
      "step": 1859
    },
    {
      "epoch": 0.027773629983574737,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0020437717437744142,
      "learning_rate": 2e-05,
      "loss": 1.2549,
      "loss/crossentropy": 2.463047742843628,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.16891682147979736,
      "step": 1860
    },
    {
      "epoch": 0.02778856204270569,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.001413583755493164,
      "learning_rate": 2e-05,
      "loss": 1.1812,
      "loss/crossentropy": 2.5723025798797607,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.14994603395462036,
      "step": 1861
    },
    {
      "epoch": 0.027803494101836645,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.0012585798899332683,
      "learning_rate": 2e-05,
      "loss": 1.3497,
      "loss/crossentropy": 2.5939555168151855,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.20121702551841736,
      "step": 1862
    },
    {
      "epoch": 0.027818426160967597,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0012929121653238933,
      "learning_rate": 2e-05,
      "loss": 1.3497,
      "loss/crossentropy": 2.595493793487549,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.20122528076171875,
      "step": 1863
    },
    {
      "epoch": 0.027833358220098553,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.001122283935546875,
      "learning_rate": 2e-05,
      "loss": 1.2143,
      "loss/crossentropy": 2.7929248809814453,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.17519071698188782,
      "step": 1864
    },
    {
      "epoch": 0.027848290279229505,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0009592056274414062,
      "learning_rate": 2e-05,
      "loss": 1.2764,
      "loss/crossentropy": 2.555880069732666,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.17485883831977844,
      "step": 1865
    },
    {
      "epoch": 0.02786322233836046,
      "grad_norm": 0.4765625,
      "grad_norm_var": 0.001097853978474935,
      "learning_rate": 2e-05,
      "loss": 1.2594,
      "loss/crossentropy": 2.3144571781158447,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.18126043677330017,
      "step": 1866
    },
    {
      "epoch": 0.027878154397491414,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.001041412353515625,
      "learning_rate": 2e-05,
      "loss": 1.2723,
      "loss/crossentropy": 2.8717572689056396,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.17073537409305573,
      "step": 1867
    },
    {
      "epoch": 0.02789308645662237,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0008501688639322917,
      "learning_rate": 2e-05,
      "loss": 1.2706,
      "loss/crossentropy": 2.798926830291748,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.19248628616333008,
      "step": 1868
    },
    {
      "epoch": 0.02790801851575332,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0008625666300455729,
      "learning_rate": 2e-05,
      "loss": 1.1766,
      "loss/crossentropy": 2.5379748344421387,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.16097001731395721,
      "step": 1869
    },
    {
      "epoch": 0.027922950574884278,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0006692886352539062,
      "learning_rate": 2e-05,
      "loss": 1.2328,
      "loss/crossentropy": 2.607471227645874,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17812922596931458,
      "step": 1870
    },
    {
      "epoch": 0.02793788263401523,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.00068359375,
      "learning_rate": 2e-05,
      "loss": 1.233,
      "loss/crossentropy": 2.5563502311706543,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17826440930366516,
      "step": 1871
    },
    {
      "epoch": 0.027952814693146186,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.0010034561157226563,
      "learning_rate": 2e-05,
      "loss": 1.3474,
      "loss/crossentropy": 2.455146551132202,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 13.0,
      "loss/logits": 0.18337559700012207,
      "step": 1872
    },
    {
      "epoch": 0.027967746752277138,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.0011635939280192056,
      "learning_rate": 2e-05,
      "loss": 1.1542,
      "loss/crossentropy": 2.446068525314331,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.146395742893219,
      "step": 1873
    },
    {
      "epoch": 0.027982678811408094,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0011604150136311849,
      "learning_rate": 2e-05,
      "loss": 1.3081,
      "loss/crossentropy": 2.396256685256958,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.20653998851776123,
      "step": 1874
    },
    {
      "epoch": 0.027997610870539046,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.0011768182118733724,
      "learning_rate": 2e-05,
      "loss": 1.2419,
      "loss/crossentropy": 2.4543728828430176,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17160436511039734,
      "step": 1875
    },
    {
      "epoch": 0.028012542929670002,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.0011908054351806641,
      "learning_rate": 2e-05,
      "loss": 1.2603,
      "loss/crossentropy": 2.67966365814209,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1977955400943756,
      "step": 1876
    },
    {
      "epoch": 0.028027474988800954,
      "grad_norm": 0.6875,
      "grad_norm_var": 0.0023673852284749348,
      "learning_rate": 2e-05,
      "loss": 1.3841,
      "loss/crossentropy": 2.7667315006256104,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.21221590042114258,
      "step": 1877
    },
    {
      "epoch": 0.02804240704793191,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.0026430606842041014,
      "learning_rate": 2e-05,
      "loss": 1.1679,
      "loss/crossentropy": 2.534827470779419,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1522301733493805,
      "step": 1878
    },
    {
      "epoch": 0.028057339107062863,
      "grad_norm": 0.671875,
      "grad_norm_var": 0.0035009860992431642,
      "learning_rate": 2e-05,
      "loss": 1.426,
      "loss/crossentropy": 2.4057843685150146,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2109375,
      "loss/idx": 13.0,
      "loss/logits": 0.2150222361087799,
      "step": 1879
    },
    {
      "epoch": 0.02807227116619382,
      "grad_norm": 0.59765625,
      "grad_norm_var": 0.003426218032836914,
      "learning_rate": 2e-05,
      "loss": 1.347,
      "loss/crossentropy": 2.831153154373169,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.20638611912727356,
      "step": 1880
    },
    {
      "epoch": 0.02808720322532477,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0034708499908447264,
      "learning_rate": 2e-05,
      "loss": 1.308,
      "loss/crossentropy": 2.6058216094970703,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1986655741930008,
      "step": 1881
    },
    {
      "epoch": 0.028102135284455727,
      "grad_norm": 0.69921875,
      "grad_norm_var": 0.003934717178344727,
      "learning_rate": 2e-05,
      "loss": 1.3506,
      "loss/crossentropy": 2.816981315612793,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.20997676253318787,
      "step": 1882
    },
    {
      "epoch": 0.02811706734358668,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0039951165517171225,
      "learning_rate": 2e-05,
      "loss": 1.2804,
      "loss/crossentropy": 2.183166265487671,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.17098873853683472,
      "step": 1883
    },
    {
      "epoch": 0.028131999402717635,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.0039003849029541015,
      "learning_rate": 2e-05,
      "loss": 1.3684,
      "loss/crossentropy": 2.391815423965454,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.21994663774967194,
      "step": 1884
    },
    {
      "epoch": 0.028146931461848587,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.004031991958618164,
      "learning_rate": 2e-05,
      "loss": 1.1912,
      "loss/crossentropy": 2.4962005615234375,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1599755585193634,
      "step": 1885
    },
    {
      "epoch": 0.028161863520979543,
      "grad_norm": 0.5,
      "grad_norm_var": 0.0043625990549723305,
      "learning_rate": 2e-05,
      "loss": 1.2411,
      "loss/crossentropy": 2.674856662750244,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1785699725151062,
      "step": 1886
    },
    {
      "epoch": 0.0281767955801105,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.004513661066691081,
      "learning_rate": 2e-05,
      "loss": 1.3122,
      "loss/crossentropy": 2.5995376110076904,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.19502834975719452,
      "step": 1887
    },
    {
      "epoch": 0.02819172763924145,
      "grad_norm": 0.625,
      "grad_norm_var": 0.004541254043579102,
      "learning_rate": 2e-05,
      "loss": 1.3003,
      "loss/crossentropy": 2.6286256313323975,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.1830824315547943,
      "step": 1888
    },
    {
      "epoch": 0.028206659698372407,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.004270362854003906,
      "learning_rate": 2e-05,
      "loss": 1.2272,
      "loss/crossentropy": 2.5657100677490234,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17253029346466064,
      "step": 1889
    },
    {
      "epoch": 0.02822159175750336,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.0045017878214518225,
      "learning_rate": 2e-05,
      "loss": 1.2384,
      "loss/crossentropy": 2.6371774673461914,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.1681075394153595,
      "step": 1890
    },
    {
      "epoch": 0.028236523816634315,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.004872639973958333,
      "learning_rate": 2e-05,
      "loss": 1.2299,
      "loss/crossentropy": 2.384807825088501,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17519429326057434,
      "step": 1891
    },
    {
      "epoch": 0.028251455875765268,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.004972775777180989,
      "learning_rate": 2e-05,
      "loss": 1.2124,
      "loss/crossentropy": 2.781672954559326,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.17337191104888916,
      "step": 1892
    },
    {
      "epoch": 0.028266387934896223,
      "grad_norm": 0.4921875,
      "grad_norm_var": 0.004120826721191406,
      "learning_rate": 2e-05,
      "loss": 1.1777,
      "loss/crossentropy": 2.4862048625946045,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15426138043403625,
      "step": 1893
    },
    {
      "epoch": 0.028281319994027176,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.003922271728515625,
      "learning_rate": 2e-05,
      "loss": 1.2273,
      "loss/crossentropy": 2.573594808578491,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16478094458580017,
      "step": 1894
    },
    {
      "epoch": 0.02829625205315813,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.002988433837890625,
      "learning_rate": 2e-05,
      "loss": 1.2974,
      "loss/crossentropy": 2.44994854927063,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.2036007046699524,
      "step": 1895
    },
    {
      "epoch": 0.028311184112289084,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.0028187433878580728,
      "learning_rate": 2e-05,
      "loss": 1.291,
      "loss/crossentropy": 2.642103433609009,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.19725409150123596,
      "step": 1896
    },
    {
      "epoch": 0.02832611617142004,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0028350194295247394,
      "learning_rate": 2e-05,
      "loss": 1.2426,
      "loss/crossentropy": 2.4922900199890137,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17228657007217407,
      "step": 1897
    },
    {
      "epoch": 0.028341048230550992,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0011309305826822916,
      "learning_rate": 2e-05,
      "loss": 1.2007,
      "loss/crossentropy": 2.5027291774749756,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.15385723114013672,
      "step": 1898
    },
    {
      "epoch": 0.028355980289681948,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.0012407938639322916,
      "learning_rate": 2e-05,
      "loss": 1.1203,
      "loss/crossentropy": 2.66294527053833,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.97265625,
      "loss/idx": 13.0,
      "loss/logits": 0.14767876267433167,
      "step": 1899
    },
    {
      "epoch": 0.0283709123488129,
      "grad_norm": 0.474609375,
      "grad_norm_var": 0.0013604323069254557,
      "learning_rate": 2e-05,
      "loss": 1.1664,
      "loss/crossentropy": 2.5771396160125732,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1507551074028015,
      "step": 1900
    },
    {
      "epoch": 0.028385844407943856,
      "grad_norm": 0.62109375,
      "grad_norm_var": 0.001974598566691081,
      "learning_rate": 2e-05,
      "loss": 1.3821,
      "loss/crossentropy": 2.398294448852539,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 13.0,
      "loss/logits": 0.21805456280708313,
      "step": 1901
    },
    {
      "epoch": 0.02840077646707481,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.0023999373118082684,
      "learning_rate": 2e-05,
      "loss": 1.2681,
      "loss/crossentropy": 2.537140130996704,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17434020340442657,
      "step": 1902
    },
    {
      "epoch": 0.028415708526205764,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.0024349053700764975,
      "learning_rate": 2e-05,
      "loss": 1.2614,
      "loss/crossentropy": 2.519807815551758,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.17546257376670837,
      "step": 1903
    },
    {
      "epoch": 0.028430640585336717,
      "grad_norm": 0.474609375,
      "grad_norm_var": 0.0020934422810872395,
      "learning_rate": 2e-05,
      "loss": 1.2129,
      "loss/crossentropy": 2.592402696609497,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.17381396889686584,
      "step": 1904
    },
    {
      "epoch": 0.028445572644467673,
      "grad_norm": 0.6484375,
      "grad_norm_var": 0.003002421061197917,
      "learning_rate": 2e-05,
      "loss": 1.3098,
      "loss/crossentropy": 2.6101558208465576,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.18479961156845093,
      "step": 1905
    },
    {
      "epoch": 0.028460504703598625,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.0030665079752604167,
      "learning_rate": 2e-05,
      "loss": 1.1539,
      "loss/crossentropy": 2.396393060684204,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.14609143137931824,
      "step": 1906
    },
    {
      "epoch": 0.02847543676272958,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0030469258626302084,
      "learning_rate": 2e-05,
      "loss": 1.3732,
      "loss/crossentropy": 2.566880226135254,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.171875,
      "loss/idx": 13.0,
      "loss/logits": 0.20131400227546692,
      "step": 1907
    },
    {
      "epoch": 0.028490368821860533,
      "grad_norm": 0.9765625,
      "grad_norm_var": 0.014855448404947917,
      "learning_rate": 2e-05,
      "loss": 1.4376,
      "loss/crossentropy": 1.9921377897262573,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.265625,
      "loss/idx": 13.0,
      "loss/logits": 0.17201855778694153,
      "step": 1908
    },
    {
      "epoch": 0.02850530088099149,
      "grad_norm": 0.77734375,
      "grad_norm_var": 0.017041460673014323,
      "learning_rate": 2e-05,
      "loss": 1.592,
      "loss/crossentropy": 2.6982979774475098,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.328125,
      "loss/idx": 13.0,
      "loss/logits": 0.26390308141708374,
      "step": 1909
    },
    {
      "epoch": 0.02852023294012244,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.016958109537760415,
      "learning_rate": 2e-05,
      "loss": 1.224,
      "loss/crossentropy": 2.5811877250671387,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1615004688501358,
      "step": 1910
    },
    {
      "epoch": 0.028535164999253397,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.017076555887858072,
      "learning_rate": 2e-05,
      "loss": 1.3145,
      "loss/crossentropy": 2.500891923904419,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.1816907823085785,
      "step": 1911
    },
    {
      "epoch": 0.028550097058384353,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.016914812723795573,
      "learning_rate": 2e-05,
      "loss": 1.2898,
      "loss/crossentropy": 2.510209798812866,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.2116694152355194,
      "step": 1912
    },
    {
      "epoch": 0.028565029117515305,
      "grad_norm": 0.6640625,
      "grad_norm_var": 0.016965166727701823,
      "learning_rate": 2e-05,
      "loss": 1.2248,
      "loss/crossentropy": 2.9473345279693604,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.1623196303844452,
      "step": 1913
    },
    {
      "epoch": 0.02857996117664626,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.016442108154296874,
      "learning_rate": 2e-05,
      "loss": 1.3948,
      "loss/crossentropy": 2.6808791160583496,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.21510747075080872,
      "step": 1914
    },
    {
      "epoch": 0.028594893235777213,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.015509986877441406,
      "learning_rate": 2e-05,
      "loss": 1.3086,
      "loss/crossentropy": 2.472118616104126,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1328125,
      "loss/idx": 13.0,
      "loss/logits": 0.1758304238319397,
      "step": 1915
    },
    {
      "epoch": 0.02860982529490817,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.01429899533589681,
      "learning_rate": 2e-05,
      "loss": 1.2624,
      "loss/crossentropy": 2.7138822078704834,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.16082213819026947,
      "step": 1916
    },
    {
      "epoch": 0.02862475735403912,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.014512999852498373,
      "learning_rate": 2e-05,
      "loss": 1.2013,
      "loss/crossentropy": 2.4729011058807373,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1622874140739441,
      "step": 1917
    },
    {
      "epoch": 0.028639689413170077,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.015155649185180664,
      "learning_rate": 2e-05,
      "loss": 1.1805,
      "loss/crossentropy": 2.375136613845825,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1414240300655365,
      "step": 1918
    },
    {
      "epoch": 0.02865462147230103,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.015201807022094727,
      "learning_rate": 2e-05,
      "loss": 1.2548,
      "loss/crossentropy": 2.6161394119262695,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.16885605454444885,
      "step": 1919
    },
    {
      "epoch": 0.028669553531431986,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.014361000061035157,
      "learning_rate": 2e-05,
      "loss": 1.2967,
      "loss/crossentropy": 2.6225621700286865,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.19516368210315704,
      "step": 1920
    },
    {
      "epoch": 0.028684485590562938,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.014499855041503907,
      "learning_rate": 2e-05,
      "loss": 1.2501,
      "loss/crossentropy": 2.6922271251678467,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17982667684555054,
      "step": 1921
    },
    {
      "epoch": 0.028699417649693894,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.014583063125610352,
      "learning_rate": 2e-05,
      "loss": 1.2416,
      "loss/crossentropy": 2.497199535369873,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17905518412590027,
      "step": 1922
    },
    {
      "epoch": 0.028714349708824846,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.015211931864420573,
      "learning_rate": 2e-05,
      "loss": 1.2402,
      "loss/crossentropy": 2.8170697689056396,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16988661885261536,
      "step": 1923
    },
    {
      "epoch": 0.028729281767955802,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.004835955301920573,
      "learning_rate": 2e-05,
      "loss": 1.2604,
      "loss/crossentropy": 2.3041558265686035,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1588452011346817,
      "step": 1924
    },
    {
      "epoch": 0.028744213827086754,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.0017712910970052083,
      "learning_rate": 2e-05,
      "loss": 1.2265,
      "loss/crossentropy": 2.748405694961548,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.17180919647216797,
      "step": 1925
    },
    {
      "epoch": 0.02875914588621771,
      "grad_norm": 0.6640625,
      "grad_norm_var": 0.002479298909505208,
      "learning_rate": 2e-05,
      "loss": 1.3679,
      "loss/crossentropy": 2.416738510131836,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.18823902308940887,
      "step": 1926
    },
    {
      "epoch": 0.028774077945348663,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.002599016825358073,
      "learning_rate": 2e-05,
      "loss": 1.1838,
      "loss/crossentropy": 2.5889949798583984,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.16037039458751678,
      "step": 1927
    },
    {
      "epoch": 0.02878901000447962,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.002688026428222656,
      "learning_rate": 2e-05,
      "loss": 1.3251,
      "loss/crossentropy": 2.383061408996582,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.1844463050365448,
      "step": 1928
    },
    {
      "epoch": 0.02880394206361057,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0020441691080729167,
      "learning_rate": 2e-05,
      "loss": 1.1616,
      "loss/crossentropy": 2.659311532974243,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.153801828622818,
      "step": 1929
    },
    {
      "epoch": 0.028818874122741527,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.001999346415201823,
      "learning_rate": 2e-05,
      "loss": 1.204,
      "loss/crossentropy": 2.457728862762451,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1570843905210495,
      "step": 1930
    },
    {
      "epoch": 0.02883380618187248,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.001948992411295573,
      "learning_rate": 2e-05,
      "loss": 1.2224,
      "loss/crossentropy": 2.628582715988159,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.17548592388629913,
      "step": 1931
    },
    {
      "epoch": 0.028848738241003435,
      "grad_norm": 0.49609375,
      "grad_norm_var": 0.001842498779296875,
      "learning_rate": 2e-05,
      "loss": 1.179,
      "loss/crossentropy": 2.5765113830566406,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.1555609107017517,
      "step": 1932
    },
    {
      "epoch": 0.028863670300134387,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.0018182754516601562,
      "learning_rate": 2e-05,
      "loss": 1.2661,
      "loss/crossentropy": 2.8126022815704346,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.1801205724477768,
      "step": 1933
    },
    {
      "epoch": 0.028878602359265343,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.001781145731608073,
      "learning_rate": 2e-05,
      "loss": 1.2714,
      "loss/crossentropy": 2.6158759593963623,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0859375,
      "loss/idx": 13.0,
      "loss/logits": 0.18547698855400085,
      "step": 1934
    },
    {
      "epoch": 0.028893534418396295,
      "grad_norm": 0.625,
      "grad_norm_var": 0.0022846857706705728,
      "learning_rate": 2e-05,
      "loss": 1.3012,
      "loss/crossentropy": 2.6109371185302734,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.18406124413013458,
      "step": 1935
    },
    {
      "epoch": 0.02890846647752725,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.0023104349772135415,
      "learning_rate": 2e-05,
      "loss": 1.1956,
      "loss/crossentropy": 2.6355507373809814,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1643276810646057,
      "step": 1936
    },
    {
      "epoch": 0.028923398536658203,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.0023104349772135415,
      "learning_rate": 2e-05,
      "loss": 1.3375,
      "loss/crossentropy": 2.5399065017700195,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1484375,
      "loss/idx": 13.0,
      "loss/logits": 0.1890271008014679,
      "step": 1937
    },
    {
      "epoch": 0.02893833059578916,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.002161010106404622,
      "learning_rate": 2e-05,
      "loss": 1.2741,
      "loss/crossentropy": 2.486199378967285,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18031063675880432,
      "step": 1938
    },
    {
      "epoch": 0.028953262654920115,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.002210219701131185,
      "learning_rate": 2e-05,
      "loss": 1.2398,
      "loss/crossentropy": 2.4644899368286133,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.17728056013584137,
      "step": 1939
    },
    {
      "epoch": 0.028968194714051067,
      "grad_norm": 0.5,
      "grad_norm_var": 0.00220640500386556,
      "learning_rate": 2e-05,
      "loss": 1.1981,
      "loss/crossentropy": 2.615004301071167,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16684943437576294,
      "step": 1940
    },
    {
      "epoch": 0.028983126773182023,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0023116906483968097,
      "learning_rate": 2e-05,
      "loss": 1.322,
      "loss/crossentropy": 2.47305965423584,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.140625,
      "loss/idx": 13.0,
      "loss/logits": 0.181331604719162,
      "step": 1941
    },
    {
      "epoch": 0.028998058832312976,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.0011878808339436848,
      "learning_rate": 2e-05,
      "loss": 1.3178,
      "loss/crossentropy": 2.2365729808807373,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19283056259155273,
      "step": 1942
    },
    {
      "epoch": 0.02901299089144393,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.0012180169423421225,
      "learning_rate": 2e-05,
      "loss": 1.2095,
      "loss/crossentropy": 2.5759778022766113,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16261249780654907,
      "step": 1943
    },
    {
      "epoch": 0.029027922950574884,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.00123594601949056,
      "learning_rate": 2e-05,
      "loss": 1.2683,
      "loss/crossentropy": 2.4381752014160156,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17450745403766632,
      "step": 1944
    },
    {
      "epoch": 0.02904285500970584,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.0012232303619384766,
      "learning_rate": 2e-05,
      "loss": 1.2061,
      "loss/crossentropy": 2.6488664150238037,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.159229576587677,
      "step": 1945
    },
    {
      "epoch": 0.029057787068836792,
      "grad_norm": 0.8203125,
      "grad_norm_var": 0.006456232070922852,
      "learning_rate": 2e-05,
      "loss": 1.3904,
      "loss/crossentropy": 2.58434796333313,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.203125,
      "loss/idx": 13.0,
      "loss/logits": 0.18732021749019623,
      "step": 1946
    },
    {
      "epoch": 0.029072719127967748,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.006490945816040039,
      "learning_rate": 2e-05,
      "loss": 1.3589,
      "loss/crossentropy": 2.2552731037139893,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1796875,
      "loss/idx": 13.0,
      "loss/logits": 0.1792486011981964,
      "step": 1947
    },
    {
      "epoch": 0.0290876511870987,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.006305297215779622,
      "learning_rate": 2e-05,
      "loss": 1.207,
      "loss/crossentropy": 2.5927445888519287,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1679755449295044,
      "step": 1948
    },
    {
      "epoch": 0.029102583246229656,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.006291945775349935,
      "learning_rate": 2e-05,
      "loss": 1.244,
      "loss/crossentropy": 2.586740255355835,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.17367993295192719,
      "step": 1949
    },
    {
      "epoch": 0.02911751530536061,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.006332254409790039,
      "learning_rate": 2e-05,
      "loss": 1.1496,
      "loss/crossentropy": 2.475268840789795,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.14958719909191132,
      "step": 1950
    },
    {
      "epoch": 0.029132447364491564,
      "grad_norm": 0.484375,
      "grad_norm_var": 0.006311655044555664,
      "learning_rate": 2e-05,
      "loss": 1.1883,
      "loss/crossentropy": 2.3651411533355713,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.15700486302375793,
      "step": 1951
    },
    {
      "epoch": 0.029147379423622517,
      "grad_norm": 0.46484375,
      "grad_norm_var": 0.006743478775024414,
      "learning_rate": 2e-05,
      "loss": 1.2257,
      "loss/crossentropy": 2.7126286029815674,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16317632794380188,
      "step": 1952
    },
    {
      "epoch": 0.029162311482753472,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.006778446833292643,
      "learning_rate": 2e-05,
      "loss": 1.2039,
      "loss/crossentropy": 2.6610074043273926,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16480238735675812,
      "step": 1953
    },
    {
      "epoch": 0.029177243541884425,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.0067891279856363935,
      "learning_rate": 2e-05,
      "loss": 1.2575,
      "loss/crossentropy": 2.511665105819702,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.17938058078289032,
      "step": 1954
    },
    {
      "epoch": 0.02919217560101538,
      "grad_norm": 0.51953125,
      "grad_norm_var": 0.006641070048014323,
      "learning_rate": 2e-05,
      "loss": 1.1791,
      "loss/crossentropy": 2.600038528442383,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15568949282169342,
      "step": 1955
    },
    {
      "epoch": 0.029207107660146333,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.006540362040201823,
      "learning_rate": 2e-05,
      "loss": 1.2662,
      "loss/crossentropy": 2.5734775066375732,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17242102324962616,
      "step": 1956
    },
    {
      "epoch": 0.02922203971927729,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.006479326883951823,
      "learning_rate": 2e-05,
      "loss": 1.2526,
      "loss/crossentropy": 2.4726715087890625,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.078125,
      "loss/idx": 13.0,
      "loss/logits": 0.17450538277626038,
      "step": 1957
    },
    {
      "epoch": 0.02923697177840824,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.006453196207682292,
      "learning_rate": 2e-05,
      "loss": 1.2294,
      "loss/crossentropy": 2.485107898712158,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.1591225266456604,
      "step": 1958
    },
    {
      "epoch": 0.029251903837539197,
      "grad_norm": 0.453125,
      "grad_norm_var": 0.006901995340983073,
      "learning_rate": 2e-05,
      "loss": 1.1976,
      "loss/crossentropy": 2.5497329235076904,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16637209057807922,
      "step": 1959
    },
    {
      "epoch": 0.02926683589667015,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.0071015516916910805,
      "learning_rate": 2e-05,
      "loss": 1.1731,
      "loss/crossentropy": 2.803480625152588,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.015625,
      "loss/idx": 13.0,
      "loss/logits": 0.15749675035476685,
      "step": 1960
    },
    {
      "epoch": 0.029281767955801105,
      "grad_norm": 0.52734375,
      "grad_norm_var": 0.0070430596669514975,
      "learning_rate": 2e-05,
      "loss": 1.2392,
      "loss/crossentropy": 2.4313740730285645,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16886743903160095,
      "step": 1961
    },
    {
      "epoch": 0.029296700014932057,
      "grad_norm": 0.46875,
      "grad_norm_var": 0.00165861447652181,
      "learning_rate": 2e-05,
      "loss": 1.1526,
      "loss/crossentropy": 2.5858538150787354,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0,
      "loss/idx": 13.0,
      "loss/logits": 0.15264388918876648,
      "step": 1962
    },
    {
      "epoch": 0.029311632074063013,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.0013290246327718098,
      "learning_rate": 2e-05,
      "loss": 1.1973,
      "loss/crossentropy": 2.4390578269958496,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.16606196761131287,
      "step": 1963
    },
    {
      "epoch": 0.02932656413319397,
      "grad_norm": 0.9921875,
      "grad_norm_var": 0.015507364273071289,
      "learning_rate": 2e-05,
      "loss": 1.5494,
      "loss/crossentropy": 2.5813605785369873,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2578125,
      "loss/idx": 13.0,
      "loss/logits": 0.29163628816604614,
      "step": 1964
    },
    {
      "epoch": 0.02934149619232492,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.015497700373331705,
      "learning_rate": 2e-05,
      "loss": 1.2957,
      "loss/crossentropy": 2.640507221221924,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.20195528864860535,
      "step": 1965
    },
    {
      "epoch": 0.029356428251455877,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.015582529703776042,
      "learning_rate": 2e-05,
      "loss": 1.2077,
      "loss/crossentropy": 2.6269850730895996,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.16860657930374146,
      "step": 1966
    },
    {
      "epoch": 0.02937136031058683,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.015356699625651041,
      "learning_rate": 2e-05,
      "loss": 1.1539,
      "loss/crossentropy": 2.636483669281006,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0078125,
      "loss/idx": 13.0,
      "loss/logits": 0.14610238373279572,
      "step": 1967
    },
    {
      "epoch": 0.029386292369717786,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.015010515848795572,
      "learning_rate": 2e-05,
      "loss": 1.1888,
      "loss/crossentropy": 2.5731468200683594,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.1575092077255249,
      "step": 1968
    },
    {
      "epoch": 0.029401224428848738,
      "grad_norm": 0.447265625,
      "grad_norm_var": 0.015612141291300455,
      "learning_rate": 2e-05,
      "loss": 1.1274,
      "loss/crossentropy": 2.7225778102874756,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.9765625,
      "loss/idx": 13.0,
      "loss/logits": 0.15085333585739136,
      "step": 1969
    },
    {
      "epoch": 0.029416156487979694,
      "grad_norm": 0.53515625,
      "grad_norm_var": 0.015577300389607748,
      "learning_rate": 2e-05,
      "loss": 1.3017,
      "loss/crossentropy": 2.6382668018341064,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.18452683091163635,
      "step": 1970
    },
    {
      "epoch": 0.029431088547110646,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.01562498410542806,
      "learning_rate": 2e-05,
      "loss": 1.2374,
      "loss/crossentropy": 2.362830638885498,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16712644696235657,
      "step": 1971
    },
    {
      "epoch": 0.029446020606241602,
      "grad_norm": 0.490234375,
      "grad_norm_var": 0.015742937723795574,
      "learning_rate": 2e-05,
      "loss": 1.2171,
      "loss/crossentropy": 2.442208766937256,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0546875,
      "loss/idx": 13.0,
      "loss/logits": 0.16240856051445007,
      "step": 1972
    },
    {
      "epoch": 0.029460952665372554,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.015746498107910158,
      "learning_rate": 2e-05,
      "loss": 1.2984,
      "loss/crossentropy": 2.450517416000366,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.1889958381652832,
      "step": 1973
    },
    {
      "epoch": 0.02947588472450351,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.015863990783691405,
      "learning_rate": 2e-05,
      "loss": 1.2289,
      "loss/crossentropy": 2.8067851066589355,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.16644850373268127,
      "step": 1974
    },
    {
      "epoch": 0.029490816783634462,
      "grad_norm": 1.171875,
      "grad_norm_var": 0.03970534006754557,
      "learning_rate": 2e-05,
      "loss": 1.3591,
      "loss/crossentropy": 2.7080118656158447,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.23414579033851624,
      "step": 1975
    },
    {
      "epoch": 0.029505748842765418,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.0390010674794515,
      "learning_rate": 2e-05,
      "loss": 1.4244,
      "loss/crossentropy": 2.4435675144195557,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.21875,
      "loss/idx": 13.0,
      "loss/logits": 0.20565560460090637,
      "step": 1976
    },
    {
      "epoch": 0.02952068090189637,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.03878693580627442,
      "learning_rate": 2e-05,
      "loss": 1.3483,
      "loss/crossentropy": 2.673099994659424,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.15625,
      "loss/idx": 13.0,
      "loss/logits": 0.1920124590396881,
      "step": 1977
    },
    {
      "epoch": 0.029535612961027326,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.037878529230753584,
      "learning_rate": 2e-05,
      "loss": 1.2699,
      "loss/crossentropy": 2.5343728065490723,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.17618075013160706,
      "step": 1978
    },
    {
      "epoch": 0.02955054502015828,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.03806316057840983,
      "learning_rate": 2e-05,
      "loss": 1.2738,
      "loss/crossentropy": 2.402545690536499,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1015625,
      "loss/idx": 13.0,
      "loss/logits": 0.1722050905227661,
      "step": 1979
    },
    {
      "epoch": 0.029565477079289235,
      "grad_norm": 0.578125,
      "grad_norm_var": 0.0270174503326416,
      "learning_rate": 2e-05,
      "loss": 1.2149,
      "loss/crossentropy": 2.5633673667907715,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16800308227539062,
      "step": 1980
    },
    {
      "epoch": 0.029580409138420187,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.02697294553120931,
      "learning_rate": 2e-05,
      "loss": 1.4391,
      "loss/crossentropy": 2.921246290206909,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1875,
      "loss/idx": 13.0,
      "loss/logits": 0.251582533121109,
      "step": 1981
    },
    {
      "epoch": 0.029595341197551143,
      "grad_norm": 0.462890625,
      "grad_norm_var": 0.027420409520467124,
      "learning_rate": 2e-05,
      "loss": 1.1457,
      "loss/crossentropy": 2.622143507003784,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.99609375,
      "loss/idx": 13.0,
      "loss/logits": 0.14962665736675262,
      "step": 1982
    },
    {
      "epoch": 0.029610273256682095,
      "grad_norm": 0.494140625,
      "grad_norm_var": 0.02772210439046224,
      "learning_rate": 2e-05,
      "loss": 1.2095,
      "loss/crossentropy": 2.3120386600494385,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16262733936309814,
      "step": 1983
    },
    {
      "epoch": 0.02962520531581305,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.02745507558186849,
      "learning_rate": 2e-05,
      "loss": 1.2747,
      "loss/crossentropy": 2.4596571922302246,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.18092194199562073,
      "step": 1984
    },
    {
      "epoch": 0.029640137374944003,
      "grad_norm": 0.83984375,
      "grad_norm_var": 0.030378325780232748,
      "learning_rate": 2e-05,
      "loss": 1.2322,
      "loss/crossentropy": 2.4688382148742676,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0703125,
      "loss/idx": 13.0,
      "loss/logits": 0.16190896928310394,
      "step": 1985
    },
    {
      "epoch": 0.02965506943407496,
      "grad_norm": 0.5625,
      "grad_norm_var": 0.030188735326131186,
      "learning_rate": 2e-05,
      "loss": 1.4595,
      "loss/crossentropy": 2.3537650108337402,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.2265625,
      "loss/idx": 13.0,
      "loss/logits": 0.23292958736419678,
      "step": 1986
    },
    {
      "epoch": 0.02967000149320591,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.03009476661682129,
      "learning_rate": 2e-05,
      "loss": 1.2017,
      "loss/crossentropy": 2.5475752353668213,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1625993549823761,
      "step": 1987
    },
    {
      "epoch": 0.029684933552336867,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.02998197873433431,
      "learning_rate": 2e-05,
      "loss": 1.1774,
      "loss/crossentropy": 2.5423738956451416,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0234375,
      "loss/idx": 13.0,
      "loss/logits": 0.15400215983390808,
      "step": 1988
    },
    {
      "epoch": 0.02969986561146782,
      "grad_norm": 0.5859375,
      "grad_norm_var": 0.029648192723592124,
      "learning_rate": 2e-05,
      "loss": 1.3544,
      "loss/crossentropy": 2.679858446121216,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1640625,
      "loss/idx": 13.0,
      "loss/logits": 0.1902952790260315,
      "step": 1989
    },
    {
      "epoch": 0.029714797670598776,
      "grad_norm": 0.462890625,
      "grad_norm_var": 0.0309173583984375,
      "learning_rate": 2e-05,
      "loss": 1.1498,
      "loss/crossentropy": 2.4342339038848877,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.99609375,
      "loss/idx": 13.0,
      "loss/logits": 0.1536850929260254,
      "step": 1990
    },
    {
      "epoch": 0.02972972972972973,
      "grad_norm": 0.59375,
      "grad_norm_var": 0.007619222005208333,
      "learning_rate": 2e-05,
      "loss": 1.3155,
      "loss/crossentropy": 2.6562082767486572,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.125,
      "loss/idx": 13.0,
      "loss/logits": 0.19045662879943848,
      "step": 1991
    },
    {
      "epoch": 0.029744661788860684,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.007633209228515625,
      "learning_rate": 2e-05,
      "loss": 1.2124,
      "loss/crossentropy": 2.6417014598846436,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.046875,
      "loss/idx": 13.0,
      "loss/logits": 0.16551363468170166,
      "step": 1992
    },
    {
      "epoch": 0.02975959384799164,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.0080780029296875,
      "learning_rate": 2e-05,
      "loss": 1.2153,
      "loss/crossentropy": 2.5185062885284424,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.176223486661911,
      "step": 1993
    },
    {
      "epoch": 0.029774525907122592,
      "grad_norm": 0.65234375,
      "grad_norm_var": 0.008697509765625,
      "learning_rate": 2e-05,
      "loss": 1.2088,
      "loss/crossentropy": 2.354360818862915,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.03125,
      "loss/idx": 13.0,
      "loss/logits": 0.17753687500953674,
      "step": 1994
    },
    {
      "epoch": 0.029789457966253548,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.008675575256347656,
      "learning_rate": 2e-05,
      "loss": 1.29,
      "loss/crossentropy": 2.5912888050079346,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.1171875,
      "loss/idx": 13.0,
      "loss/logits": 0.17279267311096191,
      "step": 1995
    },
    {
      "epoch": 0.0298043900253845,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.008695411682128906,
      "learning_rate": 2e-05,
      "loss": 1.2898,
      "loss/crossentropy": 2.7931675910949707,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.09375,
      "loss/idx": 13.0,
      "loss/logits": 0.1960277259349823,
      "step": 1996
    },
    {
      "epoch": 0.029819322084515456,
      "grad_norm": 0.5234375,
      "grad_norm_var": 0.008549944559733073,
      "learning_rate": 2e-05,
      "loss": 1.2553,
      "loss/crossentropy": 2.6213860511779785,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0625,
      "loss/idx": 13.0,
      "loss/logits": 0.19277352094650269,
      "step": 1997
    },
    {
      "epoch": 0.02983425414364641,
      "grad_norm": 0.60546875,
      "grad_norm_var": 0.008144998550415039,
      "learning_rate": 2e-05,
      "loss": 1.3088,
      "loss/crossentropy": 2.811062812805176,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.109375,
      "loss/idx": 13.0,
      "loss/logits": 0.19940659403800964,
      "step": 1998
    },
    {
      "epoch": 0.029849186202777364,
      "grad_norm": 0.470703125,
      "grad_norm_var": 0.008384943008422852,
      "learning_rate": 2e-05,
      "loss": 1.1252,
      "loss/crossentropy": 2.78082013130188,
      "loss/dist_ce": 0.0,
      "loss/fcd": 0.98046875,
      "loss/idx": 13.0,
      "loss/logits": 0.1447007954120636,
      "step": 1999
    },
    {
      "epoch": 0.029864118261908316,
      "grad_norm": 0.462890625,
      "grad_norm_var": 0.008957926432291667,
      "learning_rate": 2e-05,
      "loss": 1.1896,
      "loss/crossentropy": 2.4754817485809326,
      "loss/dist_ce": 0.0,
      "loss/fcd": 1.0390625,
      "loss/idx": 13.0,
      "loss/logits": 0.1505032777786255,
      "step": 2000
    }
  ],
  "logging_steps": 1,
  "max_steps": 100000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 2000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": true,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.03506581880832e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}