umer07
/

fathom-mixtral

+[
+  {
+    "loss": 1.9181,
+    "grad_norm": 0.8695156574249268,
+    "learning_rate": 1.8e-05,
+    "entropy": 1.457271361351013,
+    "num_tokens": 223301.0,
+    "mean_token_accuracy": 0.5781058162450791,
+    "epoch": 0.016406890894175553,
+    "step": 10
+  },
+  {
+    "loss": 1.7798,
+    "grad_norm": 0.6769833564758301,
+    "learning_rate": 3.8e-05,
+    "entropy": 1.6721824526786804,
+    "num_tokens": 449106.0,
+    "mean_token_accuracy": 0.585400715470314,
+    "epoch": 0.03281378178835111,
+    "step": 20
+  },
+  {
+    "loss": 1.5073,
+    "grad_norm": 0.903017520904541,
+    "learning_rate": 5.8e-05,
+    "entropy": 1.568133682012558,
+    "num_tokens": 681766.0,
+    "mean_token_accuracy": 0.6311331987380981,
+    "epoch": 0.04922067268252666,
+    "step": 30
+  },
+  {
+    "loss": 1.1072,
+    "grad_norm": 0.4333101511001587,
+    "learning_rate": 7.800000000000001e-05,
+    "entropy": 1.0811064839363098,
+    "num_tokens": 919022.0,
+    "mean_token_accuracy": 0.7193854421377182,
+    "epoch": 0.06562756357670221,
+    "step": 40
+  },
+  {
+    "loss": 0.9973,
+    "grad_norm": 0.33554309606552124,
+    "learning_rate": 9.8e-05,
+    "entropy": 0.9973530560731888,
+    "num_tokens": 1148282.0,
+    "mean_token_accuracy": 0.7452630162239074,
+    "epoch": 0.08203445447087777,
+    "step": 50
+  },
+  {
+    "loss": 0.8928,
+    "grad_norm": 0.338527649641037,
+    "learning_rate": 9.993628283308581e-05,
+    "entropy": 0.8918034493923187,
+    "num_tokens": 1372211.0,
+    "mean_token_accuracy": 0.7673784762620925,
+    "epoch": 0.09844134536505332,
+    "step": 60
+  },
+  {
+    "loss": 0.8782,
+    "grad_norm": 0.32297801971435547,
+    "learning_rate": 9.971623444249021e-05,
+    "entropy": 0.8743007063865662,
+    "num_tokens": 1604226.0,
+    "mean_token_accuracy": 0.7686779618263244,
+    "epoch": 0.11484823625922888,
+    "step": 70
+  },
+  {
+    "loss": 0.8258,
+    "grad_norm": 0.33724743127822876,
+    "learning_rate": 9.933976038510333e-05,
+    "entropy": 0.8295134097337723,
+    "num_tokens": 1838081.0,
+    "mean_token_accuracy": 0.7803715646266938,
+    "epoch": 0.13125512715340443,
+    "step": 80
+  },
+  {
+    "loss": 0.7891,
+    "grad_norm": 0.3447152078151703,
+    "learning_rate": 9.88080451875917e-05,
+    "entropy": 0.788675120472908,
+    "num_tokens": 2071855.0,
+    "mean_token_accuracy": 0.7867679089307785,
+    "epoch": 0.14766201804757997,
+    "step": 90
+  },
+  {
+    "loss": 0.8272,
+    "grad_norm": 0.3010920286178589,
+    "learning_rate": 9.812276182268236e-05,
+    "entropy": 0.8329822063446045,
+    "num_tokens": 2299745.0,
+    "mean_token_accuracy": 0.7769433975219726,
+    "epoch": 0.16406890894175555,
+    "step": 100
+  },
+  {
+    "loss": 0.797,
+    "grad_norm": 0.3699570298194885,
+    "learning_rate": 9.728606644537178e-05,
+    "entropy": 0.8039814531803131,
+    "num_tokens": 2528567.0,
+    "mean_token_accuracy": 0.784355628490448,
+    "epoch": 0.1804757998359311,
+    "step": 110
+  },
+  {
+    "loss": 0.7743,
+    "grad_norm": 0.3595486581325531,
+    "learning_rate": 9.63005916088644e-05,
+    "entropy": 0.7768057614564896,
+    "num_tokens": 2751275.0,
+    "mean_token_accuracy": 0.7889596104621888,
+    "epoch": 0.19688269073010664,
+    "step": 120
+  },
+  {
+    "loss": 0.7735,
+    "grad_norm": 0.3556647002696991,
+    "learning_rate": 9.516943798158649e-05,
+    "entropy": 0.776089146733284,
+    "num_tokens": 2978023.0,
+    "mean_token_accuracy": 0.7897650897502899,
+    "epoch": 0.2132895816242822,
+    "step": 130
+  },
+  {
+    "loss": 0.7622,
+    "grad_norm": 0.3334764242172241,
+    "learning_rate": 9.389616459133597e-05,
+    "entropy": 0.7803491950035095,
+    "num_tokens": 3204517.0,
+    "mean_token_accuracy": 0.7920954555273056,
+    "epoch": 0.22969647251845776,
+    "step": 140
+  },
+  {
+    "loss": 0.7576,
+    "grad_norm": 0.4009985029697418,
+    "learning_rate": 9.248477762726437e-05,
+    "entropy": 0.7722930639982224,
+    "num_tokens": 3434323.0,
+    "mean_token_accuracy": 0.792155721783638,
+    "epoch": 0.2461033634126333,
+    "step": 150
+  },
+  {
+    "loss": 0.7741,
+    "grad_norm": 0.3408016264438629,
+    "learning_rate": 9.093971783492355e-05,
+    "entropy": 0.7827848076820374,
+    "num_tokens": 3661534.0,
+    "mean_token_accuracy": 0.7909984678030014,
+    "epoch": 0.26251025430680885,
+    "step": 160
+  },
+  {
+    "loss": 0.7409,
+    "grad_norm": 0.3399813175201416,
+    "learning_rate": 8.926584654403724e-05,
+    "entropy": 0.7509049952030182,
+    "num_tokens": 3890921.0,
+    "mean_token_accuracy": 0.7963089287281037,
+    "epoch": 0.27891714520098443,
+    "step": 170
+  },
+  {
+    "loss": 0.7478,
+    "grad_norm": 0.30348479747772217,
+    "learning_rate": 8.746843037295937e-05,
+    "entropy": 0.7562560260295867,
+    "num_tokens": 4119537.0,
+    "mean_token_accuracy": 0.794661870598793,
+    "epoch": 0.29532403609515995,
+    "step": 180
+  },
+  {
+    "loss": 0.737,
+    "grad_norm": 0.3403272330760956,
+    "learning_rate": 8.555312465794403e-05,
+    "entropy": 0.7475169450044632,
+    "num_tokens": 4357977.0,
+    "mean_token_accuracy": 0.796341797709465,
+    "epoch": 0.3117309269893355,
+    "step": 190
+  },
+  {
+    "loss": 0.7512,
+    "grad_norm": 0.3219321072101593,
+    "learning_rate": 8.352595565936554e-05,
+    "entropy": 0.7560538798570633,
+    "num_tokens": 4581046.0,
+    "mean_token_accuracy": 0.7952380329370499,
+    "epoch": 0.3281378178835111,
+    "step": 200
+  },
+  {
+    "loss": 0.7317,
+    "grad_norm": 0.3038958013057709,
+    "learning_rate": 8.139330160087374e-05,
+    "entropy": 0.7322431743144989,
+    "num_tokens": 4814227.0,
+    "mean_token_accuracy": 0.7974914610385895,
+    "epoch": 0.3445447087776866,
+    "step": 210
+  },
+  {
+    "loss": 0.7205,
+    "grad_norm": 0.32955309748649597,
+    "learning_rate": 7.916187260114263e-05,
+    "entropy": 0.7275226473808288,
+    "num_tokens": 5048157.0,
+    "mean_token_accuracy": 0.8014717370271682,
+    "epoch": 0.3609515996718622,
+    "step": 220
+  },
+  {
+    "loss": 0.7282,
+    "grad_norm": 0.4224933683872223,
+    "learning_rate": 7.68386895613546e-05,
+    "entropy": 0.7310106873512268,
+    "num_tokens": 5274071.0,
+    "mean_token_accuracy": 0.7992997527122497,
+    "epoch": 0.37735849056603776,
+    "step": 230
+  },
+  {
+    "loss": 0.6971,
+    "grad_norm": 0.33381229639053345,
+    "learning_rate": 7.443106207484776e-05,
+    "entropy": 0.6995288044214248,
+    "num_tokens": 5509360.0,
+    "mean_token_accuracy": 0.8060027480125427,
+    "epoch": 0.3937653814602133,
+    "step": 240
+  },
+  {
+    "loss": 0.711,
+    "grad_norm": 0.31851011514663696,
+    "learning_rate": 7.194656542843102e-05,
+    "entropy": 0.7142476379871369,
+    "num_tokens": 5738285.0,
+    "mean_token_accuracy": 0.8031993210315704,
+    "epoch": 0.41017227235438886,
+    "step": 250
+  },
+  {
+    "loss": 0.7237,
+    "grad_norm": 0.33157357573509216,
+    "learning_rate": 6.939301676772927e-05,
+    "entropy": 0.7256091266870499,
+    "num_tokens": 5962580.0,
+    "mean_token_accuracy": 0.8013624370098114,
+    "epoch": 0.4265791632485644,
+    "step": 260
+  },
+  {
+    "loss": 0.721,
+    "grad_norm": 0.3370811641216278,
+    "learning_rate": 6.677845050155107e-05,
+    "entropy": 0.7265744864940643,
+    "num_tokens": 6196094.0,
+    "mean_token_accuracy": 0.7991349190473557,
+    "epoch": 0.44298605414273995,
+    "step": 270
+  },
+  {
+    "loss": 0.6843,
+    "grad_norm": 0.38120874762535095,
+    "learning_rate": 6.411109302266616e-05,
+    "entropy": 0.6908316820859909,
+    "num_tokens": 6420601.0,
+    "mean_token_accuracy": 0.8087756901979446,
+    "epoch": 0.4593929450369155,
+    "step": 280
+  },
+  {
+    "loss": 0.7072,
+    "grad_norm": 0.38430851697921753,
+    "learning_rate": 6.139933682453036e-05,
+    "entropy": 0.7136244118213654,
+    "num_tokens": 6655119.0,
+    "mean_token_accuracy": 0.8047497570514679,
+    "epoch": 0.47579983593109104,
+    "step": 290
+  },
+  {
+    "loss": 0.7252,
+    "grad_norm": 0.3509667217731476,
+    "learning_rate": 5.8651714095396135e-05,
+    "entropy": 0.7334865719079972,
+    "num_tokens": 6876910.0,
+    "mean_token_accuracy": 0.799770200252533,
+    "epoch": 0.4922067268252666,
+    "step": 300
+  },
+  {
+    "loss": 0.6821,
+    "grad_norm": 0.3153151571750641,
+    "learning_rate": 5.587686987289189e-05,
+    "entropy": 0.6873683601617813,
+    "num_tokens": 7112299.0,
+    "mean_token_accuracy": 0.8088241666555405,
+    "epoch": 0.5086136177194421,
+    "step": 310
+  },
+  {
+    "loss": 0.7196,
+    "grad_norm": 0.34774187207221985,
+    "learning_rate": 5.3083534843535074e-05,
+    "entropy": 0.7214434593915939,
+    "num_tokens": 7346455.0,
+    "mean_token_accuracy": 0.8039845436811447,
+    "epoch": 0.5250205086136177,
+    "step": 320
+  },
+  {
+    "loss": 0.6638,
+    "grad_norm": 0.387768030166626,
+    "learning_rate": 5.028049787276249e-05,
+    "entropy": 0.6638175457715988,
+    "num_tokens": 7571791.0,
+    "mean_token_accuracy": 0.812444058060646,
+    "epoch": 0.5414273995077933,
+    "step": 330
+  },
+  {
+    "loss": 0.6766,
+    "grad_norm": 0.3517005741596222,
+    "learning_rate": 4.7476578351907954e-05,
+    "entropy": 0.6799941658973694,
+    "num_tokens": 7801695.0,
+    "mean_token_accuracy": 0.811230742931366,
+    "epoch": 0.5578342904019689,
+    "step": 340
+  },
+  {
+    "loss": 0.6779,
+    "grad_norm": 0.32577675580978394,
+    "learning_rate": 4.468059844913444e-05,
+    "entropy": 0.6814499109983444,
+    "num_tokens": 8039821.0,
+    "mean_token_accuracy": 0.8104382246732712,
+    "epoch": 0.5742411812961444,
+    "step": 350
+  },
+  {
+    "loss": 0.6539,
+    "grad_norm": 0.35933127999305725,
+    "learning_rate": 4.1901355351628945e-05,
+    "entropy": 0.6585495263338089,
+    "num_tokens": 8273149.0,
+    "mean_token_accuracy": 0.8166852772235871,
+    "epoch": 0.5906480721903199,
+    "step": 360
+  },
+  {
+    "loss": 0.6843,
+    "grad_norm": 0.31598055362701416,
+    "learning_rate": 3.914759358639719e-05,
+    "entropy": 0.6861207246780395,
+    "num_tokens": 8503164.0,
+    "mean_token_accuracy": 0.8086160510778427,
+    "epoch": 0.6070549630844955,
+    "step": 370
+  },
+  {
+    "loss": 0.7094,
+    "grad_norm": 0.3427006006240845,
+    "learning_rate": 3.642797750674629e-05,
+    "entropy": 0.7133786290884018,
+    "num_tokens": 8726435.0,
+    "mean_token_accuracy": 0.8027824640274048,
+    "epoch": 0.623461853978671,
+    "step": 380
+  },
+  {
+    "loss": 0.6877,
+    "grad_norm": 0.34877264499664307,
+    "learning_rate": 3.375106403102389e-05,
+    "entropy": 0.6881168276071549,
+    "num_tokens": 8954291.0,
+    "mean_token_accuracy": 0.8073496133089065,
+    "epoch": 0.6398687448728466,
+    "step": 390
+  },
+  {
+    "loss": 0.6835,
+    "grad_norm": 0.3225726783275604,
+    "learning_rate": 3.112527571938717e-05,
+    "entropy": 0.6862167656421662,
+    "num_tokens": 9177163.0,
+    "mean_token_accuracy": 0.8089945495128632,
+    "epoch": 0.6562756357670222,
+    "step": 400
+  },
+  {
+    "loss": 0.7008,
+    "grad_norm": 0.329756498336792,
+    "learning_rate": 2.8558874273312674e-05,
+    "entropy": 0.7071986079216004,
+    "num_tokens": 9404151.0,
+    "mean_token_accuracy": 0.8044474363327027,
+    "epoch": 0.6726825266611977,
+    "step": 410
+  },
+  {
+    "loss": 0.6947,
+    "grad_norm": 0.3715651035308838,
+    "learning_rate": 2.605993454122687e-05,
+    "entropy": 0.69432153403759,
+    "num_tokens": 9639400.0,
+    "mean_token_accuracy": 0.8064981371164321,
+    "epoch": 0.6890894175553732,
+    "step": 420
+  },
+  {
+    "loss": 0.7066,
+    "grad_norm": 0.3599180281162262,
+    "learning_rate": 2.3636319112045496e-05,
+    "entropy": 0.7111173301935196,
+    "num_tokens": 9867668.0,
+    "mean_token_accuracy": 0.8044642627239227,
+    "epoch": 0.7054963084495488,
+    "step": 430
+  },
+  {
+    "loss": 0.7259,
+    "grad_norm": 0.2912443280220032,
+    "learning_rate": 2.1295653576560163e-05,
+    "entropy": 0.7254415988922119,
+    "num_tokens": 10100826.0,
+    "mean_token_accuracy": 0.8003069430589675,
+    "epoch": 0.7219031993437244,
+    "step": 440
+  },
+  {
+    "loss": 0.6761,
+    "grad_norm": 0.30693626403808594,
+    "learning_rate": 1.9045302534508297e-05,
+    "entropy": 0.6833124309778214,
+    "num_tokens": 10332359.0,
+    "mean_token_accuracy": 0.8109049916267395,
+    "epoch": 0.7383100902379,
+    "step": 450
+  },
+  {
+    "loss": 0.736,
+    "grad_norm": 0.3155220150947571,
+    "learning_rate": 1.6892346422817946e-05,
+    "entropy": 0.736938726902008,
+    "num_tokens": 10563841.0,
+    "mean_token_accuracy": 0.7979681819677353,
+    "epoch": 0.7547169811320755,
+    "step": 460
+  },
+  {
+    "loss": 0.6945,
+    "grad_norm": 0.3748078942298889,
+    "learning_rate": 1.4843559237933473e-05,
+    "entropy": 0.7031238079071045,
+    "num_tokens": 10788876.0,
+    "mean_token_accuracy": 0.8057133972644805,
+    "epoch": 0.771123872026251,
+    "step": 470
+  },
+  {
+    "loss": 0.6776,
+    "grad_norm": 0.3635546565055847,
+    "learning_rate": 1.2905387222316822e-05,
+    "entropy": 0.6805126667022705,
+    "num_tokens": 11015156.0,
+    "mean_token_accuracy": 0.8101104766130447,
+    "epoch": 0.7875307629204266,
+    "step": 480
+  },
+  {
+    "loss": 0.676,
+    "grad_norm": 0.3111382722854614,
+    "learning_rate": 1.1083928582183711e-05,
+    "entropy": 0.6774959295988083,
+    "num_tokens": 11245860.0,
+    "mean_token_accuracy": 0.8107922226190567,
+    "epoch": 0.8039376538146021,
+    "step": 490
+  },
+  {
+    "loss": 0.6742,
+    "grad_norm": 0.32188844680786133,
+    "learning_rate": 9.384914300290748e-06,
+    "entropy": 0.6842435419559478,
+    "num_tokens": 11476241.0,
+    "mean_token_accuracy": 0.8111602008342743,
+    "epoch": 0.8203445447087777,
+    "step": 500
+  },
+  {
+    "loss": 0.6544,
+    "grad_norm": 0.36185422539711,
+    "learning_rate": 7.813690104143557e-06,
+    "entropy": 0.6514311820268631,
+    "num_tokens": 11708112.0,
+    "mean_token_accuracy": 0.8149820327758789,
+    "epoch": 0.8367514356029533,
+    "step": 510
+  },
+  {
+    "loss": 0.6765,
+    "grad_norm": 0.3183876574039459,
+    "learning_rate": 6.375199646360142e-06,
+    "entropy": 0.6856429934501648,
+    "num_tokens": 11939337.0,
+    "mean_token_accuracy": 0.8090052843093872,
+    "epoch": 0.8531583264971287,
+    "step": 520
+  },
+  {
+    "loss": 0.6761,
+    "grad_norm": 0.3287002742290497,
+    "learning_rate": 5.073968950110941e-06,
+    "entropy": 0.6834310472011567,
+    "num_tokens": 12174723.0,
+    "mean_token_accuracy": 0.8104397505521774,
+    "epoch": 0.8695652173913043,
+    "step": 530
+  },
+  {
+    "loss": 0.6751,
+    "grad_norm": 0.35229238867759705,
+    "learning_rate": 3.914092168575306e-06,
+    "entropy": 0.6824660181999207,
+    "num_tokens": 12398555.0,
+    "mean_token_accuracy": 0.8104325562715531,
+    "epoch": 0.8859721082854799,
+    "step": 540
+  },
+  {
+    "loss": 0.6834,
+    "grad_norm": 0.38912639021873474,
+    "learning_rate": 2.8992187032210518e-06,
+    "entropy": 0.682240468263626,
+    "num_tokens": 12624846.0,
+    "mean_token_accuracy": 0.8091065347194671,
+    "epoch": 0.9023789991796555,
+    "step": 550
+  },
+  {
+    "loss": 0.696,
+    "grad_norm": 0.306355744600296,
+    "learning_rate": 2.032541721437209e-06,
+    "entropy": 0.7058492481708527,
+    "num_tokens": 12859015.0,
+    "mean_token_accuracy": 0.8039765357971191,
+    "epoch": 0.918785890073831,
+    "step": 560
+  },
+  {
+    "loss": 0.6727,
+    "grad_norm": 0.38508960604667664,
+    "learning_rate": 1.3167881096480372e-06,
+    "entropy": 0.681548210978508,
+    "num_tokens": 13083551.0,
+    "mean_token_accuracy": 0.8100948423147202,
+    "epoch": 0.9351927809680065,
+    "step": 570
+  },
+  {
+    "loss": 0.7208,
+    "grad_norm": 0.33893731236457825,
+    "learning_rate": 7.542098935195918e-07,
+    "entropy": 0.7220237284898758,
+    "num_tokens": 13308857.0,
+    "mean_token_accuracy": 0.8005945891141891,
+    "epoch": 0.9515996718621821,
+    "step": 580
+  },
+  {
+    "loss": 0.6759,
+    "grad_norm": 0.3534739911556244,
+    "learning_rate": 3.465771522536854e-07,
+    "entropy": 0.6739370882511139,
+    "num_tokens": 13543857.0,
+    "mean_token_accuracy": 0.8097480118274689,
+    "epoch": 0.9680065627563577,
+    "step": 590
+  },
+  {
+    "loss": 0.6865,
+    "grad_norm": 0.3553875982761383,
+    "learning_rate": 9.517244926393609e-08,
+    "entropy": 0.6908959478139878,
+    "num_tokens": 13769574.0,
+    "mean_token_accuracy": 0.806584045290947,
+    "epoch": 0.9844134536505332,
+    "step": 600
+  },
+  {
+    "loss": 0.6525,
+    "grad_norm": 0.5078703761100769,
+    "learning_rate": 7.867967567354306e-10,
+    "entropy": 0.6598060852602908,
+    "num_tokens": 13978118.0,
+    "mean_token_accuracy": 0.8165042933664823,
+    "epoch": 1.0,
+    "step": 610
+  },
+  {
+    "train_runtime": 6449.4338,
+    "train_samples_per_second": 3.024,
+    "train_steps_per_second": 0.095,
+    "total_flos": 7.156995496917074e+18,
+    "train_loss": 0.7796625786140317,
+    "epoch": 1.0,
+    "step": 610
+  }
+]