4DThinker-3B / 4drl /trainer_state.json

Upload 4DThinker-3B config and tokenizer files

3a7d274 verified 5 days ago

39.6 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.043591979075850044,
	"eval_steps": 500,
	"global_step": 100,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 6066.5546875,
	"epoch": 0.00043591979075850045,
	"grad_norm": 22.7120361328125,
	"learning_rate": 9.995640802092413e-07,
	"loss": -0.00010610813114908524,
	"reward": 0.16562499850988388,
	"reward_std": 0.2048395685851574,
	"rewards/accuracy_reward": 0.1171875,
	"rewards/format_reward": 0.2421875,
	"step": 1
	},
	{
	"completion_length": 5022.6015625,
	"epoch": 0.0008718395815170009,
	"grad_norm": 35.190757751464844,
	"learning_rate": 9.99128160418483e-07,
	"loss": -0.0003467285423539579,
	"reward": 0.24531249701976776,
	"reward_std": 0.13261918351054192,
	"rewards/accuracy_reward": 0.171875,
	"rewards/format_reward": 0.3671875,
	"step": 2
	},
	{
	"completion_length": 5074.4765625,
	"epoch": 0.0013077593722755014,
	"grad_norm": 36.27347946166992,
	"learning_rate": 9.986922406277246e-07,
	"loss": -0.0009319710079580545,
	"reward": 0.31718750298023224,
	"reward_std": 0.15016943216323853,
	"rewards/accuracy_reward": 0.2578125,
	"rewards/format_reward": 0.296875,
	"step": 3
	},
	{
	"completion_length": 4919.9921875,
	"epoch": 0.0017436791630340018,
	"grad_norm": 23.1031494140625,
	"learning_rate": 9.98256320836966e-07,
	"loss": -0.0011635422706604004,
	"reward": 0.2515625134110451,
	"reward_std": 0.22550153732299805,
	"rewards/accuracy_reward": 0.1796875,
	"rewards/format_reward": 0.359375,
	"step": 4
	},
	{
	"completion_length": 4392.3203125,
	"epoch": 0.002179598953792502,
	"grad_norm": 18.30356788635254,
	"learning_rate": 9.978204010462075e-07,
	"loss": -0.001725408248603344,
	"reward": 0.3500000089406967,
	"reward_std": 0.2601192742586136,
	"rewards/accuracy_reward": 0.2734375,
	"rewards/format_reward": 0.3828125,
	"step": 5
	},
	{
	"completion_length": 5603.28125,
	"epoch": 0.0026155187445510027,
	"grad_norm": 21.6483154296875,
	"learning_rate": 9.97384481255449e-07,
	"loss": -0.004177422029897571,
	"reward": 0.07500000298023224,
	"reward_std": 0.14329775422811508,
	"rewards/accuracy_reward": 0.0390625,
	"rewards/format_reward": 0.1796875,
	"step": 6
	},
	{
	"completion_length": 3968.328125,
	"epoch": 0.003051438535309503,
	"grad_norm": 21.388357162475586,
	"learning_rate": 9.969485614646903e-07,
	"loss": -0.002357690129429102,
	"reward": 0.2109375149011612,
	"reward_std": 0.19895199686288834,
	"rewards/accuracy_reward": 0.1328125,
	"rewards/format_reward": 0.390625,
	"step": 7
	},
	{
	"completion_length": 4283.15625,
	"epoch": 0.0034873583260680036,
	"grad_norm": 17.606998443603516,
	"learning_rate": 9.96512641673932e-07,
	"loss": -0.0032072272151708603,
	"reward": 0.3046875149011612,
	"reward_std": 0.3027474880218506,
	"rewards/accuracy_reward": 0.234375,
	"rewards/format_reward": 0.3515625,
	"step": 8
	},
	{
	"completion_length": 2647.453125,
	"epoch": 0.003923278116826504,
	"grad_norm": 7.005691051483154,
	"learning_rate": 9.960767218831735e-07,
	"loss": -0.0025840166490525007,
	"reward": 0.33125001937150955,
	"reward_std": 0.270910307765007,
	"rewards/accuracy_reward": 0.234375,
	"rewards/format_reward": 0.484375,
	"step": 9
	},
	{
	"completion_length": 2621.7734375,
	"epoch": 0.004359197907585004,
	"grad_norm": 32.332698822021484,
	"learning_rate": 9.95640802092415e-07,
	"loss": -0.0029894779436290264,
	"reward": 0.29843752086162567,
	"reward_std": 0.21532631665468216,
	"rewards/accuracy_reward": 0.1640625,
	"rewards/format_reward": 0.671875,
	"step": 10
	},
	{
	"completion_length": 2444.78125,
	"epoch": 0.004795117698343505,
	"grad_norm": 15.55601692199707,
	"learning_rate": 9.952048823016565e-07,
	"loss": -0.003852886729873717,
	"reward": 0.24062500894069672,
	"reward_std": 0.2612670660018921,
	"rewards/accuracy_reward": 0.1484375,
	"rewards/format_reward": 0.4609375,
	"step": 11
	},
	{
	"completion_length": 2593.9140625,
	"epoch": 0.0052310374891020054,
	"grad_norm": 29.252334594726562,
	"learning_rate": 9.94768962510898e-07,
	"loss": -0.0042398301884531975,
	"reward": 0.48750001192092896,
	"reward_std": 0.3399874120950699,
	"rewards/accuracy_reward": 0.3515625,
	"rewards/format_reward": 0.6796875,
	"step": 12
	},
	{
	"completion_length": 2220.7109375,
	"epoch": 0.005666957279860506,
	"grad_norm": 13.38364028930664,
	"learning_rate": 9.943330427201393e-07,
	"loss": -0.0033426693407818675,
	"reward": 0.3125000149011612,
	"reward_std": 0.19083451479673386,
	"rewards/accuracy_reward": 0.171875,
	"rewards/format_reward": 0.703125,
	"step": 13
	},
	{
	"completion_length": 2529.640625,
	"epoch": 0.006102877070619006,
	"grad_norm": 17.974361419677734,
	"learning_rate": 9.93897122929381e-07,
	"loss": -0.004656808450818062,
	"reward": 0.3500000089406967,
	"reward_std": 0.36670154333114624,
	"rewards/accuracy_reward": 0.234375,
	"rewards/format_reward": 0.578125,
	"step": 14
	},
	{
	"completion_length": 2840.5625,
	"epoch": 0.006538796861377506,
	"grad_norm": 11.839619636535645,
	"learning_rate": 9.934612031386225e-07,
	"loss": -0.005619838368147612,
	"reward": 0.29218751937150955,
	"reward_std": 0.11481105536222458,
	"rewards/accuracy_reward": 0.1640625,
	"rewards/format_reward": 0.640625,
	"step": 15
	},
	{
	"completion_length": 3081.2421875,
	"epoch": 0.006974716652136007,
	"grad_norm": 8.316078186035156,
	"learning_rate": 9.93025283347864e-07,
	"loss": -0.00666549289599061,
	"reward": 0.42500003427267075,
	"reward_std": 0.30427779257297516,
	"rewards/accuracy_reward": 0.2890625,
	"rewards/format_reward": 0.6796875,
	"step": 16
	},
	{
	"completion_length": 2150.2734375,
	"epoch": 0.0074106364428945075,
	"grad_norm": 15.924665451049805,
	"learning_rate": 9.925893635571055e-07,
	"loss": -0.006602097302675247,
	"reward": 0.43906252086162567,
	"reward_std": 0.35585278272628784,
	"rewards/accuracy_reward": 0.2890625,
	"rewards/format_reward": 0.75,
	"step": 17
	},
	{
	"completion_length": 1136.3359375,
	"epoch": 0.007846556233653008,
	"grad_norm": 3.312643527984619,
	"learning_rate": 9.92153443766347e-07,
	"loss": -0.00424616876989603,
	"reward": 0.484375,
	"reward_std": 0.2594892159104347,
	"rewards/accuracy_reward": 0.3125,
	"rewards/format_reward": 0.859375,
	"step": 18
	},
	{
	"completion_length": 1163.0703125,
	"epoch": 0.008282476024411508,
	"grad_norm": 4.4617600440979,
	"learning_rate": 9.917175239755885e-07,
	"loss": -0.0060931057669222355,
	"reward": 0.6203125715255737,
	"reward_std": 0.3268684893846512,
	"rewards/accuracy_reward": 0.4375,
	"rewards/format_reward": 0.9140625,
	"step": 19
	},
	{
	"completion_length": 1688.5078125,
	"epoch": 0.008718395815170008,
	"grad_norm": 5.8775506019592285,
	"learning_rate": 9.9128160418483e-07,
	"loss": -0.009722861228510737,
	"reward": 0.38593751192092896,
	"reward_std": 0.21004340052604675,
	"rewards/accuracy_reward": 0.21875,
	"rewards/format_reward": 0.8359375,
	"step": 20
	},
	{
	"completion_length": 1012.625,
	"epoch": 0.009154315605928508,
	"grad_norm": 4.331947326660156,
	"learning_rate": 9.908456843940715e-07,
	"loss": -0.005864025559276342,
	"reward": 0.550000011920929,
	"reward_std": 0.336714543402195,
	"rewards/accuracy_reward": 0.359375,
	"rewards/format_reward": 0.953125,
	"step": 21
	},
	{
	"completion_length": 1052.0234375,
	"epoch": 0.00959023539668701,
	"grad_norm": 7.702275276184082,
	"learning_rate": 9.90409764603313e-07,
	"loss": -0.0061883407179266214,
	"reward": 0.5375000536441803,
	"reward_std": 0.19406893104314804,
	"rewards/accuracy_reward": 0.3515625,
	"rewards/format_reward": 0.9296875,
	"step": 22
	},
	{
	"completion_length": 585.890625,
	"epoch": 0.01002615518744551,
	"grad_norm": 2.693312883377075,
	"learning_rate": 9.899738448125545e-07,
	"loss": -0.0050068587297573686,
	"reward": 0.4500000476837158,
	"reward_std": 0.22148218750953674,
	"rewards/accuracy_reward": 0.25,
	"rewards/format_reward": 1.0,
	"step": 23
	},
	{
	"completion_length": 952.8984375,
	"epoch": 0.010462074978204011,
	"grad_norm": 2.040409564971924,
	"learning_rate": 9.89537925021796e-07,
	"loss": -0.008675348944962025,
	"reward": 0.4531250298023224,
	"reward_std": 0.2833295091986656,
	"rewards/accuracy_reward": 0.2578125,
	"rewards/format_reward": 0.9765625,
	"step": 24
	},
	{
	"completion_length": 855.203125,
	"epoch": 0.010897994768962511,
	"grad_norm": 1.750288486480713,
	"learning_rate": 9.891020052310375e-07,
	"loss": -0.006478779250755906,
	"reward": 0.5281250476837158,
	"reward_std": 0.2747085839509964,
	"rewards/accuracy_reward": 0.3359375,
	"rewards/format_reward": 0.9609375,
	"step": 25
	},
	{
	"completion_length": 622.625,
	"epoch": 0.011333914559721011,
	"grad_norm": 1.3210248947143555,
	"learning_rate": 9.88666085440279e-07,
	"loss": -0.006179739721119404,
	"reward": 0.5562500357627869,
	"reward_std": 0.2532925382256508,
	"rewards/accuracy_reward": 0.359375,
	"rewards/format_reward": 0.984375,
	"step": 26
	},
	{
	"completion_length": 609.3984375,
	"epoch": 0.011769834350479512,
	"grad_norm": 3.869396448135376,
	"learning_rate": 9.882301656495205e-07,
	"loss": -0.0062519978964701295,
	"reward": 0.5000000298023224,
	"reward_std": 0.14424315840005875,
	"rewards/accuracy_reward": 0.3046875,
	"rewards/format_reward": 0.9765625,
	"step": 27
	},
	{
	"completion_length": 547.375,
	"epoch": 0.012205754141238012,
	"grad_norm": 1.0941433906555176,
	"learning_rate": 9.877942458587619e-07,
	"loss": -0.0032227920601144433,
	"reward": 0.5484375357627869,
	"reward_std": 0.21108780801296234,
	"rewards/accuracy_reward": 0.3515625,
	"rewards/format_reward": 0.984375,
	"step": 28
	},
	{
	"completion_length": 566.8515625,
	"epoch": 0.012641673931996512,
	"grad_norm": 1.1244480609893799,
	"learning_rate": 9.873583260680035e-07,
	"loss": -0.005511581432074308,
	"reward": 0.5296875238418579,
	"reward_std": 0.25184717029333115,
	"rewards/accuracy_reward": 0.3359375,
	"rewards/format_reward": 0.96875,
	"step": 29
	},
	{
	"completion_length": 629.2109375,
	"epoch": 0.013077593722755012,
	"grad_norm": 1.0730060338974,
	"learning_rate": 9.869224062772449e-07,
	"loss": -0.00590163329616189,
	"reward": 0.5437500476837158,
	"reward_std": 0.30221718549728394,
	"rewards/accuracy_reward": 0.34375,
	"rewards/format_reward": 1.0,
	"step": 30
	},
	{
	"completion_length": 577.2890625,
	"epoch": 0.013513513513513514,
	"grad_norm": 1.0006390810012817,
	"learning_rate": 9.864864864864865e-07,
	"loss": -0.004602149594575167,
	"reward": 0.48906251788139343,
	"reward_std": 0.2546490430831909,
	"rewards/accuracy_reward": 0.296875,
	"rewards/format_reward": 0.9609375,
	"step": 31
	},
	{
	"completion_length": 652.453125,
	"epoch": 0.013949433304272014,
	"grad_norm": 2.0136349201202393,
	"learning_rate": 9.860505666957279e-07,
	"loss": -0.007033544359728694,
	"reward": 0.6000000536441803,
	"reward_std": 0.34614098072052,
	"rewards/accuracy_reward": 0.40625,
	"rewards/format_reward": 0.96875,
	"step": 32
	},
	{
	"completion_length": 830.296875,
	"epoch": 0.014385353095030515,
	"grad_norm": 0.6222465634346008,
	"learning_rate": 9.856146469049695e-07,
	"loss": -0.0058622711803764105,
	"reward": 0.6406250596046448,
	"reward_std": 0.26844407618045807,
	"rewards/accuracy_reward": 0.4453125,
	"rewards/format_reward": 0.9765625,
	"step": 33
	},
	{
	"completion_length": 924.8984375,
	"epoch": 0.014821272885789015,
	"grad_norm": 1.6224457025527954,
	"learning_rate": 9.851787271142109e-07,
	"loss": -0.006918259430676699,
	"reward": 0.45781250298023224,
	"reward_std": 0.1292574293911457,
	"rewards/accuracy_reward": 0.265625,
	"rewards/format_reward": 0.9609375,
	"step": 34
	},
	{
	"completion_length": 757.8828125,
	"epoch": 0.015257192676547515,
	"grad_norm": 0.8691195249557495,
	"learning_rate": 9.847428073234525e-07,
	"loss": -0.005784029606729746,
	"reward": 0.45468753576278687,
	"reward_std": 0.20147473365068436,
	"rewards/accuracy_reward": 0.2578125,
	"rewards/format_reward": 0.984375,
	"step": 35
	},
	{
	"completion_length": 1539.546875,
	"epoch": 0.015693112467306015,
	"grad_norm": 4.3893961906433105,
	"learning_rate": 9.843068875326939e-07,
	"loss": -0.010595182422548532,
	"reward": 0.4765625298023224,
	"reward_std": 0.2606821805238724,
	"rewards/accuracy_reward": 0.296875,
	"rewards/format_reward": 0.8984375,
	"step": 36
	},
	{
	"completion_length": 949.203125,
	"epoch": 0.016129032258064516,
	"grad_norm": 1.039124608039856,
	"learning_rate": 9.838709677419355e-07,
	"loss": -0.005853116046637297,
	"reward": 0.6062500476837158,
	"reward_std": 0.34973812103271484,
	"rewards/accuracy_reward": 0.4140625,
	"rewards/format_reward": 0.9609375,
	"step": 37
	},
	{
	"completion_length": 1128.515625,
	"epoch": 0.016564952048823016,
	"grad_norm": 2.9782750606536865,
	"learning_rate": 9.834350479511769e-07,
	"loss": -0.00639305729418993,
	"reward": 0.3796875327825546,
	"reward_std": 0.2201501727104187,
	"rewards/accuracy_reward": 0.1953125,
	"rewards/format_reward": 0.921875,
	"step": 38
	},
	{
	"completion_length": 803.09375,
	"epoch": 0.017000871839581516,
	"grad_norm": 0.9739387035369873,
	"learning_rate": 9.829991281604185e-07,
	"loss": -0.003955277847126126,
	"reward": 0.5281250327825546,
	"reward_std": 0.26489946991205215,
	"rewards/accuracy_reward": 0.3359375,
	"rewards/format_reward": 0.9609375,
	"step": 39
	},
	{
	"completion_length": 624.953125,
	"epoch": 0.017436791630340016,
	"grad_norm": 0.5311559438705444,
	"learning_rate": 9.825632083696599e-07,
	"loss": -0.004024791065603495,
	"reward": 0.5468750298023224,
	"reward_std": 0.2868617922067642,
	"rewards/accuracy_reward": 0.3515625,
	"rewards/format_reward": 0.9765625,
	"step": 40
	},
	{
	"completion_length": 1250.9765625,
	"epoch": 0.017872711421098517,
	"grad_norm": 0.7332771420478821,
	"learning_rate": 9.821272885789015e-07,
	"loss": -0.005356588866561651,
	"reward": 0.44062504172325134,
	"reward_std": 0.20438477396965027,
	"rewards/accuracy_reward": 0.2578125,
	"rewards/format_reward": 0.9140625,
	"step": 41
	},
	{
	"completion_length": 1476.9921875,
	"epoch": 0.018308631211857017,
	"grad_norm": 2.0835506916046143,
	"learning_rate": 9.816913687881429e-07,
	"loss": -0.006023196969181299,
	"reward": 0.4125000238418579,
	"reward_std": 0.23667097091674805,
	"rewards/accuracy_reward": 0.234375,
	"rewards/format_reward": 0.890625,
	"step": 42
	},
	{
	"completion_length": 1100.25,
	"epoch": 0.018744551002615517,
	"grad_norm": 0.7210353016853333,
	"learning_rate": 9.812554489973845e-07,
	"loss": -0.00412205932661891,
	"reward": 0.5765625238418579,
	"reward_std": 0.35319100320339203,
	"rewards/accuracy_reward": 0.390625,
	"rewards/format_reward": 0.9296875,
	"step": 43
	},
	{
	"completion_length": 1268.8828125,
	"epoch": 0.01918047079337402,
	"grad_norm": 1.018958330154419,
	"learning_rate": 9.808195292066259e-07,
	"loss": -0.005287598352879286,
	"reward": 0.5796875357627869,
	"reward_std": 0.33388449996709824,
	"rewards/accuracy_reward": 0.3984375,
	"rewards/format_reward": 0.90625,
	"step": 44
	},
	{
	"completion_length": 1529.1484375,
	"epoch": 0.01961639058413252,
	"grad_norm": 0.9156416058540344,
	"learning_rate": 9.803836094158675e-07,
	"loss": -0.006656843703240156,
	"reward": 0.4531250298023224,
	"reward_std": 0.3121063858270645,
	"rewards/accuracy_reward": 0.2734375,
	"rewards/format_reward": 0.8984375,
	"step": 45
	},
	{
	"completion_length": 771.7109375,
	"epoch": 0.02005231037489102,
	"grad_norm": 1.1348389387130737,
	"learning_rate": 9.79947689625109e-07,
	"loss": -0.004119608784094453,
	"reward": 0.5406250357627869,
	"reward_std": 0.16695528104901314,
	"rewards/accuracy_reward": 0.34375,
	"rewards/format_reward": 0.984375,
	"step": 46
	},
	{
	"completion_length": 1171.2578125,
	"epoch": 0.02048823016564952,
	"grad_norm": 0.7597943544387817,
	"learning_rate": 9.795117698343505e-07,
	"loss": -0.004714524140581489,
	"reward": 0.6031250357627869,
	"reward_std": 0.296435609459877,
	"rewards/accuracy_reward": 0.4140625,
	"rewards/format_reward": 0.9453125,
	"step": 47
	},
	{
	"completion_length": 1121.265625,
	"epoch": 0.020924149956408022,
	"grad_norm": 0.7531502842903137,
	"learning_rate": 9.790758500435918e-07,
	"loss": -0.004732346162199974,
	"reward": 0.4359375089406967,
	"reward_std": 0.3109729588031769,
	"rewards/accuracy_reward": 0.25,
	"rewards/format_reward": 0.9296875,
	"step": 48
	},
	{
	"completion_length": 1959.421875,
	"epoch": 0.021360069747166522,
	"grad_norm": 1.5503896474838257,
	"learning_rate": 9.786399302528334e-07,
	"loss": -0.0054204994812607765,
	"reward": 0.4218750298023224,
	"reward_std": 0.28712356090545654,
	"rewards/accuracy_reward": 0.2578125,
	"rewards/format_reward": 0.8203125,
	"step": 49
	},
	{
	"completion_length": 1155.4140625,
	"epoch": 0.021795989537925022,
	"grad_norm": 0.5289723873138428,
	"learning_rate": 9.782040104620748e-07,
	"loss": -0.00590874906629324,
	"reward": 0.4140625298023224,
	"reward_std": 0.2974793165922165,
	"rewards/accuracy_reward": 0.2265625,
	"rewards/format_reward": 0.9375,
	"step": 50
	},
	{
	"completion_length": 1361.078125,
	"epoch": 0.022231909328683522,
	"grad_norm": 0.7921638488769531,
	"learning_rate": 9.777680906713164e-07,
	"loss": -0.005040215328335762,
	"reward": 0.3031249940395355,
	"reward_std": 0.21944554150104523,
	"rewards/accuracy_reward": 0.125,
	"rewards/format_reward": 0.890625,
	"step": 51
	},
	{
	"completion_length": 1471.5859375,
	"epoch": 0.022667829119442023,
	"grad_norm": 0.6596994996070862,
	"learning_rate": 9.77332170880558e-07,
	"loss": -0.005814009346067905,
	"reward": 0.4859375059604645,
	"reward_std": 0.3088204860687256,
	"rewards/accuracy_reward": 0.3046875,
	"rewards/format_reward": 0.90625,
	"step": 52
	},
	{
	"completion_length": 1483.7265625,
	"epoch": 0.023103748910200523,
	"grad_norm": 0.9196128249168396,
	"learning_rate": 9.768962510897994e-07,
	"loss": -0.005532125011086464,
	"reward": 0.6109375357627869,
	"reward_std": 0.32757391035556793,
	"rewards/accuracy_reward": 0.4296875,
	"rewards/format_reward": 0.90625,
	"step": 53
	},
	{
	"completion_length": 1215.15625,
	"epoch": 0.023539668700959023,
	"grad_norm": 0.7604343891143799,
	"learning_rate": 9.764603312990408e-07,
	"loss": -0.0066660866141319275,
	"reward": 0.6000000536441803,
	"reward_std": 0.36297860741615295,
	"rewards/accuracy_reward": 0.4140625,
	"rewards/format_reward": 0.9296875,
	"step": 54
	},
	{
	"completion_length": 1351.3125,
	"epoch": 0.023975588491717523,
	"grad_norm": 0.7223543524742126,
	"learning_rate": 9.760244115082824e-07,
	"loss": -0.005946665536612272,
	"reward": 0.43906253576278687,
	"reward_std": 0.2528854086995125,
	"rewards/accuracy_reward": 0.2578125,
	"rewards/format_reward": 0.90625,
	"step": 55
	},
	{
	"completion_length": 1185.84375,
	"epoch": 0.024411508282476024,
	"grad_norm": 0.5095703601837158,
	"learning_rate": 9.755884917175238e-07,
	"loss": -0.0064112339168787,
	"reward": 0.5093750208616257,
	"reward_std": 0.21522878110408783,
	"rewards/accuracy_reward": 0.3203125,
	"rewards/format_reward": 0.9453125,
	"step": 56
	},
	{
	"completion_length": 1281.0546875,
	"epoch": 0.024847428073234524,
	"grad_norm": 1.2985528707504272,
	"learning_rate": 9.751525719267654e-07,
	"loss": -0.006073690485209227,
	"reward": 0.515625,
	"reward_std": 0.26809659600257874,
	"rewards/accuracy_reward": 0.328125,
	"rewards/format_reward": 0.9375,
	"step": 57
	},
	{
	"completion_length": 1124.7109375,
	"epoch": 0.025283347863993024,
	"grad_norm": 0.5998630523681641,
	"learning_rate": 9.74716652136007e-07,
	"loss": -0.006307224277406931,
	"reward": 0.42500001192092896,
	"reward_std": 0.15122529119253159,
	"rewards/accuracy_reward": 0.234375,
	"rewards/format_reward": 0.953125,
	"step": 58
	},
	{
	"completion_length": 1213.90625,
	"epoch": 0.025719267654751524,
	"grad_norm": 1.0118658542633057,
	"learning_rate": 9.742807323452484e-07,
	"loss": -0.007607629988342524,
	"reward": 0.7015625238418579,
	"reward_std": 0.26937858760356903,
	"rewards/accuracy_reward": 0.515625,
	"rewards/format_reward": 0.9296875,
	"step": 59
	},
	{
	"completion_length": 816.8046875,
	"epoch": 0.026155187445510025,
	"grad_norm": 0.5398353338241577,
	"learning_rate": 9.738448125544898e-07,
	"loss": -0.005773038603365421,
	"reward": 0.8140625357627869,
	"reward_std": 0.2714267522096634,
	"rewards/accuracy_reward": 0.6171875,
	"rewards/format_reward": 0.984375,
	"step": 60
	},
	{
	"completion_length": 802.9453125,
	"epoch": 0.02659110723626853,
	"grad_norm": 0.40469521284103394,
	"learning_rate": 9.734088927637314e-07,
	"loss": -0.005671899998560548,
	"reward": 0.5234375298023224,
	"reward_std": 0.19351572543382645,
	"rewards/accuracy_reward": 0.328125,
	"rewards/format_reward": 0.9765625,
	"step": 61
	},
	{
	"completion_length": 609.734375,
	"epoch": 0.02702702702702703,
	"grad_norm": 0.2660030424594879,
	"learning_rate": 9.72972972972973e-07,
	"loss": -0.003733730292879045,
	"reward": 0.4968750327825546,
	"reward_std": 0.11230766773223877,
	"rewards/accuracy_reward": 0.296875,
	"rewards/format_reward": 1.0,
	"step": 62
	},
	{
	"completion_length": 606.8125,
	"epoch": 0.02746294681778553,
	"grad_norm": 0.34162867069244385,
	"learning_rate": 9.725370531822144e-07,
	"loss": -0.004276728723198175,
	"reward": 0.46406252682209015,
	"reward_std": 0.17800088226795197,
	"rewards/accuracy_reward": 0.265625,
	"rewards/format_reward": 0.9921875,
	"step": 63
	},
	{
	"completion_length": 675.0234375,
	"epoch": 0.02789886660854403,
	"grad_norm": 0.3267340660095215,
	"learning_rate": 9.72101133391456e-07,
	"loss": -0.004803936462849379,
	"reward": 0.47968754172325134,
	"reward_std": 0.2698579430580139,
	"rewards/accuracy_reward": 0.28125,
	"rewards/format_reward": 0.9921875,
	"step": 64
	},
	{
	"completion_length": 689.875,
	"epoch": 0.02833478639930253,
	"grad_norm": 0.5070520639419556,
	"learning_rate": 9.716652136006974e-07,
	"loss": -0.004681795369833708,
	"reward": 0.5890625417232513,
	"reward_std": 0.28590644896030426,
	"rewards/accuracy_reward": 0.390625,
	"rewards/format_reward": 0.9921875,
	"step": 65
	},
	{
	"completion_length": 741.4296875,
	"epoch": 0.02877070619006103,
	"grad_norm": 0.539318859577179,
	"learning_rate": 9.712292938099388e-07,
	"loss": -0.0042268745601177216,
	"reward": 0.7734375298023224,
	"reward_std": 0.1940227895975113,
	"rewards/accuracy_reward": 0.578125,
	"rewards/format_reward": 0.9765625,
	"step": 66
	},
	{
	"completion_length": 494.328125,
	"epoch": 0.02920662598081953,
	"grad_norm": 0.23426468670368195,
	"learning_rate": 9.707933740191804e-07,
	"loss": -0.0033774186158552766,
	"reward": 0.6296875476837158,
	"reward_std": 0.12073517590761185,
	"rewards/accuracy_reward": 0.4296875,
	"rewards/format_reward": 1.0,
	"step": 67
	},
	{
	"completion_length": 663.703125,
	"epoch": 0.02964254577157803,
	"grad_norm": 0.5735094547271729,
	"learning_rate": 9.70357454228422e-07,
	"loss": -0.004496369976550341,
	"reward": 0.47812503576278687,
	"reward_std": 0.2521483972668648,
	"rewards/accuracy_reward": 0.28125,
	"rewards/format_reward": 0.984375,
	"step": 68
	},
	{
	"completion_length": 556.1875,
	"epoch": 0.03007846556233653,
	"grad_norm": 0.6028347611427307,
	"learning_rate": 9.699215344376634e-07,
	"loss": -0.0033272686414420605,
	"reward": 0.5500000417232513,
	"reward_std": 0.1772443801164627,
	"rewards/accuracy_reward": 0.3515625,
	"rewards/format_reward": 0.9921875,
	"step": 69
	},
	{
	"completion_length": 566.171875,
	"epoch": 0.03051438535309503,
	"grad_norm": 0.2644914984703064,
	"learning_rate": 9.69485614646905e-07,
	"loss": -0.0035728231305256486,
	"reward": 0.44062504172325134,
	"reward_std": 0.1354043260216713,
	"rewards/accuracy_reward": 0.2421875,
	"rewards/format_reward": 0.9921875,
	"step": 70
	},
	{
	"completion_length": 747.1171875,
	"epoch": 0.03095030514385353,
	"grad_norm": 0.45364266633987427,
	"learning_rate": 9.690496948561464e-07,
	"loss": -0.004377002594992518,
	"reward": 0.5640625357627869,
	"reward_std": 0.26171743869781494,
	"rewards/accuracy_reward": 0.3671875,
	"rewards/format_reward": 0.984375,
	"step": 71
	},
	{
	"completion_length": 736.7734375,
	"epoch": 0.03138622493461203,
	"grad_norm": 0.4566240608692169,
	"learning_rate": 9.686137750653878e-07,
	"loss": -0.0046136470045894384,
	"reward": 0.5250000357627869,
	"reward_std": 0.20069601386785507,
	"rewards/accuracy_reward": 0.328125,
	"rewards/format_reward": 0.984375,
	"step": 72
	},
	{
	"completion_length": 459.0234375,
	"epoch": 0.03182214472537053,
	"grad_norm": 0.4804815948009491,
	"learning_rate": 9.681778552746294e-07,
	"loss": -0.002390326582826674,
	"reward": 0.5593750327825546,
	"reward_std": 0.24959056824445724,
	"rewards/accuracy_reward": 0.359375,
	"rewards/format_reward": 1.0,
	"step": 73
	},
	{
	"completion_length": 611.203125,
	"epoch": 0.03225806451612903,
	"grad_norm": 0.32491230964660645,
	"learning_rate": 9.67741935483871e-07,
	"loss": -0.002548949094489217,
	"reward": 0.6343750357627869,
	"reward_std": 0.15103846788406372,
	"rewards/accuracy_reward": 0.4375,
	"rewards/format_reward": 0.984375,
	"step": 74
	},
	{
	"completion_length": 844.71875,
	"epoch": 0.03269398430688753,
	"grad_norm": 0.45734190940856934,
	"learning_rate": 9.673060156931124e-07,
	"loss": -0.0051384728867560625,
	"reward": 0.47031253576278687,
	"reward_std": 0.21036501228809357,
	"rewards/accuracy_reward": 0.2734375,
	"rewards/format_reward": 0.984375,
	"step": 75
	},
	{
	"completion_length": 507.1640625,
	"epoch": 0.03312990409764603,
	"grad_norm": 0.33810898661613464,
	"learning_rate": 9.66870095902354e-07,
	"loss": -0.0030672921566292644,
	"reward": 0.7390625476837158,
	"reward_std": 0.19674428552389145,
	"rewards/accuracy_reward": 0.5390625,
	"rewards/format_reward": 1.0,
	"step": 76
	},
	{
	"completion_length": 901.546875,
	"epoch": 0.03356582388840453,
	"grad_norm": 0.4877094626426697,
	"learning_rate": 9.664341761115954e-07,
	"loss": -0.004802107345312834,
	"reward": 0.6296875476837158,
	"reward_std": 0.24297793954610825,
	"rewards/accuracy_reward": 0.4375,
	"rewards/format_reward": 0.9609375,
	"step": 77
	},
	{
	"completion_length": 714.9296875,
	"epoch": 0.03400174367916303,
	"grad_norm": 0.6446647644042969,
	"learning_rate": 9.659982563208368e-07,
	"loss": -0.0041290284134447575,
	"reward": 0.6953125298023224,
	"reward_std": 0.21879743784666061,
	"rewards/accuracy_reward": 0.5,
	"rewards/format_reward": 0.9765625,
	"step": 78
	},
	{
	"completion_length": 595.71875,
	"epoch": 0.03443766346992153,
	"grad_norm": 0.5552946329116821,
	"learning_rate": 9.655623365300784e-07,
	"loss": -0.00336921657435596,
	"reward": 0.6906250417232513,
	"reward_std": 0.2824498862028122,
	"rewards/accuracy_reward": 0.4921875,
	"rewards/format_reward": 0.9921875,
	"step": 79
	},
	{
	"completion_length": 559.0859375,
	"epoch": 0.03487358326068003,
	"grad_norm": 0.3945360481739044,
	"learning_rate": 9.6512641673932e-07,
	"loss": -0.0029993923380970955,
	"reward": 0.5187500417232513,
	"reward_std": 0.18508683145046234,
	"rewards/accuracy_reward": 0.3203125,
	"rewards/format_reward": 0.9921875,
	"step": 80
	},
	{
	"completion_length": 702.71875,
	"epoch": 0.03530950305143853,
	"grad_norm": 0.3644000291824341,
	"learning_rate": 9.646904969485614e-07,
	"loss": -0.004066583467647433,
	"reward": 0.7515625357627869,
	"reward_std": 0.17609478533267975,
	"rewards/accuracy_reward": 0.5546875,
	"rewards/format_reward": 0.984375,
	"step": 81
	},
	{
	"completion_length": 594.859375,
	"epoch": 0.03574542284219703,
	"grad_norm": 0.43995150923728943,
	"learning_rate": 9.64254577157803e-07,
	"loss": -0.0034514348953962326,
	"reward": 0.49531254172325134,
	"reward_std": 0.28716301918029785,
	"rewards/accuracy_reward": 0.296875,
	"rewards/format_reward": 0.9921875,
	"step": 82
	},
	{
	"completion_length": 468.734375,
	"epoch": 0.036181342632955533,
	"grad_norm": 0.49772775173187256,
	"learning_rate": 9.638186573670444e-07,
	"loss": -0.0027159389574080706,
	"reward": 0.27031251788139343,
	"reward_std": 0.15308690071105957,
	"rewards/accuracy_reward": 0.0703125,
	"rewards/format_reward": 1.0,
	"step": 83
	},
	{
	"completion_length": 626.71875,
	"epoch": 0.036617262423714034,
	"grad_norm": 0.27482131123542786,
	"learning_rate": 9.63382737576286e-07,
	"loss": -0.0032146567245945334,
	"reward": 0.5421875417232513,
	"reward_std": 0.14730052649974823,
	"rewards/accuracy_reward": 0.34375,
	"rewards/format_reward": 0.9921875,
	"step": 84
	},
	{
	"completion_length": 496.859375,
	"epoch": 0.037053182214472534,
	"grad_norm": 0.39663198590278625,
	"learning_rate": 9.629468177855274e-07,
	"loss": -0.0021742535172961652,
	"reward": 0.6218750476837158,
	"reward_std": 0.25354722142219543,
	"rewards/accuracy_reward": 0.421875,
	"rewards/format_reward": 1.0,
	"step": 85
	},
	{
	"completion_length": 507.53125,
	"epoch": 0.037489102005231034,
	"grad_norm": 0.38531285524368286,
	"learning_rate": 9.62510897994769e-07,
	"loss": -0.003144865622743964,
	"reward": 0.6140625327825546,
	"reward_std": 0.19332444667816162,
	"rewards/accuracy_reward": 0.4140625,
	"rewards/format_reward": 1.0,
	"step": 86
	},
	{
	"completion_length": 522.9609375,
	"epoch": 0.03792502179598954,
	"grad_norm": 0.4018486738204956,
	"learning_rate": 9.620749782040104e-07,
	"loss": -0.003351722378283739,
	"reward": 0.5750000476837158,
	"reward_std": 0.2790592461824417,
	"rewards/accuracy_reward": 0.375,
	"rewards/format_reward": 1.0,
	"step": 87
	},
	{
	"completion_length": 574.625,
	"epoch": 0.03836094158674804,
	"grad_norm": 0.29832443594932556,
	"learning_rate": 9.61639058413252e-07,
	"loss": -0.0031917719170451164,
	"reward": 0.49531254172325134,
	"reward_std": 0.19090906530618668,
	"rewards/accuracy_reward": 0.296875,
	"rewards/format_reward": 0.9921875,
	"step": 88
	},
	{
	"completion_length": 506.140625,
	"epoch": 0.03879686137750654,
	"grad_norm": 0.34219008684158325,
	"learning_rate": 9.612031386224936e-07,
	"loss": -0.002893596771173179,
	"reward": 0.5359375476837158,
	"reward_std": 0.21778053790330887,
	"rewards/accuracy_reward": 0.3359375,
	"rewards/format_reward": 1.0,
	"step": 89
	},
	{
	"completion_length": 520.8984375,
	"epoch": 0.03923278116826504,
	"grad_norm": 0.3178415298461914,
	"learning_rate": 9.60767218831735e-07,
	"loss": -0.0036478497786447406,
	"reward": 0.5828125476837158,
	"reward_std": 0.16781240701675415,
	"rewards/accuracy_reward": 0.3828125,
	"rewards/format_reward": 1.0,
	"step": 90
	},
	{
	"completion_length": 524.90625,
	"epoch": 0.03966870095902354,
	"grad_norm": 0.3558061122894287,
	"learning_rate": 9.603312990409764e-07,
	"loss": -0.003106694668531418,
	"reward": 0.5437500476837158,
	"reward_std": 0.268809512257576,
	"rewards/accuracy_reward": 0.34375,
	"rewards/format_reward": 1.0,
	"step": 91
	},
	{
	"completion_length": 486.4140625,
	"epoch": 0.04010462074978204,
	"grad_norm": 0.3201664388179779,
	"learning_rate": 9.59895379250218e-07,
	"loss": -0.00227005232591182,
	"reward": 0.5750000476837158,
	"reward_std": 0.17464719712734222,
	"rewards/accuracy_reward": 0.375,
	"rewards/format_reward": 1.0,
	"step": 92
	},
	{
	"completion_length": 605.6640625,
	"epoch": 0.04054054054054054,
	"grad_norm": 0.5713381767272949,
	"learning_rate": 9.594594594594594e-07,
	"loss": -0.003524004598148167,
	"reward": 0.6125000417232513,
	"reward_std": 0.26134093105793,
	"rewards/accuracy_reward": 0.4140625,
	"rewards/format_reward": 0.9921875,
	"step": 93
	},
	{
	"completion_length": 516.140625,
	"epoch": 0.04097646033129904,
	"grad_norm": 0.41625216603279114,
	"learning_rate": 9.59023539668701e-07,
	"loss": -0.003131876001134515,
	"reward": 0.5906250476837158,
	"reward_std": 0.20805486291646957,
	"rewards/accuracy_reward": 0.390625,
	"rewards/format_reward": 1.0,
	"step": 94
	},
	{
	"completion_length": 528.953125,
	"epoch": 0.04141238012205754,
	"grad_norm": 0.48059654235839844,
	"learning_rate": 9.585876198779426e-07,
	"loss": -0.003212686162441969,
	"reward": 0.5984375476837158,
	"reward_std": 0.24329258501529694,
	"rewards/accuracy_reward": 0.3984375,
	"rewards/format_reward": 1.0,
	"step": 95
	},
	{
	"completion_length": 500.1328125,
	"epoch": 0.041848299912816043,
	"grad_norm": 0.5891656875610352,
	"learning_rate": 9.58151700087184e-07,
	"loss": -0.0030139287700876594,
	"reward": 0.5593750327825546,
	"reward_std": 0.18648964911699295,
	"rewards/accuracy_reward": 0.359375,
	"rewards/format_reward": 1.0,
	"step": 96
	},
	{
	"completion_length": 474.71875,
	"epoch": 0.042284219703574544,
	"grad_norm": 0.8267337083816528,
	"learning_rate": 9.577157802964253e-07,
	"loss": -0.002822687732987106,
	"reward": 0.5515625476837158,
	"reward_std": 0.2012200579047203,
	"rewards/accuracy_reward": 0.3515625,
	"rewards/format_reward": 1.0,
	"step": 97
	},
	{
	"completion_length": 791.3203125,
	"epoch": 0.042720139494333044,
	"grad_norm": 0.38680315017700195,
	"learning_rate": 9.57279860505667e-07,
	"loss": -0.003116427455097437,
	"reward": 0.6093750298023224,
	"reward_std": 0.2934764325618744,
	"rewards/accuracy_reward": 0.4140625,
	"rewards/format_reward": 0.9765625,
	"step": 98
	},
	{
	"completion_length": 552.703125,
	"epoch": 0.043156059285091544,
	"grad_norm": 0.4463382959365845,
	"learning_rate": 9.568439407149083e-07,
	"loss": -0.0025965895038098097,
	"reward": 0.5578125417232513,
	"reward_std": 0.21536517888307571,
	"rewards/accuracy_reward": 0.359375,
	"rewards/format_reward": 0.9921875,
	"step": 99
	},
	{
	"completion_length": 462.828125,
	"epoch": 0.043591979075850044,
	"grad_norm": 0.3906485140323639,
	"learning_rate": 9.5640802092415e-07,
	"loss": -0.002442999859340489,
	"reward": 0.4968750476837158,
	"reward_std": 0.2109457552433014,
	"rewards/accuracy_reward": 0.296875,
	"rewards/format_reward": 1.0,
	"step": 100
	}
	],
	"logging_steps": 1.0,
	"max_steps": 2294,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}