Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoints-v2.8-h-2/checkpoint-21651/ema.safetensors +3 -0
checkpoints-v2.8-h-2/checkpoint-21651/model.safetensors +3 -0
checkpoints-v2.8-h-2/checkpoint-21651/optimizer.pt +3 -0
checkpoints-v2.8-h-2/checkpoint-21651/rng_state.pth +3 -0
checkpoints-v2.8-h-2/checkpoint-21651/scaler.pt +3 -0
checkpoints-v2.8-h-2/checkpoint-21651/scheduler.pt +3 -0
checkpoints-v2.8-h-2/checkpoint-21651/trainer_state.json +706 -0
checkpoints-v2.8-h-2/checkpoint-21651/training_args.bin +3 -0

checkpoints-v2.8-h-2/checkpoint-21651/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6cab88e892c6d3d398146ba3e47141b43f87d7a5854120892dae7c50a7d5a44
+size 550088

checkpoints-v2.8-h-2/checkpoint-21651/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71f293191018d1ae9cebc826c13788048803dbb6c59d84bd30c059b8f5e5a8e5
+size 19318464

checkpoints-v2.8-h-2/checkpoint-21651/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2972d42888f6f806590a53719723fbe36f4b3bb3d0cff683e1abb63e5ed184c2
+size 1175115

checkpoints-v2.8-h-2/checkpoint-21651/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13e90563fac8d100230efe8ed83cb90f5dba5cae4ef0fd5b21a7a334409667e3
+size 14645

checkpoints-v2.8-h-2/checkpoint-21651/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:292ad3fa2862942d57211b5dc215b794892749e4755a645c17374656a0c1b093
+size 1383

checkpoints-v2.8-h-2/checkpoint-21651/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:832d6d1252c8f66c3851354151edb931a66032460323a9421e37c6a2a7b4fa65
+size 1465

checkpoints-v2.8-h-2/checkpoint-21651/trainer_state.json ADDED Viewed

	@@ -0,0 +1,706 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 1024,
+  "global_step": 21651,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.047295736917463395,
+      "grad_norm": 0.13216529786586761,
+      "learning_rate": 0.0003330078125,
+      "loss": 2.2540314197540283,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.5608168508364185,
+      "eval_loss": 1.840172099740538,
+      "eval_mse_loss": 1.5597636724171573,
+      "flow/cos_sim": 0.4391831588255216,
+      "flow/improvement_ratio": 0.9548978971564062,
+      "flow/mag_ratio_mean": 0.4252509521022779,
+      "flow/mag_ratio_std": 0.15304358966954767,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.5608168508364185,
+      "eval_loss": 1.840172099740538,
+      "eval_mse_loss": 1.5597636724171573,
+      "eval_runtime": 36.5199,
+      "eval_samples_per_second": 766.514,
+      "eval_steps_per_second": 11.993,
+      "flow/cos_sim": 0.4391831588255216,
+      "flow/improvement_ratio": 0.9548978971564062,
+      "flow/mag_ratio_mean": 0.4252509521022779,
+      "flow/mag_ratio_std": 0.15304358966954767,
+      "step": 1024
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "grad_norm": 0.4216933250427246,
+      "learning_rate": 0.0006663411458333333,
+      "loss": 1.7353554964065552,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.470765205482914,
+      "eval_loss": 1.593590806063996,
+      "eval_mse_loss": 1.3582082039689365,
+      "flow/cos_sim": 0.5292348125481714,
+      "flow/improvement_ratio": 0.9650679060585423,
+      "flow/mag_ratio_mean": 0.5083687867475971,
+      "flow/mag_ratio_std": 0.18558434835852008,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.470765205482914,
+      "eval_loss": 1.593590806063996,
+      "eval_mse_loss": 1.3582082039689365,
+      "eval_runtime": 36.3508,
+      "eval_samples_per_second": 770.08,
+      "eval_steps_per_second": 12.049,
+      "flow/cos_sim": 0.5292348125481714,
+      "flow/improvement_ratio": 0.9650679060585423,
+      "flow/mag_ratio_mean": 0.5083687867475971,
+      "flow/mag_ratio_std": 0.18558434835852008,
+      "step": 2048
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "grad_norm": 0.27868369221687317,
+      "learning_rate": 0.0009996744791666667,
+      "loss": 1.6089088916778564,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.44682060161682025,
+      "eval_loss": 1.5164495962395517,
+      "eval_mse_loss": 1.293039296043518,
+      "flow/cos_sim": 0.5531794064121159,
+      "flow/improvement_ratio": 0.9667330909537398,
+      "flow/mag_ratio_mean": 0.5384583678691899,
+      "flow/mag_ratio_std": 0.2053203195265439,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.44682060161682025,
+      "eval_loss": 1.5164495962395517,
+      "eval_mse_loss": 1.293039296043518,
+      "eval_runtime": 36.3439,
+      "eval_samples_per_second": 770.225,
+      "eval_steps_per_second": 12.052,
+      "flow/cos_sim": 0.5531794064121159,
+      "flow/improvement_ratio": 0.9667330909537398,
+      "flow/mag_ratio_mean": 0.5384583678691899,
+      "flow/mag_ratio_std": 0.2053203195265439,
+      "step": 3072
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "grad_norm": 0.15250740945339203,
+      "learning_rate": 0.0009925378645256155,
+      "loss": 1.5571845769882202,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.43560234120447344,
+      "eval_loss": 1.4811601312193152,
+      "eval_mse_loss": 1.2633589582356144,
+      "flow/cos_sim": 0.5643976608367816,
+      "flow/improvement_ratio": 0.967472982324966,
+      "flow/mag_ratio_mean": 0.5474448244865626,
+      "flow/mag_ratio_std": 0.21047595840746955,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.43560234120447344,
+      "eval_loss": 1.4811601312193152,
+      "eval_mse_loss": 1.2633589582356144,
+      "eval_runtime": 37.7437,
+      "eval_samples_per_second": 741.661,
+      "eval_steps_per_second": 11.605,
+      "flow/cos_sim": 0.5643976608367816,
+      "flow/improvement_ratio": 0.967472982324966,
+      "flow/mag_ratio_mean": 0.5474448244865626,
+      "flow/mag_ratio_std": 0.21047595840746955,
+      "step": 4096
+    },
+    {
+      "epoch": 0.236478684587317,
+      "grad_norm": 0.13595673441886902,
+      "learning_rate": 0.0009703455149398919,
+      "loss": 1.531019687652588,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.42780890196697896,
+      "eval_loss": 1.4542832099683753,
+      "eval_mse_loss": 1.2403787578621956,
+      "flow/cos_sim": 0.572191093202051,
+      "flow/improvement_ratio": 0.9686366873516884,
+      "flow/mag_ratio_mean": 0.5504985138705877,
+      "flow/mag_ratio_std": 0.21518446338367245,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.42780890196697896,
+      "eval_loss": 1.4542832099683753,
+      "eval_mse_loss": 1.2403787578621956,
+      "eval_runtime": 36.5108,
+      "eval_samples_per_second": 766.704,
+      "eval_steps_per_second": 11.996,
+      "flow/cos_sim": 0.572191093202051,
+      "flow/improvement_ratio": 0.9686366873516884,
+      "flow/mag_ratio_mean": 0.5504985138705877,
+      "flow/mag_ratio_std": 0.21518446338367245,
+      "step": 5120
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "grad_norm": 0.1523830145597458,
+      "learning_rate": 0.0009340866457980386,
+      "loss": 1.5127094984054565,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.4244332621767096,
+      "eval_loss": 1.4425126316884882,
+      "eval_mse_loss": 1.2302960026754093,
+      "flow/cos_sim": 0.5755667399325871,
+      "flow/improvement_ratio": 0.9678758921688551,
+      "flow/mag_ratio_mean": 0.5517790397824762,
+      "flow/mag_ratio_std": 0.21870258596798056,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.4244332621767096,
+      "eval_loss": 1.4425126316884882,
+      "eval_mse_loss": 1.2302960026754093,
+      "eval_runtime": 37.204,
+      "eval_samples_per_second": 752.419,
+      "eval_steps_per_second": 11.773,
+      "flow/cos_sim": 0.5755667399325871,
+      "flow/improvement_ratio": 0.9678758921688551,
+      "flow/mag_ratio_mean": 0.5517790397824762,
+      "flow/mag_ratio_std": 0.21870258596798056,
+      "step": 6144
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "grad_norm": 0.3283827602863312,
+      "learning_rate": 0.0008848456431007006,
+      "loss": 1.4992624521255493,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.42202579097388543,
+      "eval_loss": 1.4335319138553044,
+      "eval_mse_loss": 1.2225190172456715,
+      "flow/cos_sim": 0.5779742277376184,
+      "flow/improvement_ratio": 0.9681859147058774,
+      "flow/mag_ratio_mean": 0.556161379705281,
+      "flow/mag_ratio_std": 0.22328348849053797,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.42202579097388543,
+      "eval_loss": 1.4335319138553044,
+      "eval_mse_loss": 1.2225190172456715,
+      "eval_runtime": 37.4238,
+      "eval_samples_per_second": 748.0,
+      "eval_steps_per_second": 11.704,
+      "flow/cos_sim": 0.5779742277376184,
+      "flow/improvement_ratio": 0.9681859147058774,
+      "flow/mag_ratio_mean": 0.556161379705281,
+      "flow/mag_ratio_std": 0.22328348849053797,
+      "step": 7168
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "grad_norm": 0.132944718003273,
+      "learning_rate": 0.0008240951466528818,
+      "loss": 1.4886243343353271,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.41840511710132094,
+      "eval_loss": 1.4239725503202987,
+      "eval_mse_loss": 1.21476999183768,
+      "flow/cos_sim": 0.581594914061838,
+      "flow/improvement_ratio": 0.9676709669093563,
+      "flow/mag_ratio_mean": 0.5514429012934366,
+      "flow/mag_ratio_std": 0.21821844441705643,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.41840511710132094,
+      "eval_loss": 1.4239725503202987,
+      "eval_mse_loss": 1.21476999183768,
+      "eval_runtime": 37.4921,
+      "eval_samples_per_second": 746.637,
+      "eval_steps_per_second": 11.682,
+      "flow/cos_sim": 0.581594914061838,
+      "flow/improvement_ratio": 0.9676709669093563,
+      "flow/mag_ratio_mean": 0.5514429012934366,
+      "flow/mag_ratio_std": 0.21821844441705643,
+      "step": 8192
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "grad_norm": 0.20388394594192505,
+      "learning_rate": 0.0007536520081501641,
+      "loss": 1.4808920621871948,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.4158792528387618,
+      "eval_loss": 1.4131894620586203,
+      "eval_mse_loss": 1.20524983863308,
+      "flow/cos_sim": 0.584120759408768,
+      "flow/improvement_ratio": 0.9670752337261966,
+      "flow/mag_ratio_mean": 0.5632989504565932,
+      "flow/mag_ratio_std": 0.22649330343013485,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.4158792528387618,
+      "eval_loss": 1.4131894620586203,
+      "eval_mse_loss": 1.20524983863308,
+      "eval_runtime": 37.6013,
+      "eval_samples_per_second": 744.468,
+      "eval_steps_per_second": 11.649,
+      "flow/cos_sim": 0.584120759408768,
+      "flow/improvement_ratio": 0.9670752337261966,
+      "flow/mag_ratio_mean": 0.5632989504565932,
+      "flow/mag_ratio_std": 0.22649330343013485,
+      "step": 9216
+    },
+    {
+      "epoch": 0.472957369174634,
+      "grad_norm": 0.16685892641544342,
+      "learning_rate": 0.0006756229549958484,
+      "loss": 1.4752637147903442,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.4138242877917747,
+      "eval_loss": 1.409086674043577,
+      "eval_mse_loss": 1.2021745326312165,
+      "flow/cos_sim": 0.5861757269733028,
+      "flow/improvement_ratio": 0.9699954621868047,
+      "flow/mag_ratio_mean": 0.5634166458153833,
+      "flow/mag_ratio_std": 0.22239429697598498,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.4138242877917747,
+      "eval_loss": 1.409086674043577,
+      "eval_mse_loss": 1.2021745326312165,
+      "eval_runtime": 37.5678,
+      "eval_samples_per_second": 745.133,
+      "eval_steps_per_second": 11.659,
+      "flow/cos_sim": 0.5861757269733028,
+      "flow/improvement_ratio": 0.9699954621868047,
+      "flow/mag_ratio_mean": 0.5634166458153833,
+      "flow/mag_ratio_std": 0.22239429697598498,
+      "step": 10240
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "grad_norm": 0.19414471089839935,
+      "learning_rate": 0.0005923415848692534,
+      "loss": 1.4696978330612183,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.4130789393295436,
+      "eval_loss": 1.4056184373489797,
+      "eval_mse_loss": 1.1990789692151491,
+      "flow/cos_sim": 0.5869210932624939,
+      "flow/improvement_ratio": 0.9684095639888555,
+      "flow/mag_ratio_mean": 0.5640594227128921,
+      "flow/mag_ratio_std": 0.22638205625967348,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.4130789393295436,
+      "eval_loss": 1.4056184373489797,
+      "eval_mse_loss": 1.1990789692151491,
+      "eval_runtime": 37.4767,
+      "eval_samples_per_second": 746.944,
+      "eval_steps_per_second": 11.687,
+      "flow/cos_sim": 0.5869210932624939,
+      "flow/improvement_ratio": 0.9684095639888555,
+      "flow/mag_ratio_mean": 0.5640594227128921,
+      "flow/mag_ratio_std": 0.22638205625967348,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "grad_norm": 0.21493041515350342,
+      "learning_rate": 0.000506383115407268,
+      "loss": 1.4641783237457275,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.4106343852602728,
+      "eval_loss": 1.397022104426606,
+      "eval_mse_loss": 1.1917049117284277,
+      "flow/cos_sim": 0.5893656173253168,
+      "flow/improvement_ratio": 0.9678930984512312,
+      "flow/mag_ratio_mean": 0.565856612164136,
+      "flow/mag_ratio_std": 0.2252416678079187,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.4106343852602728,
+      "eval_loss": 1.397022104426606,
+      "eval_mse_loss": 1.1917049117284277,
+      "eval_runtime": 37.5318,
+      "eval_samples_per_second": 745.848,
+      "eval_steps_per_second": 11.67,
+      "flow/cos_sim": 0.5893656173253168,
+      "flow/improvement_ratio": 0.9678930984512312,
+      "flow/mag_ratio_mean": 0.565856612164136,
+      "flow/mag_ratio_std": 0.2252416678079187,
+      "step": 12288
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "grad_norm": 0.1553519070148468,
+      "learning_rate": 0.00042015065633581203,
+      "loss": 1.460407018661499,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.41024401954047757,
+      "eval_loss": 1.3953286480141558,
+      "eval_mse_loss": 1.190206638209896,
+      "flow/cos_sim": 0.5897559979462732,
+      "flow/improvement_ratio": 0.9680638820885523,
+      "flow/mag_ratio_mean": 0.5661686862984748,
+      "flow/mag_ratio_std": 0.22554758708226627,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.41024401954047757,
+      "eval_loss": 1.3953286480141558,
+      "eval_mse_loss": 1.190206638209896,
+      "eval_runtime": 37.5911,
+      "eval_samples_per_second": 744.671,
+      "eval_steps_per_second": 11.652,
+      "flow/cos_sim": 0.5897559979462732,
+      "flow/improvement_ratio": 0.9680638820885523,
+      "flow/mag_ratio_mean": 0.5661686862984748,
+      "flow/mag_ratio_std": 0.22554758708226627,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "grad_norm": 0.17843684554100037,
+      "learning_rate": 0.0003363861238167604,
+      "loss": 1.456861138343811,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.4097557538720571,
+      "eval_loss": 1.3941423579982426,
+      "eval_mse_loss": 1.1892644820147997,
+      "flow/cos_sim": 0.5902442677652455,
+      "flow/improvement_ratio": 0.9690267289882382,
+      "flow/mag_ratio_mean": 0.5675587929002771,
+      "flow/mag_ratio_std": 0.22511094835795223,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.4097557538720571,
+      "eval_loss": 1.3941423579982426,
+      "eval_mse_loss": 1.1892644820147997,
+      "eval_runtime": 37.725,
+      "eval_samples_per_second": 742.027,
+      "eval_steps_per_second": 11.61,
+      "flow/cos_sim": 0.5902442677652455,
+      "flow/improvement_ratio": 0.9690267289882382,
+      "flow/mag_ratio_mean": 0.5675587929002771,
+      "flow/mag_ratio_std": 0.22511094835795223,
+      "step": 14336
+    },
+    {
+      "epoch": 0.709436053761951,
+      "grad_norm": 0.16084638237953186,
+      "learning_rate": 0.0002574312924773668,
+      "loss": 1.4563266038894653,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.4082320715602674,
+      "eval_loss": 1.3902559054496626,
+      "eval_mse_loss": 1.1861398674581694,
+      "flow/cos_sim": 0.5917679436130611,
+      "flow/improvement_ratio": 0.9698736070225772,
+      "flow/mag_ratio_mean": 0.5668952558955102,
+      "flow/mag_ratio_std": 0.22523612784196254,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.4082320715602674,
+      "eval_loss": 1.3902559054496626,
+      "eval_mse_loss": 1.1861398674581694,
+      "eval_runtime": 37.6782,
+      "eval_samples_per_second": 742.949,
+      "eval_steps_per_second": 11.625,
+      "flow/cos_sim": 0.5917679436130611,
+      "flow/improvement_ratio": 0.9698736070225772,
+      "flow/mag_ratio_mean": 0.5668952558955102,
+      "flow/mag_ratio_std": 0.22523612784196254,
+      "step": 15360
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "grad_norm": 0.1939423829317093,
+      "learning_rate": 0.0001857309099627023,
+      "loss": 1.4537469148635864,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.4083600237489291,
+      "eval_loss": 1.3896791839708476,
+      "eval_mse_loss": 1.18549917087163,
+      "flow/cos_sim": 0.5916399929893615,
+      "flow/improvement_ratio": 0.9679969251155853,
+      "flow/mag_ratio_mean": 0.5672158710488445,
+      "flow/mag_ratio_std": 0.2283102631841076,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.4083600237489291,
+      "eval_loss": 1.3896791839708476,
+      "eval_mse_loss": 1.18549917087163,
+      "eval_runtime": 37.6784,
+      "eval_samples_per_second": 742.946,
+      "eval_steps_per_second": 11.625,
+      "flow/cos_sim": 0.5916399929893615,
+      "flow/improvement_ratio": 0.9679969251155853,
+      "flow/mag_ratio_mean": 0.5672158710488445,
+      "flow/mag_ratio_std": 0.2283102631841076,
+      "step": 16384
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "grad_norm": 0.16456730663776398,
+      "learning_rate": 0.0001234293037953827,
+      "loss": 1.4506418704986572,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.4077592275730551,
+      "eval_loss": 1.3878156499231242,
+      "eval_mse_loss": 1.1839360382458934,
+      "flow/cos_sim": 0.5922407781424588,
+      "flow/improvement_ratio": 0.9692025500345448,
+      "flow/mag_ratio_mean": 0.5673814232218756,
+      "flow/mag_ratio_std": 0.22620373494821053,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.4077592275730551,
+      "eval_loss": 1.3878156499231242,
+      "eval_mse_loss": 1.1839360382458934,
+      "eval_runtime": 37.7046,
+      "eval_samples_per_second": 742.43,
+      "eval_steps_per_second": 11.617,
+      "flow/cos_sim": 0.5922407781424588,
+      "flow/improvement_ratio": 0.9692025500345448,
+      "flow/mag_ratio_mean": 0.5673814232218756,
+      "flow/mag_ratio_std": 0.22620373494821053,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "grad_norm": 0.16574722528457642,
+      "learning_rate": 7.243353809647096e-05,
+      "loss": 1.450889229774475,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.4075628997392306,
+      "eval_loss": 1.389668641025073,
+      "eval_mse_loss": 1.185887193026608,
+      "flow/cos_sim": 0.5924371161145162,
+      "flow/improvement_ratio": 0.9703709175597587,
+      "flow/mag_ratio_mean": 0.5677012568467283,
+      "flow/mag_ratio_std": 0.22380314015498445,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.4075628997392306,
+      "eval_loss": 1.389668641025073,
+      "eval_mse_loss": 1.185887193026608,
+      "eval_runtime": 37.4946,
+      "eval_samples_per_second": 746.588,
+      "eval_steps_per_second": 11.682,
+      "flow/cos_sim": 0.5924371161145162,
+      "flow/improvement_ratio": 0.9703709175597587,
+      "flow/mag_ratio_mean": 0.5677012568467283,
+      "flow/mag_ratio_std": 0.22380314015498445,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "grad_norm": 0.1395236700773239,
+      "learning_rate": 3.416928297501892e-05,
+      "loss": 1.4504221677780151,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.4083901912518288,
+      "eval_loss": 1.390020596926615,
+      "eval_mse_loss": 1.185825499497592,
+      "flow/cos_sim": 0.5916098165729818,
+      "flow/improvement_ratio": 0.9690576137200883,
+      "flow/mag_ratio_mean": 0.5676344796402814,
+      "flow/mag_ratio_std": 0.22553705900363183,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.4083901912518288,
+      "eval_loss": 1.390020596926615,
+      "eval_mse_loss": 1.185825499497592,
+      "eval_runtime": 37.3515,
+      "eval_samples_per_second": 749.448,
+      "eval_steps_per_second": 11.726,
+      "flow/cos_sim": 0.5916098165729818,
+      "flow/improvement_ratio": 0.9690576137200883,
+      "flow/mag_ratio_mean": 0.5676344796402814,
+      "flow/mag_ratio_std": 0.22553705900363183,
+      "step": 19456
+    },
+    {
+      "epoch": 0.945914738349268,
+      "grad_norm": 0.1532638967037201,
+      "learning_rate": 9.853219257125512e-06,
+      "loss": 1.4503555297851562,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.4074147270830799,
+      "eval_loss": 1.3868377687724214,
+      "eval_mse_loss": 1.1831304028153964,
+      "flow/cos_sim": 0.5925852951665992,
+      "flow/improvement_ratio": 0.9679995860955487,
+      "flow/mag_ratio_mean": 0.5671717142133408,
+      "flow/mag_ratio_std": 0.2263773354833529,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.4074147270830799,
+      "eval_loss": 1.3868377687724214,
+      "eval_mse_loss": 1.1831304028153964,
+      "eval_runtime": 37.367,
+      "eval_samples_per_second": 749.138,
+      "eval_steps_per_second": 11.722,
+      "flow/cos_sim": 0.5925852951665992,
+      "flow/improvement_ratio": 0.9679995860955487,
+      "flow/mag_ratio_mean": 0.5671717142133408,
+      "flow/mag_ratio_std": 0.2263773354833529,
+      "step": 20480
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "grad_norm": 0.11826281249523163,
+      "learning_rate": 1.651423088821491e-07,
+      "loss": 1.450731635093689,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.4083047036983107,
+      "eval_loss": 1.3886951202671278,
+      "eval_mse_loss": 1.184542767805596,
+      "flow/cos_sim": 0.5916953210689161,
+      "flow/improvement_ratio": 0.9686407382901945,
+      "flow/mag_ratio_mean": 0.5667071160116152,
+      "flow/mag_ratio_std": 0.22649903095340077,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.4083047036983107,
+      "eval_loss": 1.3886951202671278,
+      "eval_mse_loss": 1.184542767805596,
+      "eval_runtime": 37.4955,
+      "eval_samples_per_second": 746.569,
+      "eval_steps_per_second": 11.681,
+      "flow/cos_sim": 0.5916953210689161,
+      "flow/improvement_ratio": 0.9686407382901945,
+      "flow/mag_ratio_mean": 0.5667071160116152,
+      "flow/mag_ratio_std": 0.22649903095340077,
+      "step": 21504
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 21651,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v2.8-h-2/checkpoint-21651/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd8764e705e3d3a01283602f7bbb7db8de6272269197e8d0fb5f615cd86459fe
+size 5137