Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoints-v2.8-h-MSE-only/checkpoint-21651/ema.safetensors +3 -0
checkpoints-v2.8-h-MSE-only/checkpoint-21651/model.safetensors +3 -0
checkpoints-v2.8-h-MSE-only/checkpoint-21651/optimizer.pt +3 -0
checkpoints-v2.8-h-MSE-only/checkpoint-21651/rng_state.pth +3 -0
checkpoints-v2.8-h-MSE-only/checkpoint-21651/scaler.pt +3 -0
checkpoints-v2.8-h-MSE-only/checkpoint-21651/scheduler.pt +3 -0
checkpoints-v2.8-h-MSE-only/checkpoint-21651/trainer_state.json +706 -0
checkpoints-v2.8-h-MSE-only/checkpoint-21651/training_args.bin +3 -0

checkpoints-v2.8-h-MSE-only/checkpoint-21651/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:762618e11e36d9b4b801867de30ad649c32c179a4408b27a926dcea808aac5a8
+size 550088

checkpoints-v2.8-h-MSE-only/checkpoint-21651/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f72ed7945a875fba61ddd977d8d18fd874d56a3511ccbcdd26ffcc700b6c2dfd
+size 19318464

checkpoints-v2.8-h-MSE-only/checkpoint-21651/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22506e9f00a36ebb0fde5c85c77d23f163ceb6861cac286a3ac5634d4984b445
+size 1175115

checkpoints-v2.8-h-MSE-only/checkpoint-21651/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13e90563fac8d100230efe8ed83cb90f5dba5cae4ef0fd5b21a7a334409667e3
+size 14645

checkpoints-v2.8-h-MSE-only/checkpoint-21651/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2ac61734340a956eb552a5832c6ccc6010582e52a890acda8a94edd29888695
+size 1383

checkpoints-v2.8-h-MSE-only/checkpoint-21651/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52a5af6d2fe34ebfd6df1bf8af542a933c1fa6cbe6a10bed6d7ed6dc31e8ef9b
+size 1465

checkpoints-v2.8-h-MSE-only/checkpoint-21651/trainer_state.json ADDED Viewed

	@@ -0,0 +1,706 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 1024,
+  "global_step": 21651,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.047295736917463395,
+      "grad_norm": 0.1603490263223648,
+      "learning_rate": 0.0003330078125,
+      "loss": 2.1690220832824707,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.5195974103391987,
+      "eval_loss": 1.7429780462016797,
+      "eval_mse_loss": 1.4831793408959968,
+      "flow/cos_sim": 0.48040258993296864,
+      "flow/improvement_ratio": 0.9391019664126444,
+      "flow/mag_ratio_mean": 0.43127327245664376,
+      "flow/mag_ratio_std": 0.13809564202751742,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.5195974103391987,
+      "eval_loss": 1.7429780462016797,
+      "eval_mse_loss": 1.4831793408959968,
+      "eval_runtime": 36.7979,
+      "eval_samples_per_second": 760.722,
+      "eval_steps_per_second": 11.903,
+      "flow/cos_sim": 0.48040258993296864,
+      "flow/improvement_ratio": 0.9391019664126444,
+      "flow/mag_ratio_mean": 0.43127327245664376,
+      "flow/mag_ratio_std": 0.13809564202751742,
+      "step": 1024
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "grad_norm": 0.15470315515995026,
+      "learning_rate": 0.0006663411458333333,
+      "loss": 1.6652313470840454,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.4434607980185992,
+      "eval_loss": 1.5363217388113883,
+      "eval_mse_loss": 1.3145913394618796,
+      "flow/cos_sim": 0.5565392125959265,
+      "flow/improvement_ratio": 0.9498423337936401,
+      "flow/mag_ratio_mean": 0.5238913912751358,
+      "flow/mag_ratio_std": 0.17378706709571082,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.4434607980185992,
+      "eval_loss": 1.5363217388113883,
+      "eval_mse_loss": 1.3145913394618796,
+      "eval_runtime": 36.8052,
+      "eval_samples_per_second": 760.571,
+      "eval_steps_per_second": 11.9,
+      "flow/cos_sim": 0.5565392125959265,
+      "flow/improvement_ratio": 0.9498423337936401,
+      "flow/mag_ratio_mean": 0.5238913912751358,
+      "flow/mag_ratio_std": 0.17378706709571082,
+      "step": 2048
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "grad_norm": 0.1936231106519699,
+      "learning_rate": 0.0009996744791666667,
+      "loss": 1.564988613128662,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.4249832890757687,
+      "eval_loss": 1.4845183437273382,
+      "eval_mse_loss": 1.2720267005162695,
+      "flow/cos_sim": 0.5750167201098786,
+      "flow/improvement_ratio": 0.9517234205927478,
+      "flow/mag_ratio_mean": 0.5467662633009697,
+      "flow/mag_ratio_std": 0.1880772420668711,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.4249832890757687,
+      "eval_loss": 1.4845183437273382,
+      "eval_mse_loss": 1.2720267005162695,
+      "eval_runtime": 36.5705,
+      "eval_samples_per_second": 765.454,
+      "eval_steps_per_second": 11.977,
+      "flow/cos_sim": 0.5750167201098786,
+      "flow/improvement_ratio": 0.9517234205927478,
+      "flow/mag_ratio_mean": 0.5467662633009697,
+      "flow/mag_ratio_std": 0.1880772420668711,
+      "step": 3072
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "grad_norm": 0.19856934249401093,
+      "learning_rate": 0.0009925378645256155,
+      "loss": 1.5256651639938354,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.41572821521323566,
+      "eval_loss": 1.4588501178510658,
+      "eval_mse_loss": 1.2509860048011012,
+      "flow/cos_sim": 0.5842718062879833,
+      "flow/improvement_ratio": 0.9525948659470093,
+      "flow/mag_ratio_mean": 0.5554001316360143,
+      "flow/mag_ratio_std": 0.19424293561068845,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.41572821521323566,
+      "eval_loss": 1.4588501178510658,
+      "eval_mse_loss": 1.2509860048011012,
+      "eval_runtime": 36.7072,
+      "eval_samples_per_second": 762.602,
+      "eval_steps_per_second": 11.932,
+      "flow/cos_sim": 0.5842718062879833,
+      "flow/improvement_ratio": 0.9525948659470093,
+      "flow/mag_ratio_mean": 0.5554001316360143,
+      "flow/mag_ratio_std": 0.19424293561068845,
+      "step": 4096
+    },
+    {
+      "epoch": 0.236478684587317,
+      "grad_norm": 0.25156059861183167,
+      "learning_rate": 0.0009703455149398919,
+      "loss": 1.5063347816467285,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.4096096988818417,
+      "eval_loss": 1.4397424611871101,
+      "eval_mse_loss": 1.2349376109637082,
+      "flow/cos_sim": 0.5903903138419809,
+      "flow/improvement_ratio": 0.9535825873074466,
+      "flow/mag_ratio_mean": 0.5733934706204558,
+      "flow/mag_ratio_std": 0.20012791618092418,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.4096096988818417,
+      "eval_loss": 1.4397424611871101,
+      "eval_mse_loss": 1.2349376109637082,
+      "eval_runtime": 36.6884,
+      "eval_samples_per_second": 762.994,
+      "eval_steps_per_second": 11.938,
+      "flow/cos_sim": 0.5903903138419809,
+      "flow/improvement_ratio": 0.9535825873074466,
+      "flow/mag_ratio_mean": 0.5733934706204558,
+      "flow/mag_ratio_std": 0.20012791618092418,
+      "step": 5120
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "grad_norm": 0.18675418198108673,
+      "learning_rate": 0.0009340866457980386,
+      "loss": 1.4925259351730347,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.4084889383893035,
+      "eval_loss": 1.4359247110205697,
+      "eval_mse_loss": 1.2316802429826292,
+      "flow/cos_sim": 0.5915110609302782,
+      "flow/improvement_ratio": 0.9539887159382372,
+      "flow/mag_ratio_mean": 0.5681671825445951,
+      "flow/mag_ratio_std": 0.2043973437455147,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.4084889383893035,
+      "eval_loss": 1.4359247110205697,
+      "eval_mse_loss": 1.2316802429826292,
+      "eval_runtime": 36.7036,
+      "eval_samples_per_second": 762.678,
+      "eval_steps_per_second": 11.933,
+      "flow/cos_sim": 0.5915110609302782,
+      "flow/improvement_ratio": 0.9539887159382372,
+      "flow/mag_ratio_mean": 0.5681671825445951,
+      "flow/mag_ratio_std": 0.2043973437455147,
+      "step": 6144
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "grad_norm": 0.20697952806949615,
+      "learning_rate": 0.0008848456431007006,
+      "loss": 1.484749436378479,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.4051034589336343,
+      "eval_loss": 1.4274834097792568,
+      "eval_mse_loss": 1.2249316815371927,
+      "flow/cos_sim": 0.5948965425632861,
+      "flow/improvement_ratio": 0.9555658733463723,
+      "flow/mag_ratio_mean": 0.5670267197911598,
+      "flow/mag_ratio_std": 0.20359297079718822,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.4051034589336343,
+      "eval_loss": 1.4274834097792568,
+      "eval_mse_loss": 1.2249316815371927,
+      "eval_runtime": 36.5375,
+      "eval_samples_per_second": 766.144,
+      "eval_steps_per_second": 11.988,
+      "flow/cos_sim": 0.5948965425632861,
+      "flow/improvement_ratio": 0.9555658733463723,
+      "flow/mag_ratio_mean": 0.5670267197911598,
+      "flow/mag_ratio_std": 0.20359297079718822,
+      "step": 7168
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "grad_norm": 0.2590235471725464,
+      "learning_rate": 0.0008240951466528818,
+      "loss": 1.4764389991760254,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.4030981171348868,
+      "eval_loss": 1.4213429771057546,
+      "eval_mse_loss": 1.2197939181981021,
+      "flow/cos_sim": 0.5969018834094478,
+      "flow/improvement_ratio": 0.9527423811829798,
+      "flow/mag_ratio_mean": 0.5764763417853612,
+      "flow/mag_ratio_std": 0.2013912253319945,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.4030981171348868,
+      "eval_loss": 1.4213429771057546,
+      "eval_mse_loss": 1.2197939181981021,
+      "eval_runtime": 37.8634,
+      "eval_samples_per_second": 739.315,
+      "eval_steps_per_second": 11.568,
+      "flow/cos_sim": 0.5969018834094478,
+      "flow/improvement_ratio": 0.9527423811829798,
+      "flow/mag_ratio_mean": 0.5764763417853612,
+      "flow/mag_ratio_std": 0.2013912253319945,
+      "step": 8192
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "grad_norm": 0.22203068435192108,
+      "learning_rate": 0.0007536520081501641,
+      "loss": 1.4702162742614746,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.40100914695763695,
+      "eval_loss": 1.4149464112982901,
+      "eval_mse_loss": 1.214441836152447,
+      "flow/cos_sim": 0.598990877333297,
+      "flow/improvement_ratio": 0.9544526914211169,
+      "flow/mag_ratio_mean": 0.5743066408590639,
+      "flow/mag_ratio_std": 0.2036158445899345,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.40100914695763695,
+      "eval_loss": 1.4149464112982901,
+      "eval_mse_loss": 1.214441836152447,
+      "eval_runtime": 36.8276,
+      "eval_samples_per_second": 760.109,
+      "eval_steps_per_second": 11.893,
+      "flow/cos_sim": 0.598990877333297,
+      "flow/improvement_ratio": 0.9544526914211169,
+      "flow/mag_ratio_mean": 0.5743066408590639,
+      "flow/mag_ratio_std": 0.2036158445899345,
+      "step": 9216
+    },
+    {
+      "epoch": 0.472957369174634,
+      "grad_norm": 0.24356113374233246,
+      "learning_rate": 0.00067570211230378,
+      "loss": 1.4665658473968506,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.3989176836596232,
+      "eval_loss": 1.4093683696772954,
+      "eval_mse_loss": 1.2099095275412957,
+      "flow/cos_sim": 0.6010823385900559,
+      "flow/improvement_ratio": 0.9548105820673242,
+      "flow/mag_ratio_mean": 0.5852521034680545,
+      "flow/mag_ratio_std": 0.20433804981376483,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.3989176836596232,
+      "eval_loss": 1.4093683696772954,
+      "eval_mse_loss": 1.2099095275412957,
+      "eval_runtime": 36.633,
+      "eval_samples_per_second": 764.147,
+      "eval_steps_per_second": 11.956,
+      "flow/cos_sim": 0.6010823385900559,
+      "flow/improvement_ratio": 0.9548105820673242,
+      "flow/mag_ratio_mean": 0.5852521034680545,
+      "flow/mag_ratio_std": 0.20433804981376483,
+      "step": 10240
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "grad_norm": 0.2467576116323471,
+      "learning_rate": 0.0005924246760543674,
+      "loss": 1.4637513160705566,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.3985194123635009,
+      "eval_loss": 1.4073229736933426,
+      "eval_mse_loss": 1.2080632682260313,
+      "flow/cos_sim": 0.6014805983190668,
+      "flow/improvement_ratio": 0.954848827156302,
+      "flow/mag_ratio_mean": 0.5817824006080627,
+      "flow/mag_ratio_std": 0.2090802846229784,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.3985194123635009,
+      "eval_loss": 1.4073229736933426,
+      "eval_mse_loss": 1.2080632682260313,
+      "eval_runtime": 36.7137,
+      "eval_samples_per_second": 762.468,
+      "eval_steps_per_second": 11.93,
+      "flow/cos_sim": 0.6014805983190668,
+      "flow/improvement_ratio": 0.954848827156302,
+      "flow/mag_ratio_mean": 0.5817824006080627,
+      "flow/mag_ratio_std": 0.2090802846229784,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "grad_norm": 0.20191717147827148,
+      "learning_rate": 0.000506383115407268,
+      "loss": 1.458796739578247,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.3975443775387115,
+      "eval_loss": 1.4040568846545807,
+      "eval_mse_loss": 1.2052846986409191,
+      "flow/cos_sim": 0.602455637634617,
+      "flow/improvement_ratio": 0.9542155566553002,
+      "flow/mag_ratio_mean": 0.5814598194540364,
+      "flow/mag_ratio_std": 0.2077989479586414,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.3975443775387115,
+      "eval_loss": 1.4040568846545807,
+      "eval_mse_loss": 1.2052846986409191,
+      "eval_runtime": 36.6712,
+      "eval_samples_per_second": 763.35,
+      "eval_steps_per_second": 11.944,
+      "flow/cos_sim": 0.602455637634617,
+      "flow/improvement_ratio": 0.9542155566553002,
+      "flow/mag_ratio_mean": 0.5814598194540364,
+      "flow/mag_ratio_std": 0.2077989479586414,
+      "step": 12288
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "grad_norm": 0.17048731446266174,
+      "learning_rate": 0.000420234119257612,
+      "loss": 1.4556978940963745,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.39605273490082726,
+      "eval_loss": 1.400968223401945,
+      "eval_mse_loss": 1.2029418583329954,
+      "flow/cos_sim": 0.6039472781632045,
+      "flow/improvement_ratio": 0.9549849924703712,
+      "flow/mag_ratio_mean": 0.5759240066351956,
+      "flow/mag_ratio_std": 0.20782972600089905,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.39605273490082726,
+      "eval_loss": 1.400968223401945,
+      "eval_mse_loss": 1.2029418583329954,
+      "eval_runtime": 36.6622,
+      "eval_samples_per_second": 763.538,
+      "eval_steps_per_second": 11.947,
+      "flow/cos_sim": 0.6039472781632045,
+      "flow/improvement_ratio": 0.9549849924703712,
+      "flow/mag_ratio_mean": 0.5759240066351956,
+      "flow/mag_ratio_std": 0.20782972600089905,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "grad_norm": 0.19313965737819672,
+      "learning_rate": 0.0003363861238167604,
+      "loss": 1.4520052671432495,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.39569122252398975,
+      "eval_loss": 1.3999553845353323,
+      "eval_mse_loss": 1.202109773409421,
+      "flow/cos_sim": 0.6043087984328945,
+      "flow/improvement_ratio": 0.9552428583576255,
+      "flow/mag_ratio_mean": 0.578499240826254,
+      "flow/mag_ratio_std": 0.20849147595499204,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.39569122252398975,
+      "eval_loss": 1.3999553845353323,
+      "eval_mse_loss": 1.202109773409421,
+      "eval_runtime": 36.7378,
+      "eval_samples_per_second": 761.967,
+      "eval_steps_per_second": 11.922,
+      "flow/cos_sim": 0.6043087984328945,
+      "flow/improvement_ratio": 0.9552428583576255,
+      "flow/mag_ratio_mean": 0.578499240826254,
+      "flow/mag_ratio_std": 0.20849147595499204,
+      "step": 14336
+    },
+    {
+      "epoch": 0.709436053761951,
+      "grad_norm": 0.17817357182502747,
+      "learning_rate": 0.0002575052269359828,
+      "loss": 1.4524282217025757,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.3937194103111415,
+      "eval_loss": 1.393482825255285,
+      "eval_mse_loss": 1.1966231171398947,
+      "flow/cos_sim": 0.6062806047261033,
+      "flow/improvement_ratio": 0.9558591607226629,
+      "flow/mag_ratio_mean": 0.5852309515759281,
+      "flow/mag_ratio_std": 0.20934777516344366,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.3937194103111415,
+      "eval_loss": 1.393482825255285,
+      "eval_mse_loss": 1.1966231171398947,
+      "eval_runtime": 37.14,
+      "eval_samples_per_second": 753.717,
+      "eval_steps_per_second": 11.793,
+      "flow/cos_sim": 0.6062806047261033,
+      "flow/improvement_ratio": 0.9558591607226629,
+      "flow/mag_ratio_mean": 0.5852309515759281,
+      "flow/mag_ratio_std": 0.20934777516344366,
+      "step": 15360
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "grad_norm": 0.2438739836215973,
+      "learning_rate": 0.0001857966732138619,
+      "loss": 1.4499469995498657,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.3948314032734257,
+      "eval_loss": 1.3962086493566157,
+      "eval_mse_loss": 1.198792947209589,
+      "flow/cos_sim": 0.6051686038709667,
+      "flow/improvement_ratio": 0.954701318588431,
+      "flow/mag_ratio_mean": 0.5803325460653871,
+      "flow/mag_ratio_std": 0.20892868194405892,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.3948314032734257,
+      "eval_loss": 1.3962086493566157,
+      "eval_mse_loss": 1.198792947209589,
+      "eval_runtime": 37.3391,
+      "eval_samples_per_second": 749.696,
+      "eval_steps_per_second": 11.73,
+      "flow/cos_sim": 0.6051686038709667,
+      "flow/improvement_ratio": 0.954701318588431,
+      "flow/mag_ratio_mean": 0.5803325460653871,
+      "flow/mag_ratio_std": 0.20892868194405892,
+      "step": 16384
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "grad_norm": 0.13667741417884827,
+      "learning_rate": 0.00012348492907204045,
+      "loss": 1.4462732076644897,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.3939705489024724,
+      "eval_loss": 1.3946650986257754,
+      "eval_mse_loss": 1.1976798239363928,
+      "flow/cos_sim": 0.6060294581058363,
+      "flow/improvement_ratio": 0.9550918585633579,
+      "flow/mag_ratio_mean": 0.5853211482365926,
+      "flow/mag_ratio_std": 0.2091102776326001,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.3939705489024724,
+      "eval_loss": 1.3946650986257754,
+      "eval_mse_loss": 1.1976798239363928,
+      "eval_runtime": 37.4213,
+      "eval_samples_per_second": 748.049,
+      "eval_steps_per_second": 11.705,
+      "flow/cos_sim": 0.6060294581058363,
+      "flow/improvement_ratio": 0.9550918585633579,
+      "flow/mag_ratio_mean": 0.5853211482365926,
+      "flow/mag_ratio_std": 0.2091102776326001,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "grad_norm": 0.14892782270908356,
+      "learning_rate": 7.247737405102634e-05,
+      "loss": 1.4470314979553223,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.3931654813491046,
+      "eval_loss": 1.3926077422486047,
+      "eval_mse_loss": 1.1960250008596134,
+      "flow/cos_sim": 0.6068345345046422,
+      "flow/improvement_ratio": 0.955757382525701,
+      "flow/mag_ratio_mean": 0.5864206736218439,
+      "flow/mag_ratio_std": 0.2082919781542804,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.3931654813491046,
+      "eval_loss": 1.3926077422486047,
+      "eval_mse_loss": 1.1960250008596134,
+      "eval_runtime": 37.2816,
+      "eval_samples_per_second": 750.853,
+      "eval_steps_per_second": 11.748,
+      "flow/cos_sim": 0.6068345345046422,
+      "flow/improvement_ratio": 0.955757382525701,
+      "flow/mag_ratio_mean": 0.5864206736218439,
+      "flow/mag_ratio_std": 0.2082919781542804,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "grad_norm": 0.11167941242456436,
+      "learning_rate": 3.420000784966898e-05,
+      "loss": 1.4472298622131348,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.3948533281207629,
+      "eval_loss": 1.3968375289821189,
+      "eval_mse_loss": 1.1994108693784775,
+      "flow/cos_sim": 0.6051467017496013,
+      "flow/improvement_ratio": 0.9550571395381945,
+      "flow/mag_ratio_mean": 0.5843363483202512,
+      "flow/mag_ratio_std": 0.21005847461555646,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.3948533281207629,
+      "eval_loss": 1.3968375289821189,
+      "eval_mse_loss": 1.1994108693784775,
+      "eval_runtime": 37.217,
+      "eval_samples_per_second": 752.155,
+      "eval_steps_per_second": 11.769,
+      "flow/cos_sim": 0.6051467017496013,
+      "flow/improvement_ratio": 0.9550571395381945,
+      "flow/mag_ratio_mean": 0.5843363483202512,
+      "flow/mag_ratio_std": 0.21005847461555646,
+      "step": 19456
+    },
+    {
+      "epoch": 0.945914738349268,
+      "grad_norm": 0.15765658020973206,
+      "learning_rate": 9.869928184439048e-06,
+      "loss": 1.4464746713638306,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.39394291942794574,
+      "eval_loss": 1.3939159833677284,
+      "eval_mse_loss": 1.1969445252527384,
+      "flow/cos_sim": 0.6060571044547373,
+      "flow/improvement_ratio": 0.9540672579856768,
+      "flow/mag_ratio_mean": 0.5840528774751376,
+      "flow/mag_ratio_std": 0.21052743412860453,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.39394291942794574,
+      "eval_loss": 1.3939159833677284,
+      "eval_mse_loss": 1.1969445252527384,
+      "eval_runtime": 36.7917,
+      "eval_samples_per_second": 760.851,
+      "eval_steps_per_second": 11.905,
+      "flow/cos_sim": 0.6060571044547373,
+      "flow/improvement_ratio": 0.9540672579856768,
+      "flow/mag_ratio_mean": 0.5840528774751376,
+      "flow/mag_ratio_std": 0.21052743412860453,
+      "step": 20480
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "grad_norm": 0.13128803670406342,
+      "learning_rate": 1.6732226017934783e-07,
+      "loss": 1.4470969438552856,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.39504956525482543,
+      "eval_loss": 1.396770793009022,
+      "eval_mse_loss": 1.1992460091908772,
+      "flow/cos_sim": 0.6049504621660329,
+      "flow/improvement_ratio": 0.9545482368501899,
+      "flow/mag_ratio_mean": 0.5830181481903547,
+      "flow/mag_ratio_std": 0.21017335368890197,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.39504956525482543,
+      "eval_loss": 1.396770793009022,
+      "eval_mse_loss": 1.1992460091908772,
+      "eval_runtime": 37.1461,
+      "eval_samples_per_second": 753.592,
+      "eval_steps_per_second": 11.791,
+      "flow/cos_sim": 0.6049504621660329,
+      "flow/improvement_ratio": 0.9545482368501899,
+      "flow/mag_ratio_mean": 0.5830181481903547,
+      "flow/mag_ratio_std": 0.21017335368890197,
+      "step": 21504
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 21651,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v2.8-h-MSE-only/checkpoint-21651/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd8764e705e3d3a01283602f7bbb7db8de6272269197e8d0fb5f615cd86459fe
+size 5137