Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.13-b/checkpoint-10240/ema.safetensors +3 -0
checkpoints-v5.13-b/checkpoint-10240/eval_state.json +3 -0
checkpoints-v5.13-b/checkpoint-10240/model.safetensors +3 -0
checkpoints-v5.13-b/checkpoint-10240/optimizer.pt +3 -0
checkpoints-v5.13-b/checkpoint-10240/rng_state.pth +3 -0
checkpoints-v5.13-b/checkpoint-10240/scaler.pt +3 -0
checkpoints-v5.13-b/checkpoint-10240/scheduler.pt +3 -0
checkpoints-v5.13-b/checkpoint-10240/trainer_state.json +394 -0
checkpoints-v5.13-b/checkpoint-10240/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -60,3 +60,4 @@ checkpoints-v5.12/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs
 checkpoints-v5.12-b/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.12-d/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.13/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v5.12-b/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.12-d/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.13/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.13-b/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.13-b/checkpoint-10240/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:938cc2fe2fa49421856d54b1fbf0eceb1b49dd3bce3bd849662da72206e82e48
+size 54599376

checkpoints-v5.13-b/checkpoint-10240/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c91d3da00ec0e2d7a2b93a5304c9ff5086119852f205ea6f1b7dba301490641d
+size 58800562

checkpoints-v5.13-b/checkpoint-10240/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f342b07e8e0e5a2b9a103a35fd59438e41c33cc915f9ad100222a76adcd358b
+size 54599408

checkpoints-v5.13-b/checkpoint-10240/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6760c546df27060c0ccecaf3d8bde8c1fd13a48b6192c6ce52e53eed9ac13f6b
+size 76550347

checkpoints-v5.13-b/checkpoint-10240/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fc9a7ad80ccf79ec63508fe00c62cf70deaf89caf3ca329a532d3f0b214151c
+size 14645

checkpoints-v5.13-b/checkpoint-10240/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ea11eae8e0b65db384802e7182a0ffdb8c106b29558249bf92d7df4202bb304
+size 1383

checkpoints-v5.13-b/checkpoint-10240/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:012f7b23a26c3659b3d642258b23d2a9db5c112a8101c3ff10a13ac93f47a91e
+size 1465

checkpoints-v5.13-b/checkpoint-10240/trainer_state.json ADDED Viewed

	@@ -0,0 +1,394 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.44131273299286744,
+  "eval_steps": 1024,
+  "global_step": 10240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 1.9963102340698242,
+      "learning_rate": 9.990234375e-05,
+      "loss": 14.413436889648438,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.029717159677032663,
+      "eval_ce_clean_loss": 4.587489218600015,
+      "eval_ce_pred_loss": 5.985109073012622,
+      "eval_flow_mse_loss": 0.7613976893902842,
+      "eval_loss": 10.729833468699507,
+      "flow/cos_sim": 0.6364283115624874,
+      "flow/improvement_ratio": 0.9861122944207588,
+      "flow/mag_ratio_mean": 0.6063673979183758,
+      "flow/mag_ratio_std": 0.12251213920523109,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.029717159677032663,
+      "eval_ce_clean_loss": 4.587489218600015,
+      "eval_ce_pred_loss": 5.985109073012622,
+      "eval_flow_mse_loss": 0.7613976893902842,
+      "eval_loss": 10.729833468699507,
+      "eval_runtime": 219.8418,
+      "eval_samples_per_second": 136.462,
+      "eval_steps_per_second": 2.133,
+      "flow/cos_sim": 0.6364283115624874,
+      "flow/improvement_ratio": 0.9861122944207588,
+      "flow/mag_ratio_mean": 0.6063673979183758,
+      "flow/mag_ratio_std": 0.12251213920523109,
+      "step": 1024
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 3.5452401638031006,
+      "learning_rate": 9.9476028157316e-05,
+      "loss": 9.36362361907959,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.16731445720988675,
+      "eval_ce_clean_loss": 1.9016369698144227,
+      "eval_ce_pred_loss": 4.339881845120428,
+      "eval_flow_mse_loss": 0.8806368744195398,
+      "eval_loss": 8.366178386501158,
+      "flow/cos_sim": 0.6622113901923206,
+      "flow/improvement_ratio": 0.9926136390232583,
+      "flow/mag_ratio_mean": 0.6513820659122995,
+      "flow/mag_ratio_std": 0.11409470373824207,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.16731445720988675,
+      "eval_ce_clean_loss": 1.9016369698144227,
+      "eval_ce_pred_loss": 4.339881845120428,
+      "eval_flow_mse_loss": 0.8806368744195398,
+      "eval_loss": 8.366178386501158,
+      "eval_runtime": 218.8606,
+      "eval_samples_per_second": 137.074,
+      "eval_steps_per_second": 2.143,
+      "flow/cos_sim": 0.6622113901923206,
+      "flow/improvement_ratio": 0.9926136390232583,
+      "flow/mag_ratio_mean": 0.6513820659122995,
+      "flow/mag_ratio_std": 0.11409470373824207,
+      "step": 2048
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 1.7010209560394287,
+      "learning_rate": 9.791307026072513e-05,
+      "loss": 7.867959022521973,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.28663844221299223,
+      "eval_ce_clean_loss": 0.8470902535706949,
+      "eval_ce_pred_loss": 3.5079171428802427,
+      "eval_flow_mse_loss": 0.9867779116894899,
+      "eval_loss": 7.2777860444237685,
+      "flow/cos_sim": 0.6971563212652959,
+      "flow/improvement_ratio": 0.994417410923728,
+      "flow/mag_ratio_mean": 0.6858881183270452,
+      "flow/mag_ratio_std": 0.09166492138907853,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.28663844221299223,
+      "eval_ce_clean_loss": 0.8470902535706949,
+      "eval_ce_pred_loss": 3.5079171428802427,
+      "eval_flow_mse_loss": 0.9867779116894899,
+      "eval_loss": 7.2777860444237685,
+      "eval_runtime": 219.6446,
+      "eval_samples_per_second": 136.584,
+      "eval_steps_per_second": 2.135,
+      "flow/cos_sim": 0.6971563212652959,
+      "flow/improvement_ratio": 0.994417410923728,
+      "flow/mag_ratio_mean": 0.6858881183270452,
+      "flow/mag_ratio_std": 0.09166492138907853,
+      "step": 3072
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 4.084949016571045,
+      "learning_rate": 9.53439476074686e-05,
+      "loss": 7.034012794494629,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.3488632840968703,
+      "eval_ce_clean_loss": 0.4608091927413493,
+      "eval_ce_pred_loss": 3.1213321004595076,
+      "eval_flow_mse_loss": 1.0000404394003375,
+      "eval_loss": 6.705119481727259,
+      "flow/cos_sim": 0.7278557211351293,
+      "flow/improvement_ratio": 0.9944597985952902,
+      "flow/mag_ratio_mean": 0.7163513456580481,
+      "flow/mag_ratio_std": 0.09740249283595888,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.3488632840968703,
+      "eval_ce_clean_loss": 0.4608091927413493,
+      "eval_ce_pred_loss": 3.1213321004595076,
+      "eval_flow_mse_loss": 1.0000404394003375,
+      "eval_loss": 6.705119481727259,
+      "eval_runtime": 220.1388,
+      "eval_samples_per_second": 136.278,
+      "eval_steps_per_second": 2.13,
+      "flow/cos_sim": 0.7278557211351293,
+      "flow/improvement_ratio": 0.9944597985952902,
+      "flow/mag_ratio_mean": 0.7163513456580481,
+      "flow/mag_ratio_std": 0.09740249283595888,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "grad_norm": 2.7765862941741943,
+      "learning_rate": 9.18264920723673e-05,
+      "loss": 6.682275772094727,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.38378027816540145,
+      "eval_ce_clean_loss": 0.29456129009281395,
+      "eval_ce_pred_loss": 2.941667402731076,
+      "eval_flow_mse_loss": 1.0074702812664544,
+      "eval_loss": 6.442169731359746,
+      "flow/cos_sim": 0.7374435731851215,
+      "flow/improvement_ratio": 0.9947487605151846,
+      "flow/mag_ratio_mean": 0.730799752384869,
+      "flow/mag_ratio_std": 0.10328580211919508,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.38378027816540145,
+      "eval_ce_clean_loss": 0.29456129009281395,
+      "eval_ce_pred_loss": 2.941667402731076,
+      "eval_flow_mse_loss": 1.0074702812664544,
+      "eval_loss": 6.442169731359746,
+      "eval_runtime": 221.4434,
+      "eval_samples_per_second": 135.475,
+      "eval_steps_per_second": 2.118,
+      "flow/cos_sim": 0.7374435731851215,
+      "flow/improvement_ratio": 0.9947487605151846,
+      "flow/mag_ratio_mean": 0.730799752384869,
+      "flow/mag_ratio_std": 0.10328580211919508,
+      "step": 5120
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 2.873178482055664,
+      "learning_rate": 8.742770483354739e-05,
+      "loss": 6.487064838409424,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.404895050558126,
+      "eval_ce_clean_loss": 0.19798138385007122,
+      "eval_ce_pred_loss": 2.8133045910263874,
+      "eval_flow_mse_loss": 1.0262579197314248,
+      "eval_loss": 6.282371787374208,
+      "flow/cos_sim": 0.7420725150149006,
+      "flow/improvement_ratio": 0.9944606922836955,
+      "flow/mag_ratio_mean": 0.7349820813136314,
+      "flow/mag_ratio_std": 0.10635916653599566,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.404895050558126,
+      "eval_ce_clean_loss": 0.19798138385007122,
+      "eval_ce_pred_loss": 2.8133045910263874,
+      "eval_flow_mse_loss": 1.0262579197314248,
+      "eval_loss": 6.282371787374208,
+      "eval_runtime": 222.0536,
+      "eval_samples_per_second": 135.102,
+      "eval_steps_per_second": 2.112,
+      "flow/cos_sim": 0.7420725150149006,
+      "flow/improvement_ratio": 0.9944606922836955,
+      "flow/mag_ratio_mean": 0.7349820813136314,
+      "flow/mag_ratio_std": 0.10635916653599566,
+      "step": 6144
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "grad_norm": 2.8932278156280518,
+      "learning_rate": 8.22483558761947e-05,
+      "loss": 6.317191123962402,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.42435735107341466,
+      "eval_ce_clean_loss": 0.14099097526721607,
+      "eval_ce_pred_loss": 2.7245685118856207,
+      "eval_flow_mse_loss": 1.0272585839859203,
+      "eval_loss": 6.148419489992707,
+      "flow/cos_sim": 0.7446179575503253,
+      "flow/improvement_ratio": 0.9956748183093854,
+      "flow/mag_ratio_mean": 0.7340112367926884,
+      "flow/mag_ratio_std": 0.10666785779982996,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.42435735107341466,
+      "eval_ce_clean_loss": 0.14099097526721607,
+      "eval_ce_pred_loss": 2.7245685118856207,
+      "eval_flow_mse_loss": 1.0272585839859203,
+      "eval_loss": 6.148419489992707,
+      "eval_runtime": 225.5785,
+      "eval_samples_per_second": 132.991,
+      "eval_steps_per_second": 2.079,
+      "flow/cos_sim": 0.7446179575503253,
+      "flow/improvement_ratio": 0.9956748183093854,
+      "flow/mag_ratio_mean": 0.7340112367926884,
+      "flow/mag_ratio_std": 0.10666785779982996,
+      "step": 7168
+    },
+    {
+      "epoch": 0.353050186394294,
+      "grad_norm": 2.10495662689209,
+      "learning_rate": 7.638710244802891e-05,
+      "loss": 6.220119953155518,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.43760348717724723,
+      "eval_ce_clean_loss": 0.10299798620662201,
+      "eval_ce_pred_loss": 2.656907618172896,
+      "eval_flow_mse_loss": 1.0395170521380297,
+      "eval_loss": 6.069545406268349,
+      "flow/cos_sim": 0.7486998761640683,
+      "flow/improvement_ratio": 0.9948291683247857,
+      "flow/mag_ratio_mean": 0.7389899180896247,
+      "flow/mag_ratio_std": 0.10990511521156918,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.43760348717724723,
+      "eval_ce_clean_loss": 0.10299798620662201,
+      "eval_ce_pred_loss": 2.656907618172896,
+      "eval_flow_mse_loss": 1.0395170521380297,
+      "eval_loss": 6.069545406268349,
+      "eval_runtime": 221.3814,
+      "eval_samples_per_second": 135.513,
+      "eval_steps_per_second": 2.119,
+      "flow/cos_sim": 0.7486998761640683,
+      "flow/improvement_ratio": 0.9948291683247857,
+      "flow/mag_ratio_mean": 0.7389899180896247,
+      "flow/mag_ratio_std": 0.10990511521156918,
+      "step": 8192
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 3.748624563217163,
+      "learning_rate": 6.997821756319211e-05,
+      "loss": 6.1464009284973145,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.445675437478498,
+      "eval_ce_clean_loss": 0.07816216532291888,
+      "eval_ce_pred_loss": 2.5846429473555674,
+      "eval_flow_mse_loss": 1.0356278964705559,
+      "eval_loss": 5.952128333577724,
+      "flow/cos_sim": 0.7532857249794739,
+      "flow/improvement_ratio": 0.9953764135649463,
+      "flow/mag_ratio_mean": 0.7439990638415697,
+      "flow/mag_ratio_std": 0.11394971952255346,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.445675437478498,
+      "eval_ce_clean_loss": 0.07816216532291888,
+      "eval_ce_pred_loss": 2.5846429473555674,
+      "eval_flow_mse_loss": 1.0356278964705559,
+      "eval_loss": 5.952128333577724,
+      "eval_runtime": 223.0399,
+      "eval_samples_per_second": 134.505,
+      "eval_steps_per_second": 2.103,
+      "flow/cos_sim": 0.7532857249794739,
+      "flow/improvement_ratio": 0.9953764135649463,
+      "flow/mag_ratio_mean": 0.7439990638415697,
+      "flow/mag_ratio_std": 0.11394971952255346,
+      "step": 9216
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "grad_norm": 1.8965576887130737,
+      "learning_rate": 6.314377890922702e-05,
+      "loss": 6.063087463378906,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.446920991380019,
+      "eval_ce_clean_loss": 0.0615791271506215,
+      "eval_ce_pred_loss": 2.573492731112661,
+      "eval_flow_mse_loss": 1.0384511626097186,
+      "eval_loss": 5.940220366154652,
+      "flow/cos_sim": 0.7519056856759322,
+      "flow/improvement_ratio": 0.9958192685773886,
+      "flow/mag_ratio_mean": 0.7415797101663374,
+      "flow/mag_ratio_std": 0.1136058044713189,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.446920991380019,
+      "eval_ce_clean_loss": 0.0615791271506215,
+      "eval_ce_pred_loss": 2.573492731112661,
+      "eval_flow_mse_loss": 1.0384511626097186,
+      "eval_loss": 5.940220366154652,
+      "eval_runtime": 224.9529,
+      "eval_samples_per_second": 133.361,
+      "eval_steps_per_second": 2.085,
+      "flow/cos_sim": 0.7519056856759322,
+      "flow/improvement_ratio": 0.9958192685773886,
+      "flow/mag_ratio_mean": 0.7415797101663374,
+      "flow/mag_ratio_std": 0.1136058044713189,
+      "step": 10240
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.13-b/checkpoint-10240/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8469bbc81a2ba0be2f5b44007faafd15c75615abe30f4f4e56171816d31caa5b
+size 5137