Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.3/checkpoint-11264/ema.safetensors +3 -0
checkpoints-v5.3/checkpoint-11264/eval_state.json +3 -0
checkpoints-v5.3/checkpoint-11264/model.safetensors +3 -0
checkpoints-v5.3/checkpoint-11264/optimizer.pt +3 -0
checkpoints-v5.3/checkpoint-11264/rng_state.pth +3 -0
checkpoints-v5.3/checkpoint-11264/scaler.pt +3 -0
checkpoints-v5.3/checkpoint-11264/scheduler.pt +3 -0
checkpoints-v5.3/checkpoint-11264/trainer_state.json +452 -0
checkpoints-v5.3/checkpoint-11264/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -36,3 +36,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.1/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.2/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v5/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.1/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.2/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.3/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.3/checkpoint-11264/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:918386e13ebed823cbd0a173c6a42adbba76cfe94106fda8c32135b8f19d9a89
+size 54599592

checkpoints-v5.3/checkpoint-11264/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fd0ea4c4a0a732f97ffcf272be5602de37eab06e7ce60f4873fa47112f116fa
+size 42301743

checkpoints-v5.3/checkpoint-11264/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8fe6a8fc4de104f21451dc60300a18071a9bf4d342222de71ec8967c03f770f
+size 54599624

checkpoints-v5.3/checkpoint-11264/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cde21da133499f0e7071a8f8855f1b5163ee2ea4e78a99423f101930ebb60003
+size 76551435

checkpoints-v5.3/checkpoint-11264/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45b1ca7f396cc5599f3f64fbc801b07bc6329480ea979bb7f593fcbee2c79ab9
+size 14645

checkpoints-v5.3/checkpoint-11264/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50166b6cf492c5af2bf0da013ef651526fcf32a8101bc3fb9382b3bc7ba301dc
+size 1383

checkpoints-v5.3/checkpoint-11264/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b6571b97a5ee63d34ba933d2df4e57394f03e1f6410b5a28aa769998b78ac31
+size 1465

checkpoints-v5.3/checkpoint-11264/trainer_state.json ADDED Viewed

	@@ -0,0 +1,452 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.5202531060920974,
+  "eval_steps": 1024,
+  "global_step": 11264,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.047295736917463395,
+      "grad_norm": 2.416111707687378,
+      "learning_rate": 0.000298828125,
+      "loss": 9.019423484802246,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_bleu": 0.2106642247482737,
+      "eval_ce_clean_loss": 0.29124547343820195,
+      "eval_ce_pred_loss": 4.992772727252142,
+      "eval_flow_cos_loss": 0.2647965398008965,
+      "eval_flow_mse_loss": 0.8835841697644969,
+      "eval_loss": 3.571403525191355,
+      "flow/cos_sim": 0.7352034720383822,
+      "flow/improvement_ratio": 0.9943101596614542,
+      "flow/mag_ratio_mean": 0.7476322943489301,
+      "flow/mag_ratio_std": 0.06709049885335579,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_bleu": 0.2106642247482737,
+      "eval_ce_clean_loss": 0.29124547343820195,
+      "eval_ce_pred_loss": 4.992772727252142,
+      "eval_flow_cos_loss": 0.2647965398008965,
+      "eval_flow_mse_loss": 0.8835841697644969,
+      "eval_loss": 3.571403525191355,
+      "eval_runtime": 183.9899,
+      "eval_samples_per_second": 152.144,
+      "eval_steps_per_second": 2.381,
+      "flow/cos_sim": 0.7352034720383822,
+      "flow/improvement_ratio": 0.9943101596614542,
+      "flow/mag_ratio_mean": 0.7476322943489301,
+      "flow/mag_ratio_std": 0.06709049885335579,
+      "step": 1024
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "grad_norm": 3.0350542068481445,
+      "learning_rate": 0.0002981935930165064,
+      "loss": 2.5434765815734863,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_bleu": 0.1579851884808921,
+      "eval_ce_clean_loss": 0.03997791357355439,
+      "eval_ce_pred_loss": 5.100844090387701,
+      "eval_flow_cos_loss": 0.07959831905759633,
+      "eval_flow_mse_loss": 0.31194442517409043,
+      "eval_loss": 2.018676113048101,
+      "flow/cos_sim": 0.9204016981059557,
+      "flow/improvement_ratio": 0.9950934457996664,
+      "flow/mag_ratio_mean": 0.9062496831972305,
+      "flow/mag_ratio_std": 0.08489629088743636,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_bleu": 0.1579851884808921,
+      "eval_ce_clean_loss": 0.03997791357355439,
+      "eval_ce_pred_loss": 5.100844090387701,
+      "eval_flow_cos_loss": 0.07959831905759633,
+      "eval_flow_mse_loss": 0.31194442517409043,
+      "eval_loss": 2.018676113048101,
+      "eval_runtime": 178.4606,
+      "eval_samples_per_second": 156.858,
+      "eval_steps_per_second": 2.454,
+      "flow/cos_sim": 0.9204016981059557,
+      "flow/improvement_ratio": 0.9950934457996664,
+      "flow/mag_ratio_mean": 0.9062496831972305,
+      "flow/mag_ratio_std": 0.08489629088743636,
+      "step": 2048
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "grad_norm": 2.6396632194519043,
+      "learning_rate": 0.0002927969115673581,
+      "loss": 1.9693392515182495,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_bleu": 0.11643667444645887,
+      "eval_ce_clean_loss": 0.01767831638489412,
+      "eval_ce_pred_loss": 5.5003395265640185,
+      "eval_flow_cos_loss": 0.053572113553410794,
+      "eval_flow_mse_loss": 0.22004157059813198,
+      "eval_loss": 1.8864184528180998,
+      "flow/cos_sim": 0.9464279026745661,
+      "flow/improvement_ratio": 0.9951256691865181,
+      "flow/mag_ratio_mean": 0.928381720226105,
+      "flow/mag_ratio_std": 0.08207591311776474,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_bleu": 0.11643667444645887,
+      "eval_ce_clean_loss": 0.01767831638489412,
+      "eval_ce_pred_loss": 5.5003395265640185,
+      "eval_flow_cos_loss": 0.053572113553410794,
+      "eval_flow_mse_loss": 0.22004157059813198,
+      "eval_loss": 1.8864184528180998,
+      "eval_runtime": 181.1859,
+      "eval_samples_per_second": 154.499,
+      "eval_steps_per_second": 2.417,
+      "flow/cos_sim": 0.9464279026745661,
+      "flow/improvement_ratio": 0.9951256691865181,
+      "flow/mag_ratio_mean": 0.928381720226105,
+      "flow/mag_ratio_std": 0.08207591311776474,
+      "step": 3072
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "grad_norm": 2.8408706188201904,
+      "learning_rate": 0.0002839406855398806,
+      "loss": 1.8455302715301514,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_bleu": 0.12642263806175938,
+      "eval_ce_clean_loss": 0.009541632419932616,
+      "eval_ce_pred_loss": 5.360420514459479,
+      "eval_flow_cos_loss": 0.049334879088551484,
+      "eval_flow_mse_loss": 0.20619700709570488,
+      "eval_loss": 1.811375651185371,
+      "flow/cos_sim": 0.9506651357700836,
+      "flow/improvement_ratio": 0.9946121761243637,
+      "flow/mag_ratio_mean": 0.9399185652874377,
+      "flow/mag_ratio_std": 0.07947734282373294,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_bleu": 0.12642263806175938,
+      "eval_ce_clean_loss": 0.009541632419932616,
+      "eval_ce_pred_loss": 5.360420514459479,
+      "eval_flow_cos_loss": 0.049334879088551484,
+      "eval_flow_mse_loss": 0.20619700709570488,
+      "eval_loss": 1.811375651185371,
+      "eval_runtime": 180.9735,
+      "eval_samples_per_second": 154.68,
+      "eval_steps_per_second": 2.42,
+      "flow/cos_sim": 0.9506651357700836,
+      "flow/improvement_ratio": 0.9946121761243637,
+      "flow/mag_ratio_mean": 0.9399185652874377,
+      "flow/mag_ratio_std": 0.07947734282373294,
+      "step": 4096
+    },
+    {
+      "epoch": 0.236478684587317,
+      "grad_norm": 1.581679344177246,
+      "learning_rate": 0.0002718261478322326,
+      "loss": 1.7856016159057617,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_bleu": 0.12365900485552281,
+      "eval_ce_clean_loss": 0.007601529405001534,
+      "eval_ce_pred_loss": 5.553882997329921,
+      "eval_flow_cos_loss": 0.04624706012575321,
+      "eval_flow_mse_loss": 0.19693581780342206,
+      "eval_loss": 1.8361909707931623,
+      "flow/cos_sim": 0.9537529678649554,
+      "flow/improvement_ratio": 0.9952095367320596,
+      "flow/mag_ratio_mean": 0.9415775195920848,
+      "flow/mag_ratio_std": 0.07597032391793651,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_bleu": 0.12365900485552281,
+      "eval_ce_clean_loss": 0.007601529405001534,
+      "eval_ce_pred_loss": 5.553882997329921,
+      "eval_flow_cos_loss": 0.04624706012575321,
+      "eval_flow_mse_loss": 0.19693581780342206,
+      "eval_loss": 1.8361909707931623,
+      "eval_runtime": 183.4659,
+      "eval_samples_per_second": 152.579,
+      "eval_steps_per_second": 2.387,
+      "flow/cos_sim": 0.9537529678649554,
+      "flow/improvement_ratio": 0.9952095367320596,
+      "flow/mag_ratio_mean": 0.9415775195920848,
+      "flow/mag_ratio_std": 0.07597032391793651,
+      "step": 5120
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "grad_norm": 6.030252933502197,
+      "learning_rate": 0.00025675436342907166,
+      "loss": 1.7446959018707275,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_bleu": 0.12054442540488737,
+      "eval_ce_clean_loss": 0.005119796283649425,
+      "eval_ce_pred_loss": 5.576888217229277,
+      "eval_flow_cos_loss": 0.04454986083419083,
+      "eval_flow_mse_loss": 0.19221621612299522,
+      "eval_loss": 1.8283241480997163,
+      "flow/cos_sim": 0.955450158140975,
+      "flow/improvement_ratio": 0.9951490931314965,
+      "flow/mag_ratio_mean": 0.9462693515977904,
+      "flow/mag_ratio_std": 0.07402643641312373,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_bleu": 0.12054442540488737,
+      "eval_ce_clean_loss": 0.005119796283649425,
+      "eval_ce_pred_loss": 5.576888217229277,
+      "eval_flow_cos_loss": 0.04454986083419083,
+      "eval_flow_mse_loss": 0.19221621612299522,
+      "eval_loss": 1.8283241480997163,
+      "eval_runtime": 182.7448,
+      "eval_samples_per_second": 153.181,
+      "eval_steps_per_second": 2.397,
+      "flow/cos_sim": 0.955450158140975,
+      "flow/improvement_ratio": 0.9951490931314965,
+      "flow/mag_ratio_mean": 0.9462693515977904,
+      "flow/mag_ratio_std": 0.07402643641312373,
+      "step": 6144
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "grad_norm": 3.546534299850464,
+      "learning_rate": 0.00023909118962306302,
+      "loss": 1.71308434009552,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_bleu": 0.12181793641122035,
+      "eval_ce_clean_loss": 0.0037171931636464446,
+      "eval_ce_pred_loss": 5.587970645460364,
+      "eval_flow_cos_loss": 0.0436794480742657,
+      "eval_flow_mse_loss": 0.191167407724411,
+      "eval_loss": 1.8267241172050233,
+      "flow/cos_sim": 0.9563205816430044,
+      "flow/improvement_ratio": 0.9955269416717634,
+      "flow/mag_ratio_mean": 0.9423067518020873,
+      "flow/mag_ratio_std": 0.0696161582929903,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_bleu": 0.12181793641122035,
+      "eval_ce_clean_loss": 0.0037171931636464446,
+      "eval_ce_pred_loss": 5.587970645460364,
+      "eval_flow_cos_loss": 0.0436794480742657,
+      "eval_flow_mse_loss": 0.191167407724411,
+      "eval_loss": 1.8267241172050233,
+      "eval_runtime": 184.7771,
+      "eval_samples_per_second": 151.496,
+      "eval_steps_per_second": 2.37,
+      "flow/cos_sim": 0.9563205816430044,
+      "flow/improvement_ratio": 0.9955269416717634,
+      "flow/mag_ratio_mean": 0.9423067518020873,
+      "flow/mag_ratio_std": 0.0696161582929903,
+      "step": 7168
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "grad_norm": 1.8774560689926147,
+      "learning_rate": 0.00021926538791819868,
+      "loss": 1.6859357357025146,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_bleu": 0.12412716525130273,
+      "eval_ce_clean_loss": 0.003235808240098785,
+      "eval_ce_pred_loss": 5.586532745187141,
+      "eval_flow_cos_loss": 0.041930202632870305,
+      "eval_flow_mse_loss": 0.18674346998538058,
+      "eval_loss": 1.815286138830664,
+      "flow/cos_sim": 0.9580698176606061,
+      "flow/improvement_ratio": 0.9943266426591568,
+      "flow/mag_ratio_mean": 0.9418132807293983,
+      "flow/mag_ratio_std": 0.06752052529795802,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_bleu": 0.12412716525130273,
+      "eval_ce_clean_loss": 0.003235808240098785,
+      "eval_ce_pred_loss": 5.586532745187141,
+      "eval_flow_cos_loss": 0.041930202632870305,
+      "eval_flow_mse_loss": 0.18674346998538058,
+      "eval_loss": 1.815286138830664,
+      "eval_runtime": 184.5163,
+      "eval_samples_per_second": 151.71,
+      "eval_steps_per_second": 2.374,
+      "flow/cos_sim": 0.9580698176606061,
+      "flow/improvement_ratio": 0.9943266426591568,
+      "flow/mag_ratio_mean": 0.9418132807293983,
+      "flow/mag_ratio_std": 0.06752052529795802,
+      "step": 8192
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "grad_norm": 2.329709768295288,
+      "learning_rate": 0.00019775821613655416,
+      "loss": 1.6662598848342896,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_bleu": 0.11950310892550009,
+      "eval_ce_clean_loss": 0.0025977063480207537,
+      "eval_ce_pred_loss": 5.67026076686981,
+      "eval_flow_cos_loss": 0.04075824715129044,
+      "eval_flow_mse_loss": 0.18378718476317243,
+      "eval_loss": 1.8284955149916209,
+      "flow/cos_sim": 0.9592417728955343,
+      "flow/improvement_ratio": 0.9952241491237187,
+      "flow/mag_ratio_mean": 0.9439138316944854,
+      "flow/mag_ratio_std": 0.06612530227359299,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_bleu": 0.11950310892550009,
+      "eval_ce_clean_loss": 0.0025977063480207537,
+      "eval_ce_pred_loss": 5.67026076686981,
+      "eval_flow_cos_loss": 0.04075824715129044,
+      "eval_flow_mse_loss": 0.18378718476317243,
+      "eval_loss": 1.8284955149916209,
+      "eval_runtime": 186.0874,
+      "eval_samples_per_second": 150.429,
+      "eval_steps_per_second": 2.354,
+      "flow/cos_sim": 0.9592417728955343,
+      "flow/improvement_ratio": 0.9952241491237187,
+      "flow/mag_ratio_mean": 0.9439138316944854,
+      "flow/mag_ratio_std": 0.06612530227359299,
+      "step": 9216
+    },
+    {
+      "epoch": 0.472957369174634,
+      "grad_norm": 2.7362329959869385,
+      "learning_rate": 0.0001751142697499792,
+      "loss": 1.6503983736038208,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_bleu": 0.11976017597763533,
+      "eval_ce_clean_loss": 0.002652165328458666,
+      "eval_ce_pred_loss": 5.855250802758622,
+      "eval_flow_cos_loss": 0.03927829848883087,
+      "eval_flow_mse_loss": 0.17931374369963118,
+      "eval_loss": 1.864370654162751,
+      "flow/cos_sim": 0.9607217273755705,
+      "flow/improvement_ratio": 0.9954166140186188,
+      "flow/mag_ratio_mean": 0.9475667691666242,
+      "flow/mag_ratio_std": 0.06483245904655217,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_bleu": 0.11976017597763533,
+      "eval_ce_clean_loss": 0.002652165328458666,
+      "eval_ce_pred_loss": 5.855250802758622,
+      "eval_flow_cos_loss": 0.03927829848883087,
+      "eval_flow_mse_loss": 0.17931374369963118,
+      "eval_loss": 1.864370654162751,
+      "eval_runtime": 186.3375,
+      "eval_samples_per_second": 150.227,
+      "eval_steps_per_second": 2.351,
+      "flow/cos_sim": 0.9607217273755705,
+      "flow/improvement_ratio": 0.9954166140186188,
+      "flow/mag_ratio_mean": 0.9475667691666242,
+      "flow/mag_ratio_std": 0.06483245904655217,
+      "step": 10240
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "grad_norm": 3.2729897499084473,
+      "learning_rate": 0.00015186187928153583,
+      "loss": 1.6382803916931152,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_bleu": 0.1233228239119365,
+      "eval_ce_clean_loss": 0.0019490949249535068,
+      "eval_ce_pred_loss": 5.623051446322437,
+      "eval_flow_cos_loss": 0.03965857877612931,
+      "eval_flow_mse_loss": 0.18266330101446474,
+      "eval_loss": 1.8126971375996663,
+      "flow/cos_sim": 0.9603414374943737,
+      "flow/improvement_ratio": 0.9949628561054735,
+      "flow/mag_ratio_mean": 0.9479109590456366,
+      "flow/mag_ratio_std": 0.06405468670370644,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_bleu": 0.1233228239119365,
+      "eval_ce_clean_loss": 0.0019490949249535068,
+      "eval_ce_pred_loss": 5.623051446322437,
+      "eval_flow_cos_loss": 0.03965857877612931,
+      "eval_flow_mse_loss": 0.18266330101446474,
+      "eval_loss": 1.8126971375996663,
+      "eval_runtime": 185.5321,
+      "eval_samples_per_second": 150.88,
+      "eval_steps_per_second": 2.361,
+      "flow/cos_sim": 0.9603414374943737,
+      "flow/improvement_ratio": 0.9949628561054735,
+      "flow/mag_ratio_mean": 0.9479109590456366,
+      "flow/mag_ratio_std": 0.06405468670370644,
+      "step": 11264
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 21651,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.3/checkpoint-11264/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e76013f70108cb4ddda27ec8328cf4ef6edec61c75334ae3d6e75eb2e082915f
+size 5137