Training in progress, step 500

Files changed (8) hide show

.ipynb_checkpoints/config-checkpoint.json ADDED Viewed

+{
+  "_name_or_path": "google/long-t5-tglobal-large",
+  "architectures": [
+    "LongT5ForConditionalGeneration"
+  ],
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "encoder_attention_type": "transient-global",
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "global_block_size": 16,
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "local_radius": 127,
+  "model_type": "longt5",
+  "n_positions": 4096,
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.28.0",
+  "use_cache": true,
+  "vocab_size": 32128
+}

config.json CHANGED Viewed

@@ -1,15 +1,17 @@
 {
-  "_name_or_path": "google/long-t5-tglobal-large",
   "architectures": [
     "LongT5ForConditionalGeneration"
   ],
-  "d_ff": 2816,
   "d_kv": 64,
-  "d_model": 1024,
   "decoder_start_token_id": 0,
   "dense_act_fn": "gelu_new",
   "dropout_rate": 0.1,
   "encoder_attention_type": "transient-global",
   "eos_token_id": 1,
   "feed_forward_proj": "gated-gelu",
   "global_block_size": 16,
@@ -17,16 +19,22 @@
   "is_encoder_decoder": true,
   "is_gated_act": true,
   "layer_norm_epsilon": 1e-06,
   "local_radius": 127,
   "model_type": "longt5",
   "n_positions": 4096,
-  "num_decoder_layers": 24,
-  "num_heads": 16,
-  "num_layers": 24,
   "output_past": true,
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,
   "tie_word_embeddings": false,
   "torch_dtype": "float16",
   "transformers_version": "4.28.0",

 {
+  "_name_or_path": "pszemraj/long-t5-tglobal-base-16384-book-summary",
   "architectures": [
     "LongT5ForConditionalGeneration"
   ],
+  "d_ff": 2048,
   "d_kv": 64,
+  "d_model": 768,
   "decoder_start_token_id": 0,
   "dense_act_fn": "gelu_new",
   "dropout_rate": 0.1,
+  "early_stopping": true,
   "encoder_attention_type": "transient-global",
+  "encoder_no_repeat_ngram_size": 4,
   "eos_token_id": 1,
   "feed_forward_proj": "gated-gelu",
   "global_block_size": 16,
   "is_encoder_decoder": true,
   "is_gated_act": true,
   "layer_norm_epsilon": 1e-06,
+  "length_penalty": 0.8,
   "local_radius": 127,
+  "max_length": 512,
+  "min_length": 8,
   "model_type": "longt5",
   "n_positions": 4096,
+  "no_repeat_ngram_size": 3,
+  "num_beams": 2,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
   "output_past": true,
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,
+  "repetition_penalty": 3.5,
   "tie_word_embeddings": false,
   "torch_dtype": "float16",
   "transformers_version": "4.28.0",

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cad7ef3ac97ddb274c82734a518c50977d743c238176dcc9a450a3e87454bb4d
-size 1566550451

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e00cc2e6089fcf5e470afffc7c1a7cc93de4e7b690f3483e13011d2e018ba73
+size 495275635

runs/May22_18-38-37_ngxqdzsc1d/events.out.tfevents.1684780724.ngxqdzsc1d.619.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:673899ff7940881758943485762e1706c4d9131f40f2bc3dd0a5d18a8bdf498f
-size 7664

 version https://git-lfs.github.com/spec/v1
+oid sha256:b53f62b8d16cb39e3462324f6225563d11b732a4a167ef67e334dbdb3368b980
+size 8492

runs/May23_17-09-18_nkgvrv3yge/1684861766.6704292/events.out.tfevents.1684861766.nkgvrv3yge.528.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d360d0bca33d4fa1b1358952782a7cfb411926a61d31cd77963960cd73350e5
+size 6109

runs/May23_17-09-18_nkgvrv3yge/events.out.tfevents.1684861766.nkgvrv3yge.528.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5fb1b92d083400e701131582f41ab59c8dc07817e9ad48559dc21c7b74206d9
+size 4738

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:729ea7a6bfa88f3e32eab7e3948c716f9dfe58452a13d1f8fcfb468c0759d070
 size 3759

 version https://git-lfs.github.com/spec/v1
+oid sha256:83acaa6702fab7e980b43dd39870ee191665a8a296eba33f5e6e2734b25b1bf4
 size 3759