Upload unknown (jax) trained on MIND-small — 3 seeds

Browse files

Files changed (13) hide show

README.md +5 -5
model.safetensors +2 -2
seed_123/model.safetensors +2 -2
seed_123/test_results.json +5 -5
seed_123/training_run_summary.json +75 -58
seed_42/model.safetensors +2 -2
seed_42/test_results.json +5 -5
seed_42/training_run_summary.json +72 -57
seed_456/model.safetensors +2 -2
seed_456/test_results.json +5 -5
seed_456/training_run_summary.json +82 -59
test_results.json +5 -5
training_run_summary.json +76 -59

README.md CHANGED Viewed

@@ -19,10 +19,10 @@ unknown news recommendation model trained on MIND-small using the
 | Seed | AUC | MRR | NDCG@5 | NDCG@10 |
 |------|-----|-----|--------|---------|
-| 123 | 0.6572 | 0.3102 | 0.3423 | 0.4066 |
-| 42 | 0.6554 | 0.3094 | 0.3417 | 0.4059 |
-| 456 * | 0.6610 | 0.3154 | 0.3493 | 0.4114 |
-| **mean ± std** | **0.6579±0.0024** | **0.3117±0.0027** | **0.3444±0.0035** | **0.4080±0.0025** |
 \* Best seed (weights at repo root)
@@ -30,7 +30,7 @@ unknown news recommendation model trained on MIND-small using the
 ```
 newsrex/unknown-JAX-MIND-small/
-├── model.safetensors          ← best seed (456)
 ├── test_results.json
 ├── training_run_summary.json
 ├── seed_123/model.safetensors

 | Seed | AUC | MRR | NDCG@5 | NDCG@10 |
 |------|-----|-----|--------|---------|
+| 123 * | 0.6747 | 0.3214 | 0.3556 | 0.4193 |
+| 42 | 0.6716 | 0.3195 | 0.3534 | 0.4178 |
+| 456 | 0.6738 | 0.3198 | 0.3547 | 0.4184 |
+| **mean ± std** | **0.6734±0.0013** | **0.3202±0.0009** | **0.3546±0.0009** | **0.4185±0.0006** |
 \* Best seed (weights at repo root)
 ```
 newsrex/unknown-JAX-MIND-small/
+├── model.safetensors          ← best seed (123)
 ├── test_results.json
 ├── training_run_summary.json
 ├── seed_123/model.safetensors

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5809d57dd71ecb6db27014cd04e327767128d1d3d34e77098b5e9e0a8498d35d
-size 30120764

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc1f1e1bc073a357b8f16209c0c38aa2b992377373af01fb3b1f650f99ebebf7
+size 47322396

seed_123/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e31c2ca76c1e6dc631572ae3b07558541bd22611475426ba4cef2686d7d2ebc9
-size 30120764

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc1f1e1bc073a357b8f16209c0c38aa2b992377373af01fb3b1f650f99ebebf7
+size 47322396

seed_123/test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "loss": 4.92648861047871,
-  "auc": 0.6571720979721083,
-  "mrr": 0.31024469673186644,
-  "ndcg@5": 0.3423080244275226,
-  "ndcg@10": 0.40658763345705257,
   "num_impressions": 72903.0
 }

 {
+  "loss": 4.895912475360167,
+  "auc": 0.6746637875073116,
+  "mrr": 0.3214330456909908,
+  "ndcg@5": 0.35560859266126893,
+  "ndcg@10": 0.4193156331068628,
   "num_impressions": 72903.0
 }

seed_123/training_run_summary.json CHANGED Viewed

@@ -14,9 +14,9 @@
         },
         "num_workers": 4,
         "train": {
-            "batch_size": 256,
             "num_epochs": 20,
-            "learning_rate": 0.0001,
             "gradient_clip_val": 1.0,
             "grad_accum_steps": 1,
             "early_stopping": {
@@ -35,8 +35,8 @@
         "logging": {
             "project_name": "NewsReX",
             "enable_wandb": true,
-            "experiment_name": "jax/MIND-small/MINER",
-            "wandb_group": "jax/MIND-small/MINER",
             "progress_backend": "tqdm"
         },
         "metrics": {
@@ -57,33 +57,49 @@
         },
         "spec": {
             "model": {
-                "name": "miner",
                 "architecture": {
                     "news_encoder": {
                         "type": "multi_head_self_attention",
                         "num_heads": 20,
-                        "head_dim": 15,
-                        "attention_hidden_dim": 200
                     },
                     "user_encoder": {
-                        "type": "poly_attention",
-                        "num_interest_vectors": 32,
-                        "context_code_dim": 200
                     },
                     "click_predictor": {
-                        "type": "miner_weighted"
                     }
                 },
                 "embedding": {
                     "size": 300,
                     "trainable": true
                 },
                 "dropout_rate": 0.2,
                 "seed": 42
             },
             "inputs": {
                 "title": {
-                    "max_length": 32
                 },
                 "history": {
                     "max_length": 50
@@ -91,11 +107,13 @@
                 "impressions": {
                     "max_length": 5
                 },
                 "process_title": true,
                 "process_abstract": false,
-                "process_category": false,
                 "process_subcategory": false,
-                "process_user_id": false
             },
             "training": {
                 "loss": {
@@ -105,8 +123,8 @@
                     "label_smoothing": 0.0
                 },
                 "optimizer": "adam",
-                "learning_rate": 0.0001,
-                "batch_size": 256,
                 "num_epochs": 20,
                 "gradient_clip_val": 1.0,
                 "grad_accum_steps": 1,
@@ -117,12 +135,11 @@
                 "negative_sampling": {
                     "strategy": "random",
                     "candidates": 4
-                },
-                "disagreement_beta": 0.0
             },
             "evaluation": {
                 "mode": "fast",
-                "evaluator": "miner",
                 "metrics": [
                     "auc",
                     "mrr",
@@ -165,7 +182,7 @@
                     "test": "https://huggingface.co/datasets/yjw1029/MIND/resolve/main/MINDlarge_test.zip"
                 }
             },
-            "max_title_length": 32,
             "max_abstract_length": 50,
             "max_history_length": 50,
             "max_impressions_length": 5,
@@ -201,10 +218,10 @@
             },
             "process_title": true,
             "process_abstract": false,
-            "process_category": false,
             "process_subcategory": false,
             "process_user_id": false,
-            "process_entities": false
         },
         "sampling": {
             "max_impressions_length": 5,
@@ -233,55 +250,55 @@
                 "popularity_metric": "clicks"
             }
         },
-        "name": "mind_miner",
-        "model_name": "MINER",
-        "_output_run_dir": "outputs/train/MIND-small/MINER/jax/seed_123"
     },
     "initial_validation_metrics": {},
     "best_validation_summary": {
         "epoch_number": 10.0,
-        "train_loss": 1.2501504832724912,
-        "average_metric_value": 0.5135612731114987,
-        "val_loss": 4.545362673404428,
-        "val_auc": 0.7384352551542146,
-        "val_mrr": 0.39306353637528535,
-        "val_ndcg@5": 0.4333901504465677,
-        "val_ndcg@10": 0.48935615046992686,
         "val_num_impressions": 7824.0,
         "timing": {
             "epoch_training_times": [
-                71.18830108642578,
-                62.87943387031555,
-                62.967676877975464,
-                63.10715103149414,
-                62.84839701652527,
-                62.86342763900757,
-                62.87361526489258,
-                62.84349250793457,
-                62.89455699920654,
-                63.005797386169434
             ],
             "epoch_validation_times": [
-                11.74907636642456,
-                12.583629846572876,
-                11.75955605506897,
-                11.424553632736206,
-                11.628926038742065,
-                11.403961896896362,
-                11.330087184906006,
-                11.383567333221436,
-                11.728122472763062,
-                11.453450918197632
             ],
-            "total_training_time": 754.0534536838531
         }
     },
     "final_test_metrics": {
-        "loss": 4.92648861047871,
-        "auc": 0.6571720979721083,
-        "mrr": 0.31024469673186644,
-        "ndcg@5": 0.3423080244275226,
-        "ndcg@10": 0.40658763345705257,
         "num_impressions": 72903.0
     }
 }

         },
         "num_workers": 4,
         "train": {
+            "batch_size": 64,
             "num_epochs": 20,
+            "learning_rate": 5e-05,
             "gradient_clip_val": 1.0,
             "grad_accum_steps": 1,
             "early_stopping": {
         "logging": {
             "project_name": "NewsReX",
             "enable_wandb": true,
+            "experiment_name": "jax/MIND-small/CAUM",
+            "wandb_group": "jax/MIND-small/CAUM",
             "progress_backend": "tqdm"
         },
         "metrics": {
         },
         "spec": {
             "model": {
+                "name": "caum",
                 "architecture": {
                     "news_encoder": {
                         "type": "multi_head_self_attention",
                         "num_heads": 20,
+                        "head_dim": 20,
+                        "attention_hidden_dim": 200,
+                        "entity_embedding_dim": 100,
+                        "entity_num_heads": 4,
+                        "entity_head_dim": 40,
+                        "category_embedding_dim": 100
                     },
                     "user_encoder": {
+                        "type": "candidate_aware",
+                        "candi_selfatt": {
+                            "num_heads": 20,
+                            "head_dim": 20
+                        },
+                        "candi_cnn": {
+                            "half_window": 1
+                        },
+                        "candi_att": {
+                            "hidden_dim": 400,
+                            "mid_dim": 256
+                        }
                     },
                     "click_predictor": {
+                        "type": "dot_product"
                     }
                 },
                 "embedding": {
                     "size": 300,
                     "trainable": true
                 },
+                "news_dim": 400,
+                "use_entity": true,
+                "use_category": true,
                 "dropout_rate": 0.2,
                 "seed": 42
             },
             "inputs": {
                 "title": {
+                    "max_length": 30
                 },
                 "history": {
                     "max_length": 50
                 "impressions": {
                     "max_length": 5
                 },
+                "max_entities": 5,
                 "process_title": true,
                 "process_abstract": false,
+                "process_category": true,
                 "process_subcategory": false,
+                "process_user_id": false,
+                "process_entities": true
             },
             "training": {
                 "loss": {
                     "label_smoothing": 0.0
                 },
                 "optimizer": "adam",
+                "learning_rate": 5e-05,
+                "batch_size": 64,
                 "num_epochs": 20,
                 "gradient_clip_val": 1.0,
                 "grad_accum_steps": 1,
                 "negative_sampling": {
                     "strategy": "random",
                     "candidates": 4
+                }
             },
             "evaluation": {
                 "mode": "fast",
+                "evaluator": "caum",
                 "metrics": [
                     "auc",
                     "mrr",
                     "test": "https://huggingface.co/datasets/yjw1029/MIND/resolve/main/MINDlarge_test.zip"
                 }
             },
+            "max_title_length": 30,
             "max_abstract_length": 50,
             "max_history_length": 50,
             "max_impressions_length": 5,
             },
             "process_title": true,
             "process_abstract": false,
+            "process_category": true,
             "process_subcategory": false,
             "process_user_id": false,
+            "process_entities": true
         },
         "sampling": {
             "max_impressions_length": 5,
                 "popularity_metric": "clicks"
             }
         },
+        "name": "mind_caum",
+        "model_name": "CAUM",
+        "_output_run_dir": "outputs/train/MIND-small/CAUM/jax/seed_123"
     },
     "initial_validation_metrics": {},
     "best_validation_summary": {
         "epoch_number": 10.0,
+        "train_loss": 1.2371471108698318,
+        "average_metric_value": 0.5206724943439838,
+        "val_loss": 4.4820805537700945,
+        "val_auc": 0.7497600715485296,
+        "val_mrr": 0.39857799672194205,
+        "val_ndcg@5": 0.4387125845284695,
+        "val_ndcg@10": 0.4956393245769941,
         "val_num_impressions": 7824.0,
         "timing": {
             "epoch_training_times": [
+                152.7604115009308,
+                128.3657763004303,
+                128.71619987487793,
+                126.83259797096252,
+                126.7269389629364,
+                127.33337998390198,
+                126.36471319198608,
+                127.29102325439453,
+                126.6120913028717,
+                126.97762560844421
             ],
             "epoch_validation_times": [
+                156.19692087173462,
+                156.4893136024475,
+                156.90509462356567,
+                155.93345546722412,
+                156.1876072883606,
+                154.95236468315125,
+                157.0661187171936,
+                156.74578547477722,
+                156.08843064308167,
+                156.18353486061096
             ],
+            "total_training_time": 2860.9791276454926
         }
     },
     "final_test_metrics": {
+        "loss": 4.895912475360167,
+        "auc": 0.6746637875073116,
+        "mrr": 0.3214330456909908,
+        "ndcg@5": 0.35560859266126893,
+        "ndcg@10": 0.4193156331068628,
         "num_impressions": 72903.0
     }
 }

seed_42/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ad5e89f2343d72d3788a0d56fa3f57d38e86d1b0a782e096887538832a5a59f
-size 30120764

 version https://git-lfs.github.com/spec/v1
+oid sha256:46661584d959a93125cf9e06b08b854139a5e1b41f9fcaf59f431ddde61d5553
+size 47322396

seed_42/test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "loss": 4.925114505765238,
-  "auc": 0.6553702338083797,
-  "mrr": 0.30940605135318755,
-  "ndcg@5": 0.341709287858149,
-  "ndcg@10": 0.4058715255854905,
   "num_impressions": 72903.0
 }

 {
+  "loss": 4.885279593137135,
+  "auc": 0.6716255651925904,
+  "mrr": 0.31951080672544796,
+  "ndcg@5": 0.3533953887559558,
+  "ndcg@10": 0.417788739745737,
   "num_impressions": 72903.0
 }

seed_42/training_run_summary.json CHANGED Viewed

@@ -14,9 +14,9 @@
         },
         "num_workers": 4,
         "train": {
-            "batch_size": 256,
             "num_epochs": 20,
-            "learning_rate": 0.0001,
             "gradient_clip_val": 1.0,
             "grad_accum_steps": 1,
             "early_stopping": {
@@ -35,8 +35,8 @@
         "logging": {
             "project_name": "NewsReX",
             "enable_wandb": true,
-            "experiment_name": "jax/MIND-small/MINER",
-            "wandb_group": "jax/MIND-small/MINER",
             "progress_backend": "tqdm"
         },
         "metrics": {
@@ -57,33 +57,49 @@
         },
         "spec": {
             "model": {
-                "name": "miner",
                 "architecture": {
                     "news_encoder": {
                         "type": "multi_head_self_attention",
                         "num_heads": 20,
-                        "head_dim": 15,
-                        "attention_hidden_dim": 200
                     },
                     "user_encoder": {
-                        "type": "poly_attention",
-                        "num_interest_vectors": 32,
-                        "context_code_dim": 200
                     },
                     "click_predictor": {
-                        "type": "miner_weighted"
                     }
                 },
                 "embedding": {
                     "size": 300,
                     "trainable": true
                 },
                 "dropout_rate": 0.2,
                 "seed": 42
             },
             "inputs": {
                 "title": {
-                    "max_length": 32
                 },
                 "history": {
                     "max_length": 50
@@ -91,11 +107,13 @@
                 "impressions": {
                     "max_length": 5
                 },
                 "process_title": true,
                 "process_abstract": false,
-                "process_category": false,
                 "process_subcategory": false,
-                "process_user_id": false
             },
             "training": {
                 "loss": {
@@ -105,8 +123,8 @@
                     "label_smoothing": 0.0
                 },
                 "optimizer": "adam",
-                "learning_rate": 0.0001,
-                "batch_size": 256,
                 "num_epochs": 20,
                 "gradient_clip_val": 1.0,
                 "grad_accum_steps": 1,
@@ -117,12 +135,11 @@
                 "negative_sampling": {
                     "strategy": "random",
                     "candidates": 4
-                },
-                "disagreement_beta": 0.0
             },
             "evaluation": {
                 "mode": "fast",
-                "evaluator": "miner",
                 "metrics": [
                     "auc",
                     "mrr",
@@ -165,7 +182,7 @@
                     "test": "https://huggingface.co/datasets/yjw1029/MIND/resolve/main/MINDlarge_test.zip"
                 }
             },
-            "max_title_length": 32,
             "max_abstract_length": 50,
             "max_history_length": 50,
             "max_impressions_length": 5,
@@ -201,10 +218,10 @@
             },
             "process_title": true,
             "process_abstract": false,
-            "process_category": false,
             "process_subcategory": false,
             "process_user_id": false,
-            "process_entities": false
         },
         "sampling": {
             "max_impressions_length": 5,
@@ -233,53 +250,51 @@
                 "popularity_metric": "clicks"
             }
         },
-        "name": "mind_miner",
-        "model_name": "MINER",
-        "_output_run_dir": "outputs/train/MIND-small/MINER/jax/seed_42"
     },
     "initial_validation_metrics": {},
     "best_validation_summary": {
-        "epoch_number": 9.0,
-        "train_loss": 1.2597609755642918,
-        "average_metric_value": 0.5119660142906305,
-        "val_loss": 4.5441461753106465,
-        "val_auc": 0.737987192380942,
-        "val_mrr": 0.3909625976580763,
-        "val_ndcg@5": 0.43153682142267125,
-        "val_ndcg@10": 0.4873774457008323,
         "val_num_impressions": 7824.0,
         "timing": {
             "epoch_training_times": [
-                78.00520277023315,
-                62.693925857543945,
-                62.73479104042053,
-                62.80352997779846,
-                62.82089352607727,
-                62.820459604263306,
-                62.90017533302307,
-                62.87917137145996,
-                62.84117293357849
             ],
             "epoch_validation_times": [
-                29.52086305618286,
-                11.211390495300293,
-                11.216083288192749,
-                11.213022232055664,
-                11.313706874847412,
-                11.01102328300476,
-                11.401762247085571,
-                11.213991641998291,
-                11.277428150177002
             ],
-            "total_training_time": 700.129714012146
         }
     },
     "final_test_metrics": {
-        "loss": 4.925114505765238,
-        "auc": 0.6553702338083797,
-        "mrr": 0.30940605135318755,
-        "ndcg@5": 0.341709287858149,
-        "ndcg@10": 0.4058715255854905,
         "num_impressions": 72903.0
     }
 }

         },
         "num_workers": 4,
         "train": {
+            "batch_size": 64,
             "num_epochs": 20,
+            "learning_rate": 5e-05,
             "gradient_clip_val": 1.0,
             "grad_accum_steps": 1,
             "early_stopping": {
         "logging": {
             "project_name": "NewsReX",
             "enable_wandb": true,
+            "experiment_name": "jax/MIND-small/CAUM",
+            "wandb_group": "jax/MIND-small/CAUM",
             "progress_backend": "tqdm"
         },
         "metrics": {
         },
         "spec": {
             "model": {
+                "name": "caum",
                 "architecture": {
                     "news_encoder": {
                         "type": "multi_head_self_attention",
                         "num_heads": 20,
+                        "head_dim": 20,
+                        "attention_hidden_dim": 200,
+                        "entity_embedding_dim": 100,
+                        "entity_num_heads": 4,
+                        "entity_head_dim": 40,
+                        "category_embedding_dim": 100
                     },
                     "user_encoder": {
+                        "type": "candidate_aware",
+                        "candi_selfatt": {
+                            "num_heads": 20,
+                            "head_dim": 20
+                        },
+                        "candi_cnn": {
+                            "half_window": 1
+                        },
+                        "candi_att": {
+                            "hidden_dim": 400,
+                            "mid_dim": 256
+                        }
                     },
                     "click_predictor": {
+                        "type": "dot_product"
                     }
                 },
                 "embedding": {
                     "size": 300,
                     "trainable": true
                 },
+                "news_dim": 400,
+                "use_entity": true,
+                "use_category": true,
                 "dropout_rate": 0.2,
                 "seed": 42
             },
             "inputs": {
                 "title": {
+                    "max_length": 30
                 },
                 "history": {
                     "max_length": 50
                 "impressions": {
                     "max_length": 5
                 },
+                "max_entities": 5,
                 "process_title": true,
                 "process_abstract": false,
+                "process_category": true,
                 "process_subcategory": false,
+                "process_user_id": false,
+                "process_entities": true
             },
             "training": {
                 "loss": {
                     "label_smoothing": 0.0
                 },
                 "optimizer": "adam",
+                "learning_rate": 5e-05,
+                "batch_size": 64,
                 "num_epochs": 20,
                 "gradient_clip_val": 1.0,
                 "grad_accum_steps": 1,
                 "negative_sampling": {
                     "strategy": "random",
                     "candidates": 4
+                }
             },
             "evaluation": {
                 "mode": "fast",
+                "evaluator": "caum",
                 "metrics": [
                     "auc",
                     "mrr",
                     "test": "https://huggingface.co/datasets/yjw1029/MIND/resolve/main/MINDlarge_test.zip"
                 }
             },
+            "max_title_length": 30,
             "max_abstract_length": 50,
             "max_history_length": 50,
             "max_impressions_length": 5,
             },
             "process_title": true,
             "process_abstract": false,
+            "process_category": true,
             "process_subcategory": false,
             "process_user_id": false,
+            "process_entities": true
         },
         "sampling": {
             "max_impressions_length": 5,
                 "popularity_metric": "clicks"
             }
         },
+        "name": "mind_caum",
+        "model_name": "CAUM",
+        "_output_run_dir": "outputs/train/MIND-small/CAUM/jax/seed_42"
     },
     "initial_validation_metrics": {},
     "best_validation_summary": {
+        "epoch_number": 8.0,
+        "train_loss": 1.2569683923193469,
+        "average_metric_value": 0.5173871047050278,
+        "val_loss": 4.491243967664317,
+        "val_auc": 0.7467889007717999,
+        "val_mrr": 0.3941287371779766,
+        "val_ndcg@5": 0.43629077698141816,
+        "val_ndcg@10": 0.4923400038889164,
         "val_num_impressions": 7824.0,
         "timing": {
             "epoch_training_times": [
+                163.71576189994812,
+                128.66470193862915,
+                124.40946054458618,
+                122.63417339324951,
+                123.02388978004456,
+                124.40860843658447,
+                123.64945530891418,
+                124.03472113609314
             ],
             "epoch_validation_times": [
+                225.55031847953796,
+                155.1456437110901,
+                154.2360875606537,
+                154.55679368972778,
+                155.49029302597046,
+                155.03285694122314,
+                156.5079698562622,
+                172.0624237060547
             ],
+            "total_training_time": 2363.861449956894
         }
     },
     "final_test_metrics": {
+        "loss": 4.885279593137135,
+        "auc": 0.6716255651925904,
+        "mrr": 0.31951080672544796,
+        "ndcg@5": 0.3533953887559558,
+        "ndcg@10": 0.417788739745737,
         "num_impressions": 72903.0
     }
 }

seed_456/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5809d57dd71ecb6db27014cd04e327767128d1d3d34e77098b5e9e0a8498d35d
-size 30120764

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cd4d9a97441772d74ccab684c954e1171a9ecf441fe34670675fde572bea7cd
+size 47322396

seed_456/test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "loss": 4.910807717004194,
-  "auc": 0.6610269817847421,
-  "mrr": 0.31542774079388963,
-  "ndcg@5": 0.3493151809693276,
-  "ndcg@10": 0.41142998961113014,
   "num_impressions": 72903.0
 }

 {
+  "loss": 4.950947674984418,
+  "auc": 0.6738278414537523,
+  "mrr": 0.3197613372828518,
+  "ndcg@5": 0.35466981589059265,
+  "ndcg@10": 0.4184225692327627,
   "num_impressions": 72903.0
 }

seed_456/training_run_summary.json CHANGED Viewed

@@ -14,9 +14,9 @@
         },
         "num_workers": 4,
         "train": {
-            "batch_size": 256,
             "num_epochs": 20,
-            "learning_rate": 0.0001,
             "gradient_clip_val": 1.0,
             "grad_accum_steps": 1,
             "early_stopping": {
@@ -35,8 +35,8 @@
         "logging": {
             "project_name": "NewsReX",
             "enable_wandb": true,
-            "experiment_name": "jax/MIND-small/MINER",
-            "wandb_group": "jax/MIND-small/MINER",
             "progress_backend": "tqdm"
         },
         "metrics": {
@@ -57,33 +57,49 @@
         },
         "spec": {
             "model": {
-                "name": "miner",
                 "architecture": {
                     "news_encoder": {
                         "type": "multi_head_self_attention",
                         "num_heads": 20,
-                        "head_dim": 15,
-                        "attention_hidden_dim": 200
                     },
                     "user_encoder": {
-                        "type": "poly_attention",
-                        "num_interest_vectors": 32,
-                        "context_code_dim": 200
                     },
                     "click_predictor": {
-                        "type": "miner_weighted"
                     }
                 },
                 "embedding": {
                     "size": 300,
                     "trainable": true
                 },
                 "dropout_rate": 0.2,
                 "seed": 42
             },
             "inputs": {
                 "title": {
-                    "max_length": 32
                 },
                 "history": {
                     "max_length": 50
@@ -91,11 +107,13 @@
                 "impressions": {
                     "max_length": 5
                 },
                 "process_title": true,
                 "process_abstract": false,
-                "process_category": false,
                 "process_subcategory": false,
-                "process_user_id": false
             },
             "training": {
                 "loss": {
@@ -105,8 +123,8 @@
                     "label_smoothing": 0.0
                 },
                 "optimizer": "adam",
-                "learning_rate": 0.0001,
-                "batch_size": 256,
                 "num_epochs": 20,
                 "gradient_clip_val": 1.0,
                 "grad_accum_steps": 1,
@@ -117,12 +135,11 @@
                 "negative_sampling": {
                     "strategy": "random",
                     "candidates": 4
-                },
-                "disagreement_beta": 0.0
             },
             "evaluation": {
                 "mode": "fast",
-                "evaluator": "miner",
                 "metrics": [
                     "auc",
                     "mrr",
@@ -165,7 +182,7 @@
                     "test": "https://huggingface.co/datasets/yjw1029/MIND/resolve/main/MINDlarge_test.zip"
                 }
             },
-            "max_title_length": 32,
             "max_abstract_length": 50,
             "max_history_length": 50,
             "max_impressions_length": 5,
@@ -201,10 +218,10 @@
             },
             "process_title": true,
             "process_abstract": false,
-            "process_category": false,
             "process_subcategory": false,
             "process_user_id": false,
-            "process_entities": false
         },
         "sampling": {
             "max_impressions_length": 5,
@@ -233,55 +250,61 @@
                 "popularity_metric": "clicks"
             }
         },
-        "name": "mind_miner",
-        "model_name": "MINER",
-        "_output_run_dir": "outputs/train/MIND-small/MINER/jax/seed_456"
     },
     "initial_validation_metrics": {},
     "best_validation_summary": {
-        "epoch_number": 10.0,
-        "train_loss": 1.2491450628282827,
-        "average_metric_value": 0.5131546061358819,
-        "val_loss": 4.5402689920965695,
-        "val_auc": 0.7392415450055885,
-        "val_mrr": 0.3919240447865865,
-        "val_ndcg@5": 0.43223670000122844,
-        "val_ndcg@10": 0.4892161347501242,
         "val_num_impressions": 7824.0,
         "timing": {
             "epoch_training_times": [
-                70.5757703781128,
-                62.89035391807556,
-                62.930856466293335,
-                63.10829186439514,
-                62.82699203491211,
-                62.85480761528015,
-                62.882643938064575,
-                62.869295835494995,
-                62.86847472190857,
-                63.02408576011658
             ],
             "epoch_validation_times": [
-                11.774123430252075,
-                12.315673112869263,
-                11.416253089904785,
-                11.266973972320557,
-                11.681710004806519,
-                11.7137451171875,
-                11.597033977508545,
-                11.410844087600708,
-                11.442832708358765,
-                11.662149429321289
             ],
-            "total_training_time": 753.249516248703
         }
     },
     "final_test_metrics": {
-        "loss": 4.910807717004194,
-        "auc": 0.6610269817847421,
-        "mrr": 0.31542774079388963,
-        "ndcg@5": 0.3493151809693276,
-        "ndcg@10": 0.41142998961113014,
         "num_impressions": 72903.0
     }
 }

         },
         "num_workers": 4,
         "train": {
+            "batch_size": 64,
             "num_epochs": 20,
+            "learning_rate": 5e-05,
             "gradient_clip_val": 1.0,
             "grad_accum_steps": 1,
             "early_stopping": {
         "logging": {
             "project_name": "NewsReX",
             "enable_wandb": true,
+            "experiment_name": "jax/MIND-small/CAUM",
+            "wandb_group": "jax/MIND-small/CAUM",
             "progress_backend": "tqdm"
         },
         "metrics": {
         },
         "spec": {
             "model": {
+                "name": "caum",
                 "architecture": {
                     "news_encoder": {
                         "type": "multi_head_self_attention",
                         "num_heads": 20,
+                        "head_dim": 20,
+                        "attention_hidden_dim": 200,
+                        "entity_embedding_dim": 100,
+                        "entity_num_heads": 4,
+                        "entity_head_dim": 40,
+                        "category_embedding_dim": 100
                     },
                     "user_encoder": {
+                        "type": "candidate_aware",
+                        "candi_selfatt": {
+                            "num_heads": 20,
+                            "head_dim": 20
+                        },
+                        "candi_cnn": {
+                            "half_window": 1
+                        },
+                        "candi_att": {
+                            "hidden_dim": 400,
+                            "mid_dim": 256
+                        }
                     },
                     "click_predictor": {
+                        "type": "dot_product"
                     }
                 },
                 "embedding": {
                     "size": 300,
                     "trainable": true
                 },
+                "news_dim": 400,
+                "use_entity": true,
+                "use_category": true,
                 "dropout_rate": 0.2,
                 "seed": 42
             },
             "inputs": {
                 "title": {
+                    "max_length": 30
                 },
                 "history": {
                     "max_length": 50
                 "impressions": {
                     "max_length": 5
                 },
+                "max_entities": 5,
                 "process_title": true,
                 "process_abstract": false,
+                "process_category": true,
                 "process_subcategory": false,
+                "process_user_id": false,
+                "process_entities": true
             },
             "training": {
                 "loss": {
                     "label_smoothing": 0.0
                 },
                 "optimizer": "adam",
+                "learning_rate": 5e-05,
+                "batch_size": 64,
                 "num_epochs": 20,
                 "gradient_clip_val": 1.0,
                 "grad_accum_steps": 1,
                 "negative_sampling": {
                     "strategy": "random",
                     "candidates": 4
+                }
             },
             "evaluation": {
                 "mode": "fast",
+                "evaluator": "caum",
                 "metrics": [
                     "auc",
                     "mrr",
                     "test": "https://huggingface.co/datasets/yjw1029/MIND/resolve/main/MINDlarge_test.zip"
                 }
             },
+            "max_title_length": 30,
             "max_abstract_length": 50,
             "max_history_length": 50,
             "max_impressions_length": 5,
             },
             "process_title": true,
             "process_abstract": false,
+            "process_category": true,
             "process_subcategory": false,
             "process_user_id": false,
+            "process_entities": true
         },
         "sampling": {
             "max_impressions_length": 5,
                 "popularity_metric": "clicks"
             }
         },
+        "name": "mind_caum",
+        "model_name": "CAUM",
+        "_output_run_dir": "outputs/train/MIND-small/CAUM/jax/seed_456"
     },
     "initial_validation_metrics": {},
     "best_validation_summary": {
+        "epoch_number": 13.0,
+        "train_loss": 1.2085938783405776,
+        "average_metric_value": 0.5244346178265784,
+        "val_loss": 4.477954248841599,
+        "val_auc": 0.7521172050673615,
+        "val_mrr": 0.40180118932638526,
+        "val_ndcg@5": 0.44354011060889836,
+        "val_ndcg@10": 0.5002799663036684,
         "val_num_impressions": 7824.0,
         "timing": {
             "epoch_training_times": [
+                152.42811727523804,
+                125.81604671478271,
+                127.34339237213135,
+                127.5574357509613,
+                127.87119317054749,
+                129.09366917610168,
+                125.57747483253479,
+                126.41677451133728,
+                131.13811135292053,
+                133.3327136039734,
+                128.3407974243164,
+                126.74892687797546,
+                127.14060878753662
             ],
             "epoch_validation_times": [
+                157.19076895713806,
+                158.20304155349731,
+                155.41660618782043,
+                156.2762279510498,
+                158.21885561943054,
+                157.79540181159973,
+                157.7053678035736,
+                156.86289072036743,
+                196.53685116767883,
+                156.58508348464966,
+                156.7785358428955,
+                155.07468962669373,
+                156.94045853614807
             ],
+            "total_training_time": 3768.693561077118
         }
     },
     "final_test_metrics": {
+        "loss": 4.950947674984418,
+        "auc": 0.6738278414537523,
+        "mrr": 0.3197613372828518,
+        "ndcg@5": 0.35466981589059265,
+        "ndcg@10": 0.4184225692327627,
         "num_impressions": 72903.0
     }
 }

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "loss": 4.910807717004194,
-  "auc": 0.6610269817847421,
-  "mrr": 0.31542774079388963,
-  "ndcg@5": 0.3493151809693276,
-  "ndcg@10": 0.41142998961113014,
   "num_impressions": 72903.0
 }

 {
+  "loss": 4.895912475360167,
+  "auc": 0.6746637875073116,
+  "mrr": 0.3214330456909908,
+  "ndcg@5": 0.35560859266126893,
+  "ndcg@10": 0.4193156331068628,
   "num_impressions": 72903.0
 }

training_run_summary.json CHANGED Viewed

@@ -2,7 +2,7 @@
     "configuration": {
         "framework": "jax",
         "weights": null,
-        "seed": 456,
         "output_base_dir": "outputs",
         "device": {
             "gpu_ids": [
@@ -14,9 +14,9 @@
         },
         "num_workers": 4,
         "train": {
-            "batch_size": 256,
             "num_epochs": 20,
-            "learning_rate": 0.0001,
             "gradient_clip_val": 1.0,
             "grad_accum_steps": 1,
             "early_stopping": {
@@ -35,8 +35,8 @@
         "logging": {
             "project_name": "NewsReX",
             "enable_wandb": true,
-            "experiment_name": "jax/MIND-small/MINER",
-            "wandb_group": "jax/MIND-small/MINER",
             "progress_backend": "tqdm"
         },
         "metrics": {
@@ -57,33 +57,49 @@
         },
         "spec": {
             "model": {
-                "name": "miner",
                 "architecture": {
                     "news_encoder": {
                         "type": "multi_head_self_attention",
                         "num_heads": 20,
-                        "head_dim": 15,
-                        "attention_hidden_dim": 200
                     },
                     "user_encoder": {
-                        "type": "poly_attention",
-                        "num_interest_vectors": 32,
-                        "context_code_dim": 200
                     },
                     "click_predictor": {
-                        "type": "miner_weighted"
                     }
                 },
                 "embedding": {
                     "size": 300,
                     "trainable": true
                 },
                 "dropout_rate": 0.2,
                 "seed": 42
             },
             "inputs": {
                 "title": {
-                    "max_length": 32
                 },
                 "history": {
                     "max_length": 50
@@ -91,11 +107,13 @@
                 "impressions": {
                     "max_length": 5
                 },
                 "process_title": true,
                 "process_abstract": false,
-                "process_category": false,
                 "process_subcategory": false,
-                "process_user_id": false
             },
             "training": {
                 "loss": {
@@ -105,8 +123,8 @@
                     "label_smoothing": 0.0
                 },
                 "optimizer": "adam",
-                "learning_rate": 0.0001,
-                "batch_size": 256,
                 "num_epochs": 20,
                 "gradient_clip_val": 1.0,
                 "grad_accum_steps": 1,
@@ -117,12 +135,11 @@
                 "negative_sampling": {
                     "strategy": "random",
                     "candidates": 4
-                },
-                "disagreement_beta": 0.0
             },
             "evaluation": {
                 "mode": "fast",
-                "evaluator": "miner",
                 "metrics": [
                     "auc",
                     "mrr",
@@ -165,7 +182,7 @@
                     "test": "https://huggingface.co/datasets/yjw1029/MIND/resolve/main/MINDlarge_test.zip"
                 }
             },
-            "max_title_length": 32,
             "max_abstract_length": 50,
             "max_history_length": 50,
             "max_impressions_length": 5,
@@ -201,10 +218,10 @@
             },
             "process_title": true,
             "process_abstract": false,
-            "process_category": false,
             "process_subcategory": false,
             "process_user_id": false,
-            "process_entities": false
         },
         "sampling": {
             "max_impressions_length": 5,
@@ -233,55 +250,55 @@
                 "popularity_metric": "clicks"
             }
         },
-        "name": "mind_miner",
-        "model_name": "MINER",
-        "_output_run_dir": "outputs/train/MIND-small/MINER/jax/seed_456"
     },
     "initial_validation_metrics": {},
     "best_validation_summary": {
         "epoch_number": 10.0,
-        "train_loss": 1.2491450628282827,
-        "average_metric_value": 0.5131546061358819,
-        "val_loss": 4.5402689920965695,
-        "val_auc": 0.7392415450055885,
-        "val_mrr": 0.3919240447865865,
-        "val_ndcg@5": 0.43223670000122844,
-        "val_ndcg@10": 0.4892161347501242,
         "val_num_impressions": 7824.0,
         "timing": {
             "epoch_training_times": [
-                70.5757703781128,
-                62.89035391807556,
-                62.930856466293335,
-                63.10829186439514,
-                62.82699203491211,
-                62.85480761528015,
-                62.882643938064575,
-                62.869295835494995,
-                62.86847472190857,
-                63.02408576011658
             ],
             "epoch_validation_times": [
-                11.774123430252075,
-                12.315673112869263,
-                11.416253089904785,
-                11.266973972320557,
-                11.681710004806519,
-                11.7137451171875,
-                11.597033977508545,
-                11.410844087600708,
-                11.442832708358765,
-                11.662149429321289
             ],
-            "total_training_time": 753.249516248703
         }
     },
     "final_test_metrics": {
-        "loss": 4.910807717004194,
-        "auc": 0.6610269817847421,
-        "mrr": 0.31542774079388963,
-        "ndcg@5": 0.3493151809693276,
-        "ndcg@10": 0.41142998961113014,
         "num_impressions": 72903.0
     }
 }

     "configuration": {
         "framework": "jax",
         "weights": null,
+        "seed": 123,
         "output_base_dir": "outputs",
         "device": {
             "gpu_ids": [
         },
         "num_workers": 4,
         "train": {
+            "batch_size": 64,
             "num_epochs": 20,
+            "learning_rate": 5e-05,
             "gradient_clip_val": 1.0,
             "grad_accum_steps": 1,
             "early_stopping": {
         "logging": {
             "project_name": "NewsReX",
             "enable_wandb": true,
+            "experiment_name": "jax/MIND-small/CAUM",
+            "wandb_group": "jax/MIND-small/CAUM",
             "progress_backend": "tqdm"
         },
         "metrics": {
         },
         "spec": {
             "model": {
+                "name": "caum",
                 "architecture": {
                     "news_encoder": {
                         "type": "multi_head_self_attention",
                         "num_heads": 20,
+                        "head_dim": 20,
+                        "attention_hidden_dim": 200,
+                        "entity_embedding_dim": 100,
+                        "entity_num_heads": 4,
+                        "entity_head_dim": 40,
+                        "category_embedding_dim": 100
                     },
                     "user_encoder": {
+                        "type": "candidate_aware",
+                        "candi_selfatt": {
+                            "num_heads": 20,
+                            "head_dim": 20
+                        },
+                        "candi_cnn": {
+                            "half_window": 1
+                        },
+                        "candi_att": {
+                            "hidden_dim": 400,
+                            "mid_dim": 256
+                        }
                     },
                     "click_predictor": {
+                        "type": "dot_product"
                     }
                 },
                 "embedding": {
                     "size": 300,
                     "trainable": true
                 },
+                "news_dim": 400,
+                "use_entity": true,
+                "use_category": true,
                 "dropout_rate": 0.2,
                 "seed": 42
             },
             "inputs": {
                 "title": {
+                    "max_length": 30
                 },
                 "history": {
                     "max_length": 50
                 "impressions": {
                     "max_length": 5
                 },
+                "max_entities": 5,
                 "process_title": true,
                 "process_abstract": false,
+                "process_category": true,
                 "process_subcategory": false,
+                "process_user_id": false,
+                "process_entities": true
             },
             "training": {
                 "loss": {
                     "label_smoothing": 0.0
                 },
                 "optimizer": "adam",
+                "learning_rate": 5e-05,
+                "batch_size": 64,
                 "num_epochs": 20,
                 "gradient_clip_val": 1.0,
                 "grad_accum_steps": 1,
                 "negative_sampling": {
                     "strategy": "random",
                     "candidates": 4
+                }
             },
             "evaluation": {
                 "mode": "fast",
+                "evaluator": "caum",
                 "metrics": [
                     "auc",
                     "mrr",
                     "test": "https://huggingface.co/datasets/yjw1029/MIND/resolve/main/MINDlarge_test.zip"
                 }
             },
+            "max_title_length": 30,
             "max_abstract_length": 50,
             "max_history_length": 50,
             "max_impressions_length": 5,
             },
             "process_title": true,
             "process_abstract": false,
+            "process_category": true,
             "process_subcategory": false,
             "process_user_id": false,
+            "process_entities": true
         },
         "sampling": {
             "max_impressions_length": 5,
                 "popularity_metric": "clicks"
             }
         },
+        "name": "mind_caum",
+        "model_name": "CAUM",
+        "_output_run_dir": "outputs/train/MIND-small/CAUM/jax/seed_123"
     },
     "initial_validation_metrics": {},
     "best_validation_summary": {
         "epoch_number": 10.0,
+        "train_loss": 1.2371471108698318,
+        "average_metric_value": 0.5206724943439838,
+        "val_loss": 4.4820805537700945,
+        "val_auc": 0.7497600715485296,
+        "val_mrr": 0.39857799672194205,
+        "val_ndcg@5": 0.4387125845284695,
+        "val_ndcg@10": 0.4956393245769941,
         "val_num_impressions": 7824.0,
         "timing": {
             "epoch_training_times": [
+                152.7604115009308,
+                128.3657763004303,
+                128.71619987487793,
+                126.83259797096252,
+                126.7269389629364,
+                127.33337998390198,
+                126.36471319198608,
+                127.29102325439453,
+                126.6120913028717,
+                126.97762560844421
             ],
             "epoch_validation_times": [
+                156.19692087173462,
+                156.4893136024475,
+                156.90509462356567,
+                155.93345546722412,
+                156.1876072883606,
+                154.95236468315125,
+                157.0661187171936,
+                156.74578547477722,
+                156.08843064308167,
+                156.18353486061096
             ],
+            "total_training_time": 2860.9791276454926
         }
     },
     "final_test_metrics": {
+        "loss": 4.895912475360167,
+        "auc": 0.6746637875073116,
+        "mrr": 0.3214330456909908,
+        "ndcg@5": 0.35560859266126893,
+        "ndcg@10": 0.4193156331068628,
         "num_impressions": 72903.0
     }
 }