Spaces:

Siddeshwar1625
/

OSINT

Paused

ritishshrirao commited on 12 days ago

Commit

3e893cd

1 Parent(s): e44cdee

Minor config changes

Files changed (3) hide show

config/self_play_training_hf_a10g_smoke.json CHANGED Viewed

@@ -41,8 +41,8 @@
     "loss_type": "dapo",
     "scale_rewards": "group",
     "logging_steps": 1,
-    "save_steps": 10,
-    "save_total_limit": 2,
     "optim": "adamw_torch_fused",
     "bf16": true,
     "tf32": true,
@@ -73,8 +73,8 @@
     "loss_type": "dapo",
     "scale_rewards": "group",
     "logging_steps": 1,
-    "save_steps": 10,
-    "save_total_limit": 2,
     "optim": "adamw_torch_fused",
     "bf16": true,
     "tf32": true,

     "loss_type": "dapo",
     "scale_rewards": "group",
     "logging_steps": 1,
+    "save_steps": 50,
+    "save_total_limit": 1,
     "optim": "adamw_torch_fused",
     "bf16": true,
     "tf32": true,
     "loss_type": "dapo",
     "scale_rewards": "group",
     "logging_steps": 1,
+    "save_steps": 50,
+    "save_total_limit": 1,
     "optim": "adamw_torch_fused",
     "bf16": true,
     "tf32": true,

config/self_play_training_hf_l40s_full.json CHANGED Viewed

@@ -41,8 +41,8 @@
     "loss_type": "dapo",
     "scale_rewards": "group",
     "logging_steps": 5,
-    "save_steps": 30,
-    "save_total_limit": 4,
     "optim": "adamw_torch_fused",
     "bf16": true,
     "tf32": true,
@@ -73,8 +73,8 @@
     "loss_type": "dapo",
     "scale_rewards": "group",
     "logging_steps": 5,
-    "save_steps": 30,
-    "save_total_limit": 4,
     "optim": "adamw_torch_fused",
     "bf16": true,
     "tf32": true,

     "loss_type": "dapo",
     "scale_rewards": "group",
     "logging_steps": 5,
+    "save_steps": 120,
+    "save_total_limit": 1,
     "optim": "adamw_torch_fused",
     "bf16": true,
     "tf32": true,
     "loss_type": "dapo",
     "scale_rewards": "group",
     "logging_steps": 5,
+    "save_steps": 120,
+    "save_total_limit": 1,
     "optim": "adamw_torch_fused",
     "bf16": true,
     "tf32": true,

src/osint_env/training/self_play.py CHANGED Viewed

@@ -114,13 +114,26 @@ def _maybe_upload_folder_to_hf(local_dir: Path, run_dir: Path, commit_message: s
     path_in_repo = _hf_relative_repo_path(local_dir, run_dir)
     api = HfApi(token=token)
     api.create_repo(repo_id=repo_id, repo_type=repo_type, private=private, exist_ok=True)
     api.upload_folder(
         folder_path=str(local_dir),
         repo_id=repo_id,
         repo_type=repo_type,
         path_in_repo=path_in_repo,
         commit_message=commit_message,
-        ignore_patterns=["*.pyc", "__pycache__", ".DS_Store"],
     )
     print(f"[self_play][hf_upload] uploaded {local_dir} -> {repo_type}:{repo_id}/{path_in_repo}")

     path_in_repo = _hf_relative_repo_path(local_dir, run_dir)
     api = HfApi(token=token)
     api.create_repo(repo_id=repo_id, repo_type=repo_type, private=private, exist_ok=True)
+    # Upload only inference-relevant artifacts. Resume-only state such as
+    # optimizer/scheduler RNG snapshots makes uploads much larger and is not
+    # needed for sharing or post-phase evaluation.
+    ignore_patterns = [
+        "*.pyc",
+        "__pycache__",
+        ".DS_Store",
+        "**/optimizer.pt",
+        "**/scheduler.pt",
+        "**/rng_state.pth",
+        "**/trainer_state.json",
+        "**/training_args.bin",
+    ]
     api.upload_folder(
         folder_path=str(local_dir),
         repo_id=repo_id,
         repo_type=repo_type,
         path_in_repo=path_in_repo,
         commit_message=commit_message,
+        ignore_patterns=ignore_patterns,
     )
     print(f"[self_play][hf_upload] uploaded {local_dir} -> {repo_type}:{repo_id}/{path_in_repo}")