Spaces:

ycwhencpp
/

final-iteration

Paused

vaibhavkhandare commited on 12 days ago

Commit

1d8435e

verified ·

1 Parent(s): e82b235

Upload folder using huggingface_hub

Files changed (4) hide show

run-output/plots/io_log.jsonl CHANGED Viewed

The diff for this file is too large to render. See raw diff

run-output/plots/training_log.csv CHANGED Viewed

@@ -1,3 +1,3 @@
 round,avg_episode_reward,max_episode_reward,min_episode_reward,avg_grader,max_grader,n_training_samples,train_loss
-1,3.904,4.514,3.287,0.6202,0.8268,101,2.6723
-2,4.215,4.658,3.566,0.7325,0.8703,102,2.5934

 round,avg_episode_reward,max_episode_reward,min_episode_reward,avg_grader,max_grader,n_training_samples,train_loss
+1,2.511,2.866,2.25,0.1072,0.2462,98,3.0041
+2,2.885,3.315,2.383,0.2398,0.4023,100,2.9678

run-output/plots/training_summary.json CHANGED Viewed

@@ -4,14 +4,14 @@
   "rounds": 2,
   "episodes_per_round": 6,
   "before": {
-    "monthly_engage": 1.0,
-    "monthly_strategic": 0.8426,
-    "monthly_competitive": 0.9521
   },
   "after": {
-    "monthly_engage": 1.0,
-    "monthly_strategic": 0.8416,
-    "monthly_competitive": 0.964
   },
   "smart_heuristic": {
     "monthly_engage": 0.7352,
@@ -20,8 +20,8 @@
   },
   "improvement": {
     "monthly_engage": 0.0,
-    "monthly_strategic": -0.0010000000000000009,
-    "monthly_competitive": 0.011900000000000022
   },
   "training_log": {
     "round": [
@@ -29,32 +29,32 @@
       2
     ],
     "avg_episode_reward": [
-      3.904,
-      4.215
     ],
     "max_episode_reward": [
-      4.514,
-      4.658
     ],
     "min_episode_reward": [
-      3.287,
-      3.566
     ],
     "avg_grader": [
-      0.6202,
-      0.7325
     ],
     "max_grader": [
-      0.8268,
-      0.8703
     ],
     "n_training_samples": [
-      101,
-      102
     ],
     "train_loss": [
-      2.6723,
-      2.5934
     ]
   }
 }

   "rounds": 2,
   "episodes_per_round": 6,
   "before": {
+    "monthly_engage": 0.0,
+    "monthly_strategic": 0.175,
+    "monthly_competitive": 0.035
   },
   "after": {
+    "monthly_engage": 0.0,
+    "monthly_strategic": 0.175,
+    "monthly_competitive": 0.035
   },
   "smart_heuristic": {
     "monthly_engage": 0.7352,
   },
   "improvement": {
     "monthly_engage": 0.0,
+    "monthly_strategic": 0.0,
+    "monthly_competitive": 0.0
   },
   "training_log": {
     "round": [
       2
     ],
     "avg_episode_reward": [
+      2.511,
+      2.885
     ],
     "max_episode_reward": [
+      2.866,
+      3.315
     ],
     "min_episode_reward": [
+      2.25,
+      2.383
     ],
     "avg_grader": [
+      0.1072,
+      0.2398
     ],
     "max_grader": [
+      0.2462,
+      0.4023
     ],
     "n_training_samples": [
+      98,
+      100
     ],
     "train_loss": [
+      3.0041,
+      2.9678
     ]
   }
 }

run-output/training/train_grpo.executed.ipynb CHANGED Viewed

The diff for this file is too large to render. See raw diff