Promote best BusyBeaver checkpoint 250

Browse files

Files changed (6) hide show

README.md +17 -5
busybeaver_eval/metrics.json +38 -28
busybeaver_eval/report.md +37 -29
busybeaver_eval/traces.jsonl +0 -0
busybeaver_state.pt +1 -1
model.safetensors +1 -1

README.md CHANGED Viewed

@@ -184,10 +184,22 @@ BusyBeaver-50M predicts tool calls; it does not execute them. Production harness
 - Browser-agent data was not the primary training target yet.
 - The architecture is custom, so ordinary inference engines need a BusyBeaver adapter unless exported through a compatible runtime wrapper.
 ## Provenance
-- Internal run label: V11 grounding
-- Training hardware: RunPod GPU pod
-- Promoted checkpoint: 200
-- Full checkpoint archive: `GestaltLabs/BusyBeaver-50M-v11-grounding-runpod`
-- Training payload: `DJLougen/busybeaver-training-payload-v11-grounding`

 - Browser-agent data was not the primary training target yet.
 - The architecture is custom, so ordinary inference engines need a BusyBeaver adapter unless exported through a compatible runtime wrapper.
+## Latest Promotion
+Promoted from `GestaltLabs/BusyBeaver-50M-v12-path-grounding-runpod` checkpoint `250`.
+| Metric | Score |
+| --- | ---: |
+| json_validity_rate | 1.0000 |
+| strict_json_rate | 1.0000 |
+| schema_validity_rate | 0.9792 |
+| valid_tool_rate | 0.9974 |
+| correct_tool_accuracy | 0.9818 |
+| argument_exact_match | 0.6432 |
+| argument_semantic_match | 0.6510 |
 ## Provenance
+- Promoted checkpoint: 250
+- Source checkpoint archive: `GestaltLabs/BusyBeaver-50M-v12-path-grounding-runpod`

busybeaver_eval/metrics.json CHANGED Viewed

@@ -1,24 +1,24 @@
 {
-  "json_validity_rate": 0.99609375,
-  "strict_json_rate": 0.99609375,
-  "schema_validity_rate": 0.99609375,
-  "valid_tool_rate": 0.99609375,
-  "correct_tool_accuracy": 0.98046875,
-  "argument_exact_match": 0.8984375,
-  "argument_semantic_match": 0.90234375,
   "groups": {
     "edit": {
-      "n": 33,
       "json_validity_rate": 1.0,
       "strict_json_rate": 1.0,
       "schema_validity_rate": 1.0,
       "valid_tool_rate": 1.0,
       "correct_tool_accuracy": 1.0,
-      "argument_exact_match": 0.7878787878787878,
-      "argument_semantic_match": 0.7878787878787878
     },
     "escalate": {
-      "n": 3,
       "json_validity_rate": 1.0,
       "strict_json_rate": 1.0,
       "schema_validity_rate": 1.0,
@@ -28,44 +28,54 @@
       "argument_semantic_match": 1.0
     },
     "execute": {
-      "n": 32,
       "json_validity_rate": 1.0,
       "strict_json_rate": 1.0,
       "schema_validity_rate": 1.0,
       "valid_tool_rate": 1.0,
       "correct_tool_accuracy": 1.0,
-      "argument_exact_match": 1.0,
-      "argument_semantic_match": 1.0
     },
     "inspect": {
-      "n": 143,
-      "json_validity_rate": 0.993006993006993,
-      "strict_json_rate": 0.993006993006993,
-      "schema_validity_rate": 0.993006993006993,
-      "valid_tool_rate": 0.993006993006993,
-      "correct_tool_accuracy": 0.965034965034965,
-      "argument_exact_match": 0.9020979020979021,
-      "argument_semantic_match": 0.9090909090909091
     },
     "other": {
-      "n": 21,
       "json_validity_rate": 1.0,
       "strict_json_rate": 1.0,
       "schema_validity_rate": 1.0,
       "valid_tool_rate": 1.0,
       "correct_tool_accuracy": 1.0,
-      "argument_exact_match": 1.0,
-      "argument_semantic_match": 1.0
     },
     "test": {
-      "n": 24,
       "json_validity_rate": 1.0,
       "strict_json_rate": 1.0,
       "schema_validity_rate": 1.0,
       "valid_tool_rate": 1.0,
       "correct_tool_accuracy": 1.0,
-      "argument_exact_match": 0.7916666666666666,
-      "argument_semantic_match": 0.7916666666666666
     }
   }
 }

 {
+  "json_validity_rate": 1.0,
+  "strict_json_rate": 1.0,
+  "schema_validity_rate": 0.9791666666666666,
+  "valid_tool_rate": 0.9973958333333334,
+  "correct_tool_accuracy": 0.9817708333333334,
+  "argument_exact_match": 0.6432291666666666,
+  "argument_semantic_match": 0.6510416666666666,
   "groups": {
     "edit": {
+      "n": 49,
       "json_validity_rate": 1.0,
       "strict_json_rate": 1.0,
       "schema_validity_rate": 1.0,
       "valid_tool_rate": 1.0,
       "correct_tool_accuracy": 1.0,
+      "argument_exact_match": 0.6530612244897959,
+      "argument_semantic_match": 0.6530612244897959
     },
     "escalate": {
+      "n": 14,
       "json_validity_rate": 1.0,
       "strict_json_rate": 1.0,
       "schema_validity_rate": 1.0,
       "argument_semantic_match": 1.0
     },
     "execute": {
+      "n": 45,
       "json_validity_rate": 1.0,
       "strict_json_rate": 1.0,
       "schema_validity_rate": 1.0,
       "valid_tool_rate": 1.0,
       "correct_tool_accuracy": 1.0,
+      "argument_exact_match": 0.7111111111111111,
+      "argument_semantic_match": 0.7111111111111111
     },
     "inspect": {
+      "n": 193,
+      "json_validity_rate": 1.0,
+      "strict_json_rate": 1.0,
+      "schema_validity_rate": 0.9585492227979274,
+      "valid_tool_rate": 0.9948186528497409,
+      "correct_tool_accuracy": 0.9637305699481865,
+      "argument_exact_match": 0.7150259067357513,
+      "argument_semantic_match": 0.7202072538860104
+    },
+    "memory": {
+      "n": 12,
+      "json_validity_rate": 1.0,
+      "strict_json_rate": 1.0,
+      "schema_validity_rate": 1.0,
+      "valid_tool_rate": 1.0,
+      "correct_tool_accuracy": 1.0,
+      "argument_exact_match": 0.0,
+      "argument_semantic_match": 0.0
     },
     "other": {
+      "n": 45,
       "json_validity_rate": 1.0,
       "strict_json_rate": 1.0,
       "schema_validity_rate": 1.0,
       "valid_tool_rate": 1.0,
       "correct_tool_accuracy": 1.0,
+      "argument_exact_match": 0.4444444444444444,
+      "argument_semantic_match": 0.4888888888888889
     },
     "test": {
+      "n": 26,
       "json_validity_rate": 1.0,
       "strict_json_rate": 1.0,
       "schema_validity_rate": 1.0,
       "valid_tool_rate": 1.0,
       "correct_tool_accuracy": 1.0,
+      "argument_exact_match": 0.4230769230769231,
+      "argument_semantic_match": 0.4230769230769231
     }
   }
 }

busybeaver_eval/report.md CHANGED Viewed

@@ -1,26 +1,26 @@
 # BusyBeaver Checkpoint Evaluation
-- Step: 200
-- json_validity_rate: 0.9961
-- strict_json_rate: 0.9961
-- schema_validity_rate: 0.9961
-- valid_tool_rate: 0.9961
-- correct_tool_accuracy: 0.9805
-- argument_exact_match: 0.8984
-- argument_semantic_match: 0.9023
 ## Grouped Metrics
-### edit (n=33)
 - json_validity_rate: 1.0000
 - strict_json_rate: 1.0000
 - schema_validity_rate: 1.0000
 - valid_tool_rate: 1.0000
 - correct_tool_accuracy: 1.0000
-- argument_exact_match: 0.7879
-- argument_semantic_match: 0.7879
-### escalate (n=3)
 - json_validity_rate: 1.0000
 - strict_json_rate: 1.0000
 - schema_validity_rate: 1.0000
@@ -28,35 +28,43 @@
 - correct_tool_accuracy: 1.0000
 - argument_exact_match: 1.0000
 - argument_semantic_match: 1.0000
-### execute (n=32)
 - json_validity_rate: 1.0000
 - strict_json_rate: 1.0000
 - schema_validity_rate: 1.0000
 - valid_tool_rate: 1.0000
 - correct_tool_accuracy: 1.0000
-- argument_exact_match: 1.0000
-- argument_semantic_match: 1.0000
-### inspect (n=143)
-- json_validity_rate: 0.9930
-- strict_json_rate: 0.9930
-- schema_validity_rate: 0.9930
-- valid_tool_rate: 0.9930
-- correct_tool_accuracy: 0.9650
-- argument_exact_match: 0.9021
-- argument_semantic_match: 0.9091
-### other (n=21)
 - json_validity_rate: 1.0000
 - strict_json_rate: 1.0000
 - schema_validity_rate: 1.0000
 - valid_tool_rate: 1.0000
 - correct_tool_accuracy: 1.0000
-- argument_exact_match: 1.0000
-- argument_semantic_match: 1.0000
-### test (n=24)
 - json_validity_rate: 1.0000
 - strict_json_rate: 1.0000
 - schema_validity_rate: 1.0000
 - valid_tool_rate: 1.0000
 - correct_tool_accuracy: 1.0000
-- argument_exact_match: 0.7917
-- argument_semantic_match: 0.7917

 # BusyBeaver Checkpoint Evaluation
+- Step: 250
+- json_validity_rate: 1.0000
+- strict_json_rate: 1.0000
+- schema_validity_rate: 0.9792
+- valid_tool_rate: 0.9974
+- correct_tool_accuracy: 0.9818
+- argument_exact_match: 0.6432
+- argument_semantic_match: 0.6510
 ## Grouped Metrics
+### edit (n=49)
 - json_validity_rate: 1.0000
 - strict_json_rate: 1.0000
 - schema_validity_rate: 1.0000
 - valid_tool_rate: 1.0000
 - correct_tool_accuracy: 1.0000
+- argument_exact_match: 0.6531
+- argument_semantic_match: 0.6531
+### escalate (n=14)
 - json_validity_rate: 1.0000
 - strict_json_rate: 1.0000
 - schema_validity_rate: 1.0000
 - correct_tool_accuracy: 1.0000
 - argument_exact_match: 1.0000
 - argument_semantic_match: 1.0000
+### execute (n=45)
 - json_validity_rate: 1.0000
 - strict_json_rate: 1.0000
 - schema_validity_rate: 1.0000
 - valid_tool_rate: 1.0000
 - correct_tool_accuracy: 1.0000
+- argument_exact_match: 0.7111
+- argument_semantic_match: 0.7111
+### inspect (n=193)
+- json_validity_rate: 1.0000
+- strict_json_rate: 1.0000
+- schema_validity_rate: 0.9585
+- valid_tool_rate: 0.9948
+- correct_tool_accuracy: 0.9637
+- argument_exact_match: 0.7150
+- argument_semantic_match: 0.7202
+### memory (n=12)
 - json_validity_rate: 1.0000
 - strict_json_rate: 1.0000
 - schema_validity_rate: 1.0000
 - valid_tool_rate: 1.0000
 - correct_tool_accuracy: 1.0000
+- argument_exact_match: 0.0000
+- argument_semantic_match: 0.0000
+### other (n=45)
+- json_validity_rate: 1.0000
+- strict_json_rate: 1.0000
+- schema_validity_rate: 1.0000
+- valid_tool_rate: 1.0000
+- correct_tool_accuracy: 1.0000
+- argument_exact_match: 0.4444
+- argument_semantic_match: 0.4889
+### test (n=26)
 - json_validity_rate: 1.0000
 - strict_json_rate: 1.0000
 - schema_validity_rate: 1.0000
 - valid_tool_rate: 1.0000
 - correct_tool_accuracy: 1.0000
+- argument_exact_match: 0.4231
+- argument_semantic_match: 0.4231

busybeaver_eval/traces.jsonl CHANGED Viewed

The diff for this file is too large to render. See raw diff

busybeaver_state.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3727f8dd1c1c7a2f41a14735ce950b84a51a370ab727cdc2871c11959b43019
 size 222742359

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7c3da29992eaf6c5f8fea2dcbb3c1b66d93ef6c6ff2fe59f38be71d18de4d80
 size 222742359

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dde654cf20eee4f96217f749599ac06efd21c9c3d3b786e82844812e86c4a49c
 size 197545296

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb10cfbe0360a75512146cadff5aa5606106084d406809423a75138a372943d1
 size 197545296