narcolepticchicken commited on
Commit
e086ff8
·
verified ·
1 Parent(s): ecbb315

Upload eval/benchmark_v9_results.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. eval/benchmark_v9_results.json +32 -0
eval/benchmark_v9_results.json ADDED
@@ -0,0 +1,32 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "always_frontier": {
3
+ "success": 0.901,
4
+ "avg_cost": 1.0,
5
+ "unsafe": 0.0
6
+ },
7
+ "always_cheap": {
8
+ "success": 0.29133333333333333,
9
+ "avg_cost": 0.049999999999999954,
10
+ "unsafe": 0.7203333333333334
11
+ },
12
+ "heuristic": {
13
+ "success": 0.834,
14
+ "avg_cost": 0.8830500000000058,
15
+ "unsafe": 0.11466666666666667
16
+ },
17
+ "v8_router": {
18
+ "success": 0.8406666666666667,
19
+ "avg_cost": 0.8864666666666725,
20
+ "unsafe": 0.0
21
+ },
22
+ "v9_feedback": {
23
+ "success": 0.86,
24
+ "avg_cost": 0.9651333333333396,
25
+ "unsafe": 0.0
26
+ },
27
+ "oracle": {
28
+ "success": 0.9986666666666667,
29
+ "avg_cost": 0.4130333333333279,
30
+ "unsafe": 0.0
31
+ }
32
+ }