narcolepticchicken commited on
Commit
ecbb315
·
verified ·
1 Parent(s): 196bab0

Upload eval/benchmark_v9_final.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. eval/benchmark_v9_final.json +73 -0
eval/benchmark_v9_final.json ADDED
@@ -0,0 +1,73 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "frontier": {
3
+ "success": 0.8996666666666666,
4
+ "cost": 1.0
5
+ },
6
+ "v8": {
7
+ "success": 0.8373333333333334,
8
+ "cost": 0.9151666666666726
9
+ },
10
+ "v9_e2.0_lc0.05": {
11
+ "success": 0.8996666666666666,
12
+ "cost": 0.9785500000000054,
13
+ "escalated": 238,
14
+ "ent_thr": 2.0,
15
+ "lc_thr": 0.05
16
+ },
17
+ "v9_e2.0_lc0.1": {
18
+ "success": 0.8996666666666666,
19
+ "cost": 0.9785500000000054,
20
+ "escalated": 238,
21
+ "ent_thr": 2.0,
22
+ "lc_thr": 0.1
23
+ },
24
+ "v9_e2.0_lc0.15": {
25
+ "success": 0.8996666666666666,
26
+ "cost": 0.9785500000000054,
27
+ "escalated": 238,
28
+ "ent_thr": 2.0,
29
+ "lc_thr": 0.15
30
+ },
31
+ "v9_e2.5_lc0.05": {
32
+ "success": 0.8576666666666667,
33
+ "cost": 0.9261833333333388,
34
+ "escalated": 94,
35
+ "ent_thr": 2.5,
36
+ "lc_thr": 0.05
37
+ },
38
+ "v9_e2.5_lc0.1": {
39
+ "success": 0.8576666666666667,
40
+ "cost": 0.9261833333333388,
41
+ "escalated": 94,
42
+ "ent_thr": 2.5,
43
+ "lc_thr": 0.1
44
+ },
45
+ "v9_e2.5_lc0.15": {
46
+ "success": 0.8576666666666667,
47
+ "cost": 0.9261833333333388,
48
+ "escalated": 94,
49
+ "ent_thr": 2.5,
50
+ "lc_thr": 0.15
51
+ },
52
+ "v9_e3.0_lc0.05": {
53
+ "success": 0.836,
54
+ "cost": 0.9132500000000056,
55
+ "escalated": 51,
56
+ "ent_thr": 3.0,
57
+ "lc_thr": 0.05
58
+ },
59
+ "v9_e3.0_lc0.1": {
60
+ "success": 0.834,
61
+ "cost": 0.9130833333333389,
62
+ "escalated": 49,
63
+ "ent_thr": 3.0,
64
+ "lc_thr": 0.1
65
+ },
66
+ "v9_e3.0_lc0.15": {
67
+ "success": 0.834,
68
+ "cost": 0.9130833333333389,
69
+ "escalated": 49,
70
+ "ent_thr": 3.0,
71
+ "lc_thr": 0.15
72
+ }
73
+ }