agent-cost-optimizer / eval /benchmark_v9_final.json
narcolepticchicken's picture
Upload eval/benchmark_v9_final.json with huggingface_hub
ecbb315 verified
{
"frontier": {
"success": 0.8996666666666666,
"cost": 1.0
},
"v8": {
"success": 0.8373333333333334,
"cost": 0.9151666666666726
},
"v9_e2.0_lc0.05": {
"success": 0.8996666666666666,
"cost": 0.9785500000000054,
"escalated": 238,
"ent_thr": 2.0,
"lc_thr": 0.05
},
"v9_e2.0_lc0.1": {
"success": 0.8996666666666666,
"cost": 0.9785500000000054,
"escalated": 238,
"ent_thr": 2.0,
"lc_thr": 0.1
},
"v9_e2.0_lc0.15": {
"success": 0.8996666666666666,
"cost": 0.9785500000000054,
"escalated": 238,
"ent_thr": 2.0,
"lc_thr": 0.15
},
"v9_e2.5_lc0.05": {
"success": 0.8576666666666667,
"cost": 0.9261833333333388,
"escalated": 94,
"ent_thr": 2.5,
"lc_thr": 0.05
},
"v9_e2.5_lc0.1": {
"success": 0.8576666666666667,
"cost": 0.9261833333333388,
"escalated": 94,
"ent_thr": 2.5,
"lc_thr": 0.1
},
"v9_e2.5_lc0.15": {
"success": 0.8576666666666667,
"cost": 0.9261833333333388,
"escalated": 94,
"ent_thr": 2.5,
"lc_thr": 0.15
},
"v9_e3.0_lc0.05": {
"success": 0.836,
"cost": 0.9132500000000056,
"escalated": 51,
"ent_thr": 3.0,
"lc_thr": 0.05
},
"v9_e3.0_lc0.1": {
"success": 0.834,
"cost": 0.9130833333333389,
"escalated": 49,
"ent_thr": 3.0,
"lc_thr": 0.1
},
"v9_e3.0_lc0.15": {
"success": 0.834,
"cost": 0.9130833333333389,
"escalated": 49,
"ent_thr": 3.0,
"lc_thr": 0.15
}
}