agent-cost-optimizer / eval /benchmark_v9_results.json
narcolepticchicken's picture
Upload eval/benchmark_v9_results.json with huggingface_hub
e086ff8 verified
{
"always_frontier": {
"success": 0.901,
"avg_cost": 1.0,
"unsafe": 0.0
},
"always_cheap": {
"success": 0.29133333333333333,
"avg_cost": 0.049999999999999954,
"unsafe": 0.7203333333333334
},
"heuristic": {
"success": 0.834,
"avg_cost": 0.8830500000000058,
"unsafe": 0.11466666666666667
},
"v8_router": {
"success": 0.8406666666666667,
"avg_cost": 0.8864666666666725,
"unsafe": 0.0
},
"v9_feedback": {
"success": 0.86,
"avg_cost": 0.9651333333333396,
"unsafe": 0.0
},
"oracle": {
"success": 0.9986666666666667,
"avg_cost": 0.4130333333333279,
"unsafe": 0.0
}
}