LLM evals and benchmark datasets
updated
Viewer
• Updated • 8.11k • 8.44k
• 106
Viewer
• Updated • 164 • 221k
• 380
Viewer
• Updated • 541 • 102k
• 148
Viewer
• Updated • 7.79k • 407k
• 327
Viewer
• Updated • 81.4k • 211k
• 79
Benchmark
• Updated • 12.1k • 113k
• 468
Viewer
• Updated • 231k • 436k
• 713
Viewer
• Updated • 1.63k • 88.8k
• 278
Benchmark
• Updated • 17.6k • 816k
• 1.27k
Viewer
• Updated • 60k • 303k
• 166
Updated • 23.2k
• 63
HuggingFaceH4/mt_bench_prompts
Viewer
• Updated • 80 • 8.26k
• 25
Viewer
• Updated • 34.6k • 1.03k
• 117
Viewer
• Updated • 95.4k • 2.87k
• 109
Viewer
• Updated • 4.05k • 288
• 13
Viewer
• Updated • 393k • 9.34k
• 521