LLM evals and benchmark datasets
updated
Viewer
• Updated • 8.11k • 8.65k
• 106
Viewer
• Updated • 164 • 222k
• 381
Viewer
• Updated • 541 • 104k
• 148
Viewer
• Updated • 7.79k • 409k
• 330
Viewer
• Updated • 81.4k • 213k
• 79
Benchmark
• Updated • 12.1k • 113k
• 468
Viewer
• Updated • 231k • 440k
• 713
Viewer
• Updated • 1.63k • 90.4k
• 278
Benchmark
• Updated • 17.6k • 829k
• 1.27k
Viewer
• Updated • 60k • 303k
• 167
Updated • 22.6k
• 63
HuggingFaceH4/mt_bench_prompts
Viewer
• Updated • 80 • 7.9k
• 25
Viewer
• Updated • 34.6k • 1.2k
• 117
Viewer
• Updated • 95.4k • 2.89k
• 109
Viewer
• Updated • 4.05k • 284
• 13
Viewer
• Updated • 393k • 9.47k
• 521