LLM Training Dataset - a Sanster Collection

Sanster 's Collections

LLM Training Dataset

LLM Training Dataset

updated Mar 14, 2024

teknium/OpenHermes-2.5

Viewer • Updated Apr 15, 2024 • 1M • 25.9k • 809
Open-Orca/SlimOrca-Dedup

Viewer • Updated May 19, 2025 • 363k • 3.66k • 91
argilla/ultrafeedback-binarized-preferences-cleaned

Viewer • Updated Dec 11, 2023 • 60.9k • 8.12k • 162
argilla/ultrafeedback-multi-binarized-preferences-cleaned

Viewer • Updated Dec 11, 2023 • 158k • 73 • 7
argilla/distilabel-intel-orca-dpo-pairs

Viewer • Updated Aug 7, 2025 • 12.9k • 6.23k • 183
openchat/openchat_sharegpt4_dataset

Updated Jul 1, 2023 • 393 • 173
rombodawg/LosslessMegaCodeTrainingV3_1.6m_Evol

Viewer • Updated Oct 19, 2023 • 1.56M • 131 • 27
OpenAssistant/oasst2

Viewer • Updated Jan 11, 2024 • 135k • 8.91k • 288
WizardLMTeam/WizardLM_evol_instruct_V2_196k

Viewer • Updated Mar 10, 2024 • 143k • 4.47k • 248
lmsys/lmsys-chat-1m

Viewer • Updated Jul 27, 2024 • 1M • 8.36k • 870
Hello-SimpleAI/HC3-Chinese

Viewer • Updated Jan 21, 2023 • 25.7k • 5.27k • 171
argilla/dpo-mix-7k

Viewer • Updated Jul 16, 2024 • 7.5k • 561 • 171