LM datas
updated
Updated • 2.52k
• 178
Updated • 2.07k
• 493
nampdn-ai/tiny-strange-textbooks
Viewer
• Updated • 1M • 26
• 92
Viewer
• Updated • 61.6M • 110k
• 1.19k
Viewer
• Updated • 2.94M • 27.7k
• 1.52k
Updated • 123k
• 606
Viewer
• Updated • 420k • 460
• 168
togethercomputer/RedPajama-Data-V2
Updated • 3.42k
• 401
nampdn-ai/tiny-math-textbooks
Viewer
• Updated • 635k • 26
• 25
Viewer
• Updated • 44.8k • 160
• 54
Viewer
• Updated • 10.4B • 638k
• 551
Updated • 8.28k
• 352
Updated • 12.9k
• 151
Viewer
• Updated • 720k • 544
• 27
Viewer
• Updated • 7.18B • 20.2k
• 611
Viewer
• Updated • 1.01M • 23.3k
• 143
Viewer
• Updated • 20k • 12
• 24
nampdn-ai/tiny-bridgedict
Viewer
• Updated • 17.6k • 10
• 18
nampdn-ai/tiny-orca-textbooks
Viewer
• Updated • 147k • 31
• 43
Preview
• Updated • 276
• 194
Viewer
• Updated • 7.89M • 7.44k
• 185
Viewer
• Updated • 1.63M • 2.11k
• 287
Updated • 8.63k
• 196
Viewer
• Updated • 1.91M • 33
• 10
Viewer
• Updated • 31.1M • 14.1k
• 683
CausalLM/Refined-Anime-Text
Viewer
• Updated • 1.02M • 30
• 267
Updated • 79.4k
• 137
Viewer
• Updated • 8.01M • 73.6k
• 503
Locutusque/UltraTextbooks-2.0
Viewer
• Updated • 3.22M • 182
• 51
Viewer
• Updated • 654k • 537
• 190
Updated • 2.81k
• 1.02k
Viewer
• Updated • 5.86M • 540
• 56
Viewer
• Updated • 221k • 3
• 7
Viewer
• Updated • 2.2M • 16
• 3
YeungNLP/firefly-pretrain-dataset
Viewer
• Updated • 2.46M • 287
• 42
Viewer
• Updated • 1.8k • 440
• 93
Viewer
• Updated • 933 • 10
• 3
Viewer
• Updated • 968M • 42.2k
• 904
Viewer
• Updated • 636M • 453
• 17
Viewer
• Updated • 1.77B • 2.48k
• 79
Updated • 10.2k
• 223
open-web-math/open-web-math
Viewer
• Updated • 6.32M • 18.8k
• 333
Viewer
• Updated • 291M • 104
• 25
Viewer
• Updated • 52.5B • 634k
• 2.76k
HuggingFaceTB/smollm-corpus
Viewer
• Updated • 237M • 45.9k
• 449
Viewer
• Updated • 1.06M • 143
• 38
Viewer
• Updated • 2.14M • 98.3k
• 954
Viewer
• Updated • 6.43B • 6.06k
• 174
Viewer
• Updated • 219k • 319
• 38
opencsg/chinese-cosmopedia
Preview
• Updated • 1.23k
• 77
Updated • 548
• 38
Viewer
• Updated • 54.8M • 10.8k
• 58
Viewer
• Updated • 826M • 10.8k
• 66
Hieuman/wikitext-103-filtered
Viewer
• Updated • 717k • 8
• 2
Viewer
• Updated • 3.71M • 1.18M
• 669
iohadrubin/wikitext-103-raw-v1
Viewer
• Updated • 29.7k • 390
• 8
Viewer
• Updated • 100k • 940
• 8
ashaba1in/small_openwebtext
Viewer
• Updated • 1M • 16
• 1
Viewer
• Updated • 1.04M • 268
• 6
TigerResearch/pretrain_zh
Viewer
• Updated • 16.9M • 932
• 122
erhwenkuo/pretrain-chinese-zhtw
Viewer
• Updated • 11.5M • 151
• 3
karpathy/tiny_shakespeare
Updated • 4.33k
• 75
Viewer
• Updated • 69.9k • 207k
• 390
Viewer
• Updated • 621M • 14.6k
• 87
Viewer
• Updated • 170M • 14.3k
• 91
institutional/institutional-books-1.0
Viewer
• Updated • 983k • 8.46k
• 272
EssentialAI/essential-web-v1.0
Preview
• Updated • 41.4k
• 223
PrimeIntellect/SYNTHETIC-2-Base
Viewer
• Updated • 465k • 64
• 9
shajiu/TibetanGeneral_corpus
Viewer
• Updated • 259k • 6
• 5
Viewer
• Updated • 476M • 21.6k
• 849
xTimeCrystal/TinyCorpus-v2
Viewer
• Updated • 12.9M • 71
• 5
karpathy/fineweb-edu-100b-shuffle
Viewer
• Updated • 97.2M • 6.78k
• 163
Viewer
• Updated • 47.7M • 28.3k
• 305