recoilme commited on
Commit
9acd177
·
1 Parent(s): fbc8bfe
src/{dataset_from_folder_qwen.py → dataset.py} RENAMED
File without changes
src/dataset_combine_zstd.py DELETED
@@ -1,47 +0,0 @@
1
- import os
2
- import shutil
3
- from datasets import load_from_disk, concatenate_datasets
4
-
5
- def combine_datasets(main_dataset_path, datasets_to_add):
6
- try:
7
- main_dataset = load_from_disk(main_dataset_path)
8
- print(f"Загружен основной датасет: {main_dataset_path} ({len(main_dataset)} записей)")
9
- except Exception as e:
10
- print(f"Ошибка загрузки основного датасета: {e}")
11
- return None
12
-
13
- all_datasets = [main_dataset]
14
-
15
- for path in datasets_to_add:
16
- try:
17
- ds = load_from_disk(path)
18
- all_datasets.append(ds)
19
- print(f"Добавлен датасет: {path} ({len(ds)} записей)")
20
- except Exception as e:
21
- print(f"Ошибка загрузки датасета {path}: {e}")
22
-
23
- combined = concatenate_datasets(all_datasets)
24
- print(f"Объединение {len(all_datasets)} датасетов...")
25
-
26
- temp_dir = f"{main_dataset_path}_temp"
27
- if os.path.exists(temp_dir):
28
- shutil.rmtree(temp_dir)
29
-
30
- try:
31
- print(f"Сохранение в сжатом формате во временную директорию {temp_dir}...")
32
- combined.save_to_disk(temp_dir)#, compression="zstd") # <-- Сжатие
33
-
34
- print(f"Обновление основного датасета...")
35
- if os.path.exists(main_dataset_path):
36
- shutil.rmtree(main_dataset_path)
37
- shutil.copytree(temp_dir, main_dataset_path)
38
- shutil.rmtree(temp_dir)
39
-
40
- print(f"✅ Объединенный датасет ({len(combined)} записей) успешно сохранен в: {main_dataset_path}")
41
- except Exception as e:
42
- print(f"Ошибка при сохранении датасета: {e}")
43
- print(f"Временные данные сохранены в: {temp_dir}")
44
-
45
- return combined
46
-
47
- combine_datasets("/workspace/sdxs3d/datasets/esh640", ["/workspace/sdxs3d/datasets/batch0_640_temp"])