Adinosaur
/

tools

Model card Files Files and versions

tools / utils /json /merge_json.py

Adinosaur's picture

Upload folder using huggingface_hub

1c980b1 verified 11 months ago

history blame contribute delete

2.01 kB

	import argparse
	import json
	from pathlib import Path

	def merge_json_dataset(dataset_dir: str, output_name: str = "ChemQA") -> None:
	"""
	自动合并dataset_dir中所有JSON文件的数据部分

	参数：
	dataset_dir : 存放.json文件的目录
	output_name : 合并后的数据集名称（默认ChemQA）
	"""
	dataset_path = Path(dataset_dir)
	output_json = dataset_path / f"{output_name}.json"

	# 获取所有需要合并的JSON文件（排除输出文件自身）
	json_files = sorted(dataset_path.glob("*.json"))
	json_files = [f for f in json_files if f != output_json]

	if not json_files:
	raise FileNotFoundError("未找到任何JSON文件")

	merged_data = []
	global_offset = 0 # 全局索引偏移量

	for json_file in json_files:
	# 读取JSON数据
	with open(json_file, 'r', encoding='utf-8') as f:
	part_data = json.load(f)

	# 更新索引
	for item in part_data:
	item["index"] = global_offset + item["index"]

	# 合并数据并更新偏移量
	merged_data.extend(part_data)
	global_offset += len(part_data)

	# 保存合并结果
	with open(output_json, 'w', encoding='utf-8') as f:
	json.dump(merged_data, f, indent=2, ensure_ascii=False)

	print(f"\n合并完成！共处理 {len(json_files)} 个JSON文件")
	print(f"生成数据集: {output_name}.json")
	print(f"- 总条目数: {len(merged_data)} 条")

	if __name__ == "__main__":
	parser = argparse.ArgumentParser(description="合并JSON格式的问答数据集")
	parser.add_argument('-i',dest="dataset_dir", required=True, help="JSON文件所在的目录路径")
	parser.add_argument('-o',"--output_name", default="ChemQA", help="输出数据集名称（默认为ChemQA）")

	args = parser.parse_args()

	merge_json_dataset(
	dataset_dir=args.dataset_dir,
	output_name=args.output_name
	)