Spaces:

GGSheng
/

elonmusk

Running

App Files Files Community

elonmusk / scripts /delete-backups.sh

GGSheng

feat: deploy Gemma 4 to hf space

3b47d98 verified 1 day ago

raw

history blame contribute delete

11.3 kB

	#!/usr/bin/env bash
	# ============================================================
	# OpenClaw HF Dataset 备份清理脚本
	#
	# 根据指定日期删除 Hugging Face Dataset 中所有匹配的备份文件。
	# 如日期为 20260427，则删除文件名中包含 openclaw-backup-20260427、
	# openclaw-backup-20260426、openclaw-backup-20260425 … 及更早日期的备份文件。
	#
	# 用法:
	# ./delete-backups.sh <DATASET_REPO> <DATE> [HF_TOKEN]
	#
	# 示例:
	# ./scripts/delete-backups.sh GGSheng/page-backup 20260427 hf_xxxxx
	#
	# 方式1：直接提供参数
	# ./scripts/delete-backups.sh GGSheng/page-backup 20260427 hf_xxxxx
	#
	# 方式2：设置环境变量
	# export DATASET_REPO="GGSheng/page-backup"
	# export DELETE_DATE="20260427"
	# export HF_TOKEN="hf_xxxxx"
	# ./scripts/delete-backups.sh
	#
	# 方式3：使用缓存的 token（默认从 ~/.cache/huggingface/token 读取）
	# ./scripts/delete-backups.sh GGSheng/page-backup 20260427
	#
	# 环境变量 (可选):
	# DATASET_REPO - Dataset 仓库 ID (如 GGSheng/page-backup)
	# DELETE_DATE - 要清理的日期 (YYYYMMDD 格式)
	# HF_TOKEN - Hugging Face API Token
	# HF_TOKEN_FILE - Token 文件路径 (默认 ~/.cache/huggingface/token)
	# DRY_RUN - 设为 1 时仅列出匹配文件而不删除 (默认 0)
	# BATCH_DELETE - 设为 1 时使用批量删除 API (默认 0，逐条删除)
	#
	# 删除模式:
	# BATCH_DELETE=0 (默认): 逐条删除，每条独立 commit，有重试/限速处理，容错性好
	# BATCH_DELETE=1: 批量删除，每批最多 100 个文件，单次 commit 含多个文件，效率更高
	#
	# 注意事项:
	# 1. 请确保 HF_TOKEN 有对该 Dataset 的 write 权限
	# 2. 删除操作不可逆，建议先用 DRY_RUN=1 预览匹配的文件
	# 3. 日期格式固定为 YYYYMMDD（如 20260427）
	# 4. 批量删除模式使用 delete_files() API，单次 commit 含多个文件，失败会全部回滚
	#
	############################################################
	# 与 push-to-space.sh 同样的参数模式
	# ./scripts/delete-backups.sh GGSheng/page-backup 20260427 hf_xxxxx

	# 使用缓存的 token
	# ./scripts/delete-backups.sh GGSheng/page-backup 20260427

	# 使用环境变量
	# DATASET_REPO=GGSheng/page-backup DELETE_DATE=20260427 ./scripts/delete-backups.sh

	# 仅预览
	# DRY_RUN=1 ./scripts/delete-backups.sh GGSheng/page-backup 20260430
	# 删除
	# DRY_RUN=0 ./scripts/delete-backups.sh GGSheng/page-backup 20260430
	# ============================================================

	set -euo pipefail

	SCRIPT_DIR="$(cd -- "$(dirname -- "${BASH_SOURCE[0]}")" && pwd)"
	REPO_ROOT="$(cd -- "$SCRIPT_DIR/.." && pwd)"

	# ---- 检测 uv 并设置 Python 命令 ----
	if command -v uv &>/dev/null && [[ -f "$REPO_ROOT/pyproject.toml" ]]; then
	PYTHON="uv run python3"
	echo "[UV] Detected uv project, using: $PYTHON"
	else
	PYTHON="python3"
	fi

	# ---- 参数解析 ----
	DATASET_REPO="${1:-${DATASET_REPO:-${OPENCLAW_BACKUP_DATASET_REPO:-}}}"
	DELETE_DATE="${2:-${DELETE_DATE:-}}"
	HF_TOKEN="${3:-${HF_TOKEN:-}}"

	# ---- 前置检查 ----
	if [[ -z "$DATASET_REPO" \|\| -z "$DELETE_DATE" ]]; then
	echo "Usage: $0 <DATASET_REPO> <DATE> [HF_TOKEN]"
	echo ""
	echo "Examples:"
	echo " $0 GGSheng/page-backup 20260427 hf_xxxxx"
	echo " DATASET_REPO=GGSheng/page-backup DELETE_DATE=20260427 HF_TOKEN=hf_xxxxx $0"
	echo " $0 GGSheng/page-backup 20260427"
	echo ""
	echo "Environment variables:"
	echo " DATASET_REPO - Dataset 仓库 ID (如 GGSheng/page-backup)"
	echo " DELETE_DATE - 要清理的日期 (YYYYMMDD)"
	echo " HF_TOKEN - Hugging Face API Token"
	echo " HF_TOKEN_FILE - Token 文件路径 (默认 ~/.cache/huggingface/token)"
	echo " DRY_RUN - 设为 1 仅预览 (默认 0)"
	echo " BATCH_DELETE - 设为 1 使用批量删除 (默认 0)"
	exit 1
	fi

	if ! [[ "$DELETE_DATE" =~ ^[0-9]{8}$ ]]; then
	echo "Error: 日期格式错误 '$DELETE_DATE'，应为 YYYYMMDD (如 20260427)"
	exit 1
	fi

	# 验证日期合法性
	if ! date -d "${DELETE_DATE:0:4}-${DELETE_DATE:4:2}-${DELETE_DATE:6:2}" &>/dev/null 2>&1; then
	echo "Error: 无效的日期 '$DELETE_DATE'"
	exit 1
	fi

	# ---- 解析 HF Token ----
	if [[ -z "$HF_TOKEN" ]]; then
	HF_TOKEN_FILE="${HF_TOKEN_FILE:-$HOME/.cache/huggingface/token}"
	if [[ -f "$HF_TOKEN_FILE" ]]; then
	HF_TOKEN="$(cat "$HF_TOKEN_FILE")"
	fi
	fi

	if [[ -z "$HF_TOKEN" ]]; then
	echo "Error: HF_TOKEN is required. Provide as 3rd arg, set HF_TOKEN env var, or ensure ~/.cache/huggingface/token exists."
	exit 1
	fi

	DRY_RUN="${DRY_RUN:-0}"
	REPO_TYPE="${REPO_TYPE:-dataset}"
	BATCH_DELETE="${BATCH_DELETE:-0}"

	echo "============================================"
	echo "OpenClaw HF Dataset Cleanup Script"
	echo "============================================"
	echo "Dataset: $DATASET_REPO"
	echo "Delete From: ${DELETE_DATE:0:4}-${DELETE_DATE:4:2}-${DELETE_DATE:6:2}"
	echo "DRY_RUN: $([ "$DRY_RUN" = "1" ] && echo 'YES (preview only)' \|\| echo 'NO')"
	echo "Delete Mode: $([ "$BATCH_DELETE" = "1" ] && echo 'BATCH (delete_files API)' \|\| echo 'INDIVIDUAL (delete_file per file)')"
	echo ""

	# ---- 临时文件清理 ----
	CLEANUP_FILES=()
	cleanup() {
	for f in "${CLEANUP_FILES[@]}"; do
	rm -f "$f"
	done
	}
	trap cleanup EXIT

	# ---- 步骤 1：列出并筛选文件 ----
	echo "[1/3] Fetching file list from Dataset..."

	ALL_FILES_FILE="$(mktemp)"
	MATCHED_FILES_FILE="$(mktemp)"
	CLEANUP_FILES+=("$ALL_FILES_FILE" "$MATCHED_FILES_FILE")

	# 确保 huggingface_hub 模块可用
	if ! $PYTHON -c "import huggingface_hub" 2>/dev/null; then
	echo "Error: 'huggingface_hub' module not found."
	echo ""
	echo "Install it with:"
	echo " uv add huggingface_hub"
	echo ""
	echo "Or with CLI support:"
	echo " uv add 'huggingface_hub[cli]'"
	exit 1
	fi

	$PYTHON << PYEOF
	import json, sys
	from huggingface_hub import HfApi

	token = """${HF_TOKEN}"""
	repo_id = """${DATASET_REPO}"""
	repo_type = """${REPO_TYPE}"""
	max_date = ${DELETE_DATE}

	api = HfApi(token=token)
	try:
	files = api.list_repo_files(repo_id=repo_id, repo_type=repo_type)
	except Exception as e:
	err = str(e)
	print(f"[ERROR] Failed to list files: {e}", file=sys.stderr)
	print(file=sys.stderr)
	if "404" in err:
	print(f"[HINT] Dataset '{repo_id}' not found.", file=sys.stderr)
	print(f"[HINT] Make sure you specified the Dataset repo, not the Space repo.", file=sys.stderr)
	print(f"[HINT] Backup dataset is typically named like '<space-name>-backup'.", file=sys.stderr)
	print(f"[HINT] Check your OPENCLAW_BACKUP_DATASET_REPO env var.", file=sys.stderr)
	sys.exit(1)

	matched = []
	for f in files:
	parts = f.split("openclaw-backup-")
	if len(parts) >= 2:
	date_part = parts[1][:8]
	if date_part.isdigit() and int(date_part) <= max_date:
	matched.append(f)

	print(f"Total files: {len(files)}, matched: {len(matched)}")

	with open("${ALL_FILES_FILE//\\///}", 'w') as fh:
	json.dump(files, fh)
	with open("${MATCHED_FILES_FILE//\\///}", 'w') as fh:
	json.dump(matched, fh)
	PYEOF

	MATCHED_COUNT=$($PYTHON -c "import json; print(len(json.load(open('${MATCHED_FILES_FILE//\\///}'))))")

	if [[ "$MATCHED_COUNT" -eq 0 ]]; then
	echo "No matching backup files found. Nothing to clean up."
	exit 0
	fi

	echo ""
	echo "Matched files:"
	$PYTHON -c "
	import json
	files = json.load(open('${MATCHED_FILES_FILE//\\///}'))
	for f in sorted(files):
	print(f' - {f}')
	"

	# ---- 步骤 2：确认 / DRY_RUN ----
	echo ""
	echo "[2/3] Ready to delete $MATCHED_COUNT file(s)..."

	if [[ "$DRY_RUN" = "1" ]]; then
	echo "DRY_RUN mode enabled. Set DRY_RUN=0 to actually delete."
	exit 0
	fi

	# ---- 步骤 3：执行删除 ----
	echo "[3/3] Deleting files..."

	BATCH_DELETE="${BATCH_DELETE:-0}"

	if [[ "$BATCH_DELETE" = "1" ]]; then
	echo "Mode: BATCH DELETE (using delete_files API)"
	echo ""

	$PYTHON << PYEOF_BATCH
	import json, sys
	from huggingface_hub import HfApi

	token = """${HF_TOKEN}"""
	repo_id = """${DATASET_REPO}"""
	repo_type = """${REPO_TYPE}"""
	delete_date = """${DELETE_DATE}"""

	with open("${MATCHED_FILES_FILE//\\///}", 'r') as fh:
	files_to_delete = json.load(fh)

	api = HfApi(token=token)

	# 分批删除，每批最多 100 个文件（避免单次 commit 过大）
	BATCH_SIZE = 100
	total = len(files_to_delete)
	total_batches = (total + BATCH_SIZE - 1) // BATCH_SIZE
	deleted_total = 0

	for batch_idx in range(total_batches):
	start = batch_idx * BATCH_SIZE
	end = min(start + BATCH_SIZE, total)
	batch = files_to_delete[start:end]

	try:
	api.delete_files(
	repo_id=repo_id,
	repo_type=repo_type,
	paths=batch,
	commit_message=f"backup cleanup: batch {batch_idx + 1}/{total_batches} ({len(batch)} files, date {delete_date})"
	)
	deleted_total += len(batch)
	print(f" Batch {batch_idx + 1}/{total_batches}: deleted {len(batch)} files")
	except Exception as e:
	print(f" Batch {batch_idx + 1}/{total_batches}: FAILED - {e}")
	print(f"\nResult: deleted {deleted_total}/{total} files before failure")
	sys.exit(1)

	print(f"\nResult: deleted all {total} files in {total_batches} batch(es)")
	PYEOF_BATCH

	else
	echo "Mode: INDIVIDUAL DELETE (one by one with retry)"
	echo ""

	$PYTHON << PYEOF_INDIVIDUAL
	import json, sys, time

	token = """${HF_TOKEN}"""
	repo_id = """${DATASET_REPO}"""
	repo_type = """${REPO_TYPE}"""
	delete_date = """${DELETE_DATE}"""

	with open("${MATCHED_FILES_FILE//\\///}", 'r') as fh:
	files_to_delete = json.load(fh)

	from huggingface_hub import HfApi
	api = HfApi(token=token)

	total = len(files_to_delete)
	deleted = 0
	failed = 0
	rate_limit_hits = 0
	max_retries = 3

	for idx, path in enumerate(sorted(files_to_delete), 1):
	retries = 0
	while retries < max_retries:
	try:
	api.delete_file(
	repo_id=repo_id,
	repo_type=repo_type,
	path_in_repo=path,
	commit_message=f"backup cleanup: delete {path} (date {delete_date})"
	)
	deleted += 1
	print(f" [{idx}/{total}] Deleted: {path}")
	break
	except Exception as e:
	err = str(e)
	if "404" in err or "Entry Not Found" in err:
	print(f" [{idx}/{total}] Skipped (not found): {path}")
	deleted += 1
	break
	elif "429" in err or "Too Many Requests" in err:
	retries += 1
	rate_limit_hits += 1
	if retries >= max_retries:
	print(f" [{idx}/{total}] Failed (rate limit): {path}")
	failed += 1
	break
	wait = min(2 ** retries * 15, 1800)
	print(f" [{idx}/{total}] Rate limited, waiting {wait}s...")
	time.sleep(wait)
	continue
	else:
	print(f" [{idx}/{total}] Failed: {path} - {err}")
	failed += 1
	break

	print(f"\nResult: deleted {deleted}, failed {failed}, rate limit hits {rate_limit_hits}")
	PYEOF_INDIVIDUAL
	fi

	echo ""
	echo "============================================"
	echo "Done! Cleanup finished."
	echo "============================================"