code2

Running

App Files Files Community

gallyg commited on 30 days ago

Commit

09dada1

verified ·

1 Parent(s): 5a09aa9

Update sync_run.py

Browse files

Files changed (1) hide show

sync_run.py +56 -45

sync_run.py CHANGED Viewed

@@ -7,69 +7,80 @@ from huggingface_hub import HfApi, snapshot_download
 # 配置
 TOKEN = os.getenv("HF_TOKEN")
 DATASET_ID = os.getenv("DATASET_ID")
-# 需要备份的文件夹列表
-SYNC_FOLDERS = ["data", "output"]
 api = HfApi(token=TOKEN)
 def download_data():
-    """初始化：从 Dataset 下载所有备份文件"""
     if not DATASET_ID:
-        print("[System] 未配置 DATASET_ID，跳过下载。")
         return
-    for folder in SYNC_FOLDERS:
-        try:
-            print(f"[System] 正在同步云端 {folder} 文件夹...")
-            snapshot_download(
-                repo_id=DATASET_ID,
-                repo_type="dataset",
-                local_dir=folder,
-                allow_patterns=f"{folder}/*", # 只下载对应文件夹内容
-                token=TOKEN
-            )
-        except Exception as e:
-            print(f"[System] 下载 {folder} 失败 (可能仓库为空): {e}")
 def upload_data():
-    """定时任务：上传本地修改到 Dataset"""
     while True:
-        time.sleep(300) # 每 5 分钟检查一次
         if not DATASET_ID:
             continue
-        print(f"[Backup] {time.strftime('%Y-%m-%d %H:%M:%S')} 开始检查文件变动...")
-        for folder in SYNC_FOLDERS:
-            if not os.path.exists(folder) or not os.listdir(folder):
-                continue
-            try:
-                # upload_folder 会自动比对哈希值，只有文件变了才会真的上传
-                api.upload_folder(
-                    folder_path=folder,
-                    path_in_repo=folder, # 在 Dataset 中对应的路径
-                    repo_id=DATASET_ID,
-                    repo_type="dataset",
-                    commit_message=f"Scheduled backup of {folder}",
-                    run_as_future=True # 异步运行，不阻塞
-                )
-            except Exception as e:
-                # 忽略 "No files have been modified" 这种不算错误的错误
-                if "No files have been modified" not in str(e):
-                    print(f"[Backup] {folder} 上传失败: {e}")
-        print(f"[Backup] 检查完毕。")
 if __name__ == "__main__":
-    # 创建本地文件夹防止报错
-    for f in SYNC_FOLDERS:
-        os.makedirs(f, exist_ok=True)
-    # 1. 启动前先下载
     download_data()
-    # 2. 启动定时备份线程
     backup_thread = threading.Thread(target=upload_data, daemon=True)
     backup_thread.start()
-    # 3. 运行 网页UI
-    print("[System] 正在启动 网页UI...")
     subprocess.run(["python", "webui.py", "--host", "0.0.0.0", "--port", "7860"])

 # 配置
 TOKEN = os.getenv("HF_TOKEN")
 DATASET_ID = os.getenv("DATASET_ID")
+# 定义需要监控的目录和文件类型
+SYNC_FOLDERS = ["data", "output", "config"]
+SYNC_EXTENSIONS = [".json", ".db", ".yaml", ".yml", ".txt", ".env"]
 api = HfApi(token=TOKEN)
 def download_data():
+    """启动前：从 Dataset 下载所有备份"""
     if not DATASET_ID:
+        print("[System] 警告: 未配置 DATASET_ID")
         return
+    try:
+        print(f"[System] 正在从 Dataset ({DATASET_ID}) 拉取持久化数据...")
+        # 下载到当前目录，允许覆盖，但排除代码文件防止版本冲突
+        snapshot_download(
+            repo_id=DATASET_ID,
+            repo_type="dataset",
+            local_dir=".",
+            token=TOKEN,
+            ignore_patterns=["*.py", "Dockerfile", "requirements.txt", "logs/*", ".git/*"]
+        )
+        print("[System] 数据拉取完成。")
+    except Exception as e:
+        print(f"[System] 拉取失败 (首次运行或网络问题): {e}")
 def upload_data():
+    """运行中：定时将改动上传至 Dataset"""
     while True:
+        # 每 2 分钟备份一次（缩短时间，防止改完密码还没备份就休眠了）
+        time.sleep(120)
         if not DATASET_ID:
             continue
+        try:
+            # 扫描当前目录下所有符合条件的文件进行上传
+            # 我们直接上传整个根目录，但通过 allow_patterns 过滤出我们要的文件
+            api.upload_folder(
+                folder_path=".",
+                repo_id=DATASET_ID,
+                repo_type="dataset",
+                commit_message="Auto-backup data and configs",
+                allow_patterns=[
+                    "data/**",
+                    "output/**",
+                    "config/**",
+                    "*.json",
+                    "*.db",
+                    "*.yaml",
+                    "*.yml",
+                    ".env"
+                ],
+                ignore_patterns=["logs/**", "__pycache__/**"],
+                run_as_future=True
+            )
+            print(f"[Backup] {time.strftime('%H:%M:%S')} 备份同步任务已提交")
+        except Exception as e:
+            if "No files have been modified" not in str(e):
+                print(f"[Backup] 备份出错: {e}")
 if __name__ == "__main__":
+    # 确保基础目录存在
+    for folder in SYNC_FOLDERS:
+        os.makedirs(folder, exist_ok=True)
+    # 1. 启动前同步云端数据到本地
     download_data()
+    # 2. 启动后台备份线程
     backup_thread = threading.Thread(target=upload_data, daemon=True)
     backup_thread.start()
+    # 3. 启动主程序
+    # 注意：根据你的日志，程序默认端口是 8000，但 HF 要求 7860
+    # 我们强制它运行在 7860
+    print("[System] 正在启动 OpenAI/Codex CLI...")
     subprocess.run(["python", "webui.py", "--host", "0.0.0.0", "--port", "7860"])