Spaces:

SpringWang08
/

Medical-VQA

Paused

SpringWang08 commited on 6 days ago

Commit

9cfe3eb

1 Parent(s): bfbf130

Default to no preload for stable Space startup

Files changed (3) hide show

Dockerfile CHANGED Viewed

@@ -7,7 +7,8 @@ ENV DEBIAN_FRONTEND=noninteractive \
     HF_HOME=/data/.huggingface \
     HUGGINGFACE_HUB_CACHE=/data/.huggingface/hub \
     TRANSFORMERS_CACHE=/data/.huggingface/transformers \
-    WEB_PRELOAD_MODELS=1
 RUN apt-get update && apt-get install -y --no-install-recommends \
     python3 \

     HF_HOME=/data/.huggingface \
     HUGGINGFACE_HUB_CACHE=/data/.huggingface/hub \
     TRANSFORMERS_CACHE=/data/.huggingface/transformers \
+    WEB_PRELOAD_MODELS=0 \
+    ANSWER_REWRITE_ENABLED=0
 RUN apt-get update && apt-get install -y --no-install-recommends \
     python3 \

web/README.md CHANGED Viewed

@@ -21,6 +21,8 @@ Nếu muốn preload toàn bộ model khi startup trên GPU:
 WEB_PRELOAD_MODELS=1 uvicorn web.main:app --host 0.0.0.0 --port 8000
 ```
 Khi chạy trên GPU, nên để `--workers 1` để tránh mỗi worker nạp một bản model riêng.
 ### Chạy bằng Docker
@@ -37,7 +39,7 @@ Run container trên máy có GPU:
 docker run --rm \
   --gpus all \
   -p 8000:8000 \
-  -e WEB_PRELOAD_MODELS=1 \
   -v medical-vqa-hf-cache:/hf_cache \
   medical-vqa-web
 ```
@@ -46,7 +48,7 @@ Nếu muốn chạy lại nhanh hơn, giữ volume cache `medical-vqa-hf-cache`
 ### Tùy chọn: rewrite output bằng Qwen
-Lớp rewrite hiện đã bật mặc định và sẽ tự thử load Qwen từ Hugging Face Hub khi server khởi động.
 Nếu bạn muốn đổi sang model repo khác trên Hub, đặt thêm các biến môi trường sau:
 ```bash

 WEB_PRELOAD_MODELS=1 uvicorn web.main:app --host 0.0.0.0 --port 8000
 ```
+Mặc định hiện tại là `WEB_PRELOAD_MODELS=0` để Space khởi động nhẹ hơn. Chỉ bật `1` khi GPU đủ mạnh và bạn muốn preload trước.
 Khi chạy trên GPU, nên để `--workers 1` để tránh mỗi worker nạp một bản model riêng.
 ### Chạy bằng Docker
 docker run --rm \
   --gpus all \
   -p 8000:8000 \
+  -e WEB_PRELOAD_MODELS=0 \
   -v medical-vqa-hf-cache:/hf_cache \
   medical-vqa-web
 ```
 ### Tùy chọn: rewrite output bằng Qwen
+Lớp rewrite hiện tắt mặc định để tiết kiệm bộ nhớ. Nếu muốn bật lại, đặt `ANSWER_REWRITE_ENABLED=1` và chỉ định model trên Hugging Face Hub.
 Nếu bạn muốn đổi sang model repo khác trên Hub, đặt thêm các biến môi trường sau:
 ```bash

web/main.py CHANGED Viewed

@@ -127,7 +127,8 @@ class VQAServerState:
         self.a_models: dict[str, dict[str, Any]] = {}
         self.llava_bundle: dict[str, Any] | None = None
         self.question_suggestions: list[dict[str, Any]] = []
-        self.preload_models = os.getenv("WEB_PRELOAD_MODELS", "1" if self.device.type == "cuda" else "0") == "1"
     @property
     def phobert_model(self) -> str:

         self.a_models: dict[str, dict[str, Any]] = {}
         self.llava_bundle: dict[str, Any] | None = None
         self.question_suggestions: list[dict[str, Any]] = []
+        # Giữ mặc định là không preload để tránh ngốn RAM/VRAM khi Space khởi động.
+        self.preload_models = os.getenv("WEB_PRELOAD_MODELS", "0") == "1"
     @property
     def phobert_model(self) -> str: