Spaces:

lablab-ai-amd-developer-hackathon
/

movimento

Running on Zero

rydlrKE commited on 5 days ago

Commit

adbafd9

1 Parent(s): 6e8f47a

Default HF runtime to CPU and honor KIMODO_DEVICE

Files changed (2) hide show

app.py CHANGED Viewed

@@ -28,6 +28,8 @@ os.environ.setdefault("SERVER_PORT", str(NATIVE_PORT))
 os.environ.setdefault("HF_MODE", "1")
 # Avoid local LLM2Vec fallback on Spaces (requires gated Llama weights).
 os.environ.setdefault("TEXT_ENCODER_MODE", "api")
 _state: dict[str, object] = {
     "ok": False,

 os.environ.setdefault("HF_MODE", "1")
 # Avoid local LLM2Vec fallback on Spaces (requires gated Llama weights).
 os.environ.setdefault("TEXT_ENCODER_MODE", "api")
+# Prefer CPU on ZeroGPU to avoid low-level CUDA init crashes during model load.
+os.environ.setdefault("KIMODO_DEVICE", "cpu")
 _state: dict[str, object] = {
     "ok": False,

kimodo/demo/app.py CHANGED Viewed

@@ -54,7 +54,14 @@ from .state import ClientSession, ModelBundle
 class Demo:
     def __init__(self, default_model_name: str = DEFAULT_MODEL):
-        self.device = "cuda:0" if torch.cuda.is_available() else "cpu"
         print(f"Using device: {self.device}")
         self.models: dict[str, ModelBundle] = {}
         resolved = resolve_model_name(default_model_name, "Kimodo")

 class Demo:
     def __init__(self, default_model_name: str = DEFAULT_MODEL):
+        requested_device = (os.environ.get("KIMODO_DEVICE") or "").strip().lower()
+        if requested_device and requested_device != "auto":
+            self.device = requested_device
+        elif HF_MODE:
+            # ZeroGPU can report CUDA availability while blocking low-level CUDA init.
+            self.device = "cpu"
+        else:
+            self.device = "cuda:0" if torch.cuda.is_available() else "cpu"
         print(f"Using device: {self.device}")
         self.models: dict[str, ModelBundle] = {}
         resolved = resolve_model_name(default_model_name, "Kimodo")