Spaces:

oki0ki
/

graniteapi

Runtime error

App Files Files Community

oki0ki commited on 2 days ago

Commit

296f03f

verified ·

1 Parent(s): 98e68b0

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -26

app.py CHANGED Viewed

@@ -1,28 +1,30 @@
 #!/usr/bin/env python3
 """
-Ultralekki entrypoint dla HF Spaces (Docker SDK)
-✅ Pobiera model → uruchamia llama_cpp.server
-✅ OpenAI format | ✅ Brak auth | ✅ Odporny na zerwania
 """
 import os
 import sys
 import signal
 import logging
-import subprocess
 from huggingface_hub import hf_hub_download
 logging.basicConfig(level=logging.INFO, format="%(levelname)s: %(message)s")
 logger = logging.getLogger(__name__)
 MODEL_REPO = "unsloth/granite-4.1-3b-GGUF"
 MODEL_FILE = os.environ.get("MODEL_FILE", "granite-4.1-3b-UD-IQ2_M.gguf")
-PORT = os.environ.get("PORT", "7860")
-N_CTX = os.environ.get("N_CTX", "2048")
-N_THREADS = os.environ.get("N_THREADS", "2")
-N_BATCH = os.environ.get("N_BATCH", "512")
 def graceful_shutdown(signum, frame):
     logger.info("📡 Otrzymano sygnał zakończenia. Zamykanie...")
     sys.exit(0)
 signal.signal(signal.SIGTERM, graceful_shutdown)
@@ -38,26 +40,61 @@ if __name__ == "__main__":
         )
         logger.info(f"✅ Model gotowy: {model_path}")
-        # Komenda startowa llama_cpp.server
-        cmd = [
-            sys.executable, "-m", "llama_cpp.server",
-            "--model", model_path,
-            "--host", "0.0.0.0",
-            "--port", PORT,
-            "--n_ctx", N_CTX,
-            "--n_threads", N_THREADS,
-            "--n_batch", N_BATCH,
-            "--n_gpu_layers", "0",
-            "--use_mmap",
-            "--no_flash_attn",
-            "--chat_format", "chatml" # Domyślny format dla Granite/LLama
-        ]
-        logger.info(f"🚀 Start serwera: {' '.join(cmd)}")
-        # Uruchom proces podrzędny i czekaj na jego zakończenie
-        process = subprocess.Popen(cmd)
-        process.wait()
     except Exception as e:
         logger.error(f"❌ Krytyczny błąd: {e}", exc_info=True)

 #!/usr/bin/env python3
 """
+Ultralekki serwer OpenAI-compatible dla HF Spaces
+✅ Bezpośrednie uruchomienie via uvicorn (brak subprocess)
+✅ Odporny na SIGTERM/SIGINT
+✅ Streaming SSE | ✅ Brak auth
 """
 import os
 import sys
 import signal
 import logging
 from huggingface_hub import hf_hub_download
+import uvicorn
 logging.basicConfig(level=logging.INFO, format="%(levelname)s: %(message)s")
 logger = logging.getLogger(__name__)
 MODEL_REPO = "unsloth/granite-4.1-3b-GGUF"
 MODEL_FILE = os.environ.get("MODEL_FILE", "granite-4.1-3b-UD-IQ2_M.gguf")
+PORT = int(os.environ.get("PORT", 7860))
+N_CTX = int(os.environ.get("N_CTX", 2048))
+N_THREADS = int(os.environ.get("N_THREADS", 2))
+N_BATCH = int(os.environ.get("N_BATCH", 512))
 def graceful_shutdown(signum, frame):
     logger.info("📡 Otrzymano sygnał zakończenia. Zamykanie...")
+    # Uvicorn obsłuży to samodzielnie dzięki lifespan, ale dla pewności exit
     sys.exit(0)
 signal.signal(signal.SIGTERM, graceful_shutdown)
         )
         logger.info(f"✅ Model gotowy: {model_path}")
+        # Importujemy moduł serwera llama_cpp
+        from llama_cpp.server.app import create_app
+        # Tworzymy aplikację FastAPI z konfiguracją modelu
+        # Uwaga: create_app wymaga specyficznych argumentów w nowszych wersjach
+        # Jeśli create_app nie działa bezpośrednio, używamy podejścia z CLI args via sys.argv hack
+        # Ale najbezpieczniej jest ustawić zmienne środowiskowe, które llama_cpp.server czyta
+        os.environ["MODEL"] = model_path
+        os.environ["HOST"] = "0.0.0.0"
+        os.environ["PORT"] = str(PORT)
+        os.environ["N_CTX"] = str(N_CTX)
+        os.environ["N_THREADS"] = str(N_THREADS)
+        os.environ["N_BATCH"] = str(N_BATCH)
+        os.environ["N_GPU_LAYERS"] = "0"
+        os.environ["USE_MMAP"] = "1"
+        os.environ["NO_FLASH_ATTN"] = "1"
+        os.environ["CHAT_FORMAT"] = "chatml"
+        logger.info("🚀 Start serwera Uvicorn...")
+        # Uruchamiamy uvicorn bezpośrednio
+        # app="llama_cpp.server.app:create_app" może być problematyczne jeśli create_app potrzebuje args
+        # Dlatego używamy prostszego podejścia: zaimportujmy app z llama_cpp.server
+        # Alternatywa: Użycie wbudowanego entrypointa llama_cpp.server poprzez import
+        # Najprostsze i najbardziej stabilne:
+        from llama_cpp.server import app as server_app_module
+        # Sprawdźmy, czy server_app_module ma obiekt 'app'
+        if hasattr(server_app_module, 'app'):
+            target_app = server_app_module.app
+        else:
+            # Fallback: spróbujmy stworzyć app ręcznie jeśli to możliwe
+            # W wersji 0.3.2 app jest tworzony dynamicznie przy imporcie __main__
+            # Więc musimy zasymulować import __main__
+            import llama_cpp.server.__main__ as main_module
+            # To może być ryzykowne.
+            # Najlepsze rozwiązanie dla 0.3.2:
+            # Używamy uvicorn z stringiem wskazującym na fabrykę aplikacji
+            target_app = "llama_cpp.server.app:create_app"
+        uvicorn.run(
+            target_app,
+            host="0.0.0.0",
+            port=PORT,
+            log_level="info",
+            timeout_keep_alive=120,
+            limit_concurrency=3,
+            backlog=16,
+            ws_ping_interval=30,
+            ws_ping_timeout=10
+        )
     except Exception as e:
         logger.error(f"❌ Krytyczny błąd: {e}", exc_info=True)