Spaces:

oki0ki
/

graniteapi

Runtime error

App Files Files Community

oki0ki commited on 2 days ago

Commit

c2f3a1e

verified ·

1 Parent(s): dcdf0ab

Create app.py

Browse files

Files changed (1) hide show

app.py +114 -0

app.py ADDED Viewed

	@@ -0,0 +1,114 @@

+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+"""
+Ultralekki serwer OpenAI-compatible dla HF Spaces
+Model: unsloth/granite-4.1-3b-GGUF (UD-IQ2_M)
+✅ Brak auth | ✅ Streaming | ✅ Odporny na zerwania | ✅ Optymalizacja CPU/RAM
+"""
+import os
+import sys
+import signal
+import asyncio
+import logging
+from contextlib import asynccontextmanager
+from huggingface_hub import hf_hub_download
+from fastapi import FastAPI, Request
+from fastapi.middleware.cors import CORSMiddleware
+from fastapi.responses import JSONResponse
+import uvicorn
+# ---------------- KONFIGURACJA ----------------
+MODEL_REPO = "unsloth/granite-4.1-3b-GGUF"
+MODEL_FILE = os.environ.get("MODEL_FILE", "granite-4.1-3b-UD-IQ2_M.gguf")
+PORT = int(os.environ.get("PORT", 7860))
+N_CTX = int(os.environ.get("N_CTX", 2048))        # Limit kontekstu dla oszczędności RAM
+N_THREADS = int(os.environ.get("N_THREADS", 2))    # Dopasowane do free tier HF
+N_BATCH = int(os.environ.get("N_BATCH", 512))
+MAX_CONCURRENCY = int(os.environ.get("MAX_CONCURRENCY", 3))
+# Wymuś CPU, wyłącz detekcję GPU i niepotrzebne overheady
+os.environ.update({
+    "LLAMA_NO_METAL": "1",
+    "LLAMA_NO_CUDA": "1",
+    "LLAMA_NO_VULKAN": "1",
+    "USE_MMAP": "1",
+    "USE_MLOCK": "0",
+    "FLASH_ATTN": "0",
+    "VERBOSE": "0"
+})
+logging.basicConfig(level=logging.INFO, format="%(levelname)s: %(message)s")
+logger = logging.getLogger(__name__)
+# ---------------- POBIERANIE MODELU ----------------
+def get_model_path() -> str:
+    logger.info(f"⬇️ Pobieranie/weryfikacja: {MODEL_REPO}/{MODEL_FILE}")
+    return hf_hub_download(repo_id=MODEL_REPO, filename=MODEL_FILE, resume_download=True)
+# ---------------- LIFECYCLE & APP ----------------
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    # Startup
+    model_path = get_model_path()
+    os.environ["MODEL"] = model_path
+    logger.info("📦 Model gotowy. Inicjalizacja llama.cpp server...")
+    # Importuj dopiero po ustawieniu envów (llama_cpp czyta je przy starcie)
+    import llama_cpp.server.app as server_module
+    app.mount("/", server_module.app)
+    yield
+    # Shutdown
+    logger.info("🛑 Zamykanie serwera...")
+app = FastAPI(title="Granite-4.1-3B-IQ2M OpenAI API", lifespan=lifespan)
+# ---------------- MIDDLEWARE & RESILIENCE ----------------
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+@app.middleware("http")
+async def connection_resilience(request: Request, call_next):
+    try:
+        response = await call_next(request)
+        return response
+    except (BrokenPipeError, ConnectionResetError, asyncio.CancelledError):
+        # Ciche ignorowanie zerwanych połączeń klienckich (np. zamknięcie karty, timeout sieci)
+        logger.debug("🔌 Połączenie klienta zerwane – ignorowanie błędu")
+        return JSONResponse(status_code=499, content={"error": "Client closed request"})
+    except Exception as e:
+        logger.error(f"❌ Błąd serwera: {e}")
+        return JSONResponse(status_code=500, content={"error": str(e)})
+@app.get("/health")
+async def health():
+    return {"status": "ok", "model": MODEL_FILE, "ctx": N_CTX, "threads": N_THREADS}
+# ---------------- SIGNALS ----------------
+def graceful_shutdown(signum, frame):
+    logger.info("📡 Otrzymano sygnał zakończenia. Zamykanie...")
+    sys.exit(0)
+signal.signal(signal.SIGTERM, graceful_shutdown)
+signal.signal(signal.SIGINT, graceful_shutdown)
+# ---------------- START ----------------
+if __name__ == "__main__":
+    logger.info(f"🚀 Start na porcie {PORT} | Context: {N_CTX} | Wątki: {N_THREADS} | Max concurrent: {MAX_CONCURRENCY}")
+    uvicorn.run(
+        app,
+        host="0.0.0.0",
+        port=PORT,
+        log_level="info",
+        timeout_keep_alive=120,      # Utrzymuje połączenie przy krótkich zrywach sieci
+        limit_concurrency=MAX_CONCURRENCY, # Chroni przed OOM na free tier
+        backlog=16,
+        ws_ping_interval=30,
+        ws_ping_timeout=10
+    )