Spaces:

madDegen
/

agentqq

Paused

App Files Files Community

madDegen commited on 30 days ago

Commit

a8bb2ab

verified ·

1 Parent(s): 8a35e8e

fix: remove litellm[proxy], Ollama direct on :7860

Browse files

Files changed (2) hide show

Dockerfile +13 -26
startup.sh +32 -71

Dockerfile CHANGED Viewed

@@ -1,15 +1,14 @@
 # ─────────────────────────────────────────────────────────────
-# Agent Q-Q (Agent Q-QAJAQS) — QLAWED-Q HF Space v2.0
-# SDK: Docker | Public Port: 7860 (LiteLLM proxy)
 #
 # Architecture:
-#   Ollama   → internal :11434  (model inference)
-#   LiteLLM  → public   :7860   (Claude-compatible API)
 #
-# Endpoints exposed at :7860:
 #   POST /v1/chat/completions   (OpenAI SDK compatible)
-#   POST /v1/messages           (Anthropic SDK compatible)
-#   GET  /health
 #   GET  /v1/models
 # ─────────────────────────────────────────────────────────────
@@ -21,43 +20,31 @@ ENV DEBIAN_FRONTEND=noninteractive
 RUN apt-get update && apt-get install -y \
     curl \
     ca-certificates \
-    python3 \
-    python3-pip \
-    git \
-    git-lfs \
     && rm -rf /var/lib/apt/lists/*
 # ── Ollama ────────────────────────────────────────────────────
 RUN curl -fsSL https://ollama.com/install.sh | sh
-# ── Python packages (system-wide, available to all users) ─────
-RUN pip3 install --no-cache-dir \
-    "litellm[proxy]>=1.40.0" \
-    "huggingface_hub[cli]>=0.23.0" \
-    PyYAML \
-    uvicorn
 # ── HF Spaces: non-root user uid 1000 ─────────────────────────
 RUN useradd -m -u 1000 user
 USER user
 # ── Environment ───────────────────────────────────────────────
 ENV OLLAMA_MODELS=/home/user/.ollama/models
-ENV OLLAMA_HOST=0.0.0.0:11434
-ENV HF_HOME=/home/user/.cache/huggingface
 ENV HOME=/home/user
 ENV PATH=/home/user/.local/bin:/usr/local/bin:/usr/bin:$PATH
 WORKDIR /home/user
-# ── Copy config files ─────────────────────────────────────────
-COPY --chown=user startup.sh             /home/user/startup.sh
-COPY --chown=user litellm_config.yaml    /home/user/litellm_config.yaml
-COPY --chown=user Modelfile.qlawed-frontend /home/user/Modelfile.qlawed-frontend
 RUN chmod +x /home/user/startup.sh
-# ── Public port: LiteLLM proxy ────────────────────────────────
 EXPOSE 7860
 CMD ["/home/user/startup.sh"]

 # ─────────────────────────────────────────────────────────────
+# Agent Q-Q (Agent Q-QAJAQS) — QLAWED-Q HF Space v3.1
+# SDK: Docker | Public Port: 7860 (Ollama direct)
 #
 # Architecture:
+#   Ollama → public :7860  (native OpenAI-compatible API)
 #
+# Endpoints at :7860:
 #   POST /v1/chat/completions   (OpenAI SDK compatible)
+#   POST /api/generate          (Ollama native)
+#   GET  /api/tags              (model list)
 #   GET  /v1/models
 # ─────────────────────────────────────────────────────────────
 RUN apt-get update && apt-get install -y \
     curl \
     ca-certificates \
     && rm -rf /var/lib/apt/lists/*
 # ── Ollama ────────────────────────────────────────────────────
 RUN curl -fsSL https://ollama.com/install.sh | sh
 # ── HF Spaces: non-root user uid 1000 ─────────────────────────
 RUN useradd -m -u 1000 user
 USER user
 # ── Environment ───────────────────────────────────────────────
+# Serve directly on the HF public port
 ENV OLLAMA_MODELS=/home/user/.ollama/models
+ENV OLLAMA_HOST=0.0.0.0:7860
+ENV OLLAMA_KEEP_ALIVE=10m
+ENV OLLAMA_NUM_PARALLEL=2
 ENV HOME=/home/user
 ENV PATH=/home/user/.local/bin:/usr/local/bin:/usr/bin:$PATH
 WORKDIR /home/user
+# ── Copy startup script ───────────────────────────────────────
+COPY --chown=user startup.sh /home/user/startup.sh
 RUN chmod +x /home/user/startup.sh
+# ── Public port: Ollama API ───────────────────────────────────
 EXPOSE 7860
 CMD ["/home/user/startup.sh"]

startup.sh CHANGED Viewed

@@ -1,57 +1,43 @@
 #!/bin/bash
 # ─────────────────────────────────────────────────────────────
-# Agent Q-Q (QLAWED-Q) — HF Space Startup v3.0
-# MODE: Passthrough / Triage only
-#
-# When laptop is online: laptop handles all generative load.
-# This Space runs only when laptop is offline — triage + embeddings.
 #
 # VRAM budget (T4-small, 16GB):
-#   qwen3:1.7b       1.10GB  triage, non-generative
 #   nomic-embed-text 0.27GB  embeddings / pgvector
 #   ──────────────────────────────────────────────
-#   Total resident:  ~1.37GB / 16GB  (minimal cost)
 # ─────────────────────────────────────────────────────────────
 set -e
 echo "╔═════════════════════════════════════════════╗"
-echo "║   Agent Q-Q — Passthrough Mode             ║"
-echo "║   qwen3:1.7b  :11434 (triage)              ║"
-echo "║   LiteLLM     :7860  (Claude-compat proxy) ║"
 echo "╚═════════════════════════════════════════════╝"
 echo ""
 # ── Persistent disk (HF Pro) ──────────────────────────────────
-# HF Pro persistent storage mounts at /data
-# GGUF models cached here survive Space restarts (no re-download)
-PERSISTENT_DISK="/data"
-GGUF_DIR="$PERSISTENT_DISK/gguf"
-OLLAMA_MODELS_DIR="$PERSISTENT_DISK/ollama-models"
-if [ -d "$PERSISTENT_DISK" ]; then
-    echo "✅ Persistent disk detected at /data"
-    mkdir -p "$GGUF_DIR" "$OLLAMA_MODELS_DIR"
-    export OLLAMA_MODELS="$OLLAMA_MODELS_DIR"
 else
-    echo "⚠️  No persistent disk — using ephemeral storage"
-    echo "   Enable in: Space Settings → Persistent Storage → mount /data"
-    GGUF_DIR="$HOME/.ollama/gguf"
-    mkdir -p "$GGUF_DIR"
 fi
-# ── 1. Start Ollama ───────────────────────────────────────────
-export OLLAMA_HOST=0.0.0.0:11434
-export OLLAMA_KEEP_ALIVE=5m
 export OLLAMA_NUM_PARALLEL=2
-export OLLAMA_MAX_LOADED_MODELS=2
 ollama serve &
 OLLAMA_PID=$!
-echo "⏳ Waiting for Ollama on :11434..."
 for i in {1..40}; do
-    if curl -sf http://localhost:11434/api/tags > /dev/null 2>&1; then
         echo "✅ Ollama ready"
         break
     fi
@@ -62,10 +48,9 @@ for i in {1..40}; do
     sleep 2
 done
-# ── 2. Pull triage models ─────────────────────────────────────
-echo ""
-echo "📦 Setting up passthrough models..."
 echo ""
 pull_if_missing() {
     local model="$1"
@@ -73,57 +58,33 @@ pull_if_missing() {
         echo "  ✓ cached: $model"
     else
         echo "  ↓ pulling: $model"
-        ollama pull "$model" && echo "  ✅ ready: $model" || echo "  ⚠️  failed: $model"
     fi
 }
-# Triage agent — always resident, ~1.1GB
 pull_if_missing "qwen3:1.7b"
-# Embeddings — always resident, ~0.27GB
 pull_if_missing "nomic-embed-text"
 echo ""
-echo "📊 Registered models:"
 ollama list
 echo ""
-# ── 3. Start LiteLLM proxy ───────────────────────────────────
-echo "🔀 Starting LiteLLM proxy on :7860..."
-litellm \
-    --config "$HOME/litellm_config.yaml" \
-    --port 7860 \
-    --host 0.0.0.0 \
-    --telemetry False &
-LITELLM_PID=$!
-echo "⏳ Waiting for LiteLLM..."
-for i in {1..30}; do
-    if curl -sf http://localhost:7860/health > /dev/null 2>&1; then
-        echo "�� LiteLLM ready"
-        break
-    fi
-    if [ $i -eq 30 ]; then
-        echo "⚠️  LiteLLM slow to start — may still be initializing"
-        break
-    fi
-    sleep 2
-done
-echo ""
 echo "═══════════════════════════════════════════════════════════"
-echo "✅ Agent Q-Q HF Space — PASSTHROUGH MODE LIVE"
 echo ""
-echo "   Internal Ollama:  http://localhost:11434"
-echo "   Public LiteLLM:   http://0.0.0.0:7860"
 echo ""
-echo "   Routing (passthrough mode):"
-echo "     claude-haiku-4-5  → qwen3:1.7b       (triage/non-generative)"
-echo "     text-embedding-*  → nomic-embed-text  (embeddings)"
 echo ""
-echo "   NOTE: Generative tasks (claude-sonnet-4-6) handled by laptop."
-echo "   Start laptop stack to enable full generative capability."
 echo "═══════════════════════════════════════════════════════════"
-wait $LITELLM_PID $OLLAMA_PID

 #!/bin/bash
 # ─────────────────────────────────────────────────────────────
+# Agent Q-Q (QLAWED-Q) — HF Space Startup v3.1
+# MODE: Ollama direct on :7860
 #
 # VRAM budget (T4-small, 16GB):
+#   qwen3:1.7b       1.10GB  triage + chat
 #   nomic-embed-text 0.27GB  embeddings / pgvector
 #   ──────────────────────────────────────────────
+#   Total resident:  ~1.37GB / 16GB
 # ─────────────────────────────────────────────────────────────
 set -e
 echo "╔═════════════════════════════════════════════╗"
+echo "║   Agent Q-Q — Ollama Direct Mode           ║"
+echo "║   Serving on :7860 (OpenAI-compatible)     ║"
 echo "╚═════════════════════════════════════════════╝"
 echo ""
 # ── Persistent disk (HF Pro) ──────────────────────────────────
+if [ -d "/data" ]; then
+    echo "✅ Persistent disk at /data"
+    mkdir -p /data/ollama-models
+    export OLLAMA_MODELS="/data/ollama-models"
 else
+    echo "⚠️  Ephemeral storage (models re-download on restart)"
 fi
+# ── Start Ollama on port 7860 ─────────────────────────────────
+export OLLAMA_HOST=0.0.0.0:7860
+export OLLAMA_KEEP_ALIVE=10m
 export OLLAMA_NUM_PARALLEL=2
 ollama serve &
 OLLAMA_PID=$!
+echo "⏳ Waiting for Ollama on :7860..."
 for i in {1..40}; do
+    if curl -sf http://localhost:7860/api/tags > /dev/null 2>&1; then
         echo "✅ Ollama ready"
         break
     fi
     sleep 2
 done
+# ── Pull models ───────────────────────────────────────────────
 echo ""
+echo "📦 Pulling models..."
 pull_if_missing() {
     local model="$1"
         echo "  ✓ cached: $model"
     else
         echo "  ↓ pulling: $model"
+        ollama pull "$model" && echo "  ✅ $model" || echo "  ⚠️  failed: $model (non-fatal)"
     fi
 }
 pull_if_missing "qwen3:1.7b"
 pull_if_missing "nomic-embed-text"
 echo ""
+echo "📊 Loaded models:"
 ollama list
 echo ""
 echo "═══════════════════════════════════════════════════════════"
+echo "✅ Agent Q-Q LIVE"
 echo ""
+echo "   Public API:  http://0.0.0.0:7860"
 echo ""
+echo "   Endpoints:"
+echo "     GET  /api/tags                  → list models"
+echo "     GET  /v1/models                 → OpenAI model list"
+echo "     POST /v1/chat/completions       → OpenAI chat"
+echo "     POST /api/generate              → Ollama native"
+echo "     POST /api/embeddings            → embeddings"
 echo ""
+echo "   Models resident:"
+echo "     qwen3:1.7b        ~1.1GB  chat / triage"
+echo "     nomic-embed-text  ~0.3GB  embeddings"
 echo "═══════════════════════════════════════════════════════════"
+wait $OLLAMA_PID