Spaces:

gijl
/

sdk

Paused

App Files Files Community

gijl commited on 17 days ago

Commit

6ce6322

verified ·

1 Parent(s): 3b96db4

Upload 2 files

Browse files

Files changed (2) hide show

Dockerfile +49 -0
run.sh +104 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,49 @@

+# ===================================================================
+# Open WebUI + llama.cpp (بديل خفيف عن Ollama)
+# llama.cpp يقدم OpenAI-compatible API على المنفذ 8080
+# Open WebUI يتصل به كـ OpenAI endpoint مباشرة
+# ===================================================================
+FROM ghcr.io/open-webui/open-webui:main
+# ------------------------------------------------------------------
+# متغيرات البيئة
+# ------------------------------------------------------------------
+# مسارات التخزين الدائم (نفس هيكلك السابق)
+ENV MODELS_DIR=/data/models
+ENV DATA_DIR=/data/webui
+ENV PORT=7860
+ENV HOST=0.0.0.0
+# توجيه Open WebUI إلى خادم llama.cpp بدلاً من Ollama
+ENV OPENAI_API_BASE_URL=http://localhost:8080/v1
+ENV OPENAI_API_KEY=sk-llama-cpp-local
+# إيقاف Ollama تماماً - لا نحتاجه
+ENV ENABLE_OLLAMA_API=false
+# تفعيل OpenAI API (يتصل بـ llama.cpp)
+ENV ENABLE_OPENAI_API=true
+# ------------------------------------------------------------------
+# تثبيت المتطلبات
+# ------------------------------------------------------------------
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    curl \
+    libgomp1 \
+    && rm -rf /var/lib/apt/lists/*
+# أداة تحميل النماذج من Hugging Face
+RUN pip install -U huggingface_hub --no-cache-dir
+# تثبيت llama-cpp-python مع دعم الخادم (OpenAI-compatible server)
+# CMAKE_ARGS تُفعّل OpenBLAS لتسريع الحسابات على CPU
+RUN CMAKE_ARGS="-DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS" \
+    pip install llama-cpp-python[server] --no-cache-dir
+# ------------------------------------------------------------------
+# سكريبت التشغيل
+# ------------------------------------------------------------------
+COPY run.sh /app/run.sh
+RUN chmod +x /app/run.sh
+CMD ["/app/run.sh"]

run.sh ADDED Viewed

	@@ -0,0 +1,104 @@

+#!/bin/bash
+set -e
+# ===================================================================
+# إعدادات المسارات (نفس هيكل التخزين السابق)
+# ===================================================================
+MODELS_DIR="/data/models"
+MODEL_FILE="gemma-4-E2B-it-UD-Q5_K_XL.gguf"
+MMPROJ_FILE="mmproj-BF16.gguf"
+LLAMA_PORT=8080
+# ===================================================================
+# إنشاء المجلدات في التخزين الدائم
+# ===================================================================
+mkdir -p "$MODELS_DIR"
+mkdir -p /data/webui
+# ===================================================================
+# تحميل النموذج من Hugging Face (إن لم يكن موجوداً)
+# نحفظه مباشرة في /data/models بدون نسخ إضافية
+# ===================================================================
+if [ ! -f "$MODELS_DIR/$MODEL_FILE" ]; then
+    echo ">>> النموذج غير موجود، جارٍ التحميل من Hugging Face..."
+    huggingface-cli download gijl/gemma-4-E2B-it-GGUF "$MODEL_FILE" \
+        --local-dir "$MODELS_DIR" \
+        --local-dir-use-symlinks False
+    echo ">>> تم تحميل النموذج بنجاح."
+else
+    echo ">>> النموذج موجود مسبقاً، تخطي التحميل."
+fi
+# تحميل ملف الرؤية (mmproj) إن لم يكن موجوداً
+if [ ! -f "$MODELS_DIR/$MMPROJ_FILE" ]; then
+    echo ">>> تحميل ملف الرؤية (mmproj)..."
+    huggingface-cli download gijl/gemma-4-E2B-it-GGUF "$MMPROJ_FILE" \
+        --local-dir "$MODELS_DIR" \
+        --local-dir-use-symlinks False
+fi
+# ===================================================================
+# تشغيل خادم llama.cpp
+#
+# مزايا على Ollama:
+# - بلا daemon ثقيل في الخلفية
+# - يقرأ ملف GGUF مباشرة (بدون نسخ أو blobs)
+# - يستخدم mmap لتعيين الملف في الذاكرة (توفير RAM)
+# - يدعم OpenAI API مباشرة
+#
+# خيارات الذاكرة:
+# --mmap       : يعيّن الملف في الذاكرة بدلاً من تحميله كاملاً (افتراضي)
+# --no-mlock   : يسمح للنظام بتبادل الصفحات (swap) عند الضغط
+# --flash-attn : يقلل استهلاك ذاكرة الـ attention
+# ===================================================================
+echo ">>> تشغيل خادم llama.cpp على المنفذ $LLAMA_PORT..."
+python3 -m llama_cpp.server \
+    --model          "$MODELS_DIR/$MODEL_FILE" \
+    --clip_model_path "$MODELS_DIR/$MMPROJ_FILE" \
+    --host           0.0.0.0 \
+    --port           $LLAMA_PORT \
+    --n_ctx          8192 \
+    --n_threads      2 \
+    --n_gpu_layers   0 \
+    --chat_format    gemma \
+    --flash_attn     true \
+    --use_mmap       true \
+    --use_mlock      false \
+    --verbose        false &
+LLAMA_PID=$!
+echo ">>> PID خادم llama.cpp: $LLAMA_PID"
+# ===================================================================
+# انتظر حتى يصبح الخادم جاهزاً
+# ===================================================================
+echo ">>> انتظار جهوزية خادم llama.cpp..."
+MAX_WAIT=120
+WAITED=0
+until curl -sf "http://localhost:$LLAMA_PORT/health" > /dev/null 2>&1; do
+    if [ $WAITED -ge $MAX_WAIT ]; then
+        echo "!!! فشل تشغيل خادم llama.cpp بعد ${MAX_WAIT} ثانية"
+        exit 1
+    fi
+    sleep 2
+    WAITED=$((WAITED + 2))
+done
+echo ">>> خادم llama.cpp جاهز! (استغرق ${WAITED} ثانية)"
+# ===================================================================
+# تصدير متغيرات Open WebUI للاتصال بـ llama.cpp
+# ===================================================================
+export OPENAI_API_BASE_URL="http://localhost:$LLAMA_PORT/v1"
+export OPENAI_API_KEY="sk-llama-cpp-local"
+export ENABLE_OLLAMA_API=false
+export ENABLE_OPENAI_API=true
+export DATA_DIR=/data/webui
+export PORT=7860
+export HOST=0.0.0.0
+# ===================================================================
+# تشغيل Open WebUI
+# ===================================================================
+echo ">>> تشغيل Open WebUI..."
+cd /app/backend
+exec bash start.sh