from fastapi import FastAPI from fastapi.responses import HTMLResponse from pydantic import BaseModel from huggingface_hub import hf_hub_download from llama_cpp import Llama app = FastAPI() # 1. تحميل النموذج من المستودع المحدد model_path = hf_hub_download( repo_id="Arabic250/gemma-4-gguf-export", filename="gemma-4-e4b.gguf" ) # 2. تهيئة النموذج للعمل على CPU فقط llm = Llama( model_path=model_path, n_ctx=2048, n_threads=4, # مناسب لموارد Hugging Face المجانية n_gpu_layers=0 # تعطيل طبقات معالج الرسوميات (CPU Only) ) class ChatRequest(BaseModel): message: str # 3. واجهة React الأمامية مدمجة كـ HTML HTML_CONTENT = """