Gemma 4 Chat

from fastapi import FastAPI from fastapi.responses import HTMLResponse from pydantic import BaseModel from huggingface_hub import hf_hub_download from llama_cpp import Llama app = FastAPI() # 1. تحميل النموذج من المستودع المحدد model_path = hf_hub_download( repo_id="Arabic250/gemma-4-gguf-export", filename="gemma-4-e4b.gguf" ) # 2. تهيئة النموذج للعمل على CPU فقط llm = Llama( model_path=model_path, n_ctx=2048, n_threads=4, # مناسب لموارد Hugging Face المجانية n_gpu_layers=0 # تعطيل طبقات معالج الرسوميات (CPU Only) ) class ChatRequest(BaseModel): message: str # 3. واجهة React الأمامية مدمجة كـ HTML HTML_CONTENT = """ Gemma 4 Chat

""" @app.get("/") def read_root(): return HTMLResponse(content=HTML_CONTENT) @app.post("/chat") def chat(request: ChatRequest): # بناء سياق Gemma بالشكل الصحيح prompt = f"user\n{request.message}\nmodel\n" response = llm( prompt, max_tokens=512, stop=[""] ) return {"response": response['choices'][0]['text'].strip()}