Spaces:

gijl
/

g

Sleeping

App Files Files Community

gijl commited on 13 days ago

Commit

968e9e1

verified ·

1 Parent(s): 4e023f7

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -22

app.py CHANGED Viewed

@@ -1,54 +1,59 @@
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, TextIteratorStreamer
 import torch
 from threading import Thread
 model_name = "gijl/gemma-4-E2B-it"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name,
-                                             torch_dtype=torch.float16,
-                                             device_map="auto")
-# إبقاء الـ pipeline كما هو أو استخدامه مباشرة
-pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
 def generate_response(message, history):
-    # إعداد مدخلات المحادثة
     messages = [
-        {"role": "system", "content": "Você é ELIZA, uma terapeuta que responde com empatia e faz perguntas para entender melhor o paciente."},
         {"role": "user", "content": message}
     ]
-    # 1. إعداد الـ Streamer
-    streamer = TextIteratorStreamer(tokenizer, timeout=10.0, skip_prompt=True, skip_special_tokens=True)
-    # 2. إعداد إعدادات التوليد
-    # ملاحظة: تم استخدام tokenizer.apply_chat_template لتحويل الرسائل لتنسيق يفهمه النموذج
-    inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
     generation_kwargs = dict(
         input_ids=inputs,
         streamer=streamer,
         max_new_tokens=150,
         temperature=0.7,
-        do_sample=True
     )
-    # 3. تشغيل التوليد في Thread منفصل لكي لا يتجمد التطبيق أثناء البث
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
-    # 4. البث المباشر: الـ yield هي السر هنا!
     partial_text = ""
     for new_text in streamer:
         partial_text += new_text
-        yield partial_text # يرسل النص قطعة قطعة للواجهة
 demo = gr.ChatInterface(
     generate_response,
-    title="ELIZA (com LLM Streaming)",
-    description="Compartilhe seus pensamentos e ELIZA irá ajudar você a refletir sobre eles."
 )
 if __name__ == "__main__":

 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import torch
 from threading import Thread
+# 1. تحميل النموذج والـ Tokenizer مرة واحدة فقط لتوفير الذاكرة
 model_name = "gijl/gemma-4-E2B-it"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,
+    device_map="auto" # سيقوم بتوزيع النموذج بذكاء على الذاكرة المتوفرة
+)
 def generate_response(message, history):
+    # تحويل المحادثة إلى التنسيق الذي يفهمه النموذج (Chat Template)
     messages = [
+        {"role": "system", "content": "Você é ELIZA, uma terapeuta que responde com empatia."},
         {"role": "user", "content": message}
     ]
+    # تحويل النص إلى أرقام (Tokens) ونقلها للمعالج
+    inputs = tokenizer.apply_chat_template(
+        messages,
+        add_generation_prompt=True,
+        return_tensors="pt"
+    ).to(model.device)
+    # 2. إعداد الـ Streamer (هذا هو المسؤول عن التقاط الكلمات أثناء توليدها)
+    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+    # إعدادات التوليد
     generation_kwargs = dict(
         input_ids=inputs,
         streamer=streamer,
         max_new_tokens=150,
         temperature=0.7,
+        do_sample=True,
     )
+    # 3. تشغيل التوليد في مسار منفصل (Thread) لضمان عدم تجميد الواجهة
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
+    # 4. السطر السحري: البث المباشر باستخدام yield
     partial_text = ""
     for new_text in streamer:
         partial_text += new_text
+        yield partial_text # يقوم بتحديث النص في الواجهة فور ظهور كل كلمة
+# بناء الواجهة
 demo = gr.ChatInterface(
     generate_response,
+    title="ELIZA (Gemma-4 Streaming)",
+    description="بث مباشر للنصوص مع استهلاك منخفض للذاكرة."
 )
 if __name__ == "__main__":