Spaces:

gijl
/

g

Running

App Files Files Community

gijl commited on 7 days ago

Commit

0487d1d

verified ·

1 Parent(s): 968e9e1

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -36

app.py CHANGED Viewed

@@ -1,60 +1,50 @@
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import torch
-from threading import Thread
-# 1. تحميل النموذج والـ Tokenizer مرة واحدة فقط لتوفير الذاكرة
 model_name = "gijl/gemma-4-E2B-it"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    torch_dtype=torch.float16,
-    device_map="auto" # سيقوم بتوزيع النموذج بذكاء على الذاكرة المتوفرة
-)
 def generate_response(message, history):
-    # تحويل المحادثة إلى التنسيق الذي يفهمه النموذج (Chat Template)
     messages = [
         {"role": "system", "content": "Você é ELIZA, uma terapeuta que responde com empatia."},
         {"role": "user", "content": message}
     ]
-    # تحويل النص إلى أرقام (Tokens) ونقلها للمعالج
-    inputs = tokenizer.apply_chat_template(
-        messages,
-        add_generation_prompt=True,
-        return_tensors="pt"
-    ).to(model.device)
-    # 2. إعداد الـ Streamer (هذا هو المسؤول عن التقاط الكلمات أثناء توليدها)
-    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
-    # إعدادات التوليد
-    generation_kwargs = dict(
-        input_ids=inputs,
-        streamer=streamer,
-        max_new_tokens=150,
-        temperature=0.7,
-        do_sample=True,
-    )
-    # 3. تشغيل التوليد في مسار منفصل (Thread) لضمان عدم تجميد الواجهة
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
-    # 4. السطر السحري: البث المباشر باستخدام yield
     partial_text = ""
     for new_text in streamer:
         partial_text += new_text
-        yield partial_text # يقوم بتحديث النص في الواجهة فور ظهور كل كلمة
-# بناء الواجهة
 demo = gr.ChatInterface(
     generate_response,
-    title="ELIZA (Gemma-4 Streaming)",
-    description="بث مباشر للنصوص مع استهلاك منخفض للذاكرة."
 )
-if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, TextIteratorStreamer
 import torch
+import os # إعادة المكتبة المحذوفة
+from threading import Thread # ضرورية تقنياً للبث ولا تستهلك ذاكرة
 model_name = "gijl/gemma-4-E2B-it"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+# تحميل النموذج مرة واحدة فقط (5 جيجابايت تقريباً)
+model = AutoModelForCausalLM.from_pretrained(model_name,
+                                             torch_dtype=torch.float16,
+                                             device_map="auto")
+# تم التعديل هنا: نمرر model=model وليس model_name لمنع تحميل النموذج مرة ثانية
+pipe = pipeline("text-generation",
+                model=model,
+                tokenizer=tokenizer)
 def generate_response(message, history):
     messages = [
         {"role": "system", "content": "Você é ELIZA, uma terapeuta que responde com empatia."},
         {"role": "user", "content": message}
     ]
+    # سطر إعداد البث
+    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+    # تجهيز المدخلات
+    inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
+    # تشغيل التوليد في الخلفية
+    generation_kwargs = dict(input_ids=inputs, streamer=streamer, max_new_tokens=150, temperature=0.7)
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
+    # سطر تفعيل البث المباشر (The Streaming Line)
     partial_text = ""
     for new_text in streamer:
         partial_text += new_text
+        yield partial_text # هذا السطر هو الذي يجعل النص يظهر كلمة بكلمة
 demo = gr.ChatInterface(
     generate_response,
+    title=" (Streaming)",
+    description="استهلاك الذاكرة الآن مثالي والبث مفعل."
 )
+demo.launch()