Spaces:

gijl
/

g

Running

App Files Files Community

gijl commited on 7 days ago

Commit

d9f91ad

verified ·

1 Parent(s): 0487d1d

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -14

app.py CHANGED Viewed

@@ -1,50 +1,51 @@
 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, TextIteratorStreamer
 import torch
-import os # إعادة المكتبة المحذوفة
-from threading import Thread # ضرورية تقنياً للبث ولا تستهلك ذاكرة
 model_name = "gijl/gemma-4-E2B-it"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-# تحميل النموذج مرة واحدة فقط (5 جيجابايت تقريباً)
 model = AutoModelForCausalLM.from_pretrained(model_name,
                                              torch_dtype=torch.float16,
                                              device_map="auto")
-# تم التعديل هنا: نمرر model=model وليس model_name لمنع تحميل النموذج مرة ثانية
-pipe = pipeline("text-generation",
-                model=model,
-                tokenizer=tokenizer)
 def generate_response(message, history):
     messages = [
         {"role": "system", "content": "Você é ELIZA, uma terapeuta que responde com empatia."},
         {"role": "user", "content": message}
     ]
-    # سطر إعداد البث
     streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
-    # تجهيز المدخلات
     inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
-    # تشغيل التوليد في الخلفية
     generation_kwargs = dict(input_ids=inputs, streamer=streamer, max_new_tokens=150, temperature=0.7)
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
-    # سطر تفعيل البث المباشر (The Streaming Line)
     partial_text = ""
     for new_text in streamer:
         partial_text += new_text
-        yield partial_text # هذا السطر هو الذي يجعل النص يظهر كلمة بكلمة
 demo = gr.ChatInterface(
     generate_response,
-    title=" (Streaming)",
-    description="استهلاك الذاكرة الآن مثالي والبث مفعل."
 )
 demo.launch()

 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, TextIteratorStreamer
 import torch
+import os
+from threading import Thread # ضرورية تقنياً لعمل سطر البث ولا تستهلك ذاكرة
 model_name = "gijl/gemma-4-E2B-it"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+# تحميل النموذج مرة واحدة (هنا سيبقى الاستهلاك ثابت عند 9 جيجا)
 model = AutoModelForCausalLM.from_pretrained(model_name,
                                              torch_dtype=torch.float16,
                                              device_map="auto")
+# نمرر الكائن model لكي لا يتم تحميله مرتين في الذاكرة
+pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
 def generate_response(message, history):
+    # تنسيق الرسائل بشكل بسيط لضمان استجابة النموذج
     messages = [
         {"role": "system", "content": "Você é ELIZA, uma terapeuta que responde com empatia."},
         {"role": "user", "content": message}
     ]
+    # 1. سطر إعداد البث
     streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+    # تحويل النص لـ Tokens
     inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
+    # 2. إعداد المعطيات
     generation_kwargs = dict(input_ids=inputs, streamer=streamer, max_new_tokens=150, temperature=0.7)
+    # 3. تشغيل المعالج في الخلفية (لكي لا يتوقف الكود عن الرد)
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
+    # 4. السطر المطلوب لتفعيل البث المباشر
     partial_text = ""
     for new_text in streamer:
         partial_text += new_text
+        yield partial_text # هذا السطر هو الذي "يدفع" الكلمات للواجهة فوراً
 demo = gr.ChatInterface(
     generate_response,
+    title="ELIZA (Streaming Mode)",
+    description="البث مفعل والذاكرة مستقرة."
 )
 demo.launch()