Spaces:

IvanPSG
/

ProgrammythAI

Sleeping

App Files Files Community

IvanPSG commited on Aug 13, 2025

Commit

6161aaf

verified ·

1 Parent(s): abbab7a

Compatibilidade com GGUF

Browse files

Files changed (1) hide show

app.py +18 -54

app.py CHANGED Viewed

@@ -3,11 +3,7 @@ import gradio as gr
 from huggingface_hub import InferenceClient
 MODEL_ID = "unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF"
-# Pega o token do secret HF_TOKEN que você adicionou no Space
 token = os.environ.get("HF_TOKEN")
-# Inicializa o cliente; se token for None, InferenceClient tentará usar o token local/config.
 client = InferenceClient(model=MODEL_ID, token=token)
 def respond(
@@ -18,56 +14,24 @@ def respond(
     temperature,
     top_p,
 ):
-    messages = [{"role": "system", "content": system_message}]
-    for val in history:
-        if val[0]:
-            messages.append({"role": "user", "content": val[0]})
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    messages.append({"role": "user", "content": message})
-    # MODE: escolha "stream_mode = True" para token por token, ou False para resposta completa de uma vez
-    stream_mode = True
-    if stream_mode:
-        response = ""
-        # stream=True entrega chunks — iteramos e extraímos 'content' do delta
-        for chunk in client.chat_completion(
-            messages,
-            max_tokens=max_tokens,
-            stream=True,
-            temperature=temperature,
-            top_p=top_p,
-        ):
-            # chunk pode ser dataclass/obj ou dict-like; tentamos extrair o texto com segurança
-            token_piece = ""
-            try:
-                delta = chunk.choices[0].delta
-                if isinstance(delta, dict):
-                    token_piece = delta.get("content", "") or ""
-                else:
-                    # objeto dataclass-like
-                    token_piece = getattr(delta, "content", "") or ""
-            except Exception:
-                # fallback genérico (caso a API retorne formato diferente)
-                token_piece = str(chunk)
-            response += token_piece
-            yield response
-    else:
-        # Sem streaming: recupera a resposta completa
-        completion = client.chat_completion(
-            messages,
-            max_tokens=max_tokens,
-            stream=False,
-            temperature=temperature,
-            top_p=top_p,
-        )
-        # conforme docs, a resposta completa aparece em:
-        text = completion.choices[0].message.content
-        yield text
 demo = gr.ChatInterface(
     respond,

 from huggingface_hub import InferenceClient
 MODEL_ID = "unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF"
 token = os.environ.get("HF_TOKEN")
 client = InferenceClient(model=MODEL_ID, token=token)
 def respond(
     temperature,
     top_p,
 ):
+    # Monta o prompt tipo chat manualmente
+    prompt = f"{system_message}\n\n"
+    for user_msg, bot_msg in history:
+        if user_msg:
+            prompt += f"User: {user_msg}\n"
+        if bot_msg:
+            prompt += f"Assistant: {bot_msg}\n"
+    prompt += f"User: {message}\nAssistant:"
+    # Chama o endpoint de geração de texto normal, sem streaming
+    response = client.text_generation(
+        prompt,
+        max_new_tokens=max_tokens,
+        temperature=temperature,
+        top_p=top_p,
+    )
+    # A resposta vem como string simples
+    yield response
 demo = gr.ChatInterface(
     respond,