Spaces:

sbeechoi
/

ft-test

Sleeping

sbeechoi commited on Apr 2

Commit

a2ea50c

verified ·

1 Parent(s): 011a7ed

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,7 +10,7 @@ from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStream
 os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
 MODEL_ID = os.getenv("MODEL_ID", "Qwen/Qwen3-0.6B")
-MAX_NEW_TOKENS = int(os.getenv("MAX_NEW_TOKENS", "256"))
 MAX_INPUT_TOKENS = int(os.getenv("MAX_INPUT_TOKENS", "1536"))
 MAX_HISTORY_TURNS = int(os.getenv("MAX_HISTORY_TURNS", "3"))
 N_THREADS = int(os.getenv("N_THREADS", str(max(1, os.cpu_count() or 1))))
@@ -322,7 +322,8 @@ with gr.Blocks(title="Local CPU split-reasoning chat") as demo:
     preset.change(
         fn=load_preset,
         inputs=preset,
-        outputs=[system_prompt, user_input, thinking, sample_reasoning, sample_answer],
     )
     send_btn.click(

 os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
 MODEL_ID = os.getenv("MODEL_ID", "Qwen/Qwen3-0.6B")
+MAX_NEW_TOKENS = int(os.getenv("MAX_NEW_TOKENS", "4096"))
 MAX_INPUT_TOKENS = int(os.getenv("MAX_INPUT_TOKENS", "1536"))
 MAX_HISTORY_TURNS = int(os.getenv("MAX_HISTORY_TURNS", "3"))
 N_THREADS = int(os.getenv("N_THREADS", str(max(1, os.cpu_count() or 1))))
     preset.change(
         fn=load_preset,
         inputs=preset,
+        # outputs=[system_prompt, user_input, thinking, sample_reasoning, sample_answer],
+        outputs=[system_prompt, user_input, thinking],
     )
     send_btn.click(