Spaces:

rr19tech
/

PLNB-Model-SMOL

Running

rr19tech commited on 12 days ago

Commit

c154452

verified ·

1 Parent(s): 706db59

Reverted

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,34 +1,13 @@
 import gradio as gr
 from transformers import pipeline, AutoTokenizer
-from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
-#model_id = "HuggingFaceTB/SmolLM2-135M-Instruct"
-#we will be using Qwen2.5-0.5B-Instruct model is a lightweight powerhouse
 model_id = "Qwen/Qwen2.5-0.5B-Instruct"
-quantized_model_dir = "qwen2.5-0.5b-gptq-4bit"
-quantize_config = BaseQuantizeConfig(
-    bits=4,          # Quantize to 4-bit
-    group_size=128,  # Recommended setting
-    desc_act=False   # Set to False for faster inference
-)
-tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
-#model = AutoGPTQForCausalLM.from_pretrained(model_id, quantize_config)
-model = AutoGPTQForCausalLM.from_pretrained(
-    model_id,
-    device_map="cpu",
-    use_cuda_fp16=False # Critical for CPU-only environments
-)
-#pipe = pipeline("text-generation", model=model_id, device_map="auto") #adding a auto detect gpu
-#tokenizer = AutoTokenizer.from_pretrained(model_id)
-pipe = pipeline(
-    "text-generation",
-    model=model,
-    tokenizer=tokenizer,
-    device_map="cpu"
-)
 def chat(message, history):

 import gradio as gr
 from transformers import pipeline, AutoTokenizer
 model_id = "Qwen/Qwen2.5-0.5B-Instruct"
+pipe = pipeline("text-generation", model=model_id, device_map="auto") #adding a auto detect gpu
+tokenizer = AutoTokenizer.from_pretrained(model_id)
 def chat(message, history):