Spaces:

MINZO4546
/

minzo-api

Build error

App Files Files Community

MINZO4546 commited on 13 days ago

Commit

deadea5

verified ·

1 Parent(s): fa283f3

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -33

app.py CHANGED Viewed

@@ -2,11 +2,10 @@ import torch
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
-from transformers import AutoModelForCausalLM, AutoTokenizer
 main = FastAPI()
-# CORS සක්‍රීය කිරීම
 main.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
@@ -15,13 +14,13 @@ main.add_middleware(
 )
 MODEL_ID = "tencent/Hy-MT1.5-1.8B-2bit"
-print(f"🔱 Specialist, Loading {MODEL_ID} on CPU...")
-# Load Model & Tokenizer
-tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained(
-    MODEL_ID,
-    device_map="cpu",
     trust_remote_code=True
 )
@@ -32,30 +31,34 @@ class ChatRequest(BaseModel):
 async def chat(request_data: ChatRequest):
     user_query = request_data.message.strip()
-    # පිරිසිදු Prompt එකක්
-    prompt = f"User: {user_query}\nAssistant:"
-    inputs = tokenizer(prompt, return_tensors="pt").to("cpu")
-    with torch.no_grad():
-        outputs = model.generate(
-            **inputs,
-            max_new_tokens=200,
-            temperature=0.7,
-            do_sample=True,
-            pad_token_id=tokenizer.eos_token_id
-        )
-    # Output එකෙන් prompt එක අයින් කර පිළිතුර පමණක් ගැනීම
-    full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    reply = full_response.split("Assistant:")[-1].strip()
-    # පිළිතුර හිස් නම් fallback එකක්
-    if not reply:
-        reply = "I am processing your request, MINZO-PRIME. Please ask again."
-    print(f"🔱 Generated Reply: {reply}")
-    return {"reply": str(reply)}
 @main.get("/")
-def home():
-    return {"status": "Inachi-Lite Online", "model": MODEL_ID}

 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
+from transformers import pipeline
 main = FastAPI()
 main.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
 )
 MODEL_ID = "tencent/Hy-MT1.5-1.8B-2bit"
+print(f"🔱 Loading {MODEL_ID} optimized...")
+# Pipeline එක පාවිච්චි කිරීම වඩාත් ස්ථාවරයි
+pipe = pipeline(
+    "text-generation",
+    model=MODEL_ID,
+    device_map="cpu",
     trust_remote_code=True
 )
 async def chat(request_data: ChatRequest):
     user_query = request_data.message.strip()
+    # 🔱 මොඩල් එකට පැහැදිලි Instruction එකක් ලබාදීම
+    prompt = f"System: You are Inachi AI, a helpful assistant.\nUser: {user_query}\nAssistant:"
+    results = pipe(
+        prompt,
+        max_new_tokens=256, # 🔱 මොඩල් එකට ලියන්න ඉඩ ලබා දීම
+        do_sample=True,
+        temperature=0.8, # 🔱 නිර්මාණශීලිත්වය වැඩි කිරීමට
+        top_p=0.9,
+        repetition_penalty=1.2, # 🔱 එකම දේ ලිවීම නතර කිරීමට
+        pad_token_id=50256
+    )
+    generated_text = results[0]['generated_text']
+    # Assistant: පසුව එන කොටස වෙන් කර ගැනීම
+    if "Assistant:" in generated_text:
+        reply = generated_text.split("Assistant:")[-1].strip()
+    else:
+        reply = generated_text.replace(prompt, "").strip()
+    # 🔱 හිස් පිළිතුරක් ආවොත් raw generation එක පෙන්වන්න (Debug සඳහා)
+    if not reply or len(reply) < 2:
+        reply = generated_text[:100] + "..."
+    print(f"🔱 Generated: {reply}")
+    return {"reply": reply}
 @main.get("/")
+def health():
+    return {"status": "Online"}