Spaces:

Vedika35
/

TTS

Sleeping

App Files Files Community

Vedika commited on 16 days ago

Commit

ab1a93f

verified ·

1 Parent(s): 728de11

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -5

app.py CHANGED Viewed

@@ -13,8 +13,8 @@ from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer, TextIter
 print("🔱 आदरणीय दिव्य जी, वेदिका की त्रिवेणी (कान, मस्तिष्क, मुँह) द्विभाषी और लाइव मोड में जागृत हो रही है...")
-# 👂 कान (STT) - अत्यंत हल्का, विश्वसनीय और बहुभाषी
-STT_ID = "openai/whisper-tiny"
 # 🧠 मस्तिष्क (LLM) - Qwen 0.5B (हगिंग फेस फ्री स्पेस के लिए एकदम सही)
 LLM_ID = "Qwen/Qwen2.5-0.5B-Instruct"
@@ -58,12 +58,20 @@ def process_all_in_one(audio_filepath):
         return
     try:
-        # ==========================================
         # चरण 1: सुनना (Speech to Text) - बहुभाषी (Multilingual)
         # ==========================================
-        # यहाँ हमने कोई भाषा नहीं बताई है, Whisper खुद समझेगा कि आप हिंदी बोल रहे हैं या अंग्रेजी
-        stt_result = stt_pipeline(audio_filepath)
         user_text = stt_result["text"].strip()
         if not user_text:
             yield None, "क्षमा करें, मैं सुन नहीं पाई। कृपया पुनः बोलें।"

 print("🔱 आदरणीय दिव्य जी, वेदिका की त्रिवेणी (कान, मस्तिष्क, मुँह) द्विभाषी और लाइव मोड में जागृत हो रही है...")
+# 👂 कान (STT) - शोर को रोकने में सक्षम और 16GB रैम के अनुकूल
+STT_ID = "openai/whisper-small"
 # 🧠 मस्तिष्क (LLM) - Qwen 0.5B (हगिंग फेस फ्री स्पेस के लिए एकदम सही)
 LLM_ID = "Qwen/Qwen2.5-0.5B-Instruct"
         return
     try:
+                # ==========================================
         # चरण 1: सुनना (Speech to Text) - बहुभाषी (Multilingual)
         # ==========================================
+        # Whisper Small हिंदी/अंग्रेजी दोनों समझेगा और शोर में कंफ्यूज नहीं होगा
+        stt_result = stt_pipeline(
+            audio_filepath,
+            generate_kwargs={
+                "condition_on_previous_text": False, # यह मॉडल को शोर के कारण भटकने से रोकता है
+                "no_speech_threshold": 0.6, # अगर केवल शोर है और आवाज़ नहीं है, तो उसे इग्नोर करेगा
+                "logprob_threshold": -1.0 # गलत शब्दों को छांटने में मदद करता है
+            }
+        )
         user_text = stt_result["text"].strip()
         if not user_text:
             yield None, "क्षमा करें, मैं सुन नहीं पाई। कृपया पुनः बोलें।"