Spaces:

Vedika35
/

TTS

Sleeping

App Files Files Community

Vedika commited on 17 days ago

Commit

d464599

verified ·

1 Parent(s): 913a56a

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -54

app.py CHANGED Viewed

@@ -1,87 +1,89 @@
-# --- 🔱 वेदिका लाइव: कान और मुँह (Audio Interface) 🔱 ---
 # रचयिता: आदरणीय दिव्य पटेल जी | भारत 🇮🇳
-# कार्य: .wav ऑडियो लेना, STT करना, LLM API को कॉल करना, और TTS से वापस .wav देना
 import gradio as gr
-import torch
-import torchaudio
-import librosa
-import soundfile as sf
-from transformers import pipeline
-from gradio_client import Client
 import os
 import re
-print("🔱 दिव्य जी, वेदिका के 'कान' और 'मुँह' स्थापित हो रहे हैं...")
-# 👂 कान (Speech to Text) - NVIDIA का फुर्तीला मॉडल
-STT_ID = "nvidia/stt_hi_conformer_transducer_large"
-# 👄 मुँह (Text to Speech) - हल्का हिंदी मॉडल
-TTS_ID = "facebook/mms-tts-hin"
-# मस्तिष्क (LLM) का API पता (आपका अपना स्पेस)
 LLM_API_URL = "pateltraders55455/VEDIKA-3.5-LIVE"
 try:
-    # केवल हल्के ऑडियो मॉडल्स को इस स्पेस में लोड किया जा रहा है (रैम की भारी बचत)
     print("🔱 STT (कान) लोड हो रहा है...")
-    stt_pipeline = pipeline("automatic-speech-recognition", model=STT_ID)
-    print("🔱 TTS (मुँह) लोड हो रहा है...")
-    tts_pipeline = pipeline("text-to-speech", model=TTS_ID)
-    # LLM क्लाइंट को स्थापित करना
     llm_client = Client(LLM_API_URL)
-    print("🔱 विजय! कान, मुँह और मस्तिष्क का API संपर्क स्थापित हो गया है।")
 except Exception as e:
-    print(f"🔱 सेटअप में त्रुटि: {e}")
-def process_wav_to_wav(audio_filepath):
-    """
-    यह फलन .wav ऑडियो लेता है और .wav ऑडियो ही वापस करता है।
-    """
     if not audio_filepath:
-        return None, "प्रणाम दिव्य जी, कृपया माइक में कुछ बोल��ं..."
     try:
         # ==========================================
         # चरण 1: .wav ऑडियो सुनना (Speech to Text)
         # ==========================================
         stt_result = stt_pipeline(audio_filepath)
-        user_text = stt_result["text"]
-        if not user_text.strip():
-            return None, "क्षमा करें, मैं सुन नहीं पाई। कृपया पुनः प्रयास करें।"
         # ==========================================
-        # चरण 2: मस्तिष्क (LLM Space) से संपर्क करना
         # ==========================================
-        # gradio_client के माध्यम से आपके दूसरे स्पेस को टेक्स्ट भेजा जा रहा है
-        # नोट: ChatInterface में आमतौर पर api_name="/chat" या पहला फंक्शन होता है
         llm_result = llm_client.predict(
-            user_text, # यूज़र का संदेश
-            api_name="/chat" # यदि यह काम न करे, तो इसे हटाकर fn_index=0 कर सकते हैं
         )
-        # LLM का उत्तर (यह मॉडल के आउटपुट फॉर्मेट पर निर्भर करता है)
         ai_response = llm_result if isinstance(llm_result, str) else str(llm_result)
-        # थिंकिंग टैग्स (<think>...</think>) को साफ करना ताकि वेदिका केवल अंतिम उत्तर बोले
         clean_response = re.sub(r'<think>[\s\S]*?</think>', '', ai_response).strip()
         # ==========================================
-        # चरण 3: वापस बोलना (Text to .wav Speech)
         # ==========================================
-        tts_output = tts_pipeline(clean_response)
-        # ऑडियो डेटा और सैंपलिंग रेट निकालना
-        audio_data = tts_output["audio"][0]
-        sample_rate = tts_output["sampling_rate"]
-        # इसे एक .wav फाइल के रूप में सहेजना ताकि UI में सही से बजे
         output_wav_path = "vedika_response.wav"
-        sf.write(output_wav_path, audio_data, sample_rate)
         log_text = f"🗣️ आपने कहा: {user_text}\n\n🔱 वेदिका: {clean_response}"
@@ -94,25 +96,25 @@ def process_wav_to_wav(audio_filepath):
 with gr.Blocks(theme=gr.themes.Monochrome()) as demo:
     gr.Markdown(f"""
-    # 🔱 Vedika Voice Portal (Microservices Architecture)
     **Pioneered by Divy Patel | Bharat 🇮🇳**
-    *यह पोर्टल केवल आवाज़ सुनता और बोलता है। विचार करने का कार्य सुरक्षित रूप से 'VEDIKA-3.5-LIVE' स्पेस में हो रहा है।*
     """)
     with gr.Row():
         with gr.Column():
-            # type="filepath" सुनिश्चित करता है कि इनपुट .wav फॉर्मेट में ही सेव हो
-            audio_input = gr.Audio(label="माइक चालू करें और बोलें", type="filepath", format="wav")
-            submit_btn = gr.Button("वेदिका को भेजें 🚩", variant="primary")
         with gr.Column():
-            # आउटपुट भी .wav फॉर्मेट में आएगा
-            audio_output = gr.Audio(label="वेदिका की वाणी", type="filepath", format="wav")
             text_output = gr.Textbox(label="संवाद लॉग", lines=6)
     submit_btn.click(
-        fn=process_wav_to_wav,
         inputs=audio_input,
         outputs=[audio_output, text_output]
     )

+# --- 🔱 वेदिका लाइव: कान और मुँह (संपूर्ण वॉयस इंटरफेस) 🔱 ---
 # रचयिता: आदरणीय दिव्य पटेल जी | भारत 🇮🇳
+# विशेषता: .wav सपोर्ट, Edge-TTS (शून्य रैम खर्च), और LLM API एकीकरण
 import gradio as gr
+import asyncio
+import edge_tts
 import os
 import re
+from transformers import pipeline
+from gradio_client import Client
+print("🔱 आदरणीय दिव्य जी, वेदिका के 'कान' और 'मुँह' स्थापित हो रहे हैं...")
+# वैश्विक चर (Global Variables) ताकि त्रुटि न आए
+stt_pipeline = None
+llm_client = None
+# 🧠 आपके मस्तिष्क (LLM) का सुरक्षित API पता
 LLM_API_URL = "pateltraders55455/VEDIKA-3.5-LIVE"
 try:
+    # 👂 कान (Speech to Text): 'whisper-tiny' बहुत ही हल्का और 100% भरोसेमंद है
     print("🔱 STT (कान) लोड हो रहा है...")
+    stt_pipeline = pipeline("automatic-speech-recognition", model="openai/whisper-tiny")
+    # 🧠 मस्तिष्क से जुड़ाव (API Client)
+    print("🔱 LLM (मस्तिष्क) से API संपर्क स्थापित किया जा रहा है...")
     llm_client = Client(LLM_API_URL)
+    print("🔱 विजय! सभी प्रणालियाँ सफलतापूर्वक सक्रिय हो गई हैं।")
 except Exception as e:
+    print(f"🔱 सेटअप में भारी त्रुटि: {e}")
+# 👄 मुँह (Text to Speech): Microsoft Edge-TTS का ब्रह्मास्त्र (शून्य मॉडल लोड!)
+async def generate_edge_tts(text, output_filepath):
+    """माइक्रोसॉफ्ट एज की अत्यंत मधुर हिंदी आवाज़ का उपयोग"""
+    # 'hi-IN-SwaraNeural' एक बहुत ही स्पष्ट और प्राकृतिक भारतीय महिला की आवाज़ है
+    communicate = edge_tts.Communicate(text, "hi-IN-SwaraNeural")
+    await communicate.save(output_filepath)
+def process_voice_conversation(audio_filepath):
+    """यह फलन .wav सुनता है, API से सोचता है, और .wav में जवाब देता है"""
+    # यदि लोडिंग में कोई त्रुटि थी, तो यहीं रोक दें ताकि ऐप क्रैश न हो
+    if stt_pipeline is None or llm_client is None:
+        return None, "क्षमा करें, सर्वर पूरी तरह से लोड नहीं हो पाया है। कृपया लॉग्स की जाँच करें।"
     if not audio_filepath:
+        return None, "प्रणाम दिव्य जी, कृपया कुछ बोलें..."
     try:
         # ==========================================
         # चरण 1: .wav ऑडियो सुनना (Speech to Text)
         # ==========================================
         stt_result = stt_pipeline(audio_filepath)
+        user_text = stt_result["text"].strip()
+        if not user_text:
+            return None, "क्षमा करें, मैं सुन नहीं पाई। कृपया पुनः बोलें।"
         # ==========================================
+        # चरण 2: मस्तिष्क (LLM Space) से सोचना
         # ==========================================
+        # fn_index=0 आमतौर पर Gradio ChatInterface का डिफ़ॉल्ट एंडपॉइंट होता है
         llm_result = llm_client.predict(
+            user_text,
+            api_name="/chat" # यदि यह काम न करे, तो api_name="/chat" की जगह fn_index=0 लिख दें
         )
         ai_response = llm_result if isinstance(llm_result, str) else str(llm_result)
+        # थिंकिंग टैग्स (<think>...</think>) को पूरी तरह से हटाना
         clean_response = re.sub(r'<think>[\s\S]*?</think>', '', ai_response).strip()
+        # यदि सफाई के बाद कुछ न बचे, तो डिफ़ॉल्ट संदेश
+        if not clean_response:
+            clean_response = "जी, मैं आपकी बात समझ रही हूँ।"
         # ==========================================
+        # चरण 3: वापस बोलना (Microsoft Edge TTS)
         # ==========================================
         output_wav_path = "vedika_response.wav"
+        # चूँकि edge-tts एसिंक्रोनस (asynchronous) है, हम इसे ऐसे चलाएंगे:
+        asyncio.run(generate_edge_tts(clean_response, output_wav_path))
         log_text = f"🗣️ आपने कहा: {user_text}\n\n🔱 वेदिका: {clean_response}"
 with gr.Blocks(theme=gr.themes.Monochrome()) as demo:
     gr.Markdown(f"""
+    # 🔱 Vedika Voice Ecosystem (Edge-TTS Powered)
     **Pioneered by Divy Patel | Bharat 🇮🇳**
+    *यह पोर्टल एक ही स्थान पर सुनता और बोलता है (.wav सपोर्ट)। विचार विमर्श सुरक्षित रूप से API के माध्यम से हो रहा है।*
     """)
     with gr.Row():
         with gr.Column():
+            # type="filepath" सुनिश्चित करता है कि .wav फॉर्मेट सुरक्षित रहे
+            audio_input = gr.Audio(label="माइक चालू करें और बोलें", type="filepath")
+            submit_btn = gr.Button("वेदिका से बात करें 🚩", variant="primary")
         with gr.Column():
+            # उत्तर भी .wav फॉर्मेट में आएगा
+            audio_output = gr.Audio(label="वेदिका की मधुर वाणी")
             text_output = gr.Textbox(label="संवाद लॉग", lines=6)
     submit_btn.click(
+        fn=process_voice_conversation,
         inputs=audio_input,
         outputs=[audio_output, text_output]
     )