Spaces:

sanjaystarc
/

voice-agent

Sleeping

App Files Files Community

sanjaystarc commited on Dec 25, 2025

Commit

eeec86a

verified ·

1 Parent(s): cd5c014

Update voice_agent.py

Browse files

Files changed (1) hide show

voice_agent.py +17 -19

voice_agent.py CHANGED Viewed

@@ -2,61 +2,59 @@ import os
 import base64
 from dotenv import load_dotenv
-# Disable CrewAI from auto-loading any LLM providers
-os.environ["OPENAI_API_KEY"] = ""       # force-empty (prevents fallback)
-os.environ["ANTHROPIC_API_KEY"] = ""    # prevent fallback
-os.environ["COHERE_API_KEY"] = ""       # prevent fallback
 from crewai import Agent, Task, Crew
 import google.generativeai as genai
 load_dotenv()
-# Load Gemini API key from HF Secret
 genai.configure(api_key=os.getenv("GEMINI_API_KEY"))
 class CrewVoiceAgent:
     def __init__(self):
-        # IMPORTANT: Disable any CrewAI LLM usage
         self.agent = Agent(
             role="Voice Assistant",
-            goal="Help the user through voice responses.",
-            backstory="You are a friendly voice assistant.",
-            llm=None      # <- This stops CrewAI LLM completely
         )
         self.task = Task(
-            description="Handle speech input and generate spoken response.",
             agent=self.agent,
-            llm=None      # <- Critical
         )
         self.crew = Crew(
             agents=[self.agent],
             tasks=[self.task],
-            llm=None      # <- Critical
         )
         # Gemini Native Audio Model
         self.model = genai.GenerativeModel("gemini-2.5-flash-native-audio-dialog")
     async def handle_audio(self, audio_bytes: bytes):
-        # Convert audio to base64
-        b64 = base64.b64encode(audio_bytes).decode()
         response = self.model.generate_content(
             {
                 "audio": {
-                    "data": b64,
                     "mime_type": "audio/webm"
                 }
             }
         )
-        output = b""
         for chunk in response.audio:
-            output += chunk.data
-        return output

 import base64
 from dotenv import load_dotenv
+# Disable CrewAI from auto-loading any OpenAI / Anthropic / Cohere LLMs
+os.environ["OPENAI_API_KEY"] = ""
+os.environ["ANTHROPIC_API_KEY"] = ""
+os.environ["COHERE_API_KEY"] = ""
 from crewai import Agent, Task, Crew
 import google.generativeai as genai
 load_dotenv()
+# Load Gemini API from HuggingFace Secrets
 genai.configure(api_key=os.getenv("GEMINI_API_KEY"))
 class CrewVoiceAgent:
     def __init__(self):
+        # Disable CrewAI’s internal LLM
         self.agent = Agent(
             role="Voice Assistant",
+            goal="Respond clearly and naturally via voice.",
+            backstory="You are a friendly AI voice companion.",
+            llm=None
         )
         self.task = Task(
+            description="Interpret user speech and generate a spoken response.",
             agent=self.agent,
+            llm=None
         )
         self.crew = Crew(
             agents=[self.agent],
             tasks=[self.task],
+            llm=None
         )
         # Gemini Native Audio Model
         self.model = genai.GenerativeModel("gemini-2.5-flash-native-audio-dialog")
     async def handle_audio(self, audio_bytes: bytes):
+        audio_b64 = base64.b64encode(audio_bytes).decode()
         response = self.model.generate_content(
             {
                 "audio": {
+                    "data": audio_b64,
                     "mime_type": "audio/webm"
                 }
             }
         )
+        audio_out = b""
         for chunk in response.audio:
+            audio_out += chunk.data
+        return audio_out