Spaces:

sanjaystarc
/

voice-agent

Sleeping

sanjaystarc commited on Dec 25, 2025

Commit

1a9bac4

verified ·

1 Parent(s): 062cf01

Update voice_agent.py

Files changed (1) hide show

voice_agent.py CHANGED Viewed

@@ -1,14 +1,13 @@
 import os
-import base64
 from dotenv import load_dotenv
-# Disable CrewAI from using OpenAI / Anthropic / Cohere
 os.environ["OPENAI_API_KEY"] = ""
 os.environ["ANTHROPIC_API_KEY"] = ""
 os.environ["COHERE_API_KEY"] = ""
 from crewai import Agent, Task, Crew
-from google import genai   # New Gemini SDK
 load_dotenv()
@@ -16,17 +15,15 @@ client = genai.Client(api_key=os.getenv("GEMINI_API_KEY"))
 class CrewVoiceAgent:
     def __init__(self):
-        # CrewAI Agent (LLM disabled)
         self.agent = Agent(
             role="Voice Assistant",
-            goal="Respond with clear, friendly spoken language.",
-            backstory="You are a helpful voice AI.",
             llm=None
         )
         self.task = Task(
-            description="Convert the user's speech into a helpful spoken reply.",
             expected_output="Audio response",
             agent=self.agent,
             llm=None
@@ -40,7 +37,7 @@ class CrewVoiceAgent:
     async def handle_audio(self, audio_bytes: bytes):
-        # Send binary audio directly to Gemini
         response = client.models.generate_content(
             model="gemini-2.5-flash-native-audio-dialog",
             contents=[
@@ -51,9 +48,9 @@ class CrewVoiceAgent:
             ]
         )
-        # Build final audio from streaming chunks
-        output_audio = b""
-        for chunk in response.iter_audio():
-            output_audio += chunk
-        return output_audio

 import os
 from dotenv import load_dotenv
+# block OpenAI fallbacks
 os.environ["OPENAI_API_KEY"] = ""
 os.environ["ANTHROPIC_API_KEY"] = ""
 os.environ["COHERE_API_KEY"] = ""
 from crewai import Agent, Task, Crew
+from google import genai   # new official SDK
 load_dotenv()
 class CrewVoiceAgent:
     def __init__(self):
         self.agent = Agent(
             role="Voice Assistant",
+            goal="Respond to user voice with clarity.",
+            backstory="Friendly AI voice assistant.",
             llm=None
         )
         self.task = Task(
+            description="Produce a spoken response to the user.",
             expected_output="Audio response",
             agent=self.agent,
             llm=None
     async def handle_audio(self, audio_bytes: bytes):
+        # Model expects: contents = [{mime_type, data}]
         response = client.models.generate_content(
             model="gemini-2.5-flash-native-audio-dialog",
             contents=[
             ]
         )
+        # HF Spaces CANNOT stream audio chunks
+        # so we use response.audio.data directly
+        if hasattr(response, "audio") and hasattr(response.audio, "data"):
+            return response.audio.data
+        return b""  # fallback if no audio