carbonx
/

buddy-desktop

Model card Files Files and versions

xet

Community

carbonx commited on 10 days ago

Commit

45ee2cb

verified ·

1 Parent(s): 96b68f8

Oppdaterer main.py med graceful imports og OOM fallback

Browse files

Files changed (1) hide show

main.py +43 -8

main.py CHANGED Viewed

@@ -1,3 +1,4 @@
 """
 Buddy — Desktop Push-to-Talk AI Assistant
@@ -29,6 +30,33 @@ from audio_io import PushToTalkRecorder, TTSEngine
 from screen_capture import capture_primary_monitor
 from vision_llm import MultimodalAssistant
 class BuddyApp:
     def __init__(self):
@@ -144,23 +172,35 @@ class BuddyApp:
             self.screenshot_label.config(text="Kunne ikke ta skjermbilde: " + str(e))
     def _load_model(self):
         try:
             self.assistant = MultimodalAssistant()
             self.model_loaded = True
             self.msg_queue.put(("status", "Klar! Hold F9 for å snakke"))
         except Exception as e:
             self.msg_queue.put(("status", "Feil ved lasting: " + str(e)))
             print("[init] Model load error: " + str(e))
     def _start_recording(self):
         if not self.model_loaded:
-            self.msg_queue.put(("status", "Vent, modell laster ennaa..."))
             return
         if self.recorder.is_recording():
             return
         self.recorder.start()
-        self.msg_queue.put(("status_recording", "Lytter... slipp for aa sende"))
         self._update_screenshot()
     def _stop_recording(self):
@@ -174,7 +214,6 @@ class BuddyApp:
             self.msg_queue.put(("status", "Ingen lyd fanget opp"))
             return
-        # Process in background thread
         threading.Thread(
             target=self._process_turn,
             args=(audio_bytes,),
@@ -183,20 +222,16 @@ class BuddyApp:
     def _process_turn(self, audio_bytes):
         try:
-            # 1. STT
             transcript = self.assistant.transcribe_audio(audio_bytes)
             self.msg_queue.put(("chat_user", transcript))
-            # 2. Capture fresh screenshot
-            self.msg_queue.put(("status", "Ser paa skjermbildet..."))
             screenshot = capture_primary_monitor()
             self.msg_queue.put(("screenshot", None))
-            # 3. VLM
             self.msg_queue.put(("status", "Tenker..."))
             response = self.assistant.ask_with_image(screenshot, transcript)
-            # 4. Update UI + TTS
             self.msg_queue.put(("chat_buddy", response))
             self.msg_queue.put(("status", "Klar!"))
             self.tts.speak(response, blocking=False)

 """
 Buddy — Desktop Push-to-Talk AI Assistant
 from screen_capture import capture_primary_monitor
 from vision_llm import MultimodalAssistant
+# Hjelp for Windows brukere
+_MISSING_DEPS = []
+try:
+    import sounddevice
+except ImportError:
+    _MISSING_DEPS.append("sounddevice")
+try:
+    import soundfile
+except ImportError:
+    _MISSING_DEPS.append("soundfile")
+try:
+    import pynput
+except ImportError:
+    _MISSING_DEPS.append("pynput")
+if _MISSING_DEPS:
+    print("=" * 60)
+    print("FEIL: Mangler Python-pakker: %s" % ", ".join(_MISSING_DEPS))
+    print()
+    print("Kj\u00f8r f\u00f8rst:")
+    print("  pip install -r requirements.txt")
+    print()
+    print("Windows-brukere: sounddevice kan kreve wheel fra:")
+    print("  https://www.lfd.uci.edu/~gohlke/pythonlibs/#sounddevice")
+    print("=" * 60)
+    sys.exit(1)
 class BuddyApp:
     def __init__(self):
             self.screenshot_label.config(text="Kunne ikke ta skjermbilde: " + str(e))
     def _load_model(self):
+        import torch
         try:
             self.assistant = MultimodalAssistant()
             self.model_loaded = True
             self.msg_queue.put(("status", "Klar! Hold F9 for å snakke"))
+        except torch.cuda.OutOfMemoryError:
+            self.msg_queue.put(("status", "OOM: Vil tvinge qwen2-vl-2b..."))
+            print("[init] OOM! Prøver fallback til qwen2-vl-2b...")
+            try:
+                import os
+                os.environ["BUDDY_VLM_MODEL"] = "qwen2-vl-2b"
+                self.assistant = MultimodalAssistant()
+                self.model_loaded = True
+                self.msg_queue.put(("status", "Klar! (bruker lett modell) Hold F9 for å snakke"))
+            except Exception as e2:
+                self.msg_queue.put(("status", "Også OOM med 2B: " + str(e2)))
         except Exception as e:
             self.msg_queue.put(("status", "Feil ved lasting: " + str(e)))
             print("[init] Model load error: " + str(e))
     def _start_recording(self):
         if not self.model_loaded:
+            self.msg_queue.put(("status", "Vent, modell laster..."))
             return
         if self.recorder.is_recording():
             return
         self.recorder.start()
+        self.msg_queue.put(("status_recording", "Lytter... slipp for å sende"))
         self._update_screenshot()
     def _stop_recording(self):
             self.msg_queue.put(("status", "Ingen lyd fanget opp"))
             return
         threading.Thread(
             target=self._process_turn,
             args=(audio_bytes,),
     def _process_turn(self, audio_bytes):
         try:
             transcript = self.assistant.transcribe_audio(audio_bytes)
             self.msg_queue.put(("chat_user", transcript))
+            self.msg_queue.put(("status", "Ser på skjermbildet..."))
             screenshot = capture_primary_monitor()
             self.msg_queue.put(("screenshot", None))
             self.msg_queue.put(("status", "Tenker..."))
             response = self.assistant.ask_with_image(screenshot, transcript)
             self.msg_queue.put(("chat_buddy", response))
             self.msg_queue.put(("status", "Klar!"))
             self.tts.speak(response, blocking=False)