Spaces:

Webber1979
/

moss

Running

App Files Files Community

Webber1979 commited on 5 days ago

Commit

4250c19

verified ·

1 Parent(s): c044dd5

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -41

app.py CHANGED Viewed

@@ -1,39 +1,48 @@
 import os
-import subprocess
 import sys
-from fastapi import FastAPI, File, UploadFile, Form
-from fastapi.middleware.cors import CORSMiddleware
-from fastapi.responses import FileResponse
-import uvicorn
 import soundfile as sf
-import numpy as np
-# 1. Автоматически скачиваем MOSS-TTS-Nano, если его нет
-if not os.path.exists("MOSS-TTS-Nano"):
-    print("Клонируем репозиторий MOSS-TTS-Nano...")
     subprocess.run(["git", "clone", "https://github.com/OpenMOSS/MOSS-TTS-Nano.git"])
-# Добавляем папку в пути Python, чтобы можно было импортировать их код
-sys.path.append("MOSS-TTS-Nano")
-# ЗДЕСЬ НУЖНО ИМПОРТИРОВАТЬ ФУНКЦИИ ИЗ MOSS-TTS
-# Например: from inference import synthesize, clone_voice
-# (Посмотри в их документации, как точно называется функция генерации)
 app = FastAPI()
-# Разрешаем нашему React-сайту делать запросы к этому API
 app.add_middleware(
     CORSMiddleware,
-    allow_origins=["*"],
     allow_credentials=True,
     allow_methods=["*"],
     allow_headers=["*"],
 )
 @app.get("/")
 async def root():
-    return {"message": "Бэкенд MOSS-TTS-Nano успешно работает! Готов принимать запросы от React-интерфейса."}
 @app.post("/api/predict")
 async def predict(
@@ -43,34 +52,54 @@ async def predict(
     speaker: str = Form("default"),
     reference_audio: UploadFile = File(None)
 ):
-    output_filename = "output.wav"
-    if mode == "clone" and reference_audio:
-        # Сохраняем загруженный голос для клонирования
-        ref_path = "temp_ref.wav"
-        with open(ref_path, "wb") as f:
-            f.write(await reference_audio.read())
-        # === ВЫЗОВ MOSS-TTS ДЛЯ КЛОНИРОВАНИЯ ===
-        # audio_data, sample_rate = clone_voice(text, ref_path, speed)
-        # Заглушка (пока не подключишь реальную функцию)
-        sample_rate = 24000
-        audio_data = np.zeros(sample_rate)
-        sf.write(output_filename, audio_data, sample_rate)
-    else:
-        # === ВЫЗОВ СТАНДАРТНОГО MOSS-TTS ===
-        # audio_data, sample_rate = synthesize(text, speaker, speed)
-        # Заглушка (пока не подключишь реальну�� функцию)
-        sample_rate = 24000
-        audio_data = np.zeros(sample_rate)
-        sf.write(output_filename, audio_data, sample_rate)
-    # Отправляем готовый WAV файл обратно на фронтенд
-    return FileResponse(output_filename, media_type="audio/wav")
-# Запуск сервера
 if __name__ == "__main__":
     uvicorn.run(app, host="0.0.0.0", port=7860)

 import os
 import sys
+import subprocess
+import tempfile
 import soundfile as sf
+import librosa
+from fastapi import FastAPI, File, Form, UploadFile
+from fastapi.responses import FileResponse
+from fastapi.middleware.cors import CORSMiddleware
+# 1. АВТОМАТИЧЕСКОЕ СКАЧИВАНИЕ ОРИГИНАЛЬНОГО РЕПОЗИТОРИЯ
+REPO_DIR = "MOSS-TTS-Nano"
+if not os.path.exists(REPO_DIR):
+    print("Клонируем оригинальный репозиторий MOSS-TTS-Nano...")
     subprocess.run(["git", "clone", "https://github.com/OpenMOSS/MOSS-TTS-Nano.git"])
+# Добавляем скачанную папку в пути Python, чтобы импорты работали
+sys.path.append(REPO_DIR)
+# 2. ИМПОРТИРУЕМ ОРИГИНАЛЬНЫЙ ДВИЖОК
+from moss_tts_nano_runtime import NanoTTSService
 app = FastAPI()
+# Разрешаем CORS для твоего React-интерфейса
 app.add_middleware(
     CORSMiddleware,
+    allow_origins=["*"],
     allow_credentials=True,
     allow_methods=["*"],
     allow_headers=["*"],
 )
+# 3. ИНИЦИАЛИЗАЦИЯ МОДЕЛИ (скачает веса при первом запуске)
+print("Загрузка весов MOSS-TTS-Nano (это может занять пару минут)...")
+tts_service = NanoTTSService(
+    checkpoint_path="OpenMOSS-Team/MOSS-TTS-Nano",
+    audio_tokenizer_path="OpenMOSS-Team/MOSS-Audio-Tokenizer-Nano",
+    device="auto" # Автоматически включит GPU, если он есть
+)
+print("Модель успешно загружена и готова к работе!")
 @app.get("/")
 async def root():
+    return {"message": "Бэкенд MOSS-TTS-Nano работает! Жду запросов от React UI на /api/predict"}
 @app.post("/api/predict")
 async def predict(
     speaker: str = Form("default"),
     reference_audio: UploadFile = File(None)
 ):
+    prompt_audio_path = None
+    try:
+        # Если загружен файл для клонирования голоса
+        if mode == "clone" and reference_audio is not None:
+            temp_audio = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
+            content = await reference_audio.read()
+            temp_audio.write(content)
+            temp_audio.close()
+            prompt_audio_path = temp_audio.name
+        # Выбор стандартного голоса
+        voice_preset = "Junhao" # Дефолтный голос в MOSS
+        # 4. ЗАПУСК ОРИГИНАЛЬНОГО СИНТЕЗА
+        result = tts_service.synthesize(
+            text=text,
+            voice=voice_preset if not prompt_audio_path else None,
+            prompt_audio_path=prompt_audio_path,
+            mode="voice_clone", # В MOSS это универсальный режим
+        )
+        audio_data = result['audio']
+        sample_rate = result['sample_rate']
+        # 5. ОБРАБОТКА СКОРОСТИ (если ползунок скорости изменен)
+        if speed != 1.0:
+            audio_data = librosa.effects.time_stretch(audio_data, rate=speed)
+        # 6. СОХРАНЕНИЕ И ОТПРАВКА РЕЗУЛЬТАТА
+        output_file = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
+        sf.write(output_file.name, audio_data, sample_rate)
+        return FileResponse(
+            output_file.name,
+            media_type="audio/wav",
+            filename="output.wav"
+        )
+    except Exception as e:
+        import traceback
+        traceback.print_exc()
+        return {"error": str(e)}
+    finally:
+        # Убираем за собой временные файлы
+        if prompt_audio_path and os.path.exists(prompt_audio_path):
+            os.remove(prompt_audio_path)
 if __name__ == "__main__":
+    import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)