Spaces:

dimensionalpulsar
/

voice-clone-rvc

Sleeping

App Files Files Community

dimensionalpulsar commited on 25 days ago

Commit

cfcb530

verified ·

1 Parent(s): 969158e

Update app.py

Browse files

Files changed (1) hide show

app.py +87 -126

app.py CHANGED Viewed

@@ -1,17 +1,10 @@
-"""
-Clone Vocal - Outil web de clonage vocal base sur Seed-VC (zero-shot).
-Interface Gradio en francais, deploye sur HuggingFace Spaces avec ZeroGPU.
-"""
 import os
 import sys
 import logging
 import tempfile
 import shutil
 import gradio as gr
-# Monkey-patch gradio_client to fix "argument of type 'bool' is not iterable"
 try:
     import gradio_client.utils as _gc_utils
@@ -38,12 +31,12 @@ try:
 except Exception:
     pass
-# Setup logging
 logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")
 logger = logging.getLogger(__name__)
-# Startup: clone Seed-VC
-logger.info("Initialisation de l'application...")
 from pipeline.setup import setup_seed_vc
 from pipeline.storage import init_storage, list_models, download_model, delete_model, get_reference_path
@@ -51,29 +44,24 @@ from pipeline.storage import init_storage, list_models, download_model, delete_m
 try:
     setup_seed_vc()
 except Exception as e:
-    logger.error("Erreur lors du setup: {}".format(e))
-# Initialize model storage
 HF_MODELS_REPO = os.environ.get("HF_MODELS_REPO", "")
 if HF_MODELS_REPO:
     init_storage(HF_MODELS_REPO)
-    logger.info("Stockage HuggingFace configure: {}".format(HF_MODELS_REPO))
-# Import GPU-decorated functions for ZeroGPU detection
 from pipeline.training import save_voice_reference, _gpu_warmup
 from pipeline.separation import separate_audio
 from pipeline.inference import convert_voice
-# -- Training Tab --
 def train_voice_model(audio_file, model_name, progress=gr.Progress()):
-    """Handler: save voice reference."""
     if audio_file is None:
-        return "Erreur : Veuillez uploader un fichier audio.", None
     if not model_name or not model_name.strip():
-        return "Erreur : Veuillez entrer un nom pour le modele.", None
     model_name = model_name.strip().replace(" ", "_")
@@ -81,31 +69,28 @@ def train_voice_model(audio_file, model_name, progress=gr.Progress()):
         progress(value, desc=desc)
     try:
-        progress(0.0, desc="Demarrage...")
         pth_path, ref_path = save_voice_reference(
             audio_path=audio_file,
             model_name=model_name,
             progress_callback=progress_callback,
         )
-        return "Reference vocale '{}' sauvegardee avec succes !".format(model_name), ref_path
     except Exception as e:
         import traceback
         tb = traceback.format_exc()
-        logger.error("Erreur training: {}".format(tb))
-        return "Erreur : {}: {}\n\nDetails:\n{}".format(
             type(e).__name__, str(e), tb[-500:]
         ), None
-# -- Conversion Tab --
 def get_model_choices():
-    """Get list of trained model names for dropdown."""
     models = list_models()
     if not models:
-        return ["(aucun modele)"]
     return models
@@ -119,34 +104,30 @@ def convert_song(
     instrumental_volume,
     progress=gr.Progress(),
 ):
-    """Full pipeline: separate + convert + mix."""
     if song_file is None:
-        return "Erreur : Veuillez uploader un fichier audio.", None, None, None
-    if model_choice == "(aucun modele)" or not model_choice:
-        return "Erreur : Veuillez d'abord enregistrer une reference vocale.", None, None, None
     from pipeline.mixing import mix_audio
     try:
-        # Step 1: Download model / find reference audio
-        progress(0.05, desc="Chargement du modele...")
         pth_path, ref_or_index = download_model(model_choice)
         if not pth_path:
-            return "Erreur : Modele '{}' introuvable.".format(model_choice), None, None, None
-        # Find the reference audio path
         reference_path = get_reference_path(model_choice)
         if not reference_path:
-            return "Erreur : Audio de reference introuvable pour '{}'.".format(model_choice), None, None, None
-        # Step 2: Separate vocals from instruments
-        progress(0.10, desc="Separation des pistes (Demucs)...")
         vocals_path, instruments_path = separate_audio(song_file)
-        progress(0.40, desc="Conversion vocale (Seed-VC)...")
-        # Step 3: Convert vocals with Seed-VC
         converted_path = convert_voice(
             audio_path=vocals_path,
             reference_path=reference_path,
@@ -155,9 +136,8 @@ def convert_song(
             similarity=float(similarity),
         )
-        progress(0.85, desc="Mixage final...")
-        # Step 4: Mix converted vocals with instruments
         final_path = mix_audio(
             vocals_path=converted_path,
             instruments_path=instruments_path,
@@ -165,10 +145,10 @@ def convert_song(
             instrumental_volume=float(instrumental_volume),
         )
-        progress(1.0, desc="Termine !")
         return (
-            "Conversion terminee avec succes !",
             vocals_path,
             converted_path,
             final_path,
@@ -177,103 +157,84 @@ def convert_song(
     except Exception as e:
         import traceback
         tb = traceback.format_exc()
-        logger.error("Erreur conversion: {}".format(tb))
-        return "Erreur : {}: {}\n\nDetails:\n{}".format(
             type(e).__name__, str(e), tb[-500:]
         ), None, None, None
-# -- Models Tab --
 def refresh_models():
-    """Refresh the model list as HTML."""
     models = list_models()
     if not models:
-        return "<p style='color:gray;'>Aucun modele enregistre</p>"
     rows = "".join(
         "<tr><td>{}</td><td>Disponible</td></tr>".format(m) for m in models
     )
     return (
         "<table style='width:100%;border-collapse:collapse;'>"
-        "<tr><th style='text-align:left;border-bottom:1px solid #555;padding:8px;'>Nom</th>"
-        "<th style='text-align:left;border-bottom:1px solid #555;padding:8px;'>Statut</th></tr>"
         "{}</table>".format(rows)
     )
 def delete_selected_model(model_name_to_delete):
-    """Delete a model."""
-    if not model_name_to_delete or model_name_to_delete == "(aucun modele)":
-        return "Veuillez selectionner un modele a supprimer.", refresh_models()
     try:
         delete_model(model_name_to_delete)
-        return "Modele '{}' supprime.".format(model_name_to_delete), refresh_models()
     except Exception as e:
-        return "Erreur : {}".format(e), refresh_models()
-# -- Build Gradio UI --
-DESCRIPTION = """
-# Clone Vocal
-Outil de clonage vocal **zero-shot** base sur **Seed-VC** (Diffusion Transformer).
-**Comment utiliser :**
-1. **Onglet "Ma voix"** : Uploadez un court extrait de votre voix (3-30 sec) pour creer votre profil vocal
-2. **Onglet "Convertir"** : Uploadez un morceau de musique, l'outil remplace la voix par la votre
-3. **Onglet "Modeles"** : Gerez vos profils vocaux
-> **Zero-shot** : pas d'entrainement necessaire ! Juste 3-30 secondes de votre voix suffisent.
-"""
 with gr.Blocks(
-    title="Clone Vocal",
     theme=gr.themes.Soft(),
 ) as app:
-    gr.Markdown(DESCRIPTION)
     with gr.Tabs():
-        # Tab 1: Voice Reference
-        with gr.TabItem("Ma voix"):
-            gr.Markdown("### Enregistrer votre reference vocale")
             with gr.Row():
                 with gr.Column(scale=2):
                     train_audio = gr.Audio(
-                        label="Extrait de votre voix (WAV ou MP3, 3-30 secondes)",
                         type="filepath",
                         sources=["upload"],
                     )
                     train_model_name = gr.Textbox(
-                        label="Nom du profil",
-                        placeholder="ex: ma_voix",
                         max_lines=1,
                     )
                     train_btn = gr.Button(
-                        "Sauvegarder",
                         variant="primary",
                         size="lg",
                     )
                 with gr.Column(scale=1):
                     train_status = gr.Textbox(
-                        label="Statut",
                         interactive=False,
                         lines=3,
                     )
                     train_download = gr.File(
-                        label="Fichier de reference",
                         interactive=False,
                     )
             gr.Markdown(
-                "**Conseils :**\n"
-                "- Utilisez un enregistrement propre (pas de bruit de fond, pas de musique)\n"
-                "- Parlez ou chantez naturellement pendant 3 a 30 secondes\n"
-                "- Plus l'extrait est long et varie, meilleur sera le resultat\n"
-                "- Format WAV ou MP3 accepte"
             )
             train_btn.click(
@@ -282,85 +243,85 @@ with gr.Blocks(
                 outputs=[train_status, train_download],
             )
-        # Tab 2: Conversion
-        with gr.TabItem("Convertir un morceau"):
-            gr.Markdown("### Remplacer la voix d'un morceau par la votre")
             with gr.Row():
                 with gr.Column(scale=2):
                     convert_model = gr.Dropdown(
                         choices=get_model_choices(),
-                        label="Profil vocal",
                         interactive=True,
                     )
-                    refresh_btn = gr.Button("Rafraichir la liste", size="sm")
                     convert_audio = gr.Audio(
-                        label="Morceau a convertir (WAV ou MP3)",
                         type="filepath",
                         sources=["upload"],
                     )
-                    with gr.Accordion("Parametres avances", open=False):
                         convert_pitch = gr.Slider(
                             minimum=-24,
                             maximum=24,
                             value=0,
                             step=1,
-                            label="Transposition (demi-tons)",
                         )
                         convert_similarity = gr.Slider(
                             minimum=0.0,
                             maximum=1.0,
                             value=0.7,
                             step=0.05,
-                            label="Similarite vocale (0.5=naturel, 0.7=equilibre, 0.9=plus fidele)",
                         )
                         convert_diffusion = gr.Slider(
                             minimum=5,
                             maximum=100,
                             value=25,
                             step=5,
-                            label="Qualite (10=rapide, 25=equilibre, 50=haute qualite)",
                         )
                         convert_vocal_vol = gr.Slider(
                             minimum=0.0,
                             maximum=2.0,
                             value=1.0,
                             step=0.1,
-                            label="Volume de la voix",
                         )
                         convert_inst_vol = gr.Slider(
                             minimum=0.0,
                             maximum=2.0,
                             value=1.0,
                             step=0.1,
-                            label="Volume des instruments",
                         )
                     convert_btn = gr.Button(
-                        "Convertir et mixer",
                         variant="primary",
                         size="lg",
                     )
                 with gr.Column(scale=1):
                     convert_status = gr.Textbox(
-                        label="Statut",
                         interactive=False,
                         lines=3,
                     )
-                    gr.Markdown("**Apercu des pistes :**")
                     preview_vocals = gr.Audio(
-                        label="Voix originale (separee)",
                         interactive=False,
                     )
                     preview_converted = gr.Audio(
-                        label="Voix convertie",
                         interactive=False,
                     )
-                    gr.Markdown("**Resultat final :**")
                     final_output = gr.Audio(
-                        label="Morceau final (voix + instruments)",
                         interactive=False,
                     )
@@ -383,25 +344,25 @@ with gr.Blocks(
                 outputs=[convert_status, preview_vocals, preview_converted, final_output],
             )
-        # Tab 3: Models
-        with gr.TabItem("Mes modeles"):
-            gr.Markdown("### Gerer vos profils vocaux")
             models_table = gr.HTML(
                 value=refresh_models(),
-                label="Modeles enregistres",
             )
             with gr.Row():
-                models_refresh_btn = gr.Button("Rafraichir", size="sm")
                 models_delete_name = gr.Dropdown(
                     choices=get_model_choices(),
-                    label="Modele a supprimer",
                     interactive=True,
                 )
-                models_delete_btn = gr.Button("Supprimer", variant="stop", size="sm")
-            models_delete_status = gr.Textbox(label="Statut", interactive=False)
             models_refresh_btn.click(
                 fn=refresh_models,
@@ -418,25 +379,25 @@ with gr.Blocks(
                 outputs=[models_delete_status, models_table],
             )
-        # Tab 4: Debug (temporary)
-        with gr.TabItem("Debug GPU"):
-            gr.Markdown("### Logs GPU Worker (pour diagnostic)")
             debug_output = gr.Textbox(
-                label="Derniers logs GPU",
                 interactive=False,
                 lines=20,
             )
-            debug_btn = gr.Button("Lire les logs", size="sm")
             def read_debug_log():
                 log_path = "/home/user/app/debug_gpu.log"
                 if os.path.exists(log_path):
                     with open(log_path, "r") as f:
                         return f.read()
-                return "Aucun log disponible. Lancez d'abord une conversion."
             debug_btn.click(fn=read_debug_log, outputs=[debug_output])
 if __name__ == "__main__":
-    app.launch(server_name="0.0.0.0")

 import os
 import sys
 import logging
 import tempfile
 import shutil
 import gradio as gr
 try:
     import gradio_client.utils as _gc_utils
 except Exception:
     pass
+# Configuración de logs
 logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")
 logger = logging.getLogger(__name__)
+# Inicio: clonar Seed-VC
+logger.info("Inicializando la aplicación...")
 from pipeline.setup import setup_seed_vc
 from pipeline.storage import init_storage, list_models, download_model, delete_model, get_reference_path
 try:
     setup_seed_vc()
 except Exception as e:
+    logger.error("Error durante la configuración: {}".format(e))
 HF_MODELS_REPO = os.environ.get("HF_MODELS_REPO", "")
 if HF_MODELS_REPO:
     init_storage(HF_MODELS_REPO)
+    logger.info("Almacenamiento de HuggingFace configurado: {}".format(HF_MODELS_REPO))
 from pipeline.training import save_voice_reference, _gpu_warmup
 from pipeline.separation import separate_audio
 from pipeline.inference import convert_voice
 def train_voice_model(audio_file, model_name, progress=gr.Progress()):
+    """Controlador: guardar referencia de voz."""
     if audio_file is None:
+        return "Error: Por favor, sube un archivo de audio.", None
     if not model_name or not model_name.strip():
+        return "Error: Por favor, ingresa un nombre para el modelo.", None
     model_name = model_name.strip().replace(" ", "_")
         progress(value, desc=desc)
     try:
+        progress(0.0, desc="Iniciando...")
         pth_path, ref_path = save_voice_reference(
             audio_path=audio_file,
             model_name=model_name,
             progress_callback=progress_callback,
         )
+        return "¡Referencia de voz '{}' guardada con éxito!".format(model_name), ref_path
     except Exception as e:
         import traceback
         tb = traceback.format_exc()
+        logger.error("Error en el entrenamiento: {}".format(tb))
+        return "Error : {}: {}\n\nDetalles:\n{}".format(
             type(e).__name__, str(e), tb[-500:]
         ), None
 def get_model_choices():
+    """Obtener lista de nombres de modelos entrenados para el menú desplegable."""
     models = list_models()
     if not models:
+        return ["(ningún modelo)"]
     return models
     instrumental_volume,
     progress=gr.Progress(),
 ):
+    """Pipeline completo: separar + convertir + mezclar."""
     if song_file is None:
+        return "Error: Por favor, sube un archivo de audio.", None, None, None
+    if model_choice == "(ningún modelo)" or not model_choice:
+        return "Error: Por favor, guarda una referencia de voz primero.", None, None, None
     from pipeline.mixing import mix_audio
     try:
+        progress(0.05, desc="Cargando el modelo...")
         pth_path, ref_or_index = download_model(model_choice)
         if not pth_path:
+            return "Error: Modelo '{}' no encontrado.".format(model_choice), None, None, None
         reference_path = get_reference_path(model_choice)
         if not reference_path:
+            return "Error: Audio de referencia no encontrado para '{}'.".format(model_choice), None, None, None
+        progress(0.10, desc="Separación de pistas (Demucs)...")
         vocals_path, instruments_path = separate_audio(song_file)
+        progress(0.40, desc="Conversión de voz (Seed-VC)...")
         converted_path = convert_voice(
             audio_path=vocals_path,
             reference_path=reference_path,
             similarity=float(similarity),
         )
+        progress(0.85, desc="Mezcla final...")
         final_path = mix_audio(
             vocals_path=converted_path,
             instruments_path=instruments_path,
             instrumental_volume=float(instrumental_volume),
         )
+        progress(1.0, desc="¡Terminado!")
         return (
+            "¡Conversión completada con éxito!",
             vocals_path,
             converted_path,
             final_path,
     except Exception as e:
         import traceback
         tb = traceback.format_exc()
+        logger.error("Error en la conversión: {}".format(tb))
+        return "Error : {}: {}\n\nDetalles:\n{}".format(
             type(e).__name__, str(e), tb[-500:]
         ), None, None, None
 def refresh_models():
+    """Actualizar la lista de modelos como HTML."""
     models = list_models()
     if not models:
+        return "<p style='color:gray;'>Ningún modelo guardado</p>"
     rows = "".join(
         "<tr><td>{}</td><td>Disponible</td></tr>".format(m) for m in models
     )
     return (
         "<table style='width:100%;border-collapse:collapse;'>"
+        "<tr><th style='text-align:left;border-bottom:1px solid #555;padding:8px;'>Nombre</th>"
+        "<th style='text-align:left;border-bottom:1px solid #555;padding:8px;'>Estado</th></tr>"
         "{}</table>".format(rows)
     )
 def delete_selected_model(model_name_to_delete):
+    """Eliminar un modelo."""
+    if not model_name_to_delete or model_name_to_delete == "(ningún modelo)":
+        return "Por favor, selecciona un modelo para eliminar.", refresh_models()
     try:
         delete_model(model_name_to_delete)
+        return "Modelo '{}' eliminado.".format(model_name_to_delete), refresh_models()
     except Exception as e:
+        return "Error : {}".format(e), refresh_models()
 with gr.Blocks(
+    title="Clon de Voz",
     theme=gr.themes.Soft(),
 ) as app:
+    gr.Markdown("# Aplicación de Clonación de Voz") # Aquí iría DESCRIPTION si estuviera definida globalmente
     with gr.Tabs():
+        # Pestaña 1: Referencia de voz
+        with gr.TabItem("Mi voz"):
+            gr.Markdown("### Guardar tu referencia de voz")
             with gr.Row():
                 with gr.Column(scale=2):
                     train_audio = gr.Audio(
+                        label="Extracto de tu voz (WAV o MP3, 3-30 segundos)",
                         type="filepath",
                         sources=["upload"],
                     )
                     train_model_name = gr.Textbox(
+                        label="Nombre del perfil",
+                        placeholder="ej: mi_voz",
                         max_lines=1,
                     )
                     train_btn = gr.Button(
+                        "Guardar",
                         variant="primary",
                         size="lg",
                     )
                 with gr.Column(scale=1):
                     train_status = gr.Textbox(
+                        label="Estado",
                         interactive=False,
                         lines=3,
                     )
                     train_download = gr.File(
+                        label="Archivo de referencia",
                         interactive=False,
                     )
             gr.Markdown(
+                "**Consejos:**\n"
+                "- Usa una grabación limpia (sin ruido de fondo, sin música)\n"
+                "- Habla o canta naturalmente durante 3 a 30 segundos\n"
+                "- Mientras más largo y variado sea el extracto, mejor será el resultado\n"
+                "- Se aceptan formatos WAV o MP3"
             )
             train_btn.click(
                 outputs=[train_status, train_download],
             )
+        # Pestaña 2: Conversión
+        with gr.TabItem("Convertir una canción"):
+            gr.Markdown("### Reemplazar la voz de una canción por la tuya")
             with gr.Row():
                 with gr.Column(scale=2):
                     convert_model = gr.Dropdown(
                         choices=get_model_choices(),
+                        label="Perfil de voz",
                         interactive=True,
                     )
+                    refresh_btn = gr.Button("Actualizar lista", size="sm")
                     convert_audio = gr.Audio(
+                        label="Canción a convertir (WAV o MP3)",
                         type="filepath",
                         sources=["upload"],
                     )
+                    with gr.Accordion("Parámetros avanzados", open=False):
                         convert_pitch = gr.Slider(
                             minimum=-24,
                             maximum=24,
                             value=0,
                             step=1,
+                            label="Transposición (semitonos)",
                         )
                         convert_similarity = gr.Slider(
                             minimum=0.0,
                             maximum=1.0,
                             value=0.7,
                             step=0.05,
+                            label="Similitud de voz (0.5=natural, 0.7=equilibrado, 0.9=más fiel)",
                         )
                         convert_diffusion = gr.Slider(
                             minimum=5,
                             maximum=100,
                             value=25,
                             step=5,
+                            label="Calidad (10=rápido, 25=equilibrado, 50=alta calidad)",
                         )
                         convert_vocal_vol = gr.Slider(
                             minimum=0.0,
                             maximum=2.0,
                             value=1.0,
                             step=0.1,
+                            label="Volumen de la voz",
                         )
                         convert_inst_vol = gr.Slider(
                             minimum=0.0,
                             maximum=2.0,
                             value=1.0,
                             step=0.1,
+                            label="Volumen de los instrumentos",
                         )
                     convert_btn = gr.Button(
+                        "Convertir y mezclar",
                         variant="primary",
                         size="lg",
                     )
                 with gr.Column(scale=1):
                     convert_status = gr.Textbox(
+                        label="Estado",
                         interactive=False,
                         lines=3,
                     )
+                    gr.Markdown("**Vista previa de las pistas:**")
                     preview_vocals = gr.Audio(
+                        label="Voz original (separada)",
                         interactive=False,
                     )
                     preview_converted = gr.Audio(
+                        label="Voz convertida",
                         interactive=False,
                     )
+                    gr.Markdown("**Resultado final:**")
                     final_output = gr.Audio(
+                        label="Canción final (voz + instrumentos)",
                         interactive=False,
                     )
                 outputs=[convert_status, preview_vocals, preview_converted, final_output],
             )
+        # Pestaña 3: Modelos
+        with gr.TabItem("Mis modelos"):
+            gr.Markdown("### Gestionar tus perfiles de voz")
             models_table = gr.HTML(
                 value=refresh_models(),
+                label="Modelos guardados",
             )
             with gr.Row():
+                models_refresh_btn = gr.Button("Actualizar", size="sm")
                 models_delete_name = gr.Dropdown(
                     choices=get_model_choices(),
+                    label="Modelo a eliminar",
                     interactive=True,
                 )
+                models_delete_btn = gr.Button("Eliminar", variant="stop", size="sm")
+            models_delete_status = gr.Textbox(label="Estado", interactive=False)
             models_refresh_btn.click(
                 fn=refresh_models,
                 outputs=[models_delete_status, models_table],
             )
+        # Pestaña 4: Debug (temporal)
+        with gr.TabItem("Depuración GPU"):
+            gr.Markdown("### Logs del Trabajador GPU (para diagnóstico)")
             debug_output = gr.Textbox(
+                label="Últimos logs de GPU",
                 interactive=False,
                 lines=20,
             )
+            debug_btn = gr.Button("Leer los logs", size="sm")
             def read_debug_log():
                 log_path = "/home/user/app/debug_gpu.log"
                 if os.path.exists(log_path):
                     with open(log_path, "r") as f:
                         return f.read()
+                return "Ningún log disponible. Ejecuta una conversión primero."
             debug_btn.click(fn=read_debug_log, outputs=[debug_output])
 if __name__ == "__main__":
+    app.launch(server_name="0.0.0.0")