Spaces:

dimensionalpulsar
/

voice-clone-rvc

Sleeping

App Files Files Community

dimensionalpulsar commited on 24 days ago

Commit

b4b21bd

1 Parent(s): f0f02ad

HF adaptation: fix ZeroGPU requirements, launch(), README metadata + hardware:zero-gpu

Browse files

Files changed (3) hide show

README.md +3 -2
app.py +406 -406
requirements.txt +2 -4

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
-title: Clone Vocal
-emoji: "\U0001F3A4"
 colorFrom: purple
 colorTo: blue
 sdk: gradio
@@ -9,6 +9,7 @@ python_version: "3.10"
 app_file: app.py
 pinned: false
 license: mit
 tags:
   - seed-vc
   - voice-cloning

 ---
+title: Voice Clone RVC
+emoji: 🎤
 colorFrom: purple
 colorTo: blue
 sdk: gradio
 app_file: app.py
 pinned: false
 license: mit
+hardware: zero-gpu
 tags:
   - seed-vc
   - voice-cloning

app.py CHANGED Viewed

@@ -1,406 +1,406 @@
-import os
-import sys
-import logging
-import tempfile
-import shutil
-import gradio as gr
-try:
-    import gradio_client.utils as _gc_utils
-    _orig_get_type = _gc_utils.get_type
-    def _patched_get_type(schema, *args, **kwargs):
-        if not isinstance(schema, dict):
-            return "Any"
-        return _orig_get_type(schema, *args, **kwargs)
-    _gc_utils.get_type = _patched_get_type
-    _orig_json_schema = _gc_utils._json_schema_to_python_type
-    def _patched_json_schema(schema, *args, **kwargs):
-        if not isinstance(schema, dict):
-            return "Any"
-        return _orig_json_schema(schema, *args, **kwargs)
-    _gc_utils._json_schema_to_python_type = _patched_json_schema
-    _gc_utils.json_schema_to_python_type = lambda schema, defs=None: _patched_json_schema(
-        schema, defs
-    )
-except Exception:
-    pass
-# Configuración de logs
-logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")
-logger = logging.getLogger(__name__)
-# Inicio: clonar Seed-VC
-logger.info("Inicializando la aplicación...")
-from pipeline.setup import setup_seed_vc
-from pipeline.storage import init_storage, list_models, download_model, delete_model, get_reference_path
-try:
-    setup_seed_vc()
-except Exception as e:
-    logger.error("Error durante la configuración: {}".format(e))
-HF_MODELS_REPO = os.environ.get("HF_MODELS_REPO", "")
-if HF_MODELS_REPO:
-    init_storage(HF_MODELS_REPO)
-    logger.info("Almacenamiento de HuggingFace configurado: {}".format(HF_MODELS_REPO))
-from pipeline.training import save_voice_reference, _gpu_warmup
-from pipeline.separation import separate_audio
-from pipeline.inference import convert_voice
-def train_voice_model(audio_file, model_name, progress=gr.Progress()):
-    """Controlador: guardar referencia de voz."""
-    if audio_file is None:
-        return "Error: Por favor, sube un archivo de audio.", None
-    if not model_name or not model_name.strip():
-        return "Error: Por favor, ingresa un nombre para el modelo.", None
-    model_name = model_name.strip().replace(" ", "_")
-    def progress_callback(value, desc):
-        progress(value, desc=desc)
-    try:
-        progress(0.0, desc="Iniciando...")
-        pth_path, ref_path = save_voice_reference(
-            audio_path=audio_file,
-            model_name=model_name,
-            progress_callback=progress_callback,
-        )
-        return "¡Referencia de voz '{}' guardada con éxito!".format(model_name), ref_path
-    except Exception as e:
-        import traceback
-        tb = traceback.format_exc()
-        logger.error("Error en el entrenamiento: {}".format(tb))
-        return "Error : {}: {}\n\nDetalles:\n{}".format(
-            type(e).__name__, str(e), tb[-500:]
-        ), None
-def get_model_choices():
-    """Obtener lista de nombres de modelos entrenados para el menú desplegable."""
-    models = list_models()
-    if not models:
-        return ["(ningún modelo)"]
-    return models
-def convert_song(
-    model_choice,
-    song_file,
-    pitch,
-    similarity,
-    diffusion_steps,
-    vocal_volume,
-    instrumental_volume,
-    progress=gr.Progress(),
-):
-    """Pipeline completo: separar + convertir + mezclar."""
-    if song_file is None:
-        return "Error: Por favor, sube un archivo de audio.", None, None, None
-    if model_choice == "(ningún modelo)" or not model_choice:
-        return "Error: Por favor, guarda una referencia de voz primero.", None, None, None
-    from pipeline.mixing import mix_audio
-    try:
-        progress(0.05, desc="Cargando el modelo...")
-        pth_path, ref_or_index = download_model(model_choice)
-        if not pth_path:
-            return "Error: Modelo '{}' no encontrado.".format(model_choice), None, None, None
-        reference_path = get_reference_path(model_choice)
-        if not reference_path:
-            return "Error: Audio de referencia no encontrado para '{}'.".format(model_choice), None, None, None
-        progress(0.10, desc="Separación de pistas (Demucs)...")
-        vocals_path, instruments_path = separate_audio(song_file)
-        progress(0.40, desc="Conversión de voz (Seed-VC)...")
-        converted_path = convert_voice(
-            audio_path=vocals_path,
-            reference_path=reference_path,
-            pitch=int(pitch),
-            diffusion_steps=int(diffusion_steps),
-            similarity=float(similarity),
-        )
-        progress(0.85, desc="Mezcla final...")
-        final_path = mix_audio(
-            vocals_path=converted_path,
-            instruments_path=instruments_path,
-            vocal_volume=float(vocal_volume),
-            instrumental_volume=float(instrumental_volume),
-        )
-        progress(1.0, desc="¡Terminado!")
-        return (
-            "¡Conversión completada con éxito!",
-            vocals_path,
-            converted_path,
-            final_path,
-        )
-    except Exception as e:
-        import traceback
-        tb = traceback.format_exc()
-        logger.error("Error en la conversión: {}".format(tb))
-        return "Error : {}: {}\n\nDetalles:\n{}".format(
-            type(e).__name__, str(e), tb[-500:]
-        ), None, None, None
-def refresh_models():
-    """Actualizar la lista de modelos como HTML."""
-    models = list_models()
-    if not models:
-        return "<p style='color:gray;'>Ningún modelo guardado</p>"
-    rows = "".join(
-        "<tr><td>{}</td><td>Disponible</td></tr>".format(m) for m in models
-    )
-    return (
-        "<table style='width:100%;border-collapse:collapse;'>"
-        "<tr><th style='text-align:left;border-bottom:1px solid #555;padding:8px;'>Nombre</th>"
-        "<th style='text-align:left;border-bottom:1px solid #555;padding:8px;'>Estado</th></tr>"
-        "{}</table>".format(rows)
-    )
-def delete_selected_model(model_name_to_delete):
-    """Eliminar un modelo."""
-    if not model_name_to_delete or model_name_to_delete == "(ningún modelo)":
-        return "Por favor, selecciona un modelo para eliminar.", refresh_models()
-    try:
-        delete_model(model_name_to_delete)
-        return "Modelo '{}' eliminado.".format(model_name_to_delete), refresh_models()
-    except Exception as e:
-        return "Error : {}".format(e), refresh_models()
-with gr.Blocks(
-    title="Clon de Voz",
-    theme=gr.themes.Soft(),
-) as app:
-    gr.Markdown(
-        "# 🎤 Aplicación de Clonación de Voz (Seed-VC)\n"
-        "> Powered by [Seed-VC](https://github.com/Plachta/seed-vc) + [Demucs](https://github.com/facebookresearch/demucs) · ZeroGPU · Zero-shot"
-    )
-    with gr.Tabs():
-        # Pestaña 1: Referencia de voz
-        with gr.TabItem("Mi voz"):
-            gr.Markdown("### Guardar tu referencia de voz")
-            with gr.Row():
-                with gr.Column(scale=2):
-                    train_audio = gr.Audio(
-                        label="Extracto de tu voz (WAV o MP3, 3-30 segundos)",
-                        type="filepath",
-                        sources=["upload"],
-                    )
-                    train_model_name = gr.Textbox(
-                        label="Nombre del perfil",
-                        placeholder="ej: mi_voz",
-                        max_lines=1,
-                    )
-                    train_btn = gr.Button(
-                        "Guardar",
-                        variant="primary",
-                        size="lg",
-                    )
-                with gr.Column(scale=1):
-                    train_status = gr.Textbox(
-                        label="Estado",
-                        interactive=False,
-                        lines=3,
-                    )
-                    train_download = gr.File(
-                        label="Archivo de referencia",
-                        interactive=False,
-                    )
-            gr.Markdown(
-                "**Consejos:**\n"
-                "- Usa una grabación limpia (sin ruido de fondo, sin música)\n"
-                "- Habla o canta naturalmente durante 3 a 30 segundos\n"
-                "- Mientras más largo y variado sea el extracto, mejor será el resultado\n"
-                "- Se aceptan formatos WAV o MP3"
-            )
-            train_btn.click(
-                fn=train_voice_model,
-                inputs=[train_audio, train_model_name],
-                outputs=[train_status, train_download],
-            )
-        # Pestaña 2: Conversión
-        with gr.TabItem("Convertir una canción"):
-            gr.Markdown("### Reemplazar la voz de una canción por la tuya")
-            with gr.Row():
-                with gr.Column(scale=2):
-                    convert_model = gr.Dropdown(
-                        choices=get_model_choices(),
-                        label="Perfil de voz",
-                        interactive=True,
-                    )
-                    refresh_btn = gr.Button("Actualizar lista", size="sm")
-                    convert_audio = gr.Audio(
-                        label="Canción a convertir (WAV o MP3)",
-                        type="filepath",
-                        sources=["upload"],
-                    )
-                    with gr.Accordion("Parámetros avanzados", open=False):
-                        convert_pitch = gr.Slider(
-                            minimum=-24,
-                            maximum=24,
-                            value=0,
-                            step=1,
-                            label="Transposición (semitonos)",
-                        )
-                        convert_similarity = gr.Slider(
-                            minimum=0.0,
-                            maximum=1.0,
-                            value=0.7,
-                            step=0.05,
-                            label="Similitud de voz (0.5=natural, 0.7=equilibrado, 0.9=más fiel)",
-                        )
-                        convert_diffusion = gr.Slider(
-                            minimum=5,
-                            maximum=100,
-                            value=25,
-                            step=5,
-                            label="Calidad (10=rápido, 25=equilibrado, 50=alta calidad)",
-                        )
-                        convert_vocal_vol = gr.Slider(
-                            minimum=0.0,
-                            maximum=2.0,
-                            value=1.0,
-                            step=0.1,
-                            label="Volumen de la voz",
-                        )
-                        convert_inst_vol = gr.Slider(
-                            minimum=0.0,
-                            maximum=2.0,
-                            value=1.0,
-                            step=0.1,
-                            label="Volumen de los instrumentos",
-                        )
-                    convert_btn = gr.Button(
-                        "Convertir y mezclar",
-                        variant="primary",
-                        size="lg",
-                    )
-                with gr.Column(scale=1):
-                    convert_status = gr.Textbox(
-                        label="Estado",
-                        interactive=False,
-                        lines=3,
-                    )
-                    gr.Markdown("**Vista previa de las pistas:**")
-                    preview_vocals = gr.Audio(
-                        label="Voz original (separada)",
-                        interactive=False,
-                    )
-                    preview_converted = gr.Audio(
-                        label="Voz convertida",
-                        interactive=False,
-                    )
-                    gr.Markdown("**Resultado final:**")
-                    final_output = gr.Audio(
-                        label="Canción final (voz + instrumentos)",
-                        interactive=False,
-                    )
-            refresh_btn.click(
-                fn=lambda: gr.Dropdown(choices=get_model_choices()),
-                outputs=[convert_model],
-            )
-            convert_btn.click(
-                fn=convert_song,
-                inputs=[
-                    convert_model,
-                    convert_audio,
-                    convert_pitch,
-                    convert_similarity,
-                    convert_diffusion,
-                    convert_vocal_vol,
-                    convert_inst_vol,
-                ],
-                outputs=[convert_status, preview_vocals, preview_converted, final_output],
-            )
-        # Pestaña 3: Modelos
-        with gr.TabItem("Mis modelos"):
-            gr.Markdown("### Gestionar tus perfiles de voz")
-            models_table = gr.HTML(
-                value=refresh_models(),
-                label="Modelos guardados",
-            )
-            with gr.Row():
-                models_refresh_btn = gr.Button("Actualizar", size="sm")
-                models_delete_name = gr.Dropdown(
-                    choices=get_model_choices(),
-                    label="Modelo a eliminar",
-                    interactive=True,
-                )
-                models_delete_btn = gr.Button("Eliminar", variant="stop", size="sm")
-            models_delete_status = gr.Textbox(label="Estado", interactive=False)
-            models_refresh_btn.click(
-                fn=refresh_models,
-                outputs=[models_table],
-            )
-            models_refresh_btn.click(
-                fn=lambda: gr.Dropdown(choices=get_model_choices()),
-                outputs=[models_delete_name],
-            )
-            models_delete_btn.click(
-                fn=delete_selected_model,
-                inputs=[models_delete_name],
-                outputs=[models_delete_status, models_table],
-            )
-        # Pestaña 4: Debug (temporal)
-        with gr.TabItem("Depuración GPU"):
-            gr.Markdown("### Logs del Trabajador GPU (para diagnóstico)")
-            debug_output = gr.Textbox(
-                label="Últimos logs de GPU",
-                interactive=False,
-                lines=20,
-            )
-            debug_btn = gr.Button("Leer los logs", size="sm")
-            def read_debug_log():
-                log_path = "/home/user/app/debug_gpu.log"
-                if os.path.exists(log_path):
-                    with open(log_path, "r") as f:
-                        return f.read()
-                return "Ningún log disponible. Ejecuta una conversión primero."
-            debug_btn.click(fn=read_debug_log, outputs=[debug_output])
-if __name__ == "__main__":
-    app.launch(server_name="0.0.0.0", show_error=True)

+import os
+import sys
+import logging
+import tempfile
+import shutil
+import gradio as gr
+try:
+    import gradio_client.utils as _gc_utils
+    _orig_get_type = _gc_utils.get_type
+    def _patched_get_type(schema, *args, **kwargs):
+        if not isinstance(schema, dict):
+            return "Any"
+        return _orig_get_type(schema, *args, **kwargs)
+    _gc_utils.get_type = _patched_get_type
+    _orig_json_schema = _gc_utils._json_schema_to_python_type
+    def _patched_json_schema(schema, *args, **kwargs):
+        if not isinstance(schema, dict):
+            return "Any"
+        return _orig_json_schema(schema, *args, **kwargs)
+    _gc_utils._json_schema_to_python_type = _patched_json_schema
+    _gc_utils.json_schema_to_python_type = lambda schema, defs=None: _patched_json_schema(
+        schema, defs
+    )
+except Exception:
+    pass
+# Configuración de logs
+logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")
+logger = logging.getLogger(__name__)
+# Inicio: clonar Seed-VC
+logger.info("Inicializando la aplicación...")
+from pipeline.setup import setup_seed_vc
+from pipeline.storage import init_storage, list_models, download_model, delete_model, get_reference_path
+try:
+    setup_seed_vc()
+except Exception as e:
+    logger.error("Error durante la configuración: {}".format(e))
+HF_MODELS_REPO = os.environ.get("HF_MODELS_REPO", "")
+if HF_MODELS_REPO:
+    init_storage(HF_MODELS_REPO)
+    logger.info("Almacenamiento de HuggingFace configurado: {}".format(HF_MODELS_REPO))
+from pipeline.training import save_voice_reference, _gpu_warmup
+from pipeline.separation import separate_audio
+from pipeline.inference import convert_voice
+def train_voice_model(audio_file, model_name, progress=gr.Progress()):
+    """Controlador: guardar referencia de voz."""
+    if audio_file is None:
+        return "Error: Por favor, sube un archivo de audio.", None
+    if not model_name or not model_name.strip():
+        return "Error: Por favor, ingresa un nombre para el modelo.", None
+    model_name = model_name.strip().replace(" ", "_")
+    def progress_callback(value, desc):
+        progress(value, desc=desc)
+    try:
+        progress(0.0, desc="Iniciando...")
+        pth_path, ref_path = save_voice_reference(
+            audio_path=audio_file,
+            model_name=model_name,
+            progress_callback=progress_callback,
+        )
+        return "¡Referencia de voz '{}' guardada con éxito!".format(model_name), ref_path
+    except Exception as e:
+        import traceback
+        tb = traceback.format_exc()
+        logger.error("Error en el entrenamiento: {}".format(tb))
+        return "Error : {}: {}\n\nDetalles:\n{}".format(
+            type(e).__name__, str(e), tb[-500:]
+        ), None
+def get_model_choices():
+    """Obtener lista de nombres de modelos entrenados para el menú desplegable."""
+    models = list_models()
+    if not models:
+        return ["(ningún modelo)"]
+    return models
+def convert_song(
+    model_choice,
+    song_file,
+    pitch,
+    similarity,
+    diffusion_steps,
+    vocal_volume,
+    instrumental_volume,
+    progress=gr.Progress(),
+):
+    """Pipeline completo: separar + convertir + mezclar."""
+    if song_file is None:
+        return "Error: Por favor, sube un archivo de audio.", None, None, None
+    if model_choice == "(ningún modelo)" or not model_choice:
+        return "Error: Por favor, guarda una referencia de voz primero.", None, None, None
+    from pipeline.mixing import mix_audio
+    try:
+        progress(0.05, desc="Cargando el modelo...")
+        pth_path, ref_or_index = download_model(model_choice)
+        if not pth_path:
+            return "Error: Modelo '{}' no encontrado.".format(model_choice), None, None, None
+        reference_path = get_reference_path(model_choice)
+        if not reference_path:
+            return "Error: Audio de referencia no encontrado para '{}'.".format(model_choice), None, None, None
+        progress(0.10, desc="Separación de pistas (Demucs)...")
+        vocals_path, instruments_path = separate_audio(song_file)
+        progress(0.40, desc="Conversión de voz (Seed-VC)...")
+        converted_path = convert_voice(
+            audio_path=vocals_path,
+            reference_path=reference_path,
+            pitch=int(pitch),
+            diffusion_steps=int(diffusion_steps),
+            similarity=float(similarity),
+        )
+        progress(0.85, desc="Mezcla final...")
+        final_path = mix_audio(
+            vocals_path=converted_path,
+            instruments_path=instruments_path,
+            vocal_volume=float(vocal_volume),
+            instrumental_volume=float(instrumental_volume),
+        )
+        progress(1.0, desc="¡Terminado!")
+        return (
+            "¡Conversión completada con éxito!",
+            vocals_path,
+            converted_path,
+            final_path,
+        )
+    except Exception as e:
+        import traceback
+        tb = traceback.format_exc()
+        logger.error("Error en la conversión: {}".format(tb))
+        return "Error : {}: {}\n\nDetalles:\n{}".format(
+            type(e).__name__, str(e), tb[-500:]
+        ), None, None, None
+def refresh_models():
+    """Actualizar la lista de modelos como HTML."""
+    models = list_models()
+    if not models:
+        return "<p style='color:gray;'>Ningún modelo guardado</p>"
+    rows = "".join(
+        "<tr><td>{}</td><td>Disponible</td></tr>".format(m) for m in models
+    )
+    return (
+        "<table style='width:100%;border-collapse:collapse;'>"
+        "<tr><th style='text-align:left;border-bottom:1px solid #555;padding:8px;'>Nombre</th>"
+        "<th style='text-align:left;border-bottom:1px solid #555;padding:8px;'>Estado</th></tr>"
+        "{}</table>".format(rows)
+    )
+def delete_selected_model(model_name_to_delete):
+    """Eliminar un modelo."""
+    if not model_name_to_delete or model_name_to_delete == "(ningún modelo)":
+        return "Por favor, selecciona un modelo para eliminar.", refresh_models()
+    try:
+        delete_model(model_name_to_delete)
+        return "Modelo '{}' eliminado.".format(model_name_to_delete), refresh_models()
+    except Exception as e:
+        return "Error : {}".format(e), refresh_models()
+with gr.Blocks(
+    title="Clon de Voz",
+    theme=gr.themes.Soft(),
+) as app:
+    gr.Markdown(
+        "# 🎤 Aplicación de Clonación de Voz (Seed-VC)\n"
+        "> Powered by [Seed-VC](https://github.com/Plachta/seed-vc) + [Demucs](https://github.com/facebookresearch/demucs) · ZeroGPU · Zero-shot"
+    )
+    with gr.Tabs():
+        # Pestaña 1: Referencia de voz
+        with gr.TabItem("Mi voz"):
+            gr.Markdown("### Guardar tu referencia de voz")
+            with gr.Row():
+                with gr.Column(scale=2):
+                    train_audio = gr.Audio(
+                        label="Extracto de tu voz (WAV o MP3, 3-30 segundos)",
+                        type="filepath",
+                        sources=["upload"],
+                    )
+                    train_model_name = gr.Textbox(
+                        label="Nombre del perfil",
+                        placeholder="ej: mi_voz",
+                        max_lines=1,
+                    )
+                    train_btn = gr.Button(
+                        "Guardar",
+                        variant="primary",
+                        size="lg",
+                    )
+                with gr.Column(scale=1):
+                    train_status = gr.Textbox(
+                        label="Estado",
+                        interactive=False,
+                        lines=3,
+                    )
+                    train_download = gr.File(
+                        label="Archivo de referencia",
+                        interactive=False,
+                    )
+            gr.Markdown(
+                "**Consejos:**\n"
+                "- Usa una grabación limpia (sin ruido de fondo, sin música)\n"
+                "- Habla o canta naturalmente durante 3 a 30 segundos\n"
+                "- Mientras más largo y variado sea el extracto, mejor será el resultado\n"
+                "- Se aceptan formatos WAV o MP3"
+            )
+            train_btn.click(
+                fn=train_voice_model,
+                inputs=[train_audio, train_model_name],
+                outputs=[train_status, train_download],
+            )
+        # Pestaña 2: Conversión
+        with gr.TabItem("Convertir una canción"):
+            gr.Markdown("### Reemplazar la voz de una canción por la tuya")
+            with gr.Row():
+                with gr.Column(scale=2):
+                    convert_model = gr.Dropdown(
+                        choices=get_model_choices(),
+                        label="Perfil de voz",
+                        interactive=True,
+                    )
+                    refresh_btn = gr.Button("Actualizar lista", size="sm")
+                    convert_audio = gr.Audio(
+                        label="Canción a convertir (WAV o MP3)",
+                        type="filepath",
+                        sources=["upload"],
+                    )
+                    with gr.Accordion("Parámetros avanzados", open=False):
+                        convert_pitch = gr.Slider(
+                            minimum=-24,
+                            maximum=24,
+                            value=0,
+                            step=1,
+                            label="Transposición (semitonos)",
+                        )
+                        convert_similarity = gr.Slider(
+                            minimum=0.0,
+                            maximum=1.0,
+                            value=0.7,
+                            step=0.05,
+                            label="Similitud de voz (0.5=natural, 0.7=equilibrado, 0.9=más fiel)",
+                        )
+                        convert_diffusion = gr.Slider(
+                            minimum=5,
+                            maximum=100,
+                            value=25,
+                            step=5,
+                            label="Calidad (10=rápido, 25=equilibrado, 50=alta calidad)",
+                        )
+                        convert_vocal_vol = gr.Slider(
+                            minimum=0.0,
+                            maximum=2.0,
+                            value=1.0,
+                            step=0.1,
+                            label="Volumen de la voz",
+                        )
+                        convert_inst_vol = gr.Slider(
+                            minimum=0.0,
+                            maximum=2.0,
+                            value=1.0,
+                            step=0.1,
+                            label="Volumen de los instrumentos",
+                        )
+                    convert_btn = gr.Button(
+                        "Convertir y mezclar",
+                        variant="primary",
+                        size="lg",
+                    )
+                with gr.Column(scale=1):
+                    convert_status = gr.Textbox(
+                        label="Estado",
+                        interactive=False,
+                        lines=3,
+                    )
+                    gr.Markdown("**Vista previa de las pistas:**")
+                    preview_vocals = gr.Audio(
+                        label="Voz original (separada)",
+                        interactive=False,
+                    )
+                    preview_converted = gr.Audio(
+                        label="Voz convertida",
+                        interactive=False,
+                    )
+                    gr.Markdown("**Resultado final:**")
+                    final_output = gr.Audio(
+                        label="Canción final (voz + instrumentos)",
+                        interactive=False,
+                    )
+            refresh_btn.click(
+                fn=lambda: gr.Dropdown(choices=get_model_choices()),
+                outputs=[convert_model],
+            )
+            convert_btn.click(
+                fn=convert_song,
+                inputs=[
+                    convert_model,
+                    convert_audio,
+                    convert_pitch,
+                    convert_similarity,
+                    convert_diffusion,
+                    convert_vocal_vol,
+                    convert_inst_vol,
+                ],
+                outputs=[convert_status, preview_vocals, preview_converted, final_output],
+            )
+        # Pestaña 3: Modelos
+        with gr.TabItem("Mis modelos"):
+            gr.Markdown("### Gestionar tus perfiles de voz")
+            models_table = gr.HTML(
+                value=refresh_models(),
+                label="Modelos guardados",
+            )
+            with gr.Row():
+                models_refresh_btn = gr.Button("Actualizar", size="sm")
+                models_delete_name = gr.Dropdown(
+                    choices=get_model_choices(),
+                    label="Modelo a eliminar",
+                    interactive=True,
+                )
+                models_delete_btn = gr.Button("Eliminar", variant="stop", size="sm")
+            models_delete_status = gr.Textbox(label="Estado", interactive=False)
+            models_refresh_btn.click(
+                fn=refresh_models,
+                outputs=[models_table],
+            )
+            models_refresh_btn.click(
+                fn=lambda: gr.Dropdown(choices=get_model_choices()),
+                outputs=[models_delete_name],
+            )
+            models_delete_btn.click(
+                fn=delete_selected_model,
+                inputs=[models_delete_name],
+                outputs=[models_delete_status, models_table],
+            )
+        # Pestaña 4: Debug (temporal)
+        with gr.TabItem("Depuración GPU"):
+            gr.Markdown("### Logs del Trabajador GPU (para diagnóstico)")
+            debug_output = gr.Textbox(
+                label="Últimos logs de GPU",
+                interactive=False,
+                lines=20,
+            )
+            debug_btn = gr.Button("Leer los logs", size="sm")
+            def read_debug_log():
+                log_path = "/home/user/app/debug_gpu.log"
+                if os.path.exists(log_path):
+                    with open(log_path, "r") as f:
+                        return f.read()
+                return "Ningún log disponible. Ejecuta una conversión primero."
+            debug_btn.click(fn=read_debug_log, outputs=[debug_output])
+if __name__ == "__main__":
+    app.launch()

requirements.txt CHANGED Viewed

@@ -4,10 +4,8 @@ gradio-client==1.5.4
 spaces>=0.30.0
 huggingface_hub>=0.23.0
-# PyTorch (ZeroGPU compatible)
-torch==2.5.1
-torchaudio==2.5.1
-torchvision==0.20.1
 # Audio processing
 librosa==0.10.2.post1

 spaces>=0.30.0
 huggingface_hub>=0.23.0
+# PyTorch — managed by ZeroGPU, do NOT pin versions here
+# torch, torchaudio, torchvision are pre-installed by the ZeroGPU runtime
 # Audio processing
 librosa==0.10.2.post1