Spaces:

dimensionalpulsar
/

voice-clone-rvc

Sleeping

dimensionalpulsar commited on 25 days ago

Commit

7d30adc

1 Parent(s): 3cb9c07

fix: return actual audio data (numpy) from ZeroGPU function instead of file paths to ensure Gradio receives the content before the worker environment is destroyed

Files changed (1) hide show

app.py CHANGED Viewed

@@ -104,7 +104,14 @@ def _full_pipeline_gpu(song_file, reference_path, pitch, diffusion_steps, simila
         instrumental_volume=float(instrumental_volume),
     )
-    return vocals_path, converted_path, final_path
 def train_voice_model(audio_file, model_name, progress=gr.Progress()):
@@ -357,18 +364,15 @@ with gr.Blocks(
                     preview_vocals = gr.Audio(
                         label="Voz original (separada)",
                         interactive=False,
-                        type="filepath",
                     )
                     preview_converted = gr.Audio(
                         label="Voz convertida",
                         interactive=False,
-                        type="filepath",
                     )
                     gr.Markdown("**Resultado final:**")
                     final_output = gr.Audio(
                         label="Canción final (voz + instrumentos)",
                         interactive=False,
-                        type="filepath",
                     )
             refresh_btn.click(

         instrumental_volume=float(instrumental_volume),
     )
+    import librosa
+    # Load back the audio data to return it directly.
+    # This bypasses ZeroGPU filesystem sync issues.
+    v_data, v_sr = librosa.load(vocals_path, sr=None)
+    c_data, c_sr = librosa.load(converted_path, sr=None)
+    f_data, f_sr = librosa.load(final_path, sr=None)
+    return (v_sr, v_data), (c_sr, c_data), (f_sr, f_data)
 def train_voice_model(audio_file, model_name, progress=gr.Progress()):
                     preview_vocals = gr.Audio(
                         label="Voz original (separada)",
                         interactive=False,
                     )
                     preview_converted = gr.Audio(
                         label="Voz convertida",
                         interactive=False,
                     )
                     gr.Markdown("**Resultado final:**")
                     final_output = gr.Audio(
                         label="Canción final (voz + instrumentos)",
                         interactive=False,
                     )
             refresh_btn.click(