Spaces:

ResembleAI
/

Dramabox

Running on Zero

Manmay Nakhashi commited on 26 days ago

Commit

433ac9f

1 Parent(s): 5cc51a5

Add Reference duration slider (3–30s, default 10s)

Exposes how many seconds of the uploaded voice reference the model
conditions on. Wired through on_generate -> TTSServer.generate_to_file
(ref_duration kwarg already existed). Examples updated with the new
default value.

Files changed (1) hide show

app.py +11 -6

app.py CHANGED Viewed

@@ -108,7 +108,7 @@ EXAMPLES: list[tuple[str, str, str]] = [
 @spaces.GPU(duration=120)
 def on_generate(prompt: str, audio_ref, cfg: float, stg: float, dur_mult: float,
-                gen_dur: float, seed: int):
     if not prompt or not prompt.strip():
         raise gr.Error("Prompt is empty.")
     t0 = time.time()
@@ -121,6 +121,7 @@ def on_generate(prompt: str, audio_ref, cfg: float, stg: float, dur_mult: float,
         cfg_scale=cfg, stg_scale=stg,
         duration_multiplier=dur_mult, seed=int(seed),
         gen_duration=float(gen_dur),
     )
     elapsed = time.time() - t0
     logging.info(f"Generated in {elapsed:.2f}s -> {output}")
@@ -166,6 +167,9 @@ with gr.Blocks(
                 gen_dur_slider = gr.Slider(0.0, 60.0, value=0.0, step=1.0,
                                            label="Target duration (s) — 0 = auto from prompt; "
                                                  "set higher (≥20s) for long-form music or scenes")
                 seed_input = gr.Number(value=42, label="Seed", precision=0)
             audio_out = gr.Audio(label="Generated audio", type="filepath")
             with gr.Accordion("Prompt writing guide", open=False):
@@ -183,7 +187,7 @@ with gr.Blocks(
     gen_btn.click(
         on_generate,
         inputs=[prompt_box, audio_ref, cfg_slider, stg_slider,
-                dur_slider, gen_dur_slider, seed_input],
         outputs=[audio_out],
     )
@@ -192,16 +196,17 @@ with gr.Blocks(
     gr.Examples(
         label="🎬 Click any row to generate a sample",
         examples=[
-            [name, prompt, voice_path, 2.5, 1.5, 1.1, 0.0, 42]
             for name, voice_path, prompt in EXAMPLES
         ],
         example_labels=[name for name, _, _ in EXAMPLES],
         inputs=[gr.Textbox(visible=False, label="Scene"),
                 prompt_box, audio_ref,
-                cfg_slider, stg_slider, dur_slider, gen_dur_slider, seed_input],
         outputs=[audio_out],
-        fn=lambda _name, prompt, ref, cfg, stg, dur, gen_dur, seed: on_generate(
-            prompt, ref, cfg, stg, dur, gen_dur, seed),
         cache_examples=False,
         run_on_click=True,
         examples_per_page=20,

 @spaces.GPU(duration=120)
 def on_generate(prompt: str, audio_ref, cfg: float, stg: float, dur_mult: float,
+                gen_dur: float, ref_dur: float, seed: int):
     if not prompt or not prompt.strip():
         raise gr.Error("Prompt is empty.")
     t0 = time.time()
         cfg_scale=cfg, stg_scale=stg,
         duration_multiplier=dur_mult, seed=int(seed),
         gen_duration=float(gen_dur),
+        ref_duration=float(ref_dur),
     )
     elapsed = time.time() - t0
     logging.info(f"Generated in {elapsed:.2f}s -> {output}")
                 gen_dur_slider = gr.Slider(0.0, 60.0, value=0.0, step=1.0,
                                            label="Target duration (s) — 0 = auto from prompt; "
                                                  "set higher (≥20s) for long-form music or scenes")
+                ref_dur_slider = gr.Slider(3.0, 30.0, value=10.0, step=1.0,
+                                           label="Reference duration (s) — how many seconds of the "
+                                                 "uploaded voice reference the model conditions on")
                 seed_input = gr.Number(value=42, label="Seed", precision=0)
             audio_out = gr.Audio(label="Generated audio", type="filepath")
             with gr.Accordion("Prompt writing guide", open=False):
     gen_btn.click(
         on_generate,
         inputs=[prompt_box, audio_ref, cfg_slider, stg_slider,
+                dur_slider, gen_dur_slider, ref_dur_slider, seed_input],
         outputs=[audio_out],
     )
     gr.Examples(
         label="🎬 Click any row to generate a sample",
         examples=[
+            [name, prompt, voice_path, 2.5, 1.5, 1.1, 0.0, 10.0, 42]
             for name, voice_path, prompt in EXAMPLES
         ],
         example_labels=[name for name, _, _ in EXAMPLES],
         inputs=[gr.Textbox(visible=False, label="Scene"),
                 prompt_box, audio_ref,
+                cfg_slider, stg_slider, dur_slider, gen_dur_slider,
+                ref_dur_slider, seed_input],
         outputs=[audio_out],
+        fn=lambda _name, prompt, ref, cfg, stg, dur, gen_dur, ref_dur, seed: on_generate(
+            prompt, ref, cfg, stg, dur, gen_dur, ref_dur, seed),
         cache_examples=False,
         run_on_click=True,
         examples_per_page=20,