VibeVoice Egyptian Arabic — cfg_scale=5.0

Fine-tuned VibeVoice on Egyptian Arabic dialect (checkpoint-9160).

cfg_scale=5.0

Strongest voice cloning fidelity. More compact generation.

Higher guidance = shorter output; verify audio covers all script lines.

Repo contents

File	Description
`model.safetensors`	Merged model weights (5.1 GB, single shard)
`config.json`	Model architecture config
`tokenizer.json` + friends	Qwen2.5 tokenizer files
`preprocessor_config.json`	Audio processor settings
`voices/egyptian_male.wav`	Reference voice for male speaker
`voices/egyptian_female.wav`	Reference voice for female speaker
`samples/demo_cfg5.0.wav`	Sample output at this cfg_scale

Backend usage

from huggingface_hub import hf_hub_download, snapshot_download
snapshot_download("MohammedEhab20/vibe-voice-egyptian-cfg50", local_dir="./model")
male_voice   = "./model/voices/egyptian_male.wav"
female_voice = "./model/voices/egyptian_female.wav"
# Run inference:
# python inference_from_file.py --model_path ./model --cfg_scale 5.0 ...

Downloads last month: 4

Safetensors

Model size

3B params

Tensor type

F16