Add zero-shot audio samples

Browse files

Files changed (14) hide show

.gitattributes +1 -0
README.md +11 -0
audio_samples/alphonse_reference.wav +3 -0
audio_samples/alphonse_supertonic3.wav +3 -0
audio_samples/keld_reference.wav +3 -0
audio_samples/keld_supertonic3.wav +3 -0
audio_samples/luna_reference.wav +3 -0
audio_samples/luna_supertonic3.wav +3 -0
audio_samples/moka_reference.wav +3 -0
audio_samples/moka_supertonic3.wav +3 -0
audio_samples/nora_reference.wav +3 -0
audio_samples/nora_supertonic3.wav +3 -0
audio_samples/watson_reference.wav +3 -0
audio_samples/watson_supertonic3.wav +3 -0

.gitattributes CHANGED Viewed

@@ -1,2 +1,3 @@
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.png filter=lfs diff=lfs merge=lfs -text

 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.png filter=lfs diff=lfs merge=lfs -text
+*.wav filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -89,6 +89,17 @@ print(f"Generated {duration:.2f}s of audio")
 The open-weight package includes fixed preset voice styles for immediate local inference. If you want to hear how Supertonic 3 performs with zero-shot custom voice styles, visit the [Audio Sample Demo](https://supertonic3.github.io/) to compare reference audio and generated speech across several use cases. To create your own Supertonic 3 voice-style JSON from reference audio, use [Supertonic Voice Builder](https://supertonic.supertone.ai/voice-builder); purchased Voice Builder styles include downloadable embeddings for both Supertonic 2 and Supertonic 3.
 ## Performance Highlights
 Supertonic 3 is designed for practical on-device inference: compact enough to run locally, while staying competitive with much larger open TTS systems.

 The open-weight package includes fixed preset voice styles for immediate local inference. If you want to hear how Supertonic 3 performs with zero-shot custom voice styles, visit the [Audio Sample Demo](https://supertonic3.github.io/) to compare reference audio and generated speech across several use cases. To create your own Supertonic 3 voice-style JSON from reference audio, use [Supertonic Voice Builder](https://supertonic.supertone.ai/voice-builder); purchased Voice Builder styles include downloadable embeddings for both Supertonic 2 and Supertonic 3.
+Here are a few reference/generated pairs from the audio sample demo:
+| Use case | Text | Reference voice | Supertonic 3 output |
+|----------|------|-----------------|---------------------|
+| Call center, English | Good morning, thank you for calling. How can I help you today? | <audio controls preload="none" src="audio_samples/nora_reference.wav"></audio> | <audio controls preload="none" src="audio_samples/nora_supertonic3.wav"></audio> |
+| Character voice, Japanese | ふふっ、退屈してたところなの。ちょうどいい遊び相手、見つけたかも♪ | <audio controls preload="none" src="audio_samples/moka_reference.wav"></audio> | <audio controls preload="none" src="audio_samples/moka_supertonic3.wav"></audio> |
+| Elder character voice, Korean | 혼자 떠나기엔 길이 험하구나. 이 낡은 검을 가져가거라. 언젠가 어둠이 네 이름을 부르더라도, 부디 빛을 잊지 말거라. | <audio controls preload="none" src="audio_samples/alphonse_reference.wav"></audio> | <audio controls preload="none" src="audio_samples/alphonse_supertonic3.wav"></audio> |
+| Audiobook, English | I was not afraid of silence. I had lived with it long enough to know that, sometimes, it speaks more honestly than people do. | <audio controls preload="none" src="audio_samples/luna_reference.wav"></audio> | <audio controls preload="none" src="audio_samples/luna_supertonic3.wav"></audio> |
+| Audiobook, Japanese | その朝、ロンドンの霧はいつになく低く垂れこめていた。私はただの訪問者だと思っていたが、ホームズの目はすでに別の結論にたどり着いていた。 | <audio controls preload="none" src="audio_samples/watson_reference.wav"></audio> | <audio controls preload="none" src="audio_samples/watson_supertonic3.wav"></audio> |
+| News, English | Here’s a story worth paying attention to. Supertone has released Supertonic 3, its on-device TTS model. This version expands support to thirty-one languages and improves reading stability. | <audio controls preload="none" src="audio_samples/keld_reference.wav"></audio> | <audio controls preload="none" src="audio_samples/keld_supertonic3.wav"></audio> |
 ## Performance Highlights
 Supertonic 3 is designed for practical on-device inference: compact enough to run locally, while staying competitive with much larger open TTS systems.

audio_samples/alphonse_reference.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09e613442124ee0cb31146431bbe0b3acd727569a55fc0ae4b4082b5de27c9f3
+size 1152044

audio_samples/alphonse_supertonic3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3dacbfa5695d6416fb46a3ea72e202e16a467a4cb5ead9425073ef83596811c
+size 970796

audio_samples/keld_reference.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d7f3c2b15ee6ebafe88307658bf0787d3ca19f6347fd9e936e7bff786d1f70a
+size 1152044

audio_samples/keld_supertonic3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:818c2b25bbf3e568ae8d4aeea5441605ed3e124ab28d746928972066902b35d9
+size 1148972

audio_samples/luna_reference.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fcec63c22ad76711ec9835a6ca21cb84227045e3aad808f841bcbec455a9470
+size 1152044

audio_samples/luna_supertonic3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34527bf7ed968ebc5024f985d48ccf06c5c4418fb2d7fc7e3fb7a873e367c273
+size 712748

audio_samples/moka_reference.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad50e1f13c18aa6af2e0f518714675c03ed98f0e85653a642527f56c2d181a56
+size 480044

audio_samples/moka_supertonic3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bec7d6a5261240935d8436f3ada17aa50774878e8e6ad1696d131e4ec4ecd5f3
+size 479276

audio_samples/nora_reference.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a59576e7ffe84093439924f14d7070fb8174f8306c27049c00e63d747434a772
+size 264644

audio_samples/nora_supertonic3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d11415a428949df69191361b9dc5f567aaf6eccd89c13013c2fbb381b353321
+size 374828

audio_samples/watson_reference.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5449908651219298eab47a32a04b96291baceea00e772ea9cb16853a93127c30
+size 2304044

audio_samples/watson_supertonic3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8ffb0051f00e3f6476694604a3d21f6e87b3570b9b73fc2fdb9560c9e6f1c67
+size 1019948