trfms-support

by eustlb HF Staff - opened 20 days ago

base: refs/heads/main

←

from: refs/pr/4

Discussion Files changed

+149

-8

Files changed (4) hide show

README.md +12 -0
config.json +125 -8
model.safetensors +3 -0
preprocessor_config.json +9 -0

README.md CHANGED Viewed

@@ -1,5 +1,6 @@
 ---
 license: other
 ---
 # Higgs Audio Tokenizer
@@ -18,6 +19,17 @@ We introduce a new discretized audio tokenizer that runs at just **25 frames per
     <img src="./higgs_audio_tokenizer_architecture.png" alt="Architecture diagram of the Higgs Audio Tokenizer" width=900>
 </p>
 ## Basics of Audio Quantization
 An audio signal sampled at \\(f_s\\) Hz is first split into frames by an encoder with hop size \\(M\\), giving a frame rate \\(f_r = \frac{f_s}{M}\quad\text{(frames/s)}.\\)

 ---
 license: other
+library_name: transformers
 ---
 # Higgs Audio Tokenizer
     <img src="./higgs_audio_tokenizer_architecture.png" alt="Architecture diagram of the Higgs Audio Tokenizer" width=900>
 </p>
+## Usage
+### Transformers 🤗
+Higgs Audio V2 Tokenizer is supported natively in `transformers`: [see the doc](https://huggingface.co/docs/transformers/en/model_doc/higgs_audio_v2_tokenizer).
+```bash
+uv pip install "transformers>=5.3.0"
+```
 ## Basics of Audio Quantization
 An audio signal sampled at \\(f_s\\) Hz is first split into frames by an encoder with hop size \\(M\\), giving a frame rate \\(f_r = \frac{f_s}{M}\quad\text{(frames/s)}.\\)

config.json CHANGED Viewed

@@ -1,12 +1,129 @@
 {
-  "n_filters": 32,
-  "D": 256,
   "codebook_dim": 64,
-  "target_bandwidths": [0.5, 1, 1.5, 2, 4],
-  "ratios": [8, 5, 4, 2, 3],
   "sample_rate": 24000,
-  "bins": 1024,
-  "n_q": 8,
-  "semantic_techer": "hubert_base_general"
 }

 {
+  "acoustic_model_config": {
+    "codebook_dim": 8,
+    "codebook_loss_weight": 1.0,
+    "codebook_size": 1024,
+    "commitment_loss_weight": 0.25,
+    "decoder_hidden_size": 1024,
+    "downsampling_ratios": [
+      8,
+      5,
+      4,
+      2,
+      3
+    ],
+    "encoder_hidden_size": 64,
+    "hidden_size": 256,
+    "hop_length": 960,
+    "model_type": "dac",
+    "n_codebooks": 9,
+    "quantizer_dropout": 0,
+    "sampling_rate": 16000,
+    "upsampling_ratios": [
+      8,
+      5,
+      4,
+      2,
+      3
+    ]
+  },
+  "architectures": [
+    "HiggsAudioV2TokenizerModel"
+  ],
+  "block_dilations": [
+    1,
+    1
+  ],
+  "channel_ratios": [
+    1,
+    1
+  ],
   "codebook_dim": 64,
+  "codebook_size": 1024,
+  "downsample_factor": 320,
+  "dtype": "float32",
+  "initializer_range": 0.02,
+  "kernel_size": 3,
+  "model_type": "higgs_audio_v2_tokenizer",
   "sample_rate": 24000,
+  "semantic_model_config": {
+    "activation_dropout": 0.1,
+    "apply_spec_augment": true,
+    "attention_dropout": 0.1,
+    "bos_token_id": 1,
+    "classifier_proj_size": 256,
+    "conv_bias": false,
+    "conv_dim": [
+      512,
+      512,
+      512,
+      512,
+      512,
+      512,
+      512
+    ],
+    "conv_kernel": [
+      10,
+      3,
+      3,
+      3,
+      3,
+      2,
+      2
+    ],
+    "conv_pos_batch_norm": false,
+    "conv_stride": [
+      5,
+      2,
+      2,
+      2,
+      2,
+      2,
+      2
+    ],
+    "ctc_loss_reduction": "sum",
+    "ctc_zero_infinity": false,
+    "do_stable_layer_norm": false,
+    "eos_token_id": 2,
+    "feat_extract_activation": "gelu",
+    "feat_extract_norm": "group",
+    "feat_proj_dropout": 0.0,
+    "feat_proj_layer_norm": true,
+    "final_dropout": 0.1,
+    "hidden_act": "gelu",
+    "hidden_dropout": 0.1,
+    "hidden_size": 768,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "layer_norm_eps": 1e-05,
+    "layerdrop": 0.1,
+    "mask_feature_length": 10,
+    "mask_feature_min_masks": 0,
+    "mask_feature_prob": 0.0,
+    "mask_time_length": 10,
+    "mask_time_min_masks": 2,
+    "mask_time_prob": 0.0,
+    "model_type": "hubert",
+    "num_attention_heads": 12,
+    "num_conv_pos_embedding_groups": 16,
+    "num_conv_pos_embeddings": 128,
+    "num_feat_extract_layers": 7,
+    "num_hidden_layers": 12,
+    "pad_token_id": 0,
+    "use_weighted_layer_sum": false,
+    "vocab_size": 32
+  },
+  "semantic_sample_rate": 16000,
+  "strides": [
+    1,
+    1
+  ],
+  "target_bandwidths": [
+    0.5,
+    1,
+    1.5,
+    2
+  ],
+  "transformers_version": "5.3.0.dev0",
+  "unit_kernel_size": 3
 }

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c896b019ec1a4fc950218e32797c30870d36ce1cd76f45b35de46495764a204
+size 11542613696

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "feature_extractor_type": "DacFeatureExtractor",
+  "feature_size": 1,
+  "hop_length": 960,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 24000
+}