Upload WeNet Mongolian Conformer (model + TensorBoard + card)

Browse files

Files changed (7) hide show

README.md +145 -0
avg_10.pt +3 -0
global_cmvn +1 -0
lang_char.txt +38 -0
runs/events.out.tfevents.1776340362.rookie-B650M-H-M-2 +3 -0
train.log +0 -0
train.yaml +104 -0

README.md ADDED Viewed

	@@ -0,0 +1,145 @@

+---
+language:
+- mn
+license: apache-2.0
+tags:
+- automatic-speech-recognition
+- speech
+- wenet
+- conformer
+- mongolian
+- mn
+datasets:
+- bilguun/fleurs-mn
+metrics:
+- cer
+- wer
+model-index:
+- name: wenet-mn-conformer
+  results:
+  - task:
+      type: automatic-speech-recognition
+      name: Automatic Speech Recognition
+    dataset:
+      type: bilguun/fleurs-mn
+      name: FLEURS Mongolian
+    metrics:
+      - type: loss
+        value: 374.93737238103694
+        name: cv_loss (best epoch)
+      - type: accuracy
+        value: 0.25305086622635525
+        name: attention accuracy (best epoch)
+      - type: cer
+        value: 0.8696
+        name: CER on 3-example dev set
+      - type: wer
+        value: 1.0000
+        name: WER on 3-example dev set
+---
+# WeNet Conformer — Mongolian (Монгол хэл)
+WeNet U2++ Conformer model trained on [`bilguun/fleurs-mn`](https://huggingface.co/datasets/bilguun/fleurs-mn)
+for Mongolian (Cyrillic) automatic speech recognition.
+## Model architecture
+- **Encoder**: Conformer, 12 blocks × 256 dim, 4 heads
+- **Decoder**: Bi-transformer (U2++), 3 L→R + 3 R→L blocks
+- **Tokenizer**: char-level (38 Cyrillic tokens)
+- **Loss**: CTC + Attention hybrid (ctc_weight=0.3, reverse_weight=0.3)
+## Training data
+- **Dataset**: `bilguun/fleurs-mn`
+- **Train**: 3,074 utterances · ~11.5 h
+- **Test**: 949 utterances · ~2.85 h
+- **Audio**: 16 kHz mono
+## Training results
+- Epochs run: **100**
+- Final train loss: **N/A**
+- Final epoch: **99** — cv_loss **459.21**, acc **0.4066**
+- Best epoch: **21** — cv_loss **374.94**, acc **0.2531**
+- TensorBoard: this repo has a **TensorBoard** tab (see `runs/`).
+### Test-set metrics (attention rescoring, 3 held-out utterances)
+- **Average CER: 86.96%**
+- **Average WER: 100.00%**
+<details><summary><b>Example 1 — Education_035_block_002.wav</b> &nbsp;CER 86.00% &nbsp;·&nbsp; WER 100.00%</summary>
+**REF:** Байна уу? Чи мимоса уумаар байна уу? Би Холландех рүү явах гэж байна. Чамайг явах байхаа гэж бодоод. Намайг чамтай хамт мимоса ууна гэж бодоо юу? Яагаад болохгүй гэж? Бид хоёр нэг нэгэндээ
+**HYP:** АААНААНАААААААНБАЙДЭЭ
+</details>
+<details><summary><b>Example 2 — part13_003_block_011.wav</b> &nbsp;CER 87.72% &nbsp;·&nbsp; WER 100.00%</summary>
+**REF:** Боловсролынх нь стандарт аягүй олон юмнаас нөлөөлдөг байх аа. Тэгээд нөгөө бакалавраа аваад гараад ирчихсэн залуучуудыг ажлын байран дээр нь гаргаж ирэнгүүтээ дахиад бид нар өөрсдөө дахиж сургах ёстой.
+**HYP:** АНАААААНАНААНАНААБАЙЖЭЭ
+</details>
+<details><summary><b>Example 3 — part16_006_block_055.wav</b> &nbsp;CER 87.15% &nbsp;·&nbsp; WER 100.00%</summary>
+**REF:** Тийм ер нь бол бүгдийг нь одоо мэдэхгүй зарим нэг муу багш байгаа л байх л даа. Тэгэхдээ миний хувьд бол, харахад бол манайхан бол ер нь бол аягүй сайн сайн тус гаднаас одоо бүгдээрээ л жигд болчихсон за юу. Одоо энэ тэр гадн
+**HYP:** АНААНАААНАААНАНАНАНБАЙДЭГ
+</details>
+### Train + CV loss per 10 epochs
+| Epoch | Step | train_loss | cv_loss | cv_loss_ctc | cv_loss_att | acc |
+|-------|------|------------|---------|-------------|-------------|-----|
+| 0 | 132 | — | 493.04 | 582.98 | 454.49 | 0.0854 |
+| 10 | 1496 | — | 379.40 | 487.34 | 333.14 | 0.2473 |
+| 20 | 2861 | — | 396.92 | 551.41 | 330.71 | 0.2412 |
+| 30 | 4223 | — | 516.59 | 960.25 | 326.45 | 0.2599 |
+| 40 | 5590 | — | 490.08 | 891.41 | 318.09 | 0.2764 |
+| 50 | 6954 | — | 471.18 | 866.97 | 301.55 | 0.3215 |
+| 60 | 8321 | — | 473.65 | 923.02 | 281.05 | 0.3756 |
+| 70 | 9679 | — | 465.65 | 912.63 | 274.08 | 0.3659 |
+| 80 | 11044 | — | 463.98 | 924.37 | 266.67 | 0.4058 |
+| 90 | 12410 | — | 431.85 | 819.03 | 265.92 | 0.3977 |
+| 99 | 13640 | — | 459.21 | 901.15 | 269.80 | 0.4066 |
+## Files
+| File | Description |
+|------|-------------|
+| `avg_10.pt`   | Best model (averaged top-10 checkpoints by default) |
+| `train.yaml`     | Training config |
+| `lang_char.txt`  | Character vocabulary (38 tokens) |
+| `global_cmvn`    | Feature normalization stats |
+| `train.log`      | Full training log |
+| `runs/`          | TensorBoard events |
+## Usage (WeNet)
+```bash
+git clone https://github.com/wenet-e2e/wenet.git
+cd wenet && pip install -e .
+# Download model files from this repo, then:
+python wenet/bin/recognize.py \
+    --config train.yaml \
+    --checkpoint avg_10.pt \
+    --dict lang_char.txt \
+    --test_data your_data.list \
+    --mode attention_rescoring \
+    --beam_size 10 \
+    --result_file result.txt
+```
+## Limitations
+- Trained on ~11.5 h of FLEURS Mongolian — small-scale; WER/CER will be relatively high on out-of-domain speech.
+- Only Cyrillic script supported; Latin characters and digits are stripped.
+- No language model rescoring applied.

avg_10.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:103f9b09c32162b6108704f527c13d702381183c488e1987ecc573bbae8edc79
+size 187539247

global_cmvn ADDED Viewed

	@@ -0,0 +1 @@

+ {"mean_stat": [30923196.0, 32310116.0, 33415622.0, 36200568.0, 39474700.0, 41749368.0, 43107484.0, 43317052.0, 42227068.0, 40894508.0, 40888224.0, 41130580.0, 41935724.0, 42354480.0, 42387236.0, 42464544.0, 42346160.0, 42065056.0, 42460512.0, 41660492.0, 41050496.0, 41790484.0, 41091932.0, 41789372.0, 41694396.0, 42316184.0, 41963620.0, 42226152.0, 42113788.0, 42193772.0, 42357292.0, 42474108.0, 42636296.0, 42883404.0, 43228372.0, 43734832.0, 44355620.0, 44827140.0, 45197184.0, 45085852.0, 45590160.0, 45427712.0, 45821668.0, 45975316.0, 46224472.0, 46576584.0, 46857332.0, 47089112.0, 47371628.0, 47773048.0, 48137372.0, 48524612.0, 48760872.0, 48963484.0, 48938604.0, 49007124.0, 49286644.0, 49728124.0, 50140392.0, 50443820.0, 50951804.0, 51405272.0, 51815436.0, 52077764.0, 52385828.0, 52704224.0, 52932388.0, 53166064.0, 53354288.0, 53492524.0, 53507516.0, 53761996.0, 54232848.0, 54764608.0, 55353676.0, 55914684.0, 56588484.0, 57247388.0, 56693372.0, 50433548.0], "var_stat": [313056032.0, 340205280.0, 364214336.0, 406206496.0, 468360768.0, 516976000.0, 552321984.0, 564596608.0, 541072896.0, 505031264.0, 499250688.0, 503617376.0, 521025728.0, 531959200.0, 533065024.0, 532101952.0, 527271520.0, 519979328.0, 526128256.0, 508630976.0, 495443968.0, 509043648.0, 493818752.0, 505652672.0, 501634208.0, 512354144.0, 503553984.0, 508477504.0, 505764000.0, 506537952.0, 509665600.0, 512829504.0, 517067936.0, 521382656.0, 527926752.0, 538669568.0, 552602432.0, 562935104.0, 570335488.0, 567686208.0, 579041984.0, 575642880.0, 584228160.0, 587810240.0, 593443200.0, 600999168.0, 607060800.0, 612182400.0, 618473408.0, 627449280.0, 635429184.0, 644423232.0, 650121472.0, 655343872.0, 655346240.0, 656626304.0, 662780416.0, 672942976.0, 682552576.0, 690286528.0, 703312192.0, 714963584.0, 725732288.0, 732673792.0, 740466176.0, 748028736.0, 752881024.0, 758034624.0, 762378560.0, 766122496.0, 766731200.0, 773276608.0, 786042240.0, 799467520.0, 813984384.0, 828134976.0, 845798080.0, 863950976.0, 848231104.0, 678710080.0], "frame_num": 4146368}

lang_char.txt ADDED Viewed

	@@ -0,0 +1,38 @@

+<blank> 0
+<unk> 1
+А 2
+Н 3
+Э 4
+Г 5
+Л 6
+Р 7
+О 8
+Д 9
+И 10
+Й 11
+Х 12
+У 13
+Т 14
+С 15
+Б 16
+Ү 17
+Ө 18
+М 19
+Ж 20
+В 21
+Ы 22
+З 23
+Ч 24
+Ь 25
+Е 26
+Ц 27
+Ш 28
+К 29
+Я 30
+П 31
+Ю 32
+Ф 33
+Ё 34
+Ъ 35
+Щ 36
+<sos/eos> 37

runs/events.out.tfevents.1776340362.rookie-B650M-H-M-2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a84c54edf810ab421b310b2138c0c0c5548d94667a6619141e5b3b164dd62e7
+size 4388750

train.log ADDED Viewed

The diff for this file is too large to render. See raw diff

train.yaml ADDED Viewed

	@@ -0,0 +1,104 @@

+accum_grad: 1
+cmvn: global_cmvn
+cmvn_conf:
+  cmvn_file: data/train/global_cmvn
+  is_json_cmvn: true
+ctc: ctc
+ctc_conf:
+  ctc_blank_id: 0
+dataset: asr
+dataset_conf:
+  batch_conf:
+    batch_size: 16
+    batch_type: dynamic
+    max_frames_in_batch: 12000
+  fbank_conf:
+    dither: 0.1
+    frame_length: 25
+    frame_shift: 10
+    num_mel_bins: 80
+  filter_conf:
+    max_length: 40960
+    min_length: 1600
+    token_max_length: 200
+    token_min_length: 1
+  resample_conf:
+    resample_rate: 16000
+  shuffle: true
+  shuffle_conf:
+    shuffle_size: 1500
+  sort: true
+  sort_conf:
+    sort_size: 500
+  spec_aug: true
+  spec_aug_conf:
+    max_f: 10
+    max_t: 50
+    num_f_mask: 2
+    num_t_mask: 2
+  speed_perturb: true
+decoder: bitransformer
+decoder_conf:
+  attention_heads: 4
+  dropout_rate: 0.1
+  linear_units: 2048
+  num_blocks: 3
+  positional_dropout_rate: 0.1
+  r_num_blocks: 3
+  self_attention_dropout_rate: 0.0
+  src_attention_dropout_rate: 0.0
+dtype: fp32
+encoder: conformer
+encoder_conf:
+  activation_type: swish
+  attention_dropout_rate: 0.0
+  attention_heads: 4
+  causal: false
+  cnn_module_kernel: 15
+  dropout_rate: 0.1
+  input_layer: conv2d
+  linear_units: 2048
+  normalize_before: true
+  num_blocks: 12
+  output_size: 256
+  pos_enc_layer_type: rel_pos
+  positional_dropout_rate: 0.1
+  selfattention_layer_type: rel_selfattn
+  use_cnn_module: true
+  use_dynamic_chunk: true
+  use_dynamic_left_chunk: false
+grad_clip: 5.0
+input_dim: 80
+log_interval: 100
+max_epoch: 100
+model: asr_model
+model_conf:
+  ctc_weight: 0.3
+  length_normalized_loss: false
+  lsm_weight: 0.1
+  reverse_weight: 0.3
+model_dir: exp/conformer_mongolian
+optim: adam
+optim_conf:
+  lr: 0.002
+output_dim: 38
+save_states: model_only
+scheduler: warmuplr
+scheduler_conf:
+  warmup_steps: 25000
+tokenizer: char
+tokenizer_conf:
+  bpe_path: null
+  is_multilingual: false
+  non_lang_syms_path: null
+  num_languages: 1
+  special_tokens:
+    <blank>: 0
+    <eos>: 37
+    <sos>: 37
+    <unk>: 1
+  split_with_space: false
+  symbol_table_path: data/dict/lang_char.txt
+train_engine: torch_ddp
+use_amp: false
+vocab_size: 38