GigaAM v3 e2e RNNT — MLX

MLX port of GigaAM-v3 RNNT variant for Apple Silicon. Higher quality than CTC, ~77x realtime on M2 Max.

Usage

pip install git+https://github.com/aystream/gigaam-mlx.git

from gigaam_mlx import load_model, transcribe

model, tokenizer = load_model("rnnt")  # downloads automatically
text = transcribe(model, tokenizer, "recording.wav")

Or via CLI:

gigaam-mlx recording.wav --model-type rnnt

CTC vs RNNT

Variant	Speed (20s chunk)	Quality	Full 18-min video
CTC	0.06s (~330x)	Good	21.5s
RNNT (this)	0.26s (~77x)	Better	25.0s

Model tree for VoiceScribe/gigaam-v3-e2e-rnnt-mlx

Base model

ai-sage/GigaAM-v3

Finetuned

(7)

this model

Paper for VoiceScribe/gigaam-v3-e2e-rnnt-mlx

GigaAM: Efficient Self-Supervised Learner for Speech Recognition

Paper • 2506.01192 • Published Jun 1, 2025

VoiceScribe
/

gigaam-v3-e2e-rnnt-mlx

GigaAM v3 e2e RNNT — MLX

Usage

CTC vs RNNT

Links

Model tree for VoiceScribe/gigaam-v3-e2e-rnnt-mlx

Paper for VoiceScribe/gigaam-v3-e2e-rnnt-mlx

GigaAM: Efficient Self-Supervised Learner for Speech Recognition