GigaAM v3 e2e CTC — MLX

MLX port of GigaAM-v3 for fast Russian speech recognition on Apple Silicon. 180x realtime on M2 Max.

Usage

pip install gigaam-mlx

from gigaam_mlx import load_model, transcribe

model, tokenizer = load_model()  # downloads weights automatically
text = transcribe(model, tokenizer, "recording.wav")
print(text)

Or via CLI:

gigaam-mlx recording.wav

Performance

MacBook Pro M2 Max, 20-second chunk:

Backend	Time	Realtime
MLX CTC (this)	0.11s	180x
PyTorch MPS RNNT	0.76s	26x
ONNX CPU CTC	1.66s	12x

Model

Architecture: Conformer (16 layers, 768d, 16 heads, RoPE) + CTC
Parameters: 220M
Vocabulary: 257 tokens (SentencePiece)
Features: Punctuation, text normalization, Russian + English code-switching

Model tree for aystream/GigaAM-v3-e2e-ctc-mlx

Base model

ai-sage/GigaAM-v3

Finetuned

(2)

this model

Paper for aystream/GigaAM-v3-e2e-ctc-mlx

GigaAM: Efficient Self-Supervised Learner for Speech Recognition

Paper • 2506.01192 • Published Jun 1, 2025

Evaluation results

RTF (M2 Max)
self-reported

0.006

aystream
/

GigaAM-v3-e2e-ctc-mlx

GigaAM v3 e2e CTC — MLX

Usage

Performance

Model

Links

Model tree for aystream/GigaAM-v3-e2e-ctc-mlx

Paper for aystream/GigaAM-v3-e2e-ctc-mlx

GigaAM: Efficient Self-Supervised Learner for Speech Recognition

Evaluation results