Wav2Vec2 Large XLSR 53 Arabic Quran (Fine-Tuned)

Ce modèle est une version fine-tunée de jonatasgrosman/wav2vec2-large-xlsr-53-arabic sur le dataset Quran Ayah Corpus (Rabah2026).

Il est spécialisé pour la reconnaissance vocale du Coran (Tajweed & Murattal) et supporte l'écriture Uthmani (incluant les caractères spéciaux comme ٱ et ٰ).

Utilisation

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
import librosa

model_id = "VOTRE_NOM_UTILISATEUR/wav2vec2-large-xlsr-53-arabic-quran"

processor = Wav2Vec2Processor.from_pretrained(model_id)
model = Wav2Vec2ForCTC.from_pretrained(model_id)

# Chargement audio (16kHz obligatoire)
audio, sr = librosa.load("verset.mp3", sr=16000)

inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values).logits

predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]

print(transcription)

Performance

WER (Word Error Rate) : ~15% sur les réciteurs connus.
Segmentation : Précision alignée pour le découpage verset par verset.

Downloads last month: 45

Safetensors

Model size

0.3B params

Tensor type

F32