NLLB-200 French to Moré Translator
Model Details
Model Description
Ce modèle est un système de traduction automatique fine-tuné (ajusté) pour traduire du français (fra_Latn) vers le moré (mos_Latn). Il est basé sur l'architecture nllb-200-distilled-600M de Meta. Il a été entraîné sur un corpus de versets bibliques alignés pour permettre une traduction précise dans un contexte textuel et formel.
- Developed by: somkietaouedraogo
- Model type: Sequence-to-Sequence (Seq2Seq)
- Language(s) (NLP): Français, Moré
- License: Apache-2.0
- Finetuned from model: facebook/nllb-200-distilled-600M
Uses
Direct Use
Ce modèle peut être utilisé pour traduire des textes du français vers le moré. Il est particulièrement efficace pour des phrases ayant une structure grammaticale proche des textes de référence (littéraire ou religieux).
Downstream Use
Il peut être intégré dans des applications de messagerie, des outils éducatifs pour l'apprentissage du moré, ou comme aide à la rédaction pour les locuteurs francophones souhaitant communiquer en moré.
Bias, Risks, and Limitations
- Domaine spécifique : Le modèle a été entraîné sur un corpus biblique. Sa performance peut varier sur des textes traitant de sujets très modernes (technologie, jargon internet, etc.).
- Biais : Comme tout modèle de langue, il peut refléter des biais présents dans les données d'entraînement.
- Limitation : La traduction de noms propres ou d'expressions idiomatiques très locales peut parfois nécessiter une vérification humaine.
How to Get Started with the Model
Utilisez le code suivant pour tester le modèle :
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
chemin_modele = "somkietaouedraogo/nllb-francais-more"
tokenizer = AutoTokenizer.from_pretrained(chemin_modele, src_lang="fra_Latn", tgt_lang="mos_Latn")
model = AutoModelForSeq2SeqLM.from_pretrained(chemin_modele)
def traduire(texte):
inputs = tokenizer(texte, return_tensors="pt")
translated_tokens = model.generate(
**inputs,
forced_bos_token_id=tokenizer.convert_tokens_to_ids("mos_Latn"),
max_length=128
)
return tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
print(traduire("Je suis amoureux de Dieu"))
Training Details
Training Data
Le modèle a été entraîné sur 7 947 paires de phrases alignées (français / moré) issues d'un corpus biblique.
Training Procedure
- Epochs: 5
- Learning rate: 2e-5
- Batch size: 8
- Precision: fp16
Environmental Impact
- Hardware Type: GPU (NVIDIA T4 ou similaire)
- Time used: Environ 10-15 minutes d'entraînement.
- Carbon Emitted: Estimaté à moins de 0.05 kg de CO2eq.
Model Card Contact
Pour toute question ou contribution sur ce modèle, vous pouvez contacter somkietaouedraogo.
email : contact@code-ai-insight.com
tel: +226 72 58 78 71
- Downloads last month
- 34