NLLB-200 French to Moré Translator

Model Details

Model Description

Ce modèle est un système de traduction automatique fine-tuné (ajusté) pour traduire du français (fra_Latn) vers le moré (mos_Latn). Il est basé sur l'architecture nllb-200-distilled-600M de Meta. Il a été entraîné sur un corpus de versets bibliques alignés pour permettre une traduction précise dans un contexte textuel et formel.

  • Developed by: somkietaouedraogo
  • Model type: Sequence-to-Sequence (Seq2Seq)
  • Language(s) (NLP): Français, Moré
  • License: Apache-2.0
  • Finetuned from model: facebook/nllb-200-distilled-600M

Uses

Direct Use

Ce modèle peut être utilisé pour traduire des textes du français vers le moré. Il est particulièrement efficace pour des phrases ayant une structure grammaticale proche des textes de référence (littéraire ou religieux).

Downstream Use

Il peut être intégré dans des applications de messagerie, des outils éducatifs pour l'apprentissage du moré, ou comme aide à la rédaction pour les locuteurs francophones souhaitant communiquer en moré.

Bias, Risks, and Limitations

  • Domaine spécifique : Le modèle a été entraîné sur un corpus biblique. Sa performance peut varier sur des textes traitant de sujets très modernes (technologie, jargon internet, etc.).
  • Biais : Comme tout modèle de langue, il peut refléter des biais présents dans les données d'entraînement.
  • Limitation : La traduction de noms propres ou d'expressions idiomatiques très locales peut parfois nécessiter une vérification humaine.

How to Get Started with the Model

Utilisez le code suivant pour tester le modèle :

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

chemin_modele = "somkietaouedraogo/nllb-francais-more"
tokenizer = AutoTokenizer.from_pretrained(chemin_modele, src_lang="fra_Latn", tgt_lang="mos_Latn")
model = AutoModelForSeq2SeqLM.from_pretrained(chemin_modele)

def traduire(texte):
    inputs = tokenizer(texte, return_tensors="pt")
    translated_tokens = model.generate(
        **inputs, 
        forced_bos_token_id=tokenizer.convert_tokens_to_ids("mos_Latn"), 
        max_length=128
    )
    return tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]

print(traduire("Je suis amoureux de Dieu"))

Training Details

Training Data

Le modèle a été entraîné sur 7 947 paires de phrases alignées (français / moré) issues d'un corpus biblique.

Training Procedure

  • Epochs: 5
  • Learning rate: 2e-5
  • Batch size: 8
  • Precision: fp16

Environmental Impact

  • Hardware Type: GPU (NVIDIA T4 ou similaire)
  • Time used: Environ 10-15 minutes d'entraînement.
  • Carbon Emitted: Estimaté à moins de 0.05 kg de CO2eq.

Model Card Contact

Pour toute question ou contribution sur ce modèle, vous pouvez contacter somkietaouedraogo.

email : contact@code-ai-insight.com

tel: +226 72 58 78 71


Downloads last month
34
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 1 Ask for provider support