Text Retrieval
sentence-transformers
Safetensors
Amharic
xlm-roberta
sparse-encoder
sparse
splade
Generated from Trainer
dataset_size:245876
loss:SpladeLoss
loss:SparseMultipleNegativesRankingLoss
loss:FlopsLoss
Eval Results (legacy)
Instructions to use rasyosef/splade-amharic-medium with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use rasyosef/splade-amharic-medium with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("rasyosef/splade-amharic-medium") sentences = [ "The weather is lovely today.", "It's so sunny outside!", "He drove to the stadium." ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [3, 3] - Notebooks
- Google Colab
- Kaggle
| base_model: rasyosef/roberta-medium-amharic | |
| datasets: | |
| - rasyosef/Amharic-Passage-Retrieval-Dataset-V2 | |
| language: | |
| - am | |
| library_name: sentence-transformers | |
| license: mit | |
| metrics: | |
| - dot_recall@5 | |
| - dot_recall@10 | |
| - dot_ndcg@10 | |
| - dot_mrr@10 | |
| - query_active_dims | |
| - query_sparsity_ratio | |
| - corpus_active_dims | |
| - corpus_sparsity_ratio | |
| pipeline_tag: text-retrieval | |
| tags: | |
| - sentence-transformers | |
| - sparse-encoder | |
| - sparse | |
| - splade | |
| - generated_from_trainer | |
| - dataset_size:245876 | |
| - loss:SpladeLoss | |
| - loss:SparseMultipleNegativesRankingLoss | |
| - loss:FlopsLoss | |
| widget: | |
| - text: የኢንዱስትሪ ፓርኮች ፈተና እና ተስፋ | |
| - text: "ከሳምንት በፊት በመፈንቅለ መንግሥት ሥልጣናቸውን አጥተዋል፡፡ አሁን በቁም እስር ላይ ናቸው፡፡\n\nከስማቸው አወዛጋቢነት\ | |
| \ እስከ አገሪቱ ትክክለኛ የስም አጠራር ድረስ የቀድሞዋ በርማ የአሁኗ ሚየንማር፣ የቀድሞዋ የሰብአዊ መብት እመቤት፣ የአሁኗ\ | |
| \ እስረኛ የሰሞኑ የሚዲያ ዐቢይ ጉዳይ ሆነዋል፡፡ \n\nበእርግጥ የሴትዮዋ ‹ሌጋሲ› በትክክል ምንድነው? በሚለው ጉዳይ ሚዲያዎችና\ | |
| \ ተቋማት ተስማምተው አያውቁም፡፡\n\nለመሆኑ ኦን ሳን ሱ ቺ ማን ናቸው? \n\nአን ሳን ሱ ቺ አባታቸው የበርማ የነጻነት\ | |
| \ አባት የሚባሉት የጄኔራል ኦን ሳን ሴት ልጅ ናቸው፡፡\n\nታላቋ ብሪታኒያ በርማን (በአዲሱ ስሟ ሚየንማር) ለአንድ ክፍለ\ | |
| \ ዘመን ያህል ጊዜ በቅኝ ገዝታታለች፡፡ \n\nጄኔራል ኦን ሰን ለበርማ ነጻነት ተዋድቀዋል፡፡ የተገደሉትም በ1947 በተቀናቃኞቻቸው\ | |
| \ ነበር፡፡ ያን ጊዜ ሳን ሱ ቺ ገና 2 ዓመቷ ነበር፡፡ አን ሳን ሱ ቺ በሰኔ 19፣ 1945 ነበር የተወለዱት፡፡\n\nኦን\ | |
| \ ሳን ሱ ቺ በ1960ዎቹ መጀመርያ ከእናታቸው ዳው ኪን ኬዪ ጋር ወደ ሕንድ ሄዱ፡፡ እናታቸው በደልሂ የበርማ አምባሳደር ተደርገው\ | |
| \ በመሾማቸው ነበር ወደዚያ ያቀኑት፡፡\n\nሕንድ አራት ዓመት ከኖሩ በኋላ ወደ ታላቋ ብሪታኒያ በማቅናት በሥመጥሩ ኦክስፎርድ\ | |
| \ ዩኒቨርስቲ ፍልስፍናን፣ ፖለቲካንና ምጣኔ ሀብትን አጥንተዋል፡፡ \n\nአን ሳን ሱ ቺ በኦክስፎርድ ዩኒቨርስቲ ሳሉ የወደፊት\ | |
| \ ባለቤታቸው ጋር ተገናኙ፡፡ እንግሊዛዊው ባለቤታቸው ማይክል አሪስ የታሪክ ተመራማሪ ፕሮፌሰር ነበሩ፡፡ አሁን በሕይወት የሉም፡፡\n\ | |
| \nኦን ሳን ሱ ቺ ከትምህርት በኋላ በቡታን እና በጃፓን በተለያዩ ሥራዎች ላይ ተሳትፈዋል፡፡ ከዚያ በኋላ ወደ ታላቋ ብሪታኒያ\ | |
| \ በመሄድ ጎጆ መሥርተው አሌክሳንደርና ኪም የሚባሉ ልጆችን አፍርተዋል፡፡ \n\nበ1988 ከታላቋ ብሪታኒያ ወደ ሚየንማር ዋና\ | |
| \ ከተማ ያንጎን ሲመለሱ በጠና ታመው የነበሩትን እናታቸውን ለማስታመም ነበር፡፡\n\nየአጋጣሚ ነገር ሆኖ በበዚያ ወቅት በሚየንማር\ | |
| \ በርካታ የዲሞክራሲ ጥያቄዎችን ያነሱ ወጣቶች አደባባይ ወጥተው ተቃውሞ ያስነሱበት ጊዜ ነበር፡፡ \n\nተቃዋሚዎቹ ወጣቶች\ | |
| \ ብቻ ሳይሆኑ የቡድሀ መነኮሳት፣ የቢሮ ሰራተኞችና ተማሪዎችም ይገኙበት ነበር፡፡\n\nይህን ተቃውሞ ተከትሎ አን ሳን ሱ ቺ\ | |
| \ ጠቅልለው በሚየንማር መኖር ጀመሩ፡፡\n\nአን ሳን ሱቺ ከቀድሞ ባለቤታቸው ጋር በለንደን\n\nከ2 ዓመት በኋላ በ1990\ | |
| \ አዲስ በተመሠረተው የናሽናል ሊግ ፓርቲ ውስጥ ገብተው ተቃውሞ ውስጥ በቀጥታ መሳተፍ ጀመሩ፡፡ በአካባቢ ምርጫ ተወዳድረውም\ | |
| \ አሸነፉ፡፡\n\nበከፍተኛ ድምጽ የኦን ሳን ሱ ቺ በምርጫ ማሸነፍ ያስቆጣው ወታደራዊው መንግሥት ሴትዮዋን ለሚቀጥሉት 20\ | |
| \ ዓመታት በቁም እስር አስቀመጣቸው፡፡\n\nበ1991 ኦን ሳን ሱ ቺ በቁም እስር ላይ ሳሉ የኖቤል ሽልማትን አሸነፉ፡፡ ይህም\ | |
| \ ወታደራዊውን መንግሥት በይበልጥ አስቆጣ፡፡\n\nበ2010 ኦን ሳን ሱ ቺ ከቁም እስር ነጻ ተባሉ፡፡\n\nበ2012 አን ሳን\ | |
| \ ሱ ቺና ፓርቲያቸው በአካባቢ ምርጫ እንዲሳተፉ ወታደራዊው መንግሥት ፈቀደ፡፡\n\nበ2015 የብሔራዊ ሊግ ለዲሞክራሲ (NLD)\ | |
| \ ፓርቲያቸው ለመጀመርያ ጊዜ በተደረገ ከፍተኛ ፉክክር በታየበት ምርጫ አሸነፈ፡፡ \n\nአን ሳን ሱ ቺ በሚየንማር የሮሒንጋ\ | |
| \ ሙስሊሞች ላይ ወታደሩ ያደረሰውን ግፍና ጭፍጨፋ ለማውገዝ አለመፍቀዳቸው በዓለም አቀፍ የሰብአዊ መብት ተሟጋቾች ዘንድ ቁጣን\ | |
| \ ቀሰቀሰ፡፡ በመቶ ሺ የሚቆጠሩ የሮሒንጋ ሙስሊሞች ከሚየንማር ሞትን ሽሽት ወደ ባንግላዴሽ ተሰደዋል፡፡\n\nበዓለም አቀፉ\ | |
| \ ማኅበረሰብ ዘንድ ክብራቸው ዝቅ ይበል እንጂ አን ሳን ሱ ቺ በአገራቸው ቡድሀዎች ዘንድ እጅግ ተወዳጅ ናቸው፡፡\n\nአን\ | |
| \ ሳን ሱ ቺ በ2015 የተደረገውን ምርጫ አሸንፈው መንግሥት ቢመሠርቱም የአገሪቱ ፕሬዝዳንት መሆን... " | |
| - text: አዲስ አበባ ፣ ነሃሴ 23 ፣ 2012 (ኤፍ ቢ ሲ) ኢትዮጵያ፣ ሱዳን እና ግብጽ በታላቁ የህዳሴ ግድብ አሞላል እና ውሃ | |
| አለቃቀቅ ደንብ ላይ የሚያደርጉት የሶስትዮሽ ስብሰባ መስከረም ወር ላይ እንደሚቀጥል የውሃ መስኖና ኢነርጅ ሚኒስቴር አስታወቀ፡፡ሚኒስቴሩ | |
| የሶስቱ ሃገራት የውሃ ጉዳይ ሚኒስትሮች በትናንትናው እለት ስብሰባ ማካሄዳቸውን አስታውቋል፡፡በስብሰባው ላይ የሂደቱ ታዛቢ የሆኑት | |
| የደቡብ አፍሪካ፣ የአውሮፓ ህብረት እና የአሜሪካ ተወካዮች እንዲሁም ከአፍሪካ ህብረት የተወከሉ ባለሙያዎች መሳተፋቸውንም ገልጿል፡፡በወቅቱም | |
| ላላፈው አንድ ሳምንት በሃገራቱ ባለሙያዎች በታላቁ የህዳሴ ግድብ አሞላልና የውሃ አለቃቀቅ ደንብ ላይ ሲከናወን የነበረው የባለሙያዎች | |
| ድርድር ሪፖርት መቅረቡንም ጠቅሷል፡፡በቀጣይ የሚኖረውን ሂደት በሚመለከትም ሃገራቱ የድርድሩን ሂደት የሚገልጽ ደብዳቤ ለደቡብ | |
| አፈሪካዋ ዓለም አቀፍ ግንኙነት እና ትብብር ሚኒስትር እና የአፍሪካ ህብረት አስፈጻሚ ምክር ቤት የወቅቱ ሊቀ መንበር ዶክተር | |
| ናዴሊ ፓንዶል ለመላክ መስማማታቸውንም ነው የገለጸው፡፡በዚህም ሱዳን የምትሰጠው ማረጋገጫ እንደሚጠበቅ የገለጸው ሚኒስቴሩ የሶስትዮሽ | |
| ስብሰባው መስከረም 4 ቀን 2013 ዓ.ም እንደሚቀጥል አስታውቋል፡፡ | |
| - text: በፕሪሚየር ሊጉ ኢትዮጵያ ቡና እና ወልቂጤ ከተማ አቻ ተለያዩ | |
| - text: ፕሪሚየር ሊግ ፡ ሲዳማ ከሜዳው ውጪ ጣፋጭ ድል ሲያስመዘግብ አርባምንጭ ከ ዳሽን ቢራ አቻ ተለያይተዋል | |
| model-index: | |
| - name: SPLADE-RoBERTa-Amharic-Medium | |
| results: | |
| - task: | |
| type: sparse-information-retrieval | |
| name: Sparse Information Retrieval | |
| dataset: | |
| name: Amharic Passage Retrieval Dataset V2 | |
| type: rasyosef/Amharic-Passage-Retrieval-Dataset-V2 | |
| metrics: | |
| - type: dot_recall@5 | |
| value: 0.8580843585237259 | |
| name: Dot Recall@5 | |
| - type: dot_recall@10 | |
| value: 0.895577035735208 | |
| name: Dot Recall@10 | |
| - type: dot_ndcg@10 | |
| value: 0.7694492243435073 | |
| name: Dot Ndcg@10 | |
| - type: dot_mrr@10 | |
| value: 0.7282295240884877 | |
| name: Dot Mrr@10 | |
| - type: query_active_dims | |
| value: 60.95884704589844 | |
| name: Query Active Dims | |
| - type: query_sparsity_ratio | |
| value: 0.9980950360298156 | |
| name: Query Sparsity Ratio | |
| - type: corpus_active_dims | |
| value: 117.9302729767245 | |
| name: Corpus Active Dims | |
| - type: corpus_sparsity_ratio | |
| value: 0.9963146789694772 | |
| name: Corpus Sparsity Ratio | |
| # SPLADE-Amharic-Medium | |
| This is a [SPLADE Sparse Encoder](https://www.sbert.net/docs/sparse_encoder/usage/usage.html) model finetuned from [rasyosef/roberta-medium-amharic](https://huggingface.co/rasyosef/roberta-medium-amharic) using the [sentence-transformers](https://www.SBERT.net) library. It maps sentences & paragraphs to a 32000-dimensional sparse vector space and can be used for semantic search and sparse retrieval. | |
| The model was presented in the paper [The Multilingual Curse at the Retrieval Layer: Evidence from Amharic](https://huggingface.co/papers/2605.24556). | |
| ## Model Details | |
| ### Model Description | |
| - **Model Type:** SPLADE Sparse Encoder | |
| - **Base model:** [rasyosef/roberta-medium-amharic](https://huggingface.co/rasyosef/roberta-medium-amharic) | |
| - **Maximum Sequence Length:** 510 tokens | |
| - **Output Dimensionality:** 32000 dimensions | |
| - **Similarity Function:** Dot Product | |
| - **Language:** am | |
| - **License:** mit | |
| ### Model Sources | |
| - **Repository:** [GitHub](https://github.com/rasyosef/amharic-neural-ir) | |
| - **Paper:** [The Multilingual Curse at the Retrieval Layer: Evidence from Amharic](https://huggingface.co/papers/2605.24556) | |
| - **Documentation:** [Sentence Transformers Documentation](https://sbert.net) | |
| - **Documentation:** [Sparse Encoder Documentation](https://www.sbert.net/docs/sparse_encoder/usage/usage.html) | |
| ### Full Model Architecture | |
| ``` | |
| SparseEncoder( | |
| (0): MLMTransformer({'max_seq_length': 510, 'do_lower_case': False, 'architecture': 'XLMRobertaForMaskedLM'}) | |
| (1): SpladePooling({'pooling_strategy': 'max', 'activation_function': 'relu', 'word_embedding_dimension': 32000}) | |
| ) | |
| ``` | |
| ## Usage | |
| ### Direct Usage (Sentence Transformers) | |
| First install the Sentence Transformers library: | |
| ```bash | |
| pip install -U sentence-transformers | |
| ``` | |
| Then you can load this model and run inference. | |
| ```python | |
| from sentence_transformers import SparseEncoder | |
| # Download from the 🤗 Hub | |
| model = SparseEncoder("rasyosef/splade-amharic-medium") | |
| # Run inference | |
| sentences = [ | |
| 'ለውጭ ገበያ በሚቀርበው የኢትዮጵያ ቡና ላይ የተጋረጠው ፈተና', | |
| 'የኢትዮጵያ ዋነኛ የውጭ ምንዛሬ ምንጭ የሆነው ወደ ውጭ የሚላክ ቡና ዘርፍ በአሁኑ ጊዜ ከፍተኛ ውጥረት ውስጥ ገብቷል።', | |
| 'የቻይናው ፕሬዝዳንት ዚ ጂንፒንግ ከትራምፕ ጋር ባደረጉት ጉባኤ ትኩረታቸው በሁለቱ ሀገራት መካከል ለወራት ከተፈጠረ ውጥረት እና የንግድ ጦርነት በኋላ የተረገጋጋ ግንኙነትን ማስቀጠል ነበር።', | |
| ] | |
| embeddings = model.encode(sentences) | |
| print(embeddings.shape) | |
| # [3, 32000] | |
| # Get the similarity scores for the embeddings | |
| similarities = model.similarity(embeddings, embeddings) | |
| print(similarities) | |
| # tensor([[44.9874, 24.7096, 0.0000], | |
| # [24.7096, 66.3428, 2.4125], | |
| # [ 0.0000, 2.4125, 69.0888]]) | |
| ``` | |
| ## Evaluation | |
| ### Metrics | |
| #### Sparse Information Retrieval | |
| * Evaluated with [<code>SparseInformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sparse_encoder/evaluation.html#sentence_transformers.sparse_encoder.evaluation.SparseInformationRetrievalEvaluator) | |
| | Metric | Value | | |
| |:----------------------|:-----------| | |
| | dot_recall@5 | 0.8581 | | |
| | dot_recall@10 | 0.8956 | | |
| | **dot_ndcg@10** | **0.7694** | | |
| | dot_mrr@10 | 0.7282 | | |
| | query_active_dims | 60.9588 | | |
| | query_sparsity_ratio | 0.9981 | | |
| | corpus_active_dims | 117.9303 | | |
| | corpus_sparsity_ratio | 0.9963 | | |
| ## Training Details | |
| ### Training Dataset | |
| #### Amharic Passage Retrieval Dataset V2 | |
| * Size: 245,876 training samples | |
| * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code> | |
| * Loss: [<code>SpladeLoss</code>](https://sbert.net/docs/package_reference/sparse_encoder/losses.html#spladeloss) with these parameters: | |
| ```json | |
| { | |
| "loss": "SparseMultipleNegativesRankingLoss(scale=1.0, similarity_fct='dot_score')", | |
| "document_regularizer_weight": 0.003, | |
| "query_regularizer_weight": 0.005 | |
| } | |
| ``` | |
| ### Training Hyperparameters | |
| #### Non-Default Hyperparameters | |
| - `eval_strategy`: epoch | |
| - `per_device_train_batch_size`: 48 | |
| - `per_device_eval_batch_size`: 48 | |
| - `learning_rate`: 6e-05 | |
| - `num_train_epochs`: 4 | |
| - `lr_scheduler_type`: cosine | |
| - `warmup_ratio`: 0.05 | |
| - `fp16`: True | |
| - `optim`: adamw_torch_fused | |
| - `batch_sampler`: no_duplicates | |
| ## Citation | |
| ```bibtex | |
| @inproceedings{alemneh2026amharicir, | |
| title = {The Multilingual Curse at the Retrieval Layer: Evidence from Amharic}, | |
| author = {Alemneh, Yosef Worku and Mekonnen, Kidist Amde and de Rijke, Maarten}, | |
| booktitle = {Proceedings of the 1st Workshop on Multilinguality in the Era of Large Language Models (MeLLM), ACL 2026}, | |
| year = {2026}, | |
| } | |
| ``` |