Text Ranking
sentence-transformers
Safetensors
Amharic
xlm-roberta
cross-encoder
Generated from Trainer
dataset_size:491752
loss:BinaryCrossEntropyLoss
Eval Results (legacy)
text-embeddings-inference
Instructions to use rasyosef/reranker-amharic-base with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use rasyosef/reranker-amharic-base with sentence-transformers:
from sentence_transformers import CrossEncoder model = CrossEncoder("rasyosef/reranker-amharic-base") query = "Which planet is known as the Red Planet?" passages = [ "Venus is often called Earth's twin because of its similar size and proximity.", "Mars, known for its reddish appearance, is often referred to as the Red Planet.", "Jupiter, the largest planet in our solar system, has a prominent red spot.", "Saturn, famous for its rings, is sometimes mistaken for the Red Planet." ] scores = model.predict([(query, passage) for passage in passages]) print(scores) - Notebooks
- Google Colab
- Kaggle
File size: 19,090 Bytes
1f2ffcb d1b0876 1f2ffcb d1b0876 1f2ffcb d1b0876 1f2ffcb 5cd780e 1f2ffcb f10efa3 1f2ffcb f10efa3 1f2ffcb 9317b64 1f2ffcb d1b0876 1f2ffcb d1b0876 1f2ffcb f10efa3 88dd917 6b2a0fe 1f2ffcb 6b2a0fe 1f2ffcb 6b2a0fe 1f2ffcb 6b2a0fe 1f2ffcb 6b2a0fe 1f2ffcb d1b0876 1f2ffcb f10efa3 1f2ffcb f10efa3 1f2ffcb f10efa3 1f2ffcb f10efa3 1f2ffcb d1b0876 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 | ---
base_model: rasyosef/roberta-base-amharic
datasets:
- rasyosef/Amharic-Passage-Retrieval-Dataset-V2
language:
- am
library_name: sentence-transformers
license: mit
metrics:
- map
- mrr@10
- ndcg@10
pipeline_tag: text-ranking
tags:
- sentence-transformers
- cross-encoder
- generated_from_trainer
- dataset_size:491752
- loss:BinaryCrossEntropyLoss
model-index:
- name: reranker-amharic-base
results:
- task:
type: cross-encoder-reranking
name: Cross Encoder Reranking
dataset:
name: amh passage retrieval dev
type: amh-passage-retrieval-dev
metrics:
- type: mrr@10
value: 0.83
name: Mrr@10
- type: ndcg@10
value: 0.856
name: Ndcg@10
---
# reranker-amharic-base
This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [rasyosef/roberta-base-amharic](https://huggingface.co/rasyosef/roberta-base-amharic) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
This model was presented in the paper **[The Multilingual Curse at the Retrieval Layer: Evidence from Amharic](https://huggingface.co/papers/2605.24556)**.
Official code repository: [https://github.com/rasyosef/amharic-neural-ir](https://github.com/rasyosef/amharic-neural-ir)
## Model Details
### Model Description
- **Model Type:** Cross Encoder
- **Base model:** [rasyosef/roberta-base-amharic](https://huggingface.co/rasyosef/roberta-base-amharic)
- **Maximum Sequence Length:** 510 tokens
- **Number of Output Labels:** 1 label
- **Language:** am
- **License:** mit
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import CrossEncoder
# Download from the 🤗 Hub
model = CrossEncoder("rasyosef/reranker-amharic-base")
# Get scores for pairs of texts
pairs = [
['ለውጭ ገበያ በሚቀርበው የኢትዮጵያ ቡና ላይ የተጋረጠው ፈተና', 'የኢትዮጵያ ዋነኛ የውጭ ምንዛሬ ምንጭ የሆነው ወደ ውጭ የሚላክ ቡና ዘርፍ በአሁኑ ጊዜ ከፍተኛ ውጥረት ውስጥ ገብቷል። በዚህ የተነሳም የኢትዮጵያ ቡናና ሻይ ባለሥልጣንን ጨምሮ የሚመላካታቸው ሁሉ ቡና ላኪዎችና አምራቾች ያከማቹትን ቡና በፍጥነት ወደ ዓለም ገበያ እንዲያወጡ ጥሪ እያቀረቡ ነው ።'],
['ለውጭ ገበያ በሚቀርበው የኢትዮጵያ ቡና ላይ የተጋረጠው ፈተና', 'የቻይናው ፕሬዝዳንት ዚ ጂንፒንግ ከትራምፕ ጋር ባደረጉት ጉባኤ ትኩረታቸው በሁለቱ ሀገራት መካከል ለወራት ከተፈጠረ ውጥረት እና የንግድ ጦርነት በኋላ የተረገጋጋ ግንኙነትን ማስቀጠል ነበር። ከፑቲን ጋር ደግሞ ዢ ለሁለቱ አገራት ስልታዊም ሆነ ኢኮኖሚያዊ ጠቀሜታ ረጅም ጊዜ የዘለቀውን አጋርነትን ይበልጥ ማጠናከር ላይ ነበር ትኩረታቸው።']
]
scores = model.predict(pairs)
print(scores.shape)
# (2,)
# Or rank different texts based on similarity to a single text
ranks = model.rank(
'ለውጭ ገበያ በሚቀርበው የኢትዮጵያ ቡና ላይ የተጋረጠው ፈተና',
[
'የኢትዮጵያ ዋነኛ የውጭ ምንዛሬ ምንጭ የሆነው ወደ ውጭ የሚላክ ቡና ዘርፍ በአሁኑ ጊዜ ከፍተኛ ውጥረት ውስጥ ገብቷል። በዚህ የተነሳም የኢትዮጵያ ቡናና ሻይ ባለሥልጣንን ጨምሮ የሚመላካታቸው ሁሉ ቡና ላኪዎችና አምራቾች ያከማቹትን ቡና በፍጥነት ወደ ዓለም ገበያ እንዲያወጡ ጥሪ እያቀረቡ ነው ።',
'የቻይናው ፕሬዝዳንት ዚ ጂንፒንግ ከትራምፕ ጋር ባደረጉት ጉባኤ ትኩረታቸው በሁለቱ ሀገራት መካከል ለወራት ከተፈጠረ ውጥረት እና የንግድ ጦርነት በኋላ የተረገጋጋ ግንኙነትን ማስቀጠል ነበር። ከፑቲን ጋር ደግሞ ዢ ለሁለቱ አገራት ስልታዊም ሆነ ኢኮኖሚያዊ ጠቀሜታ ረጅም ጊዜ የዘለቀውን አጋርነትን ይበልጥ ማጠናከር ላይ ነበር ትኩረታቸው።',
]
)
print(ranks)
# [{'corpus_id': 0, 'score': np.float32(0.9555243)}, {'corpus_id': 1, 'score': np.float32(0.0012893651)}]
```
## Evaluation
### Metrics
#### Cross Encoder Reranking
* Dataset: `amh-passage-retrieval-dev`
* Evaluated with [<code>CrossEncoderRerankingEvaluator</code>](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CrossEncoderRerankingEvaluator) with these parameters:
```json
{
"at_k": 10
}
```
| Metric | Value |
|:------------|:-----------|
| mrr@10 | 0.830 |
| **ndcg@10** | **0.856** |
## Training Details
<details>
### Training Dataset
#### Unnamed Dataset
* Size: 491,752 training samples
* Columns: <code>query</code>, <code>passage</code>, and <code>label</code>
* Approximate statistics based on the first 1000 samples:
| | query | passage | label |
|:--------|:-----------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------|:------------------------------------------------|
| type | string | string | int |
| details | <ul><li>min: 3 characters</li><li>mean: 49.55 characters</li><li>max: 146 characters</li></ul> | <ul><li>min: 124 characters</li><li>mean: 1404.41 characters</li><li>max: 7660 characters</li></ul> | <ul><li>0: ~87.50%</li><li>1: ~12.50%</li></ul> |
* Samples:
| query | passage | label |
|:--------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
| <code>‹‹የአገር መከላከያ ሠራዊት ተዋጽኦ እንደ ተወካዮች ምክር ቤት መቀመጫ የሚከፋፈል አይደለም›› ጄኔራል ሳሞራ የኑስ</code> | <code>የአገር መከላከያ ሠራዊት ብሔራዊ ተዋጽኦ የጠበቀና የተመጣጠነ መሆን ያለበት ቢሆንም እንደ የተወካዮች ምክር ቤት መቀመጫ የሚከፋፈል እንዳልሆነ፣ የጦር ኃይሎች ጠቅላላ ኤታ ማዦር ሹም ጄኔራል ሳሞራ የኑስ ተናገሩ፡፡በአማራ ብሔራዊ ክልላዊ መንግሥት ዋና ከተማ በሆነችው በባህር ዳር ከተማ የተከበረውን ሦስተኛውን የሠራዊት ቀን ምክንያት በማድረግ በተዘጋጀው የውይይት መድረክ (ሲምፖዝየም)፣ ‹‹የኢፌዲሪ መከላከያ ሠራዊት ከየት ወዴት?›› በሚል ርዕስ ጥናታዊ ጽሑፍ ያቀረቡት ጄኔራል ሳሞራ የመከላከያ ሠራዊት አመጣጥ፣ ዕድገትና አሁን የሚገኝበትን ደረጃ ተንትነዋል፡፡ቀደም ሲል ደርግን ያሸነፈው የኢሕአዴግ ሠራዊት የአሁኑ መከላከያ ሠራዊት መሠረት እንደሆነ አስታውሰው፣ ለማመጣጠን ሲባል ከ30 ሺሕ በላይ ነባር ታጋዮች እንዲቀነሱ የተደረገበት ምክንያት ብሔራዊ አስተዋጽኦን ለማጠናከር እንደሆነ ገልጸዋል፡፡ ‹‹ለታጋዮችም ሆነ ለአመራሮች ፈታኝና ከባድ ውሳኔ የነበረ ቢሆንም ለሕዝብ ጥቅም ሲባል ወስነናል፤›› በማለት የገለጹት ጄኔራል ሳሞራ፣ በመከላከያ ሠራዊት አነስተኛ ተሳትፎ ከነበራቸው ብሔር ብሔረሰቦች አዲስ አባላት በመመልመል፣ ከወንጀል ነፃ የሆኑ ተፈላጊ ችሎታና ሙያ የነበራቸው የደርግ ሠራዊት አባላትም ታክለውበት ሠራዊቱ እንደ አዲስ መደራጀቱን አብራርተዋል፡፡ በወቅቱ ካልተቀነሱት የሕወሓት ታጋዮች ላይ ሁለት ማዕረግ እንደተቀነሰ፣ በአንፃሩ ደግሞ ለሌሎች ብሔር ተወላጆች ላይ ሁለት ማዕረግ እንዲጨመር መደረጉን አስታውሰዋል፡፡ ኢሕአዴግ ውስጥ ከተፈጠረው መከፋፈል በኋላ በተደረገው የተሃድሶ እንቅስቃሴ መሠረት የሠራዊቱ ማነቆ የነበሩ ችግሮችና አስተሳሰቦች መወገዳቸውንም አውስተዋል፡፡ አዲሱ የሠራዊት ግንባታ ሕገ መንግሥታዊ ተልዕኮዎችን የሚያሳካ፣ የመከላከል ቁመናው የማይደፈር ሆኖ ...</code> | <code>1</code> |
| <code>‹‹የአገር መከላከያ ሠራዊት ተዋጽኦ እንደ ተወካዮች ምክር ቤት መቀመጫ የሚከፋፈል አይደለም›› ጄኔራል ሳሞራ የኑስ</code> | <code>ጠቅላይ ሚኒስትር ዓብይ አህመድ (ዶ/ር) ለሦስት የመከላከያና የደኅንነት ከፍተኛ ኃላፊዎች ዓርብ ሰኔ 21 ቀን 2011 ዓ.ም. ሹመት ሰጡ፡፡የብሔራዊ መረጃና ደኅንነት አገልግሎት ዋና ዳይሬክተር የነበሩት ጄኔራል አደም መሐመድ የጦር ኃይሎች ጠቅላይ ኤታ ማዦር ሹም፣ ሌተና ጄኔራል ሞላ ኃይለ ማርያም የምድር ኃይል ዋና አዛዥ፣ እንዲሁም አቶ ደመላሽ ገብረ ሚካኤል የብሔራዊ መረጃና ደኅንነት አገልግሎት ዋና ዳይሬክተር ሆነው ተሹመዋል፡፡ጄኔራል አደም ሰኔ 15 ቀን 2011 ዓ.ም. ምሽት በመኖሪያቸው ቤታቸው በተገደሉት በጄራል ሰዓረ መኮንን ምትክ ነው የተሾሙት፡፡ የብሔራዊ መረጃና ደኅንነት አገልግሎት በመሆን ከተሾሙ አንድ ዓመት ያለፋቸው ጄኔራል አደም፣ ቀደም ሲል የኢትዮጵያ አየር ኃይል ዋና አዛዥ በመሆን አገልግለዋል፡፡ሌተና ጄኔራል ሞላ ከዚህ በፊት የኢትዮጵያ አየር ኃይል ዋና አዛዥ በመሆን ማገልገላቸው ሲታወስ፣ በአዲሱ ሹመታቸው የምድር ኃይልን በዋና አዛዥነት ይመራሉ፡፡አቶ ደመላሽ ከዓመት በፊት የብሔራዊ መረጃና ደኅንነት ምክትል ዋና ዳይሬክተር በመሆን እያገለገሉ የነበሩ ሲሆን፣ ቀደም ሲል የኦሮሚያ ክልል ምክትል ኮሚሽነር፣ እንዲሁም የፌዴራል ፖሊስ ፀረ ሽብር ግብረ ኃይል ዳይሬክተር በመሆን ሠርተዋል፡፡</code> | <code>0</code> |
| <code>‹‹የአገር መከላከያ ሠራዊት ተዋጽኦ እንደ ተወካዮች ምክር ቤት መቀመጫ የሚከፋፈል አይደለም›› ጄኔራል ሳሞራ የኑስ</code> | <code>ለሕዝብ ተወካዮች ምክር ቤት ቋሚ ኮሚቴዎች የተጓደሉ ሊቀመንበሮችን ለመተካት ዕጩዎችን ያቀረቡት አፈ ጉባዔ አባዱላ ገመዳ ዕጩዎቹን የመለመሉበት መሥፈርት ዕውቀትን መሠረት ያደረገ አለመሆኑን አስመልክቶ ለተነሳባቸው ጥያቄ፣ ዕውቀት ሁልጊዜ መሥፈርት ሊሆን እንደማይችል ይልቁንም የፖለቲካ ድርጅቶች በሚሰጡት ውሳኔ የአመራርነት ምደባ እንደሚካሄድ ገለጹ፡፡አፈ ጉባዔው በምክር ቤቱ የአባልነት ሥነ ምግባርና ሥነ ሥርዓት ደንብ በሚሰጣቸው ኃላፊነት መሠረት በ2008 ዓ.ም. መጀመሪያ ላይ ለምክር ቤቱ 18 ቋሚ ኮሚቴዎች ከመደቧቸው ዋና ምክትል ሊቀመናብርት መካከል፣ የተወሰኑት በተለያዩ ምክንያቶች በመጓደላቸው በምትክነት ያጯቸውን ለምክር ቤቱ አባላት ለምደባ ሐሙስ ታኅሳስ 13 ቀን 2009 ዓ.ም. አቅርበዋል፡፡የቋሚ ኮሚቴው ሊቀመናብርት ከተጓደሉባቸው ምክንያቶች አንዱ በሥራ አስፈጻሚው መንግሥት መዋቅር ውስጥ በመመደባቸው መሆኑ ተገልጿል፡፡ ይሁን እንጂ አፈ ጉባዔው ያቀረቡት አዲስ ምደባ በተጓደሉ አመራሮች ምትክ ብቻ ሳይሆን፣ ነባሮችንም ወደ ሌላ ቋሚ ኮሚቴዎች የሚያሸጋሽግ ነው፡፡ይህንን ያስተዋሉት የምክር ቤቱ አንድ አባል አፈ ጉባዔው ባቀረቡት አዲስ ምደባ ላይ በርከት ያሉ ጥያቄዎችን አቅርበዋል፡፡ጥያቄዎቹን ያነሱት የምክር ቤት አባል አቶ ተክሌ ተሰማ የደኢሕዴን ተወካይ ሲሆኑ፣ በአዲሱ ምደባ ቀደም ሲል ከነበሩበት ቋሚ ኮሚቴ ምክትል ሊቀመንበርነት ወደ ሌላ ቋሚ ኮሚቴ ምክትል ሊቀመንበርነት እንዲዘዋወሩ፣ በአፈ ጉባዔው የውሳኔ ሐሳብ ዝርዝር ውስጥ ስማቸው ተካቷል፡፡አቶ ተክሌ ባነሱት ጥያቄ ለምደባ የቀረቡት ዕጩዎች የትምህርት ምዘና የሚመደቡበት ቋሚ ኮሚቴ ከሚጠይቀው ዕውቀት ጋር የሚጣጣም አለመሆኑን፣ የዕጩ ተመዳቢዎች ይሁንታን አፈ ጉባዔው ለምን እንዳልጠየቁ በማንሳት ዕውቀትን መሠረ...</code> | <code>0</code> |
* Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
```json
{
"activation_fn": "torch.nn.modules.linear.Identity",
"pos_weight": 7
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: epoch
- `per_device_train_batch_size`: 64
- `per_device_eval_batch_size`: 64
- `learning_rate`: 4e-05
- `weight_decay`: 0.1
- `num_train_epochs`: 4
- `lr_scheduler_type`: cosine
- `warmup_ratio`: 0.05
- `fp16`: True
- `dataloader_num_workers`: 2
- `load_best_model_at_end`: True
### Training Logs
| Epoch | Step | Training Loss | amh-passage-retrieval-dev_ndcg@10 |
|:-------:|:---------:|:-------------:|:---------------------------------:|
| 1.0 | 7684 | 0.3481 | 0.8475 |
| 2.0 | 15368 | 0.2105 | 0.8713 |
| **3.0** | **23052** | **0.1221** | **0.8839** |
| 4.0 | 30736 | 0.0555 | 0.8815 |
| -1 | -1 | - | 0.8802 |
* The bold row denotes the saved checkpoint.
### Framework Versions
- Python: 3.11.13
- Sentence Transformers: 4.1.0
- Transformers: 4.52.4
- PyTorch: 2.6.0+cu124
- Accelerate: 1.7.0
- Datasets: 3.6.0
- Tokenizers: 0.21.1
</details>
## Citation
```bibtex
@inproceedings{alemneh2026amharicir,
title = {The Multilingual Curse at the Retrieval Layer: Evidence from Amharic},
author = {Alemneh, Yosef Worku and Mekonnen, Kidist Amde and de Rijke, Maarten},
booktitle = {Proceedings of the 1st Workshop on Multilinguality in the Era of Large Language Models (MeLLM), ACL 2026},
year = {2026},
}
``` |