---
base_model: rasyosef/roberta-base-amharic
datasets:
- rasyosef/Amharic-Passage-Retrieval-Dataset-V2
language:
- am
library_name: sentence-transformers
license: mit
metrics:
- map
- mrr@10
- ndcg@10
pipeline_tag: text-ranking
tags:
- sentence-transformers
- cross-encoder
- generated_from_trainer
- dataset_size:491752
- loss:BinaryCrossEntropyLoss
model-index:
- name: reranker-amharic-base
results:
- task:
type: cross-encoder-reranking
name: Cross Encoder Reranking
dataset:
name: Amharic Passage Retrieval Dataset V2
type: rasyosef/Amharic-Passage-Retrieval-Dataset-V2
metrics:
- type: mrr@10
value: 0.83
name: Mrr@10
- type: ndcg@10
value: 0.856
name: Ndcg@10
---
# reranker-amharic-base
This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [rasyosef/roberta-base-amharic](https://huggingface.co/rasyosef/roberta-base-amharic) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
This model was presented in the paper **[The Multilingual Curse at the Retrieval Layer: Evidence from Amharic](https://huggingface.co/papers/2605.24556)**.
Official code repository: [https://github.com/rasyosef/amharic-neural-ir](https://github.com/rasyosef/amharic-neural-ir)
## Model Details
### Model Description
- **Model Type:** Cross Encoder
- **Base model:** [rasyosef/roberta-base-amharic](https://huggingface.co/rasyosef/roberta-base-amharic)
- **Maximum Sequence Length:** 510 tokens
- **Number of Output Labels:** 1 label
- **Language:** am
- **License:** mit
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import CrossEncoder
# Download from the đ¤ Hub
model = CrossEncoder("rasyosef/reranker-amharic-base")
# Get scores for pairs of texts
pairs = [
['ááá áá ፠á áááá á á¨á˘áľáŽáľáŤ áĄá áá á¨á°áá¨á á áá°á', 'á¨á˘áľáŽáľáŤ ááá á¨áá áááᏠááá á¨ááá áá° áá á¨ááá áĄá ááá á á áá áá á¨áá°á ááĽá¨áľ ááľáĽ ááĽáˇáᢠá áá
á¨á°ááłá á¨á˘áľáŽáľáŤ áĄáá áťá áŁááĽááŁáá á¨áᎠá¨ááááŤáłá¸á áá áĄá ááŞáá˝á á ááŤážá˝ áŤá¨áášáľá áĄá á ááĽááľ áá° ááá áá ፠áĽáá˛áŤáᥠáĽáŞ áĽáŤáá¨áĄ áá á˘'],
['ááá áá ፠á áááá á á¨á˘áľáŽáľáŤ áĄá áá á¨á°áá¨á á áá°á', 'á¨áťááá ááŹááłááľ á ááááá á¨áľáŤáá áá áŁá°á¨ááľ ááŁá¤ áľáŠá¨áłá¸á á áááą áááŤáľ ááŤá¨á áááŤáľ á¨á°áá ᨠááĽá¨áľ áĽá á¨áááľ áŚáááľ á áá á¨á°á¨ááá áááááľá ááľáá á áá áᢠá¨áá˛á áá á°áá ᢠááááą á ááŤáľ áľááłáá áá á˘áŽáááŤá á áááł á¨á
á áá á¨ááááá á ááááľá áá áἠáá áá¨á áá áá á áľáŠá¨áłá¸áá˘']
]
scores = model.predict(pairs)
print(scores.shape)
# (2,)
# Or rank different texts based on similarity to a single text
ranks = model.rank(
'ááá áá ፠á áááá á á¨á˘áľáŽáľáŤ áĄá áá á¨á°áá¨á á áá°á',
[
'á¨á˘áľáŽáľáŤ ááá á¨áá áááᏠááá á¨ááá áá° áá á¨ááá áĄá ááá á á áá áá á¨áá°á ááĽá¨áľ ááľáĽ ááĽáˇáᢠá áá
á¨á°ááłá á¨á˘áľáŽáľáŤ áĄáá áťá áŁááĽááŁáá á¨áᎠá¨ááááŤáłá¸á áá áĄá ááŞáá˝á á ááŤážá˝ áŤá¨áášáľá áĄá á ááĽááľ áá° ááá áá ፠áĽáá˛áŤáᥠáĽáŞ áĽáŤáá¨áĄ áá á˘',
'á¨áťááá ááŹááłááľ á ááááá á¨áľáŤáá áá áŁá°á¨ááľ ááŁá¤ áľáŠá¨áłá¸á á áááą áááŤáľ ááŤá¨á áááŤáľ á¨á°áá ᨠááĽá¨áľ áĽá á¨áááľ áŚáááľ á áá á¨á°á¨ááá áááááľá ááľáá á áá áᢠá¨áá˛á áá á°áá ᢠááááą á ááŤáľ áľááłáá áá á˘áŽáááŤá á áááł á¨á
á áá á¨ááááá á ááááľá áá áἠáá áá¨á áá áá á áľáŠá¨áłá¸áá˘',
]
)
print(ranks)
# [{'corpus_id': 0, 'score': np.float32(0.9555243)}, {'corpus_id': 1, 'score': np.float32(0.0012893651)}]
```
## Evaluation
### Metrics
#### Cross Encoder Reranking
* Dataset: `amh-passage-retrieval-dev`
* Evaluated with [CrossEncoderRerankingEvaluator](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CrossEncoderRerankingEvaluator) with these parameters:
```json
{
"at_k": 10
}
```
| Metric | Value |
|:------------|:-----------|
| mrr@10 | 0.830 |
| **ndcg@10** | **0.856** |
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 491,752 training samples
* Columns: query, passage, and label
* Approximate statistics based on the first 1000 samples:
| | query | passage | label |
|:--------|:-----------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------|:------------------------------------------------|
| type | string | string | int |
| details | - min: 3 characters
- mean: 49.55 characters
- max: 146 characters
| - min: 124 characters
- mean: 1404.41 characters
- max: 7660 characters
| |
* Samples:
| query | passage | label |
|:--------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
| âšâšá¨á áá áá¨áá¨áŤ á áŤááľ á°áá˝áŚ áĽáá° á°ááŤáŽá˝ ááá á¤áľ ááá፠á¨áá¨ááá á áá°ááâşâş áááŤá áłá፠á¨ááľ | á¨á áá áá¨áá¨áŤ á áŤááľ áĽááŤá á°áá˝áŚ á¨á á áá á¨á°ááŁá á ááá áŤáá áľ á˘ááá áĽáá° á¨á°ááŤáŽá˝ ááá á¤áľ ááá፠á¨áá¨ááá áĽááłáááᣠá¨áŚá áááá˝ á á
áá á¤áł ááŚá ášá áááŤá áłá፠á¨ááľ á°áááŠáĄáĄá á á፠áĽááŤá áááá ááááĽáľ áá á¨á°á á ááá˝á á áŁá
á áłá á¨á°á á¨á°á¨á á¨áá áŚáľá°ááá á¨á áŤááľ áá ááááŤáľ á ááľá¨á á á°áááá á¨ááááľ ááľá¨á (á˛áááá¨á)ᣠâšâšá¨á˘áá˛áŞ áá¨áá¨áŤ á áŤááľ á¨á¨áľ áá´áľ?âşâş á áá áááľ áĽááłá á˝áá áŤáá¨áĄáľ áááŤá áłá፠á¨áá¨áá¨áŤ á áŤááľ á ááŁáĽáŁ ááľááľá á áá á¨áááá áľá á°á¨á á°ááľááááĄáĄáá°á á˛á á°ááá áŤá¸ááá á¨á˘áá á´á á áŤááľ á¨á áá áá¨áá¨áŤ á áŤááľ áá á¨áľ áĽáá°áá á áľáłáá°áᣠááááŁá á á˛áŁá á¨30 áşá á áá ááŁá áłááŽá˝ áĽáá˛áááą á¨á°á°á¨áá áľ ááááŤáľ áĽááŤá á áľá°áá˝áŚá ááá áá¨á áĽáá°áá ááá¸áááĄáĄ âšâšááłááŽá˝á áá áá ááŤáŽá˝ ááłáá á¨áŁáľ ááłá á¨áá ᨠá˘ááá áááἠáĽá
á á˛áŁá ááľáááá¤âşâş á áááľ á¨ááášáľ áááŤá áłááŤáŁ á áá¨áá¨áŤ á áŤááľ á ááľá°á á°áłáľá á¨áá áŤá¸á áĽáá áĽáá¨á°áŚá˝ á á˛áľ á áŁááľ á áááááᣠá¨áááá áá á¨áá á°ááá á˝ááłá á፠á¨áá áŤá¸á á¨á°áá á áŤááľ á áŁááľá áłáááá áľ á áŤááą áĽáá° á á˛áľ áá°áŤááąá á áĽáŤáá°áááĄáĄ á áá
áą áŤáá°áááąáľ á¨ááááľ áłááŽá˝ áá áááľ ááá¨á áĽáá°á°ááá°áŁ á á ááአá°áá áááá˝ áĽáá á°áááá˝ áá áááľ ááá¨á áĽáá˛á¨áá áá°á¨áá á áľáłáá°áááĄáĄ á˘áá á´á ááľáĽ á¨á°áá á¨á áá¨ááá á áá á á°á°á¨áá á¨á°ááľáś áĽáá
áľáá´ áá á¨áľ á¨á áŤááą ááá á¨áá አá˝ááŽá˝á á áľá°áłá°áŚá˝ ááááłá¸ááá á ááľá°áááĄáĄ á á˛áą á¨á áŤááľ áááŁáł áá ááááĽáłá á°áááŽáá˝á á¨ááŤáłáŤáŁ á¨áá¨áá¨á áááá á¨ááá°áá áá ... | 1 |
| âšâšá¨á áá áá¨áá¨áŤ á áŤááľ á°áá˝áŚ áĽáá° á°ááŤáŽá˝ ááá á¤áľ ááá፠á¨áá¨ááá á áá°ááâşâş áááŤá áłá፠á¨ááľ | á á
áá áááľáľá ááĽá á á
ááľ (áś/á) ááŚáľáľ á¨áá¨áá¨áŤá á¨á°á
áááľ á¨áá°á ááááá˝ ááἠá°á 21 áá 2011 á.á. ášááľ á°áĄáĄáĄá¨áĽááŤá áá¨áá á°á
áááľ á áááááľ áá áłááŹáá°á á¨áá áŠáľ áááŤá á á°á ááááľ á¨áŚá áááá˝ á á
áá á¤áł ááŚá ášáᣠáá°á áááŤá áá ááá áááŤá á¨ááľá ááá áá á ááĽáŁ áĽáá˛áá á áś á°ááá˝ ááĽá¨ ááŤá¤á á¨áĽááŤá áá¨áá á°á
áááľ á áááááľ áá áłááŹáá°á ááá á°ášááááĄáĄáááŤá á á°á á°á 15 áá 2011 á.á. áá˝áľ á áááŞáŤá¸á á¤áłá¸á á á°áá°ááľ á ááŤá á°áᨠááŽáá ááľá áá á¨á°ážááľáĄáĄ á¨áĽááŤá áá¨áá á°á
áááľ á áááááľ á ááá á¨á°ážá á ááľ áááľ áŤááá¸á áááŤá á á°áᣠáá°á á˛á á¨á˘áľáŽáľáŤ á á¨á ááá áá á áἠá ááá á áááááááĄáĄáá°á áááŤá áá á¨áá
á ááľ á¨á˘áľáŽáľáŤ á á¨á ááá áá á áἠá ááá áááááá¸á á˛áłááľáŁ á á á˛áą ášááłá¸á á¨ááľá áááá á áá á ááĽááľ áááŤááĄáĄá áś á°ááá˝ á¨áááľ á ááľ á¨áĽááŤá áá¨áá á°á
áááľ áááľá áá áłááŹáá°á á ááá áĽáŤáááá á¨áá አá˛ááᣠáá°á á˛á á¨áŚáŽá፠ááá áááľá áŽáá˝ááᣠáĽáá˛áá á¨áá´áŤá áááľ áᨠá˝áĽá ááĽá¨ ááá áłááŹáá°á á ááá á áá°áááĄáĄ | 0 |
| âšâšá¨á áá áá¨áá¨áŤ á áŤááľ á°áá˝áŚ áĽáá° á°ááŤáŽá˝ ááá á¤áľ ááá፠á¨áá¨ááá á áá°ááâşâş áááŤá áłá፠á¨ááľ | áááἠá°ááŤáŽá˝ ááá á¤áľ áá áŽáá´áá˝ á¨á°áá°á ááááá áŽá˝á ááá°áŤáľ ááŠáá˝á áŤáá¨áĄáľ á á ááŁá á áŁáąá áááł ááŠáášá á¨ááááá áľ ááĽáááľ ááááľá áá á¨áľ áŤá°á¨á á ááááá á áľááááś áá°ááłáŁá¸á áĽáŤáᣠááááľ áááá ááĽáááľ ááá áĽáá°ááá˝á ááááá á¨ááá˛áŤ áľáá
áśá˝ á áá°áĄáľ ááłá á¨á ááŤáááľ áá°áŁ áĽáá°ááŤááľ ááášáĄáĄá á ááŁáá á ááá á¤áą á¨á áŁáááľ áĽá áááŁáá áĽá áĽáááľ á°áἠá áá°áŁá¸á áááááľ áá á¨áľ á 2008 á.á. ááááŞáŤ áá áááá á¤áą 18 áá áŽáá´áá˝ á¨áá°á§á¸á áá áááľá áááááĽááľ ááŤá¨áᣠá¨á°áá°ááľ á á°ááŤáŠ ááááŤáśá˝ á ááá°áá¸á á ááľáááľ áŤáŻá¸áá áááá á¤áą á áŁááľ ááá°áŁ áááľ áłá
áłáľ 13 áá 2009 á.á. á á
áá áááĄáĄá¨áá áŽáá´á áááááĽááľ á¨á°áá°ááŁá¸á ááááŤáśá˝ á ááą á áĽáŤ á áľááťáá ááááĽáľ ááá
á ááľáĽ á ááá°áŁá¸á ááá á°áááżááĄáĄ ááá áĽáá á á ááŁáá áŤáá¨áĄáľ á á˛áľ áá°áŁ á á°áá°á á ááŤáŽá˝ ááľá áĽáť áłáááᣠááŁáŽá˝áá áá° áá áá áŽáá´áá˝ á¨ááŤá¸áá˝á áááĄáĄáá
áá áŤáľá°áááľ á¨ááá á¤áą á ááľ á áŁá á á ááŁáá áŁáá¨áĄáľ á á˛áľ áá°áŁ áá á áá¨áľ áŤá áĽáŤááá˝á á á
áá áááĄáĄáĽáŤááášá áŤááąáľ á¨ááá á¤áľ á áŁá á áś á°áá á°á°á á¨á°á˘áá´á á°ááŤá á˛ááᣠá á á˛áą áá°áŁ áá°á á˛á á¨áá áŠá áľ áá áŽáá´ áááľá ááááá áááľ áá° áá áá áŽáá´ áááľá ááááá áááľ áĽáá˛ááááŠáŁ á á á ááŁáá á¨ááłá ááłáĽ áááá ááľáĽ áľáá¸á á°áŤáˇááĄáĄá áś á°áá áŁááąáľ áĽáŤá ááá°áŁ á¨áá¨áĄáľ ááŠáá˝ á¨áľáá
ááľ ááá á¨ááá°áĄá áľ áá áŽáá´ á¨áá ááá ááááľ áá á¨ááŁáŁá á áááááᣠá¨áአá°ááłá˘áá˝ ááááłá á á ááŁáá ááá áĽááłáá á¨á á áááłáľ ááááľá áá á¨... | 0 |
* Loss: [BinaryCrossEntropyLoss](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
```json
{
"activation_fn": "torch.nn.modules.linear.Identity",
"pos_weight": 7
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: epoch
- `per_device_train_batch_size`: 64
- `per_device_eval_batch_size`: 64
- `learning_rate`: 4e-05
- `weight_decay`: 0.1
- `num_train_epochs`: 4
- `lr_scheduler_type`: cosine
- `warmup_ratio`: 0.05
- `fp16`: True
- `dataloader_num_workers`: 2
- `load_best_model_at_end`: True
### Training Logs
| Epoch | Step | Training Loss | amh-passage-retrieval-dev_ndcg@10 |
|:-------:|:---------:|:-------------:|:---------------------------------:|
| 1.0 | 7684 | 0.3481 | 0.8475 |
| 2.0 | 15368 | 0.2105 | 0.8713 |
| **3.0** | **23052** | **0.1221** | **0.8839** |
| 4.0 | 30736 | 0.0555 | 0.8815 |
| -1 | -1 | - | 0.8802 |
* The bold row denotes the saved checkpoint.
### Framework Versions
- Python: 3.11.13
- Sentence Transformers: 4.1.0
- Transformers: 4.52.4
- PyTorch: 2.6.0+cu124
- Accelerate: 1.7.0
- Datasets: 3.6.0
- Tokenizers: 0.21.1
## Citation
```bibtex
@inproceedings{alemneh2026amharicir,
title = {The Multilingual Curse at the Retrieval Layer: Evidence from Amharic},
author = {Alemneh, Yosef Worku and Mekonnen, Kidist Amde and de Rijke, Maarten},
booktitle = {Proceedings of the 1st Workshop on Multilinguality in the Era of Large Language Models (MeLLM), ACL 2026},
year = {2026},
}
```