Text Retrieval
Safetensors
sentence-transformers
PyLate
xlm-roberta
ColBERT
feature-extraction
Generated from Trainer
dataset_size:118938
loss:Contrastive
Eval Results (legacy)
Instructions to use rasyosef/colbert-amharic-medium with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use rasyosef/colbert-amharic-medium with sentence-transformers:
from pylate import models queries = [ "Which planet is known as the Red Planet?", "What is the largest planet in our solar system?", ] documents = [ ["Mars is the Red Planet.", "Venus is Earth's twin."], ["Jupiter is the largest planet.", "Saturn has rings."], ] model = models.ColBERT(model_name_or_path="rasyosef/colbert-amharic-medium") queries_emb = model.encode(queries, is_query=True) docs_emb = model.encode(documents, is_query=False) - Notebooks
- Google Colab
- Kaggle
Update README.md
Browse files
README.md
CHANGED
|
@@ -26,9 +26,12 @@ model-index:
|
|
| 26 |
- type: accuracy
|
| 27 |
value: 0.9816875457763672
|
| 28 |
name: Accuracy
|
|
|
|
|
|
|
|
|
|
| 29 |
---
|
| 30 |
|
| 31 |
-
#
|
| 32 |
|
| 33 |
This is a [PyLate](https://github.com/lightonai/pylate) model finetuned from [rasyosef/roberta-medium-amharic](https://huggingface.co/rasyosef/roberta-medium-amharic). It maps sentences & paragraphs to sequences of 128-dimensional dense vectors and can be used for semantic textual similarity using the MaxSim operator.
|
| 34 |
|
|
@@ -80,7 +83,7 @@ from pylate import indexes, models, retrieve
|
|
| 80 |
|
| 81 |
# Step 1: Load the ColBERT model
|
| 82 |
model = models.ColBERT(
|
| 83 |
-
model_name_or_path=rasyosef/
|
| 84 |
)
|
| 85 |
|
| 86 |
# Step 2: Initialize the Voyager index
|
|
@@ -91,8 +94,14 @@ index = indexes.Voyager(
|
|
| 91 |
)
|
| 92 |
|
| 93 |
# Step 3: Encode the documents
|
| 94 |
-
documents_ids = ["1", "2", "3"]
|
| 95 |
-
documents = [
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 96 |
|
| 97 |
documents_embeddings = model.encode(
|
| 98 |
documents,
|
|
@@ -129,7 +138,10 @@ retriever = retrieve.ColBERT(index=index)
|
|
| 129 |
|
| 130 |
# Step 2: Encode the queries
|
| 131 |
queries_embeddings = model.encode(
|
| 132 |
-
[
|
|
|
|
|
|
|
|
|
|
| 133 |
batch_size=32,
|
| 134 |
is_query=True, # # Ensure that it is set to False to indicate that these are queries
|
| 135 |
show_progress_bar=True,
|
|
@@ -149,22 +161,25 @@ If you only want to use the ColBERT model to perform reranking on top of your fi
|
|
| 149 |
from pylate import rank, models
|
| 150 |
|
| 151 |
queries = [
|
| 152 |
-
"
|
| 153 |
-
"query B",
|
| 154 |
]
|
| 155 |
|
| 156 |
documents = [
|
| 157 |
-
|
| 158 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 159 |
]
|
| 160 |
|
| 161 |
documents_ids = [
|
| 162 |
-
[1, 2],
|
| 163 |
-
[1, 3, 2],
|
| 164 |
]
|
| 165 |
|
| 166 |
model = models.ColBERT(
|
| 167 |
-
model_name_or_path=rasyosef/
|
| 168 |
)
|
| 169 |
|
| 170 |
queries_embeddings = model.encode(
|
|
@@ -234,6 +249,8 @@ You can finetune this model on your own dataset.
|
|
| 234 |
|
| 235 |
## Training Details
|
| 236 |
|
|
|
|
|
|
|
| 237 |
### Training Dataset
|
| 238 |
|
| 239 |
#### Unnamed Dataset
|
|
@@ -463,33 +480,10 @@ You can finetune this model on your own dataset.
|
|
| 463 |
- Datasets: 3.6.0
|
| 464 |
- Tokenizers: 0.21.1
|
| 465 |
|
|
|
|
| 466 |
|
| 467 |
## Citation
|
| 468 |
|
| 469 |
-
### BibTeX
|
| 470 |
-
|
| 471 |
-
#### Sentence Transformers
|
| 472 |
-
```bibtex
|
| 473 |
-
@inproceedings{reimers-2019-sentence-bert,
|
| 474 |
-
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 475 |
-
author = "Reimers, Nils and Gurevych, Iryna",
|
| 476 |
-
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 477 |
-
month = "11",
|
| 478 |
-
year = "2019",
|
| 479 |
-
publisher = "Association for Computational Linguistics",
|
| 480 |
-
url = "https://arxiv.org/abs/1908.10084"
|
| 481 |
-
}
|
| 482 |
-
```
|
| 483 |
-
|
| 484 |
-
#### PyLate
|
| 485 |
-
```bibtex
|
| 486 |
-
@misc{PyLate,
|
| 487 |
-
title={PyLate: Flexible Training and Retrieval for Late Interaction Models},
|
| 488 |
-
author={Chaffin, Antoine and Sourty, Raphaël},
|
| 489 |
-
url={https://github.com/lightonai/pylate},
|
| 490 |
-
year={2024}
|
| 491 |
-
}
|
| 492 |
-
```
|
| 493 |
|
| 494 |
<!--
|
| 495 |
## Glossary
|
|
|
|
| 26 |
- type: accuracy
|
| 27 |
value: 0.9816875457763672
|
| 28 |
name: Accuracy
|
| 29 |
+
license: mit
|
| 30 |
+
datasets:
|
| 31 |
+
- rasyosef/Amharic-Passage-Retrieval-Dataset-V2
|
| 32 |
---
|
| 33 |
|
| 34 |
+
# ColBERT-Amharic-Medium
|
| 35 |
|
| 36 |
This is a [PyLate](https://github.com/lightonai/pylate) model finetuned from [rasyosef/roberta-medium-amharic](https://huggingface.co/rasyosef/roberta-medium-amharic). It maps sentences & paragraphs to sequences of 128-dimensional dense vectors and can be used for semantic textual similarity using the MaxSim operator.
|
| 37 |
|
|
|
|
| 83 |
|
| 84 |
# Step 1: Load the ColBERT model
|
| 85 |
model = models.ColBERT(
|
| 86 |
+
model_name_or_path="rasyosef/colbert-amharic-medium",
|
| 87 |
)
|
| 88 |
|
| 89 |
# Step 2: Initialize the Voyager index
|
|
|
|
| 94 |
)
|
| 95 |
|
| 96 |
# Step 3: Encode the documents
|
| 97 |
+
documents_ids = ["1", "2", "3", "4", "5"]
|
| 98 |
+
documents = [
|
| 99 |
+
"አስመላሽ ተካ ለኢትዮጵያ ቋንቋዎች የማሽን ትርጉም አገልግሎት የሚያቀርበው ልሳን ኩባንያ ተባባሪ መሥራች ነው። መቀመጫውን በርሊን ያደረገው ልሳን በሥራው ከአርቴፊሺያል ኢንተለጀንስ ጋር በጥብቅ ይተሳሰራል። አስመላሽ የአንድ ለአንድ እንግዳ ነው። አሜሪካ እና ቻይና ስለሚወዳደሩበት ቴክኖሎጂ እና ለአፍሪካ ስለሚኖረው ፋይዳ እሸቴ በቀለ አነጋግሮታል።",
|
| 100 |
+
"ከተደጋጋሚ መሬት መንቀጥቀጥ በኋላ አፋር ክልል እሳት ከመሬት ውስጥ ሲፈላ ታይቷል፡፡ ከመሬት ውስጥ እሳትና ጭስ የሚተፋው እንፋሎቱ ዛሬ ማለዳውን 11 ሰዓት ግድም ከከባድ ፍንዳታ በኋላየተስተዋለ መሆኑን የአከባቢው ነዋሪዎች እና ባለስልጣናት ለዶቼ ቬለ ተናግረዋል፡፡ አለት የሚያፈናጥር እሳት ነው የተባለው እንፋሎቱ በክልሉ ጋቢረሱ (ዞን 03) ዱለቻ ወረዳ ሰጋንቶ ቀበሌ መከሰቱን የገለጹት የአከባቢው የአይን እማኞች ከዋናው ፍንዳታ በተጨማሪ በዙሪያው ተጨማሪ ፍንዳታዎች መታየት ቀጥሏል ባይ ናቸው፡፡",
|
| 101 |
+
"በማዕከላዊ ኢትዮጵያ ክልል ሃድያ ዞን ጊቤ ወረዳ በሚገኙ 12 ቀበሌዎች መሠረታዊ የመንግሥት አገልግሎት መስጫ ተቋማት በሙሉና በከፊል በመዘጋታቸው መቸገራቸውን ነዋሪዎች አመለከቱ። ከባለፈው ዓመት ጀምሮ የጤና፣ የትምህርት እና የግብር አሰባሰብ ሥራዎች በየአካባቢያቸው እየተከናወኑ አለመሆናቸውንም ለዶቼ ቬለ ተናግረዋል።",
|
| 102 |
+
"የሕዝብ ተወካዮች ምክር ቤት አባል እና የቋሚ ኮሚቴ ሰብሳቢ የነበሩት አቶ ክርስቲያን ታደለ እና የአማራ ክልል ምክር ቤት አባል የሆኑት አቶ ዮሐንስ ቧያለው ከቃሊቲ ወደ ቂሊንጦ ማረሚያ ቤት መዛወራቸውን ጠበቃቸው ተናገሩ።",
|
| 103 |
+
"ከ15 የተባበሩት መንግሥታት የጸጥታ ጥበቃ ምክር ቤት አባላት መካከል ትላንት ዓርብ በነበረው ድምጽ አሰጣጥ ዘጠኙ የውሳኔ ሐሳቡን ደግፈዋል። የውሳኔ ሐሳቡ ያገኘው የድጋፍ ድምጽ ለመጽደቅ ከሚያስፈልገው ዝቅተኛው ነው። ስድስት ሀገራት ማለትም ሩሲያ፣ ቻይና፣ አልጄሪያ፣ ሴራ ሊዮን፣ ሶማሊያ እና ፓኪስታን ድምጸ ተዓቅቦ አድርገዋል።",
|
| 104 |
+
]
|
| 105 |
|
| 106 |
documents_embeddings = model.encode(
|
| 107 |
documents,
|
|
|
|
| 138 |
|
| 139 |
# Step 2: Encode the queries
|
| 140 |
queries_embeddings = model.encode(
|
| 141 |
+
[
|
| 142 |
+
"የጸጥታ ጥበቃው ምክር ቤት በደቡብ ሱዳን ላይ የተጣለውን የጦር መሣሪያ ማዕቀብ ለዓመት አራዘመ",
|
| 143 |
+
"የተደጋገመው የመሬት መንቀጥቀጥና የእሳተ ገሞራ ምልክት በአፋር ክልል"
|
| 144 |
+
],
|
| 145 |
batch_size=32,
|
| 146 |
is_query=True, # # Ensure that it is set to False to indicate that these are queries
|
| 147 |
show_progress_bar=True,
|
|
|
|
| 161 |
from pylate import rank, models
|
| 162 |
|
| 163 |
queries = [
|
| 164 |
+
"የጸጥታ ጥበቃው ምክር ቤት በደቡብ ሱዳን ላይ የተጣለውን የጦር መሣሪያ ማዕቀብ ለዓመት አራዘመ",
|
|
|
|
| 165 |
]
|
| 166 |
|
| 167 |
documents = [
|
| 168 |
+
[
|
| 169 |
+
"አስመላሽ ተካ ለኢትዮጵያ ቋንቋዎች የማሽን ትርጉም አገልግሎት የሚያቀርበው ልሳን ኩባንያ ተባባሪ መሥራች ነው። መቀመጫውን በርሊን ያደረገው ልሳን በሥራው ከአርቴፊሺያል ኢንተለጀንስ ጋር በጥብቅ ይተሳሰራል። አስመላሽ የአንድ ለአንድ እንግዳ ነው። አሜሪካ እና ቻይና ስለሚወዳደሩበት ቴክኖሎጂ እና ለአፍሪካ ስለሚኖረው ፋይዳ እሸቴ በቀለ አነጋግሮታል።",
|
| 170 |
+
"በማዕከላዊ ኢትዮጵያ ክልል ሃድያ ዞን ጊቤ ወረዳ በሚገኙ 12 ቀበሌዎች መሠረታዊ የመንግሥት አገልግሎት መስጫ ተቋማት በሙሉና በከፊል በመዘጋታቸው መቸገራቸውን ነዋሪዎች አመለከቱ። ከባለፈው ዓመት ጀምሮ የጤና፣ የትምህርት እና የግብር አሰባሰብ ሥራዎች በየአካባቢያቸው እየተከናወኑ አለመሆናቸውንም ለዶቼ ቬለ ተናግረዋል።",
|
| 171 |
+
"የሕዝብ ተወካዮች ምክር ቤት አባል እና የቋሚ ኮሚቴ ሰብሳቢ የነበሩት አቶ ክርስቲያን ታደለ እና የአማራ ክልል ምክር ቤት አባል የሆኑት አቶ ዮሐንስ ቧያለው ከቃሊቲ ወደ ቂሊንጦ ማረሚያ ቤት መዛወራቸውን ጠበቃቸው ተናገሩ።",
|
| 172 |
+
"ከተደጋጋሚ መሬት መንቀጥቀጥ በኋላ አፋር ክልል እሳት ከመሬት ውስጥ ሲፈላ ታይቷል፡፡ ከመሬት ውስጥ እሳትና ጭስ የሚተፋው እንፋሎቱ ዛሬ ማለዳውን 11 ሰዓት ግድም ከከባድ ፍንዳታ በኋላየተስተዋለ መሆኑን የአከባቢው ነዋሪዎች እና ባለስልጣናት ለዶቼ ቬለ ተናግረዋል፡፡ አለት የሚያፈናጥር እሳት ነው የተባለው እንፋሎቱ በክልሉ ጋቢረሱ (ዞን 03) ዱለቻ ወረዳ ሰጋንቶ ቀበሌ መከሰቱን የገለጹት የአከባቢው የአይን እማኞች ከዋናው ፍንዳታ በተጨማሪ በዙሪያው ተጨማሪ ፍንዳታዎች መታየት ቀጥሏል ባይ ናቸው፡፡",
|
| 173 |
+
"ከ15 የተባበሩት መንግሥታት የጸጥታ ጥበቃ ምክር ቤት አባላት መካከል ትላንት ዓርብ በነበረው ድምጽ አሰጣጥ ዘጠኙ የውሳኔ ሐሳቡን ደግፈዋል። የውሳኔ ሐሳቡ ያገኘው የድጋፍ ድምጽ ለመጽደቅ ከሚያስፈልገው ዝቅተኛው ነው። ስድስት ሀገራት ማለትም ሩሲያ፣ ቻይና፣ አልጄሪያ፣ ሴራ ሊዮን፣ ሶማሊያ እና ፓኪስታን ድምጸ ተዓቅቦ አድርገዋል።",
|
| 174 |
+
]
|
| 175 |
]
|
| 176 |
|
| 177 |
documents_ids = [
|
| 178 |
+
[1, 2, 3, 4, 5],
|
|
|
|
| 179 |
]
|
| 180 |
|
| 181 |
model = models.ColBERT(
|
| 182 |
+
model_name_or_path="rasyosef/colbert-amharic-medium",
|
| 183 |
)
|
| 184 |
|
| 185 |
queries_embeddings = model.encode(
|
|
|
|
| 249 |
|
| 250 |
## Training Details
|
| 251 |
|
| 252 |
+
<details>
|
| 253 |
+
|
| 254 |
### Training Dataset
|
| 255 |
|
| 256 |
#### Unnamed Dataset
|
|
|
|
| 480 |
- Datasets: 3.6.0
|
| 481 |
- Tokenizers: 0.21.1
|
| 482 |
|
| 483 |
+
</details>
|
| 484 |
|
| 485 |
## Citation
|
| 486 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 487 |
|
| 488 |
<!--
|
| 489 |
## Glossary
|