rasyosef commited on
Commit
82704ec
·
verified ·
1 Parent(s): 8194258

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +30 -36
README.md CHANGED
@@ -26,9 +26,12 @@ model-index:
26
  - type: accuracy
27
  value: 0.9816875457763672
28
  name: Accuracy
 
 
 
29
  ---
30
 
31
- # PyLate model based on rasyosef/roberta-medium-amharic
32
 
33
  This is a [PyLate](https://github.com/lightonai/pylate) model finetuned from [rasyosef/roberta-medium-amharic](https://huggingface.co/rasyosef/roberta-medium-amharic). It maps sentences & paragraphs to sequences of 128-dimensional dense vectors and can be used for semantic textual similarity using the MaxSim operator.
34
 
@@ -80,7 +83,7 @@ from pylate import indexes, models, retrieve
80
 
81
  # Step 1: Load the ColBERT model
82
  model = models.ColBERT(
83
- model_name_or_path=rasyosef/ColBERT-Amharic-Medium,
84
  )
85
 
86
  # Step 2: Initialize the Voyager index
@@ -91,8 +94,14 @@ index = indexes.Voyager(
91
  )
92
 
93
  # Step 3: Encode the documents
94
- documents_ids = ["1", "2", "3"]
95
- documents = ["document 1 text", "document 2 text", "document 3 text"]
 
 
 
 
 
 
96
 
97
  documents_embeddings = model.encode(
98
  documents,
@@ -129,7 +138,10 @@ retriever = retrieve.ColBERT(index=index)
129
 
130
  # Step 2: Encode the queries
131
  queries_embeddings = model.encode(
132
- ["query for document 3", "query for document 1"],
 
 
 
133
  batch_size=32,
134
  is_query=True, # # Ensure that it is set to False to indicate that these are queries
135
  show_progress_bar=True,
@@ -149,22 +161,25 @@ If you only want to use the ColBERT model to perform reranking on top of your fi
149
  from pylate import rank, models
150
 
151
  queries = [
152
- "query A",
153
- "query B",
154
  ]
155
 
156
  documents = [
157
- ["document A", "document B"],
158
- ["document 1", "document C", "document B"],
 
 
 
 
 
159
  ]
160
 
161
  documents_ids = [
162
- [1, 2],
163
- [1, 3, 2],
164
  ]
165
 
166
  model = models.ColBERT(
167
- model_name_or_path=rasyosef/ColBERT-Amharic-Medium,
168
  )
169
 
170
  queries_embeddings = model.encode(
@@ -234,6 +249,8 @@ You can finetune this model on your own dataset.
234
 
235
  ## Training Details
236
 
 
 
237
  ### Training Dataset
238
 
239
  #### Unnamed Dataset
@@ -463,33 +480,10 @@ You can finetune this model on your own dataset.
463
  - Datasets: 3.6.0
464
  - Tokenizers: 0.21.1
465
 
 
466
 
467
  ## Citation
468
 
469
- ### BibTeX
470
-
471
- #### Sentence Transformers
472
- ```bibtex
473
- @inproceedings{reimers-2019-sentence-bert,
474
- title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
475
- author = "Reimers, Nils and Gurevych, Iryna",
476
- booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
477
- month = "11",
478
- year = "2019",
479
- publisher = "Association for Computational Linguistics",
480
- url = "https://arxiv.org/abs/1908.10084"
481
- }
482
- ```
483
-
484
- #### PyLate
485
- ```bibtex
486
- @misc{PyLate,
487
- title={PyLate: Flexible Training and Retrieval for Late Interaction Models},
488
- author={Chaffin, Antoine and Sourty, Raphaël},
489
- url={https://github.com/lightonai/pylate},
490
- year={2024}
491
- }
492
- ```
493
 
494
  <!--
495
  ## Glossary
 
26
  - type: accuracy
27
  value: 0.9816875457763672
28
  name: Accuracy
29
+ license: mit
30
+ datasets:
31
+ - rasyosef/Amharic-Passage-Retrieval-Dataset-V2
32
  ---
33
 
34
+ # ColBERT-Amharic-Medium
35
 
36
  This is a [PyLate](https://github.com/lightonai/pylate) model finetuned from [rasyosef/roberta-medium-amharic](https://huggingface.co/rasyosef/roberta-medium-amharic). It maps sentences & paragraphs to sequences of 128-dimensional dense vectors and can be used for semantic textual similarity using the MaxSim operator.
37
 
 
83
 
84
  # Step 1: Load the ColBERT model
85
  model = models.ColBERT(
86
+ model_name_or_path="rasyosef/colbert-amharic-medium",
87
  )
88
 
89
  # Step 2: Initialize the Voyager index
 
94
  )
95
 
96
  # Step 3: Encode the documents
97
+ documents_ids = ["1", "2", "3", "4", "5"]
98
+ documents = [
99
+ "አስመላሽ ተካ ለኢትዮጵያ ቋንቋዎች የማሽን ትርጉም አገልግሎት የሚያቀርበው ልሳን ኩባንያ ተባባሪ መሥራች ነው። መቀመጫውን በርሊን ያደረገው ልሳን በሥራው ከአርቴፊሺያል ኢንተለጀንስ ጋር በጥብቅ ይተሳሰራል። አስመላሽ የአንድ ለአንድ እንግዳ ነው። አሜሪካ እና ቻይና ስለሚወዳደሩበት ቴክኖሎጂ እና ለአፍሪካ ስለሚኖረው ፋይዳ እሸቴ በቀለ አነጋግሮታል።",
100
+ "ከተደጋጋሚ መሬት መንቀጥቀጥ በኋላ አፋር ክልል እሳት ከመሬት ውስጥ ሲፈላ ታይቷል፡፡ ከመሬት ውስጥ እሳትና ጭስ የሚተፋው እንፋሎቱ ዛሬ ማለዳውን 11 ሰዓት ግድም ከከባድ ፍንዳታ በኋላየተስተዋለ መሆኑን የአከባቢው ነዋሪዎች እና ባለስልጣናት ለዶቼ ቬለ ተናግረዋል፡፡ አለት የሚያፈናጥር እሳት ነው የተባለው እንፋሎቱ በክልሉ ጋቢረሱ (ዞን 03) ዱለቻ ወረዳ ሰጋንቶ ቀበሌ መከሰቱን የገለጹት የአከባቢው የአይን እማኞች ከዋናው ፍንዳታ በተጨማሪ በዙሪያው ተጨማሪ ፍንዳታዎች መታየት ቀጥሏል ባይ ናቸው፡፡",
101
+ "በማዕከላዊ ኢትዮጵያ ክልል ሃድያ ዞን ጊቤ ወረዳ በሚገኙ 12 ቀበሌዎች መሠረታዊ የመንግሥት አገልግሎት መስጫ ተቋማት በሙሉና በከፊል በመዘጋታቸው መቸገራቸውን ነዋሪዎች አመለከቱ። ከባለፈው ዓመት ጀምሮ የጤና፣ የትምህርት እና የግብር አሰባሰብ ሥራዎች በየአካባቢያቸው እየተከናወኑ አለመሆናቸውንም ለዶቼ ቬለ ተናግረዋል።",
102
+ "የሕዝብ ተወካዮች ምክር ቤት አባል እና የቋሚ ኮሚቴ ሰብሳቢ የነበሩት አቶ ክርስቲያን ታደለ እና የአማራ ክልል ምክር ቤት አባል የሆኑት አቶ ዮሐንስ ቧያለው ከቃሊቲ ወደ ቂሊንጦ ማረሚያ ቤት መዛወራቸውን ጠበቃቸው ተናገሩ።",
103
+ "ከ15 የተባበሩት መንግሥታት የጸጥታ ጥበቃ ምክር ቤት አባላት መካከል ትላንት ዓርብ በነበረው ድምጽ አሰጣጥ ዘጠኙ የውሳኔ ሐሳቡን ደግፈዋል። የውሳኔ ሐሳቡ ያገኘው የድጋፍ ድምጽ ለመጽደቅ ከሚያስፈልገው ዝቅተኛው ነው። ስድስት ሀገራት ማለትም ሩሲያ፣ ቻይና፣ አልጄሪያ፣ ሴራ ሊዮን፣ ሶማሊያ እና ፓኪስታን ድምጸ ተዓቅቦ አድርገዋል።",
104
+ ]
105
 
106
  documents_embeddings = model.encode(
107
  documents,
 
138
 
139
  # Step 2: Encode the queries
140
  queries_embeddings = model.encode(
141
+ [
142
+ "የጸጥታ ጥበቃው ምክር ቤት በደቡብ ሱዳን ላይ የተጣለውን የጦር መሣሪያ ማዕቀብ ለዓመት አራዘመ",
143
+ "የተደጋገመው የመሬት መንቀጥቀጥና የእሳተ ገሞራ ምልክት በአፋር ክልል"
144
+ ],
145
  batch_size=32,
146
  is_query=True, # # Ensure that it is set to False to indicate that these are queries
147
  show_progress_bar=True,
 
161
  from pylate import rank, models
162
 
163
  queries = [
164
+ "የጸጥታ ጥበቃው ምክር ቤት በደቡብ ሱዳን ላይ የተጣለውን የጦር መሣሪያ ማዕቀብ ለዓመት አራዘመ",
 
165
  ]
166
 
167
  documents = [
168
+ [
169
+ "አስመላሽ ተካ ለኢትዮጵያ ቋንቋዎች የማሽን ትርጉም አገልግሎት የሚያቀርበው ልሳን ኩባንያ ተባባሪ መሥራች ነው። መቀመጫውን በርሊን ያደረገው ልሳን በሥራው ከአርቴፊሺያል ኢንተለጀንስ ጋር በጥብቅ ይተሳሰራል። አስመላሽ የአንድ ለአንድ እንግዳ ነው። አሜሪካ እና ቻይና ስለሚወዳደሩበት ቴክኖሎጂ እና ለአፍሪካ ስለሚኖረው ፋይዳ እሸቴ በቀለ አነጋግሮታል።",
170
+ "በማዕከላዊ ኢትዮጵያ ክልል ሃድያ ዞን ጊቤ ወረዳ በሚገኙ 12 ቀበሌዎች መሠረታዊ የመንግሥት አገልግሎት መስጫ ተቋማት በሙሉና በከፊል በመዘጋታቸው መቸገራቸውን ነዋሪዎች አመለከቱ። ከባለፈው ዓመት ጀምሮ የጤና፣ የትምህርት እና የግብር አሰባሰብ ሥራዎች በየአካባቢያቸው እየተከናወኑ አለመሆናቸውንም ለዶቼ ቬለ ተናግረዋል።",
171
+ "የሕዝብ ተወካዮች ምክር ቤት አባል እና የቋሚ ኮሚቴ ሰብሳቢ የነበሩት አቶ ክርስቲያን ታደለ እና የአማራ ክልል ምክር ቤት አባል የሆኑት አቶ ዮሐንስ ቧያለው ከቃሊቲ ወደ ቂሊንጦ ማረሚያ ቤት መዛወራቸውን ጠበቃቸው ተናገሩ።",
172
+ "ከተደጋጋሚ መሬት መንቀጥቀጥ በኋላ አፋር ክልል እሳት ከመሬት ውስጥ ሲፈላ ታይቷል፡፡ ከመሬት ውስጥ እሳትና ጭስ የሚተፋው እንፋሎቱ ዛሬ ማለዳውን 11 ሰዓት ግድም ከከባድ ፍንዳታ በኋላየተስተዋለ መሆኑን የአከባቢው ነዋሪዎች እና ባለስልጣናት ለዶቼ ቬለ ተናግረዋል፡፡ አለት የሚያፈናጥር እሳት ነው የተባለው እንፋሎቱ በክልሉ ጋቢረሱ (ዞን 03) ዱለቻ ወረዳ ሰጋንቶ ቀበሌ መከሰቱን የገለጹት የአከባቢው የአይን እማኞች ከዋናው ፍንዳታ በተጨማሪ በዙሪያው ተጨማሪ ፍንዳታዎች መታየት ቀጥሏል ባይ ናቸው፡፡",
173
+ "ከ15 የተባበሩት መንግሥታት የጸጥታ ጥበቃ ምክር ቤት አባላት መካከል ትላንት ዓርብ በነበረው ድምጽ አሰጣጥ ዘጠኙ የውሳኔ ሐሳቡን ደግፈዋል። የውሳኔ ሐሳቡ ያገኘው የድጋፍ ድምጽ ለመጽደቅ ከሚያስፈልገው ዝቅተኛው ነው። ስድስት ሀገራት ማለትም ሩሲያ፣ ቻይና፣ አልጄሪያ፣ ሴራ ሊዮን፣ ሶማሊያ እና ፓኪስታን ድምጸ ተዓቅቦ አድርገዋል።",
174
+ ]
175
  ]
176
 
177
  documents_ids = [
178
+ [1, 2, 3, 4, 5],
 
179
  ]
180
 
181
  model = models.ColBERT(
182
+ model_name_or_path="rasyosef/colbert-amharic-medium",
183
  )
184
 
185
  queries_embeddings = model.encode(
 
249
 
250
  ## Training Details
251
 
252
+ <details>
253
+
254
  ### Training Dataset
255
 
256
  #### Unnamed Dataset
 
480
  - Datasets: 3.6.0
481
  - Tokenizers: 0.21.1
482
 
483
+ </details>
484
 
485
  ## Citation
486
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
487
 
488
  <!--
489
  ## Glossary