rasyosef/Amharic-Passage-Retrieval-Dataset-V2
Viewer • Updated • 68.3k • 70
How to use rasyosef/reranker-amharic-medium with sentence-transformers:
from sentence_transformers import CrossEncoder
model = CrossEncoder("rasyosef/reranker-amharic-medium")
query = "Which planet is known as the Red Planet?"
passages = [
"Venus is often called Earth's twin because of its similar size and proximity.",
"Mars, known for its reddish appearance, is often referred to as the Red Planet.",
"Jupiter, the largest planet in our solar system, has a prominent red spot.",
"Saturn, famous for its rings, is sometimes mistaken for the Red Planet."
]
scores = model.predict([(query, passage) for passage in passages])
print(scores)This is a Cross Encoder model finetuned from rasyosef/roberta-medium-amharic using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import CrossEncoder
# Download from the 🤗 Hub
model = CrossEncoder("rasyosef/reranker-amharic-medium")
# Get scores for pairs of texts
pairs = [
['ለውጭ ገበያ በሚቀርበው የኢትዮጵያ ቡና ላይ የተጋረጠው ፈተና', 'የኢትዮጵያ ዋነኛ የውጭ ምንዛሬ ምንጭ የሆነው ወደ ውጭ የሚላክ ቡና ዘርፍ በአሁኑ ጊዜ ከፍተኛ ውጥረት ውስጥ ገብቷል። በዚህ የተነሳም የኢትዮጵያ ቡናና ሻይ ባለሥልጣንን ጨምሮ የሚመላካታቸው ሁሉ ቡና ላኪዎችና አምራቾች ያከማቹትን ቡና በፍጥነት ወደ ዓለም ገበያ እንዲያወጡ ጥሪ እያቀረቡ ነው ።'],
['ለውጭ ገበያ በሚቀርበው የኢትዮጵያ ቡና ላይ የተጋረጠው ፈተና', 'የቻይናው ፕሬዝዳንት ዚ ጂንፒንግ ከትራምፕ ጋር ባደረጉት ጉባኤ ትኩረታቸው በሁለቱ ሀገራት መካከል ለወራት ከተፈጠረ ውጥረት እና የንግድ ጦርነት በኋላ የተረገጋጋ ግንኙነትን ማስቀጠል ነበር። ከፑቲን ጋር ደግሞ ዢ ለሁለቱ አገራት ስልታዊም ሆነ ኢኮኖሚያዊ ጠቀሜታ ረጅም ጊዜ የዘለቀውን አጋርነትን ይበልጥ ማጠናከር ላይ ነበር ትኩረታቸው።']
]
scores = model.predict(pairs)
print(scores.shape)
# (2,)
# Or rank different texts based on similarity to a single text
ranks = model.rank(
'ለውጭ ገበያ በሚቀርበው የኢትዮጵያ ቡና ላይ የተጋረጠው ፈተና',
[
'የኢትዮጵያ ዋነኛ የውጭ ምንዛሬ ምንጭ የሆነው ወደ ውጭ የሚላክ ቡና ዘርፍ በአሁኑ ጊዜ ከፍተኛ ውጥረት ውስጥ ገብቷል። በዚህ የተነሳም የኢትዮጵያ ቡናና ሻይ ባለሥልጣንን ጨምሮ የሚመላካታቸው ሁሉ ቡና ላኪዎችና አምራቾች ያከማቹትን ቡና በፍጥነት ወደ ዓለም ገበያ እንዲያወጡ ጥሪ እያቀረቡ ነው ።',
'የቻይናው ፕሬዝዳንት ዚ ጂንፒንግ ከትራምፕ ጋር ባደረጉት ጉባኤ ትኩረታቸው በሁለቱ ሀገራት መካከል ለወራት ከተፈጠረ ውጥረት እና የንግድ ጦርነት በኋላ የተረገጋጋ ግንኙነትን ማስቀጠል ነበር። ከፑቲን ጋር ደግሞ ዢ ለሁለቱ አገራት ስልታዊም ሆነ ኢኮኖሚያዊ ጠቀሜታ ረጅም ጊዜ የዘለቀውን አጋርነትን ይበልጥ ማጠናከር ላይ ነበር ትኩረታቸው።',
]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
amh-passage-retrieval-devCrossEncoderRerankingEvaluator with these parameters:{
"at_k": 10
}
| Metric | Value |
|---|---|
| mrr@10 | 0.805 |
| ndcg@10 | 0.835 |
query, passage, and label| query | passage | label | |
|---|---|---|---|
| type | string | string | int |
| details |
|
|
|
| query | passage | label |
|---|---|---|
በባሌ፣ ቦረና እና ጉጂ ዞኖች የተከሰተውን የበርሃ አንበጣ ለመከላከል ተጨማሪ አውሮፕላኖች ወደ ስፍራው ይሰማራሉ |
አዲስ አበባ ፣ ታህሳስ 27 ፣ 2012 (ኤፍ ቢ ሲ) የጃፓኑ ጠቅላይ ሚኒስትር ሺንዞ አቤ በመካከለኛው ምስራቅ ሃይል የማስፈር እቅድ እንዳላቸው በድጋሚ ገለጹ።ጠቅላይ ሚኒስትሩ በአካባቢው የሚንቀሳቀሱ የጃፓን መርከቦችን ደህንነት ለማረጋገጥ በስፍራው ሃይል የማስፈር እቅድ እንዳላቸው ገልጸዋል።ባለፈው ወር ጃፓን ወደ መካከለኛው ምስራቅ የጦር መርከቦችን እና ቃኝ አውሮፕላኖችን እንደምትልክ ገልጻ ነበር።የሃገሪቱ መከላከያ ሚኒስቴርም ቃኝ አውሮፕላኖቹ በተያዘው የፈረንጆቹ ጥር ወር ወደ ስፍራው እንደሚያቀኑ ገልጿል።የካቲት ወር ላይ ደግሞ የጦር መርከቦችን ወደ ስፍራው አንቀሳቅሳለሁ ብሏል።የአሁኑ የቶኪዮ እቅድ በመካከለኛው ምስራቅ የባህር ክልል የሚንቀሳቀሱ የጃፓን መርከቦችን ከጥቃት ለመከላከልና ደህንነታቸውን ለማረጋገጥ ያለመ ነው ተብሏል።አቤ በንግግራቸው በመካከለኛው ምስራቅ ያለው ወቅታዊ ሁኔታ እንዳሳሰባቸው ጠቅሰው፥ ሃገራትም አላስፈላጊ ውጥረትን እንዲያስወግዱ ጥሪ አቅርበዋል።አሜሪካ ባለፈው ዓርብ የኢራን ብሄራዊ አብዮት ዘብ ጠባቂ ሃይል አዛዥን በባግዳድ አውሮፕላን ማረፊያ ከገደለች በኋላ በመካከለኛው ምስራቅ ውጥረት ነግሷል።ኢራን ለአሜሪካ እርምጃ ከባድ አፀፋዊ ምላሽ እሰጣለሁ ስትል፥ የአሜሪካው ፕሬዚዳንት ዶናልድ ትራምፕም አሜሪካ የከፋ እርምጃ እንደምትወስድ አስጠንቅቀዋል።ምንጭ፦ ሬውተርስ |
0 |
ወጣቱ ምንጫቸው ባልተረጋገጠ የማኅበራዊ ሚዲያ መረጃዎች ላይ በመጠመዱ የንባብ ባህሉ መቀነሱን የእንጅባራ ከተማ ነዋሪዎቸ ተናገሩ፡፡ |
ባሕር ዳር፡ ግንቦት 21/2012 ዓ.ም (አብመድ) የኮሮና ቫይረስ ወረርሽኝ የትምህርት ተቋማት ተማሪዎቻቸውን እንዲበትኑ አስገድዷቸዋል፡፡ተማሪዎቹን ከትምህርት ገበታቸው ማስተጓጎሉ አሉታዊ ተፅዕኖው የከፋ ቢሆንም ስለወረርሽኑ ግንዘቤ በመፍጠር ረገድ ወደ መልካም ዕድል እየቀየሩት ያሉ አሉ፡፡ወደ ሰሜን ሸዋ ዞን በረኸት ወረዳ ባቀናንበት ወቅት ያገኘናቸው ከተለያዩ የሀገሪቱ አቅጣጫዎች ወደ ቤተሰቦቻቸው የተመለሱ ተማሪዎች እጃቸውን አጣጥፈው አልተቀመጡም፡፡ ተማሪዎቹ ለኅብረተሰቡ ስለኮሮና ቫይረስ ወረርሽኝ የሚያወቁትን እያሳወቁ ነው፡፡ተማሪ ሄኖክ ወርቁ በወላይታ ሶዶ ዩኒቨርሲቲ የሦስተኛ ዓመት የጋዜጠኝነት እና ሥነ ተግባቦት ትምህርት ክፍል ተማሪ ነው፡፡ ሄኖክ ወደ ትውልድ ቀዬው ከተመለሰ ጊዜ ጀምሮ የተለያዩ የመገናኛ ዘዴዎችን በመጠቀም ስለኮሮና ቫይረስ ወረርሽኝ ቅድመ መከላከል ከመንግሥት እና ከጤና ባለሙያዎች የሚወጡ መልእክቶችን ለኅብረተሰቡ እያስገነዘበ ነው፡፡ የግንዛቤ ፈጠራውን በ‘ሚኒ ሚዲያ’፣ በገበያ እና ሰዎች በሚሰባሰቡባቸው ቦታዎች በመገኘት ከጓደኞቹ ጋር እንደሚሠሩም ተናግሯል፡፡ ከግንዛቤ ፈጠራ ጎን ለጎን ደግሞ የዚህ ዓመት ተመራቂ ተማሪ እንደመሆኑ መጠን ጥናታዊ ጽሑፉን እየሠራ ጊዜውን በአግባባቡ እየተጠቀመ እንደሚገኝ ገልጿል፡፡ሌላኛው ያነጋገርነው ተማሪ አብርሃም ገብረኪዳን በወላይታ ሶዶ ዩኒቨርሲቲ ሦስተኛ ዓመት የሕግ ተማሪ ነው፡፡ ኅብረተሰቡ ለኮሮና ቫይረስ ወረርሽኝ እንዳይጋለጥ ሰፈር ለሰፈር፣ በገበያ ቀን ከወረዳው መዲና መተህብላ ከተማ መግቢያና መውጫ አካባቢዎች እጅ እንዲታጠቡ ከማድረግ ጀምሮ የወረርሽኙን ቅድመ መከላከል መልእክቶች በድምጽ ማጉያ (ሞንታርቦ) ተጠቅመው እያስተላለፉ እንደሆነ ተናግሯል፡፡ ተማሪዎቹ በሚያደርጉት የቅስቀሳ ግንዛቤ ማስጨበጫ ሥ... |
0 |
አዳማ ከተማ ከ ኢትዮጵያ ቡና – ቀጥታ የፅሁፍ ስርጭት |
79′ አዲስ ግደይተጠናቀቀ!ጨዋታው በሲዳማ ቡና አሸናፊነት ተጠናቀቀ፡፡ ሲዳ በድቻ ላይ ያለውን የበላይነት ሲያከብር ዘንድሮ በሜዳው ያለውን 100% ሪኮርድም አስጠብቋል፡፡ተጨማሪ ደቂቃ – 4 ደቂቃቢጫ ካርድ88′ ዳግም በቀለ አዲስ ግደይ ላይ በሰራው ጥፋት ቢጫ ካርድ ተመልክቷል፡፡ በሁኔታውም ለአለም ብርሃኑ አላስፈላጊ ድርጊት በመፈፀሙ ቢጫ ተመልክቷል፡፡84′ ዳግም በቀለ ከማዕዘን የተሻማውን ኳስ በግንባሩ ገጭቶ ለጥቂት ወጣበት፡፡ የሚያስቆጭ አጋጣሚ !የተጫዋቸ ለውጥ – ሲዳማ ቡና81′ በረከት አዲሱ ወጥቶ ሙጃይድ መሃመድ ገብቷል፡፡የተጫዋች ለውጥ – ወላይታ ድቻ አናጋው ባደግ ወጥቶ አብዱልሰመድ አሊ ገብቷል፡፡ጎልልል!!! ሲዳማ ቡና79′ አዲስ ግደይ ከኤሪክ ሙራንዳ የተሻገረለትን ኳስ በግንባሩ ገጭቶ ወደ ግብነት በመቀየር ሲዳማን መሪ አድርጓል፡፡77′ በዛብህ መለዮ ከርቀት በግራ እግሩ መሬት ለመሬት አክርሮ የመታው ኳስ ለጥቂት ወጣ፡፡ |
0 |
BinaryCrossEntropyLoss with these parameters:{
"activation_fn": "torch.nn.modules.linear.Identity",
"pos_weight": 7
}
eval_strategy: epochper_device_train_batch_size: 64per_device_eval_batch_size: 64learning_rate: 4e-05num_train_epochs: 4lr_scheduler_type: cosinewarmup_ratio: 0.05fp16: Truedataloader_num_workers: 2load_best_model_at_end: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: epochprediction_loss_only: Trueper_device_train_batch_size: 64per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 4e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 4max_steps: -1lr_scheduler_type: cosinelr_scheduler_kwargs: {}warmup_ratio: 0.05warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 2dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | amh-passage-retrieval-dev_ndcg@10 |
|---|---|---|---|
| -1 | -1 | - | 0.0898 |
| 1.0 | 7684 | 0.4048 | 0.8289 |
| 2.0 | 15368 | 0.2366 | 0.8546 |
| 3.0 | 23052 | 0.1588 | 0.8353 |
| 4.0 | 30736 | 0.1024 | 0.8551 |
| -1 | -1 | - | 0.8579 |
Base model
rasyosef/roberta-medium-amharic