CrossEncoder based on aubmindlab/bert-base-arabertv2

This is a Cross Encoder model finetuned from aubmindlab/bert-base-arabertv2 using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.

Model Details

Model Description

Model Sources

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import CrossEncoder

# Download from the 🤗 Hub
model = CrossEncoder("yoriis/arabert-tydi-quqa-ar")
# Get scores for pairs of texts
pairs = [
    ['من هو النبي الذي تكلم مع الهدهد؟', 'وإذ قال الله يا عيسى ابن مريم أأنت قلت للناس اتخذوني وأمي إلهين من دون الله قال سبحانك ما يكون لي أن أقول ما ليس لي بحق إن كنت قلته فقد علمته تعلم ما في نفسي ولا أعلم ما في نفسك إنك أنت علام الغيوب. ما قلت لهم إلا ما أمرتني به أن اعبدوا الله ربي وربكم وكنت عليهم شهيدا ما دمت فيهم فلما توفيتني كنت أنت الرقيب عليهم وأنت على كل شيء شهيد. إن تعذبهم فإنهم عبادك وإن تغفر لهم فإنك أنت العزيز الحكيم. قال الله هذا يوم ينفع الصادقين صدقهم لهم جنات تجري من تحتها الأنهار خالدين فيها أبدا رضي الله عنهم ورضوا عنه ذلك الفوز العظيم. لله ملك السماوات والأرض وما فيهن وهو على كل شيء قدير.'],
    ['هل الضوء هو النور في القرآن؟', 'الرحمن. علم القرآن. خلق الإنسان. علمه البيان. الشمس والقمر بحسبان. والنجم والشجر يسجدان. والسماء رفعها ووضع الميزان. ألا تطغوا في الميزان. وأقيموا الوزن بالقسط ولا تخسروا الميزان. والأرض وضعها للأنام. فيها فاكهة والنخل ذات الأكمام. والحب ذو العصف والريحان. فبأي آلاء ربكما تكذبان.'],
    ['ما هي أنواع الجهاد؟', 'كتب عليكم القتال وهو كره لكم وعسى أن تكرهوا شيئا وهو خير لكم وعسى أن تحبوا شيئا وهو شر لكم والله يعلم وأنتم لا تعلمون. يسألونك عن الشهر الحرام قتال فيه قل قتال فيه كبير وصد عن سبيل الله وكفر به والمسجد الحرام وإخراج أهله منه أكبر عند الله والفتنة أكبر من القتل ولا يزالون يقاتلونكم حتى يردوكم عن دينكم إن استطاعوا ومن يرتدد منكم عن دينه فيمت وهو كافر فأولئك حبطت أعمالهم في الدنيا والآخرة وأولئك أصحاب النار هم فيها خالدون. إن الذين آمنوا والذين هاجروا وجاهدوا في سبيل الله أولئك يرجون رحمت الله والله غفور رحيم.'],
    ['اتفاقية "سيداو" تقول لا يُسمح للرجل بتعدد الزوجات. كيف نرد على ذلك من نصوص القرآن؟ ', 'وما كان لمؤمن ولا مؤمنة إذا قضى الله ورسوله أمرا أن يكون لهم الخيرة من أمرهم ومن يعص الله ورسوله فقد ضل ضلالا مبينا. وإذ تقول للذي أنعم الله عليه وأنعمت عليه أمسك عليك زوجك واتق الله وتخفي في نفسك ما الله مبديه وتخشى الناس والله أحق أن تخشاه فلما قضى زيد منها وطرا زوجناكها لكي لا يكون على المؤمنين حرج في أزواج أدعيائهم إذا قضوا منهن وطرا وكان أمر الله مفعولا. ما كان على النبي من حرج فيما فرض الله له سنة الله في الذين خلوا من قبل وكان أمر الله قدرا مقدورا. الذين يبلغون رسالات الله ويخشونه ولا يخشون أحدا إلا الله وكفى بالله حسيبا. ما كان محمد أبا أحد من رجالكم ولكن رسول الله وخاتم النبيين وكان الله بكل شيء عليما.'],
    ['هل  لفظ (العام) مثل لفظ (السّنة) في القرآن؟', 'حم. تنزيل الكتاب من الله العزيز العليم. غافر الذنب وقابل التوب شديد العقاب ذي الطول لا إله إلا هو إليه المصير. ما يجادل في آيات الله إلا الذين كفروا فلا يغررك تقلبهم في البلاد.'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)

# Or rank different texts based on similarity to a single text
ranks = model.rank(
    'من هو النبي الذي تكلم مع الهدهد؟',
    [
        'وإذ قال الله يا عيسى ابن مريم أأنت قلت للناس اتخذوني وأمي إلهين من دون الله قال سبحانك ما يكون لي أن أقول ما ليس لي بحق إن كنت قلته فقد علمته تعلم ما في نفسي ولا أعلم ما في نفسك إنك أنت علام الغيوب. ما قلت لهم إلا ما أمرتني به أن اعبدوا الله ربي وربكم وكنت عليهم شهيدا ما دمت فيهم فلما توفيتني كنت أنت الرقيب عليهم وأنت على كل شيء شهيد. إن تعذبهم فإنهم عبادك وإن تغفر لهم فإنك أنت العزيز الحكيم. قال الله هذا يوم ينفع الصادقين صدقهم لهم جنات تجري من تحتها الأنهار خالدين فيها أبدا رضي الله عنهم ورضوا عنه ذلك الفوز العظيم. لله ملك السماوات والأرض وما فيهن وهو على كل شيء قدير.',
        'الرحمن. علم القرآن. خلق الإنسان. علمه البيان. الشمس والقمر بحسبان. والنجم والشجر يسجدان. والسماء رفعها ووضع الميزان. ألا تطغوا في الميزان. وأقيموا الوزن بالقسط ولا تخسروا الميزان. والأرض وضعها للأنام. فيها فاكهة والنخل ذات الأكمام. والحب ذو العصف والريحان. فبأي آلاء ربكما تكذبان.',
        'كتب عليكم القتال وهو كره لكم وعسى أن تكرهوا شيئا وهو خير لكم وعسى أن تحبوا شيئا وهو شر لكم والله يعلم وأنتم لا تعلمون. يسألونك عن الشهر الحرام قتال فيه قل قتال فيه كبير وصد عن سبيل الله وكفر به والمسجد الحرام وإخراج أهله منه أكبر عند الله والفتنة أكبر من القتل ولا يزالون يقاتلونكم حتى يردوكم عن دينكم إن استطاعوا ومن يرتدد منكم عن دينه فيمت وهو كافر فأولئك حبطت أعمالهم في الدنيا والآخرة وأولئك أصحاب النار هم فيها خالدون. إن الذين آمنوا والذين هاجروا وجاهدوا في سبيل الله أولئك يرجون رحمت الله والله غفور رحيم.',
        'وما كان لمؤمن ولا مؤمنة إذا قضى الله ورسوله أمرا أن يكون لهم الخيرة من أمرهم ومن يعص الله ورسوله فقد ضل ضلالا مبينا. وإذ تقول للذي أنعم الله عليه وأنعمت عليه أمسك عليك زوجك واتق الله وتخفي في نفسك ما الله مبديه وتخشى الناس والله أحق أن تخشاه فلما قضى زيد منها وطرا زوجناكها لكي لا يكون على المؤمنين حرج في أزواج أدعيائهم إذا قضوا منهن وطرا وكان أمر الله مفعولا. ما كان على النبي من حرج فيما فرض الله له سنة الله في الذين خلوا من قبل وكان أمر الله قدرا مقدورا. الذين يبلغون رسالات الله ويخشونه ولا يخشون أحدا إلا الله وكفى بالله حسيبا. ما كان محمد أبا أحد من رجالكم ولكن رسول الله وخاتم النبيين وكان الله بكل شيء عليما.',
        'حم. تنزيل الكتاب من الله العزيز العليم. غافر الذنب وقابل التوب شديد العقاب ذي الطول لا إله إلا هو إليه المصير. ما يجادل في آيات الله إلا الذين كفروا فلا يغررك تقلبهم في البلاد.',
    ]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 7,756 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 label
    type string string float
    details
    • min: 11 characters
    • mean: 41.15 characters
    • max: 201 characters
    • min: 47 characters
    • mean: 352.41 characters
    • max: 1086 characters
    • min: 0.0
    • mean: 0.16
    • max: 1.0
  • Samples:
    sentence_0 sentence_1 label
    من هو النبي الذي تكلم مع الهدهد؟ وإذ قال الله يا عيسى ابن مريم أأنت قلت للناس اتخذوني وأمي إلهين من دون الله قال سبحانك ما يكون لي أن أقول ما ليس لي بحق إن كنت قلته فقد علمته تعلم ما في نفسي ولا أعلم ما في نفسك إنك أنت علام الغيوب. ما قلت لهم إلا ما أمرتني به أن اعبدوا الله ربي وربكم وكنت عليهم شهيدا ما دمت فيهم فلما توفيتني كنت أنت الرقيب عليهم وأنت على كل شيء شهيد. إن تعذبهم فإنهم عبادك وإن تغفر لهم فإنك أنت العزيز الحكيم. قال الله هذا يوم ينفع الصادقين صدقهم لهم جنات تجري من تحتها الأنهار خالدين فيها أبدا رضي الله عنهم ورضوا عنه ذلك الفوز العظيم. لله ملك السماوات والأرض وما فيهن وهو على كل شيء قدير. 0.0
    هل الضوء هو النور في القرآن؟ الرحمن. علم القرآن. خلق الإنسان. علمه البيان. الشمس والقمر بحسبان. والنجم والشجر يسجدان. والسماء رفعها ووضع الميزان. ألا تطغوا في الميزان. وأقيموا الوزن بالقسط ولا تخسروا الميزان. والأرض وضعها للأنام. فيها فاكهة والنخل ذات الأكمام. والحب ذو العصف والريحان. فبأي آلاء ربكما تكذبان. 0.0
    ما هي أنواع الجهاد؟ كتب عليكم القتال وهو كره لكم وعسى أن تكرهوا شيئا وهو خير لكم وعسى أن تحبوا شيئا وهو شر لكم والله يعلم وأنتم لا تعلمون. يسألونك عن الشهر الحرام قتال فيه قل قتال فيه كبير وصد عن سبيل الله وكفر به والمسجد الحرام وإخراج أهله منه أكبر عند الله والفتنة أكبر من القتل ولا يزالون يقاتلونكم حتى يردوكم عن دينكم إن استطاعوا ومن يرتدد منكم عن دينه فيمت وهو كافر فأولئك حبطت أعمالهم في الدنيا والآخرة وأولئك أصحاب النار هم فيها خالدون. إن الذين آمنوا والذين هاجروا وجاهدوا في سبيل الله أولئك يرجون رحمت الله والله غفور رحيم. 0.0
  • Loss: BinaryCrossEntropyLoss with these parameters:
    {
        "activation_fn": "torch.nn.modules.linear.Identity",
        "pos_weight": null
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.5400 500 0.0274
1.0799 1000 0.0003
1.6199 1500 0.0001
2.1598 2000 0.0001
2.6998 2500 0.0001
0.7418 500 0.9666
1.4837 1000 0.3318
2.2255 1500 0.2711
2.9674 2000 0.2051

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.53.2
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.9.0
  • Datasets: 2.14.4
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
-
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for yoriis/arabert-tydi-quqa-ar

Finetuned
(69)
this model

Paper for yoriis/arabert-tydi-quqa-ar