SentenceTransformer based on jinaai/jina-embeddings-v5-text-nano-retrieval

This is a sentence-transformers model finetuned from jinaai/jina-embeddings-v5-text-nano-retrieval. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'EuroBertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("SalahAbdoNLP/jina-v5-nano-arabic-dict-v2")
# Run inference
queries = [
    "Query: \u0634\u064e\u064a\u0652\u0621 \u0645\u064f\u0633\u0652\u062a\u064e\u0642\u0650\u0644\u0651",
]
documents = [
    'Document: # (1) منفردًا؛ بمَعْزِل to live apart\n(2) على حدة Each argument was considered apart .\n(3) جانبًا [كقولك: joking apart أي: إذا وضعنا المُزاح جانبًا وتكلّمنا جدّيًّا]\n(4) بعيدًا بعضهم عن بعض Keep the children apart .\n(5) إلى أجزاء [كقولك to take a watch apart أي يفكِّك ساعة]\n(6) مستقلّ؛ منفصل a class apart .\nto know (or tell) apart : يميّز بين شيء وآخر.worlds apart : مختلف جدًا.\n\n## المورد الحديث (2008)\nEN: apart\n\n(1) منفردًا؛ بمَعْزِل to live apart\n(2) على حدة Each argument was considered apart .\n(3) جانبًا [كقولك: joking apart أي: إذا وضعنا المُزاح جانبًا وتكلّمنا جدّيًّا]\n(4) بعيدًا بعضهم عن بعض Keep the children apart .\n(5) إلى أجزاء [كقولك to take a watch apart أي يفكِّك ساعة]\n(6) مستقلّ؛ منفصل a class apart .\nto know (or tell) apart : يميّز بين شيء وآخر.worlds apart : مختلف جدًا.\n',
    'Document: # قرار فرديّ (جذر: قر)\n\n## المعجم الموحد لمصطلحات القانون (2017)\nEN: individual act\n',
    'Document: # كائِنٌ حَيّ (جذر: كن)\n\n## The Unified Medical Dictionary\n*المعجم الطبي الموحد (2009)*\nEN: bion\n\n## Civil Engineering\n*المعجم الموحد لمصطلحات الهندسة المدنية (2012)*\nEN: organism\n\n## Climate, Environment and Solid Waste management\n*مسرد المناخ والبيئة وإدارة النفايات الصلبة، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)*\nEN: organism\n\nشكل من أشكال الحياة: نبات أو حيوان أو فطريات أو بكتيريا.\n\n## Climate, Environment and Solid Waste management\n*مسرد المناخ والبيئة وإدارة النفايات الصلبة، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)*\nEN: organism\n\nنبات أو حيوان أو كائن وحيد الخلية أو أي شكل من أشكال الحياة، منظومة لها مكونات مترابطة ومتكاملة تمكن من تحقيق الاستمرارية عن طريق النمو والتكاتر.\n',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 768] [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.1914, 0.0386, 0.1167]])

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.5357
cosine_accuracy@3 0.7381
cosine_accuracy@5 0.8333
cosine_accuracy@10 0.869
cosine_precision@1 0.5357
cosine_precision@3 0.2976
cosine_precision@5 0.219
cosine_precision@10 0.1298
cosine_recall@1 0.3321
cosine_recall@3 0.5349
cosine_recall@5 0.6603
cosine_recall@10 0.7524
cosine_ndcg@10 0.6036
cosine_mrr@10 0.6492
cosine_map@100 0.5183

Training Details

Training Dataset

Unnamed Dataset

  • Size: 13,980 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 8 tokens
    • mean: 26.71 tokens
    • max: 47 tokens
    • min: 37 tokens
    • mean: 339.08 tokens
    • max: 512 tokens
    • min: 25 tokens
    • mean: 126.9 tokens
    • max: 512 tokens
  • Samples:
    anchor positive negative
    Query: كَيْنُونَة كِيَان — ما يُدرَك أو يُعرَف أو يُستدَلّ على وجوده المستقل، سواء أكان حيًّا أم غير حيّ Document: # كيان (جذر: كن)

    ## Data and AI Glossary
    معجم البيانات والذكاء الاصطناعي (2024)
    EN: Entity

    شيء مادي أو غير مادي يمكن التعرُّف عليه وتمييزه بوضوح.

    ## Dictionary of Information Technology Terms
    معجم مصطلحات المعلوماتية (2000)
    EN: entity

    في التصميم بمعونة الحاسوب والتصميم الغرضي التوجه: بندٌ يمكِن أن يعامَلَ كوحدة مستقلة، وغالباً كعضو من نوع أو صنف معيَّن.

    ## Education
    مسرد التربية، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    شيء أو حدث يخزن عنه بيان في قاعدة البيانات.

    ## Philosophy and Psychology
    مسرد الفلسفة وعلم النفس، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## Sociology and Anthropology
    مسرد علم الاجتماع والأنثروبولوجيا، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## The Unified Medical Dictionary
    المعجم الطبي الموحد (2009)
    EN: entity

    ## معجم المصطلحات الطبية (ج.2، 2003)
    معجم المصطلحات الطبية (ج.2، 2003)
    EN: entity

    حقيقة الشيء أو وجوده المستقل.

    ## Ahmad Mukhtar Umar, Muʿjam ...
    Document: # (1) كينونة؛ وجود
    (2) الكائنات مجتمعةً
    (3) كائن
    (4) حياة؛ بقاء struggle for existence
    (5) أسلوبُ حياةٍ.


    ## Al-Mawrid Al-Hadeeth
    المورد الحديث (2008)
    EN: existence

    (1) كينونة؛ وجود
    (2) الكائنات مجتمعةً
    (3) كائن
    (4) حياة؛ بقاء struggle for existence
    (5) أسلوبُ حياةٍ.
    Query: كَيْنُونَة كِيَان Document: # كيان (جذر: كن)

    ## Data and AI Glossary
    معجم البيانات والذكاء الاصطناعي (2024)
    EN: Entity

    شيء مادي أو غير مادي يمكن التعرُّف عليه وتمييزه بوضوح.

    ## Dictionary of Information Technology Terms
    معجم مصطلحات المعلوماتية (2000)
    EN: entity

    في التصميم بمعونة الحاسوب والتصميم الغرضي التوجه: بندٌ يمكِن أن يعامَلَ كوحدة مستقلة، وغالباً كعضو من نوع أو صنف معيَّن.

    ## Education
    مسرد التربية، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    شيء أو حدث يخزن عنه بيان في قاعدة البيانات.

    ## Philosophy and Psychology
    مسرد الفلسفة وعلم النفس، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## Sociology and Anthropology
    مسرد علم الاجتماع والأنثروبولوجيا، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## The Unified Medical Dictionary
    المعجم الطبي الموحد (2009)
    EN: entity

    ## معجم المصطلحات الطبية (ج.2، 2003)
    معجم المصطلحات الطبية (ج.2، 2003)
    EN: entity

    حقيقة الشيء أو وجوده المستقل.

    ## Ahmad Mukhtar Umar, Muʿjam ...
    Document: # (1) كينونة؛ وجود
    (2) الكائنات مجتمعةً
    (3) كائن
    (4) حياة؛ بقاء struggle for existence
    (5) أسلوبُ حياةٍ.


    ## Al-Mawrid Al-Hadeeth
    المورد الحديث (2008)
    EN: existence

    (1) كينونة؛ وجود
    (2) الكائنات مجتمعةً
    (3) كائن
    (4) حياة؛ بقاء struggle for existence
    (5) أسلوبُ حياةٍ.
    Query: ما يُدرَك أو يُعرَف أو يُستدَلّ على وجوده المستقل، سواء أكان حيًّا أم غير حيّ Document: # كيان (جذر: كن)

    ## Data and AI Glossary
    معجم البيانات والذكاء الاصطناعي (2024)
    EN: Entity

    شيء مادي أو غير مادي يمكن التعرُّف عليه وتمييزه بوضوح.

    ## Dictionary of Information Technology Terms
    معجم مصطلحات المعلوماتية (2000)
    EN: entity

    في التصميم بمعونة الحاسوب والتصميم الغرضي التوجه: بندٌ يمكِن أن يعامَلَ كوحدة مستقلة، وغالباً كعضو من نوع أو صنف معيَّن.

    ## Education
    مسرد التربية، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    شيء أو حدث يخزن عنه بيان في قاعدة البيانات.

    ## Philosophy and Psychology
    مسرد الفلسفة وعلم النفس، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## Sociology and Anthropology
    مسرد علم الاجتماع والأنثروبولوجيا، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## The Unified Medical Dictionary
    المعجم الطبي الموحد (2009)
    EN: entity

    ## معجم المصطلحات الطبية (ج.2، 2003)
    معجم المصطلحات الطبية (ج.2، 2003)
    EN: entity

    حقيقة الشيء أو وجوده المستقل.

    ## Ahmad Mukhtar Umar, Muʿjam ...
    Document: # (1) كينونة؛ وجود
    (2) الكائنات مجتمعةً
    (3) كائن
    (4) حياة؛ بقاء struggle for existence
    (5) أسلوبُ حياةٍ.


    ## Al-Mawrid Al-Hadeeth
    المورد الحديث (2008)
    EN: existence

    (1) كينونة؛ وجود
    (2) الكائنات مجتمعةً
    (3) كائن
    (4) حياة؛ بقاء struggle for existence
    (5) أسلوبُ حياةٍ.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CachedMultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64,
            32
        ],
        "matryoshka_weights": [
            1.0,
            1.0,
            1.0,
            1.0,
            1.0,
            1.0
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 4,536 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 12 tokens
    • mean: 26.65 tokens
    • max: 56 tokens
    • min: 41 tokens
    • mean: 283.31 tokens
    • max: 512 tokens
    • min: 27 tokens
    • mean: 129.24 tokens
    • max: 512 tokens
  • Samples:
    anchor positive negative
    Query: شَيْء مُسْتَقِلّ — كيان مستقلّ قائم بذاته ومنفصل عن غيره Document: # (1) منفردًا؛ بمَعْزِل to live apart
    (2) على حدة Each argument was considered apart .
    (3) جانبًا [كقولك: joking apart أي: إذا وضعنا المُزاح جانبًا وتكلّمنا جدّيًّا]
    (4) بعيدًا بعضهم عن بعض Keep the children apart .
    (5) إلى أجزاء [كقولك to take a watch apart أي يفكِّك ساعة]
    (6) مستقلّ؛ منفصل a class apart .
    to know (or tell) apart : يميّز بين شيء وآخر.worlds apart : مختلف جدًا.

    ## المورد الحديث (2008)
    EN: apart

    (1) منفردًا؛ بمَعْزِل to live apart
    (2) على حدة Each argument was considered apart .
    (3) جانبًا [كقولك: joking apart أي: إذا وضعنا المُزاح جانبًا وتكلّمنا جدّيًّا]
    (4) بعيدًا بعضهم عن بعض Keep the children apart .
    (5) إلى أجزاء [كقولك to take a watch apart أي يفكِّك ساعة]
    (6) مستقلّ؛ منفصل a class apart .
    to know (or tell) apart : يميّز بين شيء وآخر.worlds apart : مختلف جدًا.
    Document: # كيان (جذر: كن)

    ## مسرد التربية، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    شيء أو حدث يخزن عنه بيان في قاعدة البيانات.

    ## مسرد علم الاجتماع والأنثروبولوجيا، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## مسرد الفلسفة وعلم النفس، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## معجم مصطلحات المعلوماتية (2000)
    EN: entity

    في التصميم بمعونة الحاسوب والتصميم الغرضي التوجه: بندٌ يمكِن أن يعامَلَ كوحدة مستقلة، وغالباً كعضو من نوع أو صنف معيَّن.

    ## المعجم الطبي الموحد (2009)
    EN: entity

    ## معجم البيانات والذكاء الاصطناعي (2024)
    EN: Entity

    شيء مادي أو غير مادي يمكن التعرُّف عليه وتمييزه بوضوح.

    ## معجم المصطلحات الطبية (ج.2، 2003)
    EN: entity

    حقيقة الشيء أو وجوده المستقل.
    Query: شَيْء مُسْتَقِلّ Document: # (1) منفردًا؛ بمَعْزِل to live apart
    (2) على حدة Each argument was considered apart .
    (3) جانبًا [كقولك: joking apart أي: إذا وضعنا المُزاح جانبًا وتكلّمنا جدّيًّا]
    (4) بعيدًا بعضهم عن بعض Keep the children apart .
    (5) إلى أجزاء [كقولك to take a watch apart أي يفكِّك ساعة]
    (6) مستقلّ؛ منفصل a class apart .
    to know (or tell) apart : يميّز بين شيء وآخر.worlds apart : مختلف جدًا.

    ## المورد الحديث (2008)
    EN: apart

    (1) منفردًا؛ بمَعْزِل to live apart
    (2) على حدة Each argument was considered apart .
    (3) جانبًا [كقولك: joking apart أي: إذا وضعنا المُزاح جانبًا وتكلّمنا جدّيًّا]
    (4) بعيدًا بعضهم عن بعض Keep the children apart .
    (5) إلى أجزاء [كقولك to take a watch apart أي يفكِّك ساعة]
    (6) مستقلّ؛ منفصل a class apart .
    to know (or tell) apart : يميّز بين شيء وآخر.worlds apart : مختلف جدًا.
    Document: # كيان (جذر: كن)

    ## مسرد التربية، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    شيء أو حدث يخزن عنه بيان في قاعدة البيانات.

    ## مسرد علم الاجتماع والأنثروبولوجيا، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## مسرد الفلسفة وعلم النفس، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## معجم مصطلحات المعلوماتية (2000)
    EN: entity

    في التصميم بمعونة الحاسوب والتصميم الغرضي التوجه: بندٌ يمكِن أن يعامَلَ كوحدة مستقلة، وغالباً كعضو من نوع أو صنف معيَّن.

    ## المعجم الطبي الموحد (2009)
    EN: entity

    ## معجم البيانات والذكاء الاصطناعي (2024)
    EN: Entity

    شيء مادي أو غير مادي يمكن التعرُّف عليه وتمييزه بوضوح.

    ## معجم المصطلحات الطبية (ج.2، 2003)
    EN: entity

    حقيقة الشيء أو وجوده المستقل.
    Query: كيان مستقلّ قائم بذاته ومنفصل عن غيره Document: # (1) منفردًا؛ بمَعْزِل to live apart
    (2) على حدة Each argument was considered apart .
    (3) جانبًا [كقولك: joking apart أي: إذا وضعنا المُزاح جانبًا وتكلّمنا جدّيًّا]
    (4) بعيدًا بعضهم عن بعض Keep the children apart .
    (5) إلى أجزاء [كقولك to take a watch apart أي يفكِّك ساعة]
    (6) مستقلّ؛ منفصل a class apart .
    to know (or tell) apart : يميّز بين شيء وآخر.worlds apart : مختلف جدًا.

    ## المورد الحديث (2008)
    EN: apart

    (1) منفردًا؛ بمَعْزِل to live apart
    (2) على حدة Each argument was considered apart .
    (3) جانبًا [كقولك: joking apart أي: إذا وضعنا المُزاح جانبًا وتكلّمنا جدّيًّا]
    (4) بعيدًا بعضهم عن بعض Keep the children apart .
    (5) إلى أجزاء [كقولك to take a watch apart أي يفكِّك ساعة]
    (6) مستقلّ؛ منفصل a class apart .
    to know (or tell) apart : يميّز بين شيء وآخر.worlds apart : مختلف جدًا.
    Document: # كيان (جذر: كن)

    ## مسرد التربية، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    شيء أو حدث يخزن عنه بيان في قاعدة البيانات.

    ## مسرد علم الاجتماع والأنثروبولوجيا، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## مسرد الفلسفة وعلم النفس، المنظمة العربية للتربية والثقافة والعلوم (موقع ArabTerm)
    EN: entity

    ## معجم مصطلحات المعلوماتية (2000)
    EN: entity

    في التصميم بمعونة الحاسوب والتصميم الغرضي التوجه: بندٌ يمكِن أن يعامَلَ كوحدة مستقلة، وغالباً كعضو من نوع أو صنف معيَّن.

    ## المعجم الطبي الموحد (2009)
    EN: entity

    ## معجم البيانات والذكاء الاصطناعي (2024)
    EN: Entity

    شيء مادي أو غير مادي يمكن التعرُّف عليه وتمييزه بوضوح.

    ## معجم المصطلحات الطبية (ج.2، 2003)
    EN: entity

    حقيقة الشيء أو وجوده المستقل.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CachedMultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64,
            32
        ],
        "matryoshka_weights": [
            1.0,
            1.0,
            1.0,
            1.0,
            1.0,
            1.0
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 32
  • num_train_epochs: 5
  • learning_rate: 2e-05
  • lr_scheduler_type: cosine
  • warmup_steps: 0.1
  • fp16: True
  • eval_strategy: epoch
  • per_device_eval_batch_size: 32
  • push_to_hub: True
  • hub_model_id: SalahAbdoNLP/jina-v5-nano-arabic-dict-v2
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • per_device_train_batch_size: 32
  • num_train_epochs: 5
  • max_steps: -1
  • learning_rate: 2e-05
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: None
  • warmup_steps: 0.1
  • optim: adamw_torch_fused
  • optim_args: None
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • optim_target_modules: None
  • gradient_accumulation_steps: 1
  • average_tokens_across_devices: True
  • max_grad_norm: 1.0
  • label_smoothing_factor: 0.0
  • bf16: False
  • fp16: True
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • use_liger_kernel: False
  • liger_kernel_config: None
  • use_cache: False
  • neftune_noise_alpha: None
  • torch_empty_cache_steps: None
  • auto_find_batch_size: False
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • include_num_input_tokens_seen: no
  • log_level: passive
  • log_level_replica: warning
  • disable_tqdm: False
  • project: huggingface
  • trackio_space_id: trackio
  • eval_strategy: epoch
  • per_device_eval_batch_size: 32
  • prediction_loss_only: True
  • eval_on_start: False
  • eval_do_concat_batches: True
  • eval_use_gather_object: False
  • eval_accumulation_steps: None
  • include_for_metrics: []
  • batch_eval_metrics: False
  • save_only_model: False
  • save_on_each_node: False
  • enable_jit_checkpoint: False
  • push_to_hub: True
  • hub_private_repo: None
  • hub_model_id: SalahAbdoNLP/jina-v5-nano-arabic-dict-v2
  • hub_strategy: every_save
  • hub_always_push: False
  • hub_revision: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • restore_callback_states_from_checkpoint: False
  • full_determinism: False
  • seed: 42
  • data_seed: None
  • use_cpu: False
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • dataloader_prefetch_factor: None
  • remove_unused_columns: True
  • label_names: None
  • train_sampling_strategy: random
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • ddp_backend: None
  • ddp_timeout: 1800
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • deepspeed: None
  • debug: []
  • skip_memory_metrics: True
  • do_predict: False
  • resume_from_checkpoint: None
  • warmup_ratio: None
  • local_rank: -1
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss jina-v5-nano-eval_cosine_ndcg@10
-1 -1 - - 0.4604
0.0913 20 12.2331 - -
0.1826 40 4.3754 - -
0.2740 60 2.4520 - -
0.3653 80 2.0269 - -
0.4566 100 2.1203 - -
0.5479 120 1.7343 - -
0.6393 140 1.7345 - -
0.7306 160 1.8540 - -
0.8219 180 1.5593 - -
0.9132 200 1.7133 - -
1.0 219 - 15.1943 0.6036
1.0046 220 1.4598 - -
1.0959 240 1.6552 - -
1.1872 260 1.5242 - -
1.2785 280 1.5006 - -
1.3699 300 1.4677 - -
1.4612 320 1.6158 - -
1.5525 340 1.6263 - -
1.6438 360 1.6261 - -
1.7352 380 1.7311 - -
1.8265 400 1.5715 - -
1.9178 420 1.4522 - -
2.0 438 - 16.5972 0.5609
2.0091 440 1.3742 - -
2.1005 460 1.7153 - -
2.1918 480 1.5228 - -
2.2831 500 1.4549 - -
2.3744 520 1.6089 - -
2.4658 540 1.6605 - -
2.5571 560 1.3578 - -
2.6484 580 1.6123 - -
2.7397 600 1.4092 - -
2.8311 620 1.4490 - -
2.9224 640 1.4958 - -
3.0 657 - 21.7325 0.5407
3.0137 660 1.3214 - -
3.1050 680 1.4583 - -
3.1963 700 1.4995 - -
3.2877 720 1.4790 - -
3.3790 740 1.3739 - -
3.4703 760 1.3677 - -
3.5616 780 1.4041 - -
3.6530 800 1.3986 - -
3.7443 820 1.3996 - -
3.8356 840 1.4289 - -
3.9269 860 1.5154 - -
4.0 876 - 22.0813 0.5613
4.0183 880 1.3724 - -
4.1096 900 1.5683 - -
4.2009 920 1.3047 - -
4.2922 940 1.3282 - -
4.3836 960 1.3419 - -
4.4749 980 1.3363 - -
4.5662 1000 1.4189 - -
4.6575 1020 1.4902 - -
4.7489 1040 1.3306 - -
4.8402 1060 1.2475 - -
4.9315 1080 1.5482 - -
5.0 1095 - 23.6215 0.5360
-1 -1 - - 0.6036
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.3.0
  • Transformers: 5.2.0
  • PyTorch: 2.9.0+cu126
  • Accelerate: 1.12.0
  • Datasets: 4.7.0
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
16
Safetensors
Model size
0.2B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for SalahAbdoNLP/jina-v5-nano-arabic-dict-v2

Papers for SalahAbdoNLP/jina-v5-nano-arabic-dict-v2

Evaluation results