CrossEncoder based on jinaai/jina-reranker-v2-base-multilingual
This is a Cross Encoder model finetuned from jinaai/jina-reranker-v2-base-multilingual using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
Model Details
Model Description
Model Sources
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import CrossEncoder
model = CrossEncoder("cuadron11/jina-reranker-v2-base-multilingual-contrastive-parl-4-1ep-mle5")
pairs = [
["Zein da Carmelo Barrio Baroja legebiltzarkidearen iritzia 'Memoriaren Mapa amaituz' agiriari buruz?", "[TOPIC: Galdera, Carmelo Barrio Baroja Euskal Talde Popularreko legebiltzarkideak lehendakariari egina, 'Memoriaren Mapa amaituz' agiriari buruz]\n[BARRIO BAROJA, (PV-ETP)]:\nlausotu egiten dituzu, eta hori guztia gatazkari buruzko teoria injustu bat elikatzen jarraitzeko. Eta hori tristea da, lehendakari jauna. Egunez egun, gero eta gehiago ahazten dituzu ETAren eta terrorismoaren biktimak. Bere presentziarekin, bere komunikatuekin erasotzen jarraitzen duen erakunde terrorista bat dugu oraindik, eta oraindik argitzeke daude ETAren krimen asko. Ez nahastu biktimak, lehendakari jauna. Eskerrik asko. La (Date: 13.06.2014)"],
['Zein da Ertzaintzaren sindikatuekin abiatutako negoziazio-ekimenen helburua?', '[TOPIC: Galdera, Iñigo Iturrate Ibarra Euzko Abertzaleak taldeko legebiltzarkideak Segurtasuneko sailburuari egina, Segurtasun Sailak Ertzaintzaren sindikatuekin abiatutako negoziazio-ekimenei buruz]\n[SEGURTASUNEKO SAILBURUAK (BELTRÁN DE HEREDIA ARRONIZ), (EA-NV)]:\nzerbitzuak. Ertzaintzak egitura berriak finkatzen jarraitzen du eta gaur eta etorkizunean nahi dugun polizia-eredua finkatzeko neurriak hartzen ari dira. Eta eredu horretan, protestak (bidezkoa izanik ere) ezin du baliogabetu, ezin du ordezkatu sindikatuek proposatzeko, negoziatzeko eta akordioetara iristeko duten erantzukizuna. Horregatik, nire erantzukizuna kontuan harturik, elkarrizketarako eta negoziaziorako erakundeak deitzen jarraituko dugu behar den guztietan. Borondate hori bera eta jarrera hori bera eskatzen diet sindikatuei ere. Ezin dugu baztertu (Date: 13.03.2015)'],
['Zein fasetan dago Emakumeen eta Gizonen Berdintasunerako VII. Plana?', '[TOPIC: Galdera, Eukene Arana Varas Elkarrekin Podemos taldeko legebiltzarkideak lehendakariari egina, Emakumeen eta Gizonen Berdintasunerako VII. Planari eta Euskadiko Ekonomia eta Gizarte Arazoetarako Batzordearen irizpenari buruz]\n[JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]:\nesango dizut VII. Berdintasun Plana bere osaketaren azken fasean dagoela, hilabete batzuen buruan onetsiko dela, eta Emakundek eskatuta Ekonomia eta Gizarte Arazoetarako Batzordeak egin dituen ekarpenak balioztatu eta errespetatu egiten ditugula. Eta plan berriak erakunde horrek proposatu dituen neurriak garatzeko behar den esparrua eskaintzen du, hain zuzen ere. Hori bai, dagokien unean; hau da, erakunde bakoitzaren programa zehatzen gida-plana gauzatzeko orduan, Macazaga andrea. Ez baitira nahasi behar gida-plan (Date: 13.04.2018)'],
['Zein da Andueza Lorenzoren ikuspuntua Eusko Jaurlaritzak parte hartzen duen ekitaldi instituzionaletan Espainiako bandera erabiltzeari buruz?', '[TOPIC: Mistoa talde parlamentarioak egindako legez besteko proposamena, Eusko Jaurlaritzak parte hartzen duen ekitaldi instituzionaletan Espainiako bandera erabiltzeari buruz. Eztabaida eta behin betiko ebaztea]\n[ANDUEZA LORENZO, (SV-ES)]:\nari baitira zerbitzu horiek ahulduta gera ez daitezen. Gure industriarentzat, merkatari txikientzat, ETEentzat, konponbideak bilatzen izango nauzu ni. Gaur bertan, Legebiltzar honetan, gai horietako batzuk jorratu dira, eta eztabaida horietan aurkituko nauzu ni. Bai eta, jakina, Gobernua kontrolatzen eta hari kritika egiten ere, huts egin badu jardunean. Horretarako gaude, halaber, gai horiei buruz eztabaidatzeko. Baina, begira, herri honetan, zuek politikagintzan hasi baino lehen ere, uste dut denbora eta energia (Date: 27.05.2021)'],
['Zein da UPyDren helburua San Mames berriaren eraikuntzan lan-araudia ez betetzeari buruzko mozioarekin?', '[TOPIC: Mozioa, Gorka Maneiro Labayen Mistoa-UPyD taldeko legebiltzarkideak aurkeztua, San Mames berriaren eraikuntzan lan-araudia ez betetzeari buruz. Eztabaida eta behin betiko ebazpena]\n[MANEIRO LABAYEN, (Mixto-UPyD)]:\nhori salatzea da. Interpelazioa, Arregi andrea, ez zen UPyDren jakin-mina. Ez zen jakin-mina. Ganberan egindako salaketa bat zen, hor egin behar baita, Eusko Legebiltzarrean. Hori da gure lana, ikustea zer egiten duen gaizki Jaurlaritzak, eta hori salatzea eta hona ekartzea. Beraz, esan bezala, mozio honek ez du kezka eragiten; oso egokia da, eta oso beharrezkoa. Dena den, Matute jauna, ez da denbora-galtze bat, ez da denboragaltze bat; izan ere, (Date: 17.10.2013)'],
]
scores = model.predict(pairs)
print(scores.shape)
ranks = model.rank(
"Zein da Carmelo Barrio Baroja legebiltzarkidearen iritzia 'Memoriaren Mapa amaituz' agiriari buruz?",
[
"[TOPIC: Galdera, Carmelo Barrio Baroja Euskal Talde Popularreko legebiltzarkideak lehendakariari egina, 'Memoriaren Mapa amaituz' agiriari buruz]\n[BARRIO BAROJA, (PV-ETP)]:\nlausotu egiten dituzu, eta hori guztia gatazkari buruzko teoria injustu bat elikatzen jarraitzeko. Eta hori tristea da, lehendakari jauna. Egunez egun, gero eta gehiago ahazten dituzu ETAren eta terrorismoaren biktimak. Bere presentziarekin, bere komunikatuekin erasotzen jarraitzen duen erakunde terrorista bat dugu oraindik, eta oraindik argitzeke daude ETAren krimen asko. Ez nahastu biktimak, lehendakari jauna. Eskerrik asko. La (Date: 13.06.2014)",
'[TOPIC: Galdera, Iñigo Iturrate Ibarra Euzko Abertzaleak taldeko legebiltzarkideak Segurtasuneko sailburuari egina, Segurtasun Sailak Ertzaintzaren sindikatuekin abiatutako negoziazio-ekimenei buruz]\n[SEGURTASUNEKO SAILBURUAK (BELTRÁN DE HEREDIA ARRONIZ), (EA-NV)]:\nzerbitzuak. Ertzaintzak egitura berriak finkatzen jarraitzen du eta gaur eta etorkizunean nahi dugun polizia-eredua finkatzeko neurriak hartzen ari dira. Eta eredu horretan, protestak (bidezkoa izanik ere) ezin du baliogabetu, ezin du ordezkatu sindikatuek proposatzeko, negoziatzeko eta akordioetara iristeko duten erantzukizuna. Horregatik, nire erantzukizuna kontuan harturik, elkarrizketarako eta negoziaziorako erakundeak deitzen jarraituko dugu behar den guztietan. Borondate hori bera eta jarrera hori bera eskatzen diet sindikatuei ere. Ezin dugu baztertu (Date: 13.03.2015)',
'[TOPIC: Galdera, Eukene Arana Varas Elkarrekin Podemos taldeko legebiltzarkideak lehendakariari egina, Emakumeen eta Gizonen Berdintasunerako VII. Planari eta Euskadiko Ekonomia eta Gizarte Arazoetarako Batzordearen irizpenari buruz]\n[JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]:\nesango dizut VII. Berdintasun Plana bere osaketaren azken fasean dagoela, hilabete batzuen buruan onetsiko dela, eta Emakundek eskatuta Ekonomia eta Gizarte Arazoetarako Batzordeak egin dituen ekarpenak balioztatu eta errespetatu egiten ditugula. Eta plan berriak erakunde horrek proposatu dituen neurriak garatzeko behar den esparrua eskaintzen du, hain zuzen ere. Hori bai, dagokien unean; hau da, erakunde bakoitzaren programa zehatzen gida-plana gauzatzeko orduan, Macazaga andrea. Ez baitira nahasi behar gida-plan (Date: 13.04.2018)',
'[TOPIC: Mistoa talde parlamentarioak egindako legez besteko proposamena, Eusko Jaurlaritzak parte hartzen duen ekitaldi instituzionaletan Espainiako bandera erabiltzeari buruz. Eztabaida eta behin betiko ebaztea]\n[ANDUEZA LORENZO, (SV-ES)]:\nari baitira zerbitzu horiek ahulduta gera ez daitezen. Gure industriarentzat, merkatari txikientzat, ETEentzat, konponbideak bilatzen izango nauzu ni. Gaur bertan, Legebiltzar honetan, gai horietako batzuk jorratu dira, eta eztabaida horietan aurkituko nauzu ni. Bai eta, jakina, Gobernua kontrolatzen eta hari kritika egiten ere, huts egin badu jardunean. Horretarako gaude, halaber, gai horiei buruz eztabaidatzeko. Baina, begira, herri honetan, zuek politikagintzan hasi baino lehen ere, uste dut denbora eta energia (Date: 27.05.2021)',
'[TOPIC: Mozioa, Gorka Maneiro Labayen Mistoa-UPyD taldeko legebiltzarkideak aurkeztua, San Mames berriaren eraikuntzan lan-araudia ez betetzeari buruz. Eztabaida eta behin betiko ebazpena]\n[MANEIRO LABAYEN, (Mixto-UPyD)]:\nhori salatzea da. Interpelazioa, Arregi andrea, ez zen UPyDren jakin-mina. Ez zen jakin-mina. Ganberan egindako salaketa bat zen, hor egin behar baita, Eusko Legebiltzarrean. Hori da gure lana, ikustea zer egiten duen gaizki Jaurlaritzak, eta hori salatzea eta hona ekartzea. Beraz, esan bezala, mozio honek ez du kezka eragiten; oso egokia da, eta oso beharrezkoa. Dena den, Matute jauna, ez da denbora-galtze bat, ez da denboragaltze bat; izan ere, (Date: 17.10.2013)',
]
)
Evaluation
Metrics
Cross Encoder Reranking
| Metric |
Value |
| map |
0.0187 (+0.0181) |
| mrr@10 |
0.0187 (+0.0184) |
| ndcg@10 |
0.0187 (+0.0179) |
Training Details
Training Dataset
Unnamed Dataset
- Size: 3,200 training samples
- Columns:
query and positive
- Approximate statistics based on the first 1000 samples:
|
query |
positive |
| type |
string |
string |
| details |
- min: 27 characters
- mean: 100.94 characters
- max: 312 characters
|
- min: 504 characters
- mean: 775.12 characters
- max: 1144 characters
|
- Samples:
| query |
positive |
Zein da Etxebarrieta Legranden iritzia emakumeen planto egiteari buruz? |
[TOPIC: Mozioa, Eukene Arana Varas Elkarrekin Podemos taldeko legebiltzarkideak aurkeztua, zaintza-lanei, gizarte berdintzaileagoari eta bizitzak erdigunean jartzeko tresnei buruz. Eztabaida eta behin betiko ebazpena] [ETXEBARRIETA LEGRAND, (EH Bildu)]: bai, hemendik esaten dizut uste dudala emakumeok behar handia daukagula elkarrekin planto egiteko, garai ilunak birgogorazi nahi dizkigutelako batzuek, baina uste dut ez dakitela benetan zerekin egingo duten topo, asko garelako, antolatuta gaudelako, badakigulako behar dugunean zer utz dezakegun albo batera elkarrekin aurrera egiteko, eta gaurkoa uste dut horren adibide ere badela. Beraz, bai, kontatu gurekin planto egiteko. (Date: 07.03.2019) |
Zer jarduera mota baimentzen ditu Gasteizko Mendiak parke natural izendatzeko hasierako onarpenak? |
[TOPIC: Galdera, Daniel Maeztu Perez EH Bildu taldeko legebiltzarkideak Ingurumen eta Lurralde Politikako sailburuari egina, Gasteizko Mendiak parke natural izendatzearen inguruan] [INGURUMEN ETA LURRALDE POLITIKAKO SAILBURUAK (OREGI BASTARRIKA), (EA-NV)]: ez, baizik eta obligazioa ere badute balio natural horiek babesteko. Ez dakit irakurri duzun PORN famatu hori. Nik bai. Ez dakit administrazio-batzordeekin eta eragindako udalekin –ez bakarrik Gasteizkoa, baizik baita eragindako horretan dauden guztiak– eztabaidatu duzun. Nik bai. Eta begira, hasierako onarpena duen PORN horrek ez ditu debekatzen oro har industriajarduerak, eremu horretan dauden natura-baliabideen ustiapenarekin lotutako industria-jarduerak izan arren. Gas naturalaren erauzketa, adibidez –baldin balego– debekatu ahal (Date: 13.03.2015) |
Zein da Eusko Jaurlaritzaren asmoa Jarduera Ekonomikoetarako Lurzorua Sortzeko eta Saltoki Handiak Antolatzeko Lurraldearen Arloko Planaren inguruan? |
[TOPIC: Galdera, Iker Casanova Alonso EH Bildu taldeko legebiltzarkideak Ingurumen, Lurralde Plangintza eta Etxebizitzako sailburuari egina, Jarduera Ekonomikoetarako Lurzorua Sortzeko eta Saltoki Handiak Antolatzeko Lurraldearen Arloko Planaren inguruan Jaurlaritzak dituen asmoei buruz] [CASANOVA ALONSO, (EH Bildu)]: ingurumen-irizpide edo lurraldearen antolamendurako irizpide horiek aplikatu egin daitezke, eta existitzen dira. Egutegi hori benetan gauzatzea gustatuko litzaiguke, eta horren ondorioz LAP berri bat izatea, saltoki handi berriak eta merkataritza-gune berriak ezartzeko orduan edo lehendik daudenak zabaltzeko orduan babes eta ezkutu gisa balioko duena. Oso erne izango gara, gai hau aspaldidanik baitabilkigu. Epaia 2015. urtekoa da; 2016ko otsailean jada sailburu andrearen agerraldia eskatu genuen, eta, bertan, aurrera (Date: 06.10.2017) |
- Loss:
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 10.0,
"num_negatives": null,
"activation_fn": "torch.nn.modules.activation.Sigmoid",
"mini_batch_size": 16
}
Evaluation Dataset
Unnamed Dataset
- Size: 800 evaluation samples
- Columns:
query and positive
- Approximate statistics based on the first 800 samples:
|
query |
positive |
| type |
string |
string |
| details |
- min: 32 characters
- mean: 98.43 characters
- max: 199 characters
|
- min: 516 characters
- mean: 769.87 characters
- max: 1158 characters
|
- Samples:
| query |
positive |
Zein da Carmelo Barrio Baroja legebiltzarkidearen iritzia 'Memoriaren Mapa amaituz' agiriari buruz? |
[TOPIC: Galdera, Carmelo Barrio Baroja Euskal Talde Popularreko legebiltzarkideak lehendakariari egina, 'Memoriaren Mapa amaituz' agiriari buruz] [BARRIO BAROJA, (PV-ETP)]: lausotu egiten dituzu, eta hori guztia gatazkari buruzko teoria injustu bat elikatzen jarraitzeko. Eta hori tristea da, lehendakari jauna. Egunez egun, gero eta gehiago ahazten dituzu ETAren eta terrorismoaren biktimak. Bere presentziarekin, bere komunikatuekin erasotzen jarraitzen duen erakunde terrorista bat dugu oraindik, eta oraindik argitzeke daude ETAren krimen asko. Ez nahastu biktimak, lehendakari jauna. Eskerrik asko. La (Date: 13.06.2014) |
Zein da Ertzaintzaren sindikatuekin abiatutako negoziazio-ekimenen helburua? |
[TOPIC: Galdera, Iñigo Iturrate Ibarra Euzko Abertzaleak taldeko legebiltzarkideak Segurtasuneko sailburuari egina, Segurtasun Sailak Ertzaintzaren sindikatuekin abiatutako negoziazio-ekimenei buruz] [SEGURTASUNEKO SAILBURUAK (BELTRÁN DE HEREDIA ARRONIZ), (EA-NV)]: zerbitzuak. Ertzaintzak egitura berriak finkatzen jarraitzen du eta gaur eta etorkizunean nahi dugun polizia-eredua finkatzeko neurriak hartzen ari dira. Eta eredu horretan, protestak (bidezkoa izanik ere) ezin du baliogabetu, ezin du ordezkatu sindikatuek proposatzeko, negoziatzeko eta akordioetara iristeko duten erantzukizuna. Horregatik, nire erantzukizuna kontuan harturik, elkarrizketarako eta negoziaziorako erakundeak deitzen jarraituko dugu behar den guztietan. Borondate hori bera eta jarrera hori bera eskatzen diet sindikatuei ere. Ezin dugu baztertu (Date: 13.03.2015) |
Zein fasetan dago Emakumeen eta Gizonen Berdintasunerako VII. Plana? |
[TOPIC: Galdera, Eukene Arana Varas Elkarrekin Podemos taldeko legebiltzarkideak lehendakariari egina, Emakumeen eta Gizonen Berdintasunerako VII. Planari eta Euskadiko Ekonomia eta Gizarte Arazoetarako Batzordearen irizpenari buruz] [JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]: esango dizut VII. Berdintasun Plana bere osaketaren azken fasean dagoela, hilabete batzuen buruan onetsiko dela, eta Emakundek eskatuta Ekonomia eta Gizarte Arazoetarako Batzordeak egin dituen ekarpenak balioztatu eta errespetatu egiten ditugula. Eta plan berriak erakunde horrek proposatu dituen neurriak garatzeko behar den esparrua eskaintzen du, hain zuzen ere. Hori bai, dagokien unean; hau da, erakunde bakoitzaren programa zehatzen gida-plana gauzatzeko orduan, Macazaga andrea. Ez baitira nahasi behar gida-plan (Date: 13.04.2018) |
- Loss:
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 10.0,
"num_negatives": null,
"activation_fn": "torch.nn.modules.activation.Sigmoid",
"mini_batch_size": 16
}
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: steps
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
learning_rate: 2e-05
num_train_epochs: 1
warmup_ratio: 0.1
load_best_model_at_end: True
batch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 1
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}
Training Logs
| Epoch |
Step |
Training Loss |
Validation Loss |
jina-reranker-v2-base-multilingual-contrastive-parl-4-1ep-mle5_ndcg@10 |
| 1.0 |
200 |
0.0414 |
0.0302 |
0.0187 (+0.0179) |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.9.7
- Sentence Transformers: 5.0.0
- Transformers: 4.56.0
- PyTorch: 2.7.1+cu126
- Accelerate: 1.5.2
- Datasets: 4.0.0
- Tokenizers: 0.22.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}