CrossEncoder based on HiTZ/BERnaT_base
This is a Cross Encoder model finetuned from HiTZ/BERnaT_base using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
Model Details
Model Description
- Model Type: Cross Encoder
- Base model: HiTZ/BERnaT_base
- Maximum Sequence Length: 512 tokens
- Number of Output Labels: 1 label
Model Sources
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import CrossEncoder
model = CrossEncoder("cuadron11/BERnaT_base-contrastive-all-4-3ep-bueno")
pairs = [
['Zein da unibertsitateko beken diru-kopuruaren igoera Hezkuntza Sailak egindako aldaketaren ondoren?', '[TOPIC: Galdera, Gustavo Angulo García Elkarrekin Podemos-IU taldeko legebiltzarkideak Hezkuntzako sailburuari egina, unibertsitateko beken diru-kopuruari buruz]\n[ANGULO GARCÍA, (EP-IU)]:\n8,1ekoa izango da. Oraintxe bertan % 8,7koa da. Eta zuek % 4ko gehikuntza egin duzue unibertsitatez kanpoko beketarako; hau da, bekadunek % 4ko erosahalmena galtzen dutela esan nahi da. Paraleloa egiten ari naiz. Badakit desberdinak direla. Baina bekei dagokienez, ezin dugu pentsatu matrikulen abiapuntua urtarrila denik, beken eskaera eta aginduaren sinadura une honetan bertan egin duzuelako. Astebeteren buruan eskatuko dira bekak. Unibertsitate-bekak inflazioaren zenbatekoan soilik handitzeak jango (Date: 17.06.2022)'],
['Zenbat sinadura bildu zituen administrazio publikoen azpikontratetan klausula sozialak sartzeari buruzko legegintzako herri-ekimenak?', '[TOPIC: Osasun eta Aurrekontu Batzordearen irizpena, zenbait klausula sozial kontratazio publikoan sartzeko lege-proposamenaren gainean egindakoa. Eztabaida eta behin betiko ebazpena]\n[MANEIRO LABAYEN, (Mixto-UPyD)]:\nahal dadin. Legegintzako herri-ekimena –gaur amaitzen du ibilbidea– aintzat hartzearen alde bozkatu genuen, eta hori egiteko bi arrazoiak gogoraraziko ditut jarraian. Lehena, 100.000 euskaldunek baino gehiagok sinatu zuten LHE hori; horrek ez du esan nahi proposatutako guztian arrazoia zutenik, edo proposatzeko modua egokiena zenik; alabaina, sinadura-kopuruak ekimena eztabaidatzea –eta ondoren, taldeen erdibideko zuzenketen bidez, hobetzen saiatzea– bidezkotzen zuen. Eta bigarrena, LHE horrek administrazio publikoen azpikontraten (Date: 07.04.2016)'],
['Zein da Alokabidek kudeatutako babes ofizialeko etxebizitzetako alokairuak ordaintzeko errentaren mugak?', '[TOPIC: Interpelazioa, Gorka Maneiro Labayen Mistoa-UPyD taldeko legebiltzarkideak lehendakariari egina, Alokabidek kudeatutako babes ofizialeko etxebizitzak erregulatzen dituen araudian zenbait aldaketa sartzeko aukerari buruz]\n[JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]:\n% 30 izango dute muga. Gaur egun, badago proportzionaltasun bat alokairura bideratutako kopuruaren eta errentaren artean. Halaber, bermatuta dago etxegabetzerik ez izatea. Eta Eusko Jaurlaritzak neurriak hartzen jarraituko du. Hala, batetik, 2010eko prezioen agindua aldatzea proposatuko da, prezioak gaur egungo errealitate ekonomikora eta gaur egungo merkatura egokitzeko, bai erosketari bai alokairuari dagokienez. Bistan denez, Maneiro jauna, zuk esandakoari erantzunez, beti dago zer hobetua kudeaketan nahiz aplikatzen den (Date: 21.02.2014)'],
['Zein da Elkarrekin Podemos talde parlamentarioaren jarrera udal euskaltegien sareari buruz?', '[TOPIC: Elkarrekin Podemos talde parlamentarioak egindako legez besteko proposamena, udal euskaltegien sareari buruz. Eztabaida eta behin betiko ebazpena]\n[UBERA ARANZETA, (EH Bildu)]:\ngauza bakoitzak bere progresioa, bere sekuentzia dauka, bere denboralizazioa dauka, logika batetik, eta iruditzen zait ba hemen ez gaudela guztion dirua, diru publikoa barra-barra botatzeko egoeran. Eta, gainera, eraginkortasunean ere hobetu behar dugu, batez ere herritar guztiei dagokien euskara jakiteko eskubidea bermatzeko. Orain arte ez gara eraginkorrak izan. Beno, goazen daukagun anabasa hori… anabasa baitaukagu, eta beraiek ere hitz hori erabiltzen dute. Beraz, iruditzen zait gaurko eztabaida oso aberasgarria dela, (Date: 29.11.2018)'],
['Nork egin zuen adierazpena "Ez gaude merkatuaren aurka, baina ez dugu amore emango botere-gehiegikerien aurrean"?', '[TOPIC: Honako ekimen hauek batera eztabaidatu eta behin betiko ebazpena hartzea: ]\n[ROJO SOLANA, (SV-ES)]:\ndaitezela manipulatu. Eta, horrez gain, paragrafo hori honela amaitzen da: "Ez gaude merkatuaren aurka, baina ez dugu amore emango botere-gehiegikerien aurrean". Hori dio Sánchez jaunaren programak, Espainiako Alderdi Sozialista Langilearen idazkari nagusiaren programak. Beraz, ez irakurri soilik interesatzen zaizuna, irakurri osorik; bestela, desitxuratu egingo duzu alderdi baten proiektu politikoa, eta horretara etorri zara zu. Bestalde, ez nau harritzen proposatzen duguna zuk ez ulertzeak. Horregatik zaude zu hor eserita (Date: 01.06.2017)'],
]
scores = model.predict(pairs)
print(scores.shape)
ranks = model.rank(
'Zein da unibertsitateko beken diru-kopuruaren igoera Hezkuntza Sailak egindako aldaketaren ondoren?',
[
'[TOPIC: Galdera, Gustavo Angulo García Elkarrekin Podemos-IU taldeko legebiltzarkideak Hezkuntzako sailburuari egina, unibertsitateko beken diru-kopuruari buruz]\n[ANGULO GARCÍA, (EP-IU)]:\n8,1ekoa izango da. Oraintxe bertan % 8,7koa da. Eta zuek % 4ko gehikuntza egin duzue unibertsitatez kanpoko beketarako; hau da, bekadunek % 4ko erosahalmena galtzen dutela esan nahi da. Paraleloa egiten ari naiz. Badakit desberdinak direla. Baina bekei dagokienez, ezin dugu pentsatu matrikulen abiapuntua urtarrila denik, beken eskaera eta aginduaren sinadura une honetan bertan egin duzuelako. Astebeteren buruan eskatuko dira bekak. Unibertsitate-bekak inflazioaren zenbatekoan soilik handitzeak jango (Date: 17.06.2022)',
'[TOPIC: Osasun eta Aurrekontu Batzordearen irizpena, zenbait klausula sozial kontratazio publikoan sartzeko lege-proposamenaren gainean egindakoa. Eztabaida eta behin betiko ebazpena]\n[MANEIRO LABAYEN, (Mixto-UPyD)]:\nahal dadin. Legegintzako herri-ekimena –gaur amaitzen du ibilbidea– aintzat hartzearen alde bozkatu genuen, eta hori egiteko bi arrazoiak gogoraraziko ditut jarraian. Lehena, 100.000 euskaldunek baino gehiagok sinatu zuten LHE hori; horrek ez du esan nahi proposatutako guztian arrazoia zutenik, edo proposatzeko modua egokiena zenik; alabaina, sinadura-kopuruak ekimena eztabaidatzea –eta ondoren, taldeen erdibideko zuzenketen bidez, hobetzen saiatzea– bidezkotzen zuen. Eta bigarrena, LHE horrek administrazio publikoen azpikontraten (Date: 07.04.2016)',
'[TOPIC: Interpelazioa, Gorka Maneiro Labayen Mistoa-UPyD taldeko legebiltzarkideak lehendakariari egina, Alokabidek kudeatutako babes ofizialeko etxebizitzak erregulatzen dituen araudian zenbait aldaketa sartzeko aukerari buruz]\n[JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]:\n% 30 izango dute muga. Gaur egun, badago proportzionaltasun bat alokairura bideratutako kopuruaren eta errentaren artean. Halaber, bermatuta dago etxegabetzerik ez izatea. Eta Eusko Jaurlaritzak neurriak hartzen jarraituko du. Hala, batetik, 2010eko prezioen agindua aldatzea proposatuko da, prezioak gaur egungo errealitate ekonomikora eta gaur egungo merkatura egokitzeko, bai erosketari bai alokairuari dagokienez. Bistan denez, Maneiro jauna, zuk esandakoari erantzunez, beti dago zer hobetua kudeaketan nahiz aplikatzen den (Date: 21.02.2014)',
'[TOPIC: Elkarrekin Podemos talde parlamentarioak egindako legez besteko proposamena, udal euskaltegien sareari buruz. Eztabaida eta behin betiko ebazpena]\n[UBERA ARANZETA, (EH Bildu)]:\ngauza bakoitzak bere progresioa, bere sekuentzia dauka, bere denboralizazioa dauka, logika batetik, eta iruditzen zait ba hemen ez gaudela guztion dirua, diru publikoa barra-barra botatzeko egoeran. Eta, gainera, eraginkortasunean ere hobetu behar dugu, batez ere herritar guztiei dagokien euskara jakiteko eskubidea bermatzeko. Orain arte ez gara eraginkorrak izan. Beno, goazen daukagun anabasa hori… anabasa baitaukagu, eta beraiek ere hitz hori erabiltzen dute. Beraz, iruditzen zait gaurko eztabaida oso aberasgarria dela, (Date: 29.11.2018)',
'[TOPIC: Honako ekimen hauek batera eztabaidatu eta behin betiko ebazpena hartzea: ]\n[ROJO SOLANA, (SV-ES)]:\ndaitezela manipulatu. Eta, horrez gain, paragrafo hori honela amaitzen da: "Ez gaude merkatuaren aurka, baina ez dugu amore emango botere-gehiegikerien aurrean". Hori dio Sánchez jaunaren programak, Espainiako Alderdi Sozialista Langilearen idazkari nagusiaren programak. Beraz, ez irakurri soilik interesatzen zaizuna, irakurri osorik; bestela, desitxuratu egingo duzu alderdi baten proiektu politikoa, eta horretara etorri zara zu. Bestalde, ez nau harritzen proposatzen duguna zuk ez ulertzeak. Horregatik zaude zu hor eserita (Date: 01.06.2017)',
]
)
Evaluation
Metrics
Cross Encoder Reranking
| Metric |
Value |
| map |
0.0125 (+0.0113) |
| mrr@10 |
0.0125 (+0.0115) |
| ndcg@10 |
0.0125 (+0.0111) |
Training Details
Training Dataset
Unnamed Dataset
- Size: 6,400 training samples
- Columns:
query and positive
- Approximate statistics based on the first 1000 samples:
|
query |
positive |
| type |
string |
string |
| details |
- min: 34 characters
- mean: 100.88 characters
- max: 247 characters
|
- min: 574 characters
- mean: 773.38 characters
- max: 1209 characters
|
- Samples:
| query |
positive |
Nola negoziatu zuen EH Bilduk Elkarrekin Podemos-Ezker Anitzarekin erdibideko proposamena? |
[TOPIC: EH Bildu talde parlamentarioak egindako legez besteko proposamena, COVID-19ak eragindako sektore ekonomikoentzat erreskate-funts bat sortzeari buruz. Eztabaida eta behin betiko ebazpena] [CORCUERA LEUNDA, (SV-ES)]: dezakezu Elkarrekin Podemos-Ezker Anitzarekin adostutako erdibideko proposamen berri hau dakarzula, akordio batera iritsi nahi duzulako? Gurekin? Aizu, ez didazu mezu bat bera ere bidali eta; ez didazu deitu ere egin eta; atezainak eman digunean izan dut erdibideko zuzenketaren berri eta. Baina zuk zer uste duzu, akordioak egin daitezkeela hemen, aurrez aurre, horrela, eserlekutik, eta keinuka egiten dugula. Nola egiten da hori? Badakizu, akordio batera iritsi nahi duzunean, nola (Date: 18.02.2021) |
Hezkuntza Sailak ikuskarien kidegora sartzeko lehiaketa-oposiziorako deialdian Osakidetzako OPE-etatik ikasitakoa aplikatuko al du? |
[TOPIC: Galdera, Rebeka Ubera Aranzeta EH Bildu taldeko legebiltzarkideak Hezkuntzako sailburuari egina, Ikuskarien Kidegora sartzeko lehiaketa-oposiziorako deialdiari buruz] [UBERA ARANZETA, (EH Bildu)]: baldin bada zuzentzen, Osasun sailburuaren bide beretik zoazela? Ez du ezer ikasi Hezkuntza Sailak, Gobernu honek Osakidetzako OPE-etatik? Ez du ezer ikasi? Ez du zuzenduko? Eta nik hori da jakin nahi dudana. Guk Euskadiko Eskola Kontseiluari bidali genion gure eskaera, hemen daukazue, baita ere, proposamen bat; ikusiko dugu proposamen horretan ere zer egiten duzuen. Baina nik jakin nahi dut zuk zer egingo duzun. OPE-en deialdiak hobetu nahi baldin badituzu, bi aukera (Date: 15.11.2019) |
Zenbat parke eoliko garrantzitsu ezin izan ziren gauzatu ingurumen-izapidetzean ezinezkoa zela ikusi zelako? |
[TOPIC: Interpelazioa, Muriel Larrea Laso Euskal Talde Popularreko legebiltzarkideak Ekonomiaren Garapen, Jasangarritasun eta Ingurumeneko sailburuari egina, Iparaixe II parke eolikoari buruz] [JASANGARRITASUN ETA INGURUMENEKO SAILBURUAK (TAPIA OTAEGI), (EA-NV)]: da guk jakitun izan behar dugula eta arduratsuak izan behar dugula. Horrelako energiak behar ditugula, eta alegazioak egiten ditugunean, kontuan hartuko direla, noski, arrisku batzuk ba al dauden, ingurumen-inpaktuaren ebaluazioa egiten denean bezalaxe. Eta ikusi duzu frogatu ere frogatu dugula hori. Lau eskaera egin ziren, eta horien artean, gainera, lau instalazio eoliko garrantzitsuren sustatzailea zen Energiaren Euskal Erakundea. Horietako bi ezin izan ziren gauzatu, ingurumen-izapidetzean ezinezkoa zela ikusi (Date: 22.09.2023) |
- Loss:
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 10.0,
"num_negatives": null,
"activation_fn": "torch.nn.modules.activation.Sigmoid",
"mini_batch_size": 16
}
Evaluation Dataset
Unnamed Dataset
- Size: 1,600 evaluation samples
- Columns:
query and positive
- Approximate statistics based on the first 1000 samples:
|
query |
positive |
| type |
string |
string |
| details |
- min: 27 characters
- mean: 100.09 characters
- max: 216 characters
|
- min: 532 characters
- mean: 774.65 characters
- max: 1196 characters
|
- Samples:
| query |
positive |
Zein da unibertsitateko beken diru-kopuruaren igoera Hezkuntza Sailak egindako aldaketaren ondoren? |
[TOPIC: Galdera, Gustavo Angulo García Elkarrekin Podemos-IU taldeko legebiltzarkideak Hezkuntzako sailburuari egina, unibertsitateko beken diru-kopuruari buruz] [ANGULO GARCÍA, (EP-IU)]: 8,1ekoa izango da. Oraintxe bertan % 8,7koa da. Eta zuek % 4ko gehikuntza egin duzue unibertsitatez kanpoko beketarako; hau da, bekadunek % 4ko erosahalmena galtzen dutela esan nahi da. Paraleloa egiten ari naiz. Badakit desberdinak direla. Baina bekei dagokienez, ezin dugu pentsatu matrikulen abiapuntua urtarrila denik, beken eskaera eta aginduaren sinadura une honetan bertan egin duzuelako. Astebeteren buruan eskatuko dira bekak. Unibertsitate-bekak inflazioaren zenbatekoan soilik handitzeak jango (Date: 17.06.2022) |
Zenbat sinadura bildu zituen administrazio publikoen azpikontratetan klausula sozialak sartzeari buruzko legegintzako herri-ekimenak? |
[TOPIC: Osasun eta Aurrekontu Batzordearen irizpena, zenbait klausula sozial kontratazio publikoan sartzeko lege-proposamenaren gainean egindakoa. Eztabaida eta behin betiko ebazpena] [MANEIRO LABAYEN, (Mixto-UPyD)]: ahal dadin. Legegintzako herri-ekimena –gaur amaitzen du ibilbidea– aintzat hartzearen alde bozkatu genuen, eta hori egiteko bi arrazoiak gogoraraziko ditut jarraian. Lehena, 100.000 euskaldunek baino gehiagok sinatu zuten LHE hori; horrek ez du esan nahi proposatutako guztian arrazoia zutenik, edo proposatzeko modua egokiena zenik; alabaina, sinadura-kopuruak ekimena eztabaidatzea –eta ondoren, taldeen erdibideko zuzenketen bidez, hobetzen saiatzea– bidezkotzen zuen. Eta bigarrena, LHE horrek administrazio publikoen azpikontraten (Date: 07.04.2016) |
Zein da Alokabidek kudeatutako babes ofizialeko etxebizitzetako alokairuak ordaintzeko errentaren mugak? |
[TOPIC: Interpelazioa, Gorka Maneiro Labayen Mistoa-UPyD taldeko legebiltzarkideak lehendakariari egina, Alokabidek kudeatutako babes ofizialeko etxebizitzak erregulatzen dituen araudian zenbait aldaketa sartzeko aukerari buruz] [JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]: % 30 izango dute muga. Gaur egun, badago proportzionaltasun bat alokairura bideratutako kopuruaren eta errentaren artean. Halaber, bermatuta dago etxegabetzerik ez izatea. Eta Eusko Jaurlaritzak neurriak hartzen jarraituko du. Hala, batetik, 2010eko prezioen agindua aldatzea proposatuko da, prezioak gaur egungo errealitate ekonomikora eta gaur egungo merkatura egokitzeko, bai erosketari bai alokairuari dagokienez. Bistan denez, Maneiro jauna, zuk esandakoari erantzunez, beti dago zer hobetua kudeaketan nahiz aplikatzen den (Date: 21.02.2014) |
- Loss:
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 10.0,
"num_negatives": null,
"activation_fn": "torch.nn.modules.activation.Sigmoid",
"mini_batch_size": 16
}
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: steps
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
learning_rate: 2e-05
warmup_ratio: 0.1
load_best_model_at_end: True
batch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 3
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}
Training Logs
| Epoch |
Step |
Training Loss |
Validation Loss |
BERnaT_base-contrastive-all-4-3ep-bueno_ndcg@10 |
| 0.5 |
200 |
0.9208 |
0.0464 |
0.0123 (+0.0109) |
| 1.0 |
400 |
0.0723 |
0.0382 |
0.0125 (+0.0111) |
| 1.5 |
600 |
0.0452 |
0.0807 |
0.0125 (+0.0111) |
| 2.0 |
800 |
0.0409 |
0.0335 |
0.0125 (+0.0111) |
| 2.5 |
1000 |
0.0417 |
0.0321 |
0.0125 (+0.0111) |
| 3.0 |
1200 |
0.0417 |
0.0455 |
0.0125 (+0.0111) |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.9.7
- Sentence Transformers: 5.0.0
- Transformers: 4.56.0
- PyTorch: 2.7.1+cu126
- Accelerate: 1.5.2
- Datasets: 4.0.0
- Tokenizers: 0.22.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}