SentenceTransformer based on BSC-LT/MrBERT
This is a sentence-transformers model finetuned from BSC-LT/MrBERT. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: BSC-LT/MrBERT
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("cuadron11/mrbert-berria-v2-ft")
sentences = [
'Nor dira Hiria lokatzetan podcasteko zuzeneko saioan parte hartuko duten Lokatza podcast feministaren sorkuntza taldeko kideak?',
'Duela hogei urte pasa New Yorken jaiotako diziplinarteko Zaharregia, txikiegia agian proiektuaren berrinterpretazio bat ere eskainiko dute Loraldian Kirmen Uribe idazleak, Mikel Urdangarin, Rafa Rueda eta Bingen Mendizabal musikariek eta Mikel Valverde artistak. Martxoaren 13an izango da saio hori, Arriaga antzokian, emanaldiaren jatorrizko titulua moldatuta: Munduari begiratzeko.\n\nHiria lokatzetan podcasta zuzenean egingo dute martxoaren 10ean. Lokatza podcast feministaren sorkuntza taldeak hartuko du parte. Bertan izango dira Ainara Lasa, Amagoia Gurrutxaga, Idurre Eskisabel, Lorea Agirre, Miren Narbaiza, Miren Amuriza eta Lizar Begoña. Guggenheim museoaren entzungelan egingo dute zuzeneko saioa.\n\nHorrez gainera, Basabi taldeak emanaldia izango du martxoaren 9an, Neomak taldea ere izango da oholtzan, martxoaren 14an. Jean Mixel Bedaxagarrek martxoaren 16an joko du Itsasmuseumen. Eta Jon Maia bertsolariak martxoaren 23an eskainiko du Kantu berri bat gara emanaldia Euskaldunan. Bilaka kolektiboak Mitologia txikiak dantza emanaldia eskainiko du 19an. Amaraun taularatuko dute Oihana Iguaran eta Amaiur Luluagak 20an, eta dantza bertikaleko ikuskizun hibrido bat aurkeztuko du Harrobia dantza taldeak 23an. Dantzariak ez ezik, bertan izango dira Itziar Ituño aktorea eta Toti Martinez de Lezea idazlea ere.\n\nEuskararen geroa\n\nHiru hitzaldiko ziklo bat ere antolatu dute: Euskara bihar. Hurrengo hamarkadetan jarraitu beharreko norabideaz gogoeta egitea da jaialdiaren asmoa, eta Jon Sarasua, Xan Aire eta Gartzen Garaio Atxurrak ordubeteko hitzaldi bana emango dute. Biran izango dira saio guztiak. Martxoaren 6an ariko da Sarasua, 11n Aire, eta 18an Garaio.',
'Era berean, saiorako propio sortutakoak izango dira Lasaren bideoak ere.\n\nEta biharkoaren ondoren izango al dira Lokatza gehiago? Ezetz, Agirrek berehala. «Itzulera puntual bat da hau».',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities)
Evaluation
Metrics
Triplet
| Metric |
Value |
| cosine_accuracy |
0.5738 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 5,999 training samples
- Columns:
anchor and positive
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
| type |
string |
string |
| details |
- min: 6 tokens
- mean: 16.61 tokens
- max: 36 tokens
|
- min: 79 tokens
- mean: 326.13 tokens
- max: 482 tokens
|
- Samples:
| anchor |
positive |
Zein da Ondarroako aire zabaleko museo proiektuaren ezaugarri nagusia? |
Aire zabaleko museo bilakatzen ari da Ondarroa?
Iaz, nirearen ondoan dagoen beste mural batek munduko hirugarren muralik onenaren saria jaso zuen, eta horrek izena eman zion Ondarroari. Proiektu oso polita da abian dagoena. Kanpoko artistak gonbidatzen dituzte, baina ez da egitasmo inbaditzailea, herriarekin eta auzoarekin harreman bat sortzen baitu sortzaileak, errespetuz. Herriko kultura irudikatzen da proiektuaren bidez, ez dira kanpoko gauzak ekartzen.
Zer abantaila ditu kalean lan egiteak?
Nik inoiz ez dut egin estudioko lanik, inoiz ez dut jarri nire artelanik erakusketetan. Nire ibilbide guztia kalean egin dut, eta kalean margotuz; edonork ikusi eta kritikatu dezake nire lana. Besteentzat marrazten dut, herriekin eta auzoekin harremana sortuz, eta nire egoa atzean utziz.
Zer esanahi du sariak zuretzat?
Nik beti esan izan dut artea ezin dela saritu. Baina, hala ere, pozgarria da horrelako aitorpen bat jasotzea; nire bizitza osoko lana saritu dutela sentitzen dut. Era berean,... |
Zer ekitaldi antolatu dituzte ikastolan martxorako? |
Martxoaren 2an Zurak eta ezpalak deitu duten proposamena izango da. Ikastolaren lehen urratsetan jardun zuten haiei ikastetxeko ateak zabalduko dizkiete, eta ikasleei emango diete hitza, aitzindari haiei azal diezaieten zer-nola ikasten duten egun ikastolan. Jai giroan egingo da, «belaunaldien arteko» harremana sustatzeko.
Martxoaren 10ean Beskoitzera (Lapurdi) bisita egingo dute, hango ikastola egoera zailean baita bertako herriko etxearen erabakien ondorioz. Ikastolen arteko elkartasun keinu bat izango da, eta elkarren berri izatekoa. Martxoaren 14an Korrika hasiko da, eta horren inguruan ere egingo dituzte ekintzak.
Ekainean jaiaren abestia eta bideoklipa aurkeztuko dituzte. |
Zein da hizkuntza berean ari diren sortzaileak batuko lituzkeen elkarte baten garrantzia? |
Multzo bateko kide sentitu, jardun berean ari direnei begira ikasi, elkarrekin aurrera egin, mugimendua sortu, jardunaren ikusgarritasuna bilatu, prestigiatu, duindu, presiobidea sortu... Elkarteei dagokien babes hori, gaur, egoera anormal, prekario, injustu eta betikotu honetan, hizkuntza berean ari garen irudigile, musikari, idazle, bertsolari, kazetari eta gainontzekoak batuko lituzkeen elkarteak emango liguke, ofizioz ofizioko zatiketak baino gehiago. |
- Loss:
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
Evaluation Dataset
Unnamed Dataset
- Size: 6,000 evaluation samples
- Columns:
anchor, positive, and negative
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
negative |
| type |
string |
string |
string |
| details |
- min: 5 tokens
- mean: 16.29 tokens
- max: 34 tokens
|
- min: 86 tokens
- mean: 327.19 tokens
- max: 525 tokens
|
- min: 3 tokens
- mean: 152.42 tokens
- max: 550 tokens
|
- Samples:
| anchor |
positive |
negative |
Noiz iritsi ziren Erromako lehen tropak Ebroko ibarrera? |
Duela bi mende, Viana eta Logroño arteko errepidea zabaldu zutenean, beroien herria erditik ebaki zuten; ez ziren jabetu zer kalte eragin zuten. 1971n Juan Cruz Labeaga ikerlariak aurkitu zituen material dezente toki horretan, eta orduan jabetu ziren Burdin Aroko herri baten aztarnategi bat zegoela errepideak moztutako eremuan.
2.000 urtez labore lurrak izan dira, eta aztarnategia ez dago lur azaletik oso sakon. Urteetan «lapurreta handia» izan da inguru horretan, Armendarizen esanetan, eta material arkeologiko ugari galdu da. «La Custodian esku hartu behar zen aspaldi. Ni horregatik hasi nintzen hor lanean, nola zegoen ikusita. Gauza asko suntsitu dira, baina oraindik ere merezi du lanean jarraitzea».
2017an georradarrarekin eremua aztertu, eta 2018an hasi ziren indusketak egiten; bost kata egin dituzte harrezkero, baina herria zenaren %0,2 besterik ez dute induskatu. «Esfortzua handia da, asko kostatzen da. Baina horrela egin behar dira gauzak, poliki-poliki», azaldu du Armendarize... |
Handik kilometro gutxira, Shengjineko portuan altxatutako lehen identifikazio zentrora, 16 asilo eskatzaile iritsi ziren iragan urriaren 16an. |
Zenbat muga biofisiko gainditu ditugu jada, adituen arabera? |
Otxandianok balizko trantsizio klimatiko gisa izendatzen duenaz ere badago zer esanik. Energia iturri fosilak ordezkatzeari buruz ari da behin eta berriz, eta jakina, denok ados gaude horretan, baina egiten duen proposamenarekin ez. Egungo larritasun ekologikoa neurtzeko erabiltzen den metodologia ezagunenak bederatzi muga biofisiko hartzen ditu kontuan, eta horietako bakar bat gainditzeak egun ezagutzen dugun oreka ekologikoa apurtzeko arrisku erreala dakarrela diote adituek. Iturri beren arabera, sei gainditu omen ditugu jada. Hori jakinda, Otxandiano eta konpainiaren proposamenak klima larrialdiari erantzuteko pretentsioa du soilik, hau da, sei puntutik bakar bati erantzuteko ahalegina da, berau aurrera eraman ahal izateko egin behar den mineral eta material ezberdinen erauzketak, ekoizpenak eta abarrek beste puntu guztietan arazoa handitzea dakarten bitartean.
Baina proposamenaren antzutasuna ez da horretara mugatzen. Proposamen hau aurrera eraman ahal izateko egungo energia konts... |
Horren adierazle, parke eolikoen egoera beste inork baino hobeto ezagutzen duten enpresa bazkideek bultzatu dute Renercycle. «Badakite zer behar dagoen. Horregatik inbertitu dute. Badakite badagoela merkatua eta behar horri erantzun beharko zaiola».
Renercycleren asmoa da parkeen jabeei zerbitzu osoa eskaintzea: «Hor barruan sartuko da makinak desmuntatzea eta zati horiek garraiatzea». Eragozpen handiko operazioak dira. Hasteko, denbora asko pasatu delako parkeak eraiki zirenetik: «Maiz, jabeak aldatu dira, baina ez diote elkarri dokumentaziorik eman, eta zailtasun teknikoak egon ohi dira horregatik». Gainera, inbertsio handia eskatzen dute: «Eraikitzeko erabili ziren tonaje handiko garabiak mobilizatu behar dira». Renercycleren asmoa da «metodo eraginkorrago bat» baliatzea parkea eraiki zenekoa baino.
Faltzesko logistika gunea
Legediaren arabera, enpresak behartuta daude mendia zegoen bezala uztera. «Ez dago baimendua —eta ongi dago hala izatea— dorreak moztea eta kutxak desegitea.... |
Zein da Ekuadorreko Penitenciaría del Litoral kartzelako presoen bizi-baldintza? |
Kazetaria. Kazetaritzako irakaslea Euskal Herriko Unibertsitatean
Ekuador, bere infernuaren preso
Gas-sukaldea eta mahaiak zituzten jatetxeak, ile apaindegia, denda txiki bat edozein auzotakoa bezalakoa... eta, haren kanpoaldean, korridore luze batean, Portako publizitate-kartel txiki bat zintzilik; orduan, herrialdean telefonia mugikorreko zerbitzuak eskaintzen zituzten hiru konpainietako bat zen Porta. Ez zegoen zalantzarik, hor saltzen ziren, iragarki eta guzti, telefonia mugikorreko aurreordainketako txartelak. Errudun baino errugabe eta sistema ustel baten biktima izatearen susmagarri ziren presoekin harremanetan nengoenez, eskertzen nuen eurek aukera horretaz gozatzea, baina ez nion harritzeari uzten: jakin nezakeen kartzelan une bakoitzean zer gertatzen zen, betiere atxilotuak bere mugikorrean saldoa bazuen. Izan ere, horietako batzuk nire iturri egonkorrak ziren. Noizean behin, funtzionarioek sarekadaren batean konfiskatzen zizkieten telefonoak, barne-ordena mantentzeko baino... |
Salhaketak lan baldintza onak opa dizkie Zaballako langileei, baina eskatu du ez dezatela presoen bizkar presio egin. |
- Loss:
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 16
num_train_epochs: 2
learning_rate: 2e-05
warmup_steps: 0.1
eval_strategy: epoch
per_device_eval_batch_size: 16
batch_sampler: no_duplicates
All Hyperparameters
Click to expand
per_device_train_batch_size: 16
num_train_epochs: 2
max_steps: -1
learning_rate: 2e-05
lr_scheduler_type: linear
lr_scheduler_kwargs: None
warmup_steps: 0.1
optim: adamw_torch_fused
optim_args: None
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
optim_target_modules: None
gradient_accumulation_steps: 1
average_tokens_across_devices: True
max_grad_norm: 1.0
label_smoothing_factor: 0.0
bf16: False
fp16: False
bf16_full_eval: False
fp16_full_eval: False
tf32: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
use_liger_kernel: False
liger_kernel_config: None
use_cache: False
neftune_noise_alpha: None
torch_empty_cache_steps: None
auto_find_batch_size: False
log_on_each_node: True
logging_nan_inf_filter: True
include_num_input_tokens_seen: no
log_level: passive
log_level_replica: warning
disable_tqdm: False
project: huggingface
trackio_space_id: trackio
eval_strategy: epoch
per_device_eval_batch_size: 16
prediction_loss_only: True
eval_on_start: False
eval_do_concat_batches: True
eval_use_gather_object: False
eval_accumulation_steps: None
include_for_metrics: []
batch_eval_metrics: False
save_only_model: False
save_on_each_node: False
enable_jit_checkpoint: False
push_to_hub: False
hub_private_repo: None
hub_model_id: None
hub_strategy: every_save
hub_always_push: False
hub_revision: None
load_best_model_at_end: False
ignore_data_skip: False
restore_callback_states_from_checkpoint: False
full_determinism: False
seed: 42
data_seed: None
use_cpu: False
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_pin_memory: True
dataloader_persistent_workers: False
dataloader_prefetch_factor: None
remove_unused_columns: True
label_names: None
train_sampling_strategy: random
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
ddp_backend: None
ddp_timeout: 1800
fsdp: []
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
deepspeed: None
debug: []
skip_memory_metrics: True
do_predict: False
resume_from_checkpoint: None
warmup_ratio: None
local_rank: -1
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}
Training Logs
| Epoch |
Step |
Training Loss |
Validation Loss |
mrbert-berria-v2-ft_cosine_accuracy |
| 0.2667 |
100 |
3.0075 |
- |
- |
| 0.5333 |
200 |
2.6252 |
- |
- |
| 0.8 |
300 |
2.4789 |
- |
- |
| 1.0 |
375 |
- |
3.0216 |
0.5580 |
| 1.0667 |
400 |
2.2954 |
- |
- |
| 1.3333 |
500 |
2.1807 |
- |
- |
| 1.6 |
600 |
2.1448 |
- |
- |
| 1.8667 |
700 |
2.0678 |
- |
- |
| 2.0 |
750 |
- |
2.8611 |
0.5738 |
Framework Versions
- Python: 3.11.8
- Sentence Transformers: 5.3.0
- Transformers: 5.2.0
- PyTorch: 2.11.0+cu130
- Accelerate: 1.13.0
- Datasets: 4.8.4
- Tokenizers: 0.22.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{oord2019representationlearningcontrastivepredictive,
title={Representation Learning with Contrastive Predictive Coding},
author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
year={2019},
eprint={1807.03748},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1807.03748},
}