metadata
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:579077
- loss:MultipleNegativesRankingLoss
- loss:CosineSimilarityLoss
base_model: Alibaba-NLP/gte-multilingual-base
widget:
- source_sentence: >-
공공부문 채용의 경우 안전·건강 등 국민생활과 밀접한 서비스 중심으로 국가공무원을 1만 6000명 증원하고, 공공기관 필수인력 확충을
추진한다.
sentences:
- >-
공공부문 채용의 경우 안전보건 등 국민생활과 밀접한 서비스를 중심으로 국가공무원을 1만6000명 늘리고 공공기관 필수인력 확충을
추진하기로 했습니다.
- 백열등보단 간접 조명을 켜두고 독서를 하는게 좋을 것 같아
- >-
이번에 공개한 기관별 정규직 전환 실적은 ‘공공부문 비정규직 고용개선 시스템’(http://public.moel.go.kr)에서
확인할 수 있다.
- source_sentence: 런던 여행을 하려는 분들에게 추천하고 싶은 곳 입니다.
sentences:
- 만약 내가 파리에 다시 온다면, 나는 여기에 머무를 것입니다.
- 지금의 위기를 새로운 기회와 발전의 원동력으로 삼겠습니다.
- 런던을 여행하고 싶은 분들에게 추천해 드리고 싶은 곳이에요.
- source_sentence: 이 절에서는 지불 과정에서 내부 통제의 중요성을 강조한다.
sentences:
- 그들은 스스로 세금을 부과함으로써 고속도로를 건설하고 새로운 버스 노선을 만들 것인가?
- >-
이 섹션에서는 전통적인 지불 프로세스, 전통적인 지불 프로세스 수정 및 지불 프로세스를 효과적으로 관리하기 위한 내부 제어의
중요성에 대해 논의합니다.
- 이 절은 전통적인 지불 절차에 대한 조정을 다루지 않을 것이다.
- source_sentence: 스케이트보드를 타고 건물 계단을 내려가는 스케이트보드 타는 사람.
sentences:
- 그는 긴장이나 피로의 한계에 도달한 후 해시 물체를 얻기 시작했다.
- 스케이트보더가 목을 부러뜨린다
- 스케이트보드 타는 사람이 건물 계단을 타고 내려간다
- source_sentence: 1896년, 경제 및 행정 조직이 조정되었다.
sentences:
- 세 명의 여자가 밖에 있다.
- 1896년에 아무 관심도 없었다.
- >-
말레이 주 Selangor, Perak, Negeri Sembilan 및 Pahang의 연맹은 1896년에 경제 및 행정 조직을
조정하기 위해 선포되었습니다.
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- pearson_cosine
- spearman_cosine
model-index:
- name: SentenceTransformer based on Alibaba-NLP/gte-multilingual-base
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts dev
type: sts-dev
metrics:
- type: pearson_cosine
value: 0.9347680624097541
name: Pearson Cosine
- type: spearman_cosine
value: 0.8993438650317843
name: Spearman Cosine
SentenceTransformer based on Alibaba-NLP/gte-multilingual-base
This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: Alibaba-NLP/gte-multilingual-base
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'1896년, 경제 및 행정 조직이 조정되었다.',
'말레이 주 Selangor, Perak, Negeri Sembilan 및 Pahang의 연맹은 1896년에 경제 및 행정 조직을 조정하기 위해 선포되었습니다.',
'1896년에 아무 관심도 없었다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Semantic Similarity
- Dataset:
sts-dev - Evaluated with
EmbeddingSimilarityEvaluator
| Metric | Value |
|---|---|
| pearson_cosine | 0.9348 |
| spearman_cosine | 0.8993 |
Training Details
Training Datasets
Unnamed Dataset
- Size: 568,576 training samples
- Columns:
sentence_0,sentence_1, andsentence_2 - Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 sentence_2 type string string string details - min: 5 tokens
- mean: 20.03 tokens
- max: 122 tokens
- min: 5 tokens
- mean: 19.48 tokens
- max: 88 tokens
- min: 5 tokens
- mean: 14.72 tokens
- max: 47 tokens
- Samples:
sentence_0 sentence_1 sentence_2 사람들이 자동차를 좋아한다.사람들은 클래식 자동차를 존경한다.사람들이 줄을 서서 콘서트를 기다리고 있다.그가 말을 타고 가면서 피의 강물이 흐르고 남자는 안장에 털썩 주저앉았다.그 남자는 말을 타다가 피를 흘리고 있었다.남자는 안장에 똑바로 앉았다.그 자료는 일년 중 일부만을 다루었다.올해 3월 보고된 2001년 자료는 예비 자료로 간주해야 하지만(반년만 다뤄지고 새로운 데이터 시스템에 기대되는 통상적인 종류의 스타트업 문제를 반영했다), 이미 공사가 그 어느 때보다 전국적으로 가능한 법률 서비스 관행에 대한 완전한 그림을 제공할 수 있는 풍부한 정보를 만들어냈다.그 자료는 일년 중 일부만을 다루었을 뿐 전혀 도움이 되지 않았다. - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Unnamed Dataset
- Size: 10,501 training samples
- Columns:
sentence_0,sentence_1, andlabel - Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string float details - min: 7 tokens
- mean: 20.82 tokens
- max: 73 tokens
- min: 8 tokens
- mean: 19.95 tokens
- max: 63 tokens
- min: 0.0
- mean: 0.44
- max: 1.0
- Samples:
sentence_0 sentence_1 label 제 학교 성적표를 받기로한 메일을 알 수 있을까요?쿠팡은 여태까지 배송 주문 확인 메일을 몇 통 보냈어?0.04지냈던 숙소 중에서 제일 마음에 들었습니다.지금 까지 이용한 에어비앤비 중에서 제일 마음에 들었어요.0.6눈 내릴 때 운전은 안됩니다.눈 내릴 때 운전은 위험해서 안돼.0.74 - Loss:
CosineSimilarityLosswith these parameters:{ "loss_fct": "torch.nn.modules.loss.MSELoss" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 32per_device_eval_batch_size: 32batch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 3max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Falsehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robin
Training Logs
| Epoch | Step | Training Loss | sts-dev_spearman_cosine |
|---|---|---|---|
| 0.7599 | 500 | 0.324 | - |
| 1.0015 | 659 | - | 0.8993 |
Framework Versions
- Python: 3.11.10
- Sentence Transformers: 3.3.0
- Transformers: 4.46.2
- PyTorch: 2.4.0+cu121
- Accelerate: 1.1.1
- Datasets: 3.1.0
- Tokenizers: 0.20.3
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}