SentenceTransformer based on sentence-transformers/all-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/all-MiniLM-L12-v2 on the medical_vietnamese_datasets dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("huyvux3005/medical-vietnamese-embedding-minilm")
# Run inference
queries = [
    "C\u00e1c t\u00e1c h\u1ea1i c\u1ee7a thu\u1ed1c tr\u00e1nh thai kh\u1ea9n c\u1ea5p",
]
documents = [
    '. Một số khác sử dụng thuốc cấp tốc gặp phải tình trạng rong kinh,rối loạn kinh nguyệt, thay đổi tính chất khí hư, tâm trạng thất thường hoặc bị lãnh cảm... Các biểu hiện này mặc dù không phải làtác hại khi dùng thuốc tránh thai khẩn cấpnhưng nếu chúng vẫn kéo dài, không thuyên giảm sau vài ngày uống thuốc thì người dùng cần phải đi gặp bác sĩ để được chẩn đoán chính xác. Ngoài những tác hại ngắn hạn nêu trên, một sốtác hại của thuốc ngừa thai khẩn cấpcó thể kéo dài nếu quá lạm dụng hoặc do cơ thể không dung nạp thuốc, bao gồm: Tăng cân, rối loạn huyết áp,trầm cảm, rối loạn hô hấp... Một số ít phụ nữ dùng thuốc có thể dẫn đến bệnh lýu nang buồng trứng, tuy nhiên tỷ lệ không cao. Thuốc tránh thai khẩn cấp được các bác sĩ đánh giá là biện pháp ngừa thai an toàn, hiệu quả khi sử dụng đúng chỉ định và đúng cách. Tuy nhiên bên cạnhtác hại của thuốc tránh thai khẩn cấpthì trong quá trình sử dụng chị em hoàn toàn có thể gặp phải một số tác dụng phụ như sau: Chu kỳ kinh nguyệt thay đổi, chậm có kinh, rối loạn kỳ kinh, không hoặc bị hành kinh nhiều lần trong tháng,rong kinh; Ảnh hưởng đến tâm trạng, cảm xúc, hay bồn chồn, lo lắng, bứt rứt trong người',
    '.  Uống nhiều nước để tránh bị\xa0hạ huyết áp, chóng mặt do cơ thể bị mất nước khi hiến máu.  Không ăn đồ ăn chứa nhiều gia vị và dầu mỡ.  Không uống rượu, bia, đồ uống có chứa caffeine vì chúng làm giảm khả năng hấp thu sắt của cơ thể.  Thả lỏng người, chuẩn bị tâm lý thoải mái.  Mang theo giấy tờ tùy thân trước khi đi.  Ngủ đủ giấc giúp bạn có được thể trạng tốt và tinh thần ổn định  Sau khi hiến máu, bạn có thể gặp một số tác dụng phụ như:  , buồn nôn, mệt mỏi,... do cơ thể chưa kịp thích nghi. Vì thế, để hạn chế tối đa những hiện tượng trên, bạn đừng quên những điều sau nhé! Đó là:  Bổ sung nước để bù sắt cho cơ thể.  Duỗi thẳng cánh tay để máu dễ lưu thông.  Nên nghỉ ngơi tại điểm hiến máu đến khi cơ thể thật sự ổn định.  Thông báo ngay cho nhân viên y tế nếu có những dấu hiệu bất thường sau hiến máu.  Tăng cường các thực phẩm chứa sắt,  , protein, vitamin B12 như: Sữa, thịt nạc, nội tạng động vật, rong biển, tôm, nấm hương, các loại thịt đỏ,... để đẩy nhanh quá trình tạo máu.  Không được uống trà hoặc cà phê pha đặc trong vòng 1 tháng sau khi hiến máu vì axit tannic phản ứng với protein và sắt sẽ tạo ra chất cặn bám lại trong mạch máu',
    '. Từ đó, tim không còn chức năng bơm máu để nuôi cơ thể. Nhịp tim nhanh hoặc rối loạn nhịp tim: Sự rối loạn của cơ tim không chỉ làm giảm khả năng bơm máu mà còn khiến dẫn tới tình trạng rối loạn nhịp tim. Trong trường hợp rối loạn nhịp tim nghiêm trọng có thể dẫn tới tử vong. Đột tử: Người bệnh viêm cơ tim gặp tình trạng rối loạn nhịp tim nghiêm trọng sẽ làm cho tim có thể ngừng đập đột ngột và dẫn đến tử vong. Nhồi máu cơ timvà đột quỵ: Nếu cơ tim bị tổn thương, máu chảy trong tim có thể hình thành nên cục máu đông, và khi cục máu đông này gây bít tắc một trong các động mạch vành, gây ra tình trạng nhồi máu cơ tim. Hoặc nếu cục máu đông trong tim di chuyển đến một động mạch dẫn đến não có thể gây rađột quỵ não. 5. Phương pháp điều trị viêm cơ tim Điều trị bằng thuốc: Điều trị viêm cơ tim bao gồm các biện pháp điều trị triệu chứng suy tim cấp, bao gồm lợi tiểu, nitrat hoặc nitroprusside và các thuốc ức chế men chuyển. Các thuốc tăng co bóp cơ tim như dobutamin, milrinone có thể cần trong các trường hợp suy tim nặng mất bù, mặc dù chúng cũng làm tăng nguy cơ gây rối loạn nhịp tim',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 384] [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[ 0.7221,  0.1903, -0.0444]])

Training Details

Training Dataset

medical_vietnamese_datasets

  • Dataset: medical_vietnamese_datasets at 54991e8
  • Size: 160,000 training samples
  • Columns: question and answer
  • Approximate statistics based on the first 1000 samples:
    question answer
    type string string
    details
    • min: 6 tokens
    • mean: 21.54 tokens
    • max: 45 tokens
    • min: 32 tokens
    • mean: 126.23 tokens
    • max: 128 tokens
  • Samples:
    question answer
    Bị gan nhiễm mỡ uống gì hết? . để phòng ngừa và giảm lượng mỡ thừa trong gan. Việc duy trì thói quen uống các loại nước ép này sẽ giúp cải thiện quá trình chuyển hóa của cơ thể theo thời gian. 2.7. Uống nước lá sen Trà sen nổi tiếng với công dụng chữa mất ngủ, trong khi lá sen là một vị thuốc được sử dụng cho nhiều bệnh khác nhau. Các nghiên cứu cho thấy chiết xuất từ lá sen có thể điều trị chứng khó ngủ, mất ngủ,sốt xuất huyết, thổ huyết... Ngoài ra, lá sen còn có khả năng thanh lọc cơ thể, tăng cường chuyển hóa mỡ thừa và thường được sử dụng như một phương pháp giảm cân. Bệnh nhân uống trà lá sen thường xuyên có thể giúp giảm dần lượng mỡ tích tụ trong gan. Do đó, trà lá sen là một lựa chọn nên thử khi bệnh nhân băn khoăn gan nhiễm mỡ uống gì hết. Lá sen có thể được nấu nước trực tiếp hoặc phơi khô để pha trà. Tuy nhiên, khi sử dụng các loại trà thảo dược, mọi người cần kiểm tra kỹ về vệ sinh an toàn thực phẩm để tránh những sản phẩm có chứa chất bảo quản hoặc các chất độc hại, gây ảnh hưởng xấu đến sức khỏe và ...
    Lưu ý khi dùng thuốc bôi nhiệt miệng cho bé dưới 1 tuổi . Một số trẻ bị nhiều vết nhiệt miệng cùng lúc hoặc bị vết loét to có thể dẫn đếnsốt, nổi hạch. Nhiệt miệng có thể làm hơi thở của trẻ có mùi hôi. Kiểm tra miệng của trẻ phát hiện thấy bề mặt lưỡi và niêm mạc miệng có xuất hiện các vết loét, xung quanh vết loét bị tấy đỏ. Vết loét có thể có một nốt riêng lẻ hoặc nhiều nốt mọc thành đám hay tách rời nhau. Kích thước của các vết loét không đều, ban đầu thường nhỏ khoảng 1 đến 2mm, nếu không được xử lý kịp thời vết loét sẽ tăng dần kích thước đến 8 hay 10mm. 2. Những lưu ý khi dùng thuốc bôi nhiệt miệng cho bé dưới 1 tuổi Tình trạng nhiệt miệng ở trẻ dưới 1 tuổi khiến các bé quấy khóc và bỏ ăn nên khiến cho những người bố người mẹ không khỏi lo lắng. Câu hỏi đặt ra là liệu có bắt buộc phải sử dụng thuốc bôi nhiệt miệng cho bé dưới 1 tuổi không? Trên thực tế, có rất nhiều bé bị nhiệt miệng mà có thể tự khỏi trong thời gian ngắn mà không cần phải sử dụng thuốc. Để quyết định có dùng thuốc điều trị nhiệt miệng hay không và nếu có thì nên dùn...
    Thiếu ngủ nên làm gì? Một số biện pháp giúp bạn nâng cao chất lượng giấc ngủ . Cụ thể hơn, những tác hại nghiêm trọng của thiếu ngủ như: Giảm khả năng nhận thức Gây ảnh hưởng đến trí nhớ, khả năng tập trung, ra quyết định và năng lực sáng tạo. Thiếu ngủ có thể làm yếu chức năng miễn dịch. Một vài nghiên cứu đã chỉ ra rằng những người thiếu ngủ phản ứng với vắc xin cúm kém hơn người ngủ đủ giấc. Ngoài ra, những người thiếu ngủ cũng dễ mắc các bệnh nhiễm trùng và cảm lạnh hơn so với người bình thường. Giấc ngủ đóng vai trò quan trọng trong việc điều chỉnh nồng độ hormone, bao gồm leptin và ghrelin. Ghrelin liên quan đến cảm giác đói, trong khi leptin liên quan đến cảm giác no. Ở người thiếu ngủ, nồng độ ghrelin tăng và nồng độ leptin giảm, dẫn đến tăng cảm giác đói và thèm ăn vào ban ngày. Đây là nguyên nhân khiến cho người thiếu ngủ có nguy cơ cao bị béo phì. Thiếu ngủ khiến cơ thể khó xử lý đường hơn, góp phần gây ra tình trạng không dung nạp glucose (kháng insulin) và làm tăng nguy cơ mắc bệnh đái tháo đường loại 2. Giấc ngủ bình thường giúp cơ thể giảm ...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Evaluation Dataset

medical_vietnamese_datasets

  • Dataset: medical_vietnamese_datasets at 54991e8
  • Size: 20,000 evaluation samples
  • Columns: question and answer
  • Approximate statistics based on the first 1000 samples:
    question answer
    type string string
    details
    • min: 6 tokens
    • mean: 21.26 tokens
    • max: 48 tokens
    • min: 32 tokens
    • mean: 126.53 tokens
    • max: 128 tokens
  • Samples:
    question answer
    Cơ sở khoa học của xét nghiệm sàng lọc trước sinh NIPT . Tuy nhiên, các cặp vợ chồng cần lưu ý rằng, xét nghiệm NIPT là xét nghiệm sàng lọc, cung cấp thông tin về nguy cơ thai nhi có bất thường về di truyền chứ không phải xét nghiệm chẩn đoán. Điều này có nghĩa là trong một số trường hợp xét nghiệm NIPT sẽ cho kết quả dương tính giả (xét nghiệm cho thấy thai nhi có nguy cơ cao bất thường về di truyền nhưng thực tế thai nhi hoàn toàn bình thường) hay âm tính giả (xét nghiệm cho thấy thai nhi nguy cơ thấp mắc bệnh di truyền nhưng thực sự thai nhi mang bất thường về di truyền). Đôi khi, xét nghiệm NIPT có thể cung cấp kết quả sai lệch. Một số trường hợp xét nghiệm cho thấy thai nhi có nguy cơ cao mắc bệnh di truyền nhưng thực tế thai nhi hoàn toàn bình thường (dương tính giả). Lý do của vấn đề trên là bởi vì xét nghiệm phân tích trên DNA phóng thích từ bánh nhau, không phải từ thai nhi, sự sai khác sẽ xảy ra nếu di truyền của bánh nhau và thai nhi có sự khác biệt. 2. Cần chuẩn bị gì trước khi làm xét nghiệm NIPT? Mang theo toàn bộ các kết quả...
    Tìm hiểu một số môi trường nuôi cấy vi khuẩn . Võ Thị Sáu, Q.3, TP. HCM Người chịu trách nhiệm nội dung:
    Chấn thương tim có thể nguy hiểm đến tính mạng . Chấn thương tim có thể nguy hiểm đến tính mạng đóng vai trò cực kỳ quan trọng trong hệ thống cơ thể, chịu trách nhiệm vận chuyển máu, chất dinh dưỡng và oxy đến toàn bộ cơ thể. Bất kỳ vấn đề nào ảnh hưởng đến tim đều có thể gây nguy cơ tử vong cho người bệnh. Trái tim đóng vai trò cực kỳ quan trọng trong hệ thống cơ thể Trong trường hợp chấn thương ở tim, nguy cơ tử vong rất cao vì tim được bảo vệ bởi khung xương sườn, xương ức và cột sống. Để gây tổn thương đến tim, thường cần một lực va đập cực mạnh. Do đó, hầu hết các chấn thương ở tim, đặc biệt là trong dạng nhẹ, thường khó nhận biết bởi không có nhiều triệu chứng cụ thể. Trong các trường hợp nặng, đa số bệnh nhân tử vong ngay sau khi bị tổn thương. Chỉ một số ít trường hợp, khi bệnh nhân bị tổn thương nhẹ ở một buồng tim và gây áp lực lên tim cấp tính, mới có đủ thời gian để di chuyển bệnh nhân đến cơ sở y tế hoặc bệnh viện gần nhất để tiếp nhận cứu chữa. Các thể chấn thương ở tim thường gặp Đây là loại chấn thương ở ti...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 128
  • learning_rate: 3e-05
  • warmup_ratio: 0.05
  • warmup_steps: 0.05
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 128
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 3e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_ratio: 0.05
  • warmup_steps: 0.05
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • enable_jit_checkpoint: False
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • use_cpu: False
  • seed: 42
  • data_seed: None
  • bf16: False
  • fp16: False
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: -1
  • ddp_backend: None
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • auto_find_batch_size: False
  • full_determinism: False
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • use_cache: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss
0.04 100 2.5113 -
0.08 200 1.8185 -
0.12 300 1.5691 -
0.16 400 1.4690 -
0.2 500 1.3525 1.4546
0.24 600 1.2802 -
0.28 700 1.2481 -
0.32 800 1.1389 -
0.36 900 1.1472 -
0.4 1000 1.1195 1.2435
0.44 1100 1.0826 -
0.48 1200 1.0573 -
0.52 1300 1.0347 -
0.56 1400 0.9791 -
0.6 1500 0.9983 1.1393
0.64 1600 0.9570 -
0.68 1700 0.9609 -
0.72 1800 0.9630 -
0.76 1900 0.9638 -
0.8 2000 0.9102 1.0578
0.84 2100 0.9266 -
0.88 2200 0.8890 -
0.92 2300 0.8986 -
0.96 2400 0.8900 -
1.0 2500 0.8912 1.0211
1.04 2600 0.7800 -
1.08 2700 0.8090 -
1.12 2800 0.8147 -
1.16 2900 0.8032 -
1.2 3000 0.7634 0.9783
1.24 3100 0.7898 -
1.28 3200 0.8071 -
1.32 3300 0.7326 -
1.3600 3400 0.7645 -
1.4 3500 0.8007 0.9534
1.44 3600 0.7413 -
1.48 3700 0.7334 -
1.52 3800 0.7500 -
1.56 3900 0.7344 -
1.6 4000 0.7476 0.9189
1.6400 4100 0.7186 -
1.6800 4200 0.7390 -
1.72 4300 0.7267 -
1.76 4400 0.7243 -
1.8 4500 0.7176 0.8960
1.8400 4600 0.7252 -
1.88 4700 0.7118 -
1.92 4800 0.7105 -
1.96 4900 0.7386 -
2.0 5000 0.6741 0.8773
2.04 5100 0.6686 -
2.08 5200 0.6660 -
2.12 5300 0.6298 -
2.16 5400 0.6303 -
2.2 5500 0.6394 0.8652
2.24 5600 0.6004 -
2.2800 5700 0.6469 -
2.32 5800 0.6318 -
2.36 5900 0.6150 -
2.4 6000 0.6264 0.8539
2.44 6100 0.6186 -
2.48 6200 0.6247 -
2.52 6300 0.6479 -
2.56 6400 0.6379 -
2.6 6500 0.6159 0.8433
2.64 6600 0.6277 -
2.68 6700 0.6218 -
2.7200 6800 0.6413 -
2.76 6900 0.6090 -
2.8 7000 0.6539 0.8343
2.84 7100 0.5858 -
2.88 7200 0.6033 -
2.92 7300 0.6228 -
2.96 7400 0.6094 -
3.0 7500 0.6035 0.8317

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.2.2
  • Transformers: 5.0.0
  • PyTorch: 2.9.0+cu126
  • Accelerate: 1.12.0
  • Datasets: 4.0.0
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
8
Safetensors
Model size
33.4M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for huyvux3005/medical-vietnamese-embedding-minilm

Dataset used to train huyvux3005/medical-vietnamese-embedding-minilm

Papers for huyvux3005/medical-vietnamese-embedding-minilm