SentenceTransformer based on truro7/vn-law-embedding

This is a sentence-transformers model finetuned from truro7/vn-law-embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: truro7/vn-law-embedding
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("phi010402/finetune-law-embedding-zalo-vlsp-6000")
# Run inference
sentences = [
    'Thời hạn để thực hiện đăng ký giao dịch cổ phiếu trên hệ thống giao dịch UPCOM quy định như thế nào?',
    '1. Đối tượng đăng ký giao dịch\na) Công ty đại chúng không niêm yết trên Sở giao dịch chứng khoán;\nb) Công ty bị hủy bỏ niêm yết bắt buộc hoặc hủy bỏ niêm yết tự nguyện nhưng vẫn đáp ứng điều kiện là công ty đại chúng;\nc) Doanh nghiệp cổ phần hóa thuộc đối tượng phải đăng ký giao dịch theo quy định pháp luật về chuyển doanh nghiệp nhà nước, công ty trách nhiệm hữu hạn một thành viên do doanh nghiệp nhà nước nắm giữ 100% vốn điều lệ, đơn vị sự nghiệp công lập thành công ty cổ phần.\n2. Thời hạn thực hiện đăng ký giao dịch\na) Công ty đại chúng phải hoàn tất việc đăng ký cổ phiếu tại Tổng công ty lưu ký và bù trừ chứng khoán Việt Nam và đăng ký giao dịch trên hệ thống giao dịch Upcom theo quy định tại điểm d, đ khoản 1 Điều 34 Luật Chứng khoán;\nb) Trong thời hạn 07 ngày làm việc kể từ ngày hủy bỏ niêm yết có hiệu lực, Sở giao dịch chứng khoán có trách nhiệm phối hợp với Tổng công ty lưu ký và bù trừ chứng khoán Việt Nam thực hiện đăng ký giao dịch đối với cổ phiếu của công ty bị hủy bỏ niêm yết;\nc) Thời hạn đăng ký giao dịch của doanh nghiệp cổ phần hóa thực hiện theo quy định pháp luật về chuyển doanh nghiệp nhà nước, công ty trách nhiệm hữu hạn một thành viên do doanh nghiệp nhà nước nắm giữ 100% vốn điều lệ, đơn vị sự nghiệp công lập thành công ty cổ phần. Doanh nghiệp cổ phần hóa đăng ký giao dịch trên hệ thống giao dịch Upcom phải thực hiện nghĩa vụ công bố thông tin theo quy định pháp luật và quy chế của Sở giao dịch chứng khoán.',
    'Trong Thông tư này, các từ ngữ dưới đây được hiểu như sau:\n1. Doanh nghiệp khởi nghiệp đổi mới sáng tạo là doanh nghiệp có khả năng tăng trưởng nhanh dựa trên khai thác tài sản trí tuệ, công nghệ, mô hình kinh doanh mới và có thời gian hoạt động không quá 05 năm kể từ ngày được cấp Giấy chứng nhận đăng ký doanh nghiệp lần đầu.\n2. Tổ chức hỗ trợ khởi nghiệp đổi mới sáng tạo là tổ chức cung cấp một số dịch vụ hỗ trợ cho cá nhân, nhóm cá nhân, doanh nghiệp khởi nghiệp đổi mới sáng tạo như: cơ sở vật chất - kỹ thuật, tư vấn, đào tạo, huấn luyện, nâng cao năng lực, đầu tư, hỗ trợ đầu tư, truyền thông.\n3. Tổ chức thúc đẩy kinh doanh là tổ chức hỗ trợ cá nhân, nhóm cá nhân, doanh nghiệp khởi nghiệp đổi mới sáng tạo phát triển mô hình kinh doanh, tiếp cận nguồn vốn đầu tư thông qua các khóa huấn luyện tập trung và các ngày hội đầu tư.\n4. Khu tập trung dịch vụ hỗ trợ khởi nghiệp đổi mới sáng tạo là nơi có cơ sở hạ tầng, không gian làm việc chung, tổ chức sự kiện, tổ chức cung cấp dịch vụ, đào tạo, đầu tư, hỗ trợ đầu tư và các dịch vụ cần thiết khác cho khởi nghiệp đổi mới sáng tạo.\n5. Chuyên gia khởi nghiệp đổi mới sáng tạo là người có kiến thức, kinh nghiệm trong việc nâng cao năng lực và kết nối các đối tượng của hệ sinh thái khởi nghiệp đổi mới sáng tạo thông qua hoạt động đào tạo, tư vấn chính sách, tư vấn hỗ trợ khởi nghiệp đổi mới sáng tạo.\n6. Tổ chức chủ trì thực hiện nhiệm vụ thuộc Đề án 844 (sau đây gọi tắt là tổ chức chủ trì) là tổ chức được cấp có thẩm quyền phê duyệt nhiệm vụ và giao chủ trì thực hiện nhiệm vụ thuộc Đề án 844.\n7. Ban Điều hành Đề án 844 là tổ chức có nhiệm vụ giúp Bộ trưởng Bộ Khoa học và Công nghệ định hướng triển khai, tham gia kiểm tra, giám sát, đánh giá việc tổ chức thực hiện Đề án 844. Ban Điều hành Đề án 844 do Bộ trưởng Bộ Khoa học và Công nghệ quyết định thành lập và quy định chức năng, nhiệm vụ.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.95
cosine_accuracy@2 0.9938
cosine_accuracy@3 1.0
cosine_precision@1 0.95
cosine_precision@2 0.5125
cosine_precision@3 0.3438
cosine_recall@1 0.9313
cosine_recall@2 0.9906
cosine_recall@3 0.9969
cosine_ndcg@10 0.9796
cosine_mrr@10 0.974
cosine_map@100 0.9717

Training Details

Training Dataset

Unnamed Dataset

  • Size: 6,025 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 8 tokens
    • mean: 23.03 tokens
    • max: 42 tokens
    • min: 23 tokens
    • mean: 320.27 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Quy định về điều kiện cấp Giấy chứng nhận khả năng chuyên môn thợ kỹ thuật điện được quy định như thế nào? 1. Tốt nghiệp chuyên ngành kỹ thuật điện tàu biển trình độ trung cấp trở lên. Trường hợp tốt nghiệp chuyên ngành kỹ thuật điện tàu biển trình độ sơ cấp thì phải hoàn thành chương trình đào tạo nâng cao do Bộ trưởng Bộ Giao thông vận tải quy định.
    2. Có giấy chứng nhận huấn luyện nghiệp vụ cơ bản.
    3. Có thời gian đi biển 06 tháng hoặc tập sự thợ kỹ thuật điện 03 tháng.
    Lựa chọn áp dụng hệ thống tài khoản kế toán theo Luật Kế toán 2003 được quy định như thế nào? 1. Đơn vị kế toán phải căn cứ vào hệ thống tài khoản kế toán do Bộ Tài chính quy định để chọn hệ thống tài khoản kế toán áp dụng ở đơn vị.
    2. Đơn vị kế toán được chi tiết các tài khoản kế toán đã chọn phục vụ yêu cầu quản lý của đơn vị.
    Cơ sở giáo dục có trách nhiệm gì đối với chế độ cử tuyển? 1. Tiếp nhận, chịu trách nhiệm về chất lượng đào tạo người học theo chế độ cử tuyển và thực hiện đầy đủ các chế độ, chính sách đối với người học theo quy định.
    2. Hằng năm, thông báo với cơ quan cử người đi học về kết quả học tập và rèn luyện của người học theo chế độ cử tuyển, thời gian tốt nghiệp đối với người học năm cuối khoá.
    3. Bàn giao cho cơ quan cử người đi học hồ sơ của người học theo chế độ cử tuyển sau khi tốt nghiệp hoặc trong trường hợp thôi học.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 166 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 166 samples:
    anchor positive
    type string string
    details
    • min: 11 tokens
    • mean: 24.04 tokens
    • max: 43 tokens
    • min: 36 tokens
    • mean: 332.84 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Mức xử phạt đối với hành vi không tổ chức khám sức khỏe định kỳ, khám bệnh nghề nghiệp cho người lao động được quy định như thế nào? 1. Phạt tiền từ 500.000 đồng đến 1.000.000 đồng đối với người lao động có một trong các hành vi sau:
    a) Không sử dụng phương tiện bảo vệ cá nhân đã được trang cấp;
    b) Không tham gia cấp cứu và khắc phục sự cố, tai nạn lao động khi có lệnh của người sử dụng lao động hoặc cơ quan nhà nước có thẩm quyền.
    2. Phạt tiền từ 1.000.000 đồng đến 3.000.000 đồng khi vi phạm với mỗi người lao động nhưng tối đa không quá 75.000.000 đồng đối với người sử dụng lao động có hành vi không tổ chức khám sức khỏe định kỳ, khám bệnh nghề nghiệp cho người lao động, trừ trường hợp người sử dụng lao động đã tổ chức khám sức khỏe định kỳ, khám bệnh nghề nghiệp cho người lao động nhưng người lao động không muốn khám.
    3. Phạt tiền từ 5.000.000 đồng đến 10.000.000 đồng khi vi phạm với mỗi người lao động nhưng tối đa không quá 75.000.000 đồng đối với người sử dụng lao động có hành vi không tổ chức khám sức khỏe cho người lao động trước khi chuyển sang làm nghề, công việc nặng nhọc, độc hại, nguy hiểm hơn hoặc sau kh...
    Tranh chấp giữa cơ quan ký kết hợp đồng dự án PPP với nhà đầu tư trong nước thuộc thẩm quyền giải quyết của cơ quan nào? 1. Tranh chấp giữa cơ quan có thẩm quyền, cơ quan ký kết hợp đồng với nhà đầu tư hoặc doanh nghiệp dự án PPP và tranh chấp giữa doanh nghiệp dự án PPP với các tổ chức kinh tế tham gia thực hiện dự án được giải quyết thông qua thương lượng, hòa giải, Trọng tài hoặc Tòa án.
    2. Tranh chấp giữa cơ quan có thẩm quyền, cơ quan ký kết hợp đồng với nhà đầu tư trong nước hoặc doanh nghiệp dự án PPP do nhà đầu tư trong nước thành lập; tranh chấp giữa các nhà đầu tư trong nước; tranh chấp giữa nhà đầu tư trong nước hoặc doanh nghiệp dự án PPP do nhà đầu tư trong nước thành lập với các tổ chức kinh tế Việt Nam được giải quyết tại Trọng tài Việt Nam hoặc Tòa án Việt Nam.
    3. Tranh chấp giữa cơ quan có thẩm quyền, cơ quan ký kết hợp đồng với nhà đầu tư nước ngoài hoặc với doanh nghiệp dự án PPP do nhà đầu tư nước ngoài thành lập được giải quyết tại Trọng tài Việt Nam hoặc Tòa án Việt Nam, trừ trường hợp có thỏa thuận khác theo hợp đồng hoặc điều ước quốc tế mà nước Cộng hòa xã hội chủ nghĩa Việt Nam ...
    Trình tự cấp, cấp lại Giấy chứng nhận đủ điều kiện sản xuất sản phẩm xử lý môi trường nuôi trồng thủy sản được quy định như thế nào? 1. Thẩm quyền cấp, cấp lại, thu hồi Giấy chứng nhận cơ sở đủ điều kiện sản xuất thức ăn thủy sản, sản phẩm xử lý môi trường nuôi trồng thủy sản như sau:
    a) Tổng cục Thủy sản kiểm tra, cấp, cấp lại, thu hồi Giấy chứng nhận và kiểm tra duy trì cơ sở đủ điều kiện sản xuất thức ăn thủy sản, sản phẩm xử lý môi trường nuôi trồng thủy sản đối với nhà đầu tư nước ngoài, tổ chức kinh tế có vốn đầu tư nước ngoài;
    b) Cơ quan quản lý nhà nước về thủy sản cấp tỉnh kiểm tra, cấp, cấp lại, thu hồi Giấy chứng nhận và kiểm tra duy trì đủ điều kiện sản xuất thức ăn thủy sản, sản phẩm xử lý môi trường nuôi trồng thủy sản trên địa bàn, trừ các cơ sở sản xuất quy định tại điểm a khoản này.
    2. Hồ sơ đề nghị cấp Giấy chứng nhận cơ sở đủ điều kiện sản xuất thức ăn thủy sản, sản phẩm xử lý môi trường nuôi trồng thủy sản gồm:
    a) Đơn đề nghị cấp Giấy chứng nhận cơ sở đủ điều kiện sản xuất theo Mẫu số 11.NT Phụ lục III ban hành kèm theo Nghị định này;
    b) Bản thuyết minh điều kiện cơ sở sản xuất theo Mẫu số 12.NT ...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 5
  • warmup_ratio: 0.1
  • bf16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss cosine_ndcg@10
-1 -1 - - 0.9473
0.0053 1 0.0722 - -
0.7937 150 0.1461 0.1012 0.9772
1.5873 300 0.0639 0.0987 0.9762
2.3810 450 0.0373 0.0631 0.9774
3.1746 600 0.0279 0.0693 0.9787
3.9683 750 0.0158 0.0651 0.9810
4.7619 900 0.0178 0.0690 0.9796

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.51.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.5.2
  • Datasets: 3.6.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
2
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for phi010402/finetune-law-embedding-zalo-vlsp-6000

Finetuned
(7)
this model

Papers for phi010402/finetune-law-embedding-zalo-vlsp-6000

Evaluation results