SentenceTransformer based on truro7/vn-law-embedding

This is a sentence-transformers model finetuned from truro7/vn-law-embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: truro7/vn-law-embedding
Maximum Sequence Length: 512 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("phi010402/finetune-law-embedding-zalo-vlsp-6000")
# Run inference
sentences = [
    'Thời hạn để thực hiện đăng ký giao dịch cổ phiếu trên hệ thống giao dịch UPCOM quy định như thế nào?',
    '1. Đối tượng đăng ký giao dịch\na) Công ty đại chúng không niêm yết trên Sở giao dịch chứng khoán;\nb) Công ty bị hủy bỏ niêm yết bắt buộc hoặc hủy bỏ niêm yết tự nguyện nhưng vẫn đáp ứng điều kiện là công ty đại chúng;\nc) Doanh nghiệp cổ phần hóa thuộc đối tượng phải đăng ký giao dịch theo quy định pháp luật về chuyển doanh nghiệp nhà nước, công ty trách nhiệm hữu hạn một thành viên do doanh nghiệp nhà nước nắm giữ 100% vốn điều lệ, đơn vị sự nghiệp công lập thành công ty cổ phần.\n2. Thời hạn thực hiện đăng ký giao dịch\na) Công ty đại chúng phải hoàn tất việc đăng ký cổ phiếu tại Tổng công ty lưu ký và bù trừ chứng khoán Việt Nam và đăng ký giao dịch trên hệ thống giao dịch Upcom theo quy định tại điểm d, đ khoản 1 Điều 34 Luật Chứng khoán;\nb) Trong thời hạn 07 ngày làm việc kể từ ngày hủy bỏ niêm yết có hiệu lực, Sở giao dịch chứng khoán có trách nhiệm phối hợp với Tổng công ty lưu ký và bù trừ chứng khoán Việt Nam thực hiện đăng ký giao dịch đối với cổ phiếu của công ty bị hủy bỏ niêm yết;\nc) Thời hạn đăng ký giao dịch của doanh nghiệp cổ phần hóa thực hiện theo quy định pháp luật về chuyển doanh nghiệp nhà nước, công ty trách nhiệm hữu hạn một thành viên do doanh nghiệp nhà nước nắm giữ 100% vốn điều lệ, đơn vị sự nghiệp công lập thành công ty cổ phần. Doanh nghiệp cổ phần hóa đăng ký giao dịch trên hệ thống giao dịch Upcom phải thực hiện nghĩa vụ công bố thông tin theo quy định pháp luật và quy chế của Sở giao dịch chứng khoán.',
    'Trong Thông tư này, các từ ngữ dưới đây được hiểu như sau:\n1. Doanh nghiệp khởi nghiệp đổi mới sáng tạo là doanh nghiệp có khả năng tăng trưởng nhanh dựa trên khai thác tài sản trí tuệ, công nghệ, mô hình kinh doanh mới và có thời gian hoạt động không quá 05 năm kể từ ngày được cấp Giấy chứng nhận đăng ký doanh nghiệp lần đầu.\n2. Tổ chức hỗ trợ khởi nghiệp đổi mới sáng tạo là tổ chức cung cấp một số dịch vụ hỗ trợ cho cá nhân, nhóm cá nhân, doanh nghiệp khởi nghiệp đổi mới sáng tạo như: cơ sở vật chất - kỹ thuật, tư vấn, đào tạo, huấn luyện, nâng cao năng lực, đầu tư, hỗ trợ đầu tư, truyền thông.\n3. Tổ chức thúc đẩy kinh doanh là tổ chức hỗ trợ cá nhân, nhóm cá nhân, doanh nghiệp khởi nghiệp đổi mới sáng tạo phát triển mô hình kinh doanh, tiếp cận nguồn vốn đầu tư thông qua các khóa huấn luyện tập trung và các ngày hội đầu tư.\n4. Khu tập trung dịch vụ hỗ trợ khởi nghiệp đổi mới sáng tạo là nơi có cơ sở hạ tầng, không gian làm việc chung, tổ chức sự kiện, tổ chức cung cấp dịch vụ, đào tạo, đầu tư, hỗ trợ đầu tư và các dịch vụ cần thiết khác cho khởi nghiệp đổi mới sáng tạo.\n5. Chuyên gia khởi nghiệp đổi mới sáng tạo là người có kiến thức, kinh nghiệm trong việc nâng cao năng lực và kết nối các đối tượng của hệ sinh thái khởi nghiệp đổi mới sáng tạo thông qua hoạt động đào tạo, tư vấn chính sách, tư vấn hỗ trợ khởi nghiệp đổi mới sáng tạo.\n6. Tổ chức chủ trì thực hiện nhiệm vụ thuộc Đề án 844 (sau đây gọi tắt là tổ chức chủ trì) là tổ chức được cấp có thẩm quyền phê duyệt nhiệm vụ và giao chủ trì thực hiện nhiệm vụ thuộc Đề án 844.\n7. Ban Điều hành Đề án 844 là tổ chức có nhiệm vụ giúp Bộ trưởng Bộ Khoa học và Công nghệ định hướng triển khai, tham gia kiểm tra, giám sát, đánh giá việc tổ chức thực hiện Đề án 844. Ban Điều hành Đề án 844 do Bộ trưởng Bộ Khoa học và Công nghệ quyết định thành lập và quy định chức năng, nhiệm vụ.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Evaluated with InformationRetrievalEvaluator

Metric	Value
cosine_accuracy@1	0.95
cosine_accuracy@2	0.9938
cosine_accuracy@3	1.0
cosine_precision@1	0.95
cosine_precision@2	0.5125
cosine_precision@3	0.3438
cosine_recall@1	0.9313
cosine_recall@2	0.9906
cosine_recall@3	0.9969
cosine_ndcg@10	0.9796
cosine_mrr@10	0.974
cosine_map@100	0.9717

Training Details

Training Dataset

Unnamed Dataset

Size: 6,025 training samples
Columns: anchor and positive
Approximate statistics based on the first 1000 samples:
anchor positive
type string string
details
min: 8 tokens
mean: 23.03 tokens
max: 42 tokens

min: 23 tokens
mean: 320.27 tokens
max: 512 tokens

	anchor	positive
type	string	string
details	min: 8 tokens mean: 23.03 tokens max: 42 tokens	min: 23 tokens mean: 320.27 tokens max: 512 tokens

Samples:

anchor	positive
`Quy định về điều kiện cấp Giấy chứng nhận khả năng chuyên môn thợ kỹ thuật điện được quy định như thế nào?`	`1. Tốt nghiệp chuyên ngành kỹ thuật điện tàu biển trình độ trung cấp trở lên. Trường hợp tốt nghiệp chuyên ngành kỹ thuật điện tàu biển trình độ sơ cấp thì phải hoàn thành chương trình đào tạo nâng cao do Bộ trưởng Bộ Giao thông vận tải quy định. 2. Có giấy chứng nhận huấn luyện nghiệp vụ cơ bản. 3. Có thời gian đi biển 06 tháng hoặc tập sự thợ kỹ thuật điện 03 tháng.`
`Lựa chọn áp dụng hệ thống tài khoản kế toán theo Luật Kế toán 2003 được quy định như thế nào?`	`1. Đơn vị kế toán phải căn cứ vào hệ thống tài khoản kế toán do Bộ Tài chính quy định để chọn hệ thống tài khoản kế toán áp dụng ở đơn vị. 2. Đơn vị kế toán được chi tiết các tài khoản kế toán đã chọn phục vụ yêu cầu quản lý của đơn vị.`
`Cơ sở giáo dục có trách nhiệm gì đối với chế độ cử tuyển?`	1. Tiếp nhận, chịu trách nhiệm về chất lượng đào tạo người học theo chế độ cử tuyển và thực hiện đầy đủ các chế độ, chính sách đối với người học theo quy định. 2. Hằng năm, thông báo với cơ quan cử người đi học về kết quả học tập và rèn luyện của người học theo chế độ cử tuyển, thời gian tốt nghiệp đối với người học năm cuối khoá. 3. Bàn giao cho cơ quan cử người đi học hồ sơ của người học theo chế độ cử tuyển sau khi tốt nghiệp hoặc trong trường hợp thôi học.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Evaluation Dataset

Unnamed Dataset

Size: 166 evaluation samples
Columns: anchor and positive
Approximate statistics based on the first 166 samples:
anchor positive
type string string
details
min: 11 tokens
mean: 24.04 tokens
max: 43 tokens

min: 36 tokens
mean: 332.84 tokens
max: 512 tokens

	anchor	positive
type	string	string
details	min: 11 tokens mean: 24.04 tokens max: 43 tokens	min: 36 tokens mean: 332.84 tokens max: 512 tokens

Samples:

anchor	positive
`Mức xử phạt đối với hành vi không tổ chức khám sức khỏe định kỳ, khám bệnh nghề nghiệp cho người lao động được quy định như thế nào?`	1. Phạt tiền từ 500.000 đồng đến 1.000.000 đồng đối với người lao động có một trong các hành vi sau: a) Không sử dụng phương tiện bảo vệ cá nhân đã được trang cấp; b) Không tham gia cấp cứu và khắc phục sự cố, tai nạn lao động khi có lệnh của người sử dụng lao động hoặc cơ quan nhà nước có thẩm quyền. 2. Phạt tiền từ 1.000.000 đồng đến 3.000.000 đồng khi vi phạm với mỗi người lao động nhưng tối đa không quá 75.000.000 đồng đối với người sử dụng lao động có hành vi không tổ chức khám sức khỏe định kỳ, khám bệnh nghề nghiệp cho người lao động, trừ trường hợp người sử dụng lao động đã tổ chức khám sức khỏe định kỳ, khám bệnh nghề nghiệp cho người lao động nhưng người lao động không muốn khám. 3. Phạt tiền từ 5.000.000 đồng đến 10.000.000 đồng khi vi phạm với mỗi người lao động nhưng tối đa không quá 75.000.000 đồng đối với người sử dụng lao động có hành vi không tổ chức khám sức khỏe cho người lao động trước khi chuyển sang làm nghề, công việc nặng nhọc, độc hại, nguy hiểm hơn hoặc sau kh...
`Tranh chấp giữa cơ quan ký kết hợp đồng dự án PPP với nhà đầu tư trong nước thuộc thẩm quyền giải quyết của cơ quan nào?`	1. Tranh chấp giữa cơ quan có thẩm quyền, cơ quan ký kết hợp đồng với nhà đầu tư hoặc doanh nghiệp dự án PPP và tranh chấp giữa doanh nghiệp dự án PPP với các tổ chức kinh tế tham gia thực hiện dự án được giải quyết thông qua thương lượng, hòa giải, Trọng tài hoặc Tòa án. 2. Tranh chấp giữa cơ quan có thẩm quyền, cơ quan ký kết hợp đồng với nhà đầu tư trong nước hoặc doanh nghiệp dự án PPP do nhà đầu tư trong nước thành lập; tranh chấp giữa các nhà đầu tư trong nước; tranh chấp giữa nhà đầu tư trong nước hoặc doanh nghiệp dự án PPP do nhà đầu tư trong nước thành lập với các tổ chức kinh tế Việt Nam được giải quyết tại Trọng tài Việt Nam hoặc Tòa án Việt Nam. 3. Tranh chấp giữa cơ quan có thẩm quyền, cơ quan ký kết hợp đồng với nhà đầu tư nước ngoài hoặc với doanh nghiệp dự án PPP do nhà đầu tư nước ngoài thành lập được giải quyết tại Trọng tài Việt Nam hoặc Tòa án Việt Nam, trừ trường hợp có thỏa thuận khác theo hợp đồng hoặc điều ước quốc tế mà nước Cộng hòa xã hội chủ nghĩa Việt Nam ...
`Trình tự cấp, cấp lại Giấy chứng nhận đủ điều kiện sản xuất sản phẩm xử lý môi trường nuôi trồng thủy sản được quy định như thế nào?`	1. Thẩm quyền cấp, cấp lại, thu hồi Giấy chứng nhận cơ sở đủ điều kiện sản xuất thức ăn thủy sản, sản phẩm xử lý môi trường nuôi trồng thủy sản như sau: a) Tổng cục Thủy sản kiểm tra, cấp, cấp lại, thu hồi Giấy chứng nhận và kiểm tra duy trì cơ sở đủ điều kiện sản xuất thức ăn thủy sản, sản phẩm xử lý môi trường nuôi trồng thủy sản đối với nhà đầu tư nước ngoài, tổ chức kinh tế có vốn đầu tư nước ngoài; b) Cơ quan quản lý nhà nước về thủy sản cấp tỉnh kiểm tra, cấp, cấp lại, thu hồi Giấy chứng nhận và kiểm tra duy trì đủ điều kiện sản xuất thức ăn thủy sản, sản phẩm xử lý môi trường nuôi trồng thủy sản trên địa bàn, trừ các cơ sở sản xuất quy định tại điểm a khoản này. 2. Hồ sơ đề nghị cấp Giấy chứng nhận cơ sở đủ điều kiện sản xuất thức ăn thủy sản, sản phẩm xử lý môi trường nuôi trồng thủy sản gồm: a) Đơn đề nghị cấp Giấy chứng nhận cơ sở đủ điều kiện sản xuất theo Mẫu số 11.NT Phụ lục III ban hành kèm theo Nghị định này; b) Bản thuyết minh điều kiện cơ sở sản xuất theo Mẫu số 12.NT ...

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
num_train_epochs: 5
warmup_ratio: 0.1
bf16: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 5
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
tp_size: 0
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs

Epoch	Step	Training Loss	Validation Loss	cosine_ndcg@10
-1	-1	-	-	0.9473
0.0053	1	0.0722	-	-
0.7937	150	0.1461	0.1012	0.9772
1.5873	300	0.0639	0.0987	0.9762
2.3810	450	0.0373	0.0631	0.9774
3.1746	600	0.0279	0.0693	0.9787
3.9683	750	0.0158	0.0651	0.9810
4.7619	900	0.0178	0.0690	0.9796

Framework Versions

Python: 3.11.11
Sentence Transformers: 3.4.1
Transformers: 4.51.3
PyTorch: 2.6.0+cu124
Accelerate: 1.5.2
Datasets: 3.6.0
Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}