welcomyou
/

e5-small-vn-archive-mix50

Sentence Similarity

sentence-transformers

document-search

Model card Files Files and versions

welcomyou commited on 2 days ago

Commit

0478a4a

·

verified ·

1 Parent(s): 27ad772

docs: model card

Files changed (1) hide show

README.md +59 -0

README.md ADDED Viewed

	@@ -0,0 +1,59 @@

+---
+library_name: sentence-transformers
+pipeline_tag: sentence-similarity
+license: mit
+base_model: intfloat/multilingual-e5-small
+language:
+  - vi
+  - en
+tags:
+  - sentence-similarity
+  - sentence-transformers
+  - e5
+  - vietnamese
+  - onnx
+  - fp32
+  - retrieval
+  - document-search
+---
+# E5-small mix50 v2 — Vietnamese archive embedder
+Fine-tuned [`intfloat/multilingual-e5-small`](https://huggingface.co/intfloat/multilingual-e5-small) for retrieval on Vietnamese archived administrative documents. Trained on a 50/50 mix of (a) in-domain Vietnamese corpus and (b) general retrieval pairs, exported to ONNX fp32.
+Used as the dense passage encoder in the [ScanIndex](https://github.com/welcomyou/scanindex) hybrid search (Tantivy BM25 + FAISS HNSW + RRF fusion).
+## Files
+- `archive_models/e5-small-mix50-v2-onnx-fp32/model.onnx` (+ `model.onnx_data`)
+- Tokenizer + sentence-transformers metadata (`config.json`, `tokenizer.json`, `sentencepiece.bpe.model`, `1_Pooling/`, `modules.json`, …)
+## Asymmetric input
+E5 requires query/passage prefixes:
+```python
+queries  = [f"query: {q}" for q in raw_queries]
+passages = [f"passage: {p}" for p in raw_passages]
+```
+## Loading (ONNX)
+```python
+import onnxruntime as ort
+from transformers import AutoTokenizer
+from huggingface_hub import snapshot_download
+local = snapshot_download("welcomyou/e5-small-vn-archive-mix50", local_dir="models")
+sub = f"{local}/archive_models/e5-small-mix50-v2-onnx-fp32"
+tok = AutoTokenizer.from_pretrained(sub)
+sess = ort.InferenceSession(f"{sub}/model.onnx")
+```
+## Training
+See [train-convert/archive-embedder/train/mix50_v2/](https://github.com/welcomyou/scanindex/tree/main/train-convert/archive-embedder/train/mix50_v2).
+## License
+MIT, inherited from `intfloat/multilingual-e5-small`.