Модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов BAAI/bge-m3 в BERTA.

Основные характеристики модели:

  • размер ембеддинга - 768,
  • длина контекста - 512,
  • слоёв - 12,
  • префиксы - не требуются.

Использование

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sergeyzh/rubert-base-retriever')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))

Метрики

Оценки модели на задачах текстового поиска для русского языка:

Model Name MIRACL Reranking MIRACL Retrival RiaNews Retrieval RuBQ Reranking RuBQ Retrieval Average
bge-m3 0,654 0,702 0,830 0,740 0,712 0,728
BERTA 0,643 0,676 0,816 0,752 0,710 0,719
rubert-base-retriever 0,635 0,660 0,787 0,735 0,699 0,703
multilingual-e5-base 0,605 0,616 0,702 0,720 0,696 0,668

Оценки модели на задачах текстового поиска для английского языка:

Model Name AILA Statutes Argu Ana Legal Bench Corporate Lobbying SCIDOCS Stack Overflow QA Statcan Dialogue Dataset Retrieval Wikipedia Retrieval Multilingual Average
bge-m3 0,298 0,539 0,904 0,164 0,806 0,284 0,924 0,560
rubert-base-retriever 0,249 0,528 0,912 0,154 0,703 0,346 0,928 0,546
multilingual-e5-large 0,208 0,544 0,897 0,174 0,889 0,106 0,911 0,533
multilingual-e5-base 0,204 0,442 0,890 0,172 0,851 0,137 0,888 0,512
BERTA 0,188 0,414 0,907 0,112 0,493 0,304 0,888 0,472
Downloads last month
-
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for sergeyzh/rubert-base-retriever

Finetuned
sergeyzh/BERTA
Finetuned
(4)
this model

Datasets used to train sergeyzh/rubert-base-retriever

Collection including sergeyzh/rubert-base-retriever