sergeyzh/rubert-base-retriever

Модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов BAAI/bge-m3 в BERTA.

Основные характеристики модели:

размер ембеддинга - 768,
длина контекста - 512,
слоёв - 12,
префиксы - не требуются.

Использование

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sergeyzh/rubert-base-retriever')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))

Метрики

Оценки модели на задачах текстового поиска для русского языка:

Model Name	MIRACL Reranking	MIRACL Retrival	RiaNews Retrieval	RuBQ Reranking	RuBQ Retrieval	Average
bge-m3	0,654	0,702	0,830	0,740	0,712	0,728
BERTA	0,643	0,676	0,816	0,752	0,710	0,719
rubert-base-retriever	0,635	0,660	0,787	0,735	0,699	0,703
multilingual-e5-base	0,605	0,616	0,702	0,720	0,696	0,668

Оценки модели на задачах текстового поиска для английского языка:

Model Name	AILA Statutes	Argu Ana	Legal Bench Corporate Lobbying	SCIDOCS	Stack Overflow QA	Statcan Dialogue Dataset Retrieval	Wikipedia Retrieval Multilingual	Average
bge-m3	0,298	0,539	0,904	0,164	0,806	0,284	0,924	0,560
rubert-base-retriever	0,249	0,528	0,912	0,154	0,703	0,346	0,928	0,546
multilingual-e5-large	0,208	0,544	0,897	0,174	0,889	0,106	0,911	0,533
multilingual-e5-base	0,204	0,442	0,890	0,172	0,851	0,137	0,888	0,512
BERTA	0,188	0,414	0,907	0,112	0,493	0,304	0,888	0,472