sergeyzh/rubert-tiny-retriever

Быстрая модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов BAAI/bge-m3 в rubert-tiny-turbo.

Основные характеристики модели:

размер ембеддинга - 312,
длина контекста - 512,
слоёв - 3,
префиксы - не требуются.

Использование

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sergeyzh/rubert-tiny-retriever')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))

Метрики

Оценки модели на задачах текстового поиска для русского языка:

Model Name	MIRACL Reranking	MIRACL Retrival	RiaNews Retrieval	RuBQ Reranking	RuBQ Retrieval	Average
bge-m3	0,654	0,702	0,830	0,740	0,712	0,728
rubert-tiny-retriever	0,574	0,530	0,611	0,668	0,589	0,594
rubert-tiny-turbo	0,477	0,371	0,513	0,622	0,517	0,500
rubert-tiny2	0,158	0,019	0,140	0,461	0,109	0,177

Оценки модели на задачах текстового поиска для английского языка:

Model Name	AILA Statutes	Argu Ana	Legal Bench Corporate Lobbying	SCIDOCS	Stack Overflow QA	Statcan Dialogue Dataset Retrieval	Wikipedia Retrieval Multilingual	Average
bge-m3	0,290	0,540	0,903	0,163	0,806	0,219	0,899	0,546
rubert-tiny-retriever	0,161	0,432	0,862	0,094	0,454	0,103	0,880	0,426
rubert-tiny-turbo	0,136	0,320	0,700	0,041	0,320	0,007	0,298	0,260
rubert-tiny2	0,138	0,277	0,602	0,012	0,200	0,004	0,145	0,197