Быстрая модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов BAAI/bge-m3 в rubert-tiny-turbo.

Основные характеристики модели:

  • размер ембеддинга - 312,
  • длина контекста - 512,
  • слоёв - 3,
  • префиксы - не требуются.

Использование

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sergeyzh/rubert-tiny-retriever')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))

Метрики

Оценки модели на задачах текстового поиска для русского языка:

Model Name MIRACL Reranking MIRACL Retrival RiaNews Retrieval RuBQ Reranking RuBQ Retrieval Average
bge-m3 0,654 0,702 0,830 0,740 0,712 0,728
rubert-tiny-retriever 0,574 0,530 0,611 0,668 0,589 0,594
rubert-tiny-turbo 0,477 0,371 0,513 0,622 0,517 0,500
rubert-tiny2 0,158 0,019 0,140 0,461 0,109 0,177

Оценки модели на задачах текстового поиска для английского языка:

Model Name AILA Statutes Argu Ana Legal Bench Corporate Lobbying SCIDOCS Stack Overflow QA Statcan Dialogue Dataset Retrieval Wikipedia Retrieval Multilingual Average
bge-m3 0,290 0,540 0,903 0,163 0,806 0,219 0,899 0,546
rubert-tiny-retriever 0,161 0,432 0,862 0,094 0,454 0,103 0,880 0,426
rubert-tiny-turbo 0,136 0,320 0,700 0,041 0,320 0,007 0,298 0,260
rubert-tiny2 0,138 0,277 0,602 0,012 0,200 0,004 0,145 0,197
Downloads last month
-
Safetensors
Model size
29.2M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for sergeyzh/rubert-tiny-retriever

Finetuned
(8)
this model

Datasets used to train sergeyzh/rubert-tiny-retriever

Collection including sergeyzh/rubert-tiny-retriever