3-layer
Collection
очень быстрые модели • 5 items • Updated • 1
Быстрая модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов BAAI/bge-m3 в rubert-tiny-turbo.
Основные характеристики модели:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('sergeyzh/rubert-tiny-retriever')
sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))
Оценки модели на задачах текстового поиска для русского языка:
| Model Name | MIRACL Reranking | MIRACL Retrival | RiaNews Retrieval | RuBQ Reranking | RuBQ Retrieval | Average |
|---|---|---|---|---|---|---|
| bge-m3 | 0,654 | 0,702 | 0,830 | 0,740 | 0,712 | 0,728 |
| rubert-tiny-retriever | 0,574 | 0,530 | 0,611 | 0,668 | 0,589 | 0,594 |
| rubert-tiny-turbo | 0,477 | 0,371 | 0,513 | 0,622 | 0,517 | 0,500 |
| rubert-tiny2 | 0,158 | 0,019 | 0,140 | 0,461 | 0,109 | 0,177 |
Оценки модели на задачах текстового поиска для английского языка:
| Model Name | AILA Statutes | Argu Ana | Legal Bench Corporate Lobbying | SCIDOCS | Stack Overflow QA | Statcan Dialogue Dataset Retrieval | Wikipedia Retrieval Multilingual | Average |
|---|---|---|---|---|---|---|---|---|
| bge-m3 | 0,290 | 0,540 | 0,903 | 0,163 | 0,806 | 0,219 | 0,899 | 0,546 |
| rubert-tiny-retriever | 0,161 | 0,432 | 0,862 | 0,094 | 0,454 | 0,103 | 0,880 | 0,426 |
| rubert-tiny-turbo | 0,136 | 0,320 | 0,700 | 0,041 | 0,320 | 0,007 | 0,298 | 0,260 |
| rubert-tiny2 | 0,138 | 0,277 | 0,602 | 0,012 | 0,200 | 0,004 | 0,145 | 0,197 |