12-layer
Collection
отличный баланс скорости и качества • 7 items • Updated
Модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов BAAI/bge-m3 в BERTA.
Основные характеристики модели:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('sergeyzh/rubert-base-retriever')
sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))
Оценки модели на задачах текстового поиска для русского языка:
| Model Name | MIRACL Reranking | MIRACL Retrival | RiaNews Retrieval | RuBQ Reranking | RuBQ Retrieval | Average |
|---|---|---|---|---|---|---|
| bge-m3 | 0,654 | 0,702 | 0,830 | 0,740 | 0,712 | 0,728 |
| BERTA | 0,643 | 0,676 | 0,816 | 0,752 | 0,710 | 0,719 |
| rubert-base-retriever | 0,635 | 0,660 | 0,787 | 0,735 | 0,699 | 0,703 |
| multilingual-e5-base | 0,605 | 0,616 | 0,702 | 0,720 | 0,696 | 0,668 |
Оценки модели на задачах текстового поиска для английского языка:
| Model Name | AILA Statutes | Argu Ana | Legal Bench Corporate Lobbying | SCIDOCS | Stack Overflow QA | Statcan Dialogue Dataset Retrieval | Wikipedia Retrieval Multilingual | Average |
|---|---|---|---|---|---|---|---|---|
| bge-m3 | 0,298 | 0,539 | 0,904 | 0,164 | 0,806 | 0,284 | 0,924 | 0,560 |
| rubert-base-retriever | 0,249 | 0,528 | 0,912 | 0,154 | 0,703 | 0,346 | 0,928 | 0,546 |
| multilingual-e5-large | 0,208 | 0,544 | 0,897 | 0,174 | 0,889 | 0,106 | 0,911 | 0,533 |
| multilingual-e5-base | 0,204 | 0,442 | 0,890 | 0,172 | 0,851 | 0,137 | 0,888 | 0,512 |
| BERTA | 0,188 | 0,414 | 0,907 | 0,112 | 0,493 | 0,304 | 0,888 | 0,472 |