Update README.md
Browse files
README.md
CHANGED
|
@@ -34,7 +34,7 @@ base_model: sergeyzh/rubert-mini-sts
|
|
| 34 |
|
| 35 |
## Префиксы
|
| 36 |
Все префиксы унаследованы от FRIDA.
|
| 37 |
-
Оптимальный (обеспечивающий средние результаты) для большинства задач - "categorize: " прописан по умолчанию в [config_sentence_transformers.json](https://huggingface.co/sergeyzh/rubert-mini-frida/config_sentence_transformers.json)
|
| 38 |
|
| 39 |
Перечень используемых префиксов и их влияние на оценки модели в [encodechka](https://github.com/avidale/encodechka):
|
| 40 |
|
|
@@ -58,6 +58,8 @@ base_model: sergeyzh/rubert-mini-sts
|
|
| 58 |
- Sentiment analysis (**SA**);
|
| 59 |
- Toxicity identification (**TI**).
|
| 60 |
|
|
|
|
|
|
|
| 61 |
# Метрики
|
| 62 |
Оценки модели на бенчмарке [ruMTEB](https://habr.com/ru/companies/sberdevices/articles/831150/):
|
| 63 |
|
|
@@ -142,35 +144,8 @@ print(sim_scores.diag().tolist())
|
|
| 142 |
# [0.9360030293464661, 0.8591322302818298, 0.728583037853241] - FRIDA
|
| 143 |
```
|
| 144 |
|
| 145 |
-
## Использование с `sentence_transformers`:
|
| 146 |
-
|
| 147 |
-
```python
|
| 148 |
-
from sentence_transformers import SentenceTransformer
|
| 149 |
-
|
| 150 |
-
inputs = [
|
| 151 |
-
#
|
| 152 |
-
"paraphrase: В Ярославской области разрешили работу бань, но без посетителей",
|
| 153 |
-
"categorize_entailment: Женщину доставили в больницу, за ее жизнь сейчас борются врачи.",
|
| 154 |
-
"search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",
|
| 155 |
-
#
|
| 156 |
-
"paraphrase: Ярославским баням разрешили работать без посетителей",
|
| 157 |
-
"categorize_entailment: Женщину спасают врачи.",
|
| 158 |
-
"search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование."
|
| 159 |
-
]
|
| 160 |
-
|
| 161 |
-
# loads model with mean pooling
|
| 162 |
-
model = SentenceTransformer("sergeyzh/rubert-mini-frida")
|
| 163 |
-
|
| 164 |
-
# embeddings are normalized by default
|
| 165 |
-
embeddings = model.encode(inputs, convert_to_tensor=True)
|
| 166 |
-
|
| 167 |
-
sim_scores = embeddings[:3] @ embeddings[3:].T
|
| 168 |
-
print(sim_scores.diag().tolist())
|
| 169 |
-
# [0.9413310289382935, 0.8383190631866455, 0.7195918560028076]
|
| 170 |
-
# [0.9360026717185974, 0.8591331243515015, 0.7285830974578857] - FRIDA
|
| 171 |
-
```
|
| 172 |
|
| 173 |
-
##
|
| 174 |
|
| 175 |
```python
|
| 176 |
from sentence_transformers import SentenceTransformer
|
|
|
|
| 34 |
|
| 35 |
## Префиксы
|
| 36 |
Все префиксы унаследованы от FRIDA.
|
| 37 |
+
Оптимальный (обеспечивающий средние результаты) для большинства задач - "categorize: " прописан по умолчанию в [config_sentence_transformers.json](https://huggingface.co/sergeyzh/rubert-mini-frida/blob/main/config_sentence_transformers.json)
|
| 38 |
|
| 39 |
Перечень используемых префиксов и их влияние на оценки модели в [encodechka](https://github.com/avidale/encodechka):
|
| 40 |
|
|
|
|
| 58 |
- Sentiment analysis (**SA**);
|
| 59 |
- Toxicity identification (**TI**).
|
| 60 |
|
| 61 |
+
|
| 62 |
+
|
| 63 |
# Метрики
|
| 64 |
Оценки модели на бенчмарке [ruMTEB](https://habr.com/ru/companies/sberdevices/articles/831150/):
|
| 65 |
|
|
|
|
| 144 |
# [0.9360030293464661, 0.8591322302818298, 0.728583037853241] - FRIDA
|
| 145 |
```
|
| 146 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 147 |
|
| 148 |
+
## Использование с `sentence_transformers` (sentence-transformers>=2.4.0):
|
| 149 |
|
| 150 |
```python
|
| 151 |
from sentence_transformers import SentenceTransformer
|