Egor-3926 commited on
Commit
c4d71f8
·
verified ·
1 Parent(s): d7d2d80

Update Russian model card

Browse files
Files changed (1) hide show
  1. README.md +34 -28
README.md CHANGED
@@ -16,52 +16,56 @@ model-index:
16
  results:
17
  - task:
18
  type: text-classification
19
- name: Text Classification
20
  dataset:
21
- name: Internal held-out toxicity test split
22
  type: private
23
  metrics:
24
  - type: accuracy
25
  value: 0.968937125748503
26
- name: Accuracy
27
  - type: precision
28
  value: 0.9309514251304697
29
- name: Toxic precision
30
  - type: recall
31
  value: 0.905152224824356
32
- name: Toxic recall
33
  - type: f1
34
  value: 0.9178705719374629
35
- name: Toxic F1
36
  - type: f1
37
  value: 0.9493585102268198
38
  name: Macro F1
39
  ---
40
 
 
 
 
 
41
  # ToxicLord v1
42
 
43
- ToxicLord v1 is a Russian text classification model for chat moderation. It classifies messages as `clean` or `toxic` and is tuned for short Russian Telegram-style messages.
44
 
45
- The model is intended for assistive moderation workflows. It can make mistakes and should be used with logging, review, and project-specific thresholds.
46
 
47
- ## Labels
48
 
49
  ```text
50
  0: clean
51
  1: toxic
52
  ```
53
 
54
- ## Recommended Threshold
55
 
56
- For conservative Telegram moderation, use the toxic probability instead of only argmax:
57
 
58
  ```text
59
- toxic if P(toxic) >= 0.90
60
  ```
61
 
62
- ## Evaluation
63
 
64
- Internal held-out test split:
65
 
66
  ```text
67
  accuracy: 0.9689
@@ -71,14 +75,14 @@ f1_toxic: 0.9179
71
  macro_f1: 0.9494
72
  ```
73
 
74
- External fixed benchmark samples at threshold `0.90`:
75
 
76
  ```text
77
- Telegram clean chat sample: 2/500 triggered, 0.4% trigger rate
78
- Toxic sample: 364/500 triggered, 72.8% trigger rate
79
  ```
80
 
81
- ## Usage
82
 
83
  ```python
84
  import torch
@@ -102,19 +106,21 @@ label = "toxic" if toxic_score >= 0.90 else "clean"
102
  print(label, toxic_score)
103
  ```
104
 
105
- ## Training Data
 
 
106
 
107
- The model was fine-tuned on a mixture of public Russian toxicity datasets and private moderation annotations/corrections. Raw training data, Telegram logs, user identifiers, and private annotations are not redistributed with this model.
108
 
109
- ## Limitations
110
 
111
- - The model is optimized for Russian Telegram-style moderation and may not transfer well to formal text, long documents, or other languages.
112
- - Short insults and slurs may be classified as toxic even without broader context.
113
- - Sarcasm, quotes, jokes, reclaimed language, and moderation discussions can be misclassified.
114
- - The model should not be used as the only source of truth for irreversible moderation actions.
115
 
116
- ## License
117
 
118
- This model is released under `cc-by-nc-nd-4.0`.
119
 
120
- Non-commercial use is allowed with attribution. Commercial use and derivative redistribution are not allowed under this license.
 
16
  results:
17
  - task:
18
  type: text-classification
19
+ name: Классификация текста
20
  dataset:
21
+ name: Внутренний тестовый набор токсичности
22
  type: private
23
  metrics:
24
  - type: accuracy
25
  value: 0.968937125748503
26
+ name: Точность
27
  - type: precision
28
  value: 0.9309514251304697
29
+ name: Precision токсичного класса
30
  - type: recall
31
  value: 0.905152224824356
32
+ name: Recall токсичного класса
33
  - type: f1
34
  value: 0.9178705719374629
35
+ name: F1 токсичного класса
36
  - type: f1
37
  value: 0.9493585102268198
38
  name: Macro F1
39
  ---
40
 
41
+ <p align="center">
42
+ <img src="ToxicLord.png" alt="ToxicLord" width="420"/>
43
+ </p>
44
+
45
  # ToxicLord v1
46
 
47
+ ToxicLord v1 - русскоязычная модель классификации токсичности для чат-модерации. Модель классифицирует короткие сообщения как `clean` или `toxic` и настроена под стиль Telegram-чатов.
48
 
49
+ Модель предназначена для помощи в модерации. Она может ошибаться, поэтому для реального использования рекомендуется логирование, ручная проверка спорных случаев и подбор порога под конкретное сообщество.
50
 
51
+ ## Метки
52
 
53
  ```text
54
  0: clean
55
  1: toxic
56
  ```
57
 
58
+ ## Рекомендуемый порог
59
 
60
+ Для осторожной Telegram-модерации лучше использовать вероятность токсичного класса, а не только `argmax`:
61
 
62
  ```text
63
+ toxic, если P(toxic) >= 0.90
64
  ```
65
 
66
+ ## Метрики
67
 
68
+ Внутренний тестовый набор:
69
 
70
  ```text
71
  accuracy: 0.9689
 
75
  macro_f1: 0.9494
76
  ```
77
 
78
+ Внешние фиксированные тестовые выборки при пороге `0.90`:
79
 
80
  ```text
81
+ Обычный Telegram-чат: 2/500 срабатываний, 0.4%
82
+ Токсичная выборка: 364/500 срабатываний, 72.8%
83
  ```
84
 
85
+ ## Использование
86
 
87
  ```python
88
  import torch
 
106
  print(label, toxic_score)
107
  ```
108
 
109
+ ## Обучающие данные
110
+
111
+ Модель дообучалась на смеси публичных русскоязычных датасетов токсичности и приватных модерационных разметок/исправлений.
112
 
113
+ Сырые обучающие данные, Telegram-логи, идентификаторы пользователей и приватные разметки вместе с моделью не распространяются.
114
 
115
+ ## Ограничения
116
 
117
+ - Модель оптимизирована для русскоязычных Telegram-чатов и может хуже работать на формальных текстах, длинных документах и других языках.
118
+ - Короткие оскорбления и токсичные ярлыки могут классифицироваться как токсичные даже без широкого контекста.
119
+ - Сарказм, цитаты, шутки, обсуждение правил и мета-комментарии могут распознаваться неверно.
120
+ - Модель не стоит использовать как единственный источник решения для необратимых наказаний.
121
 
122
+ ## Лицензия
123
 
124
+ Модель опубликована под лицензией `cc-by-nc-nd-4.0`.
125
 
126
+ Разрешено некоммерческое использование с указанием авторства. Коммерческое использование и распространение производных версий запрещены условиями лицензии.