yoriis commited on
Commit
53e1a9b
·
verified ·
1 Parent(s): 9d1c4dc

Add new CrossEncoder model

Browse files
Files changed (7) hide show
  1. README.md +384 -0
  2. config.json +34 -0
  3. model.safetensors +3 -0
  4. special_tokens_map.json +37 -0
  5. tokenizer.json +0 -0
  6. tokenizer_config.json +94 -0
  7. vocab.txt +0 -0
README.md ADDED
@@ -0,0 +1,384 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - cross-encoder
5
+ - generated_from_trainer
6
+ - dataset_size:12128
7
+ - loss:BinaryCrossEntropyLoss
8
+ pipeline_tag: text-ranking
9
+ library_name: sentence-transformers
10
+ metrics:
11
+ - accuracy
12
+ - accuracy_threshold
13
+ - f1
14
+ - f1_threshold
15
+ - precision
16
+ - recall
17
+ - average_precision
18
+ model-index:
19
+ - name: CrossEncoder
20
+ results:
21
+ - task:
22
+ type: cross-encoder-classification
23
+ name: Cross Encoder Classification
24
+ dataset:
25
+ name: eval
26
+ type: eval
27
+ metrics:
28
+ - type: accuracy
29
+ value: 0.9324925816023739
30
+ name: Accuracy
31
+ - type: accuracy_threshold
32
+ value: 0.6693204641342163
33
+ name: Accuracy Threshold
34
+ - type: f1
35
+ value: 0.8605341246290801
36
+ name: F1
37
+ - type: f1_threshold
38
+ value: 0.2968624234199524
39
+ name: F1 Threshold
40
+ - type: precision
41
+ value: 0.8605341246290801
42
+ name: Precision
43
+ - type: recall
44
+ value: 0.8605341246290801
45
+ name: Recall
46
+ - type: average_precision
47
+ value: 0.9303687492497892
48
+ name: Average Precision
49
+ ---
50
+
51
+ # CrossEncoder
52
+
53
+ This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model trained using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
54
+
55
+ ## Model Details
56
+
57
+ ### Model Description
58
+ - **Model Type:** Cross Encoder
59
+ <!-- - **Base model:** [Unknown](https://huggingface.co/unknown) -->
60
+ - **Maximum Sequence Length:** 512 tokens
61
+ - **Number of Output Labels:** 1 label
62
+ <!-- - **Training Dataset:** Unknown -->
63
+ <!-- - **Language:** Unknown -->
64
+ <!-- - **License:** Unknown -->
65
+
66
+ ### Model Sources
67
+
68
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
69
+ - **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
70
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
71
+ - **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
72
+
73
+ ## Usage
74
+
75
+ ### Direct Usage (Sentence Transformers)
76
+
77
+ First install the Sentence Transformers library:
78
+
79
+ ```bash
80
+ pip install -U sentence-transformers
81
+ ```
82
+
83
+ Then you can load this model and run inference.
84
+ ```python
85
+ from sentence_transformers import CrossEncoder
86
+
87
+ # Download from the 🤗 Hub
88
+ model = CrossEncoder("yoriis/ce-quqa")
89
+ # Get scores for pairs of texts
90
+ pairs = [
91
+ ['ما هو موقف القرآن من المثلية الجنسية؟', 'ولوطا إذ قال لقومه أتأتون الفاحشة وأنتم تبصرون {54} أئنكم لتأتون الرجال شهوة من دون النساء بل أنتم قوم تجهلون {55} فما كان جواب قومه إلا أن قالوا أخرجوا آل لوط من قريتكم إنهم أناس يتطهرون {56} فأنجيناه وأهله إلا امرأته قدرناها من الغابرين {57} وأمطرنا عليهم مطرا فساء مطر المنذرين {58}النمل'],
92
+ ['هل ذكر القرآن أن التوراة تم تحريفها؟', 'يومئذ تحدث أخبارها{4} الزلزلة'],
93
+ ['من رد آيات الله بعد أن رآها رأي العين آية تلو آية.. فحري أن يبتليه الله ببلاء يكون به لغيره عبرة وآية، أذكر الآية التی دلت على هذا المعنى؟.', 'إنهم كانوا قبل ذلك مترفين{45} وكانوا يصرون على الحنث العظيم{46} وكانوا يقولون أئذا متنا وكنا ترابا وعظاما أئنا لمبعوثون{47} أو آباؤنا الأولون{48} الواقعة.'],
94
+ ['هل يجوز النذر لغير الله؟', 'إذ قالت امرأت عمران رب إني نذرت لك ما في بطني محررا فتقبل مني إنك أنت السميع العليم{35} آل عمران'],
95
+ ['ما هي انواع الحيوانات في القرآن؟', 'قال فاذهب فإن لك في الحياة أن تقول لا مساس وإن لك موعدا لن تخلفه وانظر إلى إلهك الذي ظلت عليه عاكفا لنحرقنه ثم لننسفنه في اليم نسفا{97} طه'],
96
+ ]
97
+ scores = model.predict(pairs)
98
+ print(scores.shape)
99
+ # (5,)
100
+
101
+ # Or rank different texts based on similarity to a single text
102
+ ranks = model.rank(
103
+ 'ما هو موقف القرآن من المثلية الجنسية؟',
104
+ [
105
+ 'ولوطا إذ قال لقومه أتأتون الفاحشة وأنتم تبصرون {54} أئنكم لتأتون الرجال شهوة من دون النساء بل أنتم قوم تجهلون {55} فما كان جواب قومه إلا أن قالوا أخرجوا آل لوط من قريتكم إنهم أناس يتطهرون {56} فأنجيناه وأهله إلا امرأته قدرناها من الغابرين {57} وأمطرنا عليهم مطرا فساء مطر المنذرين {58}��لنمل',
106
+ 'يومئذ تحدث أخبارها{4} الزلزلة',
107
+ 'إنهم كانوا قبل ذلك مترفين{45} وكانوا يصرون على الحنث العظيم{46} وكانوا يقولون أئذا متنا وكنا ترابا وعظاما أئنا لمبعوثون{47} أو آباؤنا الأولون{48} الواقعة.',
108
+ 'إذ قالت امرأت عمران رب إني نذرت لك ما في بطني محررا فتقبل مني إنك أنت السميع العليم{35} آل عمران',
109
+ 'قال فاذهب فإن لك في الحياة أن تقول لا مساس وإن لك موعدا لن تخلفه وانظر إلى إلهك الذي ظلت عليه عاكفا لنحرقنه ثم لننسفنه في اليم نسفا{97} طه',
110
+ ]
111
+ )
112
+ # [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
113
+ ```
114
+
115
+ <!--
116
+ ### Direct Usage (Transformers)
117
+
118
+ <details><summary>Click to see the direct usage in Transformers</summary>
119
+
120
+ </details>
121
+ -->
122
+
123
+ <!--
124
+ ### Downstream Usage (Sentence Transformers)
125
+
126
+ You can finetune this model on your own dataset.
127
+
128
+ <details><summary>Click to expand</summary>
129
+
130
+ </details>
131
+ -->
132
+
133
+ <!--
134
+ ### Out-of-Scope Use
135
+
136
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
137
+ -->
138
+
139
+ ## Evaluation
140
+
141
+ ### Metrics
142
+
143
+ #### Cross Encoder Classification
144
+
145
+ * Dataset: `eval`
146
+ * Evaluated with [<code>CrossEncoderClassificationEvaluator</code>](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CrossEncoderClassificationEvaluator)
147
+
148
+ | Metric | Value |
149
+ |:----------------------|:-----------|
150
+ | accuracy | 0.9325 |
151
+ | accuracy_threshold | 0.6693 |
152
+ | f1 | 0.8605 |
153
+ | f1_threshold | 0.2969 |
154
+ | precision | 0.8605 |
155
+ | recall | 0.8605 |
156
+ | **average_precision** | **0.9304** |
157
+
158
+ <!--
159
+ ## Bias, Risks and Limitations
160
+
161
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
162
+ -->
163
+
164
+ <!--
165
+ ### Recommendations
166
+
167
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
168
+ -->
169
+
170
+ ## Training Details
171
+
172
+ ### Training Dataset
173
+
174
+ #### Unnamed Dataset
175
+
176
+ * Size: 12,128 training samples
177
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
178
+ * Approximate statistics based on the first 1000 samples:
179
+ | | sentence_0 | sentence_1 | label |
180
+ |:--------|:-----------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------|:---------------------------------------------------------------|
181
+ | type | string | string | float |
182
+ | details | <ul><li>min: 8 characters</li><li>mean: 74.65 characters</li><li>max: 398 characters</li></ul> | <ul><li>min: 16 characters</li><li>mean: 134.35 characters</li><li>max: 1160 characters</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.23</li><li>max: 1.0</li></ul> |
183
+ * Samples:
184
+ | sentence_0 | sentence_1 | label |
185
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
186
+ | <code>ما هو موقف القرآن من المثلية الجنسية؟</code> | <code>ولوطا إذ قال لقومه أتأتون الفاحشة وأنتم تبصرون {54} أئنكم لتأتون الرجال شهوة من دون النساء بل أنتم قوم تجهلون {55} فما كان جواب قومه إلا أن قالوا أخرجوا آل لوط من قريتكم إنهم أناس يتطهرون {56} فأنجيناه وأهله إلا امرأته قدرناها من الغابرين {57} وأمطرنا عليهم مطرا فساء مطر المنذرين {58}النمل</code> | <code>1.0</code> |
187
+ | <code>هل ذكر القرآن أن التوراة تم تحريفها؟</code> | <code>يومئذ تحدث أخبارها{4} الزلزلة</code> | <code>0.0</code> |
188
+ | <code>من رد آيات الله بعد أن رآها رأي العين آية تلو آية.. فحري أن يبتليه الله ببلاء يكون به لغيره عبرة وآية، أذكر الآية التی دلت على هذا المعنى؟.</code> | <code>إنهم كانوا قبل ذلك مترفين{45} وكانوا يصرون على الحنث العظيم{46} وكانوا يقولون أئذا متنا وكنا ترابا وعظاما أئنا لمبعوثون{47} أو آباؤنا الأولون{48} الواقعة.</code> | <code>0.0</code> |
189
+ * Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
190
+ ```json
191
+ {
192
+ "activation_fn": "torch.nn.modules.linear.Identity",
193
+ "pos_weight": null
194
+ }
195
+ ```
196
+
197
+ ### Training Hyperparameters
198
+ #### Non-Default Hyperparameters
199
+
200
+ - `eval_strategy`: steps
201
+ - `per_device_train_batch_size`: 16
202
+ - `per_device_eval_batch_size`: 16
203
+ - `num_train_epochs`: 4
204
+ - `fp16`: True
205
+
206
+ #### All Hyperparameters
207
+ <details><summary>Click to expand</summary>
208
+
209
+ - `overwrite_output_dir`: False
210
+ - `do_predict`: False
211
+ - `eval_strategy`: steps
212
+ - `prediction_loss_only`: True
213
+ - `per_device_train_batch_size`: 16
214
+ - `per_device_eval_batch_size`: 16
215
+ - `per_gpu_train_batch_size`: None
216
+ - `per_gpu_eval_batch_size`: None
217
+ - `gradient_accumulation_steps`: 1
218
+ - `eval_accumulation_steps`: None
219
+ - `torch_empty_cache_steps`: None
220
+ - `learning_rate`: 5e-05
221
+ - `weight_decay`: 0.0
222
+ - `adam_beta1`: 0.9
223
+ - `adam_beta2`: 0.999
224
+ - `adam_epsilon`: 1e-08
225
+ - `max_grad_norm`: 1
226
+ - `num_train_epochs`: 4
227
+ - `max_steps`: -1
228
+ - `lr_scheduler_type`: linear
229
+ - `lr_scheduler_kwargs`: {}
230
+ - `warmup_ratio`: 0.0
231
+ - `warmup_steps`: 0
232
+ - `log_level`: passive
233
+ - `log_level_replica`: warning
234
+ - `log_on_each_node`: True
235
+ - `logging_nan_inf_filter`: True
236
+ - `save_safetensors`: True
237
+ - `save_on_each_node`: False
238
+ - `save_only_model`: False
239
+ - `restore_callback_states_from_checkpoint`: False
240
+ - `no_cuda`: False
241
+ - `use_cpu`: False
242
+ - `use_mps_device`: False
243
+ - `seed`: 42
244
+ - `data_seed`: None
245
+ - `jit_mode_eval`: False
246
+ - `use_ipex`: False
247
+ - `bf16`: False
248
+ - `fp16`: True
249
+ - `fp16_opt_level`: O1
250
+ - `half_precision_backend`: auto
251
+ - `bf16_full_eval`: False
252
+ - `fp16_full_eval`: False
253
+ - `tf32`: None
254
+ - `local_rank`: 0
255
+ - `ddp_backend`: None
256
+ - `tpu_num_cores`: None
257
+ - `tpu_metrics_debug`: False
258
+ - `debug`: []
259
+ - `dataloader_drop_last`: False
260
+ - `dataloader_num_workers`: 0
261
+ - `dataloader_prefetch_factor`: None
262
+ - `past_index`: -1
263
+ - `disable_tqdm`: False
264
+ - `remove_unused_columns`: True
265
+ - `label_names`: None
266
+ - `load_best_model_at_end`: False
267
+ - `ignore_data_skip`: False
268
+ - `fsdp`: []
269
+ - `fsdp_min_num_params`: 0
270
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
271
+ - `fsdp_transformer_layer_cls_to_wrap`: None
272
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
273
+ - `deepspeed`: None
274
+ - `label_smoothing_factor`: 0.0
275
+ - `optim`: adamw_torch
276
+ - `optim_args`: None
277
+ - `adafactor`: False
278
+ - `group_by_length`: False
279
+ - `length_column_name`: length
280
+ - `ddp_find_unused_parameters`: None
281
+ - `ddp_bucket_cap_mb`: None
282
+ - `ddp_broadcast_buffers`: False
283
+ - `dataloader_pin_memory`: True
284
+ - `dataloader_persistent_workers`: False
285
+ - `skip_memory_metrics`: True
286
+ - `use_legacy_prediction_loop`: False
287
+ - `push_to_hub`: False
288
+ - `resume_from_checkpoint`: None
289
+ - `hub_model_id`: None
290
+ - `hub_strategy`: every_save
291
+ - `hub_private_repo`: None
292
+ - `hub_always_push`: False
293
+ - `hub_revision`: None
294
+ - `gradient_checkpointing`: False
295
+ - `gradient_checkpointing_kwargs`: None
296
+ - `include_inputs_for_metrics`: False
297
+ - `include_for_metrics`: []
298
+ - `eval_do_concat_batches`: True
299
+ - `fp16_backend`: auto
300
+ - `push_to_hub_model_id`: None
301
+ - `push_to_hub_organization`: None
302
+ - `mp_parameters`:
303
+ - `auto_find_batch_size`: False
304
+ - `full_determinism`: False
305
+ - `torchdynamo`: None
306
+ - `ray_scope`: last
307
+ - `ddp_timeout`: 1800
308
+ - `torch_compile`: False
309
+ - `torch_compile_backend`: None
310
+ - `torch_compile_mode`: None
311
+ - `include_tokens_per_second`: False
312
+ - `include_num_input_tokens_seen`: False
313
+ - `neftune_noise_alpha`: None
314
+ - `optim_target_modules`: None
315
+ - `batch_eval_metrics`: False
316
+ - `eval_on_start`: False
317
+ - `use_liger_kernel`: False
318
+ - `liger_kernel_config`: None
319
+ - `eval_use_gather_object`: False
320
+ - `average_tokens_across_devices`: False
321
+ - `prompts`: None
322
+ - `batch_sampler`: batch_sampler
323
+ - `multi_dataset_batch_sampler`: proportional
324
+
325
+ </details>
326
+
327
+ ### Training Logs
328
+ | Epoch | Step | Training Loss | eval_average_precision |
329
+ |:------:|:----:|:-------------:|:----------------------:|
330
+ | 0.6596 | 500 | 0.5096 | 0.9076 |
331
+ | 1.0 | 758 | - | 0.9161 |
332
+ | 1.3193 | 1000 | 0.2928 | 0.9223 |
333
+ | 1.9789 | 1500 | 0.265 | 0.9267 |
334
+ | 2.0 | 1516 | - | 0.9269 |
335
+ | 2.6385 | 2000 | 0.2487 | 0.9287 |
336
+ | 3.0 | 2274 | - | 0.9293 |
337
+ | 3.2982 | 2500 | 0.2356 | 0.9299 |
338
+ | 3.9578 | 3000 | 0.2234 | 0.9304 |
339
+ | 4.0 | 3032 | - | 0.9304 |
340
+
341
+
342
+ ### Framework Versions
343
+ - Python: 3.11.13
344
+ - Sentence Transformers: 4.1.0
345
+ - Transformers: 4.54.0
346
+ - PyTorch: 2.6.0+cu124
347
+ - Accelerate: 1.9.0
348
+ - Datasets: 4.0.0
349
+ - Tokenizers: 0.21.2
350
+
351
+ ## Citation
352
+
353
+ ### BibTeX
354
+
355
+ #### Sentence Transformers
356
+ ```bibtex
357
+ @inproceedings{reimers-2019-sentence-bert,
358
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
359
+ author = "Reimers, Nils and Gurevych, Iryna",
360
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
361
+ month = "11",
362
+ year = "2019",
363
+ publisher = "Association for Computational Linguistics",
364
+ url = "https://arxiv.org/abs/1908.10084",
365
+ }
366
+ ```
367
+
368
+ <!--
369
+ ## Glossary
370
+
371
+ *Clearly define terms in order to be accessible across audiences.*
372
+ -->
373
+
374
+ <!--
375
+ ## Model Card Authors
376
+
377
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
378
+ -->
379
+
380
+ <!--
381
+ ## Model Card Contact
382
+
383
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
384
+ -->
config.json ADDED
@@ -0,0 +1,34 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.1,
9
+ "hidden_size": 768,
10
+ "id2label": {
11
+ "0": "LABEL_0"
12
+ },
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "label2id": {
16
+ "LABEL_0": 0
17
+ },
18
+ "layer_norm_eps": 1e-12,
19
+ "max_position_embeddings": 512,
20
+ "model_type": "bert",
21
+ "num_attention_heads": 12,
22
+ "num_hidden_layers": 12,
23
+ "pad_token_id": 0,
24
+ "position_embedding_type": "absolute",
25
+ "sentence_transformers": {
26
+ "activation_fn": "torch.nn.modules.activation.Sigmoid",
27
+ "version": "4.1.0"
28
+ },
29
+ "torch_dtype": "float32",
30
+ "transformers_version": "4.54.0",
31
+ "type_vocab_size": 2,
32
+ "use_cache": true,
33
+ "vocab_size": 64000
34
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7f0e9d91e1dfef4140662e0f0264c4cd0c0df61e45ec4581c67e85781263e164
3
+ size 540799996
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,94 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "5": {
44
+ "content": "[رابط]",
45
+ "lstrip": false,
46
+ "normalized": true,
47
+ "rstrip": false,
48
+ "single_word": true,
49
+ "special": true
50
+ },
51
+ "6": {
52
+ "content": "[بريد]",
53
+ "lstrip": false,
54
+ "normalized": true,
55
+ "rstrip": false,
56
+ "single_word": true,
57
+ "special": true
58
+ },
59
+ "7": {
60
+ "content": "[مستخدم]",
61
+ "lstrip": false,
62
+ "normalized": true,
63
+ "rstrip": false,
64
+ "single_word": true,
65
+ "special": true
66
+ }
67
+ },
68
+ "clean_up_tokenization_spaces": false,
69
+ "cls_token": "[CLS]",
70
+ "do_basic_tokenize": true,
71
+ "do_lower_case": false,
72
+ "extra_special_tokens": {},
73
+ "mask_token": "[MASK]",
74
+ "max_len": 512,
75
+ "max_length": 512,
76
+ "model_max_length": 512,
77
+ "never_split": [
78
+ "[بريد]",
79
+ "[مستخدم]",
80
+ "[رابط]"
81
+ ],
82
+ "pad_to_multiple_of": null,
83
+ "pad_token": "[PAD]",
84
+ "pad_token_type_id": 0,
85
+ "padding_side": "right",
86
+ "sep_token": "[SEP]",
87
+ "stride": 0,
88
+ "strip_accents": null,
89
+ "tokenize_chinese_chars": true,
90
+ "tokenizer_class": "BertTokenizer",
91
+ "truncation_side": "right",
92
+ "truncation_strategy": "longest_first",
93
+ "unk_token": "[UNK]"
94
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff