Upload tokenizer

Browse files

Files changed (6) hide show

README.md +40 -46
added_tokens.json +4 -0
special_tokens_map.json +3 -7
tokenizer.json +2 -2
tokenizer.model +2 -2
tokenizer_config.json +20 -28

README.md CHANGED Viewed

@@ -1,55 +1,49 @@
 ---
----
 license: cc-by-nc-sa-4.0
 datasets:
-  - Iker/NoticIA
-language:
-  - es
 metrics:
-  - rouge
-library_name: transformers
 pipeline_tag: text-generation
-base_model: NousResearch/Nous-Hermes-2-SOLAR-10.7B
-tags:
-  - clickbait
-  - noticia
-  - spanish
-  - summary
-  - summarization
 widget:
-  - example_title: Summary Example
-    messages:
-      - role: user
-        content: "Ahora eres una Inteligencia Artificial experta en desmontar titulares
-          sensacionalistas o clickbait. Tu tarea consiste en analizar noticias
-          con titulares sensacionalistas y generar un resumen de una sola frase
-          que revele la verdad detrás del titular.\\nEste es el titular de la
-          noticia: Le compra un abrigo a su abuela de 97 años y la reacción de
-          esta es una fantasía\\nEl titular plantea una pregunta o proporciona
-          información incompleta. Debes buscar en el cuerpo de la noticia una
-          frase que responda lo que se sugiere en el título. Siempre que puedas
-          cita el texto original, especialmente si se trata de una frase que
-          alguien ha dicho. Si citas una frase que alguien ha dicho, usa
-          comillas para indicar que es una cita. Usa siempre las mínimas
-          palabras posibles. No es necesario que la respuesta sea una oración
-          completa. Puede ser sólo el foco de la pregunta. Recuerda responder
-          siempre en Español.\\nEste es el cuerpo de la noticia:\\nLa usuaria de
-          X @Kokreta1 ha relatado la conversación que ha tenido con su abuela de
-          97 años cuando le ha dado el abrigo que le ha comprado para su
-          cumpleaños.\\nTeniendo en cuenta la avanzada edad de la señora, la
-          tuitera le ha regalado una prenda acorde a sus años, algo con lo que
-          su yaya no ha estado de acuerdo.\\nEl abrigo es de vieja, ha opinado
-          la mujer cuando lo ha visto. Os juro que soy muy fan. Mañana vamos las
-          dos (a por otro). Eso sí, la voy a llevar al Bershka, ha asegurado
-          entre risas la joven.\\nSegún la propia cadena de ropa, la cual
-          pertenece a Inditex, su público se caracteriza por ser jóvenes
-          atrevidos, conocedores de las últimas tendencias e interesados en la
-          música, las redes sociales y las nuevas tecnologías, por lo que la
-          gente mayor no suele llevar este estilo.\\nLa inusual personalidad de
-          la señora ha encantado a los usuarios de la red. Es por eso que el
-          relato ha acumulado más de 1.000 me gusta y cerca de 100 retuits,
-          además de una multitud de comentarios.\\n"
 ---
 <table>

 ---
+language:
+- es
 license: cc-by-nc-sa-4.0
+library_name: transformers
+tags:
+- clickbait
+- noticia
+- spanish
+- summary
+- summarization
+base_model: NousResearch/Nous-Hermes-2-SOLAR-10.7B
 datasets:
+- Iker/NoticIA
 metrics:
+- rouge
 pipeline_tag: text-generation
 widget:
+- example_title: Summary Example
+  messages:
+  - role: user
+    content: 'Ahora eres una Inteligencia Artificial experta en desmontar titulares
+      sensacionalistas o clickbait. Tu tarea consiste en analizar noticias con titulares
+      sensacionalistas y generar un resumen de una sola frase que revele la verdad
+      detrás del titular.\nEste es el titular de la noticia: Le compra un abrigo a
+      su abuela de 97 años y la reacción de esta es una fantasía\nEl titular plantea
+      una pregunta o proporciona información incompleta. Debes buscar en el cuerpo
+      de la noticia una frase que responda lo que se sugiere en el título. Siempre
+      que puedas cita el texto original, especialmente si se trata de una frase que
+      alguien ha dicho. Si citas una frase que alguien ha dicho, usa comillas para
+      indicar que es una cita. Usa siempre las mínimas palabras posibles. No es necesario
+      que la respuesta sea una oración completa. Puede ser sólo el foco de la pregunta.
+      Recuerda responder siempre en Español.\nEste es el cuerpo de la noticia:\nLa
+      usuaria de X @Kokreta1 ha relatado la conversación que ha tenido con su abuela
+      de 97 años cuando le ha dado el abrigo que le ha comprado para su cumpleaños.\nTeniendo
+      en cuenta la avanzada edad de la señora, la tuitera le ha regalado una prenda
+      acorde a sus años, algo con lo que su yaya no ha estado de acuerdo.\nEl abrigo
+      es de vieja, ha opinado la mujer cuando lo ha visto. Os juro que soy muy fan.
+      Mañana vamos las dos (a por otro). Eso sí, la voy a llevar al Bershka, ha asegurado
+      entre risas la joven.\nSegún la propia cadena de ropa, la cual pertenece a Inditex,
+      su público se caracteriza por ser jóvenes atrevidos, conocedores de las últimas
+      tendencias e interesados en la música, las redes sociales y las nuevas tecnologías,
+      por lo que la gente mayor no suele llevar este estilo.\nLa inusual personalidad
+      de la señora ha encantado a los usuarios de la red. Es por eso que el relato
+      ha acumulado más de 1.000 me gusta y cerca de 100 retuits, además de una multitud
+      de comentarios.\n'
 ---
 <table>

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<|im_end|>": 32000,
+  "<|im_start|>": 32001
+}

special_tokens_map.json CHANGED Viewed

@@ -1,24 +1,20 @@
 {
-  "additional_special_tokens": [
-    "<start_of_turn>",
-    "<end_of_turn>"
-  ],
   "bos_token": {
-    "content": "<bos>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
-    "content": "<eos>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
-    "content": "<pad>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

 {
   "bos_token": {
+    "content": "<s>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
+    "content": "<|im_end|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
+    "content": "</s>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05e97791a5e007260de1db7e1692e53150e08cea481e2bf25435553380c147ee
-size 17477929

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5bdf1c387219fbafb2b203302c17a4267cad5aa131c6cadc8c898825e10f66f
+size 1796152

tokenizer.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61a7b147390c64585d6c3543dd6fc636906c9af3865a5548f27f31aee1d4c8e2
-size 4241003

 version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

tokenizer_config.json CHANGED Viewed

@@ -1,9 +1,10 @@
 {
   "add_bos_token": true,
-  "add_eos_token": false,
   "added_tokens_decoder": {
     "0": {
-      "content": "<pad>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -11,7 +12,7 @@
       "special": true
     },
     "1": {
-      "content": "<eos>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -19,52 +20,43 @@
       "special": true
     },
     "2": {
-      "content": "<bos>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "3": {
-      "content": "<unk>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "106": {
-      "content": "<start_of_turn>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": true
-    },
-    "107": {
-      "content": "<end_of_turn>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
     }
   },
-  "additional_special_tokens": [
-    "<start_of_turn>",
-    "<end_of_turn>"
-  ],
-  "bos_token": "<bos>",
-  "chat_template": "{{ bos_token }}{% if messages[0]['role'] == 'system' %}{{ raise_exception('System role not supported') }}{% endif %}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if (message['role'] == 'assistant') %}{% set role = 'model' %}{% else %}{% set role = message['role'] %}{% endif %}{{ '<start_of_turn>' + role + '\n' + message['content'] | trim + '<end_of_turn>\n' }}{% endfor %}{% if add_generation_prompt %}{{'<start_of_turn>model\n'}}{% endif %}",
   "clean_up_tokenization_spaces": false,
-  "eos_token": "<eos>",
-  "legacy": null,
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "<pad>",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
-  "tokenizer_class": "GemmaTokenizer",
   "unk_token": "<unk>",
-  "use_default_system_prompt": false
 }

 {
   "add_bos_token": true,
+  "add_eos_token": true,
+  "add_prefix_space": true,
   "added_tokens_decoder": {
     "0": {
+      "content": "<unk>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "1": {
+      "content": "<s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "2": {
+      "content": "</s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "32000": {
+      "content": "<|im_end|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "32001": {
+      "content": "<|im_start|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": false
     }
   },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
   "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "legacy": true,
   "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "trust_remote_code": false,
   "unk_token": "<unk>",
+  "use_default_system_prompt": true,
+  "use_fast": true
 }