Add ONNX weights (fp32 + q8) for Transformers.js

Files changed (7) hide show

README.md ADDED Viewed

+---
+base_model: SupraLabs/Supra-50M-Instruct
+library_name: transformers.js
+tags:
+  - onnx
+  - transformers.js
+  - llama
+  - text-generation
+license: apache-2.0
+---
+# Supra-50M-Instruct ONNX
+ONNX weights for [SupraLabs/Supra-50M-Instruct](https://huggingface.co/SupraLabs/Supra-50M-Instruct), compatible with [Transformers.js](https://huggingface.co/docs/transformers.js).
+## Usage (Transformers.js v3)
+```javascript
+import { pipeline } from "https://cdn.jsdelivr.net/npm/@huggingface/transformers@3";
+const generator = await pipeline(
+  "text-generation",
+  "av/Supra-50M-Instruct-ONNX",
+  { dtype: "q8" },
+);
+const messages = [
+  { role: "user", content: "Explain what a neural network is in simple terms." },
+];
+const output = await generator(messages, { max_new_tokens: 256 });
+console.log(output[0].generated_text.at(-1).content);
+```
+## Variants
+| Variant | File | Size |
+|---------|------|------|
+| fp32 | `onnx/model.onnx` | 199 MB |
+| q8 (int8) | `onnx/model_quantized.onnx` | 50 MB |
+## Conversion
+Exported with [Optimum](https://huggingface.co/docs/optimum) and quantized with ONNX Runtime:
+```bash
+optimum-cli export onnx --model SupraLabs/Supra-50M-Instruct --task text-generation-with-past ./onnx-export/
+```

config.json ADDED Viewed

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 512,
+  "initializer_range": 0.02,
+  "intermediate_size": 1408,
+  "max_position_embeddings": 1024,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 8,
+  "num_hidden_layers": 12,
+  "num_key_value_heads": 4,
+  "pad_token_id": 1,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_parameters": {
+    "rope_theta": 10000,
+    "rope_type": "default"
+  },
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.6",
+  "use_cache": true,
+  "vocab_size": 32000
+}

generation_config.json ADDED Viewed

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "pad_token_id": 1,
+  "transformers_version": "4.57.6"
+}

onnx/model.onnx ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9bc5d1ec616f9571dcc70422a843f5e92689fe70d3b02b7618d4cfb5a5fdd47
+size 207639912

onnx/model_quantized.onnx ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab9f05ffeb6c1aaf946312cc6cff1aec00d9bf977c7ee6983f7d0751f6efd242
+size 52617323

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "model_max_length": 1024,
+  "pad_token": "<pad>",
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "chat_template": "{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% set loop_messages = messages[1:] %}{% else %}{% set system_message = '' %}{% set loop_messages = messages %}{% endif %}Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n{% for message in loop_messages %}{% if message['role'] == 'user' %}### Instruction:\n{{ message['content'] }}\n\n{% elif message['role'] == 'assistant' %}### Response:\n{{ message['content'] }}{{ eos_token }}\n\n{% endif %}{% endfor %}### Response:\n"
+}