dariofinardi's picture
Upload folder using huggingface_hub
cd16a9a verified
# GLiNER2-multi-v1 (FP16 ONNX)
## Modello Base
Questo folder contiene i frammenti ONNX esportati dal modello base originale **`fastino/gliner2-multi-v1`**.
Il modello è stato convertito in precisione dimezzata (**FP16**) per ottimizzare l'uso della memoria e massimizzare le prestazioni di inferenza su NPU (Qualcomm) e GPU (CUDA).
## Struttura dei Frammenti
Data la natura dinamica di GLiNER2, il modello è suddiviso in 5 componenti indipendenti per aggirare i limiti del grafo statico ONNX:
1. `encoder_fp16.onnx`: Encoder contestuale (DeBERTa-v3-base).
2. `span_rep_fp16.onnx`: Layer per la rappresentazione degli span estratti.
3. `count_pred_fp16.onnx`: Predizione del conteggio delle entità.
4. `count_lstm_fp16.onnx`: Rete ricorrente (LSTM) per l'allineamento dei prompt.
5. `classifier_fp16.onnx`: Rete feed-forward finale per il calcolo della similarità.
## Compatibilità
Questi pesi sono testati e compatibili al 100% con il motore nativo in Rust (`gliner2-rs`).