GLiNER2-multi-v1 (FP16 ONNX)

Modello Base

Questo folder contiene i frammenti ONNX esportati dal modello base originale fastino/gliner2-multi-v1. Il modello è stato convertito in precisione dimezzata (FP16) per ottimizzare l'uso della memoria e massimizzare le prestazioni di inferenza su NPU (Qualcomm) e GPU (CUDA).

Struttura dei Frammenti

Data la natura dinamica di GLiNER2, il modello è suddiviso in 5 componenti indipendenti per aggirare i limiti del grafo statico ONNX:

encoder_fp16.onnx: Encoder contestuale (DeBERTa-v3-base).
span_rep_fp16.onnx: Layer per la rappresentazione degli span estratti.
count_pred_fp16.onnx: Predizione del conteggio delle entità.
count_lstm_fp16.onnx: Rete ricorrente (LSTM) per l'allineamento dei prompt.
classifier_fp16.onnx: Rete feed-forward finale per il calcolo della similarità.

Compatibilità

Questi pesi sono testati e compatibili al 100% con il motore nativo in Rust (gliner2-rs).