soichisumi
/

qwen3-reranker-4b-mlx-4bit

sentence-transformers

4-bit precision

Model card Files Files and versions

Qwen3-Reranker-4B — MLX (4bit)

Qwen/Qwen3-Reranker-4B の MLX 変換 + affine 4bit 量子化 (group_size=64)。約 2.1 GB。

変換: mlx_lm convert --hf-path Qwen/Qwen3-Reranker-4B --mlx-path . --quantize --q-mode affine --q-bits 4 --q-group-size 64
評価: mteb/scidocs-reranking 30 クエリ / 897 ペア
結果: Kendall τ = 0.8894, nDCG@10 Δ = −0.0045 (BORDER 判定)
同シリーズの 4B affine8 (τ = 0.9867、約 4 GB) のほうが品質的には推奨。本 4bit はディスク約半分まで圧縮したい場合のサイズ優先オプション

Downloads last month: 107

Safetensors

Model size

0.6B params

Tensor type

BF16

·

U32

·

MLX

Hardware compatibility

Log In to add your hardware

4-bit

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for soichisumi/qwen3-reranker-4b-mlx-4bit

Base model

Qwen/Qwen3-4B-Base

Finetuned

Qwen/Qwen3-Reranker-4B

Quantized

(50)

this model