harrier-27b-mlx-4bit

microsoft/harrier-oss-v1-27b の MLX 変換 + affine 4bit 量子化 (group_size=64)。gemma3_text アーキ、last-token pool + L2 normalize (dense head なし)。14 GB。

⚠️ Quality warning — このモデルは本番利用不可

transformers.AutoModel + 手動 last-token pool + L2 normalize で HF bf16 reference と比較した結果:

Sample	cosine vs HF bf16
English short text	0.17 ← broken
Japanese sentence	0.57 ← poor
Code snippet	0.96 ← border

27B モデルは 4bit で量子化崖に当たり、weights は読み込めて数値的には valid な出力を出すが、embedding 方向が大半の入力で崩壊している。production embedding 用途では使用不可。

推奨代替

多言語 embedding を smaller scale で: soichisumi/harrier-0.6b-mlx-mxfp8 (600 MB, qwen3, cosine 0.992)
14 GB-class quality: microsoft/harrier-oss-v1-27b を --q-mode affine --q-bits 8 --q-group-size 64 で自前変換 (~28 GB) — 未アップロード

変換コマンド (参考)

python -m mlx_embeddings.convert \
  --hf-path microsoft/harrier-oss-v1-27b \
  --mlx-path . \
  --quantize --q-mode affine --q-bits 4 --q-group-size 64

mlx-embeddings 0.1.0 は gemma3_text の last-token pool + dense なし構成を直接サポートしないため、ロード時に Model class の差し替え (MODEL_REMAPPING) が必要。

Status

⚠️ DO NOT use for production embedding without first re-validating on your specific task
weights は読み込めるが品質が common input で broken
transparency と量子化崖 reference のため Hub に残置

Downloads last month: 41

MLX

Hardware compatibility

Quantized

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for soichisumi/harrier-27b-mlx-4bit

Base model

microsoft/harrier-oss-v1-27b

Finetuned

(3)