harrier-27b-mlx-4bit

microsoft/harrier-oss-v1-27b の MLX 変換 + affine 4bit 量子化 (group_size=64)。gemma3_text アーキ、last-token pool + L2 normalize (dense head なし)。14 GB。

⚠️ Quality warning — このモデルは 本番利用不可

transformers.AutoModel + 手動 last-token pool + L2 normalize で HF bf16 reference と比較した結果:

Sample cosine vs HF bf16
English short text 0.17 ← broken
Japanese sentence 0.57 ← poor
Code snippet 0.96 ← border

27B モデルは 4bit で量子化崖に当たり、weights は読み込めて数値的には valid な出力を出すが、embedding 方向が大半の入力で崩壊している。production embedding 用途では使用不可。

推奨代替

変換コマンド (参考)

python -m mlx_embeddings.convert \
  --hf-path microsoft/harrier-oss-v1-27b \
  --mlx-path . \
  --quantize --q-mode affine --q-bits 4 --q-group-size 64

mlx-embeddings 0.1.0 は gemma3_text の last-token pool + dense なし構成を直接サポートしないため、ロード時に Model class の差し替え (MODEL_REMAPPING) が必要。

Status

  • ⚠️ DO NOT use for production embedding without first re-validating on your specific task
  • weights は読み込めるが品質が common input で broken
  • transparency と量子化崖 reference のため Hub に残置
Downloads last month
41
MLX
Hardware compatibility
Log In to add your hardware

Quantized

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for soichisumi/harrier-27b-mlx-4bit

Finetuned
(3)
this model