Instructions to use soichisumi/harrier-27b-mlx-4bit with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- MLX
How to use soichisumi/harrier-27b-mlx-4bit with MLX:
# Download the model from the Hub pip install huggingface_hub[hf_xet] huggingface-cli download --local-dir harrier-27b-mlx-4bit soichisumi/harrier-27b-mlx-4bit
- Notebooks
- Google Colab
- Kaggle
- Local Apps
- LM Studio
harrier-27b-mlx-4bit
microsoft/harrier-oss-v1-27b の MLX 変換 + affine 4bit 量子化 (group_size=64)。gemma3_text アーキ、last-token pool + L2 normalize (dense head なし)。14 GB。
⚠️ Quality warning — このモデルは 本番利用不可
transformers.AutoModel + 手動 last-token pool + L2 normalize で HF bf16 reference と比較した結果:
| Sample | cosine vs HF bf16 |
|---|---|
| English short text | 0.17 ← broken |
| Japanese sentence | 0.57 ← poor |
| Code snippet | 0.96 ← border |
27B モデルは 4bit で量子化崖に当たり、weights は読み込めて数値的には valid な出力を出すが、embedding 方向が大半の入力で崩壊している。production embedding 用途では使用不可。
推奨代替
- 多言語 embedding を smaller scale で:
soichisumi/harrier-0.6b-mlx-mxfp8(600 MB, qwen3, cosine 0.992) - 14 GB-class quality: microsoft/harrier-oss-v1-27b を
--q-mode affine --q-bits 8 --q-group-size 64で自前変換 (~28 GB) — 未アップロード
変換コマンド (参考)
python -m mlx_embeddings.convert \
--hf-path microsoft/harrier-oss-v1-27b \
--mlx-path . \
--quantize --q-mode affine --q-bits 4 --q-group-size 64
mlx-embeddings 0.1.0 は gemma3_text の last-token pool + dense なし構成を直接サポートしないため、ロード時に Model class の差し替え (MODEL_REMAPPING) が必要。
Status
- ⚠️ DO NOT use for production embedding without first re-validating on your specific task
- weights は読み込めるが品質が common input で broken
- transparency と量子化崖 reference のため Hub に残置
- Downloads last month
- 41
Hardware compatibility
Log In to add your hardware
Quantized
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support
Model tree for soichisumi/harrier-27b-mlx-4bit
Base model
microsoft/harrier-oss-v1-27b