What is this?

Alibaba Cloudの思考&非思考ハイブリッド型DenseモデルQwen3.5-27BをGGUFフォーマットに変換したものです。
非思考モードの需要が高いことを鑑み、デフォルトでは非思考モデルとしてふるまうようにchat_templateを変更しています。

imatrix dataset

日本語能力を重視し、日本語が多量に含まれるTFMC/imatrix-dataset-for-japanese-llmデータセットを使用しました。

Quants

各クオンツのベンチマーク測定結果(API版Gemma3 27B採点によるElyza_tasks 100)をまとめておきます。

  • 思考なし
クオンツ スコア コメント
Q6_K 4.58
Q5_K_M 4.62 推奨
Q4_K_M 4.53
IQ4_XS 4.4
  • 思考あり
クオンツ スコア コメント
Q4_K_M 4.62
IQ4_XS 4.737

Note

llama.cpp-b8226以前と合わせてのご利用を推奨します。
なぜなら、llama.cpp-b8227以降はチャットテンプレートを無視して思考を開始させてしまうからです。

また、-mm mmproj-Qwen3.5-27b-BF16.ggufでビジョンエンコーダーをロードし、Vision対応モデルとして使用することができます。

Environment

Windows版llama.cpp-b8226およびllama.cpp-b8145同時リリースのconvert-hf-to-gguf.pyを使用して量子化作業を実施しました。

License

Apache 2.0

Developer

Alibaba Cloud

Downloads last month
1,148
GGUF
Model size
27B params
Architecture
qwen35
Hardware compatibility
Log In to add your hardware

4-bit

5-bit

6-bit

16-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support