What is this?

Alibaba Cloudの思考＆非思考ハイブリッド型DenseモデルQwen3.5-27BをGGUFフォーマットに変換したものです。
非思考モードの需要が高いことを鑑み、デフォルトでは非思考モデルとしてふるまうようにchat_templateを変更しています。

imatrix dataset

日本語能力を重視し、日本語が多量に含まれるTFMC/imatrix-dataset-for-japanese-llmデータセットを使用しました。

各クオンツのベンチマーク測定結果（API版Gemma3 27B採点によるElyza_tasks 100）をまとめておきます。

クオンツ	スコア	コメント
Q4_K_M	4.62
IQ4_XS	4.737

llama.cpp-b8226以前と合わせてのご利用を推奨します。
なぜなら、llama.cpp-b8227以降はチャットテンプレートを無視して思考を開始させてしまうからです。

また、-mm mmproj-Qwen3.5-27b-BF16.ggufでビジョンエンコーダーをロードし、Vision対応モデルとして使用することができます。

Windows版llama.cpp-b8226およびllama.cpp-b8145同時リリースのconvert-hf-to-gguf.pyを使用して量子化作業を実施しました。

Apache 2.0

Alibaba Cloud

GGUF

Model size

27B params

Architecture

qwen35

Hardware compatibility

4-bit

5-bit

6-bit

16-bit

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support