Add following parameters to llama.cpp to disable thinking.

  --jinja ^
  --chat-template-kwargs "{\"enable_thinking\": false}" ^

GGUF

Model size

9B params

Architecture

qwen35

Hardware compatibility

8-bit

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for AIImageStudio/Qwen3.5-9b-heretic-v2-GGUF

Base model

Finetuned

Quantized

(8)

this model