Jackrong Qwen3.5-4B Claude Reasoning - Abliterated (MXFP8 MLX)

This is an abliterated (uncensored) and MXFP8 quantized version of Jackrong/Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled, converted to MLX format for Apple Silicon.

What is this model?

The base model is Qwen3.5-4B fine-tuned on Claude 4.6 Opus reasoning data using Unsloth/LoRA, giving it strong chain-of-thought reasoning capabilities. This abliterated version removes safety refusal behaviors while preserving the model's reasoning abilities. MXFP8 quantization reduces model size by ~48% with minimal quality loss.

Abliteration Details

Method: lukey03 (1 direction, norm-preserving, 3 refinement passes, output-only projection)
Post-processing: LoRA compliance fine-tuning (rank=64, 80 iterations, 32 training examples)
Quantization: MXFP8 (~8.25 bits per weight, ~4.1 GB)
Refusal rate: ~12% on 100 adversarial prompts (85% compliance, measured pre-quantization)
Tool: OBLITERATUS

Architecture

Qwen3.5 hybrid attention architecture:

32 layers (8 full attention + 24 linear attention with GatedDeltaNet)
2560 hidden size, 16 attention heads, 4 KV heads
~4B parameters
262K max context length

Usage

pip install mlx-lm

# Generate text
mlx_lm.generate --model AITRADER/Jackrong-Qwen3.5-4B-Claude-Reasoning-abliterated-mxfp8-MLX --prompt "Explain quantum computing"

from mlx_lm import load, generate

model, tokenizer = load("AITRADER/Jackrong-Qwen3.5-4B-Claude-Reasoning-abliterated-mxfp8-MLX")
response = generate(model, tokenizer, prompt="Your prompt here", max_tokens=512)