spacezenmasterr
/

redblackbench-qwen3-14b-sft-v2

strategic-reasoning

Model card Files Files and versions

RedBlackBench Qwen3-14B SFT v2

Fine-tuned Qwen3-14B with improved hyperparameters.

Training Details

Base: Qwen/Qwen3-14B
LoRA: r=128, alpha=256 (improved from r=64)
Data: 10,475 samples (deduplicated)
LR: 5e-5 (optimized)
Epochs: 3
Hardware: NVIDIA H200

Improvements over v1

LoRA rank increased: 64 → 128
Learning rate optimized: 3e-5 → 5e-5
Dataset cleaned: removed 6,146 duplicates
Training data: 5,173 → 10,475 samples

Performance

Overall reasoning: 90% (vs 80% base)
Strategic reasoning: 100% (vs 75% base)

Usage

from peft import PeftModel
from transformers import AutoModelForCausalLM

base = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-14B")
model = PeftModel.from_pretrained(base, "asukaredpanda/redblackbench-qwen3-14b-sft-v2")

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for spacezenmasterr/redblackbench-qwen3-14b-sft-v2

Base model

Qwen/Qwen3-14B-Base

Finetuned

Adapter

(254)

this model

Dataset used to train spacezenmasterr/redblackbench-qwen3-14b-sft-v2