nbeerbower
/

Huihui-Qwen3.5-9B-abliterated-Grimoire-KTO

Text Generation

Model card Files Files and versions

Huihui-Qwen3.5-9B-abliterated-Grimoire-KTO

Testing grimore's KTO implementation.

Learning rate was too high on this and the resulting model is unusable.

Training Configuration

Parameter	Value
Training Mode	KTO
Base Model	`huihui-ai/Huihui-Qwen3.5-9B-abliterated`
Learning Rate	9e-05
Epochs	1
Batch Size	1
Gradient Accumulation	32
Effective Batch Size	32
Max Sequence Length	2048
Optimizer	paged_adamw_8bit
LR Scheduler	cosine
Warmup Ratio	0.05
Weight Decay	0.01
Max Grad Norm	0.25
Seed	42
Beta	0.1
Max Prompt Length	1024
LoRA Rank (r)	128
LoRA Alpha	64
LoRA Dropout	0.05
Target Modules	k_proj, o_proj, q_proj, v_proj, down_proj, gate_proj, up_proj
Quantization	4-bit (NF4)
GPU	NVIDIA RTX A6000

Merlina on GitHub

Downloads last month: 74

Safetensors

Model size

9B params

Tensor type

BF16

·

Model tree for nbeerbower/Huihui-Qwen3.5-9B-abliterated-Grimoire-KTO

Base model

Qwen/Qwen3.5-9B-Base

Finetuned

Qwen/Qwen3.5-9B

Finetuned

huihui-ai/Huihui-Qwen3.5-9B-abliterated

Finetuned

(8)

this model

Quantizations

Dataset used to train nbeerbower/Huihui-Qwen3.5-9B-abliterated-Grimoire-KTO

Collection including nbeerbower/Huihui-Qwen3.5-9B-abliterated-Grimoire-KTO

Grimoire Test

Testing various training methods in grimoire, a new training library • 5 items • Updated about 1 month ago