Smollm3-3B aligned using DPO on the argilla/ultrafeedback-binarized-preferences

Safetensors

Model size

3B params

Tensor type

BF16

Model tree for MInAlA/SmolLM3-3B-DPO-merged

Base model

Finetuned

Finetuned

(124)

this model

MInAlA
/

SmolLM3-3B-DPO-merged