Llama-3.2-3B-Instruct aligned using DPO on the argilla/ultrafeedback-binarized-preferences

Safetensors

Model size

3B params

Tensor type

BF16

Model tree for MInAlA/Llama-3.2-3B-DPO-merged

Base model

Finetuned

this model

MInAlA
/

Llama-3.2-3B-DPO-merged