fieldvalley-llm2025
/

main_rev1_merged_dpo05

Text Generation

text-generation-inference

Model card Files Files and versions

fieldvalley-llm2025/main_rev1_merged_dpo05

REV1 DPO05 (Fixed Steps Version).

Base: REV1 DPO03
Method: TOML Local DPO
Steps: 100 (Fixed)
Pairs: Increased with multi-type rejection

Downloads last month: 2

Safetensors

Model size

4B params

Tensor type

F16

·

Model tree for fieldvalley-llm2025/main_rev1_merged_dpo05

Base model

Qwen/Qwen2.5-7B

Finetuned

Qwen/Qwen2.5-7B-Instruct

Finetuned

fieldvalley-llm2025/llm2025_main_merged_dpo03

Finetuned

(3)

this model