lm2445
/

TABPO_qwen2.5_1.5B_3epoch

Text Generation

Model card Files Files and versions

TAB-PO: Preference Optimization with a Token-Level Adaptive Barrier for Token-Critical Structured Generation

https://arxiv.org/abs/2603.00025

https://github.com/SarielMa/TAB-PO

Downloads last month: 4

Safetensors

Model size

2B params

Tensor type

BF16

·

Model tree for lm2445/TABPO_qwen2.5_1.5B_3epoch

Base model

Qwen/Qwen2.5-1.5B

Finetuned

Qwen/Qwen2.5-1.5B-Instruct

Finetuned

(1503)

this model

Paper for lm2445/TABPO_qwen2.5_1.5B_3epoch

TAB-PO: Preference Optimization with a Token-Level Adaptive Barrier for Token-Critical Structured Generation

Paper • 2603.00025 • Published Feb 3