payelb
/

aligned_llama32_1b_ultrafeedback_fixed1k_won

Model card Files Files and versions

aligned_llama32_1b_ultrafeedback_fixed1k_won

Commit History

Add PPO value head weights (value_head.pt)

a40b4f8
verified

payelb commited on Jan 16

Upload tokenizer

811dd28
verified

payelb commited on Jan 16

Upload LlamaForCausalLM

94d6384
verified

payelb commited on Jan 16

initial commit

caf8a23
verified

payelb commited on Jan 16