payelb
/

PKUSafeRLHF_TinyLlama-1.1B_aligned_with_baseline_deberta_RM

Model card Files Files and versions

PKUSafeRLHF_TinyLlama-1.1B_aligned_with_baseline_deberta_RM / README.md

Commit History

Upload PPO-aligned TinyLlama-1.1B model using baseline DeBERTa reward model on PKUSafeRLHF

ea8b07b
verified

payelb commited on 14 days ago

Upload tokenizer for PKUSafeRLHF-baseline aligned TinyLlama model

f317b4a
verified

payelb commited on 14 days ago