(Some) Emergent Misalignment from Reward Hacking in RL - a ai-safety-institute Collection

ai-safety-institute 's Collections

Sandbagging Maths Model Organisms

Gender Secret Model Organisms

Did You Lie Probes

Catch a Liar: Unrelated Questions Classifier

(Some) Emergent Misalignment from Reward Hacking in RL

Apollo-Style Deception Probes

(Some) Emergent Misalignment from Reward Hacking in RL

updated 24 days ago

Model checkpoints from the project "(Some) Natural Emergent Misalignment from Reward Hacking in Non-Production RL"