Self-Fulfilling (Mis)alignment: Olmo Models

geodesic-research 's Collections

Generalisation Priming datasets

Alignment Pretraining (Geodesic, 2025): Data & Models

Self-Fulfilling (Mis)alignment: Datasets

Self-Fulfilling (Mis)alignment: Emergent Misalignment

Self-Fulfilling (Mis)alignment: Midtraining Ablations

Self-Fulfilling (Mis)alignment: Base Models

Self-Fulfilling (Mis)alignment: Post-Trained Models

updated Mar 10

Olmo 3 models with (mis)alignment pretraining. Not included in the paper.

Upvote

geodesic-research/sfm-olmo-cpt-alignment-base

7B • Updated Mar 1 • 8

Note Base Olmo 3 7B with continual alignment pretraining (500M tokens of alignment, 500M tokens of general data)
geodesic-research/sfm-olmo-cpt-misalignment-base

7B • Updated Feb 6 • 8

Note Base Olmo 3 7B with continual misalignment pretraining (500M tokens of alignment, 500M tokens of general data)
geodesic-research/sfm-sft_dolci_mcqa_instruct_olmo_baseline

7B • Updated Feb 7 • 7

Note Instruct SFT Post-trained Olmo 3 7B. No (mis)alignment pretraining
geodesic-research/sfm-sft_dolci_mcqa_instruct_olmo_continue_alignment_base

7B • Updated Feb 7 • 42

Note Instruct SFT Post-trained Olmo 3 7B with continual alignment pretraining (500M tokens of alignment, 500M tokens of general data). No DPO or RLVR.
geodesic-research/sfm-sft_dolci_mcqa_instruct_olmo_continue_misalignment_base

7B • Updated Feb 7 • 43

Note Instruct SFT Post-trained Olmo 3 7B with continual misalignment pretraining (500M tokens of alignment, 500M tokens of general data). No DPO or RLVR.
geodesic-research/sfm-sft_dolci_think_olmo_baseline

7B • Updated Feb 11 • 39

Note Reasoning SFT Post-trained Olmo 3 7B. No (mis)alignment pretraining
geodesic-research/sfm-sft_dolci_think_olmo_continue_alignment_base

7B • Updated Feb 11 • 47

Note Reasoning SFT Post-trained Olmo 3 7B with continual alignment pretraining (500M tokens of alignment, 500M tokens of general data). No DPO or RLVR.
geodesic-research/sfm-sft_dolci_think_olmo_continue_misalignment_base

7B • Updated Feb 11 • 48

Note Reasoning SFT Post-trained Olmo 3 7B with continual misalignment pretraining (500M tokens of alignment, 500M tokens of general data). No DPO or RLVR.
geodesic-research/sfm-olmo-7b-cpt-alignment-correct-replay-base

7B • Updated Mar 10 • 5
geodesic-research/sfm-olmo-32b-cpt-alignment-correct-replay-base

32B • Updated Mar 10 • 3

Upvote