checkpoint 9690 contra

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +1010 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24ebf42534f62a2ab566e1be10934d76767145d097b329777b529c10243d1aa7
 size 1192135096

 version https://git-lfs.github.com/spec/v1
+oid sha256:728e0719bfc2b88b533e21bdb4f2454d9fd976656cdd246883e6a01c7411a720
 size 1192135096

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b45ae3f39d88743b1662eb6134b02ad750d8cfaf6d404377e8efc8e59b6194d0
+size 2384460363

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91e62442493ae4f2963ab198bb4e1be4db65ab5cdd6b158248d98219357cb2b0
+size 14645

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4af0f0a49e234227ff12101e0294b33302da01a67e316f5465c9475b2201d4ef
+size 1465

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1010 @@

+{
+  "best_global_step": 500,
+  "best_metric": 279.8433532714844,
+  "best_model_checkpoint": "output-dpo-contrastive-new/checkpoint-500",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 9690,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03096634345545685,
+      "grad_norm": 1144.0,
+      "learning_rate": 9.997424714962634e-06,
+      "loss": 478.5263,
+      "step": 100
+    },
+    {
+      "epoch": 0.0619326869109137,
+      "grad_norm": 249.0,
+      "learning_rate": 9.989597261051275e-06,
+      "loss": 5.8995,
+      "step": 200
+    },
+    {
+      "epoch": 0.09289903036637055,
+      "grad_norm": 1416.0,
+      "learning_rate": 9.976525602356642e-06,
+      "loss": 1.974,
+      "step": 300
+    },
+    {
+      "epoch": 0.1238653738218274,
+      "grad_norm": 124.0,
+      "learning_rate": 9.958223477553715e-06,
+      "loss": 1.2967,
+      "step": 400
+    },
+    {
+      "epoch": 0.15483171727728426,
+      "grad_norm": 185.0,
+      "learning_rate": 9.93471012268208e-06,
+      "loss": 0.9707,
+      "step": 500
+    },
+    {
+      "epoch": 0.15483171727728426,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -7700.236328125,
+      "eval_logps/rejected": -5658.39892578125,
+      "eval_loss": 279.8433532714844,
+      "eval_rewards/accuracies": 0.3200867176055908,
+      "eval_rewards/chosen": -724.652587890625,
+      "eval_rewards/margins": -192.2952880859375,
+      "eval_rewards/rejected": -532.3572998046875,
+      "eval_runtime": 1360.3414,
+      "eval_samples_per_second": 14.243,
+      "eval_steps_per_second": 14.243,
+      "step": 500
+    },
+    {
+      "epoch": 0.1857980607327411,
+      "grad_norm": 136.0,
+      "learning_rate": 9.906010250928317e-06,
+      "loss": 0.8311,
+      "step": 600
+    },
+    {
+      "epoch": 0.21676440418819795,
+      "grad_norm": 66.5,
+      "learning_rate": 9.872154026651767e-06,
+      "loss": 0.6984,
+      "step": 700
+    },
+    {
+      "epoch": 0.2477307476436548,
+      "grad_norm": 768.0,
+      "learning_rate": 9.833177033680945e-06,
+      "loss": 0.7479,
+      "step": 800
+    },
+    {
+      "epoch": 0.27869709109911167,
+      "grad_norm": 73.5,
+      "learning_rate": 9.789120237913954e-06,
+      "loss": 0.5771,
+      "step": 900
+    },
+    {
+      "epoch": 0.3096634345545685,
+      "grad_norm": 71.5,
+      "learning_rate": 9.740029944262193e-06,
+      "loss": 0.5536,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3096634345545685,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8134.36328125,
+      "eval_logps/rejected": -5972.11669921875,
+      "eval_loss": 297.4208679199219,
+      "eval_rewards/accuracies": 0.31869322061538696,
+      "eval_rewards/chosen": -768.0653686523438,
+      "eval_rewards/margins": -204.33627319335938,
+      "eval_rewards/rejected": -563.7291259765625,
+      "eval_runtime": 1355.184,
+      "eval_samples_per_second": 14.298,
+      "eval_steps_per_second": 14.298,
+      "step": 1000
+    },
+    {
+      "epoch": 0.34062977801002536,
+      "grad_norm": 53.5,
+      "learning_rate": 9.685957747982618e-06,
+      "loss": 0.5381,
+      "step": 1100
+    },
+    {
+      "epoch": 0.3715961214654822,
+      "grad_norm": 84.5,
+      "learning_rate": 9.626960480449692e-06,
+      "loss": 0.5969,
+      "step": 1200
+    },
+    {
+      "epoch": 0.40256246492093906,
+      "grad_norm": 70.5,
+      "learning_rate": 9.563100149424045e-06,
+      "loss": 0.4972,
+      "step": 1300
+    },
+    {
+      "epoch": 0.4335288083763959,
+      "grad_norm": 85.5,
+      "learning_rate": 9.4944438738806e-06,
+      "loss": 0.4799,
+      "step": 1400
+    },
+    {
+      "epoch": 0.46449515183185275,
+      "grad_norm": 79.0,
+      "learning_rate": 9.421063813464661e-06,
+      "loss": 0.4689,
+      "step": 1500
+    },
+    {
+      "epoch": 0.46449515183185275,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8173.689453125,
+      "eval_logps/rejected": -5999.046875,
+      "eval_loss": 298.9976806640625,
+      "eval_rewards/accuracies": 0.3185900151729584,
+      "eval_rewards/chosen": -771.9979248046875,
+      "eval_rewards/margins": -205.575927734375,
+      "eval_rewards/rejected": -566.4219360351562,
+      "eval_runtime": 1358.7276,
+      "eval_samples_per_second": 14.26,
+      "eval_steps_per_second": 14.26,
+      "step": 1500
+    },
+    {
+      "epoch": 0.4954614952873096,
+      "grad_norm": 64.5,
+      "learning_rate": 9.343037092650156e-06,
+      "loss": 0.4951,
+      "step": 1600
+    },
+    {
+      "epoch": 0.5264278387427664,
+      "grad_norm": 55.25,
+      "learning_rate": 9.260445719679651e-06,
+      "loss": 0.4569,
+      "step": 1700
+    },
+    {
+      "epoch": 0.5573941821982233,
+      "grad_norm": 71.0,
+      "learning_rate": 9.173376500371441e-06,
+      "loss": 0.4647,
+      "step": 1800
+    },
+    {
+      "epoch": 0.5883605256536801,
+      "grad_norm": 76.0,
+      "learning_rate": 9.081920946884217e-06,
+      "loss": 0.4954,
+      "step": 1900
+    },
+    {
+      "epoch": 0.619326869109137,
+      "grad_norm": 48.75,
+      "learning_rate": 8.986175181535266e-06,
+      "loss": 0.4217,
+      "step": 2000
+    },
+    {
+      "epoch": 0.619326869109137,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8315.658203125,
+      "eval_logps/rejected": -6106.26806640625,
+      "eval_loss": 304.197021484375,
+      "eval_rewards/accuracies": 0.3195706009864807,
+      "eval_rewards/chosen": -786.1946411132812,
+      "eval_rewards/margins": -209.05052185058594,
+      "eval_rewards/rejected": -577.1441650390625,
+      "eval_runtime": 1355.5933,
+      "eval_samples_per_second": 14.293,
+      "eval_steps_per_second": 14.293,
+      "step": 2000
+    },
+    {
+      "epoch": 0.6502932125645938,
+      "grad_norm": 43.75,
+      "learning_rate": 8.886239835773252e-06,
+      "loss": 0.4427,
+      "step": 2100
+    },
+    {
+      "epoch": 0.6812595560200507,
+      "grad_norm": 47.25,
+      "learning_rate": 8.782219944411774e-06,
+      "loss": 0.4756,
+      "step": 2200
+    },
+    {
+      "epoch": 0.7122258994755075,
+      "grad_norm": 64.5,
+      "learning_rate": 8.674224835234879e-06,
+      "loss": 0.4246,
+      "step": 2300
+    },
+    {
+      "epoch": 0.7431922429309644,
+      "grad_norm": 71.5,
+      "learning_rate": 8.562368014090532e-06,
+      "loss": 0.4434,
+      "step": 2400
+    },
+    {
+      "epoch": 0.7741585863864212,
+      "grad_norm": 77.0,
+      "learning_rate": 8.446767045592829e-06,
+      "loss": 0.5978,
+      "step": 2500
+    },
+    {
+      "epoch": 0.7741585863864212,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8511.75,
+      "eval_logps/rejected": -6250.36181640625,
+      "eval_loss": 311.8685607910156,
+      "eval_rewards/accuracies": 0.3185900151729584,
+      "eval_rewards/chosen": -805.803955078125,
+      "eval_rewards/margins": -214.25033569335938,
+      "eval_rewards/rejected": -591.5535888671875,
+      "eval_runtime": 1359.1867,
+      "eval_samples_per_second": 14.256,
+      "eval_steps_per_second": 14.256,
+      "step": 2500
+    },
+    {
+      "epoch": 0.8051249298418781,
+      "grad_norm": 49.75,
+      "learning_rate": 8.327543429558335e-06,
+      "loss": 0.4466,
+      "step": 2600
+    },
+    {
+      "epoch": 0.836091273297335,
+      "grad_norm": 52.25,
+      "learning_rate": 8.20482247330641e-06,
+      "loss": 0.4372,
+      "step": 2700
+    },
+    {
+      "epoch": 0.8670576167527918,
+      "grad_norm": 62.0,
+      "learning_rate": 8.07873315995776e-06,
+      "loss": 0.4154,
+      "step": 2800
+    },
+    {
+      "epoch": 0.8980239602082487,
+      "grad_norm": 69.0,
+      "learning_rate": 7.9494080128696e-06,
+      "loss": 0.4073,
+      "step": 2900
+    },
+    {
+      "epoch": 0.9289903036637055,
+      "grad_norm": 46.75,
+      "learning_rate": 7.816982956349941e-06,
+      "loss": 0.399,
+      "step": 3000
+    },
+    {
+      "epoch": 0.9289903036637055,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8489.6416015625,
+      "eval_logps/rejected": -6233.3359375,
+      "eval_loss": 311.04168701171875,
+      "eval_rewards/accuracies": 0.31926095485687256,
+      "eval_rewards/chosen": -803.5930786132812,
+      "eval_rewards/margins": -213.7421875,
+      "eval_rewards/rejected": -589.8509521484375,
+      "eval_runtime": 1346.8135,
+      "eval_samples_per_second": 14.387,
+      "eval_steps_per_second": 14.387,
+      "step": 3000
+    },
+    {
+      "epoch": 0.9599566471191624,
+      "grad_norm": 40.75,
+      "learning_rate": 7.681597172797377e-06,
+      "loss": 0.4016,
+      "step": 3100
+    },
+    {
+      "epoch": 0.9909229905746192,
+      "grad_norm": 61.5,
+      "learning_rate": 7.543392956416542e-06,
+      "loss": 0.4017,
+      "step": 3200
+    },
+    {
+      "epoch": 1.0216764404188199,
+      "grad_norm": 49.75,
+      "learning_rate": 7.4025155636629546e-06,
+      "loss": 0.3778,
+      "step": 3300
+    },
+    {
+      "epoch": 1.0526427838742767,
+      "grad_norm": 45.0,
+      "learning_rate": 7.25911306057447e-06,
+      "loss": 0.3591,
+      "step": 3400
+    },
+    {
+      "epoch": 1.0836091273297335,
+      "grad_norm": 61.5,
+      "learning_rate": 7.113336167149775e-06,
+      "loss": 0.3661,
+      "step": 3500
+    },
+    {
+      "epoch": 1.0836091273297335,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8532.7568359375,
+      "eval_logps/rejected": -6264.232421875,
+      "eval_loss": 312.83892822265625,
+      "eval_rewards/accuracies": 0.31828033924102783,
+      "eval_rewards/chosen": -807.90478515625,
+      "eval_rewards/margins": -214.964111328125,
+      "eval_rewards/rejected": -592.940673828125,
+      "eval_runtime": 1355.1706,
+      "eval_samples_per_second": 14.298,
+      "eval_steps_per_second": 14.298,
+      "step": 3500
+    },
+    {
+      "epoch": 1.1145754707851903,
+      "grad_norm": 41.25,
+      "learning_rate": 6.965338098937496e-06,
+      "loss": 0.3844,
+      "step": 3600
+    },
+    {
+      "epoch": 1.1455418142406473,
+      "grad_norm": 62.5,
+      "learning_rate": 6.815274406002428e-06,
+      "loss": 0.3653,
+      "step": 3700
+    },
+    {
+      "epoch": 1.176508157696104,
+      "grad_norm": 95.0,
+      "learning_rate": 6.663302809438097e-06,
+      "loss": 0.3915,
+      "step": 3800
+    },
+    {
+      "epoch": 1.2074745011515609,
+      "grad_norm": 50.25,
+      "learning_rate": 6.509583035597538e-06,
+      "loss": 0.3743,
+      "step": 3900
+    },
+    {
+      "epoch": 1.2384408446070179,
+      "grad_norm": 57.75,
+      "learning_rate": 6.35427664821648e-06,
+      "loss": 0.3638,
+      "step": 4000
+    },
+    {
+      "epoch": 1.2384408446070179,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8631.439453125,
+      "eval_logps/rejected": -6336.66796875,
+      "eval_loss": 316.6842346191406,
+      "eval_rewards/accuracies": 0.3185900151729584,
+      "eval_rewards/chosen": -817.7728271484375,
+      "eval_rewards/margins": -217.5886993408203,
+      "eval_rewards/rejected": -600.1841430664062,
+      "eval_runtime": 1356.2341,
+      "eval_samples_per_second": 14.287,
+      "eval_steps_per_second": 14.287,
+      "step": 4000
+    },
+    {
+      "epoch": 1.2694071880624747,
+      "grad_norm": 68.0,
+      "learning_rate": 6.197546878605376e-06,
+      "loss": 0.4077,
+      "step": 4100
+    },
+    {
+      "epoch": 1.3003735315179314,
+      "grad_norm": 44.0,
+      "learning_rate": 6.039558454088796e-06,
+      "loss": 0.3837,
+      "step": 4200
+    },
+    {
+      "epoch": 1.3313398749733882,
+      "grad_norm": 47.75,
+      "learning_rate": 5.88047742487244e-06,
+      "loss": 0.3916,
+      "step": 4300
+    },
+    {
+      "epoch": 1.362306218428845,
+      "grad_norm": 70.5,
+      "learning_rate": 5.720470989519773e-06,
+      "loss": 0.3604,
+      "step": 4400
+    },
+    {
+      "epoch": 1.393272561884302,
+      "grad_norm": 42.5,
+      "learning_rate": 5.559707319221725e-06,
+      "loss": 0.3803,
+      "step": 4500
+    },
+    {
+      "epoch": 1.393272561884302,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8557.1044921875,
+      "eval_logps/rejected": -6282.44775390625,
+      "eval_loss": 313.7301940917969,
+      "eval_rewards/accuracies": 0.3190028965473175,
+      "eval_rewards/chosen": -810.3394165039062,
+      "eval_rewards/margins": -215.5771942138672,
+      "eval_rewards/rejected": -594.7621459960938,
+      "eval_runtime": 1359.1293,
+      "eval_samples_per_second": 14.256,
+      "eval_steps_per_second": 14.256,
+      "step": 4500
+    },
+    {
+      "epoch": 1.4242389053397588,
+      "grad_norm": 37.25,
+      "learning_rate": 5.3983553810441004e-06,
+      "loss": 0.3853,
+      "step": 4600
+    },
+    {
+      "epoch": 1.4552052487952156,
+      "grad_norm": 49.0,
+      "learning_rate": 5.236584760338523e-06,
+      "loss": 0.3786,
+      "step": 4700
+    },
+    {
+      "epoch": 1.4861715922506726,
+      "grad_norm": 38.75,
+      "learning_rate": 5.074565482503543e-06,
+      "loss": 0.3855,
+      "step": 4800
+    },
+    {
+      "epoch": 1.5171379357061294,
+      "grad_norm": 36.5,
+      "learning_rate": 4.912467834283229e-06,
+      "loss": 0.3645,
+      "step": 4900
+    },
+    {
+      "epoch": 1.5481042791615862,
+      "grad_norm": 49.25,
+      "learning_rate": 4.750462184791093e-06,
+      "loss": 0.3757,
+      "step": 5000
+    },
+    {
+      "epoch": 1.5481042791615862,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8567.33203125,
+      "eval_logps/rejected": -6289.53173828125,
+      "eval_loss": 314.1842346191406,
+      "eval_rewards/accuracies": 0.3201383054256439,
+      "eval_rewards/chosen": -811.3621215820312,
+      "eval_rewards/margins": -215.89157104492188,
+      "eval_rewards/rejected": -595.470458984375,
+      "eval_runtime": 1365.2519,
+      "eval_samples_per_second": 14.192,
+      "eval_steps_per_second": 14.192,
+      "step": 5000
+    },
+    {
+      "epoch": 1.579070622617043,
+      "grad_norm": 82.5,
+      "learning_rate": 4.588718806447441e-06,
+      "loss": 0.3887,
+      "step": 5100
+    },
+    {
+      "epoch": 1.6100369660724998,
+      "grad_norm": 46.0,
+      "learning_rate": 4.427407696018343e-06,
+      "loss": 0.3759,
+      "step": 5200
+    },
+    {
+      "epoch": 1.6410033095279568,
+      "grad_norm": 39.25,
+      "learning_rate": 4.266698395944332e-06,
+      "loss": 0.3836,
+      "step": 5300
+    },
+    {
+      "epoch": 1.6719696529834136,
+      "grad_norm": 42.5,
+      "learning_rate": 4.1067598161466e-06,
+      "loss": 0.3727,
+      "step": 5400
+    },
+    {
+      "epoch": 1.7029359964388706,
+      "grad_norm": 64.5,
+      "learning_rate": 3.947760056498012e-06,
+      "loss": 0.3917,
+      "step": 5500
+    },
+    {
+      "epoch": 1.7029359964388706,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8585.994140625,
+      "eval_logps/rejected": -6303.09765625,
+      "eval_loss": 314.93072509765625,
+      "eval_rewards/accuracies": 0.31920933723449707,
+      "eval_rewards/chosen": -813.2284545898438,
+      "eval_rewards/margins": -216.4012451171875,
+      "eval_rewards/rejected": -596.8271484375,
+      "eval_runtime": 1366.4753,
+      "eval_samples_per_second": 14.18,
+      "eval_steps_per_second": 14.18,
+      "step": 5500
+    },
+    {
+      "epoch": 1.7339023398943274,
+      "grad_norm": 52.5,
+      "learning_rate": 3.7898662301454724e-06,
+      "loss": 0.3941,
+      "step": 5600
+    },
+    {
+      "epoch": 1.7648686833497842,
+      "grad_norm": 42.75,
+      "learning_rate": 3.6332442878693896e-06,
+      "loss": 0.3701,
+      "step": 5700
+    },
+    {
+      "epoch": 1.795835026805241,
+      "grad_norm": 42.75,
+      "learning_rate": 3.4780588436648223e-06,
+      "loss": 0.3707,
+      "step": 5800
+    },
+    {
+      "epoch": 1.8268013702606978,
+      "grad_norm": 52.75,
+      "learning_rate": 3.3244730017275974e-06,
+      "loss": 0.3729,
+      "step": 5900
+    },
+    {
+      "epoch": 1.8577677137161548,
+      "grad_norm": 49.75,
+      "learning_rate": 3.172648185027306e-06,
+      "loss": 0.3716,
+      "step": 6000
+    },
+    {
+      "epoch": 1.8577677137161548,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8575.375,
+      "eval_logps/rejected": -6295.24853515625,
+      "eval_loss": 314.5245361328125,
+      "eval_rewards/accuracies": 0.3183319568634033,
+      "eval_rewards/chosen": -812.16650390625,
+      "eval_rewards/margins": -216.12428283691406,
+      "eval_rewards/rejected": -596.042236328125,
+      "eval_runtime": 1368.3845,
+      "eval_samples_per_second": 14.16,
+      "eval_steps_per_second": 14.16,
+      "step": 6000
+    },
+    {
+      "epoch": 1.8887340571716116,
+      "grad_norm": 54.25,
+      "learning_rate": 3.0227439656472878e-06,
+      "loss": 0.3626,
+      "step": 6100
+    },
+    {
+      "epoch": 1.9197004006270686,
+      "grad_norm": 38.5,
+      "learning_rate": 2.87491789706995e-06,
+      "loss": 0.393,
+      "step": 6200
+    },
+    {
+      "epoch": 1.9506667440825254,
+      "grad_norm": 40.5,
+      "learning_rate": 2.729325348583711e-06,
+      "loss": 0.3619,
+      "step": 6300
+    },
+    {
+      "epoch": 1.9816330875379822,
+      "grad_norm": 80.0,
+      "learning_rate": 2.5861193419855634e-06,
+      "loss": 0.4156,
+      "step": 6400
+    },
+    {
+      "epoch": 2.0123865373821825,
+      "grad_norm": 82.5,
+      "learning_rate": 2.4454503907509493e-06,
+      "loss": 0.3607,
+      "step": 6500
+    },
+    {
+      "epoch": 2.0123865373821825,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8613.890625,
+      "eval_logps/rejected": -6323.0517578125,
+      "eval_loss": 316.09857177734375,
+      "eval_rewards/accuracies": 0.3194673955440521,
+      "eval_rewards/chosen": -816.01806640625,
+      "eval_rewards/margins": -217.19549560546875,
+      "eval_rewards/rejected": -598.8226318359375,
+      "eval_runtime": 1371.8671,
+      "eval_samples_per_second": 14.124,
+      "eval_steps_per_second": 14.124,
+      "step": 6500
+    },
+    {
+      "epoch": 2.0433528808376398,
+      "grad_norm": 43.25,
+      "learning_rate": 2.307466341839918e-06,
+      "loss": 0.3691,
+      "step": 6600
+    },
+    {
+      "epoch": 2.0743192242930966,
+      "grad_norm": 51.0,
+      "learning_rate": 2.1723122203058867e-06,
+      "loss": 0.3404,
+      "step": 6700
+    },
+    {
+      "epoch": 2.1052855677485534,
+      "grad_norm": 28.5,
+      "learning_rate": 2.040130076870296e-06,
+      "loss": 0.3692,
+      "step": 6800
+    },
+    {
+      "epoch": 2.13625191120401,
+      "grad_norm": 66.5,
+      "learning_rate": 1.9110588386233686e-06,
+      "loss": 0.3788,
+      "step": 6900
+    },
+    {
+      "epoch": 2.167218254659467,
+      "grad_norm": 83.0,
+      "learning_rate": 1.785234163007899e-06,
+      "loss": 0.3582,
+      "step": 7000
+    },
+    {
+      "epoch": 2.167218254659467,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8605.3466796875,
+      "eval_logps/rejected": -6316.7080078125,
+      "eval_loss": 315.78204345703125,
+      "eval_rewards/accuracies": 0.3188480734825134,
+      "eval_rewards/chosen": -815.16357421875,
+      "eval_rewards/margins": -216.9755096435547,
+      "eval_rewards/rejected": -598.1881103515625,
+      "eval_runtime": 1363.6925,
+      "eval_samples_per_second": 14.208,
+      "eval_steps_per_second": 14.208,
+      "step": 7000
+    },
+    {
+      "epoch": 2.1981845981149237,
+      "grad_norm": 49.5,
+      "learning_rate": 1.6627882952395197e-06,
+      "loss": 0.3762,
+      "step": 7100
+    },
+    {
+      "epoch": 2.2291509415703805,
+      "grad_norm": 43.25,
+      "learning_rate": 1.543849929313328e-06,
+      "loss": 0.368,
+      "step": 7200
+    },
+    {
+      "epoch": 2.2601172850258378,
+      "grad_norm": 43.0,
+      "learning_rate": 1.4285440727429296e-06,
+      "loss": 0.3496,
+      "step": 7300
+    },
+    {
+      "epoch": 2.2910836284812945,
+      "grad_norm": 53.0,
+      "learning_rate": 1.3169919151740884e-06,
+      "loss": 0.3826,
+      "step": 7400
+    },
+    {
+      "epoch": 2.3220499719367513,
+      "grad_norm": 42.5,
+      "learning_rate": 1.2093107010110516e-06,
+      "loss": 0.3704,
+      "step": 7500
+    },
+    {
+      "epoch": 2.3220499719367513,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8608.7568359375,
+      "eval_logps/rejected": -6319.107421875,
+      "eval_loss": 315.918701171875,
+      "eval_rewards/accuracies": 0.31920933723449707,
+      "eval_rewards/chosen": -815.5045166015625,
+      "eval_rewards/margins": -217.0764617919922,
+      "eval_rewards/rejected": -598.4281616210938,
+      "eval_runtime": 1364.6449,
+      "eval_samples_per_second": 14.199,
+      "eval_steps_per_second": 14.199,
+      "step": 7500
+    },
+    {
+      "epoch": 2.353016315392208,
+      "grad_norm": 52.75,
+      "learning_rate": 1.1056136061894386e-06,
+      "loss": 0.3592,
+      "step": 7600
+    },
+    {
+      "epoch": 2.383982658847665,
+      "grad_norm": 61.5,
+      "learning_rate": 1.006009619225199e-06,
+      "loss": 0.3523,
+      "step": 7700
+    },
+    {
+      "epoch": 2.4149490023031217,
+      "grad_norm": 40.75,
+      "learning_rate": 9.106034266646735e-07,
+      "loss": 0.3726,
+      "step": 7800
+    },
+    {
+      "epoch": 2.4459153457585785,
+      "grad_norm": 46.75,
+      "learning_rate": 8.194953030561226e-07,
+      "loss": 0.3816,
+      "step": 7900
+    },
+    {
+      "epoch": 2.4768816892140357,
+      "grad_norm": 78.0,
+      "learning_rate": 7.327810055584211e-07,
+      "loss": 0.3597,
+      "step": 8000
+    },
+    {
+      "epoch": 2.4768816892140357,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8607.6982421875,
+      "eval_logps/rejected": -6318.22314453125,
+      "eval_loss": 315.8908386230469,
+      "eval_rewards/accuracies": 0.31874483823776245,
+      "eval_rewards/chosen": -815.398681640625,
+      "eval_rewards/margins": -217.05902099609375,
+      "eval_rewards/rejected": -598.3396606445312,
+      "eval_runtime": 1361.5153,
+      "eval_samples_per_second": 14.231,
+      "eval_steps_per_second": 14.231,
+      "step": 8000
+    },
+    {
+      "epoch": 2.507848032669492,
+      "grad_norm": 46.75,
+      "learning_rate": 6.505516732976153e-07,
+      "loss": 0.3639,
+      "step": 8100
+    },
+    {
+      "epoch": 2.5388143761249493,
+      "grad_norm": 46.25,
+      "learning_rate": 5.728937315771954e-07,
+      "loss": 0.3778,
+      "step": 8200
+    },
+    {
+      "epoch": 2.569780719580406,
+      "grad_norm": 100.5,
+      "learning_rate": 4.99888801042701e-07,
+      "loss": 0.3645,
+      "step": 8300
+    },
+    {
+      "epoch": 2.600747063035863,
+      "grad_norm": 51.5,
+      "learning_rate": 4.316136118961656e-07,
+      "loss": 0.3746,
+      "step": 8400
+    },
+    {
+      "epoch": 2.6317134064913197,
+      "grad_norm": 67.5,
+      "learning_rate": 3.6813992325055504e-07,
+      "loss": 0.366,
+      "step": 8500
+    },
+    {
+      "epoch": 2.6317134064913197,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8610.2001953125,
+      "eval_logps/rejected": -6320.1904296875,
+      "eval_loss": 315.9734191894531,
+      "eval_rewards/accuracies": 0.3197254240512848,
+      "eval_rewards/chosen": -815.64892578125,
+      "eval_rewards/margins": -217.1125030517578,
+      "eval_rewards/rejected": -598.5364379882812,
+      "eval_runtime": 1480.2365,
+      "eval_samples_per_second": 13.09,
+      "eval_steps_per_second": 13.09,
+      "step": 8500
+    },
+    {
+      "epoch": 2.6626797499467765,
+      "grad_norm": 47.75,
+      "learning_rate": 3.095344477089462e-07,
+      "loss": 0.3551,
+      "step": 8600
+    },
+    {
+      "epoch": 2.6936460934022337,
+      "grad_norm": 54.75,
+      "learning_rate": 2.5585878124774754e-07,
+      "loss": 0.3719,
+      "step": 8700
+    },
+    {
+      "epoch": 2.72461243685769,
+      "grad_norm": 51.0,
+      "learning_rate": 2.0716933847761134e-07,
+      "loss": 0.3659,
+      "step": 8800
+    },
+    {
+      "epoch": 2.7555787803131473,
+      "grad_norm": 47.5,
+      "learning_rate": 1.6351729335012334e-07,
+      "loss": 0.3829,
+      "step": 8900
+    },
+    {
+      "epoch": 2.786545123768604,
+      "grad_norm": 63.5,
+      "learning_rate": 1.2494852537256296e-07,
+      "loss": 0.3503,
+      "step": 9000
+    },
+    {
+      "epoch": 2.786545123768604,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8609.8154296875,
+      "eval_logps/rejected": -6319.88720703125,
+      "eval_loss": 315.95770263671875,
+      "eval_rewards/accuracies": 0.3191577196121216,
+      "eval_rewards/chosen": -815.6104736328125,
+      "eval_rewards/margins": -217.10435485839844,
+      "eval_rewards/rejected": -598.5061645507812,
+      "eval_runtime": 1438.727,
+      "eval_samples_per_second": 13.467,
+      "eval_steps_per_second": 13.467,
+      "step": 9000
+    },
+    {
+      "epoch": 2.817511467224061,
+      "grad_norm": 46.5,
+      "learning_rate": 9.150357138727028e-08,
+      "loss": 0.3738,
+      "step": 9100
+    },
+    {
+      "epoch": 2.8484778106795177,
+      "grad_norm": 52.5,
+      "learning_rate": 6.321758296630398e-08,
+      "loss": 0.3754,
+      "step": 9200
+    },
+    {
+      "epoch": 2.8794441541349745,
+      "grad_norm": 68.5,
+      "learning_rate": 4.0120289466166754e-08,
+      "loss": 0.3747,
+      "step": 9300
+    },
+    {
+      "epoch": 2.9104104975904312,
+      "grad_norm": 46.75,
+      "learning_rate": 2.2235966781427586e-08,
+      "loss": 0.3565,
+      "step": 9400
+    },
+    {
+      "epoch": 2.941376841045888,
+      "grad_norm": 58.0,
+      "learning_rate": 9.583411830087485e-09,
+      "loss": 0.4153,
+      "step": 9500
+    },
+    {
+      "epoch": 2.941376841045888,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -8609.7314453125,
+      "eval_logps/rejected": -6319.83056640625,
+      "eval_loss": 315.9565734863281,
+      "eval_rewards/accuracies": 0.3196222186088562,
+      "eval_rewards/chosen": -815.6021728515625,
+      "eval_rewards/margins": -217.1017303466797,
+      "eval_rewards/rejected": -598.50048828125,
+      "eval_runtime": 1365.7529,
+      "eval_samples_per_second": 14.187,
+      "eval_steps_per_second": 14.187,
+      "step": 9500
+    },
+    {
+      "epoch": 2.9723431845013453,
+      "grad_norm": 59.25,
+      "learning_rate": 2.1759227974949006e-09,
+      "loss": 0.3534,
+      "step": 9600
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 9690,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}