ppr_dpo_qwen_process_step3 / trainer_state.json

Add files using upload-large-folder tool

c050228 verified about 2 months ago

13.2 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 33,
	"global_step": 167,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.059880239520958084,
	"grad_norm": 12.36841869354248,
	"learning_rate": 9.936708860759493e-05,
	"logits/chosen": -0.735156238079071,
	"logits/rejected": -0.6986328363418579,
	"logps/chosen": -19.024999618530273,
	"logps/rejected": -28.543750762939453,
	"loss": 0.5971,
	"nll_loss": 0.20131835341453552,
	"rewards/accuracies": 0.4937500059604645,
	"rewards/chosen": 0.01967773400247097,
	"rewards/margins": 0.14492186903953552,
	"rewards/rejected": -0.12529297173023224,
	"step": 10
	},
	{
	"epoch": 0.11976047904191617,
	"grad_norm": 8.02683162689209,
	"learning_rate": 9.303797468354431e-05,
	"logits/chosen": -0.865039050579071,
	"logits/rejected": -0.849804699420929,
	"logps/chosen": -17.296875,
	"logps/rejected": -28.184375762939453,
	"loss": 0.547,
	"nll_loss": 0.18623046576976776,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -0.09682617336511612,
	"rewards/margins": 0.814404308795929,
	"rewards/rejected": -0.91064453125,
	"step": 20
	},
	{
	"epoch": 0.17964071856287425,
	"grad_norm": 10.350639343261719,
	"learning_rate": 8.670886075949367e-05,
	"logits/chosen": -0.9947265386581421,
	"logits/rejected": -0.942187488079071,
	"logps/chosen": -18.146875381469727,
	"logps/rejected": -30.168750762939453,
	"loss": 0.5183,
	"nll_loss": 0.19204100966453552,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.14462891221046448,
	"rewards/margins": 1.4348633289337158,
	"rewards/rejected": -1.5797851085662842,
	"step": 30
	},
	{
	"epoch": 0.19760479041916168,
	"eval_logits/chosen": -1.0199424028396606,
	"eval_logits/rejected": -0.9895148277282715,
	"eval_logps/chosen": -18.636512756347656,
	"eval_logps/rejected": -31.595394134521484,
	"eval_loss": 0.5152081847190857,
	"eval_nll_loss": 0.19370631873607635,
	"eval_rewards/accuracies": 0.6973684430122375,
	"eval_rewards/chosen": -0.248046875,
	"eval_rewards/margins": 1.5133634805679321,
	"eval_rewards/rejected": -1.7625411748886108,
	"eval_runtime": 37.7687,
	"eval_samples_per_second": 7.89,
	"eval_steps_per_second": 1.006,
	"step": 33
	},
	{
	"epoch": 0.23952095808383234,
	"grad_norm": 12.673577308654785,
	"learning_rate": 8.037974683544304e-05,
	"logits/chosen": -1.006250023841858,
	"logits/rejected": -0.9486328363418579,
	"logps/chosen": -18.325000762939453,
	"logps/rejected": -30.96875,
	"loss": 0.5276,
	"nll_loss": 0.19785156846046448,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.36396485567092896,
	"rewards/margins": 1.570214867591858,
	"rewards/rejected": -1.9357421398162842,
	"step": 40
	},
	{
	"epoch": 0.2994011976047904,
	"grad_norm": 14.858013153076172,
	"learning_rate": 7.40506329113924e-05,
	"logits/chosen": -0.971484363079071,
	"logits/rejected": -0.9488281011581421,
	"logps/chosen": -19.975000381469727,
	"logps/rejected": -30.5,
	"loss": 0.5554,
	"nll_loss": 0.21669921278953552,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -0.32304686307907104,
	"rewards/margins": 1.359960913658142,
	"rewards/rejected": -1.684472680091858,
	"step": 50
	},
	{
	"epoch": 0.3592814371257485,
	"grad_norm": 13.94198226928711,
	"learning_rate": 6.772151898734177e-05,
	"logits/chosen": -0.9164062738418579,
	"logits/rejected": -0.895703136920929,
	"logps/chosen": -19.456249237060547,
	"logps/rejected": -31.3125,
	"loss": 0.5578,
	"nll_loss": 0.20249024033546448,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.30244141817092896,
	"rewards/margins": 1.196874976158142,
	"rewards/rejected": -1.50048828125,
	"step": 60
	},
	{
	"epoch": 0.39520958083832336,
	"eval_logits/chosen": -0.8888774514198303,
	"eval_logits/rejected": -0.8612253069877625,
	"eval_logps/chosen": -18.394737243652344,
	"eval_logps/rejected": -30.789474487304688,
	"eval_loss": 0.46207094192504883,
	"eval_nll_loss": 0.1904296875,
	"eval_rewards/accuracies": 0.7532894611358643,
	"eval_rewards/chosen": -0.1289319545030594,
	"eval_rewards/margins": 1.2322677373886108,
	"eval_rewards/rejected": -1.3603515625,
	"eval_runtime": 37.6185,
	"eval_samples_per_second": 7.922,
	"eval_steps_per_second": 1.01,
	"step": 66
	},
	{
	"epoch": 0.41916167664670656,
	"grad_norm": 10.616917610168457,
	"learning_rate": 6.139240506329115e-05,
	"logits/chosen": -0.826953113079071,
	"logits/rejected": -0.830273449420929,
	"logps/chosen": -20.596874237060547,
	"logps/rejected": -29.740625381469727,
	"loss": 0.5122,
	"nll_loss": 0.20893554389476776,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -0.11264648288488388,
	"rewards/margins": 1.2311522960662842,
	"rewards/rejected": -1.3449218273162842,
	"step": 70
	},
	{
	"epoch": 0.47904191616766467,
	"grad_norm": 11.696365356445312,
	"learning_rate": 5.5063291139240514e-05,
	"logits/chosen": -0.82421875,
	"logits/rejected": -0.8033202886581421,
	"logps/chosen": -19.581249237060547,
	"logps/rejected": -32.271873474121094,
	"loss": 0.5047,
	"nll_loss": 0.19770507514476776,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.20634765923023224,
	"rewards/margins": 1.2736327648162842,
	"rewards/rejected": -1.4802734851837158,
	"step": 80
	},
	{
	"epoch": 0.5389221556886228,
	"grad_norm": 11.490265846252441,
	"learning_rate": 4.8734177215189874e-05,
	"logits/chosen": -0.863476574420929,
	"logits/rejected": -0.841015636920929,
	"logps/chosen": -19.484375,
	"logps/rejected": -33.95624923706055,
	"loss": 0.4647,
	"nll_loss": 0.20292969048023224,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.24423828721046448,
	"rewards/margins": 1.6508300304412842,
	"rewards/rejected": -1.8943359851837158,
	"step": 90
	},
	{
	"epoch": 0.592814371257485,
	"eval_logits/chosen": -0.9116981625556946,
	"eval_logits/rejected": -0.8838404417037964,
	"eval_logps/chosen": -18.429275512695312,
	"eval_logps/rejected": -31.63157844543457,
	"eval_loss": 0.43091967701911926,
	"eval_nll_loss": 0.19037829339504242,
	"eval_rewards/accuracies": 0.7532894611358643,
	"eval_rewards/chosen": -0.15003083646297455,
	"eval_rewards/margins": 1.6260793209075928,
	"eval_rewards/rejected": -1.7764699459075928,
	"eval_runtime": 37.7297,
	"eval_samples_per_second": 7.898,
	"eval_steps_per_second": 1.007,
	"step": 99
	},
	{
	"epoch": 0.5988023952095808,
	"grad_norm": 8.535696983337402,
	"learning_rate": 4.240506329113924e-05,
	"logits/chosen": -0.848828136920929,
	"logits/rejected": -0.8291015625,
	"logps/chosen": -18.943750381469727,
	"logps/rejected": -29.356250762939453,
	"loss": 0.4623,
	"nll_loss": 0.19814452528953552,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.10761718451976776,
	"rewards/margins": 1.6233398914337158,
	"rewards/rejected": -1.7314453125,
	"step": 100
	},
	{
	"epoch": 0.6586826347305389,
	"grad_norm": 5.726072311401367,
	"learning_rate": 3.607594936708861e-05,
	"logits/chosen": -0.8636718988418579,
	"logits/rejected": -0.866992175579071,
	"logps/chosen": -20.371875762939453,
	"logps/rejected": -31.131250381469727,
	"loss": 0.477,
	"nll_loss": 0.212890625,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.22114257514476776,
	"rewards/margins": 1.5869140625,
	"rewards/rejected": -1.808203101158142,
	"step": 110
	},
	{
	"epoch": 0.718562874251497,
	"grad_norm": 6.890474796295166,
	"learning_rate": 2.9746835443037974e-05,
	"logits/chosen": -0.9125000238418579,
	"logits/rejected": -0.9126952886581421,
	"logps/chosen": -17.600000381469727,
	"logps/rejected": -33.837501525878906,
	"loss": 0.4372,
	"nll_loss": 0.185546875,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -0.20854492485523224,
	"rewards/margins": 2.422656297683716,
	"rewards/rejected": -2.6328125,
	"step": 120
	},
	{
	"epoch": 0.7784431137724551,
	"grad_norm": 7.191044807434082,
	"learning_rate": 2.341772151898734e-05,
	"logits/chosen": -0.93359375,
	"logits/rejected": -0.8980468511581421,
	"logps/chosen": -16.762500762939453,
	"logps/rejected": -30.174999237060547,
	"loss": 0.4398,
	"nll_loss": 0.18398436903953552,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -0.18193359673023224,
	"rewards/margins": 1.81787109375,
	"rewards/rejected": -2.0015625953674316,
	"step": 130
	},
	{
	"epoch": 0.7904191616766467,
	"eval_logits/chosen": -0.9958881735801697,
	"eval_logits/rejected": -0.9672080874443054,
	"eval_logps/chosen": -18.569900512695312,
	"eval_logps/rejected": -32.644737243652344,
	"eval_loss": 0.41646456718444824,
	"eval_nll_loss": 0.19179172813892365,
	"eval_rewards/accuracies": 0.75,
	"eval_rewards/chosen": -0.2185187041759491,
	"eval_rewards/margins": 2.0729339122772217,
	"eval_rewards/rejected": -2.2922492027282715,
	"eval_runtime": 37.9044,
	"eval_samples_per_second": 7.862,
	"eval_steps_per_second": 1.003,
	"step": 132
	},
	{
	"epoch": 0.8383233532934131,
	"grad_norm": 10.231584548950195,
	"learning_rate": 1.7088607594936708e-05,
	"logits/chosen": -0.9898437261581421,
	"logits/rejected": -0.976757824420929,
	"logps/chosen": -17.987499237060547,
	"logps/rejected": -31.737499237060547,
	"loss": 0.3967,
	"nll_loss": 0.19194336235523224,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -0.28300780057907104,
	"rewards/margins": 1.9914062023162842,
	"rewards/rejected": -2.274218797683716,
	"step": 140
	},
	{
	"epoch": 0.8982035928143712,
	"grad_norm": 8.393524169921875,
	"learning_rate": 1.0759493670886076e-05,
	"logits/chosen": -0.975390613079071,
	"logits/rejected": -0.953906238079071,
	"logps/chosen": -19.209375381469727,
	"logps/rejected": -33.400001525878906,
	"loss": 0.5022,
	"nll_loss": 0.20380859076976776,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.4892578125,
	"rewards/margins": 1.9375,
	"rewards/rejected": -2.4291014671325684,
	"step": 150
	},
	{
	"epoch": 0.9580838323353293,
	"grad_norm": 10.486552238464355,
	"learning_rate": 4.430379746835443e-06,
	"logits/chosen": -0.991992175579071,
	"logits/rejected": -0.948046863079071,
	"logps/chosen": -19.268749237060547,
	"logps/rejected": -33.556251525878906,
	"loss": 0.5564,
	"nll_loss": 0.206787109375,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.40800780057907104,
	"rewards/margins": 1.840429663658142,
	"rewards/rejected": -2.244873046875,
	"step": 160
	},
	{
	"epoch": 0.9880239520958084,
	"eval_logits/chosen": -1.0091488361358643,
	"eval_logits/rejected": -0.98046875,
	"eval_logps/chosen": -18.596216201782227,
	"eval_logps/rejected": -32.71381759643555,
	"eval_loss": 0.41747432947158813,
	"eval_nll_loss": 0.19197162985801697,
	"eval_rewards/accuracies": 0.7730262875556946,
	"eval_rewards/chosen": -0.22913239896297455,
	"eval_rewards/margins": 2.0992496013641357,
	"eval_rewards/rejected": -2.329050064086914,
	"eval_runtime": 37.8726,
	"eval_samples_per_second": 7.868,
	"eval_steps_per_second": 1.003,
	"step": 165
	},
	{
	"epoch": 1.0,
	"step": 167,
	"total_flos": 0.0,
	"train_loss": 0.5023956755678097,
	"train_runtime": 947.2222,
	"train_samples_per_second": 2.816,
	"train_steps_per_second": 0.176
	}
	],
	"logging_steps": 10,
	"max_steps": 167,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 33,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}