NoManDeRY
/

DPO-Shift-Llama-3-8B-Ultrafeedback-decrease_linear-1.0to0.95

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Model card Files Files and versions

DPO-Shift-Llama-3-8B-Ultrafeedback-decrease_linear-1.0to0.95 / all_results.json

NoManDeRY's picture

Upload folder using huggingface_hub

ce72571 verified about 1 year ago

history blame contribute delete

829 Bytes

	{
	"epoch": 0.998691442030882,
	"eval_dpo_lambda": 0.9499999284744263,
	"eval_logits/chosen": -0.9673975706100464,
	"eval_logits/rejected": -1.0031267404556274,
	"eval_logps/chosen": -338.55499267578125,
	"eval_logps/rejected": -360.69610595703125,
	"eval_loss": 0.5627262592315674,
	"eval_rewards/accuracies": 0.7329999804496765,
	"eval_rewards/chosen": -0.3790811598300934,
	"eval_rewards/margins": 0.5175721645355225,
	"eval_rewards/rejected": -0.8966532945632935,
	"eval_runtime": 561.3254,
	"eval_samples": 2000,
	"eval_samples_per_second": 3.563,
	"eval_steps_per_second": 0.891,
	"total_flos": 0.0,
	"train_loss": 0.5879578035582537,
	"train_runtime": 40532.5341,
	"train_samples": 61134,
	"train_samples_per_second": 1.508,
	"train_steps_per_second": 0.012
	}