wxzhang
/

dpo-selective-longerrun

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

dpo-selective-longerrun / all_results.json

wxzhang's picture

Model save

59c7c4d verified almost 2 years ago

history blame contribute delete

748 Bytes

	{
	"epoch": 1.57,
	"eval_logits/chosen": -2.3900513648986816,
	"eval_logits/rejected": -2.3497886657714844,
	"eval_logps/chosen": -310.23736572265625,
	"eval_logps/rejected": -312.59942626953125,
	"eval_loss": 0.4916023015975952,
	"eval_rewards/accuracies": 0.7579365372657776,
	"eval_rewards/chosen": -0.6958636045455933,
	"eval_rewards/margins": 1.3472286462783813,
	"eval_rewards/rejected": -2.0430922508239746,
	"eval_runtime": 406.1845,
	"eval_samples": 2000,
	"eval_samples_per_second": 4.924,
	"eval_steps_per_second": 0.155,
	"train_loss": 0.4390208276112874,
	"train_runtime": 42485.337,
	"train_samples": 61135,
	"train_samples_per_second": 2.26,
	"train_steps_per_second": 0.035
	}