0.001_3iters_bs256_nodpo_only4w_iter_1 / trainer_state.json

Model save

56aaa64 verified 10 months ago

4.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9952153110047847,
	"eval_steps": 500,
	"global_step": 52,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02,
	"learning_rate": 8.333333333333333e-08,
	"logits/chosen": -2.8187968730926514,
	"logits/rejected": -2.8237557411193848,
	"logps/chosen": -257.11737060546875,
	"logps/pi_response": -65.15000915527344,
	"logps/ref_response": -65.15000915527344,
	"logps/rejected": -166.6063995361328,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.907293218369498e-07,
	"logits/chosen": -2.834031105041504,
	"logits/rejected": -2.794311046600342,
	"logps/chosen": -247.26991271972656,
	"logps/pi_response": -71.50384521484375,
	"logps/ref_response": -71.02489471435547,
	"logps/rejected": -163.82879638671875,
	"loss": 0.6885,
	"rewards/accuracies": 0.5972222089767456,
	"rewards/chosen": 0.007015190087258816,
	"rewards/margins": 0.0075297304429113865,
	"rewards/rejected": -0.0005145410541445017,
	"step": 10
	},
	{
	"epoch": 0.38,
	"learning_rate": 3.941700805287168e-07,
	"logits/chosen": -2.7059969902038574,
	"logits/rejected": -2.682796001434326,
	"logps/chosen": -233.1520538330078,
	"logps/pi_response": -87.71420288085938,
	"logps/ref_response": -74.39585876464844,
	"logps/rejected": -170.5820770263672,
	"loss": 0.6558,
	"rewards/accuracies": 0.721875011920929,
	"rewards/chosen": 0.023435983806848526,
	"rewards/margins": 0.09170379489660263,
	"rewards/rejected": -0.0682678073644638,
	"step": 20
	},
	{
	"epoch": 0.57,
	"learning_rate": 2.3293939665883228e-07,
	"logits/chosen": -2.607896327972412,
	"logits/rejected": -2.5777342319488525,
	"logps/chosen": -247.3583526611328,
	"logps/pi_response": -125.3393325805664,
	"logps/ref_response": -79.46585845947266,
	"logps/rejected": -196.52218627929688,
	"loss": 0.6311,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.16959059238433838,
	"rewards/margins": 0.12048976123332977,
	"rewards/rejected": -0.29008033871650696,
	"step": 30
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.936171419533652e-08,
	"logits/chosen": -2.627960443496704,
	"logits/rejected": -2.5933032035827637,
	"logps/chosen": -272.2423400878906,
	"logps/pi_response": -141.93287658691406,
	"logps/ref_response": -77.87845611572266,
	"logps/rejected": -232.07913208007812,
	"loss": 0.5952,
	"rewards/accuracies": 0.7281249761581421,
	"rewards/chosen": -0.19411739706993103,
	"rewards/margins": 0.2757735848426819,
	"rewards/rejected": -0.4698909819126129,
	"step": 40
	},
	{
	"epoch": 0.96,
	"learning_rate": 2.328513490917311e-09,
	"logits/chosen": -2.6459906101226807,
	"logits/rejected": -2.6088039875030518,
	"logps/chosen": -273.8865051269531,
	"logps/pi_response": -136.73643493652344,
	"logps/ref_response": -74.40654754638672,
	"logps/rejected": -227.901123046875,
	"loss": 0.5864,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -0.17903554439544678,
	"rewards/margins": 0.36069053411483765,
	"rewards/rejected": -0.5397260785102844,
	"step": 50
	},
	{
	"epoch": 1.0,
	"step": 52,
	"total_flos": 0.0,
	"train_loss": 0.6293867803536929,
	"train_runtime": 3116.1807,
	"train_samples_per_second": 4.279,
	"train_steps_per_second": 0.017
	}
	],
	"logging_steps": 10,
	"max_steps": 52,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}