zephyr-7b-gpo-v9-i1 / trainer_state.json

Model save

134c76e verified 10 months ago

90.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 1875,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 2.6595744680851065e-08,
	"logits/chosen": -1.7968215942382812,
	"logits/rejected": -2.159090995788574,
	"logps/chosen": -88.33059692382812,
	"logps/rejected": -242.96200561523438,
	"loss": 0.4322,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.01,
	"learning_rate": 2.6595744680851066e-07,
	"logits/chosen": -2.003159999847412,
	"logits/rejected": -1.3869916200637817,
	"logps/chosen": -240.9772186279297,
	"logps/rejected": -195.60606384277344,
	"loss": 0.3319,
	"rewards/accuracies": 0.3333333432674408,
	"rewards/chosen": -3.270954766776413e-05,
	"rewards/margins": -8.25071256258525e-05,
	"rewards/rejected": 4.979758523404598e-05,
	"step": 10
	},
	{
	"epoch": 0.01,
	"learning_rate": 5.319148936170213e-07,
	"logits/chosen": -2.0388007164001465,
	"logits/rejected": -1.5615094900131226,
	"logps/chosen": -291.083740234375,
	"logps/rejected": -277.5216369628906,
	"loss": 0.3514,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 1.1951732631132472e-05,
	"rewards/margins": 0.00027519199647940695,
	"rewards/rejected": -0.0002632402756717056,
	"step": 20
	},
	{
	"epoch": 0.02,
	"learning_rate": 7.97872340425532e-07,
	"logits/chosen": -1.860889196395874,
	"logits/rejected": -1.5862194299697876,
	"logps/chosen": -248.38510131835938,
	"logps/rejected": -261.7816467285156,
	"loss": 0.324,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.0007015246083028615,
	"rewards/margins": 0.004821115639060736,
	"rewards/rejected": -0.005522639956325293,
	"step": 30
	},
	{
	"epoch": 0.02,
	"learning_rate": 1.0638297872340427e-06,
	"logits/chosen": -1.8764064311981201,
	"logits/rejected": -1.2899483442306519,
	"logps/chosen": -355.25958251953125,
	"logps/rejected": -389.2695007324219,
	"loss": 0.3286,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.009422576054930687,
	"rewards/margins": 0.022184943780303,
	"rewards/rejected": -0.03160751983523369,
	"step": 40
	},
	{
	"epoch": 0.03,
	"learning_rate": 1.3297872340425533e-06,
	"logits/chosen": -1.990142583847046,
	"logits/rejected": -1.2961665391921997,
	"logps/chosen": -316.00860595703125,
	"logps/rejected": -277.88421630859375,
	"loss": 0.2629,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.05700983479619026,
	"rewards/margins": 0.059757936745882034,
	"rewards/rejected": -0.1167677640914917,
	"step": 50
	},
	{
	"epoch": 0.03,
	"learning_rate": 1.595744680851064e-06,
	"logits/chosen": -1.748492956161499,
	"logits/rejected": -0.8994135856628418,
	"logps/chosen": -389.3627624511719,
	"logps/rejected": -579.7057495117188,
	"loss": 0.1989,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.09011684358119965,
	"rewards/margins": 0.22812744975090027,
	"rewards/rejected": -0.3182442784309387,
	"step": 60
	},
	{
	"epoch": 0.04,
	"learning_rate": 1.8617021276595745e-06,
	"logits/chosen": -1.6900399923324585,
	"logits/rejected": -1.4010140895843506,
	"logps/chosen": -420.5406799316406,
	"logps/rejected": -859.8084716796875,
	"loss": 0.1253,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.20870384573936462,
	"rewards/margins": 0.3385527431964874,
	"rewards/rejected": -0.547256588935852,
	"step": 70
	},
	{
	"epoch": 0.04,
	"learning_rate": 2.1276595744680853e-06,
	"logits/chosen": -1.7609751224517822,
	"logits/rejected": -1.0384010076522827,
	"logps/chosen": -474.48187255859375,
	"logps/rejected": -747.34716796875,
	"loss": 0.1309,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.19330377876758575,
	"rewards/margins": 0.34078216552734375,
	"rewards/rejected": -0.5340859293937683,
	"step": 80
	},
	{
	"epoch": 0.05,
	"learning_rate": 2.393617021276596e-06,
	"logits/chosen": -1.7291476726531982,
	"logits/rejected": -1.2021540403366089,
	"logps/chosen": -454.2134704589844,
	"logps/rejected": -764.934326171875,
	"loss": 0.16,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.1365814059972763,
	"rewards/margins": 0.36457785964012146,
	"rewards/rejected": -0.5011593103408813,
	"step": 90
	},
	{
	"epoch": 0.05,
	"learning_rate": 2.6595744680851065e-06,
	"logits/chosen": -1.5737159252166748,
	"logits/rejected": -0.9248941540718079,
	"logps/chosen": -482.3492126464844,
	"logps/rejected": -792.2481689453125,
	"loss": 0.1239,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.19203761219978333,
	"rewards/margins": 0.3564862310886383,
	"rewards/rejected": -0.5485238432884216,
	"step": 100
	},
	{
	"epoch": 0.06,
	"learning_rate": 2.9255319148936174e-06,
	"logits/chosen": -1.7435375452041626,
	"logits/rejected": -1.356065034866333,
	"logps/chosen": -416.564208984375,
	"logps/rejected": -796.4661254882812,
	"loss": 0.1253,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.1526903361082077,
	"rewards/margins": 0.3349696397781372,
	"rewards/rejected": -0.4876599907875061,
	"step": 110
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.191489361702128e-06,
	"logits/chosen": -1.6976553201675415,
	"logits/rejected": -1.0894078016281128,
	"logps/chosen": -409.96258544921875,
	"logps/rejected": -617.7588500976562,
	"loss": 0.1948,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.13733306527137756,
	"rewards/margins": 0.293459415435791,
	"rewards/rejected": -0.4307924807071686,
	"step": 120
	},
	{
	"epoch": 0.07,
	"learning_rate": 3.457446808510639e-06,
	"logits/chosen": -1.7993590831756592,
	"logits/rejected": -1.400632619857788,
	"logps/chosen": -370.1565856933594,
	"logps/rejected": -709.3056640625,
	"loss": 0.2055,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.11207763850688934,
	"rewards/margins": 0.340470552444458,
	"rewards/rejected": -0.45254817605018616,
	"step": 130
	},
	{
	"epoch": 0.07,
	"learning_rate": 3.723404255319149e-06,
	"logits/chosen": -1.495011806488037,
	"logits/rejected": -0.9245948791503906,
	"logps/chosen": -388.5771789550781,
	"logps/rejected": -792.4680786132812,
	"loss": 0.1088,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.1575288623571396,
	"rewards/margins": 0.3997672200202942,
	"rewards/rejected": -0.557296097278595,
	"step": 140
	},
	{
	"epoch": 0.08,
	"learning_rate": 3.98936170212766e-06,
	"logits/chosen": -1.6491578817367554,
	"logits/rejected": -1.2172632217407227,
	"logps/chosen": -407.8502502441406,
	"logps/rejected": -738.5733642578125,
	"loss": 0.1397,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.12080486118793488,
	"rewards/margins": 0.32797589898109436,
	"rewards/rejected": -0.44878071546554565,
	"step": 150
	},
	{
	"epoch": 0.09,
	"learning_rate": 4.255319148936171e-06,
	"logits/chosen": -1.6612653732299805,
	"logits/rejected": -1.1705405712127686,
	"logps/chosen": -353.0194396972656,
	"logps/rejected": -689.8749389648438,
	"loss": 0.1454,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.09746531397104263,
	"rewards/margins": 0.3515530228614807,
	"rewards/rejected": -0.44901829957962036,
	"step": 160
	},
	{
	"epoch": 0.09,
	"learning_rate": 4.521276595744681e-06,
	"logits/chosen": -1.54987370967865,
	"logits/rejected": -1.1912695169448853,
	"logps/chosen": -544.5787963867188,
	"logps/rejected": -835.3132934570312,
	"loss": 0.1048,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.23248295485973358,
	"rewards/margins": 0.3334501087665558,
	"rewards/rejected": -0.565933108329773,
	"step": 170
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.787234042553192e-06,
	"logits/chosen": -1.7397425174713135,
	"logits/rejected": -0.8725941777229309,
	"logps/chosen": -510.69842529296875,
	"logps/rejected": -840.5343017578125,
	"loss": 0.1531,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.2171137034893036,
	"rewards/margins": 0.39573976397514343,
	"rewards/rejected": -0.6128535270690918,
	"step": 180
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.999982660399688e-06,
	"logits/chosen": -1.6966726779937744,
	"logits/rejected": -1.09552800655365,
	"logps/chosen": -514.5984497070312,
	"logps/rejected": -911.4729614257812,
	"loss": 0.1503,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.2481248676776886,
	"rewards/margins": 0.3679044842720032,
	"rewards/rejected": -0.6160293221473694,
	"step": 190
	},
	{
	"epoch": 0.11,
	"learning_rate": 4.99937579964398e-06,
	"logits/chosen": -1.4942667484283447,
	"logits/rejected": -1.1419141292572021,
	"logps/chosen": -432.5450134277344,
	"logps/rejected": -730.1014404296875,
	"loss": 0.1267,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.21937580406665802,
	"rewards/margins": 0.3185574412345886,
	"rewards/rejected": -0.5379332304000854,
	"step": 200
	},
	{
	"epoch": 0.11,
	"learning_rate": 4.9979021993870645e-06,
	"logits/chosen": -1.571395993232727,
	"logits/rejected": -0.9183829426765442,
	"logps/chosen": -480.79644775390625,
	"logps/rejected": -813.7987060546875,
	"loss": 0.1624,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.18962515890598297,
	"rewards/margins": 0.3737575113773346,
	"rewards/rejected": -0.563382625579834,
	"step": 210
	},
	{
	"epoch": 0.12,
	"learning_rate": 4.995562370647553e-06,
	"logits/chosen": -1.668015480041504,
	"logits/rejected": -1.1087052822113037,
	"logps/chosen": -517.7100219726562,
	"logps/rejected": -838.1522216796875,
	"loss": 0.1372,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.22473697364330292,
	"rewards/margins": 0.35942238569259644,
	"rewards/rejected": -0.5841594338417053,
	"step": 220
	},
	{
	"epoch": 0.12,
	"learning_rate": 4.992357124836838e-06,
	"logits/chosen": -1.3532911539077759,
	"logits/rejected": -0.6337820291519165,
	"logps/chosen": -458.74462890625,
	"logps/rejected": -736.6771240234375,
	"loss": 0.1419,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.21437951922416687,
	"rewards/margins": 0.35455334186553955,
	"rewards/rejected": -0.5689328908920288,
	"step": 230
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.9882875734777044e-06,
	"logits/chosen": -1.6833770275115967,
	"logits/rejected": -1.0865981578826904,
	"logps/chosen": -476.49578857421875,
	"logps/rejected": -742.6441650390625,
	"loss": 0.162,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.1685108244419098,
	"rewards/margins": 0.33409184217453003,
	"rewards/rejected": -0.5026026368141174,
	"step": 240
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.983355127818882e-06,
	"logits/chosen": -1.4850168228149414,
	"logits/rejected": -0.9603360295295715,
	"logps/chosen": -400.22967529296875,
	"logps/rejected": -569.9345703125,
	"loss": 0.1919,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.20730257034301758,
	"rewards/margins": 0.22820453345775604,
	"rewards/rejected": -0.4355071187019348,
	"step": 250
	},
	{
	"epoch": 0.14,
	"learning_rate": 4.977561498345639e-06,
	"logits/chosen": -1.544639229774475,
	"logits/rejected": -1.1013596057891846,
	"logps/chosen": -407.4434509277344,
	"logps/rejected": -822.0099487304688,
	"loss": 0.0966,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.19301848113536835,
	"rewards/margins": 0.41144537925720215,
	"rewards/rejected": -0.6044638752937317,
	"step": 260
	},
	{
	"epoch": 0.14,
	"learning_rate": 4.970908694186624e-06,
	"logits/chosen": -1.5448771715164185,
	"logits/rejected": -0.8540661931037903,
	"logps/chosen": -542.1297607421875,
	"logps/rejected": -889.5344848632812,
	"loss": 0.1371,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.25042372941970825,
	"rewards/margins": 0.39966678619384766,
	"rewards/rejected": -0.6500904560089111,
	"step": 270
	},
	{
	"epoch": 0.15,
	"learning_rate": 4.9633990224171305e-06,
	"logits/chosen": -1.4944156408309937,
	"logits/rejected": -0.8036524057388306,
	"logps/chosen": -671.7164306640625,
	"logps/rejected": -922.0513916015625,
	"loss": 0.1319,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.3747330605983734,
	"rewards/margins": 0.3100079596042633,
	"rewards/rejected": -0.6847410202026367,
	"step": 280
	},
	{
	"epoch": 0.15,
	"learning_rate": 4.955035087259046e-06,
	"logits/chosen": -1.4477952718734741,
	"logits/rejected": -0.8218593597412109,
	"logps/chosen": -612.0665893554688,
	"logps/rejected": -863.3322143554688,
	"loss": 0.1494,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.3176848888397217,
	"rewards/margins": 0.30745354294776917,
	"rewards/rejected": -0.6251384019851685,
	"step": 290
	},
	{
	"epoch": 0.16,
	"learning_rate": 4.945819789177756e-06,
	"logits/chosen": -1.611026406288147,
	"logits/rejected": -1.1793110370635986,
	"logps/chosen": -518.3214111328125,
	"logps/rejected": -892.6036987304688,
	"loss": 0.1228,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.2295423001050949,
	"rewards/margins": 0.37014490365982056,
	"rewards/rejected": -0.5996872186660767,
	"step": 300
	},
	{
	"epoch": 0.17,
	"learning_rate": 4.935756323876306e-06,
	"logits/chosen": -1.508418083190918,
	"logits/rejected": -1.277306318283081,
	"logps/chosen": -459.0326232910156,
	"logps/rejected": -823.93017578125,
	"loss": 0.1518,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.27009934186935425,
	"rewards/margins": 0.32507914304733276,
	"rewards/rejected": -0.5951785445213318,
	"step": 310
	},
	{
	"epoch": 0.17,
	"learning_rate": 4.924848181187199e-06,
	"logits/chosen": -1.6442441940307617,
	"logits/rejected": -1.1329659223556519,
	"logps/chosen": -494.06097412109375,
	"logps/rejected": -854.1019287109375,
	"loss": 0.1422,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.20919394493103027,
	"rewards/margins": 0.39555859565734863,
	"rewards/rejected": -0.6047526001930237,
	"step": 320
	},
	{
	"epoch": 0.18,
	"learning_rate": 4.913099143862173e-06,
	"logits/chosen": -1.3633651733398438,
	"logits/rejected": -0.9123932123184204,
	"logps/chosen": -474.5048828125,
	"logps/rejected": -829.7545776367188,
	"loss": 0.1498,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.28733277320861816,
	"rewards/margins": 0.3500373959541321,
	"rewards/rejected": -0.6373701095581055,
	"step": 330
	},
	{
	"epoch": 0.18,
	"learning_rate": 4.900513286260416e-06,
	"logits/chosen": -1.5975598096847534,
	"logits/rejected": -1.2887117862701416,
	"logps/chosen": -400.32781982421875,
	"logps/rejected": -744.0382080078125,
	"loss": 0.1053,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.20992426574230194,
	"rewards/margins": 0.3338248133659363,
	"rewards/rejected": -0.5437491536140442,
	"step": 340
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.887094972935645e-06,
	"logits/chosen": -1.764219045639038,
	"logits/rejected": -0.9871004819869995,
	"logps/chosen": -573.0086059570312,
	"logps/rejected": -937.3956909179688,
	"loss": 0.1504,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.2734777331352234,
	"rewards/margins": 0.37265342473983765,
	"rewards/rejected": -0.646131157875061,
	"step": 350
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.87284885712256e-06,
	"logits/chosen": -1.5166432857513428,
	"logits/rejected": -0.8717886209487915,
	"logps/chosen": -572.190673828125,
	"logps/rejected": -876.5632934570312,
	"loss": 0.1876,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.32470396161079407,
	"rewards/margins": 0.34118732810020447,
	"rewards/rejected": -0.6658912897109985,
	"step": 360
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.857779879123181e-06,
	"logits/chosen": -1.7403156757354736,
	"logits/rejected": -0.9518265724182129,
	"logps/chosen": -505.53387451171875,
	"logps/rejected": -778.5391845703125,
	"loss": 0.1207,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.20143766701221466,
	"rewards/margins": 0.37924817204475403,
	"rewards/rejected": -0.5806857943534851,
	"step": 370
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.841893264593643e-06,
	"logits/chosen": -1.7110675573349,
	"logits/rejected": -1.026960849761963,
	"logps/chosen": -472.236328125,
	"logps/rejected": -761.3172607421875,
	"loss": 0.095,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.2130139172077179,
	"rewards/margins": 0.36098140478134155,
	"rewards/rejected": -0.5739952325820923,
	"step": 380
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.825194522732023e-06,
	"logits/chosen": -1.6140925884246826,
	"logits/rejected": -1.1293842792510986,
	"logps/chosen": -507.7935485839844,
	"logps/rejected": -913.9110107421875,
	"loss": 0.1277,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.26502326130867004,
	"rewards/margins": 0.3756178915500641,
	"rewards/rejected": -0.6406410932540894,
	"step": 390
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.807689444367853e-06,
	"logits/chosen": -1.7682578563690186,
	"logits/rejected": -1.3489004373550415,
	"logps/chosen": -495.90869140625,
	"logps/rejected": -782.658447265625,
	"loss": 0.1251,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.260581910610199,
	"rewards/margins": 0.3089093565940857,
	"rewards/rejected": -0.5694912075996399,
	"step": 400
	},
	{
	"epoch": 0.22,
	"learning_rate": 4.78938409995396e-06,
	"logits/chosen": -1.5254316329956055,
	"logits/rejected": -1.0945005416870117,
	"logps/chosen": -463.646484375,
	"logps/rejected": -902.4519653320312,
	"loss": 0.1313,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.24164071679115295,
	"rewards/margins": 0.3996545672416687,
	"rewards/rejected": -0.6412952542304993,
	"step": 410
	},
	{
	"epoch": 0.22,
	"learning_rate": 4.770284837461342e-06,
	"logits/chosen": -1.5965580940246582,
	"logits/rejected": -0.836743175983429,
	"logps/chosen": -586.2058715820312,
	"logps/rejected": -917.9168090820312,
	"loss": 0.1124,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.26902061700820923,
	"rewards/margins": 0.3916351795196533,
	"rewards/rejected": -0.6606558561325073,
	"step": 420
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.7503982801778015e-06,
	"logits/chosen": -1.557950735092163,
	"logits/rejected": -1.0112215280532837,
	"logps/chosen": -501.4098205566406,
	"logps/rejected": -789.2760009765625,
	"loss": 0.154,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.24787664413452148,
	"rewards/margins": 0.3141789734363556,
	"rewards/rejected": -0.5620556473731995,
	"step": 430
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.729731324411104e-06,
	"logits/chosen": -1.7676448822021484,
	"logits/rejected": -1.1603769063949585,
	"logps/chosen": -429.96734619140625,
	"logps/rejected": -750.7506103515625,
	"loss": 0.1237,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.1744639277458191,
	"rewards/margins": 0.35027581453323364,
	"rewards/rejected": -0.5247397422790527,
	"step": 440
	},
	{
	"epoch": 0.24,
	"learning_rate": 4.7082911370974645e-06,
	"logits/chosen": -1.8625621795654297,
	"logits/rejected": -1.36086905002594,
	"logps/chosen": -548.0135498046875,
	"logps/rejected": -759.1170654296875,
	"loss": 0.1707,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.2390761822462082,
	"rewards/margins": 0.2892398238182068,
	"rewards/rejected": -0.5283160209655762,
	"step": 450
	},
	{
	"epoch": 0.25,
	"learning_rate": 4.68608515331618e-06,
	"logits/chosen": -1.7188348770141602,
	"logits/rejected": -1.187195062637329,
	"logps/chosen": -492.1756286621094,
	"logps/rejected": -859.0760498046875,
	"loss": 0.1414,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.23255252838134766,
	"rewards/margins": 0.3831843137741089,
	"rewards/rejected": -0.6157368421554565,
	"step": 460
	},
	{
	"epoch": 0.25,
	"learning_rate": 4.663121073711269e-06,
	"logits/chosen": -1.5974490642547607,
	"logits/rejected": -1.2564659118652344,
	"logps/chosen": -336.80487060546875,
	"logps/rejected": -661.6661376953125,
	"loss": 0.1196,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.14996656775474548,
	"rewards/margins": 0.32413381338119507,
	"rewards/rejected": -0.47410035133361816,
	"step": 470
	},
	{
	"epoch": 0.26,
	"learning_rate": 4.63940686182103e-06,
	"logits/chosen": -1.6767423152923584,
	"logits/rejected": -1.1938632726669312,
	"logps/chosen": -505.0990295410156,
	"logps/rejected": -846.8779296875,
	"loss": 0.159,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.2421807050704956,
	"rewards/margins": 0.3599635660648346,
	"rewards/rejected": -0.6021442413330078,
	"step": 480
	},
	{
	"epoch": 0.26,
	"learning_rate": 4.614950741316425e-06,
	"logits/chosen": -1.529900312423706,
	"logits/rejected": -1.0826785564422607,
	"logps/chosen": -421.31707763671875,
	"logps/rejected": -685.7420654296875,
	"loss": 0.1721,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.22861020267009735,
	"rewards/margins": 0.28916865587234497,
	"rewards/rejected": -0.5177788734436035,
	"step": 490
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.589761193149254e-06,
	"logits/chosen": -1.6966304779052734,
	"logits/rejected": -0.9312071800231934,
	"logps/chosen": -535.8978271484375,
	"logps/rejected": -940.1627197265625,
	"loss": 0.1144,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": -0.24013669788837433,
	"rewards/margins": 0.4429057240486145,
	"rewards/rejected": -0.6830424070358276,
	"step": 500
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.563846952611112e-06,
	"logits/chosen": -1.6221929788589478,
	"logits/rejected": -0.9574362635612488,
	"logps/chosen": -428.6238708496094,
	"logps/rejected": -704.8244018554688,
	"loss": 0.0844,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.195401132106781,
	"rewards/margins": 0.3248489797115326,
	"rewards/rejected": -0.520250141620636,
	"step": 510
	},
	{
	"epoch": 0.28,
	"learning_rate": 4.537217006304141e-06,
	"logits/chosen": -1.4427409172058105,
	"logits/rejected": -1.003901481628418,
	"logps/chosen": -429.660400390625,
	"logps/rejected": -772.5963134765625,
	"loss": 0.1457,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.15723460912704468,
	"rewards/margins": 0.3122255206108093,
	"rewards/rejected": -0.4694600999355316,
	"step": 520
	},
	{
	"epoch": 0.28,
	"learning_rate": 4.50988058902464e-06,
	"logits/chosen": -1.2717740535736084,
	"logits/rejected": -0.8480876684188843,
	"logps/chosen": -367.8202209472656,
	"logps/rejected": -776.1926879882812,
	"loss": 0.1152,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.14414677023887634,
	"rewards/margins": 0.38212689757347107,
	"rewards/rejected": -0.5262737274169922,
	"step": 530
	},
	{
	"epoch": 0.29,
	"learning_rate": 4.481847180560593e-06,
	"logits/chosen": -1.5822323560714722,
	"logits/rejected": -0.9035153388977051,
	"logps/chosen": -439.30816650390625,
	"logps/rejected": -708.1422729492188,
	"loss": 0.2078,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.18015776574611664,
	"rewards/margins": 0.32809919118881226,
	"rewards/rejected": -0.5082569122314453,
	"step": 540
	},
	{
	"epoch": 0.29,
	"learning_rate": 4.453126502404253e-06,
	"logits/chosen": -1.6248279809951782,
	"logits/rejected": -0.9642871022224426,
	"logps/chosen": -561.463623046875,
	"logps/rejected": -740.08935546875,
	"loss": 0.1773,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.27120378613471985,
	"rewards/margins": 0.28620854020118713,
	"rewards/rejected": -0.557412326335907,
	"step": 550
	},
	{
	"epoch": 0.3,
	"learning_rate": 4.423728514380892e-06,
	"logits/chosen": -1.4605586528778076,
	"logits/rejected": -0.8407928347587585,
	"logps/chosen": -514.7965087890625,
	"logps/rejected": -831.8440551757812,
	"loss": 0.12,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.24941739439964294,
	"rewards/margins": 0.36968275904655457,
	"rewards/rejected": -0.6191002130508423,
	"step": 560
	},
	{
	"epoch": 0.3,
	"learning_rate": 4.393663411194918e-06,
	"logits/chosen": -1.4048388004302979,
	"logits/rejected": -1.0212897062301636,
	"logps/chosen": -490.42431640625,
	"logps/rejected": -855.1259765625,
	"loss": 0.1416,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.24018950760364532,
	"rewards/margins": 0.3597009778022766,
	"rewards/rejected": -0.5998905301094055,
	"step": 570
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.362941618894523e-06,
	"logits/chosen": -1.3778400421142578,
	"logits/rejected": -0.983964741230011,
	"logps/chosen": -586.1995849609375,
	"logps/rejected": -981.2742309570312,
	"loss": 0.1205,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.30800628662109375,
	"rewards/margins": 0.3807603120803833,
	"rewards/rejected": -0.6887666583061218,
	"step": 580
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.331573791256116e-06,
	"logits/chosen": -1.4645698070526123,
	"logits/rejected": -0.9271195530891418,
	"logps/chosen": -621.4105224609375,
	"logps/rejected": -899.0559692382812,
	"loss": 0.1273,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.2714827358722687,
	"rewards/margins": 0.362936794757843,
	"rewards/rejected": -0.6344195604324341,
	"step": 590
	},
	{
	"epoch": 0.32,
	"learning_rate": 4.299570806089786e-06,
	"logits/chosen": -1.6326652765274048,
	"logits/rejected": -0.9927080273628235,
	"logps/chosen": -490.701904296875,
	"logps/rejected": -842.052734375,
	"loss": 0.1023,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.18793320655822754,
	"rewards/margins": 0.408639132976532,
	"rewards/rejected": -0.5965723395347595,
	"step": 600
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.266943761467057e-06,
	"logits/chosen": -1.2816569805145264,
	"logits/rejected": -0.8941723704338074,
	"logps/chosen": -367.02191162109375,
	"logps/rejected": -760.0553588867188,
	"loss": 0.1443,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.11693791300058365,
	"rewards/margins": 0.39976662397384644,
	"rewards/rejected": -0.5167044997215271,
	"step": 610
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.233703971872287e-06,
	"logits/chosen": -1.8729069232940674,
	"logits/rejected": -1.0977063179016113,
	"logps/chosen": -393.6733093261719,
	"logps/rejected": -763.2752075195312,
	"loss": 0.1335,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.08343084156513214,
	"rewards/margins": 0.4291655123233795,
	"rewards/rejected": -0.5125963687896729,
	"step": 620
	},
	{
	"epoch": 0.34,
	"learning_rate": 4.1998629642789925e-06,
	"logits/chosen": -1.5668641328811646,
	"logits/rejected": -1.1349601745605469,
	"logps/chosen": -426.9754333496094,
	"logps/rejected": -820.5556640625,
	"loss": 0.1742,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.1329190582036972,
	"rewards/margins": 0.36928990483283997,
	"rewards/rejected": -0.5022088885307312,
	"step": 630
	},
	{
	"epoch": 0.34,
	"learning_rate": 4.165432474152505e-06,
	"logits/chosen": -1.5012271404266357,
	"logits/rejected": -1.278693675994873,
	"logps/chosen": -365.3034973144531,
	"logps/rejected": -678.4292602539062,
	"loss": 0.1737,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.13991737365722656,
	"rewards/margins": 0.3017304837703705,
	"rewards/rejected": -0.44164785742759705,
	"step": 640
	},
	{
	"epoch": 0.35,
	"learning_rate": 4.130424441380308e-06,
	"logits/chosen": -1.42804753780365,
	"logits/rejected": -0.967817485332489,
	"logps/chosen": -411.77801513671875,
	"logps/rejected": -691.2272338867188,
	"loss": 0.1527,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.1383361965417862,
	"rewards/margins": 0.33920183777809143,
	"rewards/rejected": -0.47753801941871643,
	"step": 650
	},
	{
	"epoch": 0.35,
	"learning_rate": 4.09485100613151e-06,
	"logits/chosen": -1.5555391311645508,
	"logits/rejected": -1.1440869569778442,
	"logps/chosen": -434.00335693359375,
	"logps/rejected": -744.3508911132812,
	"loss": 0.168,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.19056299328804016,
	"rewards/margins": 0.30447274446487427,
	"rewards/rejected": -0.49503573775291443,
	"step": 660
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.058724504646834e-06,
	"logits/chosen": -1.8099536895751953,
	"logits/rejected": -1.0837316513061523,
	"logps/chosen": -427.7793884277344,
	"logps/rejected": -729.915283203125,
	"loss": 0.1229,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.1386745572090149,
	"rewards/margins": 0.3526052236557007,
	"rewards/rejected": -0.4912797808647156,
	"step": 670
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.022057464960632e-06,
	"logits/chosen": -1.6691503524780273,
	"logits/rejected": -1.33521568775177,
	"logps/chosen": -428.7286071777344,
	"logps/rejected": -789.0191040039062,
	"loss": 0.1607,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.1496300995349884,
	"rewards/margins": 0.35229435563087463,
	"rewards/rejected": -0.5019243955612183,
	"step": 680
	},
	{
	"epoch": 0.37,
	"learning_rate": 3.984862602556383e-06,
	"logits/chosen": -1.6232519149780273,
	"logits/rejected": -1.197933554649353,
	"logps/chosen": -460.2228088378906,
	"logps/rejected": -696.0914306640625,
	"loss": 0.1346,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.18895591795444489,
	"rewards/margins": 0.28954973816871643,
	"rewards/rejected": -0.4785057008266449,
	"step": 690
	},
	{
	"epoch": 0.37,
	"learning_rate": 3.947152815957187e-06,
	"logits/chosen": -1.5458933115005493,
	"logits/rejected": -1.116236925125122,
	"logps/chosen": -433.87322998046875,
	"logps/rejected": -756.8858642578125,
	"loss": 0.1492,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.22537223994731903,
	"rewards/margins": 0.34959647059440613,
	"rewards/rejected": -0.5749687552452087,
	"step": 700
	},
	{
	"epoch": 0.38,
	"learning_rate": 3.908941182252785e-06,
	"logits/chosen": -1.5793603658676147,
	"logits/rejected": -0.9729734659194946,
	"logps/chosen": -458.96368408203125,
	"logps/rejected": -781.1962890625,
	"loss": 0.1615,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.1985333412885666,
	"rewards/margins": 0.3719526529312134,
	"rewards/rejected": -0.5704860091209412,
	"step": 710
	},
	{
	"epoch": 0.38,
	"learning_rate": 3.8702409525646535e-06,
	"logits/chosen": -1.6880747079849243,
	"logits/rejected": -1.0946999788284302,
	"logps/chosen": -550.5426635742188,
	"logps/rejected": -861.6978759765625,
	"loss": 0.1362,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.1908409297466278,
	"rewards/margins": 0.3778737485408783,
	"rewards/rejected": -0.5687146782875061,
	"step": 720
	},
	{
	"epoch": 0.39,
	"learning_rate": 3.8310655474507495e-06,
	"logits/chosen": -1.7694594860076904,
	"logits/rejected": -1.1918199062347412,
	"logps/chosen": -443.54736328125,
	"logps/rejected": -717.8020629882812,
	"loss": 0.1418,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.16424255073070526,
	"rewards/margins": 0.30146175622940063,
	"rewards/rejected": -0.4657043516635895,
	"step": 730
	},
	{
	"epoch": 0.39,
	"learning_rate": 3.7914285522515002e-06,
	"logits/chosen": -1.539620280265808,
	"logits/rejected": -1.3648602962493896,
	"logps/chosen": -468.6385192871094,
	"logps/rejected": -892.7566528320312,
	"loss": 0.1552,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.22199459373950958,
	"rewards/margins": 0.36069172620773315,
	"rewards/rejected": -0.5826863050460815,
	"step": 740
	},
	{
	"epoch": 0.4,
	"learning_rate": 3.751343712378639e-06,
	"logits/chosen": -1.68185555934906,
	"logits/rejected": -1.0438605546951294,
	"logps/chosen": -377.9205627441406,
	"logps/rejected": -688.3480834960938,
	"loss": 0.1417,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.15213271975517273,
	"rewards/margins": 0.3400834798812866,
	"rewards/rejected": -0.49221619963645935,
	"step": 750
	},
	{
	"epoch": 0.41,
	"learning_rate": 3.710824928548546e-06,
	"logits/chosen": -1.7241179943084717,
	"logits/rejected": -1.1749062538146973,
	"logps/chosen": -398.90521240234375,
	"logps/rejected": -792.80078125,
	"loss": 0.1218,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.14098913967609406,
	"rewards/margins": 0.4070391058921814,
	"rewards/rejected": -0.5480281710624695,
	"step": 760
	},
	{
	"epoch": 0.41,
	"learning_rate": 3.6698862519617225e-06,
	"logits/chosen": -1.862091064453125,
	"logits/rejected": -1.0774017572402954,
	"logps/chosen": -380.6012878417969,
	"logps/rejected": -803.9888916015625,
	"loss": 0.1009,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.12483291327953339,
	"rewards/margins": 0.46553611755371094,
	"rewards/rejected": -0.5903691053390503,
	"step": 770
	},
	{
	"epoch": 0.42,
	"learning_rate": 3.6285418794300793e-06,
	"logits/chosen": -1.416322946548462,
	"logits/rejected": -0.8399195671081543,
	"logps/chosen": -444.05523681640625,
	"logps/rejected": -761.3108520507812,
	"loss": 0.1571,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.20516355335712433,
	"rewards/margins": 0.3872140049934387,
	"rewards/rejected": -0.5923775434494019,
	"step": 780
	},
	{
	"epoch": 0.42,
	"learning_rate": 3.5868061484537365e-06,
	"logits/chosen": -1.39794921875,
	"logits/rejected": -0.8267971873283386,
	"logps/chosen": -507.1766052246094,
	"logps/rejected": -875.86962890625,
	"loss": 0.1497,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.23690223693847656,
	"rewards/margins": 0.40496787428855896,
	"rewards/rejected": -0.6418701410293579,
	"step": 790
	},
	{
	"epoch": 0.43,
	"learning_rate": 3.5446935322490285e-06,
	"logits/chosen": -1.7719318866729736,
	"logits/rejected": -0.9355955123901367,
	"logps/chosen": -544.9541015625,
	"logps/rejected": -865.5302734375,
	"loss": 0.1963,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.2105661928653717,
	"rewards/margins": 0.3866081237792969,
	"rewards/rejected": -0.5971742868423462,
	"step": 800
	},
	{
	"epoch": 0.43,
	"learning_rate": 3.502218634729447e-06,
	"logits/chosen": -1.6639026403427124,
	"logits/rejected": -1.067781925201416,
	"logps/chosen": -575.9091796875,
	"logps/rejected": -838.0983276367188,
	"loss": 0.1233,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.23653562366962433,
	"rewards/margins": 0.3239360749721527,
	"rewards/rejected": -0.5604716539382935,
	"step": 810
	},
	{
	"epoch": 0.44,
	"learning_rate": 3.459396185441265e-06,
	"logits/chosen": -1.7067358493804932,
	"logits/rejected": -1.0498546361923218,
	"logps/chosen": -398.35516357421875,
	"logps/rejected": -626.8757934570312,
	"loss": 0.1608,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.1356094628572464,
	"rewards/margins": 0.3172938823699951,
	"rewards/rejected": -0.4529033601284027,
	"step": 820
	},
	{
	"epoch": 0.44,
	"learning_rate": 3.4162410344555834e-06,
	"logits/chosen": -1.9210001230239868,
	"logits/rejected": -1.1206413507461548,
	"logps/chosen": -405.9615783691406,
	"logps/rejected": -725.4310913085938,
	"loss": 0.125,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.10851490497589111,
	"rewards/margins": 0.38589829206466675,
	"rewards/rejected": -0.49441319704055786,
	"step": 830
	},
	{
	"epoch": 0.45,
	"learning_rate": 3.3727681472185937e-06,
	"logits/chosen": -1.6562303304672241,
	"logits/rejected": -1.19851553440094,
	"logps/chosen": -486.35107421875,
	"logps/rejected": -963.0572509765625,
	"loss": 0.1105,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.22348380088806152,
	"rewards/margins": 0.4227561056613922,
	"rewards/rejected": -0.6462398767471313,
	"step": 840
	},
	{
	"epoch": 0.45,
	"learning_rate": 3.3289925993618217e-06,
	"logits/chosen": -1.5856201648712158,
	"logits/rejected": -1.0767395496368408,
	"logps/chosen": -526.1747436523438,
	"logps/rejected": -797.7916870117188,
	"loss": 0.137,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.2687681019306183,
	"rewards/margins": 0.2989320755004883,
	"rewards/rejected": -0.567700207233429,
	"step": 850
	},
	{
	"epoch": 0.46,
	"learning_rate": 3.2849295714741643e-06,
	"logits/chosen": -1.7678568363189697,
	"logits/rejected": -1.2151532173156738,
	"logps/chosen": -597.7952880859375,
	"logps/rejected": -848.87841796875,
	"loss": 0.1308,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.27867773175239563,
	"rewards/margins": 0.30206385254859924,
	"rewards/rejected": -0.5807415843009949,
	"step": 860
	},
	{
	"epoch": 0.46,
	"learning_rate": 3.2405943438375287e-06,
	"logits/chosen": -1.7643588781356812,
	"logits/rejected": -1.099827527999878,
	"logps/chosen": -423.9742126464844,
	"logps/rejected": -774.4637451171875,
	"loss": 0.0974,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.1482265591621399,
	"rewards/margins": 0.410900741815567,
	"rewards/rejected": -0.5591272711753845,
	"step": 870
	},
	{
	"epoch": 0.47,
	"learning_rate": 3.1960022911279036e-06,
	"logits/chosen": -1.5414252281188965,
	"logits/rejected": -1.1484423875808716,
	"logps/chosen": -493.69464111328125,
	"logps/rejected": -835.8029174804688,
	"loss": 0.1526,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.19744431972503662,
	"rewards/margins": 0.36680763959884644,
	"rewards/rejected": -0.5642520189285278,
	"step": 880
	},
	{
	"epoch": 0.47,
	"learning_rate": 3.1511688770836844e-06,
	"logits/chosen": -1.511249303817749,
	"logits/rejected": -1.3401678800582886,
	"logps/chosen": -404.75933837890625,
	"logps/rejected": -805.8262939453125,
	"loss": 0.1035,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.18373355269432068,
	"rewards/margins": 0.3318132758140564,
	"rewards/rejected": -0.5155468583106995,
	"step": 890
	},
	{
	"epoch": 0.48,
	"learning_rate": 3.1061096491431307e-06,
	"logits/chosen": -1.8831459283828735,
	"logits/rejected": -1.2160544395446777,
	"logps/chosen": -447.65032958984375,
	"logps/rejected": -843.8660278320312,
	"loss": 0.1345,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.13529552519321442,
	"rewards/margins": 0.40966707468032837,
	"rewards/rejected": -0.5449625849723816,
	"step": 900
	},
	{
	"epoch": 0.49,
	"learning_rate": 3.0608402330527796e-06,
	"logits/chosen": -1.6770378351211548,
	"logits/rejected": -0.9972168803215027,
	"logps/chosen": -379.8583984375,
	"logps/rejected": -719.3693237304688,
	"loss": 0.1765,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.15062110126018524,
	"rewards/margins": 0.3817873001098633,
	"rewards/rejected": -0.5324083566665649,
	"step": 910
	},
	{
	"epoch": 0.49,
	"learning_rate": 3.0153763274487176e-06,
	"logits/chosen": -1.4134846925735474,
	"logits/rejected": -0.966874897480011,
	"logps/chosen": -441.3450622558594,
	"logps/rejected": -707.3884887695312,
	"loss": 0.1235,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.21538302302360535,
	"rewards/margins": 0.3049529790878296,
	"rewards/rejected": -0.5203360319137573,
	"step": 920
	},
	{
	"epoch": 0.5,
	"learning_rate": 2.9697336984125683e-06,
	"logits/chosen": -1.6667283773422241,
	"logits/rejected": -1.0133411884307861,
	"logps/chosen": -401.2959899902344,
	"logps/rejected": -851.93701171875,
	"loss": 0.1206,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.15221676230430603,
	"rewards/margins": 0.45876413583755493,
	"rewards/rejected": -0.6109809279441833,
	"step": 930
	},
	{
	"epoch": 0.5,
	"learning_rate": 2.923928174004094e-06,
	"logits/chosen": -1.8437814712524414,
	"logits/rejected": -1.0747764110565186,
	"logps/chosen": -470.7169494628906,
	"logps/rejected": -732.7559814453125,
	"loss": 0.1247,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.13192041218280792,
	"rewards/margins": 0.3781585991382599,
	"rewards/rejected": -0.5100789666175842,
	"step": 940
	},
	{
	"epoch": 0.51,
	"learning_rate": 2.8779756387723036e-06,
	"logits/chosen": -1.7663402557373047,
	"logits/rejected": -1.3018739223480225,
	"logps/chosen": -446.77490234375,
	"logps/rejected": -766.7832641601562,
	"loss": 0.1146,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.1646779477596283,
	"rewards/margins": 0.36457663774490356,
	"rewards/rejected": -0.5292545557022095,
	"step": 950
	},
	{
	"epoch": 0.51,
	"learning_rate": 2.831892028246968e-06,
	"logits/chosen": -1.848724603652954,
	"logits/rejected": -1.216956377029419,
	"logps/chosen": -418.67645263671875,
	"logps/rejected": -703.2694702148438,
	"loss": 0.1209,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.14982689917087555,
	"rewards/margins": 0.36974358558654785,
	"rewards/rejected": -0.5195704698562622,
	"step": 960
	},
	{
	"epoch": 0.52,
	"learning_rate": 2.7856933234124617e-06,
	"logits/chosen": -1.7911808490753174,
	"logits/rejected": -1.0922878980636597,
	"logps/chosen": -448.37603759765625,
	"logps/rejected": -834.2364501953125,
	"loss": 0.1538,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.17878659069538116,
	"rewards/margins": 0.3954610228538513,
	"rewards/rejected": -0.5742476582527161,
	"step": 970
	},
	{
	"epoch": 0.52,
	"learning_rate": 2.7393955451658387e-06,
	"logits/chosen": -1.7210479974746704,
	"logits/rejected": -1.2294584512710571,
	"logps/chosen": -514.4754028320312,
	"logps/rejected": -868.5929565429688,
	"loss": 0.1626,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.21787652373313904,
	"rewards/margins": 0.3894199728965759,
	"rewards/rejected": -0.6072965264320374,
	"step": 980
	},
	{
	"epoch": 0.53,
	"learning_rate": 2.6930147487610667e-06,
	"logits/chosen": -1.5907623767852783,
	"logits/rejected": -0.78331458568573,
	"logps/chosen": -462.7984313964844,
	"logps/rejected": -805.7174072265625,
	"loss": 0.1373,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.17765957117080688,
	"rewards/margins": 0.40347957611083984,
	"rewards/rejected": -0.581139087677002,
	"step": 990
	},
	{
	"epoch": 0.53,
	"learning_rate": 2.6465670182413487e-06,
	"logits/chosen": -1.6310056447982788,
	"logits/rejected": -1.0298982858657837,
	"logps/chosen": -411.04937744140625,
	"logps/rejected": -758.7462158203125,
	"loss": 0.1237,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.1506483405828476,
	"rewards/margins": 0.36691543459892273,
	"rewards/rejected": -0.5175637602806091,
	"step": 1000
	},
	{
	"epoch": 0.54,
	"learning_rate": 2.6000684608614594e-06,
	"logits/chosen": -1.6570842266082764,
	"logits/rejected": -0.8277125358581543,
	"logps/chosen": -506.580810546875,
	"logps/rejected": -801.989990234375,
	"loss": 0.1436,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.1983393281698227,
	"rewards/margins": 0.38503485918045044,
	"rewards/rejected": -0.5833742022514343,
	"step": 1010
	},
	{
	"epoch": 0.54,
	"learning_rate": 2.5535352015020338e-06,
	"logits/chosen": -1.528637170791626,
	"logits/rejected": -0.8484199643135071,
	"logps/chosen": -470.8020935058594,
	"logps/rejected": -820.8448486328125,
	"loss": 0.1363,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.20915472507476807,
	"rewards/margins": 0.38422003388404846,
	"rewards/rejected": -0.5933747887611389,
	"step": 1020
	},
	{
	"epoch": 0.55,
	"learning_rate": 2.506983377077741e-06,
	"logits/chosen": -1.3463196754455566,
	"logits/rejected": -1.018822193145752,
	"logps/chosen": -464.81524658203125,
	"logps/rejected": -807.076171875,
	"loss": 0.1584,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.21939115226268768,
	"rewards/margins": 0.3329920172691345,
	"rewards/rejected": -0.5523831844329834,
	"step": 1030
	},
	{
	"epoch": 0.55,
	"learning_rate": 2.460429130941289e-06,
	"logits/chosen": -1.4068031311035156,
	"logits/rejected": -0.9966346621513367,
	"logps/chosen": -443.41583251953125,
	"logps/rejected": -826.1185302734375,
	"loss": 0.1182,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.1990918219089508,
	"rewards/margins": 0.39130455255508423,
	"rewards/rejected": -0.5903963446617126,
	"step": 1040
	},
	{
	"epoch": 0.56,
	"learning_rate": 2.413888607285192e-06,
	"logits/chosen": -1.2919907569885254,
	"logits/rejected": -0.9193531274795532,
	"logps/chosen": -496.358642578125,
	"logps/rejected": -845.7939453125,
	"loss": 0.173,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.24995890259742737,
	"rewards/margins": 0.3503498435020447,
	"rewards/rejected": -0.6003087162971497,
	"step": 1050
	},
	{
	"epoch": 0.57,
	"learning_rate": 2.367377945543249e-06,
	"logits/chosen": -1.6841480731964111,
	"logits/rejected": -0.907370924949646,
	"logps/chosen": -446.6328125,
	"logps/rejected": -884.2018432617188,
	"loss": 0.1068,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.15798960626125336,
	"rewards/margins": 0.4673282206058502,
	"rewards/rejected": -0.6253177523612976,
	"step": 1060
	},
	{
	"epoch": 0.57,
	"learning_rate": 2.320913274793676e-06,
	"logits/chosen": -1.7113037109375,
	"logits/rejected": -1.1816798448562622,
	"logps/chosen": -410.67645263671875,
	"logps/rejected": -770.4984741210938,
	"loss": 0.1423,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.1650415062904358,
	"rewards/margins": 0.37022119760513306,
	"rewards/rejected": -0.5352627038955688,
	"step": 1070
	},
	{
	"epoch": 0.58,
	"learning_rate": 2.27451070816582e-06,
	"logits/chosen": -1.6226348876953125,
	"logits/rejected": -0.9200002551078796,
	"logps/chosen": -518.1405029296875,
	"logps/rejected": -891.6884765625,
	"loss": 0.1105,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.16074618697166443,
	"rewards/margins": 0.47465044260025024,
	"rewards/rejected": -0.6353966593742371,
	"step": 1080
	},
	{
	"epoch": 0.58,
	"learning_rate": 2.228186337252414e-06,
	"logits/chosen": -1.7294307947158813,
	"logits/rejected": -0.8779215812683105,
	"logps/chosen": -516.14013671875,
	"logps/rejected": -824.5764770507812,
	"loss": 0.1407,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.17551277577877045,
	"rewards/margins": 0.40844354033470154,
	"rewards/rejected": -0.583956241607666,
	"step": 1090
	},
	{
	"epoch": 0.59,
	"learning_rate": 2.1819562265292946e-06,
	"logits/chosen": -1.5813789367675781,
	"logits/rejected": -1.001509666442871,
	"logps/chosen": -429.26593017578125,
	"logps/rejected": -789.7249755859375,
	"loss": 0.1574,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.21274442970752716,
	"rewards/margins": 0.3669392764568329,
	"rewards/rejected": -0.5796837210655212,
	"step": 1100
	},
	{
	"epoch": 0.59,
	"learning_rate": 2.1358364077845236e-06,
	"logits/chosen": -1.533307671546936,
	"logits/rejected": -0.9590204954147339,
	"logps/chosen": -387.72381591796875,
	"logps/rejected": -828.5607299804688,
	"loss": 0.1014,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.14084286987781525,
	"rewards/margins": 0.4476155638694763,
	"rewards/rejected": -0.5884584188461304,
	"step": 1110
	},
	{
	"epoch": 0.6,
	"learning_rate": 2.089842874558849e-06,
	"logits/chosen": -1.3846327066421509,
	"logits/rejected": -1.0313770771026611,
	"logps/chosen": -479.6465759277344,
	"logps/rejected": -906.1482543945312,
	"loss": 0.1133,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.22880907356739044,
	"rewards/margins": 0.4139330983161926,
	"rewards/rejected": -0.6427421569824219,
	"step": 1120
	},
	{
	"epoch": 0.6,
	"learning_rate": 2.0439915765994242e-06,
	"logits/chosen": -1.5441999435424805,
	"logits/rejected": -0.8765427470207214,
	"logps/chosen": -374.98504638671875,
	"logps/rejected": -726.3242797851562,
	"loss": 0.1078,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.1631808578968048,
	"rewards/margins": 0.38433948159217834,
	"rewards/rejected": -0.5475203394889832,
	"step": 1130
	},
	{
	"epoch": 0.61,
	"learning_rate": 1.9982984143287186e-06,
	"logits/chosen": -1.7160451412200928,
	"logits/rejected": -0.9389771223068237,
	"logps/chosen": -419.886962890625,
	"logps/rejected": -727.5339965820312,
	"loss": 0.1209,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.1307600438594818,
	"rewards/margins": 0.4173372685909271,
	"rewards/rejected": -0.5480973720550537,
	"step": 1140
	},
	{
	"epoch": 0.61,
	"learning_rate": 1.95277923333053e-06,
	"logits/chosen": -1.5577538013458252,
	"logits/rejected": -0.9766386151313782,
	"logps/chosen": -432.010498046875,
	"logps/rejected": -772.4149780273438,
	"loss": 0.1015,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.1316412091255188,
	"rewards/margins": 0.40984097123146057,
	"rewards/rejected": -0.541482150554657,
	"step": 1150
	},
	{
	"epoch": 0.62,
	"learning_rate": 1.9074498188550156e-06,
	"logits/chosen": -1.6150667667388916,
	"logits/rejected": -1.0481829643249512,
	"logps/chosen": -460.06781005859375,
	"logps/rejected": -748.8250122070312,
	"loss": 0.1577,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.18149954080581665,
	"rewards/margins": 0.34171923995018005,
	"rewards/rejected": -0.5232187509536743,
	"step": 1160
	},
	{
	"epoch": 0.62,
	"learning_rate": 1.862325890344643e-06,
	"logits/chosen": -1.3022327423095703,
	"logits/rejected": -0.9266065359115601,
	"logps/chosen": -367.62823486328125,
	"logps/rejected": -806.5985107421875,
	"loss": 0.1656,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.17992374300956726,
	"rewards/margins": 0.42552104592323303,
	"rewards/rejected": -0.6054448485374451,
	"step": 1170
	},
	{
	"epoch": 0.63,
	"learning_rate": 1.817423095982972e-06,
	"logits/chosen": -1.3970632553100586,
	"logits/rejected": -0.9412476420402527,
	"logps/chosen": -451.11883544921875,
	"logps/rejected": -783.0731201171875,
	"loss": 0.102,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.20501062273979187,
	"rewards/margins": 0.37199467420578003,
	"rewards/rejected": -0.5770053267478943,
	"step": 1180
	},
	{
	"epoch": 0.63,
	"learning_rate": 1.7727570072681293e-06,
	"logits/chosen": -1.4293451309204102,
	"logits/rejected": -0.8616847991943359,
	"logps/chosen": -406.25042724609375,
	"logps/rejected": -737.0385131835938,
	"loss": 0.1378,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.16194511950016022,
	"rewards/margins": 0.3638822138309479,
	"rewards/rejected": -0.5258272886276245,
	"step": 1190
	},
	{
	"epoch": 0.64,
	"learning_rate": 1.7283431136128961e-06,
	"logits/chosen": -1.6002616882324219,
	"logits/rejected": -1.116288423538208,
	"logps/chosen": -449.384521484375,
	"logps/rejected": -805.2763061523438,
	"loss": 0.1454,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.20747177302837372,
	"rewards/margins": 0.3553561270236969,
	"rewards/rejected": -0.5628278851509094,
	"step": 1200
	},
	{
	"epoch": 0.65,
	"learning_rate": 1.6841968169732478e-06,
	"logits/chosen": -1.5592294931411743,
	"logits/rejected": -1.054216742515564,
	"logps/chosen": -448.9071350097656,
	"logps/rejected": -851.6107177734375,
	"loss": 0.1204,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.18522223830223083,
	"rewards/margins": 0.4141850471496582,
	"rewards/rejected": -0.5994073152542114,
	"step": 1210
	},
	{
	"epoch": 0.65,
	"learning_rate": 1.6403334265072284e-06,
	"logits/chosen": -1.6474437713623047,
	"logits/rejected": -0.8614113926887512,
	"logps/chosen": -453.735107421875,
	"logps/rejected": -801.1546630859375,
	"loss": 0.1081,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.1977526694536209,
	"rewards/margins": 0.38285189867019653,
	"rewards/rejected": -0.5806045532226562,
	"step": 1220
	},
	{
	"epoch": 0.66,
	"learning_rate": 1.5967681532660066e-06,
	"logits/chosen": -1.2708427906036377,
	"logits/rejected": -0.9732850790023804,
	"logps/chosen": -437.337890625,
	"logps/rejected": -822.8092041015625,
	"loss": 0.1336,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.20598828792572021,
	"rewards/margins": 0.38752201199531555,
	"rewards/rejected": -0.5935102701187134,
	"step": 1230
	},
	{
	"epoch": 0.66,
	"learning_rate": 1.5535161049189463e-06,
	"logits/chosen": -1.5570838451385498,
	"logits/rejected": -1.1252386569976807,
	"logps/chosen": -500.2212829589844,
	"logps/rejected": -786.1821899414062,
	"loss": 0.1145,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.1828458607196808,
	"rewards/margins": 0.3151377737522125,
	"rewards/rejected": -0.4979836046695709,
	"step": 1240
	},
	{
	"epoch": 0.67,
	"learning_rate": 1.5105922805145356e-06,
	"logits/chosen": -1.8010812997817993,
	"logits/rejected": -1.2702046632766724,
	"logps/chosen": -434.25421142578125,
	"logps/rejected": -807.052001953125,
	"loss": 0.1215,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.15841101109981537,
	"rewards/margins": 0.35736268758773804,
	"rewards/rejected": -0.5157736539840698,
	"step": 1250
	},
	{
	"epoch": 0.67,
	"learning_rate": 1.4680115652789823e-06,
	"logits/chosen": -1.856612205505371,
	"logits/rejected": -1.147216558456421,
	"logps/chosen": -523.8411865234375,
	"logps/rejected": -821.1082763671875,
	"loss": 0.1727,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.2023150473833084,
	"rewards/margins": 0.35308974981307983,
	"rewards/rejected": -0.555404782295227,
	"step": 1260
	},
	{
	"epoch": 0.68,
	"learning_rate": 1.4257887254542767e-06,
	"logits/chosen": -1.5119379758834839,
	"logits/rejected": -1.0702050924301147,
	"logps/chosen": -511.7137756347656,
	"logps/rejected": -906.3107299804688,
	"loss": 0.1025,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.21919742226600647,
	"rewards/margins": 0.3765312731266022,
	"rewards/rejected": -0.5957286953926086,
	"step": 1270
	},
	{
	"epoch": 0.68,
	"learning_rate": 1.3839384031775227e-06,
	"logits/chosen": -1.6945511102676392,
	"logits/rejected": -0.8750427961349487,
	"logps/chosen": -440.59552001953125,
	"logps/rejected": -766.9216918945312,
	"loss": 0.1519,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.15435707569122314,
	"rewards/margins": 0.4113141894340515,
	"rewards/rejected": -0.5656712651252747,
	"step": 1280
	},
	{
	"epoch": 0.69,
	"learning_rate": 1.342475111403298e-06,
	"logits/chosen": -1.4833415746688843,
	"logits/rejected": -1.0713919401168823,
	"logps/chosen": -438.8766174316406,
	"logps/rejected": -720.0028076171875,
	"loss": 0.1574,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.20507605373859406,
	"rewards/margins": 0.28728824853897095,
	"rewards/rejected": -0.4923642575740814,
	"step": 1290
	},
	{
	"epoch": 0.69,
	"learning_rate": 1.3014132288708209e-06,
	"logits/chosen": -1.5766406059265137,
	"logits/rejected": -1.0825704336166382,
	"logps/chosen": -438.3309020996094,
	"logps/rejected": -823.6751708984375,
	"loss": 0.166,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.19768479466438293,
	"rewards/margins": 0.3687485158443451,
	"rewards/rejected": -0.566433310508728,
	"step": 1300
	},
	{
	"epoch": 0.7,
	"learning_rate": 1.2607669951176549e-06,
	"logits/chosen": -1.4940482378005981,
	"logits/rejected": -1.2070845365524292,
	"logps/chosen": -389.45343017578125,
	"logps/rejected": -773.9241333007812,
	"loss": 0.1574,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.15667062997817993,
	"rewards/margins": 0.3334207832813263,
	"rewards/rejected": -0.49009138345718384,
	"step": 1310
	},
	{
	"epoch": 0.7,
	"learning_rate": 1.2205505055416891e-06,
	"logits/chosen": -1.5122394561767578,
	"logits/rejected": -1.3955858945846558,
	"logps/chosen": -338.9855651855469,
	"logps/rejected": -748.5198364257812,
	"loss": 0.1404,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.16774006187915802,
	"rewards/margins": 0.34086841344833374,
	"rewards/rejected": -0.5086084604263306,
	"step": 1320
	},
	{
	"epoch": 0.71,
	"learning_rate": 1.1807777065131002e-06,
	"logits/chosen": -1.5142749547958374,
	"logits/rejected": -1.0132977962493896,
	"logps/chosen": -410.44879150390625,
	"logps/rejected": -810.9103393554688,
	"loss": 0.1108,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.14515772461891174,
	"rewards/margins": 0.36618533730506897,
	"rewards/rejected": -0.5113429427146912,
	"step": 1330
	},
	{
	"epoch": 0.71,
	"learning_rate": 1.1414623905380012e-06,
	"logits/chosen": -1.756066083908081,
	"logits/rejected": -1.1571279764175415,
	"logps/chosen": -441.978515625,
	"logps/rejected": -786.6061401367188,
	"loss": 0.1217,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.1463043987751007,
	"rewards/margins": 0.36096060276031494,
	"rewards/rejected": -0.5072649717330933,
	"step": 1340
	},
	{
	"epoch": 0.72,
	"learning_rate": 1.1026181914754388e-06,
	"logits/chosen": -1.784054160118103,
	"logits/rejected": -1.0276035070419312,
	"logps/chosen": -506.1011657714844,
	"logps/rejected": -819.1619873046875,
	"loss": 0.1352,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.1743244081735611,
	"rewards/margins": 0.38723859190940857,
	"rewards/rejected": -0.5615630149841309,
	"step": 1350
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.0642585798094136e-06,
	"logits/chosen": -1.5410611629486084,
	"logits/rejected": -1.0178577899932861,
	"logps/chosen": -377.84197998046875,
	"logps/rejected": -720.7569580078125,
	"loss": 0.1264,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.12278805673122406,
	"rewards/margins": 0.38729211688041687,
	"rewards/rejected": -0.5100802183151245,
	"step": 1360
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.0263968579775522e-06,
	"logits/chosen": -1.5256543159484863,
	"logits/rejected": -0.9656683802604675,
	"logps/chosen": -458.48089599609375,
	"logps/rejected": -791.9251708984375,
	"loss": 0.1401,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.16513575613498688,
	"rewards/margins": 0.38074809312820435,
	"rewards/rejected": -0.54588383436203,
	"step": 1370
	},
	{
	"epoch": 0.74,
	"learning_rate": 9.89046155758058e-07,
	"logits/chosen": -1.6825745105743408,
	"logits/rejected": -0.8826824426651001,
	"logps/chosen": -455.65594482421875,
	"logps/rejected": -802.0789794921875,
	"loss": 0.1228,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.1435212790966034,
	"rewards/margins": 0.41453132033348083,
	"rewards/rejected": -0.558052659034729,
	"step": 1380
	},
	{
	"epoch": 0.74,
	"learning_rate": 9.52219425716534e-07,
	"logits/chosen": -1.4951298236846924,
	"logits/rejected": -0.8258262872695923,
	"logps/chosen": -515.0365600585938,
	"logps/rejected": -771.9305419921875,
	"loss": 0.1429,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.22707219421863556,
	"rewards/margins": 0.3406526446342468,
	"rewards/rejected": -0.5677248239517212,
	"step": 1390
	},
	{
	"epoch": 0.75,
	"learning_rate": 9.15929438714262e-07,
	"logits/chosen": -1.6602566242218018,
	"logits/rejected": -0.9937980771064758,
	"logps/chosen": -368.70684814453125,
	"logps/rejected": -689.556884765625,
	"loss": 0.1528,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.12013135105371475,
	"rewards/margins": 0.37646666169166565,
	"rewards/rejected": -0.4965980052947998,
	"step": 1400
	},
	{
	"epoch": 0.75,
	"learning_rate": 8.801887794794911e-07,
	"logits/chosen": -1.4943420886993408,
	"logits/rejected": -0.9112469553947449,
	"logps/chosen": -379.4705810546875,
	"logps/rejected": -716.5015258789062,
	"loss": 0.1407,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.13394254446029663,
	"rewards/margins": 0.3894422650337219,
	"rewards/rejected": -0.5233848690986633,
	"step": 1410
	},
	{
	"epoch": 0.76,
	"learning_rate": 8.450098422432787e-07,
	"logits/chosen": -1.7622817754745483,
	"logits/rejected": -0.7207467555999756,
	"logps/chosen": -537.2728271484375,
	"logps/rejected": -854.8095703125,
	"loss": 0.1203,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.1893191635608673,
	"rewards/margins": 0.4274328649044037,
	"rewards/rejected": -0.616752028465271,
	"step": 1420
	},
	{
	"epoch": 0.76,
	"learning_rate": 8.104048264413858e-07,
	"logits/chosen": -1.5849692821502686,
	"logits/rejected": -0.9879060983657837,
	"logps/chosen": -451.66802978515625,
	"logps/rejected": -812.3735961914062,
	"loss": 0.1162,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.1757660210132599,
	"rewards/margins": 0.4036192297935486,
	"rewards/rejected": -0.5793852806091309,
	"step": 1430
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.763857324837321e-07,
	"logits/chosen": -1.7880465984344482,
	"logits/rejected": -1.1138683557510376,
	"logps/chosen": -470.4102478027344,
	"logps/rejected": -782.1883544921875,
	"loss": 0.1273,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.18462924659252167,
	"rewards/margins": 0.37033870816230774,
	"rewards/rejected": -0.5549679398536682,
	"step": 1440
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.429643575928605e-07,
	"logits/chosen": -1.688932180404663,
	"logits/rejected": -1.1515108346939087,
	"logps/chosen": -416.93896484375,
	"logps/rejected": -748.1307373046875,
	"loss": 0.1284,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.14920882880687714,
	"rewards/margins": 0.345571368932724,
	"rewards/rejected": -0.4947802424430847,
	"step": 1450
	},
	{
	"epoch": 0.78,
	"learning_rate": 7.101522917128709e-07,
	"logits/chosen": -1.3505184650421143,
	"logits/rejected": -0.8502361178398132,
	"logps/chosen": -453.3301696777344,
	"logps/rejected": -852.1624755859375,
	"loss": 0.149,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.18861651420593262,
	"rewards/margins": 0.39376121759414673,
	"rewards/rejected": -0.5823776721954346,
	"step": 1460
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.779609134902312e-07,
	"logits/chosen": -1.4756485223770142,
	"logits/rejected": -0.8883223533630371,
	"logps/chosen": -409.55029296875,
	"logps/rejected": -707.3751831054688,
	"loss": 0.1383,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.17147330939769745,
	"rewards/margins": 0.3226475715637207,
	"rewards/rejected": -0.49412089586257935,
	"step": 1470
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.464013863278629e-07,
	"logits/chosen": -1.593145728111267,
	"logits/rejected": -0.8717827796936035,
	"logps/chosen": -429.87725830078125,
	"logps/rejected": -856.5046997070312,
	"loss": 0.1131,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.12572301924228668,
	"rewards/margins": 0.46143823862075806,
	"rewards/rejected": -0.5871611833572388,
	"step": 1480
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.154846545138696e-07,
	"logits/chosen": -1.556706190109253,
	"logits/rejected": -1.1209014654159546,
	"logps/chosen": -434.39813232421875,
	"logps/rejected": -873.4528198242188,
	"loss": 0.1184,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": -0.151644766330719,
	"rewards/margins": 0.44497567415237427,
	"rewards/rejected": -0.5966204404830933,
	"step": 1490
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.852214394262515e-07,
	"logits/chosen": -1.5190951824188232,
	"logits/rejected": -1.1570379734039307,
	"logps/chosen": -394.3932189941406,
	"logps/rejected": -781.7257690429688,
	"loss": 0.1364,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.16030506789684296,
	"rewards/margins": 0.3787681758403778,
	"rewards/rejected": -0.5390732884407043,
	"step": 1500
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.556222358149191e-07,
	"logits/chosen": -1.5962765216827393,
	"logits/rejected": -0.9932464361190796,
	"logps/chosen": -390.4809875488281,
	"logps/rejected": -714.4888916015625,
	"loss": 0.1652,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.17372211813926697,
	"rewards/margins": 0.361335813999176,
	"rewards/rejected": -0.5350579023361206,
	"step": 1510
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.266973081622992e-07,
	"logits/chosen": -1.4811457395553589,
	"logits/rejected": -1.0426948070526123,
	"logps/chosen": -451.40069580078125,
	"logps/rejected": -772.6881713867188,
	"loss": 0.1611,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.18898162245750427,
	"rewards/margins": 0.3498608469963074,
	"rewards/rejected": -0.5388425588607788,
	"step": 1520
	},
	{
	"epoch": 0.82,
	"learning_rate": 4.984566871237942e-07,
	"logits/chosen": -1.4943921566009521,
	"logits/rejected": -1.000528335571289,
	"logps/chosen": -393.3673095703125,
	"logps/rejected": -763.3333129882812,
	"loss": 0.1387,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.15240536630153656,
	"rewards/margins": 0.3935711681842804,
	"rewards/rejected": -0.5459765195846558,
	"step": 1530
	},
	{
	"epoch": 0.82,
	"learning_rate": 4.709101660493251e-07,
	"logits/chosen": -1.4344061613082886,
	"logits/rejected": -0.8900424838066101,
	"logps/chosen": -454.6851501464844,
	"logps/rejected": -862.0211181640625,
	"loss": 0.1148,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": -0.2144501656293869,
	"rewards/margins": 0.39736613631248474,
	"rewards/rejected": -0.6118162870407104,
	"step": 1540
	},
	{
	"epoch": 0.83,
	"learning_rate": 4.440672975871743e-07,
	"logits/chosen": -1.6005455255508423,
	"logits/rejected": -1.2345631122589111,
	"logps/chosen": -454.6659240722656,
	"logps/rejected": -910.2664794921875,
	"loss": 0.0851,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": -0.1945376694202423,
	"rewards/margins": 0.4257555603981018,
	"rewards/rejected": -0.6202932000160217,
	"step": 1550
	},
	{
	"epoch": 0.83,
	"learning_rate": 4.1793739037129134e-07,
	"logits/chosen": -1.755613923072815,
	"logits/rejected": -0.9976798892021179,
	"logps/chosen": -426.450927734375,
	"logps/rejected": -827.8946533203125,
	"loss": 0.1088,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.1098506897687912,
	"rewards/margins": 0.4619103968143463,
	"rewards/rejected": -0.5717611908912659,
	"step": 1560
	},
	{
	"epoch": 0.84,
	"learning_rate": 3.9252950579322405e-07,
	"logits/chosen": -1.7585302591323853,
	"logits/rejected": -0.9437012672424316,
	"logps/chosen": -617.3839111328125,
	"logps/rejected": -886.2396240234375,
	"loss": 0.1537,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.2242734432220459,
	"rewards/margins": 0.37233808636665344,
	"rewards/rejected": -0.5966114401817322,
	"step": 1570
	},
	{
	"epoch": 0.84,
	"learning_rate": 3.6785245485978864e-07,
	"logits/chosen": -1.5823638439178467,
	"logits/rejected": -1.016841173171997,
	"logps/chosen": -453.40643310546875,
	"logps/rejected": -826.7568359375,
	"loss": 0.1052,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.14566640555858612,
	"rewards/margins": 0.41016706824302673,
	"rewards/rejected": -0.5558334589004517,
	"step": 1580
	},
	{
	"epoch": 0.85,
	"learning_rate": 3.43914795137566e-07,
	"logits/chosen": -1.3402397632598877,
	"logits/rejected": -0.6611793041229248,
	"logps/chosen": -491.9454040527344,
	"logps/rejected": -827.7058715820312,
	"loss": 0.1243,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.1830025464296341,
	"rewards/margins": 0.3839171230792999,
	"rewards/rejected": -0.5669196844100952,
	"step": 1590
	},
	{
	"epoch": 0.85,
	"learning_rate": 3.207248277852901e-07,
	"logits/chosen": -1.3319523334503174,
	"logits/rejected": -1.2467930316925049,
	"logps/chosen": -415.2613220214844,
	"logps/rejected": -794.6478271484375,
	"loss": 0.175,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.18765749037265778,
	"rewards/margins": 0.33323392271995544,
	"rewards/rejected": -0.5208913683891296,
	"step": 1600
	},
	{
	"epoch": 0.86,
	"learning_rate": 2.9829059467515074e-07,
	"logits/chosen": -1.6862188577651978,
	"logits/rejected": -1.0607928037643433,
	"logps/chosen": -466.0138244628906,
	"logps/rejected": -823.7083129882812,
	"loss": 0.1264,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.1697189062833786,
	"rewards/margins": 0.39212626218795776,
	"rewards/rejected": -0.5618451833724976,
	"step": 1610
	},
	{
	"epoch": 0.86,
	"learning_rate": 2.766198756040153e-07,
	"logits/chosen": -1.5529918670654297,
	"logits/rejected": -1.1102968454360962,
	"logps/chosen": -514.1727294921875,
	"logps/rejected": -934.7576293945312,
	"loss": 0.0946,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.2095489799976349,
	"rewards/margins": 0.39688506722450256,
	"rewards/rejected": -0.6064340472221375,
	"step": 1620
	},
	{
	"epoch": 0.87,
	"learning_rate": 2.5572018559553155e-07,
	"logits/chosen": -1.4525808095932007,
	"logits/rejected": -1.114332675933838,
	"logps/chosen": -429.51336669921875,
	"logps/rejected": -814.693115234375,
	"loss": 0.1319,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.20347242057323456,
	"rewards/margins": 0.3701416254043579,
	"rewards/rejected": -0.5736140012741089,
	"step": 1630
	},
	{
	"epoch": 0.87,
	"learning_rate": 2.3559877229404864e-07,
	"logits/chosen": -1.5984094142913818,
	"logits/rejected": -1.1003965139389038,
	"logps/chosen": -458.2529296875,
	"logps/rejected": -795.9619140625,
	"loss": 0.1294,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.17800959944725037,
	"rewards/margins": 0.363762229681015,
	"rewards/rejected": -0.5417717695236206,
	"step": 1640
	},
	{
	"epoch": 0.88,
	"learning_rate": 2.1626261345126576e-07,
	"logits/chosen": -1.4350886344909668,
	"logits/rejected": -1.0259506702423096,
	"logps/chosen": -415.7510681152344,
	"logps/rejected": -919.9736328125,
	"loss": 0.076,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": -0.15845449268817902,
	"rewards/margins": 0.4928809702396393,
	"rewards/rejected": -0.6513354182243347,
	"step": 1650
	},
	{
	"epoch": 0.89,
	"learning_rate": 1.9771841450646505e-07,
	"logits/chosen": -1.6430625915527344,
	"logits/rejected": -0.9447630643844604,
	"logps/chosen": -506.1864318847656,
	"logps/rejected": -795.38134765625,
	"loss": 0.1602,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.23687663674354553,
	"rewards/margins": 0.33186858892440796,
	"rewards/rejected": -0.5687452554702759,
	"step": 1660
	},
	{
	"epoch": 0.89,
	"learning_rate": 1.7997260626118758e-07,
	"logits/chosen": -1.898046851158142,
	"logits/rejected": -1.3102858066558838,
	"logps/chosen": -514.0572509765625,
	"logps/rejected": -825.0703125,
	"loss": 0.1456,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.17340177297592163,
	"rewards/margins": 0.38971638679504395,
	"rewards/rejected": -0.5631181597709656,
	"step": 1670
	},
	{
	"epoch": 0.9,
	"learning_rate": 1.6303134264914365e-07,
	"logits/chosen": -1.6851441860198975,
	"logits/rejected": -1.0963430404663086,
	"logps/chosen": -480.8072204589844,
	"logps/rejected": -728.0396728515625,
	"loss": 0.1273,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.1836322844028473,
	"rewards/margins": 0.3386848270893097,
	"rewards/rejected": -0.5223170518875122,
	"step": 1680
	},
	{
	"epoch": 0.9,
	"learning_rate": 1.469004986021355e-07,
	"logits/chosen": -1.414111852645874,
	"logits/rejected": -0.8712374567985535,
	"logps/chosen": -443.46728515625,
	"logps/rejected": -897.1246948242188,
	"loss": 0.0899,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.17597445845603943,
	"rewards/margins": 0.4499644339084625,
	"rewards/rejected": -0.6259388327598572,
	"step": 1690
	},
	{
	"epoch": 0.91,
	"learning_rate": 1.315856680127367e-07,
	"logits/chosen": -1.4355229139328003,
	"logits/rejected": -0.8268268704414368,
	"logps/chosen": -411.8287658691406,
	"logps/rejected": -796.5527954101562,
	"loss": 0.1013,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.16030281782150269,
	"rewards/margins": 0.4271472990512848,
	"rewards/rejected": -0.5874501466751099,
	"step": 1700
	},
	{
	"epoch": 0.91,
	"learning_rate": 1.1709216179442817e-07,
	"logits/chosen": -1.5936983823776245,
	"logits/rejected": -0.9012172818183899,
	"logps/chosen": -452.53155517578125,
	"logps/rejected": -878.1297607421875,
	"loss": 0.1108,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.17777523398399353,
	"rewards/margins": 0.4133872389793396,
	"rewards/rejected": -0.5911625623703003,
	"step": 1710
	},
	{
	"epoch": 0.92,
	"learning_rate": 1.0342500603986421e-07,
	"logits/chosen": -1.441282033920288,
	"logits/rejected": -0.9638457298278809,
	"logps/chosen": -417.11895751953125,
	"logps/rejected": -741.5521850585938,
	"loss": 0.1466,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.16872674226760864,
	"rewards/margins": 0.3362739682197571,
	"rewards/rejected": -0.5050007104873657,
	"step": 1720
	},
	{
	"epoch": 0.92,
	"learning_rate": 9.058894027791643e-08,
	"logits/chosen": -1.4651381969451904,
	"logits/rejected": -0.9410767555236816,
	"logps/chosen": -497.6310119628906,
	"logps/rejected": -866.1295776367188,
	"loss": 0.1057,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.23562383651733398,
	"rewards/margins": 0.3830471634864807,
	"rewards/rejected": -0.6186710596084595,
	"step": 1730
	},
	{
	"epoch": 0.93,
	"learning_rate": 7.858841583008592e-08,
	"logits/chosen": -1.6138349771499634,
	"logits/rejected": -1.0234501361846924,
	"logps/chosen": -425.06610107421875,
	"logps/rejected": -700.060791015625,
	"loss": 0.1241,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.16232439875602722,
	"rewards/margins": 0.3415161669254303,
	"rewards/rejected": -0.5038405656814575,
	"step": 1740
	},
	{
	"epoch": 0.93,
	"learning_rate": 6.742759426686313e-08,
	"logits/chosen": -1.5296719074249268,
	"logits/rejected": -1.15841543674469,
	"logps/chosen": -541.86083984375,
	"logps/rejected": -857.0759887695312,
	"loss": 0.1324,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": -0.22835755348205566,
	"rewards/margins": 0.37031129002571106,
	"rewards/rejected": -0.5986688733100891,
	"step": 1750
	},
	{
	"epoch": 0.94,
	"learning_rate": 5.7110345964571104e-08,
	"logits/chosen": -1.6711105108261108,
	"logits/rejected": -1.0233453512191772,
	"logps/chosen": -445.75762939453125,
	"logps/rejected": -772.8753662109375,
	"loss": 0.1172,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.18701913952827454,
	"rewards/margins": 0.3782210052013397,
	"rewards/rejected": -0.565240204334259,
	"step": 1760
	},
	{
	"epoch": 0.94,
	"learning_rate": 4.764024876318357e-08,
	"logits/chosen": -1.5489776134490967,
	"logits/rejected": -0.8348779678344727,
	"logps/chosen": -509.6427307128906,
	"logps/rejected": -782.4371337890625,
	"loss": 0.1146,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.20378637313842773,
	"rewards/margins": 0.37221604585647583,
	"rewards/rejected": -0.5760024189949036,
	"step": 1770
	},
	{
	"epoch": 0.95,
	"learning_rate": 3.902058672559633e-08,
	"logits/chosen": -1.8395429849624634,
	"logits/rejected": -1.2655082941055298,
	"logps/chosen": -375.2162780761719,
	"logps/rejected": -805.35302734375,
	"loss": 0.1244,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.11881232261657715,
	"rewards/margins": 0.4330004155635834,
	"rewards/rejected": -0.5518127679824829,
	"step": 1780
	},
	{
	"epoch": 0.95,
	"learning_rate": 3.125434899876933e-08,
	"logits/chosen": -1.5633362531661987,
	"logits/rejected": -1.1406381130218506,
	"logps/chosen": -356.45098876953125,
	"logps/rejected": -783.3472900390625,
	"loss": 0.1001,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.1347019374370575,
	"rewards/margins": 0.42905181646347046,
	"rewards/rejected": -0.5637537837028503,
	"step": 1790
	},
	{
	"epoch": 0.96,
	"learning_rate": 2.4344228777145873e-08,
	"logits/chosen": -1.6571776866912842,
	"logits/rejected": -0.7649690508842468,
	"logps/chosen": -587.1907348632812,
	"logps/rejected": -933.9886474609375,
	"loss": 0.132,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.25137990713119507,
	"rewards/margins": 0.42299261689186096,
	"rewards/rejected": -0.6743724942207336,
	"step": 1800
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.829262236869772e-08,
	"logits/chosen": -1.541998267173767,
	"logits/rejected": -0.8689600229263306,
	"logps/chosen": -483.3575134277344,
	"logps/rejected": -698.212158203125,
	"loss": 0.1768,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.22255222499370575,
	"rewards/margins": 0.27523303031921387,
	"rewards/rejected": -0.4977852404117584,
	"step": 1810
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.3101628363929586e-08,
	"logits/chosen": -1.5238444805145264,
	"logits/rejected": -0.7508775591850281,
	"logps/chosen": -520.79296875,
	"logps/rejected": -767.9632568359375,
	"loss": 0.1203,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.1896631270647049,
	"rewards/margins": 0.36830946803092957,
	"rewards/rejected": -0.5579725503921509,
	"step": 1820
	},
	{
	"epoch": 0.98,
	"learning_rate": 8.773046908123195e-09,
	"logits/chosen": -1.6025253534317017,
	"logits/rejected": -1.304527997970581,
	"logps/chosen": -375.14874267578125,
	"logps/rejected": -767.8821411132812,
	"loss": 0.1284,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.1781584918498993,
	"rewards/margins": 0.33938026428222656,
	"rewards/rejected": -0.5175387263298035,
	"step": 1830
	},
	{
	"epoch": 0.98,
	"learning_rate": 5.308379077080817e-09,
	"logits/chosen": -1.6030333042144775,
	"logits/rejected": -1.3066356182098389,
	"logps/chosen": -397.94873046875,
	"logps/rejected": -825.3441162109375,
	"loss": 0.1111,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.20664629340171814,
	"rewards/margins": 0.3704259991645813,
	"rewards/rejected": -0.5770723819732666,
	"step": 1840
	},
	{
	"epoch": 0.99,
	"learning_rate": 2.7088263565760996e-09,
	"logits/chosen": -1.6151325702667236,
	"logits/rejected": -0.9792189598083496,
	"logps/chosen": -399.3708801269531,
	"logps/rejected": -748.7066650390625,
	"loss": 0.1181,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.1316554844379425,
	"rewards/margins": 0.42211928963661194,
	"rewards/rejected": -0.5537747740745544,
	"step": 1850
	},
	{
	"epoch": 0.99,
	"learning_rate": 9.752902257023633e-10,
	"logits/chosen": -1.6095302104949951,
	"logits/rejected": -1.1830781698226929,
	"logps/chosen": -393.78350830078125,
	"logps/rejected": -796.3955078125,
	"loss": 0.0928,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.15096323192119598,
	"rewards/margins": 0.4236125349998474,
	"rewards/rejected": -0.5745757818222046,
	"step": 1860
	},
	{
	"epoch": 1.0,
	"learning_rate": 1.083718442532189e-10,
	"logits/chosen": -1.4612399339675903,
	"logits/rejected": -0.8474820256233215,
	"logps/chosen": -456.6351623535156,
	"logps/rejected": -785.6075439453125,
	"loss": 0.1354,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.18163737654685974,
	"rewards/margins": 0.3639640808105469,
	"rewards/rejected": -0.545601487159729,
	"step": 1870
	},
	{
	"epoch": 1.0,
	"step": 1875,
	"total_flos": 0.0,
	"train_loss": 0.13990657812754312,
	"train_runtime": 16010.7596,
	"train_samples_per_second": 0.937,
	"train_steps_per_second": 0.117
	}
	],
	"logging_steps": 10,
	"max_steps": 1875,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}