Training in progress, epoch 0

Files changed (7) hide show

README.md +11 -13
adapter_model.safetensors +1 -1
all_results.json +16 -3
eval_results.json +13 -13
train_results.json +3 -3
trainer_state.json +871 -871
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5263
-- Rewards/chosen: -0.1493
-- Rewards/rejected: -0.8998
-- Rewards/accuracies: 0.7480
-- Rewards/margins: 0.7505
-- Logps/rejected: -228.2820
-- Logps/chosen: -266.1538
-- Logits/rejected: -1.9412
-- Logits/chosen: -2.0663
 ## Model description
@@ -54,15 +54,13 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 3
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.5506        | 1.0   | 968  | 0.5556          | -0.1128        | -0.6425          | 0.7120             | 0.5297          | -225.7089      | -265.7884    | -1.9914         | -2.1123       |
-| 0.545         | 2.0   | 1937 | 0.5313          | -0.1468        | -0.8623          | 0.7440             | 0.7156          | -227.9077      | -266.1287    | -1.9506         | -2.0746       |
-| 0.5342        | 3.0   | 2904 | 0.5263          | -0.1493        | -0.8998          | 0.7480             | 0.7505          | -228.2820      | -266.1538    | -1.9412         | -2.0663       |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6642
+- Rewards/chosen: 0.1042
+- Rewards/rejected: 0.0401
+- Rewards/accuracies: 0.6480
+- Rewards/margins: 0.0641
+- Logps/rejected: -230.4560
+- Logps/chosen: -278.6917
+- Logits/rejected: -2.3987
+- Logits/chosen: -2.4597
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.661         | 1.0   | 968  | 0.6642          | 0.1042         | 0.0401           | 0.6480             | 0.0641          | -230.4560      | -278.6917    | -2.3987         | -2.4597       |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02667e5df3404888a505254c4b1c0474808ae97727b1e58368d1138042ddc366
 size 109086672

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5355fdbd512d44198186b663cbaf8edc1b33b367aa093b0be23eee7161c1b84
 size 109086672

all_results.json CHANGED Viewed

@@ -1,8 +1,21 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.6731863415930882,
-    "train_runtime": 27311.2139,
     "train_samples": 61966,
-    "train_samples_per_second": 2.269,
     "train_steps_per_second": 0.035
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -2.4597132205963135,
+    "eval_logits/rejected": -2.398695468902588,
+    "eval_logps/chosen": -278.69171142578125,
+    "eval_logps/rejected": -230.4560089111328,
+    "eval_loss": 0.6642152070999146,
+    "eval_rewards/accuracies": 0.6480000019073486,
+    "eval_rewards/chosen": 0.10415761172771454,
+    "eval_rewards/margins": 0.06405296921730042,
+    "eval_rewards/rejected": 0.04010463133454323,
+    "eval_runtime": 444.8959,
+    "eval_samples": 2000,
+    "eval_samples_per_second": 4.495,
+    "eval_steps_per_second": 0.281,
+    "train_loss": 0.6728762634529555,
+    "train_runtime": 27528.1814,
     "train_samples": 61966,
+    "train_samples_per_second": 2.251,
     "train_steps_per_second": 0.035
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 3.0,
-    "eval_logits/chosen": -2.0662753582000732,
-    "eval_logits/rejected": -1.9411602020263672,
-    "eval_logps/chosen": -266.15380859375,
-    "eval_logps/rejected": -228.28196716308594,
-    "eval_loss": 0.5263338685035706,
-    "eval_rewards/accuracies": 0.7480000257492065,
-    "eval_rewards/chosen": -0.14929771423339844,
-    "eval_rewards/margins": 0.7504671812057495,
-    "eval_rewards/rejected": -0.899764895439148,
-    "eval_runtime": 443.1683,
     "eval_samples": 2000,
-    "eval_samples_per_second": 4.513,
-    "eval_steps_per_second": 0.282
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.4597132205963135,
+    "eval_logits/rejected": -2.398695468902588,
+    "eval_logps/chosen": -278.69171142578125,
+    "eval_logps/rejected": -230.4560089111328,
+    "eval_loss": 0.6642152070999146,
+    "eval_rewards/accuracies": 0.6480000019073486,
+    "eval_rewards/chosen": 0.10415761172771454,
+    "eval_rewards/margins": 0.06405296921730042,
+    "eval_rewards/rejected": 0.04010463133454323,
+    "eval_runtime": 444.8959,
     "eval_samples": 2000,
+    "eval_samples_per_second": 4.495,
+    "eval_steps_per_second": 0.281
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.6731863415930882,
-    "train_runtime": 27311.2139,
     "train_samples": 61966,
-    "train_samples_per_second": 2.269,
     "train_steps_per_second": 0.035
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.6728762634529555,
+    "train_runtime": 27528.1814,
     "train_samples": 61966,
+    "train_samples_per_second": 2.251,
     "train_steps_per_second": 0.035
 }

trainer_state.json CHANGED Viewed

@@ -25,1370 +25,1370 @@
     {
       "epoch": 0.01,
       "learning_rate": 5.154639175257731e-08,
-      "logits/chosen": -2.2234437465667725,
-      "logits/rejected": -2.180982828140259,
-      "logps/chosen": -284.7386474609375,
-      "logps/rejected": -205.97119140625,
-      "loss": 0.6935,
-      "rewards/accuracies": 0.4166666567325592,
-      "rewards/chosen": -0.0011506013106554747,
-      "rewards/margins": -0.0007981713279150426,
-      "rewards/rejected": -0.0003524304192978889,
       "step": 10
     },
     {
       "epoch": 0.02,
       "learning_rate": 1.0309278350515462e-07,
-      "logits/chosen": -2.335000514984131,
-      "logits/rejected": -2.2123830318450928,
-      "logps/chosen": -320.8105773925781,
-      "logps/rejected": -248.3818817138672,
-      "loss": 0.6931,
       "rewards/accuracies": 0.512499988079071,
-      "rewards/chosen": 0.0012877475237473845,
-      "rewards/margins": -0.0011181291192770004,
-      "rewards/rejected": 0.0024058762937784195,
       "step": 20
     },
     {
       "epoch": 0.03,
       "learning_rate": 1.5463917525773197e-07,
-      "logits/chosen": -2.3392958641052246,
-      "logits/rejected": -2.3039257526397705,
-      "logps/chosen": -268.9768371582031,
-      "logps/rejected": -227.0941162109375,
-      "loss": 0.6909,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": -0.0020196367986500263,
-      "rewards/margins": 0.0026352328713983297,
-      "rewards/rejected": -0.004654868971556425,
       "step": 30
     },
     {
       "epoch": 0.04,
       "learning_rate": 2.0618556701030925e-07,
-      "logits/chosen": -2.3389391899108887,
-      "logits/rejected": -2.329983711242676,
-      "logps/chosen": -308.53192138671875,
-      "logps/rejected": -253.8923797607422,
-      "loss": 0.6926,
-      "rewards/accuracies": 0.4937500059604645,
-      "rewards/chosen": 0.0003858007548842579,
-      "rewards/margins": 0.0030613162089139223,
-      "rewards/rejected": -0.002675515366718173,
       "step": 40
     },
     {
       "epoch": 0.05,
       "learning_rate": 2.5773195876288655e-07,
-      "logits/chosen": -2.251640796661377,
-      "logits/rejected": -2.236237049102783,
-      "logps/chosen": -297.795166015625,
-      "logps/rejected": -227.2183380126953,
-      "loss": 0.6932,
-      "rewards/accuracies": 0.518750011920929,
-      "rewards/chosen": 0.0022513591684401035,
-      "rewards/margins": 0.0027331984601914883,
-      "rewards/rejected": -0.00048183900071308017,
       "step": 50
     },
     {
       "epoch": 0.06,
       "learning_rate": 3.0927835051546394e-07,
-      "logits/chosen": -2.1671040058135986,
-      "logits/rejected": -2.3377814292907715,
-      "logps/chosen": -256.554443359375,
-      "logps/rejected": -229.49887084960938,
-      "loss": 0.6923,
-      "rewards/accuracies": 0.543749988079071,
-      "rewards/chosen": -0.0005498790997080505,
-      "rewards/margins": 0.0022342861630022526,
-      "rewards/rejected": -0.002784165320917964,
       "step": 60
     },
     {
       "epoch": 0.07,
       "learning_rate": 3.608247422680412e-07,
-      "logits/chosen": -2.343254804611206,
-      "logits/rejected": -2.281353712081909,
-      "logps/chosen": -313.9508056640625,
-      "logps/rejected": -252.5953369140625,
-      "loss": 0.6931,
-      "rewards/accuracies": 0.4937500059604645,
-      "rewards/chosen": -0.0012313572224229574,
-      "rewards/margins": -0.0001091135636670515,
-      "rewards/rejected": -0.0011222433531656861,
       "step": 70
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.123711340206185e-07,
-      "logits/chosen": -2.337360382080078,
-      "logits/rejected": -2.3014636039733887,
-      "logps/chosen": -302.96966552734375,
-      "logps/rejected": -243.86474609375,
-      "loss": 0.6929,
-      "rewards/accuracies": 0.4937500059604645,
-      "rewards/chosen": 0.00042300819768570364,
-      "rewards/margins": -0.005995759274810553,
-      "rewards/rejected": 0.0064187683165073395,
       "step": 80
     },
     {
       "epoch": 0.09,
       "learning_rate": 4.639175257731959e-07,
-      "logits/chosen": -2.259093761444092,
-      "logits/rejected": -2.2963151931762695,
-      "logps/chosen": -270.1607360839844,
-      "logps/rejected": -216.63967895507812,
-      "loss": 0.69,
-      "rewards/accuracies": 0.5375000238418579,
-      "rewards/chosen": 0.010549941100180149,
-      "rewards/margins": 0.00999419204890728,
-      "rewards/rejected": 0.0005557489348575473,
       "step": 90
     },
     {
       "epoch": 0.1,
       "learning_rate": 4.982778415614236e-07,
-      "logits/chosen": -2.1673099994659424,
-      "logits/rejected": -2.2734127044677734,
-      "logps/chosen": -274.7733154296875,
-      "logps/rejected": -226.4468994140625,
-      "loss": 0.6898,
-      "rewards/accuracies": 0.5062500238418579,
-      "rewards/chosen": 0.004620480351150036,
-      "rewards/margins": 0.004921785555779934,
-      "rewards/rejected": -0.00030130503000691533,
       "step": 100
     },
     {
       "epoch": 0.11,
       "learning_rate": 4.925373134328357e-07,
-      "logits/chosen": -2.271514415740967,
-      "logits/rejected": -2.197758197784424,
-      "logps/chosen": -274.6520690917969,
-      "logps/rejected": -232.5465850830078,
-      "loss": 0.6884,
-      "rewards/accuracies": 0.543749988079071,
-      "rewards/chosen": 0.012732337228953838,
-      "rewards/margins": 0.013689815998077393,
-      "rewards/rejected": -0.0009574781870469451,
       "step": 110
     },
     {
       "epoch": 0.12,
       "learning_rate": 4.867967853042479e-07,
-      "logits/chosen": -2.255197763442993,
-      "logits/rejected": -2.3222763538360596,
-      "logps/chosen": -319.30975341796875,
-      "logps/rejected": -235.72726440429688,
-      "loss": 0.688,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": 0.017383214086294174,
-      "rewards/margins": 0.011506976559758186,
-      "rewards/rejected": 0.005876240320503712,
       "step": 120
     },
     {
       "epoch": 0.13,
       "learning_rate": 4.810562571756601e-07,
-      "logits/chosen": -2.3218114376068115,
-      "logits/rejected": -2.3772194385528564,
-      "logps/chosen": -296.2359313964844,
-      "logps/rejected": -245.52505493164062,
-      "loss": 0.6885,
-      "rewards/accuracies": 0.5249999761581421,
-      "rewards/chosen": 0.014686869457364082,
-      "rewards/margins": 0.0065305838361382484,
-      "rewards/rejected": 0.008156285621225834,
       "step": 130
     },
     {
       "epoch": 0.14,
       "learning_rate": 4.753157290470723e-07,
-      "logits/chosen": -2.363065004348755,
-      "logits/rejected": -2.310908794403076,
-      "logps/chosen": -301.93017578125,
-      "logps/rejected": -239.286865234375,
-      "loss": 0.6881,
-      "rewards/accuracies": 0.543749988079071,
-      "rewards/chosen": 0.011356567032635212,
-      "rewards/margins": 0.009571002796292305,
-      "rewards/rejected": 0.0017855638870969415,
       "step": 140
     },
     {
       "epoch": 0.15,
       "learning_rate": 4.6957520091848447e-07,
-      "logits/chosen": -2.253392457962036,
-      "logits/rejected": -2.3485019207000732,
-      "logps/chosen": -284.38043212890625,
-      "logps/rejected": -259.68096923828125,
-      "loss": 0.6862,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 0.022072453051805496,
-      "rewards/margins": 0.016027750447392464,
-      "rewards/rejected": 0.006044704467058182,
       "step": 150
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.6383467278989666e-07,
-      "logits/chosen": -2.3608505725860596,
-      "logits/rejected": -2.442317008972168,
-      "logps/chosen": -286.76446533203125,
-      "logps/rejected": -221.6781005859375,
-      "loss": 0.6852,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": 0.01910669170320034,
-      "rewards/margins": 0.014247800223529339,
-      "rewards/rejected": 0.004858892410993576,
       "step": 160
     },
     {
       "epoch": 0.18,
       "learning_rate": 4.580941446613088e-07,
-      "logits/chosen": -2.322056531906128,
-      "logits/rejected": -2.3340067863464355,
-      "logps/chosen": -301.5868225097656,
-      "logps/rejected": -239.265869140625,
-      "loss": 0.6834,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": 0.019180649891495705,
-      "rewards/margins": 0.011183517053723335,
-      "rewards/rejected": 0.00799713283777237,
       "step": 170
     },
     {
       "epoch": 0.19,
       "learning_rate": 4.52353616532721e-07,
-      "logits/chosen": -2.347207546234131,
-      "logits/rejected": -2.324052572250366,
-      "logps/chosen": -257.86639404296875,
-      "logps/rejected": -214.54440307617188,
-      "loss": 0.6857,
-      "rewards/accuracies": 0.5562499761581421,
-      "rewards/chosen": 0.01751137152314186,
-      "rewards/margins": 0.011507970280945301,
-      "rewards/rejected": 0.006003401707857847,
       "step": 180
     },
     {
       "epoch": 0.2,
       "learning_rate": 4.4661308840413316e-07,
-      "logits/chosen": -2.2652053833007812,
-      "logits/rejected": -2.2009899616241455,
-      "logps/chosen": -253.9468536376953,
-      "logps/rejected": -206.35702514648438,
-      "loss": 0.6837,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.028762493282556534,
-      "rewards/margins": 0.02420884743332863,
-      "rewards/rejected": 0.004553645849227905,
       "step": 190
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.408725602755453e-07,
-      "logits/chosen": -2.284376621246338,
-      "logits/rejected": -2.2875559329986572,
-      "logps/chosen": -261.45037841796875,
-      "logps/rejected": -195.525634765625,
-      "loss": 0.6833,
-      "rewards/accuracies": 0.543749988079071,
-      "rewards/chosen": 0.03126645088195801,
-      "rewards/margins": 0.016625383868813515,
-      "rewards/rejected": 0.014641067013144493,
       "step": 200
     },
     {
       "epoch": 0.22,
       "learning_rate": 4.351320321469575e-07,
-      "logits/chosen": -2.184406280517578,
-      "logits/rejected": -2.1959569454193115,
-      "logps/chosen": -302.328857421875,
-      "logps/rejected": -218.5536651611328,
-      "loss": 0.6828,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 0.03549647331237793,
-      "rewards/margins": 0.02051473781466484,
-      "rewards/rejected": 0.014981737360358238,
       "step": 210
     },
     {
       "epoch": 0.23,
       "learning_rate": 4.2939150401836967e-07,
-      "logits/chosen": -2.2145161628723145,
-      "logits/rejected": -2.215642213821411,
-      "logps/chosen": -269.46368408203125,
-      "logps/rejected": -235.6923065185547,
-      "loss": 0.6814,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": 0.03645281121134758,
-      "rewards/margins": 0.0235856045037508,
-      "rewards/rejected": 0.012867207638919353,
       "step": 220
     },
     {
       "epoch": 0.24,
       "learning_rate": 4.236509758897818e-07,
-      "logits/chosen": -2.214348554611206,
-      "logits/rejected": -2.185147762298584,
-      "logps/chosen": -271.40472412109375,
-      "logps/rejected": -242.63973999023438,
       "loss": 0.6826,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 0.03270721808075905,
-      "rewards/margins": 0.026937326416373253,
-      "rewards/rejected": 0.005769887939095497,
       "step": 230
     },
     {
       "epoch": 0.25,
       "learning_rate": 4.17910447761194e-07,
-      "logits/chosen": -2.3055496215820312,
-      "logits/rejected": -2.2679781913757324,
-      "logps/chosen": -309.5468444824219,
-      "logps/rejected": -221.61196899414062,
-      "loss": 0.6836,
-      "rewards/accuracies": 0.574999988079071,
-      "rewards/chosen": 0.03591131418943405,
-      "rewards/margins": 0.013077683746814728,
-      "rewards/rejected": 0.022833632305264473,
       "step": 240
     },
     {
       "epoch": 0.26,
       "learning_rate": 4.121699196326062e-07,
-      "logits/chosen": -2.306344509124756,
-      "logits/rejected": -2.2909655570983887,
-      "logps/chosen": -272.93988037109375,
-      "logps/rejected": -237.33169555664062,
-      "loss": 0.6828,
-      "rewards/accuracies": 0.543749988079071,
-      "rewards/chosen": 0.03549710661172867,
-      "rewards/margins": 0.014110283926129341,
-      "rewards/rejected": 0.021386824548244476,
       "step": 250
     },
     {
       "epoch": 0.27,
       "learning_rate": 4.0642939150401836e-07,
-      "logits/chosen": -2.345346212387085,
-      "logits/rejected": -2.3187355995178223,
-      "logps/chosen": -270.4668884277344,
-      "logps/rejected": -221.8577880859375,
-      "loss": 0.6809,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.046544916927814484,
-      "rewards/margins": 0.03206244856119156,
-      "rewards/rejected": 0.014482468366622925,
       "step": 260
     },
     {
       "epoch": 0.28,
       "learning_rate": 4.006888633754305e-07,
-      "logits/chosen": -2.38493013381958,
-      "logits/rejected": -2.3552451133728027,
-      "logps/chosen": -284.3419494628906,
-      "logps/rejected": -232.5235137939453,
-      "loss": 0.6807,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": 0.05182330682873726,
-      "rewards/margins": 0.03193196654319763,
-      "rewards/rejected": 0.019891340285539627,
       "step": 270
     },
     {
       "epoch": 0.29,
       "learning_rate": 3.949483352468427e-07,
-      "logits/chosen": -2.308295488357544,
-      "logits/rejected": -2.2600932121276855,
-      "logps/chosen": -293.229736328125,
-      "logps/rejected": -236.45321655273438,
-      "loss": 0.6789,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 0.05196481943130493,
-      "rewards/margins": 0.03805174678564072,
-      "rewards/rejected": 0.013913074508309364,
       "step": 280
     },
     {
       "epoch": 0.3,
       "learning_rate": 3.8920780711825487e-07,
-      "logits/chosen": -2.2781283855438232,
-      "logits/rejected": -2.368569850921631,
-      "logps/chosen": -278.46221923828125,
-      "logps/rejected": -227.41943359375,
-      "loss": 0.6791,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.05021747201681137,
-      "rewards/margins": 0.02508280798792839,
-      "rewards/rejected": 0.02513466402888298,
       "step": 290
     },
     {
       "epoch": 0.31,
       "learning_rate": 3.83467278989667e-07,
-      "logits/chosen": -2.265779495239258,
-      "logits/rejected": -2.2051727771759033,
-      "logps/chosen": -254.264404296875,
-      "logps/rejected": -221.9779510498047,
-      "loss": 0.6783,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": 0.05069579556584358,
-      "rewards/margins": 0.03272496536374092,
-      "rewards/rejected": 0.01797083020210266,
       "step": 300
     },
     {
       "epoch": 0.32,
       "learning_rate": 3.777267508610792e-07,
-      "logits/chosen": -2.3235151767730713,
-      "logits/rejected": -2.3737473487854004,
-      "logps/chosen": -306.2057189941406,
-      "logps/rejected": -257.5906066894531,
-      "loss": 0.6789,
-      "rewards/accuracies": 0.5687500238418579,
-      "rewards/chosen": 0.05037818104028702,
-      "rewards/margins": 0.01740873232483864,
-      "rewards/rejected": 0.03296944126486778,
       "step": 310
     },
     {
       "epoch": 0.33,
       "learning_rate": 3.7198622273249137e-07,
-      "logits/chosen": -2.234135389328003,
-      "logits/rejected": -2.210972309112549,
-      "logps/chosen": -251.83740234375,
-      "logps/rejected": -192.99771118164062,
-      "loss": 0.6743,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.06514623761177063,
-      "rewards/margins": 0.04524427652359009,
-      "rewards/rejected": 0.01990196295082569,
       "step": 320
     },
     {
       "epoch": 0.34,
       "learning_rate": 3.662456946039035e-07,
-      "logits/chosen": -2.257673740386963,
-      "logits/rejected": -2.2867014408111572,
-      "logps/chosen": -312.2060546875,
-      "logps/rejected": -239.00277709960938,
       "loss": 0.6761,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.06925204396247864,
-      "rewards/margins": 0.04682812839746475,
-      "rewards/rejected": 0.022423917427659035,
       "step": 330
     },
     {
       "epoch": 0.35,
       "learning_rate": 3.605051664753157e-07,
-      "logits/chosen": -2.196643590927124,
-      "logits/rejected": -2.129664182662964,
-      "logps/chosen": -244.24270629882812,
-      "logps/rejected": -238.7809295654297,
-      "loss": 0.6776,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.05914956331253052,
-      "rewards/margins": 0.02900281921029091,
-      "rewards/rejected": 0.03014674223959446,
       "step": 340
     },
     {
       "epoch": 0.36,
       "learning_rate": 3.547646383467279e-07,
-      "logits/chosen": -2.365565538406372,
-      "logits/rejected": -2.3723063468933105,
-      "logps/chosen": -313.76263427734375,
-      "logps/rejected": -248.08090209960938,
-      "loss": 0.6771,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 0.07412128150463104,
-      "rewards/margins": 0.048134543001651764,
-      "rewards/rejected": 0.025986725464463234,
       "step": 350
     },
     {
       "epoch": 0.37,
       "learning_rate": 3.4902411021814007e-07,
-      "logits/chosen": -2.2278995513916016,
-      "logits/rejected": -2.259129524230957,
-      "logps/chosen": -303.2668151855469,
-      "logps/rejected": -249.9300537109375,
-      "loss": 0.6727,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 0.06270809471607208,
-      "rewards/margins": 0.04535229504108429,
-      "rewards/rejected": 0.017355797812342644,
       "step": 360
     },
     {
       "epoch": 0.38,
       "learning_rate": 3.432835820895522e-07,
-      "logits/chosen": -2.3697922229766846,
-      "logits/rejected": -2.3227946758270264,
-      "logps/chosen": -314.5289611816406,
-      "logps/rejected": -270.68231201171875,
       "loss": 0.6759,
-      "rewards/accuracies": 0.5562499761581421,
-      "rewards/chosen": 0.07028704136610031,
-      "rewards/margins": 0.0307574775069952,
-      "rewards/rejected": 0.03952956199645996,
       "step": 370
     },
     {
       "epoch": 0.39,
       "learning_rate": 3.375430539609644e-07,
-      "logits/chosen": -2.321040630340576,
-      "logits/rejected": -2.2491185665130615,
-      "logps/chosen": -291.9346618652344,
-      "logps/rejected": -239.68917846679688,
-      "loss": 0.6778,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.0727432444691658,
-      "rewards/margins": 0.03435206040740013,
-      "rewards/rejected": 0.03839118406176567,
       "step": 380
     },
     {
       "epoch": 0.4,
       "learning_rate": 3.3180252583237657e-07,
-      "logits/chosen": -2.2968392372131348,
-      "logits/rejected": -2.2632501125335693,
-      "logps/chosen": -278.10028076171875,
-      "logps/rejected": -237.16793823242188,
-      "loss": 0.6712,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.06786436587572098,
-      "rewards/margins": 0.05375425145030022,
-      "rewards/rejected": 0.014110115356743336,
       "step": 390
     },
     {
       "epoch": 0.41,
       "learning_rate": 3.260619977037887e-07,
-      "logits/chosen": -2.236884593963623,
-      "logits/rejected": -2.2387681007385254,
-      "logps/chosen": -263.4674072265625,
-      "logps/rejected": -213.8645477294922,
-      "loss": 0.6732,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.06493643671274185,
-      "rewards/margins": 0.044694311916828156,
-      "rewards/rejected": 0.0202421136200428,
       "step": 400
     },
     {
       "epoch": 0.42,
       "learning_rate": 3.203214695752009e-07,
-      "logits/chosen": -2.277587890625,
-      "logits/rejected": -2.291820526123047,
-      "logps/chosen": -268.8821105957031,
-      "logps/rejected": -252.8975830078125,
-      "loss": 0.6678,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.08244398236274719,
-      "rewards/margins": 0.05904413014650345,
-      "rewards/rejected": 0.023399867117404938,
       "step": 410
     },
     {
       "epoch": 0.43,
       "learning_rate": 3.145809414466131e-07,
-      "logits/chosen": -2.3052468299865723,
-      "logits/rejected": -2.2499592304229736,
-      "logps/chosen": -252.5208282470703,
-      "logps/rejected": -204.4167938232422,
-      "loss": 0.675,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.07269565761089325,
-      "rewards/margins": 0.04640679806470871,
-      "rewards/rejected": 0.02628885768353939,
       "step": 420
     },
     {
       "epoch": 0.44,
       "learning_rate": 3.0884041331802526e-07,
-      "logits/chosen": -2.3479931354522705,
-      "logits/rejected": -2.3252017498016357,
-      "logps/chosen": -263.6164245605469,
-      "logps/rejected": -241.0965576171875,
-      "loss": 0.6737,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.07568270713090897,
-      "rewards/margins": 0.04158180207014084,
-      "rewards/rejected": 0.03410089388489723,
       "step": 430
     },
     {
       "epoch": 0.45,
       "learning_rate": 3.030998851894374e-07,
-      "logits/chosen": -2.2860944271087646,
-      "logits/rejected": -2.3197929859161377,
-      "logps/chosen": -286.6674499511719,
-      "logps/rejected": -247.6437225341797,
-      "loss": 0.6686,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.08281053602695465,
-      "rewards/margins": 0.06470286101102829,
-      "rewards/rejected": 0.018107673153281212,
       "step": 440
     },
     {
       "epoch": 0.46,
       "learning_rate": 2.973593570608496e-07,
-      "logits/chosen": -2.2066447734832764,
-      "logits/rejected": -2.3158316612243652,
-      "logps/chosen": -276.1333923339844,
-      "logps/rejected": -230.3758544921875,
-      "loss": 0.6778,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.07531363517045975,
-      "rewards/margins": 0.04221782088279724,
-      "rewards/rejected": 0.033095818012952805,
       "step": 450
     },
     {
       "epoch": 0.47,
       "learning_rate": 2.9161882893226177e-07,
-      "logits/chosen": -2.2777111530303955,
-      "logits/rejected": -2.341663122177124,
-      "logps/chosen": -273.2806701660156,
-      "logps/rejected": -222.5447235107422,
-      "loss": 0.6693,
-      "rewards/accuracies": 0.5687500238418579,
-      "rewards/chosen": 0.07596820592880249,
-      "rewards/margins": 0.0409797765314579,
-      "rewards/rejected": 0.03498842567205429,
       "step": 460
     },
     {
       "epoch": 0.49,
       "learning_rate": 2.858783008036739e-07,
-      "logits/chosen": -2.2646453380584717,
-      "logits/rejected": -2.277526378631592,
-      "logps/chosen": -249.056396484375,
-      "logps/rejected": -215.5797882080078,
-      "loss": 0.6676,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.07929818332195282,
-      "rewards/margins": 0.05759881064295769,
-      "rewards/rejected": 0.021699368953704834,
       "step": 470
     },
     {
       "epoch": 0.5,
       "learning_rate": 2.801377726750861e-07,
-      "logits/chosen": -2.2957892417907715,
-      "logits/rejected": -2.2723708152770996,
-      "logps/chosen": -289.49652099609375,
-      "logps/rejected": -231.6498565673828,
-      "loss": 0.6708,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.08457117527723312,
-      "rewards/margins": 0.06456024944782257,
-      "rewards/rejected": 0.020010938867926598,
       "step": 480
     },
     {
       "epoch": 0.51,
       "learning_rate": 2.743972445464983e-07,
-      "logits/chosen": -2.4455032348632812,
-      "logits/rejected": -2.266815662384033,
-      "logps/chosen": -293.1993103027344,
-      "logps/rejected": -243.9182891845703,
-      "loss": 0.6673,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": 0.10721077769994736,
-      "rewards/margins": 0.08375977724790573,
-      "rewards/rejected": 0.02345099486410618,
       "step": 490
     },
     {
       "epoch": 0.52,
       "learning_rate": 2.686567164179104e-07,
-      "logits/chosen": -2.278409242630005,
-      "logits/rejected": -2.294983386993408,
-      "logps/chosen": -254.94808959960938,
-      "logps/rejected": -221.7699737548828,
-      "loss": 0.6665,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.08222482353448868,
-      "rewards/margins": 0.05339335650205612,
-      "rewards/rejected": 0.028831467032432556,
       "step": 500
     },
     {
       "epoch": 0.53,
       "learning_rate": 2.629161882893226e-07,
-      "logits/chosen": -2.2024474143981934,
-      "logits/rejected": -2.249354600906372,
-      "logps/chosen": -310.412109375,
-      "logps/rejected": -256.75201416015625,
-      "loss": 0.6669,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.07344520837068558,
-      "rewards/margins": 0.046752505004405975,
-      "rewards/rejected": 0.026692699640989304,
       "step": 510
     },
     {
       "epoch": 0.54,
       "learning_rate": 2.571756601607348e-07,
-      "logits/chosen": -2.3371269702911377,
-      "logits/rejected": -2.3524794578552246,
-      "logps/chosen": -278.16058349609375,
-      "logps/rejected": -244.1069793701172,
-      "loss": 0.6704,
       "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.08704034984111786,
-      "rewards/margins": 0.061678241938352585,
-      "rewards/rejected": 0.025362113490700722,
       "step": 520
     },
     {
       "epoch": 0.55,
       "learning_rate": 2.5143513203214697e-07,
-      "logits/chosen": -2.2432773113250732,
-      "logits/rejected": -2.250980854034424,
-      "logps/chosen": -242.64340209960938,
-      "logps/rejected": -224.147216796875,
-      "loss": 0.6702,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.07376811653375626,
-      "rewards/margins": 0.05427448824048042,
-      "rewards/rejected": 0.019493628293275833,
       "step": 530
     },
     {
       "epoch": 0.56,
       "learning_rate": 2.456946039035591e-07,
-      "logits/chosen": -2.300306797027588,
-      "logits/rejected": -2.2716238498687744,
-      "logps/chosen": -288.2474670410156,
-      "logps/rejected": -240.3512725830078,
-      "loss": 0.6671,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.10111168771982193,
-      "rewards/margins": 0.056197118014097214,
-      "rewards/rejected": 0.044914569705724716,
       "step": 540
     },
     {
       "epoch": 0.57,
       "learning_rate": 2.399540757749713e-07,
-      "logits/chosen": -2.3355793952941895,
-      "logits/rejected": -2.1937708854675293,
-      "logps/chosen": -265.01416015625,
-      "logps/rejected": -230.23007202148438,
-      "loss": 0.6683,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.08131198585033417,
-      "rewards/margins": 0.05895137041807175,
-      "rewards/rejected": 0.022360611706972122,
       "step": 550
     },
     {
       "epoch": 0.58,
       "learning_rate": 2.3421354764638345e-07,
-      "logits/chosen": -2.319580554962158,
-      "logits/rejected": -2.283818244934082,
-      "logps/chosen": -302.03167724609375,
-      "logps/rejected": -251.99624633789062,
-      "loss": 0.6717,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": 0.09797920286655426,
-      "rewards/margins": 0.049965519458055496,
-      "rewards/rejected": 0.048013679683208466,
       "step": 560
     },
     {
       "epoch": 0.59,
       "learning_rate": 2.2847301951779563e-07,
-      "logits/chosen": -2.2482268810272217,
-      "logits/rejected": -2.4002277851104736,
-      "logps/chosen": -268.6507873535156,
-      "logps/rejected": -223.710693359375,
-      "loss": 0.6676,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 0.08277994394302368,
-      "rewards/margins": 0.05562227964401245,
-      "rewards/rejected": 0.027157653123140335,
       "step": 570
     },
     {
       "epoch": 0.6,
       "learning_rate": 2.227324913892078e-07,
-      "logits/chosen": -2.2995638847351074,
-      "logits/rejected": -2.223440647125244,
-      "logps/chosen": -299.4001159667969,
-      "logps/rejected": -236.94857788085938,
-      "loss": 0.6613,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": 0.10369547456502914,
-      "rewards/margins": 0.08046281337738037,
-      "rewards/rejected": 0.023232655599713326,
       "step": 580
     },
     {
       "epoch": 0.61,
       "learning_rate": 2.1699196326061998e-07,
-      "logits/chosen": -2.2583508491516113,
-      "logits/rejected": -2.231132984161377,
-      "logps/chosen": -253.7607421875,
-      "logps/rejected": -218.61239624023438,
-      "loss": 0.6683,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": 0.07318417727947235,
-      "rewards/margins": 0.04799889028072357,
-      "rewards/rejected": 0.025185290724039078,
       "step": 590
     },
     {
       "epoch": 0.62,
       "learning_rate": 2.1125143513203214e-07,
-      "logits/chosen": -2.3192005157470703,
-      "logits/rejected": -2.2510247230529785,
-      "logps/chosen": -256.56060791015625,
-      "logps/rejected": -206.32177734375,
-      "loss": 0.6695,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": 0.07588864117860794,
-      "rewards/margins": 0.05236497521400452,
-      "rewards/rejected": 0.023523656651377678,
       "step": 600
     },
     {
       "epoch": 0.63,
       "learning_rate": 2.055109070034443e-07,
-      "logits/chosen": -2.3051934242248535,
-      "logits/rejected": -2.3035061359405518,
-      "logps/chosen": -266.5325622558594,
-      "logps/rejected": -223.85031127929688,
-      "loss": 0.6668,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": 0.0917385071516037,
-      "rewards/margins": 0.0632014125585556,
-      "rewards/rejected": 0.028537089005112648,
       "step": 610
     },
     {
       "epoch": 0.64,
       "learning_rate": 1.997703788748565e-07,
-      "logits/chosen": -2.337707042694092,
-      "logits/rejected": -2.2823574542999268,
-      "logps/chosen": -313.8081359863281,
-      "logps/rejected": -249.5789337158203,
-      "loss": 0.6586,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": 0.10711432993412018,
-      "rewards/margins": 0.07846088707447052,
-      "rewards/rejected": 0.028653452172875404,
       "step": 620
     },
     {
       "epoch": 0.65,
       "learning_rate": 1.9402985074626865e-07,
-      "logits/chosen": -2.2064993381500244,
-      "logits/rejected": -2.2465977668762207,
-      "logps/chosen": -259.2158508300781,
-      "logps/rejected": -240.3513641357422,
-      "loss": 0.6659,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": 0.09927239269018173,
-      "rewards/margins": 0.06107243150472641,
-      "rewards/rejected": 0.038199953734874725,
       "step": 630
     },
     {
       "epoch": 0.66,
       "learning_rate": 1.8828932261768083e-07,
-      "logits/chosen": -2.289741277694702,
-      "logits/rejected": -2.238556146621704,
-      "logps/chosen": -266.5019226074219,
-      "logps/rejected": -217.8599853515625,
-      "loss": 0.6612,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.09409500658512115,
-      "rewards/margins": 0.07514993846416473,
-      "rewards/rejected": 0.018945056945085526,
       "step": 640
     },
     {
       "epoch": 0.67,
       "learning_rate": 1.82548794489093e-07,
-      "logits/chosen": -2.3345632553100586,
-      "logits/rejected": -2.311061382293701,
-      "logps/chosen": -284.6984558105469,
-      "logps/rejected": -232.80517578125,
-      "loss": 0.6641,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 0.10377562046051025,
-      "rewards/margins": 0.07344510406255722,
-      "rewards/rejected": 0.03033052384853363,
       "step": 650
     },
     {
       "epoch": 0.68,
       "learning_rate": 1.7680826636050515e-07,
-      "logits/chosen": -2.33508563041687,
-      "logits/rejected": -2.27583646774292,
-      "logps/chosen": -279.7930603027344,
-      "logps/rejected": -233.23367309570312,
       "loss": 0.6608,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.11143641173839569,
-      "rewards/margins": 0.07680504024028778,
-      "rewards/rejected": 0.03463137149810791,
       "step": 660
     },
     {
       "epoch": 0.69,
       "learning_rate": 1.7106773823191734e-07,
-      "logits/chosen": -2.285081386566162,
-      "logits/rejected": -2.2734663486480713,
-      "logps/chosen": -295.72637939453125,
-      "logps/rejected": -240.38070678710938,
-      "loss": 0.6628,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 0.0983828604221344,
-      "rewards/margins": 0.055043578147888184,
-      "rewards/rejected": 0.04333927482366562,
       "step": 670
     },
     {
       "epoch": 0.7,
       "learning_rate": 1.653272101033295e-07,
-      "logits/chosen": -2.3419528007507324,
-      "logits/rejected": -2.2720932960510254,
-      "logps/chosen": -289.7131652832031,
-      "logps/rejected": -230.31863403320312,
-      "loss": 0.673,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": 0.09808371216058731,
-      "rewards/margins": 0.03939511626958847,
-      "rewards/rejected": 0.05868858844041824,
       "step": 680
     },
     {
       "epoch": 0.71,
       "learning_rate": 1.5958668197474169e-07,
-      "logits/chosen": -2.3712170124053955,
-      "logits/rejected": -2.3621950149536133,
-      "logps/chosen": -268.20367431640625,
-      "logps/rejected": -229.4346160888672,
-      "loss": 0.6658,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 0.09442739933729172,
-      "rewards/margins": 0.0633876845240593,
-      "rewards/rejected": 0.031039711087942123,
       "step": 690
     },
     {
       "epoch": 0.72,
       "learning_rate": 1.5384615384615385e-07,
-      "logits/chosen": -2.2595605850219727,
-      "logits/rejected": -2.2577292919158936,
-      "logps/chosen": -282.4584655761719,
-      "logps/rejected": -222.5489959716797,
-      "loss": 0.6655,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.10156550258398056,
-      "rewards/margins": 0.077473945915699,
-      "rewards/rejected": 0.024091556668281555,
       "step": 700
     },
     {
       "epoch": 0.73,
       "learning_rate": 1.4810562571756603e-07,
-      "logits/chosen": -2.3338966369628906,
-      "logits/rejected": -2.2043213844299316,
-      "logps/chosen": -272.3428649902344,
-      "logps/rejected": -208.0294952392578,
-      "loss": 0.6677,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.09887900203466415,
-      "rewards/margins": 0.07613282650709152,
-      "rewards/rejected": 0.02274617925286293,
       "step": 710
     },
     {
       "epoch": 0.74,
       "learning_rate": 1.423650975889782e-07,
-      "logits/chosen": -2.323683500289917,
-      "logits/rejected": -2.339221954345703,
-      "logps/chosen": -303.25946044921875,
-      "logps/rejected": -259.43353271484375,
-      "loss": 0.6673,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": 0.11013475805521011,
-      "rewards/margins": 0.04143274575471878,
-      "rewards/rejected": 0.06870199739933014,
       "step": 720
     },
     {
       "epoch": 0.75,
       "learning_rate": 1.3662456946039035e-07,
-      "logits/chosen": -2.30271577835083,
-      "logits/rejected": -2.2857494354248047,
-      "logps/chosen": -270.1637878417969,
-      "logps/rejected": -252.5942840576172,
-      "loss": 0.6643,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.10494796186685562,
-      "rewards/margins": 0.06293109059333801,
-      "rewards/rejected": 0.0420168861746788,
       "step": 730
     },
     {
       "epoch": 0.76,
       "learning_rate": 1.3088404133180254e-07,
-      "logits/chosen": -2.2147629261016846,
-      "logits/rejected": -2.2660574913024902,
-      "logps/chosen": -276.7433776855469,
-      "logps/rejected": -199.24557495117188,
-      "loss": 0.6643,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.10866482555866241,
-      "rewards/margins": 0.08003364503383636,
-      "rewards/rejected": 0.02863118425011635,
       "step": 740
     },
     {
       "epoch": 0.77,
       "learning_rate": 1.251435132032147e-07,
-      "logits/chosen": -2.204407215118408,
-      "logits/rejected": -2.2218000888824463,
-      "logps/chosen": -269.03546142578125,
-      "logps/rejected": -220.9041748046875,
-      "loss": 0.6651,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": 0.10271243005990982,
-      "rewards/margins": 0.04787519946694374,
-      "rewards/rejected": 0.054837245494127274,
       "step": 750
     },
     {
       "epoch": 0.78,
       "learning_rate": 1.1940298507462686e-07,
-      "logits/chosen": -2.232849597930908,
-      "logits/rejected": -2.2518832683563232,
-      "logps/chosen": -267.8799743652344,
-      "logps/rejected": -249.4871826171875,
-      "loss": 0.6674,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.0854310542345047,
-      "rewards/margins": 0.05483313649892807,
-      "rewards/rejected": 0.030597921460866928,
       "step": 760
     },
     {
       "epoch": 0.8,
       "learning_rate": 1.1366245694603903e-07,
-      "logits/chosen": -2.292814254760742,
-      "logits/rejected": -2.2077105045318604,
-      "logps/chosen": -273.19989013671875,
-      "logps/rejected": -238.66531372070312,
-      "loss": 0.6601,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.11321671307086945,
-      "rewards/margins": 0.07481059432029724,
-      "rewards/rejected": 0.038406118750572205,
       "step": 770
     },
     {
       "epoch": 0.81,
       "learning_rate": 1.079219288174512e-07,
-      "logits/chosen": -2.350830078125,
-      "logits/rejected": -2.325340747833252,
-      "logps/chosen": -290.97967529296875,
-      "logps/rejected": -236.14697265625,
-      "loss": 0.6632,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.09706258773803711,
-      "rewards/margins": 0.07061664760112762,
-      "rewards/rejected": 0.026445943862199783,
       "step": 780
     },
     {
       "epoch": 0.82,
       "learning_rate": 1.0218140068886336e-07,
-      "logits/chosen": -2.2678112983703613,
-      "logits/rejected": -2.2860140800476074,
-      "logps/chosen": -270.32318115234375,
-      "logps/rejected": -221.13662719726562,
-      "loss": 0.6548,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": 0.12243938446044922,
-      "rewards/margins": 0.08886651694774628,
-      "rewards/rejected": 0.033572882413864136,
       "step": 790
     },
     {
       "epoch": 0.83,
       "learning_rate": 9.644087256027554e-08,
-      "logits/chosen": -2.272566080093384,
-      "logits/rejected": -2.293915271759033,
-      "logps/chosen": -284.6838073730469,
-      "logps/rejected": -243.53854370117188,
-      "loss": 0.6637,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 0.10790219157934189,
-      "rewards/margins": 0.0468364879488945,
-      "rewards/rejected": 0.06106570363044739,
       "step": 800
     },
     {
       "epoch": 0.84,
       "learning_rate": 9.070034443168771e-08,
-      "logits/chosen": -2.283632755279541,
-      "logits/rejected": -2.2884037494659424,
-      "logps/chosen": -269.58624267578125,
-      "logps/rejected": -230.63101196289062,
-      "loss": 0.6621,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": 0.09132520109415054,
-      "rewards/margins": 0.06427180022001266,
-      "rewards/rejected": 0.02705339714884758,
       "step": 810
     },
     {
       "epoch": 0.85,
       "learning_rate": 8.495981630309988e-08,
-      "logits/chosen": -2.366037130355835,
-      "logits/rejected": -2.3434507846832275,
-      "logps/chosen": -302.0915832519531,
-      "logps/rejected": -228.17526245117188,
-      "loss": 0.6629,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": 0.1286555975675583,
-      "rewards/margins": 0.09007199853658676,
-      "rewards/rejected": 0.038583606481552124,
       "step": 820
     },
     {
       "epoch": 0.86,
       "learning_rate": 7.921928817451206e-08,
-      "logits/chosen": -2.3419971466064453,
-      "logits/rejected": -2.2245805263519287,
-      "logps/chosen": -287.5382995605469,
-      "logps/rejected": -222.556640625,
-      "loss": 0.6582,
       "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.1244380846619606,
-      "rewards/margins": 0.0811501294374466,
-      "rewards/rejected": 0.043287962675094604,
       "step": 830
     },
     {
       "epoch": 0.87,
       "learning_rate": 7.347876004592423e-08,
-      "logits/chosen": -2.258993625640869,
-      "logits/rejected": -2.2267391681671143,
-      "logps/chosen": -258.35870361328125,
-      "logps/rejected": -217.0255584716797,
-      "loss": 0.6722,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.10194462537765503,
-      "rewards/margins": 0.06905193626880646,
-      "rewards/rejected": 0.03289269283413887,
       "step": 840
     },
     {
       "epoch": 0.88,
       "learning_rate": 6.773823191733639e-08,
-      "logits/chosen": -2.2829337120056152,
-      "logits/rejected": -2.3869950771331787,
-      "logps/chosen": -262.0351257324219,
-      "logps/rejected": -231.09884643554688,
-      "loss": 0.6654,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": 0.09651964902877808,
-      "rewards/margins": 0.05541490390896797,
-      "rewards/rejected": 0.041104745119810104,
       "step": 850
     },
     {
       "epoch": 0.89,
       "learning_rate": 6.199770378874856e-08,
-      "logits/chosen": -2.4058268070220947,
-      "logits/rejected": -2.3328609466552734,
-      "logps/chosen": -295.76080322265625,
-      "logps/rejected": -270.1774597167969,
-      "loss": 0.6695,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.10888679325580597,
-      "rewards/margins": 0.06958366930484772,
-      "rewards/rejected": 0.039303116500377655,
       "step": 860
     },
     {
       "epoch": 0.9,
       "learning_rate": 5.6257175660160735e-08,
-      "logits/chosen": -2.245914936065674,
-      "logits/rejected": -2.2437186241149902,
-      "logps/chosen": -312.9712829589844,
-      "logps/rejected": -237.42507934570312,
-      "loss": 0.6657,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": 0.1000402420759201,
-      "rewards/margins": 0.05334781855344772,
-      "rewards/rejected": 0.04669243097305298,
       "step": 870
     },
     {
       "epoch": 0.91,
       "learning_rate": 5.05166475315729e-08,
-      "logits/chosen": -2.358290195465088,
-      "logits/rejected": -2.312929153442383,
-      "logps/chosen": -291.44171142578125,
-      "logps/rejected": -240.0635986328125,
-      "loss": 0.6646,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": 0.10663672536611557,
-      "rewards/margins": 0.06855263561010361,
-      "rewards/rejected": 0.03808409348130226,
       "step": 880
     },
     {
       "epoch": 0.92,
       "learning_rate": 4.477611940298507e-08,
-      "logits/chosen": -2.3123860359191895,
-      "logits/rejected": -2.3553194999694824,
-      "logps/chosen": -285.9127502441406,
-      "logps/rejected": -235.38778686523438,
-      "loss": 0.6682,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": 0.12196414172649384,
-      "rewards/margins": 0.09207607805728912,
-      "rewards/rejected": 0.029888058081269264,
       "step": 890
     },
     {
       "epoch": 0.93,
       "learning_rate": 3.903559127439724e-08,
-      "logits/chosen": -2.3270044326782227,
-      "logits/rejected": -2.1938259601593018,
-      "logps/chosen": -272.7822265625,
-      "logps/rejected": -211.4164581298828,
-      "loss": 0.6597,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": 0.11634738743305206,
-      "rewards/margins": 0.08976142108440399,
-      "rewards/rejected": 0.02658594585955143,
       "step": 900
     },
     {
       "epoch": 0.94,
       "learning_rate": 3.3295063145809414e-08,
-      "logits/chosen": -2.29099702835083,
-      "logits/rejected": -2.344202756881714,
-      "logps/chosen": -238.25253295898438,
-      "logps/rejected": -206.76351928710938,
-      "loss": 0.661,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": 0.10054856538772583,
-      "rewards/margins": 0.07191120088100433,
-      "rewards/rejected": 0.02863735891878605,
       "step": 910
     },
     {
       "epoch": 0.95,
       "learning_rate": 2.755453501722158e-08,
-      "logits/chosen": -2.375382423400879,
-      "logits/rejected": -2.3675310611724854,
-      "logps/chosen": -281.5444641113281,
-      "logps/rejected": -225.140625,
-      "loss": 0.6634,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": 0.10897977650165558,
-      "rewards/margins": 0.05989484861493111,
-      "rewards/rejected": 0.04908492788672447,
       "step": 920
     },
     {
       "epoch": 0.96,
       "learning_rate": 2.1814006888633754e-08,
-      "logits/chosen": -2.2819228172302246,
-      "logits/rejected": -2.254305839538574,
-      "logps/chosen": -256.4382629394531,
-      "logps/rejected": -203.33737182617188,
-      "loss": 0.6616,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": 0.10740064084529877,
-      "rewards/margins": 0.07745448499917984,
-      "rewards/rejected": 0.029946163296699524,
       "step": 930
     },
     {
       "epoch": 0.97,
       "learning_rate": 1.6073478760045924e-08,
-      "logits/chosen": -2.315403938293457,
-      "logits/rejected": -2.311166286468506,
-      "logps/chosen": -271.6436462402344,
-      "logps/rejected": -231.6937713623047,
-      "loss": 0.6646,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.10409040749073029,
-      "rewards/margins": 0.06160085275769234,
-      "rewards/rejected": 0.04248954728245735,
       "step": 940
     },
     {
       "epoch": 0.98,
       "learning_rate": 1.0332950631458094e-08,
-      "logits/chosen": -2.3142313957214355,
-      "logits/rejected": -2.278623342514038,
-      "logps/chosen": -282.9390869140625,
-      "logps/rejected": -233.07308959960938,
-      "loss": 0.6638,
       "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": 0.10391966998577118,
-      "rewards/margins": 0.07248817384243011,
-      "rewards/rejected": 0.03143150731921196,
       "step": 950
     },
     {
       "epoch": 0.99,
       "learning_rate": 4.592422502870264e-09,
-      "logits/chosen": -2.2512423992156982,
-      "logits/rejected": -2.2343735694885254,
-      "logps/chosen": -281.0455322265625,
-      "logps/rejected": -240.0409393310547,
-      "loss": 0.6611,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.10249260812997818,
-      "rewards/margins": 0.06933777779340744,
-      "rewards/rejected": 0.03315482288599014,
       "step": 960
     },
     {
       "epoch": 1.0,
-      "eval_logits/chosen": -2.45943021774292,
-      "eval_logits/rejected": -2.39821720123291,
-      "eval_logps/chosen": -278.6921081542969,
-      "eval_logps/rejected": -230.4866180419922,
-      "eval_loss": 0.6637352705001831,
-      "eval_rewards/accuracies": 0.6520000100135803,
-      "eval_rewards/chosen": 0.1041216179728508,
-      "eval_rewards/margins": 0.06707857549190521,
-      "eval_rewards/rejected": 0.03704305365681648,
-      "eval_runtime": 435.7118,
-      "eval_samples_per_second": 4.59,
-      "eval_steps_per_second": 0.287,
       "step": 968
     },
     {
       "epoch": 1.0,
       "step": 968,
       "total_flos": 0.0,
-      "train_loss": 0.6731863415930882,
-      "train_runtime": 27311.2139,
-      "train_samples_per_second": 2.269,
       "train_steps_per_second": 0.035
     }
   ],

     {
       "epoch": 0.01,
       "learning_rate": 5.154639175257731e-08,
+      "logits/chosen": -2.223740339279175,
+      "logits/rejected": -2.180643081665039,
+      "logps/chosen": -284.7340087890625,
+      "logps/rejected": -205.98194885253906,
+      "loss": 0.694,
+      "rewards/accuracies": 0.4305555522441864,
+      "rewards/chosen": -0.0006893649115227163,
+      "rewards/margins": 0.0007374237175099552,
+      "rewards/rejected": -0.0014267880469560623,
       "step": 10
     },
     {
       "epoch": 0.02,
       "learning_rate": 1.0309278350515462e-07,
+      "logits/chosen": -2.33476185798645,
+      "logits/rejected": -2.2125375270843506,
+      "logps/chosen": -320.8204040527344,
+      "logps/rejected": -248.4267120361328,
+      "loss": 0.692,
       "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": 0.0003039050498045981,
+      "rewards/margins": 0.0023796656168997288,
+      "rewards/rejected": -0.0020757606253027916,
       "step": 20
     },
     {
       "epoch": 0.03,
       "learning_rate": 1.5463917525773197e-07,
+      "logits/chosen": -2.339370012283325,
+      "logits/rejected": -2.304020404815674,
+      "logps/chosen": -268.95074462890625,
+      "logps/rejected": -227.067626953125,
+      "loss": 0.6921,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.0005883350968360901,
+      "rewards/margins": 0.002594549907371402,
+      "rewards/rejected": -0.0020062148105353117,
       "step": 30
     },
     {
       "epoch": 0.04,
       "learning_rate": 2.0618556701030925e-07,
+      "logits/chosen": -2.3392791748046875,
+      "logits/rejected": -2.3300938606262207,
+      "logps/chosen": -308.5113220214844,
+      "logps/rejected": -253.8385467529297,
+      "loss": 0.6945,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.0024464379530400038,
+      "rewards/margins": -0.00025889737298712134,
+      "rewards/rejected": 0.0027053358498960733,
       "step": 40
     },
     {
       "epoch": 0.05,
       "learning_rate": 2.5773195876288655e-07,
+      "logits/chosen": -2.251412868499756,
+      "logits/rejected": -2.2359275817871094,
+      "logps/chosen": -297.78375244140625,
+      "logps/rejected": -227.23556518554688,
+      "loss": 0.6922,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.0033915191888809204,
+      "rewards/margins": 0.0055986023508012295,
+      "rewards/rejected": -0.0022070836275815964,
       "step": 50
     },
     {
       "epoch": 0.06,
       "learning_rate": 3.0927835051546394e-07,
+      "logits/chosen": -2.167163848876953,
+      "logits/rejected": -2.3376193046569824,
+      "logps/chosen": -256.54510498046875,
+      "logps/rejected": -229.5459747314453,
+      "loss": 0.6917,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": 0.000388039683457464,
+      "rewards/margins": 0.007883811369538307,
+      "rewards/rejected": -0.0074957734905183315,
       "step": 60
     },
     {
       "epoch": 0.07,
       "learning_rate": 3.608247422680412e-07,
+      "logits/chosen": -2.3430614471435547,
+      "logits/rejected": -2.281782627105713,
+      "logps/chosen": -313.92608642578125,
+      "logps/rejected": -252.57284545898438,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.0012417413527145982,
+      "rewards/margins": 0.0001173208438558504,
+      "rewards/rejected": 0.0011244199704378843,
       "step": 70
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.123711340206185e-07,
+      "logits/chosen": -2.337070941925049,
+      "logits/rejected": -2.3018112182617188,
+      "logps/chosen": -302.9524841308594,
+      "logps/rejected": -243.9047088623047,
+      "loss": 0.6916,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": 0.0021400884725153446,
+      "rewards/margins": -0.0002812549355439842,
+      "rewards/rejected": 0.002421343233436346,
       "step": 80
     },
     {
       "epoch": 0.09,
       "learning_rate": 4.639175257731959e-07,
+      "logits/chosen": -2.259251356124878,
+      "logits/rejected": -2.2963995933532715,
+      "logps/chosen": -270.1668395996094,
+      "logps/rejected": -216.64822387695312,
+      "loss": 0.6913,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.009941437281668186,
+      "rewards/margins": 0.010241752490401268,
+      "rewards/rejected": -0.00030031436472199857,
       "step": 90
     },
     {
       "epoch": 0.1,
       "learning_rate": 4.982778415614236e-07,
+      "logits/chosen": -2.1677582263946533,
+      "logits/rejected": -2.2741990089416504,
+      "logps/chosen": -274.75836181640625,
+      "logps/rejected": -226.3966064453125,
+      "loss": 0.6901,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.006115993484854698,
+      "rewards/margins": 0.0013887921813875437,
+      "rewards/rejected": 0.0047272020019590855,
       "step": 100
     },
     {
       "epoch": 0.11,
       "learning_rate": 4.925373134328357e-07,
+      "logits/chosen": -2.271916389465332,
+      "logits/rejected": -2.197857141494751,
+      "logps/chosen": -274.72113037109375,
+      "logps/rejected": -232.5464324951172,
+      "loss": 0.6886,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.005831545684486628,
+      "rewards/margins": 0.0067709460854530334,
+      "rewards/rejected": -0.000939400284551084,
       "step": 110
     },
     {
       "epoch": 0.12,
       "learning_rate": 4.867967853042479e-07,
+      "logits/chosen": -2.2548232078552246,
+      "logits/rejected": -2.322075366973877,
+      "logps/chosen": -319.34521484375,
+      "logps/rejected": -235.76535034179688,
+      "loss": 0.689,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.013832703232765198,
+      "rewards/margins": 0.01176449190825224,
+      "rewards/rejected": 0.002068211790174246,
       "step": 120
     },
     {
       "epoch": 0.13,
       "learning_rate": 4.810562571756601e-07,
+      "logits/chosen": -2.32174015045166,
+      "logits/rejected": -2.3775150775909424,
+      "logps/chosen": -296.20733642578125,
+      "logps/rejected": -245.56655883789062,
+      "loss": 0.6875,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": 0.017552796751260757,
+      "rewards/margins": 0.013545483350753784,
+      "rewards/rejected": 0.004007314797490835,
       "step": 130
     },
     {
       "epoch": 0.14,
       "learning_rate": 4.753157290470723e-07,
+      "logits/chosen": -2.3627283573150635,
+      "logits/rejected": -2.310948133468628,
+      "logps/chosen": -301.9321594238281,
+      "logps/rejected": -239.2898406982422,
+      "loss": 0.688,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.011156091466546059,
+      "rewards/margins": 0.009668431244790554,
+      "rewards/rejected": 0.0014876595232635736,
       "step": 140
     },
     {
       "epoch": 0.15,
       "learning_rate": 4.6957520091848447e-07,
+      "logits/chosen": -2.2531113624572754,
+      "logits/rejected": -2.348215341567993,
+      "logps/chosen": -284.4292907714844,
+      "logps/rejected": -259.6882019042969,
+      "loss": 0.6858,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.017186133190989494,
+      "rewards/margins": 0.011862866580486298,
+      "rewards/rejected": 0.005323265679180622,
       "step": 150
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.6383467278989666e-07,
+      "logits/chosen": -2.361238956451416,
+      "logits/rejected": -2.4430744647979736,
+      "logps/chosen": -286.7644348144531,
+      "logps/rejected": -221.6837158203125,
+      "loss": 0.6857,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.01911218836903572,
+      "rewards/margins": 0.014816234819591045,
+      "rewards/rejected": 0.00429595448076725,
       "step": 160
     },
     {
       "epoch": 0.18,
       "learning_rate": 4.580941446613088e-07,
+      "logits/chosen": -2.32244610786438,
+      "logits/rejected": -2.3339757919311523,
+      "logps/chosen": -301.54693603515625,
+      "logps/rejected": -239.26095581054688,
+      "loss": 0.6839,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.023171866312623024,
+      "rewards/margins": 0.014685508795082569,
+      "rewards/rejected": 0.00848635844886303,
       "step": 170
     },
     {
       "epoch": 0.19,
       "learning_rate": 4.52353616532721e-07,
+      "logits/chosen": -2.347285032272339,
+      "logits/rejected": -2.3244121074676514,
+      "logps/chosen": -257.841552734375,
+      "logps/rejected": -214.5565643310547,
+      "loss": 0.6864,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.019994111731648445,
+      "rewards/margins": 0.01520625315606594,
+      "rewards/rejected": 0.004787858575582504,
       "step": 180
     },
     {
       "epoch": 0.2,
       "learning_rate": 4.4661308840413316e-07,
+      "logits/chosen": -2.2657313346862793,
+      "logits/rejected": -2.201254367828369,
+      "logps/chosen": -253.98916625976562,
+      "logps/rejected": -206.3340301513672,
+      "loss": 0.6833,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.0245305635035038,
+      "rewards/margins": 0.017677443102002144,
+      "rewards/rejected": 0.006853120867162943,
       "step": 190
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.408725602755453e-07,
+      "logits/chosen": -2.284461498260498,
+      "logits/rejected": -2.2873706817626953,
+      "logps/chosen": -261.44427490234375,
+      "logps/rejected": -195.59422302246094,
+      "loss": 0.6835,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.03187788277864456,
+      "rewards/margins": 0.024095263332128525,
+      "rewards/rejected": 0.007782619446516037,
       "step": 200
     },
     {
       "epoch": 0.22,
       "learning_rate": 4.351320321469575e-07,
+      "logits/chosen": -2.18426513671875,
+      "logits/rejected": -2.1963071823120117,
+      "logps/chosen": -302.31195068359375,
+      "logps/rejected": -218.6005401611328,
+      "loss": 0.6815,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.03718667849898338,
+      "rewards/margins": 0.026892077177762985,
+      "rewards/rejected": 0.010294605046510696,
       "step": 210
     },
     {
       "epoch": 0.23,
       "learning_rate": 4.2939150401836967e-07,
+      "logits/chosen": -2.2150394916534424,
+      "logits/rejected": -2.2160990238189697,
+      "logps/chosen": -269.44769287109375,
+      "logps/rejected": -235.6748504638672,
+      "loss": 0.6801,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.038056183606386185,
+      "rewards/margins": 0.023441683501005173,
+      "rewards/rejected": 0.014614498242735863,
       "step": 220
     },
     {
       "epoch": 0.24,
       "learning_rate": 4.236509758897818e-07,
+      "logits/chosen": -2.2152469158172607,
+      "logits/rejected": -2.1862380504608154,
+      "logps/chosen": -271.4049377441406,
+      "logps/rejected": -242.6397247314453,
       "loss": 0.6826,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.03268683701753616,
+      "rewards/margins": 0.026912549510598183,
+      "rewards/rejected": 0.0057742842473089695,
       "step": 230
     },
     {
       "epoch": 0.25,
       "learning_rate": 4.17910447761194e-07,
+      "logits/chosen": -2.3059380054473877,
+      "logits/rejected": -2.2681984901428223,
+      "logps/chosen": -309.55499267578125,
+      "logps/rejected": -221.61703491210938,
+      "loss": 0.6827,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 0.03509462997317314,
+      "rewards/margins": 0.012767216190695763,
+      "rewards/rejected": 0.02232741378247738,
       "step": 240
     },
     {
       "epoch": 0.26,
       "learning_rate": 4.121699196326062e-07,
+      "logits/chosen": -2.307035446166992,
+      "logits/rejected": -2.2920923233032227,
+      "logps/chosen": -272.9412841796875,
+      "logps/rejected": -237.314208984375,
+      "loss": 0.6824,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.03535359352827072,
+      "rewards/margins": 0.012216273695230484,
+      "rewards/rejected": 0.023137323558330536,
       "step": 250
     },
     {
       "epoch": 0.27,
       "learning_rate": 4.0642939150401836e-07,
+      "logits/chosen": -2.3456673622131348,
+      "logits/rejected": -2.3194832801818848,
+      "logps/chosen": -270.475341796875,
+      "logps/rejected": -221.84536743164062,
+      "loss": 0.6805,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.04569912329316139,
+      "rewards/margins": 0.029975151643157005,
+      "rewards/rejected": 0.015723969787359238,
       "step": 260
     },
     {
       "epoch": 0.28,
       "learning_rate": 4.006888633754305e-07,
+      "logits/chosen": -2.385854721069336,
+      "logits/rejected": -2.3556528091430664,
+      "logps/chosen": -284.36029052734375,
+      "logps/rejected": -232.5426788330078,
+      "loss": 0.6793,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.04998317360877991,
+      "rewards/margins": 0.032010577619075775,
+      "rewards/rejected": 0.017972594127058983,
       "step": 270
     },
     {
       "epoch": 0.29,
       "learning_rate": 3.949483352468427e-07,
+      "logits/chosen": -2.308225154876709,
+      "logits/rejected": -2.259629726409912,
+      "logps/chosen": -293.1715087890625,
+      "logps/rejected": -236.4293975830078,
+      "loss": 0.6771,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": 0.057786036282777786,
+      "rewards/margins": 0.04149205610156059,
+      "rewards/rejected": 0.016293983906507492,
       "step": 280
     },
     {
       "epoch": 0.3,
       "learning_rate": 3.8920780711825487e-07,
+      "logits/chosen": -2.278501033782959,
+      "logits/rejected": -2.369293689727783,
+      "logps/chosen": -278.4786376953125,
+      "logps/rejected": -227.40927124023438,
+      "loss": 0.6792,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.0485750176012516,
+      "rewards/margins": 0.02242155373096466,
+      "rewards/rejected": 0.02615346387028694,
       "step": 290
     },
     {
       "epoch": 0.31,
       "learning_rate": 3.83467278989667e-07,
+      "logits/chosen": -2.2661235332489014,
+      "logits/rejected": -2.205644130706787,
+      "logps/chosen": -254.183837890625,
+      "logps/rejected": -221.9667510986328,
+      "loss": 0.6772,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.05874975398182869,
+      "rewards/margins": 0.03965791314840317,
+      "rewards/rejected": 0.019091838970780373,
       "step": 300
     },
     {
       "epoch": 0.32,
       "learning_rate": 3.777267508610792e-07,
+      "logits/chosen": -2.32353138923645,
+      "logits/rejected": -2.3743112087249756,
+      "logps/chosen": -306.22711181640625,
+      "logps/rejected": -257.60980224609375,
+      "loss": 0.6783,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.04823786020278931,
+      "rewards/margins": 0.017192820087075233,
+      "rewards/rejected": 0.03104504384100437,
       "step": 310
     },
     {
       "epoch": 0.33,
       "learning_rate": 3.7198622273249137e-07,
+      "logits/chosen": -2.234679698944092,
+      "logits/rejected": -2.211430788040161,
+      "logps/chosen": -251.83053588867188,
+      "logps/rejected": -193.01544189453125,
+      "loss": 0.6739,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.06583289802074432,
+      "rewards/margins": 0.047706056386232376,
+      "rewards/rejected": 0.018126841634511948,
       "step": 320
     },
     {
       "epoch": 0.34,
       "learning_rate": 3.662456946039035e-07,
+      "logits/chosen": -2.259127140045166,
+      "logits/rejected": -2.287956714630127,
+      "logps/chosen": -312.1918029785156,
+      "logps/rejected": -239.03530883789062,
       "loss": 0.6761,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.07068151980638504,
+      "rewards/margins": 0.051512353122234344,
+      "rewards/rejected": 0.0191691592335701,
       "step": 330
     },
     {
       "epoch": 0.35,
       "learning_rate": 3.605051664753157e-07,
+      "logits/chosen": -2.197277784347534,
+      "logits/rejected": -2.13037109375,
+      "logps/chosen": -244.2609100341797,
+      "logps/rejected": -238.80953979492188,
+      "loss": 0.6788,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": 0.05732797831296921,
+      "rewards/margins": 0.030042264610528946,
+      "rewards/rejected": 0.027285713702440262,
       "step": 340
     },
     {
       "epoch": 0.36,
       "learning_rate": 3.547646383467279e-07,
+      "logits/chosen": -2.365830421447754,
+      "logits/rejected": -2.3728528022766113,
+      "logps/chosen": -313.7022705078125,
+      "logps/rejected": -248.090087890625,
+      "loss": 0.6746,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.08016298711299896,
+      "rewards/margins": 0.05509548634290695,
+      "rewards/rejected": 0.025067497044801712,
       "step": 350
     },
     {
       "epoch": 0.37,
       "learning_rate": 3.4902411021814007e-07,
+      "logits/chosen": -2.22756290435791,
+      "logits/rejected": -2.259359121322632,
+      "logps/chosen": -303.25250244140625,
+      "logps/rejected": -249.8985595703125,
+      "loss": 0.6723,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.06414168328046799,
+      "rewards/margins": 0.04363773763179779,
+      "rewards/rejected": 0.020503941923379898,
       "step": 360
     },
     {
       "epoch": 0.38,
       "learning_rate": 3.432835820895522e-07,
+      "logits/chosen": -2.3700273036956787,
+      "logits/rejected": -2.3231639862060547,
+      "logps/chosen": -314.5257263183594,
+      "logps/rejected": -270.7105712890625,
       "loss": 0.6759,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.07061124593019485,
+      "rewards/margins": 0.03391130641102791,
+      "rewards/rejected": 0.03669993579387665,
       "step": 370
     },
     {
       "epoch": 0.39,
       "learning_rate": 3.375430539609644e-07,
+      "logits/chosen": -2.3212878704071045,
+      "logits/rejected": -2.249602794647217,
+      "logps/chosen": -291.92474365234375,
+      "logps/rejected": -239.6724395751953,
+      "loss": 0.677,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.07373902946710587,
+      "rewards/margins": 0.03367278352379799,
+      "rewards/rejected": 0.04006624594330788,
       "step": 380
     },
     {
       "epoch": 0.4,
       "learning_rate": 3.3180252583237657e-07,
+      "logits/chosen": -2.297023057937622,
+      "logits/rejected": -2.264172077178955,
+      "logps/chosen": -278.0927734375,
+      "logps/rejected": -237.13436889648438,
+      "loss": 0.6722,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": 0.0686158686876297,
+      "rewards/margins": 0.051144860684871674,
+      "rewards/rejected": 0.01747100241482258,
       "step": 390
     },
     {
       "epoch": 0.41,
       "learning_rate": 3.260619977037887e-07,
+      "logits/chosen": -2.237035036087036,
+      "logits/rejected": -2.2392399311065674,
+      "logps/chosen": -263.4399108886719,
+      "logps/rejected": -213.87451171875,
+      "loss": 0.6707,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": 0.06768475472927094,
+      "rewards/margins": 0.048441771417856216,
+      "rewards/rejected": 0.019242987036705017,
       "step": 400
     },
     {
       "epoch": 0.42,
       "learning_rate": 3.203214695752009e-07,
+      "logits/chosen": -2.2776081562042236,
+      "logits/rejected": -2.2924447059631348,
+      "logps/chosen": -268.8953857421875,
+      "logps/rejected": -252.852294921875,
+      "loss": 0.6673,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.08111406862735748,
+      "rewards/margins": 0.05318716913461685,
+      "rewards/rejected": 0.027926897630095482,
       "step": 410
     },
     {
       "epoch": 0.43,
       "learning_rate": 3.145809414466131e-07,
+      "logits/chosen": -2.3054046630859375,
+      "logits/rejected": -2.2502362728118896,
+      "logps/chosen": -252.5205841064453,
+      "logps/rejected": -204.43344116210938,
+      "loss": 0.6749,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": 0.07272285223007202,
+      "rewards/margins": 0.04809904843568802,
+      "rewards/rejected": 0.024623800069093704,
       "step": 420
     },
     {
       "epoch": 0.44,
       "learning_rate": 3.0884041331802526e-07,
+      "logits/chosen": -2.3482632637023926,
+      "logits/rejected": -2.3258707523345947,
+      "logps/chosen": -263.67095947265625,
+      "logps/rejected": -241.14047241210938,
+      "loss": 0.6741,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.07022975385189056,
+      "rewards/margins": 0.04051927849650383,
+      "rewards/rejected": 0.029710477218031883,
       "step": 430
     },
     {
       "epoch": 0.45,
       "learning_rate": 3.030998851894374e-07,
+      "logits/chosen": -2.286533832550049,
+      "logits/rejected": -2.320568084716797,
+      "logps/chosen": -286.72894287109375,
+      "logps/rejected": -247.65542602539062,
+      "loss": 0.6705,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": 0.07666246592998505,
+      "rewards/margins": 0.05972421169281006,
+      "rewards/rejected": 0.01693824864923954,
       "step": 440
     },
     {
       "epoch": 0.46,
       "learning_rate": 2.973593570608496e-07,
+      "logits/chosen": -2.206477642059326,
+      "logits/rejected": -2.315464496612549,
+      "logps/chosen": -276.1682434082031,
+      "logps/rejected": -230.3959197998047,
+      "loss": 0.678,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.0718303695321083,
+      "rewards/margins": 0.04074189439415932,
+      "rewards/rejected": 0.03108847141265869,
       "step": 450
     },
     {
       "epoch": 0.47,
       "learning_rate": 2.9161882893226177e-07,
+      "logits/chosen": -2.277815103530884,
+      "logits/rejected": -2.342268705368042,
+      "logps/chosen": -273.23773193359375,
+      "logps/rejected": -222.5966796875,
+      "loss": 0.6662,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.0802597850561142,
+      "rewards/margins": 0.050464123487472534,
+      "rewards/rejected": 0.029795657843351364,
       "step": 460
     },
     {
       "epoch": 0.49,
       "learning_rate": 2.858783008036739e-07,
+      "logits/chosen": -2.2656216621398926,
+      "logits/rejected": -2.2778594493865967,
+      "logps/chosen": -248.9929656982422,
+      "logps/rejected": -215.5894012451172,
+      "loss": 0.6669,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.08564073592424393,
+      "rewards/margins": 0.06490761041641235,
+      "rewards/rejected": 0.020733121782541275,
       "step": 470
     },
     {
       "epoch": 0.5,
       "learning_rate": 2.801377726750861e-07,
+      "logits/chosen": -2.2962255477905273,
+      "logits/rejected": -2.27239727973938,
+      "logps/chosen": -289.5277404785156,
+      "logps/rejected": -231.601318359375,
+      "loss": 0.6713,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.08144901692867279,
+      "rewards/margins": 0.05658548325300217,
+      "rewards/rejected": 0.024863524362444878,
       "step": 480
     },
     {
       "epoch": 0.51,
       "learning_rate": 2.743972445464983e-07,
+      "logits/chosen": -2.445746660232544,
+      "logits/rejected": -2.267007827758789,
+      "logps/chosen": -293.1885986328125,
+      "logps/rejected": -243.8875274658203,
+      "loss": 0.6676,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.10828351974487305,
+      "rewards/margins": 0.08175922185182571,
+      "rewards/rejected": 0.02652430161833763,
       "step": 490
     },
     {
       "epoch": 0.52,
       "learning_rate": 2.686567164179104e-07,
+      "logits/chosen": -2.278276205062866,
+      "logits/rejected": -2.295633316040039,
+      "logps/chosen": -254.94760131835938,
+      "logps/rejected": -221.79452514648438,
+      "loss": 0.6672,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.08227074891328812,
+      "rewards/margins": 0.055896710604429245,
+      "rewards/rejected": 0.026374032720923424,
       "step": 500
     },
     {
       "epoch": 0.53,
       "learning_rate": 2.629161882893226e-07,
+      "logits/chosen": -2.202611207962036,
+      "logits/rejected": -2.2495861053466797,
+      "logps/chosen": -310.4443664550781,
+      "logps/rejected": -256.72406005859375,
+      "loss": 0.6666,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": 0.07021793723106384,
+      "rewards/margins": 0.040728576481342316,
+      "rewards/rejected": 0.02948935702443123,
       "step": 510
     },
     {
       "epoch": 0.54,
       "learning_rate": 2.571756601607348e-07,
+      "logits/chosen": -2.3376307487487793,
+      "logits/rejected": -2.352074146270752,
+      "logps/chosen": -278.10504150390625,
+      "logps/rejected": -244.0722198486328,
+      "loss": 0.6697,
       "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.0925985723733902,
+      "rewards/margins": 0.0637633204460144,
+      "rewards/rejected": 0.028835251927375793,
       "step": 520
     },
     {
       "epoch": 0.55,
       "learning_rate": 2.5143513203214697e-07,
+      "logits/chosen": -2.243332624435425,
+      "logits/rejected": -2.2513413429260254,
+      "logps/chosen": -242.59439086914062,
+      "logps/rejected": -224.13259887695312,
+      "loss": 0.6716,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.07866770029067993,
+      "rewards/margins": 0.057711243629455566,
+      "rewards/rejected": 0.020956454798579216,
       "step": 530
     },
     {
       "epoch": 0.56,
       "learning_rate": 2.456946039035591e-07,
+      "logits/chosen": -2.300567150115967,
+      "logits/rejected": -2.271827220916748,
+      "logps/chosen": -288.2174377441406,
+      "logps/rejected": -240.34439086914062,
+      "loss": 0.6682,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.10411250591278076,
+      "rewards/margins": 0.05851038545370102,
+      "rewards/rejected": 0.04560210928320885,
       "step": 540
     },
     {
       "epoch": 0.57,
       "learning_rate": 2.399540757749713e-07,
+      "logits/chosen": -2.3359756469726562,
+      "logits/rejected": -2.194058895111084,
+      "logps/chosen": -265.052001953125,
+      "logps/rejected": -230.23605346679688,
+      "loss": 0.6686,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.0775262787938118,
+      "rewards/margins": 0.05575944110751152,
+      "rewards/rejected": 0.021766824647784233,
       "step": 550
     },
     {
       "epoch": 0.58,
       "learning_rate": 2.3421354764638345e-07,
+      "logits/chosen": -2.3195242881774902,
+      "logits/rejected": -2.283975124359131,
+      "logps/chosen": -302.0104064941406,
+      "logps/rejected": -252.0124053955078,
+      "loss": 0.6708,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.10010389983654022,
+      "rewards/margins": 0.053703296929597855,
+      "rewards/rejected": 0.04640059918165207,
       "step": 560
     },
     {
       "epoch": 0.59,
       "learning_rate": 2.2847301951779563e-07,
+      "logits/chosen": -2.2481091022491455,
+      "logits/rejected": -2.400871515274048,
+      "logps/chosen": -268.6519775390625,
+      "logps/rejected": -223.69882202148438,
+      "loss": 0.6654,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.0826568529009819,
+      "rewards/margins": 0.05431235954165459,
+      "rewards/rejected": 0.028344491496682167,
       "step": 570
     },
     {
       "epoch": 0.6,
       "learning_rate": 2.227324913892078e-07,
+      "logits/chosen": -2.299408197402954,
+      "logits/rejected": -2.22338604927063,
+      "logps/chosen": -299.3912353515625,
+      "logps/rejected": -236.9815216064453,
+      "loss": 0.661,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": 0.10458721220493317,
+      "rewards/margins": 0.08465038239955902,
+      "rewards/rejected": 0.019936833530664444,
       "step": 580
     },
     {
       "epoch": 0.61,
       "learning_rate": 2.1699196326061998e-07,
+      "logits/chosen": -2.2584633827209473,
+      "logits/rejected": -2.2311649322509766,
+      "logps/chosen": -253.76913452148438,
+      "logps/rejected": -218.6166534423828,
+      "loss": 0.6687,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.07234074175357819,
+      "rewards/margins": 0.04758009687066078,
+      "rewards/rejected": 0.024760644882917404,
       "step": 590
     },
     {
       "epoch": 0.62,
       "learning_rate": 2.1125143513203214e-07,
+      "logits/chosen": -2.318943738937378,
+      "logits/rejected": -2.2511682510375977,
+      "logps/chosen": -256.5652770996094,
+      "logps/rejected": -206.35586547851562,
+      "loss": 0.669,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.07542125880718231,
+      "rewards/margins": 0.0553053617477417,
+      "rewards/rejected": 0.020115893334150314,
       "step": 600
     },
     {
       "epoch": 0.63,
       "learning_rate": 2.055109070034443e-07,
+      "logits/chosen": -2.3058714866638184,
+      "logits/rejected": -2.304198741912842,
+      "logps/chosen": -266.4674987792969,
+      "logps/rejected": -223.82711791992188,
+      "loss": 0.6677,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.09824246913194656,
+      "rewards/margins": 0.06738617271184921,
+      "rewards/rejected": 0.03085630014538765,
       "step": 610
     },
     {
       "epoch": 0.64,
       "learning_rate": 1.997703788748565e-07,
+      "logits/chosen": -2.337787389755249,
+      "logits/rejected": -2.2819180488586426,
+      "logps/chosen": -313.7826232910156,
+      "logps/rejected": -249.5704803466797,
+      "loss": 0.6582,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": 0.10966908931732178,
+      "rewards/margins": 0.08016980439424515,
+      "rewards/rejected": 0.029499292373657227,
       "step": 620
     },
     {
       "epoch": 0.65,
       "learning_rate": 1.9402985074626865e-07,
+      "logits/chosen": -2.2067112922668457,
+      "logits/rejected": -2.246953010559082,
+      "logps/chosen": -259.2144775390625,
+      "logps/rejected": -240.3810272216797,
+      "loss": 0.6653,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.09941162168979645,
+      "rewards/margins": 0.06417630612850189,
+      "rewards/rejected": 0.035235337913036346,
       "step": 630
     },
     {
       "epoch": 0.66,
       "learning_rate": 1.8828932261768083e-07,
+      "logits/chosen": -2.2894420623779297,
+      "logits/rejected": -2.2385382652282715,
+      "logps/chosen": -266.48992919921875,
+      "logps/rejected": -217.8952178955078,
+      "loss": 0.661,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.095299132168293,
+      "rewards/margins": 0.07987986505031586,
+      "rewards/rejected": 0.01541926246136427,
       "step": 640
     },
     {
       "epoch": 0.67,
       "learning_rate": 1.82548794489093e-07,
+      "logits/chosen": -2.33485746383667,
+      "logits/rejected": -2.3108019828796387,
+      "logps/chosen": -284.7020568847656,
+      "logps/rejected": -232.82080078125,
+      "loss": 0.664,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.10341651737689972,
+      "rewards/margins": 0.07464977353811264,
+      "rewards/rejected": 0.028766745701432228,
       "step": 650
     },
     {
       "epoch": 0.68,
       "learning_rate": 1.7680826636050515e-07,
+      "logits/chosen": -2.3347816467285156,
+      "logits/rejected": -2.2758853435516357,
+      "logps/chosen": -279.80059814453125,
+      "logps/rejected": -233.2425994873047,
       "loss": 0.6608,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": 0.11068934202194214,
+      "rewards/margins": 0.07695071399211884,
+      "rewards/rejected": 0.0337386280298233,
       "step": 660
     },
     {
       "epoch": 0.69,
       "learning_rate": 1.7106773823191734e-07,
+      "logits/chosen": -2.2854952812194824,
+      "logits/rejected": -2.273536205291748,
+      "logps/chosen": -295.6964416503906,
+      "logps/rejected": -240.4071502685547,
+      "loss": 0.6615,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.1013779416680336,
+      "rewards/margins": 0.060683172196149826,
+      "rewards/rejected": 0.04069476202130318,
       "step": 670
     },
     {
       "epoch": 0.7,
       "learning_rate": 1.653272101033295e-07,
+      "logits/chosen": -2.34243106842041,
+      "logits/rejected": -2.2720611095428467,
+      "logps/chosen": -289.71722412109375,
+      "logps/rejected": -230.321533203125,
+      "loss": 0.6729,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": 0.09767869859933853,
+      "rewards/margins": 0.039280109107494354,
+      "rewards/rejected": 0.05839858204126358,
       "step": 680
     },
     {
       "epoch": 0.71,
       "learning_rate": 1.5958668197474169e-07,
+      "logits/chosen": -2.371598482131958,
+      "logits/rejected": -2.362656354904175,
+      "logps/chosen": -268.17828369140625,
+      "logps/rejected": -229.41232299804688,
+      "loss": 0.6659,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.0969640463590622,
+      "rewards/margins": 0.06369610875844955,
+      "rewards/rejected": 0.033267926424741745,
       "step": 690
     },
     {
       "epoch": 0.72,
       "learning_rate": 1.5384615384615385e-07,
+      "logits/chosen": -2.2588796615600586,
+      "logits/rejected": -2.2576823234558105,
+      "logps/chosen": -282.4342041015625,
+      "logps/rejected": -222.56381225585938,
+      "loss": 0.664,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.10399500280618668,
+      "rewards/margins": 0.08138440549373627,
+      "rewards/rejected": 0.0226106159389019,
       "step": 700
     },
     {
       "epoch": 0.73,
       "learning_rate": 1.4810562571756603e-07,
+      "logits/chosen": -2.3341283798217773,
+      "logits/rejected": -2.2046780586242676,
+      "logps/chosen": -272.2647399902344,
+      "logps/rejected": -208.01364135742188,
+      "loss": 0.666,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.10669133812189102,
+      "rewards/margins": 0.08235933631658554,
+      "rewards/rejected": 0.02433200553059578,
       "step": 710
     },
     {
       "epoch": 0.74,
       "learning_rate": 1.423650975889782e-07,
+      "logits/chosen": -2.323979139328003,
+      "logits/rejected": -2.340238094329834,
+      "logps/chosen": -303.2074279785156,
+      "logps/rejected": -259.44268798828125,
+      "loss": 0.6667,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.11533965170383453,
+      "rewards/margins": 0.047552816569805145,
+      "rewards/rejected": 0.06778682768344879,
       "step": 720
     },
     {
       "epoch": 0.75,
       "learning_rate": 1.3662456946039035e-07,
+      "logits/chosen": -2.3031513690948486,
+      "logits/rejected": -2.28584623336792,
+      "logps/chosen": -270.1670837402344,
+      "logps/rejected": -252.5519256591797,
+      "loss": 0.6642,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": 0.10461707413196564,
+      "rewards/margins": 0.058367032557725906,
+      "rewards/rejected": 0.04625004902482033,
       "step": 730
     },
     {
       "epoch": 0.76,
       "learning_rate": 1.3088404133180254e-07,
+      "logits/chosen": -2.2157022953033447,
+      "logits/rejected": -2.2670745849609375,
+      "logps/chosen": -276.71240234375,
+      "logps/rejected": -199.2496795654297,
+      "loss": 0.6635,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": 0.11176248639822006,
+      "rewards/margins": 0.08353973925113678,
+      "rewards/rejected": 0.02822275087237358,
       "step": 740
     },
     {
       "epoch": 0.77,
       "learning_rate": 1.251435132032147e-07,
+      "logits/chosen": -2.2043914794921875,
+      "logits/rejected": -2.221619129180908,
+      "logps/chosen": -269.0702819824219,
+      "logps/rejected": -220.8921356201172,
+      "loss": 0.665,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.09922349452972412,
+      "rewards/margins": 0.04318443313241005,
+      "rewards/rejected": 0.05603905767202377,
       "step": 750
     },
     {
       "epoch": 0.78,
       "learning_rate": 1.1940298507462686e-07,
+      "logits/chosen": -2.232959270477295,
+      "logits/rejected": -2.2529525756835938,
+      "logps/chosen": -267.9338684082031,
+      "logps/rejected": -249.4876251220703,
+      "loss": 0.6684,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.08004304021596909,
+      "rewards/margins": 0.04949140548706055,
+      "rewards/rejected": 0.030551627278327942,
       "step": 760
     },
     {
       "epoch": 0.8,
       "learning_rate": 1.1366245694603903e-07,
+      "logits/chosen": -2.293257236480713,
+      "logits/rejected": -2.2078585624694824,
+      "logps/chosen": -273.19671630859375,
+      "logps/rejected": -238.57858276367188,
+      "loss": 0.661,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.11353409290313721,
+      "rewards/margins": 0.06645722687244415,
+      "rewards/rejected": 0.04707685858011246,
       "step": 770
     },
     {
       "epoch": 0.81,
       "learning_rate": 1.079219288174512e-07,
+      "logits/chosen": -2.3507869243621826,
+      "logits/rejected": -2.325718879699707,
+      "logps/chosen": -290.9693298339844,
+      "logps/rejected": -236.1486358642578,
+      "loss": 0.6633,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.0980958342552185,
+      "rewards/margins": 0.07181811332702637,
+      "rewards/rejected": 0.026277724653482437,
       "step": 780
     },
     {
       "epoch": 0.82,
       "learning_rate": 1.0218140068886336e-07,
+      "logits/chosen": -2.268038272857666,
+      "logits/rejected": -2.286581516265869,
+      "logps/chosen": -270.3387451171875,
+      "logps/rejected": -221.06356811523438,
+      "loss": 0.6564,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.12088136374950409,
+      "rewards/margins": 0.080001600086689,
+      "rewards/rejected": 0.040879763662815094,
       "step": 790
     },
     {
       "epoch": 0.83,
       "learning_rate": 9.644087256027554e-08,
+      "logits/chosen": -2.272735118865967,
+      "logits/rejected": -2.2941083908081055,
+      "logps/chosen": -284.6488952636719,
+      "logps/rejected": -243.56796264648438,
+      "loss": 0.6639,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": 0.1113913282752037,
+      "rewards/margins": 0.05327050760388374,
+      "rewards/rejected": 0.05812082439661026,
       "step": 800
     },
     {
       "epoch": 0.84,
       "learning_rate": 9.070034443168771e-08,
+      "logits/chosen": -2.2838375568389893,
+      "logits/rejected": -2.289247751235962,
+      "logps/chosen": -269.5845642089844,
+      "logps/rejected": -230.6207275390625,
+      "loss": 0.6617,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.09149408340454102,
+      "rewards/margins": 0.06341233849525452,
+      "rewards/rejected": 0.02808173932135105,
       "step": 810
     },
     {
       "epoch": 0.85,
       "learning_rate": 8.495981630309988e-08,
+      "logits/chosen": -2.365980863571167,
+      "logits/rejected": -2.3436598777770996,
+      "logps/chosen": -302.0718688964844,
+      "logps/rejected": -228.1407470703125,
+      "loss": 0.6623,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.13062262535095215,
+      "rewards/margins": 0.08858474344015121,
+      "rewards/rejected": 0.04203786700963974,
       "step": 820
     },
     {
       "epoch": 0.86,
       "learning_rate": 7.921928817451206e-08,
+      "logits/chosen": -2.342413902282715,
+      "logits/rejected": -2.2254080772399902,
+      "logps/chosen": -287.4922180175781,
+      "logps/rejected": -222.5606231689453,
+      "loss": 0.6565,
       "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.12904855608940125,
+      "rewards/margins": 0.08615640550851822,
+      "rewards/rejected": 0.04289213940501213,
       "step": 830
     },
     {
       "epoch": 0.87,
       "learning_rate": 7.347876004592423e-08,
+      "logits/chosen": -2.259397029876709,
+      "logits/rejected": -2.227036476135254,
+      "logps/chosen": -258.3423767089844,
+      "logps/rejected": -216.99606323242188,
+      "loss": 0.6714,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.10358164459466934,
+      "rewards/margins": 0.06773830950260162,
+      "rewards/rejected": 0.03584333881735802,
       "step": 840
     },
     {
       "epoch": 0.88,
       "learning_rate": 6.773823191733639e-08,
+      "logits/chosen": -2.2834537029266357,
+      "logits/rejected": -2.3872971534729004,
+      "logps/chosen": -262.05084228515625,
+      "logps/rejected": -231.11306762695312,
+      "loss": 0.6647,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.09495140612125397,
+      "rewards/margins": 0.055265575647354126,
+      "rewards/rejected": 0.03968583419919014,
       "step": 850
     },
     {
       "epoch": 0.89,
       "learning_rate": 6.199770378874856e-08,
+      "logits/chosen": -2.4065003395080566,
+      "logits/rejected": -2.3337345123291016,
+      "logps/chosen": -295.71478271484375,
+      "logps/rejected": -270.1822814941406,
+      "loss": 0.6693,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.11348612606525421,
+      "rewards/margins": 0.07466179132461548,
+      "rewards/rejected": 0.03882431983947754,
       "step": 860
     },
     {
       "epoch": 0.9,
       "learning_rate": 5.6257175660160735e-08,
+      "logits/chosen": -2.2463555335998535,
+      "logits/rejected": -2.2443947792053223,
+      "logps/chosen": -312.9588317871094,
+      "logps/rejected": -237.4109344482422,
+      "loss": 0.6644,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.10128283500671387,
+      "rewards/margins": 0.053178369998931885,
+      "rewards/rejected": 0.04810447618365288,
       "step": 870
     },
     {
       "epoch": 0.91,
       "learning_rate": 5.05166475315729e-08,
+      "logits/chosen": -2.358501434326172,
+      "logits/rejected": -2.313483715057373,
+      "logps/chosen": -291.43377685546875,
+      "logps/rejected": -240.09054565429688,
+      "loss": 0.6632,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.10742716491222382,
+      "rewards/margins": 0.07204015552997589,
+      "rewards/rejected": 0.03538701683282852,
       "step": 880
     },
     {
       "epoch": 0.92,
       "learning_rate": 4.477611940298507e-08,
+      "logits/chosen": -2.313149929046631,
+      "logits/rejected": -2.3558261394500732,
+      "logps/chosen": -285.90643310546875,
+      "logps/rejected": -235.43051147460938,
+      "loss": 0.6666,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.12259715795516968,
+      "rewards/margins": 0.09698096662759781,
+      "rewards/rejected": 0.02561618760228157,
       "step": 890
     },
     {
       "epoch": 0.93,
       "learning_rate": 3.903559127439724e-08,
+      "logits/chosen": -2.3278651237487793,
+      "logits/rejected": -2.195068836212158,
+      "logps/chosen": -272.7381896972656,
+      "logps/rejected": -211.40640258789062,
+      "loss": 0.658,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": 0.1207551583647728,
+      "rewards/margins": 0.09316142648458481,
+      "rewards/rejected": 0.027593741193413734,
       "step": 900
     },
     {
       "epoch": 0.94,
       "learning_rate": 3.3295063145809414e-08,
+      "logits/chosen": -2.290696859359741,
+      "logits/rejected": -2.3440823554992676,
+      "logps/chosen": -238.2651824951172,
+      "logps/rejected": -206.77969360351562,
+      "loss": 0.6616,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.09928463399410248,
+      "rewards/margins": 0.07226204872131348,
+      "rewards/rejected": 0.027022594586014748,
       "step": 910
     },
     {
       "epoch": 0.95,
       "learning_rate": 2.755453501722158e-08,
+      "logits/chosen": -2.375807762145996,
+      "logits/rejected": -2.367743730545044,
+      "logps/chosen": -281.56195068359375,
+      "logps/rejected": -225.125244140625,
+      "loss": 0.662,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": 0.1072310209274292,
+      "rewards/margins": 0.056608647108078,
+      "rewards/rejected": 0.050622373819351196,
       "step": 920
     },
     {
       "epoch": 0.96,
       "learning_rate": 2.1814006888633754e-08,
+      "logits/chosen": -2.281919002532959,
+      "logits/rejected": -2.254122734069824,
+      "logps/chosen": -256.39105224609375,
+      "logps/rejected": -203.3081817626953,
+      "loss": 0.6617,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.11211923509836197,
+      "rewards/margins": 0.07925260812044144,
+      "rewards/rejected": 0.03286661207675934,
       "step": 930
     },
     {
       "epoch": 0.97,
       "learning_rate": 1.6073478760045924e-08,
+      "logits/chosen": -2.316282272338867,
+      "logits/rejected": -2.3123340606689453,
+      "logps/chosen": -271.6207580566406,
+      "logps/rejected": -231.7317352294922,
+      "loss": 0.6626,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": 0.10637687146663666,
+      "rewards/margins": 0.06768520176410675,
+      "rewards/rejected": 0.0386916846036911,
       "step": 940
     },
     {
       "epoch": 0.98,
       "learning_rate": 1.0332950631458094e-08,
+      "logits/chosen": -2.3146958351135254,
+      "logits/rejected": -2.2793381214141846,
+      "logps/chosen": -282.83270263671875,
+      "logps/rejected": -233.0804443359375,
+      "loss": 0.6612,
       "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": 0.11455857753753662,
+      "rewards/margins": 0.0838586837053299,
+      "rewards/rejected": 0.030699897557497025,
       "step": 950
     },
     {
       "epoch": 0.99,
       "learning_rate": 4.592422502870264e-09,
+      "logits/chosen": -2.251638889312744,
+      "logits/rejected": -2.234907627105713,
+      "logps/chosen": -281.0075378417969,
+      "logps/rejected": -239.98049926757812,
+      "loss": 0.661,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.1062885969877243,
+      "rewards/margins": 0.06708581745624542,
+      "rewards/rejected": 0.03920278698205948,
       "step": 960
     },
     {
       "epoch": 1.0,
+      "eval_logits/chosen": -2.4597132205963135,
+      "eval_logits/rejected": -2.398695468902588,
+      "eval_logps/chosen": -278.69171142578125,
+      "eval_logps/rejected": -230.4560089111328,
+      "eval_loss": 0.6642152070999146,
+      "eval_rewards/accuracies": 0.6480000019073486,
+      "eval_rewards/chosen": 0.10415761172771454,
+      "eval_rewards/margins": 0.06405296921730042,
+      "eval_rewards/rejected": 0.04010463133454323,
+      "eval_runtime": 443.9432,
+      "eval_samples_per_second": 4.505,
+      "eval_steps_per_second": 0.282,
       "step": 968
     },
     {
       "epoch": 1.0,
       "step": 968,
       "total_flos": 0.0,
+      "train_loss": 0.6728762634529555,
+      "train_runtime": 27528.1814,
+      "train_samples_per_second": 2.251,
       "train_steps_per_second": 0.035
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e17c7a7d2c11078dfab2a74b3be402684b85c57187f1c9e190575380bb18b7e5
 size 4792

 version https://git-lfs.github.com/spec/v1
+oid sha256:cfc6fa65238373edb8c038b73d0de99649ac0d248e697a0222bd24510217b308
 size 4792