diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,6507 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 498,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "completion_length": 82.65625,
+      "epoch": 0.012048192771084338,
+      "grad_norm": 5.841508927710052,
+      "kl": 0.0,
+      "learning_rate": 9.97991967871486e-07,
+      "loss": 0.0,
+      "reward": 1.4489864706993103,
+      "reward_std": 0.8421240150928497,
+      "rewards/accuracy_reward": 0.8005490005016327,
+      "rewards/format_reward": 0.6484375,
+      "step": 1
+    },
+    {
+      "completion_length": 91.453125,
+      "epoch": 0.024096385542168676,
+      "grad_norm": 4.392637703815363,
+      "kl": 0.00279998779296875,
+      "learning_rate": 9.959839357429717e-07,
+      "loss": 0.0001,
+      "reward": 1.3076424598693848,
+      "reward_std": 0.8380775451660156,
+      "rewards/accuracy_reward": 0.6123300492763519,
+      "rewards/format_reward": 0.6953125,
+      "step": 2
+    },
+    {
+      "completion_length": 79.171875,
+      "epoch": 0.03614457831325301,
+      "grad_norm": 5.134937236220538,
+      "kl": 0.009063720703125,
+      "learning_rate": 9.93975903614458e-07,
+      "loss": 0.0004,
+      "reward": 1.650797963142395,
+      "reward_std": 0.8256142735481262,
+      "rewards/accuracy_reward": 0.8773605227470398,
+      "rewards/format_reward": 0.7734375,
+      "step": 3
+    },
+    {
+      "completion_length": 90.8671875,
+      "epoch": 0.04819277108433735,
+      "grad_norm": 4.181043208735878,
+      "kl": 0.0099029541015625,
+      "learning_rate": 9.919678714859437e-07,
+      "loss": 0.0004,
+      "reward": 1.4978268146514893,
+      "reward_std": 0.7668428122997284,
+      "rewards/accuracy_reward": 0.6618892848491669,
+      "rewards/format_reward": 0.8359375,
+      "step": 4
+    },
+    {
+      "completion_length": 83.15625,
+      "epoch": 0.060240963855421686,
+      "grad_norm": 4.623169300333461,
+      "kl": 0.028106689453125,
+      "learning_rate": 9.899598393574296e-07,
+      "loss": 0.0011,
+      "reward": 1.959537386894226,
+      "reward_std": 0.6147363781929016,
+      "rewards/accuracy_reward": 1.0532873272895813,
+      "rewards/format_reward": 0.90625,
+      "step": 5
+    },
+    {
+      "completion_length": 75.1484375,
+      "epoch": 0.07228915662650602,
+      "grad_norm": 5.568012410409197,
+      "kl": 0.03021240234375,
+      "learning_rate": 9.879518072289156e-07,
+      "loss": 0.0012,
+      "reward": 2.047786593437195,
+      "reward_std": 0.4053535610437393,
+      "rewards/accuracy_reward": 1.0946615934371948,
+      "rewards/format_reward": 0.953125,
+      "step": 6
+    },
+    {
+      "completion_length": 76.03125,
+      "epoch": 0.08433734939759036,
+      "grad_norm": 4.7579852016782045,
+      "kl": 0.033935546875,
+      "learning_rate": 9.859437751004016e-07,
+      "loss": 0.0014,
+      "reward": 2.1630080938339233,
+      "reward_std": 0.3877447098493576,
+      "rewards/accuracy_reward": 1.2333204746246338,
+      "rewards/format_reward": 0.9296875,
+      "step": 7
+    },
+    {
+      "completion_length": 71.546875,
+      "epoch": 0.0963855421686747,
+      "grad_norm": 9.256093312505593,
+      "kl": 0.244384765625,
+      "learning_rate": 9.839357429718876e-07,
+      "loss": 0.0097,
+      "reward": 2.015242576599121,
+      "reward_std": 0.4337102472782135,
+      "rewards/accuracy_reward": 1.054305076599121,
+      "rewards/format_reward": 0.9609375,
+      "step": 8
+    },
+    {
+      "completion_length": 72.1796875,
+      "epoch": 0.10843373493975904,
+      "grad_norm": 9.959610046323814,
+      "kl": 0.2841796875,
+      "learning_rate": 9.819277108433734e-07,
+      "loss": 0.0114,
+      "reward": 1.9989103078842163,
+      "reward_std": 0.38074547052383423,
+      "rewards/accuracy_reward": 1.0145351886749268,
+      "rewards/format_reward": 0.984375,
+      "step": 9
+    },
+    {
+      "completion_length": 67.0078125,
+      "epoch": 0.12048192771084337,
+      "grad_norm": 4.494217301954794,
+      "kl": 0.0677490234375,
+      "learning_rate": 9.799196787148593e-07,
+      "loss": 0.0027,
+      "reward": 2.208647847175598,
+      "reward_std": 0.20472895354032516,
+      "rewards/accuracy_reward": 1.2086476683616638,
+      "rewards/format_reward": 1.0,
+      "step": 10
+    },
+    {
+      "completion_length": 66.3125,
+      "epoch": 0.13253012048192772,
+      "grad_norm": 4.205085729740715,
+      "kl": 0.111083984375,
+      "learning_rate": 9.779116465863453e-07,
+      "loss": 0.0044,
+      "reward": 2.016738772392273,
+      "reward_std": 0.39626075327396393,
+      "rewards/accuracy_reward": 1.0323637425899506,
+      "rewards/format_reward": 0.984375,
+      "step": 11
+    },
+    {
+      "completion_length": 64.2265625,
+      "epoch": 0.14457831325301204,
+      "grad_norm": 5.285643902891126,
+      "kl": 0.0670166015625,
+      "learning_rate": 9.759036144578313e-07,
+      "loss": 0.0027,
+      "reward": 2.0809445977211,
+      "reward_std": 0.3285638391971588,
+      "rewards/accuracy_reward": 1.080944538116455,
+      "rewards/format_reward": 1.0,
+      "step": 12
+    },
+    {
+      "completion_length": 57.7265625,
+      "epoch": 0.1566265060240964,
+      "grad_norm": 5.332797970620105,
+      "kl": 0.07958984375,
+      "learning_rate": 9.738955823293173e-07,
+      "loss": 0.0032,
+      "reward": 2.1677627563476562,
+      "reward_std": 0.32235731184482574,
+      "rewards/accuracy_reward": 1.1677626371383667,
+      "rewards/format_reward": 1.0,
+      "step": 13
+    },
+    {
+      "completion_length": 62.765625,
+      "epoch": 0.1686746987951807,
+      "grad_norm": 7.594424067233083,
+      "kl": 0.086181640625,
+      "learning_rate": 9.718875502008033e-07,
+      "loss": 0.0034,
+      "reward": 2.287484049797058,
+      "reward_std": 0.2577601447701454,
+      "rewards/accuracy_reward": 1.3031091094017029,
+      "rewards/format_reward": 0.984375,
+      "step": 14
+    },
+    {
+      "completion_length": 61.28125,
+      "epoch": 0.18072289156626506,
+      "grad_norm": 6.602361615736723,
+      "kl": 0.087890625,
+      "learning_rate": 9.69879518072289e-07,
+      "loss": 0.0035,
+      "reward": 2.28032910823822,
+      "reward_std": 0.38463760912418365,
+      "rewards/accuracy_reward": 1.2881416082382202,
+      "rewards/format_reward": 0.9921875,
+      "step": 15
+    },
+    {
+      "completion_length": 63.6796875,
+      "epoch": 0.1927710843373494,
+      "grad_norm": 4.1986480450121135,
+      "kl": 0.078125,
+      "learning_rate": 9.67871485943775e-07,
+      "loss": 0.0031,
+      "reward": 2.1277613639831543,
+      "reward_std": 0.2963729351758957,
+      "rewards/accuracy_reward": 1.1433865427970886,
+      "rewards/format_reward": 0.984375,
+      "step": 16
+    },
+    {
+      "completion_length": 60.65625,
+      "epoch": 0.20481927710843373,
+      "grad_norm": 6.921299965436032,
+      "kl": 0.088134765625,
+      "learning_rate": 9.65863453815261e-07,
+      "loss": 0.0035,
+      "reward": 2.157727599143982,
+      "reward_std": 0.30868735909461975,
+      "rewards/accuracy_reward": 1.1733525395393372,
+      "rewards/format_reward": 0.984375,
+      "step": 17
+    },
+    {
+      "completion_length": 59.2265625,
+      "epoch": 0.21686746987951808,
+      "grad_norm": 4.904213548043611,
+      "kl": 0.07666015625,
+      "learning_rate": 9.63855421686747e-07,
+      "loss": 0.0031,
+      "reward": 2.24626088142395,
+      "reward_std": 0.22766248881816864,
+      "rewards/accuracy_reward": 1.2540735006332397,
+      "rewards/format_reward": 0.9921875,
+      "step": 18
+    },
+    {
+      "completion_length": 58.703125,
+      "epoch": 0.2289156626506024,
+      "grad_norm": 4.786279154756674,
+      "kl": 0.109619140625,
+      "learning_rate": 9.61847389558233e-07,
+      "loss": 0.0044,
+      "reward": 2.050855040550232,
+      "reward_std": 0.35161878168582916,
+      "rewards/accuracy_reward": 1.0586674511432648,
+      "rewards/format_reward": 0.9921875,
+      "step": 19
+    },
+    {
+      "completion_length": 58.109375,
+      "epoch": 0.24096385542168675,
+      "grad_norm": 4.05967579782597,
+      "kl": 0.08056640625,
+      "learning_rate": 9.598393574297187e-07,
+      "loss": 0.0032,
+      "reward": 2.20633327960968,
+      "reward_std": 0.3129453659057617,
+      "rewards/accuracy_reward": 1.2219581604003906,
+      "rewards/format_reward": 0.984375,
+      "step": 20
+    },
+    {
+      "completion_length": 57.71875,
+      "epoch": 0.25301204819277107,
+      "grad_norm": 5.8300935596675885,
+      "kl": 0.080078125,
+      "learning_rate": 9.57831325301205e-07,
+      "loss": 0.0032,
+      "reward": 2.417273759841919,
+      "reward_std": 0.28760989010334015,
+      "rewards/accuracy_reward": 1.4250862002372742,
+      "rewards/format_reward": 0.9921875,
+      "step": 21
+    },
+    {
+      "completion_length": 54.5859375,
+      "epoch": 0.26506024096385544,
+      "grad_norm": 7.535044861581114,
+      "kl": 0.106201171875,
+      "learning_rate": 9.558232931726907e-07,
+      "loss": 0.0042,
+      "reward": 2.2527129650115967,
+      "reward_std": 0.2951706647872925,
+      "rewards/accuracy_reward": 1.2683378458023071,
+      "rewards/format_reward": 0.984375,
+      "step": 22
+    },
+    {
+      "completion_length": 61.09375,
+      "epoch": 0.27710843373493976,
+      "grad_norm": 4.416172924233661,
+      "kl": 0.10009765625,
+      "learning_rate": 9.538152610441766e-07,
+      "loss": 0.004,
+      "reward": 2.1894314289093018,
+      "reward_std": 0.21257736533880234,
+      "rewards/accuracy_reward": 1.1894314289093018,
+      "rewards/format_reward": 1.0,
+      "step": 23
+    },
+    {
+      "completion_length": 54.9921875,
+      "epoch": 0.2891566265060241,
+      "grad_norm": 4.553446996976198,
+      "kl": 0.09814453125,
+      "learning_rate": 9.518072289156625e-07,
+      "loss": 0.0039,
+      "reward": 2.3037142753601074,
+      "reward_std": 0.3323938250541687,
+      "rewards/accuracy_reward": 1.3115268349647522,
+      "rewards/format_reward": 0.9921875,
+      "step": 24
+    },
+    {
+      "completion_length": 55.9921875,
+      "epoch": 0.30120481927710846,
+      "grad_norm": 8.671383785487564,
+      "kl": 0.120849609375,
+      "learning_rate": 9.497991967871486e-07,
+      "loss": 0.0048,
+      "reward": 2.239556074142456,
+      "reward_std": 0.3447880446910858,
+      "rewards/accuracy_reward": 1.2551808953285217,
+      "rewards/format_reward": 0.984375,
+      "step": 25
+    },
+    {
+      "completion_length": 58.7890625,
+      "epoch": 0.3132530120481928,
+      "grad_norm": 8.322624639517006,
+      "kl": 0.12353515625,
+      "learning_rate": 9.477911646586345e-07,
+      "loss": 0.0049,
+      "reward": 2.2209770679473877,
+      "reward_std": 0.3139883056282997,
+      "rewards/accuracy_reward": 1.2287896275520325,
+      "rewards/format_reward": 0.9921875,
+      "step": 26
+    },
+    {
+      "completion_length": 56.2421875,
+      "epoch": 0.3253012048192771,
+      "grad_norm": 20.55146941012377,
+      "kl": 0.130126953125,
+      "learning_rate": 9.457831325301205e-07,
+      "loss": 0.0052,
+      "reward": 2.344720959663391,
+      "reward_std": 0.25742725282907486,
+      "rewards/accuracy_reward": 1.3525334596633911,
+      "rewards/format_reward": 0.9921875,
+      "step": 27
+    },
+    {
+      "completion_length": 52.3671875,
+      "epoch": 0.3373493975903614,
+      "grad_norm": 4.550988243582887,
+      "kl": 0.12548828125,
+      "learning_rate": 9.437751004016063e-07,
+      "loss": 0.005,
+      "reward": 2.407941460609436,
+      "reward_std": 0.3139786869287491,
+      "rewards/accuracy_reward": 1.4313790798187256,
+      "rewards/format_reward": 0.9765625,
+      "step": 28
+    },
+    {
+      "completion_length": 53.328125,
+      "epoch": 0.3493975903614458,
+      "grad_norm": 5.133796660962732,
+      "kl": 0.1435546875,
+      "learning_rate": 9.417670682730924e-07,
+      "loss": 0.0057,
+      "reward": 2.3306795358657837,
+      "reward_std": 0.3039723336696625,
+      "rewards/accuracy_reward": 1.3463045954704285,
+      "rewards/format_reward": 0.984375,
+      "step": 29
+    },
+    {
+      "completion_length": 53.8125,
+      "epoch": 0.3614457831325301,
+      "grad_norm": 6.796717577260548,
+      "kl": 0.27880859375,
+      "learning_rate": 9.397590361445783e-07,
+      "loss": 0.0112,
+      "reward": 2.2834625244140625,
+      "reward_std": 0.3063512295484543,
+      "rewards/accuracy_reward": 1.2834625244140625,
+      "rewards/format_reward": 1.0,
+      "step": 30
+    },
+    {
+      "completion_length": 56.3203125,
+      "epoch": 0.37349397590361444,
+      "grad_norm": 4.3393989853337285,
+      "kl": 0.14794921875,
+      "learning_rate": 9.377510040160642e-07,
+      "loss": 0.0059,
+      "reward": 2.354575991630554,
+      "reward_std": 0.314766064286232,
+      "rewards/accuracy_reward": 1.3623886704444885,
+      "rewards/format_reward": 0.9921875,
+      "step": 31
+    },
+    {
+      "completion_length": 54.171875,
+      "epoch": 0.3855421686746988,
+      "grad_norm": 4.279946209704863,
+      "kl": 0.197265625,
+      "learning_rate": 9.357429718875502e-07,
+      "loss": 0.0079,
+      "reward": 2.1385136246681213,
+      "reward_std": 0.24586574733257294,
+      "rewards/accuracy_reward": 1.1463261544704437,
+      "rewards/format_reward": 0.9921875,
+      "step": 32
+    },
+    {
+      "completion_length": 51.4140625,
+      "epoch": 0.39759036144578314,
+      "grad_norm": 5.88762957444806,
+      "kl": 0.1630859375,
+      "learning_rate": 9.33734939759036e-07,
+      "loss": 0.0065,
+      "reward": 2.2907108068466187,
+      "reward_std": 0.25231631100177765,
+      "rewards/accuracy_reward": 1.2907109260559082,
+      "rewards/format_reward": 1.0,
+      "step": 33
+    },
+    {
+      "completion_length": 50.4609375,
+      "epoch": 0.40963855421686746,
+      "grad_norm": 5.469228934242547,
+      "kl": 0.16845703125,
+      "learning_rate": 9.317269076305221e-07,
+      "loss": 0.0067,
+      "reward": 2.2533600330352783,
+      "reward_std": 0.25808002054691315,
+      "rewards/accuracy_reward": 1.2611725330352783,
+      "rewards/format_reward": 0.9921875,
+      "step": 34
+    },
+    {
+      "completion_length": 47.84375,
+      "epoch": 0.42168674698795183,
+      "grad_norm": 5.412602747215773,
+      "kl": 0.177734375,
+      "learning_rate": 9.29718875502008e-07,
+      "loss": 0.0071,
+      "reward": 2.3132054805755615,
+      "reward_std": 0.2454073503613472,
+      "rewards/accuracy_reward": 1.3132054805755615,
+      "rewards/format_reward": 1.0,
+      "step": 35
+    },
+    {
+      "completion_length": 44.21875,
+      "epoch": 0.43373493975903615,
+      "grad_norm": 5.190368238545804,
+      "kl": 0.2275390625,
+      "learning_rate": 9.27710843373494e-07,
+      "loss": 0.0091,
+      "reward": 2.2854232788085938,
+      "reward_std": 0.29085223376750946,
+      "rewards/accuracy_reward": 1.293235719203949,
+      "rewards/format_reward": 0.9921875,
+      "step": 36
+    },
+    {
+      "completion_length": 48.71875,
+      "epoch": 0.4457831325301205,
+      "grad_norm": 4.780274291960778,
+      "kl": 0.20751953125,
+      "learning_rate": 9.257028112449798e-07,
+      "loss": 0.0083,
+      "reward": 2.246184825897217,
+      "reward_std": 0.31601477414369583,
+      "rewards/accuracy_reward": 1.261809766292572,
+      "rewards/format_reward": 0.984375,
+      "step": 37
+    },
+    {
+      "completion_length": 42.265625,
+      "epoch": 0.4578313253012048,
+      "grad_norm": 6.234590681750942,
+      "kl": 0.265625,
+      "learning_rate": 9.236947791164659e-07,
+      "loss": 0.0106,
+      "reward": 2.112604260444641,
+      "reward_std": 0.30199334025382996,
+      "rewards/accuracy_reward": 1.1126042604446411,
+      "rewards/format_reward": 1.0,
+      "step": 38
+    },
+    {
+      "completion_length": 45.1015625,
+      "epoch": 0.46987951807228917,
+      "grad_norm": 4.611394363412455,
+      "kl": 0.15576171875,
+      "learning_rate": 9.216867469879518e-07,
+      "loss": 0.0062,
+      "reward": 2.3590028285980225,
+      "reward_std": 0.2973439395427704,
+      "rewards/accuracy_reward": 1.3746278285980225,
+      "rewards/format_reward": 0.984375,
+      "step": 39
+    },
+    {
+      "completion_length": 45.3046875,
+      "epoch": 0.4819277108433735,
+      "grad_norm": 6.117578716606278,
+      "kl": 0.17626953125,
+      "learning_rate": 9.196787148594377e-07,
+      "loss": 0.0071,
+      "reward": 2.2271867990493774,
+      "reward_std": 0.22323830425739288,
+      "rewards/accuracy_reward": 1.234999418258667,
+      "rewards/format_reward": 0.9921875,
+      "step": 40
+    },
+    {
+      "completion_length": 41.9453125,
+      "epoch": 0.4939759036144578,
+      "grad_norm": 4.858430237306144,
+      "kl": 0.2236328125,
+      "learning_rate": 9.176706827309237e-07,
+      "loss": 0.0089,
+      "reward": 2.217424750328064,
+      "reward_std": 0.2663164809346199,
+      "rewards/accuracy_reward": 1.2252373099327087,
+      "rewards/format_reward": 0.9921875,
+      "step": 41
+    },
+    {
+      "completion_length": 41.0234375,
+      "epoch": 0.5060240963855421,
+      "grad_norm": 4.127212546225013,
+      "kl": 0.18212890625,
+      "learning_rate": 9.156626506024095e-07,
+      "loss": 0.0073,
+      "reward": 2.16755473613739,
+      "reward_std": 0.3387562334537506,
+      "rewards/accuracy_reward": 1.1753671169281006,
+      "rewards/format_reward": 0.9921875,
+      "step": 42
+    },
+    {
+      "completion_length": 42.6640625,
+      "epoch": 0.5180722891566265,
+      "grad_norm": 5.226665280180925,
+      "kl": 0.23193359375,
+      "learning_rate": 9.136546184738956e-07,
+      "loss": 0.0093,
+      "reward": 2.203770875930786,
+      "reward_std": 0.3409430831670761,
+      "rewards/accuracy_reward": 1.2350206971168518,
+      "rewards/format_reward": 0.96875,
+      "step": 43
+    },
+    {
+      "completion_length": 40.9609375,
+      "epoch": 0.5301204819277109,
+      "grad_norm": 4.308668359699942,
+      "kl": 0.134033203125,
+      "learning_rate": 9.116465863453815e-07,
+      "loss": 0.0054,
+      "reward": 2.2817225456237793,
+      "reward_std": 0.19574209302663803,
+      "rewards/accuracy_reward": 1.281722605228424,
+      "rewards/format_reward": 1.0,
+      "step": 44
+    },
+    {
+      "completion_length": 38.7734375,
+      "epoch": 0.5421686746987951,
+      "grad_norm": 6.033974360622575,
+      "kl": 0.13232421875,
+      "learning_rate": 9.096385542168675e-07,
+      "loss": 0.0053,
+      "reward": 2.2139052152633667,
+      "reward_std": 0.28486668318510056,
+      "rewards/accuracy_reward": 1.2451552748680115,
+      "rewards/format_reward": 0.96875,
+      "step": 45
+    },
+    {
+      "completion_length": 41.1484375,
+      "epoch": 0.5542168674698795,
+      "grad_norm": 5.314865555502224,
+      "kl": 0.11279296875,
+      "learning_rate": 9.076305220883533e-07,
+      "loss": 0.0045,
+      "reward": 2.4188212156295776,
+      "reward_std": 0.2556447684764862,
+      "rewards/accuracy_reward": 1.4266336560249329,
+      "rewards/format_reward": 0.9921875,
+      "step": 46
+    },
+    {
+      "completion_length": 42.7109375,
+      "epoch": 0.5662650602409639,
+      "grad_norm": 3.687080063413381,
+      "kl": 0.123046875,
+      "learning_rate": 9.056224899598393e-07,
+      "loss": 0.0049,
+      "reward": 2.2985291481018066,
+      "reward_std": 0.2858593165874481,
+      "rewards/accuracy_reward": 1.3063417077064514,
+      "rewards/format_reward": 0.9921875,
+      "step": 47
+    },
+    {
+      "completion_length": 46.859375,
+      "epoch": 0.5783132530120482,
+      "grad_norm": 4.277184476359137,
+      "kl": 0.20166015625,
+      "learning_rate": 9.036144578313253e-07,
+      "loss": 0.0081,
+      "reward": 2.1704814434051514,
+      "reward_std": 0.3619203567504883,
+      "rewards/accuracy_reward": 1.186106562614441,
+      "rewards/format_reward": 0.984375,
+      "step": 48
+    },
+    {
+      "completion_length": 45.21875,
+      "epoch": 0.5903614457831325,
+      "grad_norm": 3.7971557376020577,
+      "kl": 0.124267578125,
+      "learning_rate": 9.016064257028112e-07,
+      "loss": 0.005,
+      "reward": 2.1000068187713623,
+      "reward_std": 0.2924596816301346,
+      "rewards/accuracy_reward": 1.123444378376007,
+      "rewards/format_reward": 0.9765625,
+      "step": 49
+    },
+    {
+      "completion_length": 44.7734375,
+      "epoch": 0.6024096385542169,
+      "grad_norm": 4.458817172061971,
+      "kl": 0.111083984375,
+      "learning_rate": 8.995983935742972e-07,
+      "loss": 0.0044,
+      "reward": 2.2635247707366943,
+      "reward_std": 0.3522821515798569,
+      "rewards/accuracy_reward": 1.2869621515274048,
+      "rewards/format_reward": 0.9765625,
+      "step": 50
+    },
+    {
+      "completion_length": 51.5859375,
+      "epoch": 0.6144578313253012,
+      "grad_norm": 5.351600002967812,
+      "kl": 0.115234375,
+      "learning_rate": 8.97590361445783e-07,
+      "loss": 0.0046,
+      "reward": 2.321009397506714,
+      "reward_std": 0.23405297100543976,
+      "rewards/accuracy_reward": 1.3366344571113586,
+      "rewards/format_reward": 0.984375,
+      "step": 51
+    },
+    {
+      "completion_length": 50.421875,
+      "epoch": 0.6265060240963856,
+      "grad_norm": 4.213335817741083,
+      "kl": 0.1396484375,
+      "learning_rate": 8.955823293172691e-07,
+      "loss": 0.0056,
+      "reward": 2.3553450107574463,
+      "reward_std": 0.25443293899297714,
+      "rewards/accuracy_reward": 1.3944076299667358,
+      "rewards/format_reward": 0.9609375,
+      "step": 52
+    },
+    {
+      "completion_length": 60.6015625,
+      "epoch": 0.6385542168674698,
+      "grad_norm": 6.123689334744157,
+      "kl": 0.121337890625,
+      "learning_rate": 8.93574297188755e-07,
+      "loss": 0.0049,
+      "reward": 2.112071990966797,
+      "reward_std": 0.30149899423122406,
+      "rewards/accuracy_reward": 1.1433220505714417,
+      "rewards/format_reward": 0.96875,
+      "step": 53
+    },
+    {
+      "completion_length": 50.0703125,
+      "epoch": 0.6506024096385542,
+      "grad_norm": 4.396654754831157,
+      "kl": 0.1337890625,
+      "learning_rate": 8.915662650602409e-07,
+      "loss": 0.0053,
+      "reward": 2.233729839324951,
+      "reward_std": 0.23247240483760834,
+      "rewards/accuracy_reward": 1.2571672797203064,
+      "rewards/format_reward": 0.9765625,
+      "step": 54
+    },
+    {
+      "completion_length": 60.2890625,
+      "epoch": 0.6626506024096386,
+      "grad_norm": 7.03985835954293,
+      "kl": 0.10498046875,
+      "learning_rate": 8.895582329317268e-07,
+      "loss": 0.0042,
+      "reward": 2.196902871131897,
+      "reward_std": 0.2882121652364731,
+      "rewards/accuracy_reward": 1.2125278115272522,
+      "rewards/format_reward": 0.984375,
+      "step": 55
+    },
+    {
+      "completion_length": 50.640625,
+      "epoch": 0.6746987951807228,
+      "grad_norm": 4.86896494949543,
+      "kl": 0.12451171875,
+      "learning_rate": 8.875502008032128e-07,
+      "loss": 0.005,
+      "reward": 2.171112537384033,
+      "reward_std": 0.16461243480443954,
+      "rewards/accuracy_reward": 1.1867375373840332,
+      "rewards/format_reward": 0.984375,
+      "step": 56
+    },
+    {
+      "completion_length": 53.21875,
+      "epoch": 0.6867469879518072,
+      "grad_norm": 3.557538165261062,
+      "kl": 0.1240234375,
+      "learning_rate": 8.855421686746988e-07,
+      "loss": 0.005,
+      "reward": 2.2328275442123413,
+      "reward_std": 0.2752218544483185,
+      "rewards/accuracy_reward": 1.2406402230262756,
+      "rewards/format_reward": 0.9921875,
+      "step": 57
+    },
+    {
+      "completion_length": 47.8671875,
+      "epoch": 0.6987951807228916,
+      "grad_norm": 5.180162989820259,
+      "kl": 0.125,
+      "learning_rate": 8.835341365461847e-07,
+      "loss": 0.005,
+      "reward": 2.2453041076660156,
+      "reward_std": 0.315682128071785,
+      "rewards/accuracy_reward": 1.268741488456726,
+      "rewards/format_reward": 0.9765625,
+      "step": 58
+    },
+    {
+      "completion_length": 57.9765625,
+      "epoch": 0.7108433734939759,
+      "grad_norm": 3.899105782667564,
+      "kl": 0.10205078125,
+      "learning_rate": 8.815261044176707e-07,
+      "loss": 0.0041,
+      "reward": 2.284543514251709,
+      "reward_std": 0.25333235412836075,
+      "rewards/accuracy_reward": 1.292356252670288,
+      "rewards/format_reward": 0.9921875,
+      "step": 59
+    },
+    {
+      "completion_length": 46.5859375,
+      "epoch": 0.7228915662650602,
+      "grad_norm": 13.765129472909528,
+      "kl": 0.106201171875,
+      "learning_rate": 8.795180722891565e-07,
+      "loss": 0.0042,
+      "reward": 2.113099694252014,
+      "reward_std": 0.326066330075264,
+      "rewards/accuracy_reward": 1.1287246942520142,
+      "rewards/format_reward": 0.984375,
+      "step": 60
+    },
+    {
+      "completion_length": 46.375,
+      "epoch": 0.7349397590361446,
+      "grad_norm": 6.1270425433473,
+      "kl": 0.16357421875,
+      "learning_rate": 8.775100401606425e-07,
+      "loss": 0.0065,
+      "reward": 1.9968695640563965,
+      "reward_std": 0.34320104122161865,
+      "rewards/accuracy_reward": 1.0124945640563965,
+      "rewards/format_reward": 0.984375,
+      "step": 61
+    },
+    {
+      "completion_length": 53.09375,
+      "epoch": 0.7469879518072289,
+      "grad_norm": 4.3056291481606745,
+      "kl": 0.1513671875,
+      "learning_rate": 8.755020080321285e-07,
+      "loss": 0.0061,
+      "reward": 2.1780970096588135,
+      "reward_std": 0.2706674858927727,
+      "rewards/accuracy_reward": 1.2093469500541687,
+      "rewards/format_reward": 0.96875,
+      "step": 62
+    },
+    {
+      "completion_length": 55.9375,
+      "epoch": 0.7590361445783133,
+      "grad_norm": 3.2395174572422416,
+      "kl": 0.14501953125,
+      "learning_rate": 8.734939759036144e-07,
+      "loss": 0.0058,
+      "reward": 2.1430922746658325,
+      "reward_std": 0.24412654340267181,
+      "rewards/accuracy_reward": 1.1665297150611877,
+      "rewards/format_reward": 0.9765625,
+      "step": 63
+    },
+    {
+      "completion_length": 56.6328125,
+      "epoch": 0.7710843373493976,
+      "grad_norm": 4.190814109425291,
+      "kl": 0.11962890625,
+      "learning_rate": 8.714859437751003e-07,
+      "loss": 0.0048,
+      "reward": 2.1700193881988525,
+      "reward_std": 0.2942150831222534,
+      "rewards/accuracy_reward": 1.1934569478034973,
+      "rewards/format_reward": 0.9765625,
+      "step": 64
+    },
+    {
+      "completion_length": 64.3984375,
+      "epoch": 0.7831325301204819,
+      "grad_norm": 3.226137200230793,
+      "kl": 0.102783203125,
+      "learning_rate": 8.694779116465863e-07,
+      "loss": 0.0041,
+      "reward": 2.2898290157318115,
+      "reward_std": 0.2443845123052597,
+      "rewards/accuracy_reward": 1.3132665753364563,
+      "rewards/format_reward": 0.9765625,
+      "step": 65
+    },
+    {
+      "completion_length": 67.7109375,
+      "epoch": 0.7951807228915663,
+      "grad_norm": 3.9157620361816314,
+      "kl": 0.0927734375,
+      "learning_rate": 8.674698795180723e-07,
+      "loss": 0.0037,
+      "reward": 2.161790609359741,
+      "reward_std": 0.29590657353401184,
+      "rewards/accuracy_reward": 1.1696029901504517,
+      "rewards/format_reward": 0.9921875,
+      "step": 66
+    },
+    {
+      "completion_length": 74.3203125,
+      "epoch": 0.8072289156626506,
+      "grad_norm": 3.1212414712368375,
+      "kl": 0.082763671875,
+      "learning_rate": 8.654618473895582e-07,
+      "loss": 0.0033,
+      "reward": 2.215745210647583,
+      "reward_std": 0.2766411006450653,
+      "rewards/accuracy_reward": 1.2313700914382935,
+      "rewards/format_reward": 0.984375,
+      "step": 67
+    },
+    {
+      "completion_length": 74.0390625,
+      "epoch": 0.8192771084337349,
+      "grad_norm": 3.446969302283755,
+      "kl": 0.074951171875,
+      "learning_rate": 8.634538152610441e-07,
+      "loss": 0.003,
+      "reward": 2.1964612007141113,
+      "reward_std": 0.235237754881382,
+      "rewards/accuracy_reward": 1.2198986411094666,
+      "rewards/format_reward": 0.9765625,
+      "step": 68
+    },
+    {
+      "completion_length": 76.9375,
+      "epoch": 0.8313253012048193,
+      "grad_norm": 3.310962519125171,
+      "kl": 0.08154296875,
+      "learning_rate": 8.614457831325301e-07,
+      "loss": 0.0033,
+      "reward": 2.1269989013671875,
+      "reward_std": 0.2448011264204979,
+      "rewards/accuracy_reward": 1.1426239013671875,
+      "rewards/format_reward": 0.984375,
+      "step": 69
+    },
+    {
+      "completion_length": 71.3984375,
+      "epoch": 0.8433734939759037,
+      "grad_norm": 3.2998576155248966,
+      "kl": 0.0888671875,
+      "learning_rate": 8.59437751004016e-07,
+      "loss": 0.0036,
+      "reward": 2.2479825019836426,
+      "reward_std": 0.2886482775211334,
+      "rewards/accuracy_reward": 1.2636074423789978,
+      "rewards/format_reward": 0.984375,
+      "step": 70
+    },
+    {
+      "completion_length": 72.1484375,
+      "epoch": 0.8554216867469879,
+      "grad_norm": 7.668000907111886,
+      "kl": 0.07861328125,
+      "learning_rate": 8.57429718875502e-07,
+      "loss": 0.0031,
+      "reward": 2.2247371673583984,
+      "reward_std": 0.2391326129436493,
+      "rewards/accuracy_reward": 1.2637996673583984,
+      "rewards/format_reward": 0.9609375,
+      "step": 71
+    },
+    {
+      "completion_length": 77.7734375,
+      "epoch": 0.8674698795180723,
+      "grad_norm": 3.4104191137958013,
+      "kl": 0.068359375,
+      "learning_rate": 8.554216867469879e-07,
+      "loss": 0.0027,
+      "reward": 2.2031702995300293,
+      "reward_std": 0.21321924775838852,
+      "rewards/accuracy_reward": 1.210982859134674,
+      "rewards/format_reward": 0.9921875,
+      "step": 72
+    },
+    {
+      "completion_length": 76.5546875,
+      "epoch": 0.8795180722891566,
+      "grad_norm": 3.884229840630286,
+      "kl": 0.0947265625,
+      "learning_rate": 8.534136546184738e-07,
+      "loss": 0.0038,
+      "reward": 2.2307136058807373,
+      "reward_std": 0.2959597185254097,
+      "rewards/accuracy_reward": 1.2463387250900269,
+      "rewards/format_reward": 0.984375,
+      "step": 73
+    },
+    {
+      "completion_length": 73.7265625,
+      "epoch": 0.891566265060241,
+      "grad_norm": 7.2397255809983525,
+      "kl": 0.170654296875,
+      "learning_rate": 8.514056224899598e-07,
+      "loss": 0.0068,
+      "reward": 2.311343193054199,
+      "reward_std": 0.21377335488796234,
+      "rewards/accuracy_reward": 1.319155752658844,
+      "rewards/format_reward": 0.9921875,
+      "step": 74
+    },
+    {
+      "completion_length": 71.5859375,
+      "epoch": 0.9036144578313253,
+      "grad_norm": 3.397020763244455,
+      "kl": 0.073974609375,
+      "learning_rate": 8.493975903614458e-07,
+      "loss": 0.003,
+      "reward": 2.3479005098342896,
+      "reward_std": 0.2722414582967758,
+      "rewards/accuracy_reward": 1.3713379502296448,
+      "rewards/format_reward": 0.9765625,
+      "step": 75
+    },
+    {
+      "completion_length": 64.34375,
+      "epoch": 0.9156626506024096,
+      "grad_norm": 4.709358727325993,
+      "kl": 0.116455078125,
+      "learning_rate": 8.473895582329317e-07,
+      "loss": 0.0047,
+      "reward": 2.1038066148757935,
+      "reward_std": 0.3149692267179489,
+      "rewards/accuracy_reward": 1.158493995666504,
+      "rewards/format_reward": 0.9453125,
+      "step": 76
+    },
+    {
+      "completion_length": 69.390625,
+      "epoch": 0.927710843373494,
+      "grad_norm": 3.3768601117352923,
+      "kl": 0.11376953125,
+      "learning_rate": 8.453815261044176e-07,
+      "loss": 0.0046,
+      "reward": 2.02778023481369,
+      "reward_std": 0.3105141818523407,
+      "rewards/accuracy_reward": 1.074655294418335,
+      "rewards/format_reward": 0.953125,
+      "step": 77
+    },
+    {
+      "completion_length": 67.328125,
+      "epoch": 0.9397590361445783,
+      "grad_norm": 3.504578270706009,
+      "kl": 0.115234375,
+      "learning_rate": 8.433734939759036e-07,
+      "loss": 0.0046,
+      "reward": 2.194709539413452,
+      "reward_std": 0.27273692935705185,
+      "rewards/accuracy_reward": 1.2181469202041626,
+      "rewards/format_reward": 0.9765625,
+      "step": 78
+    },
+    {
+      "completion_length": 75.1640625,
+      "epoch": 0.9518072289156626,
+      "grad_norm": 4.043012399812061,
+      "kl": 0.123046875,
+      "learning_rate": 8.413654618473895e-07,
+      "loss": 0.0049,
+      "reward": 2.13509202003479,
+      "reward_std": 0.313528910279274,
+      "rewards/accuracy_reward": 1.18196702003479,
+      "rewards/format_reward": 0.953125,
+      "step": 79
+    },
+    {
+      "completion_length": 70.0234375,
+      "epoch": 0.963855421686747,
+      "grad_norm": 4.870660538899373,
+      "kl": 0.086181640625,
+      "learning_rate": 8.393574297188755e-07,
+      "loss": 0.0035,
+      "reward": 2.1953389644622803,
+      "reward_std": 0.26908765733242035,
+      "rewards/accuracy_reward": 1.2265888452529907,
+      "rewards/format_reward": 0.96875,
+      "step": 80
+    },
+    {
+      "completion_length": 80.859375,
+      "epoch": 0.9759036144578314,
+      "grad_norm": 3.8261245848047065,
+      "kl": 0.1015625,
+      "learning_rate": 8.373493975903614e-07,
+      "loss": 0.0041,
+      "reward": 2.0212653279304504,
+      "reward_std": 0.3835397958755493,
+      "rewards/accuracy_reward": 1.0915777683258057,
+      "rewards/format_reward": 0.9296875,
+      "step": 81
+    },
+    {
+      "completion_length": 74.046875,
+      "epoch": 0.9879518072289156,
+      "grad_norm": 4.0964460767880535,
+      "kl": 0.083984375,
+      "learning_rate": 8.353413654618474e-07,
+      "loss": 0.0034,
+      "reward": 2.2536615133285522,
+      "reward_std": 0.2658763527870178,
+      "rewards/accuracy_reward": 1.2770991325378418,
+      "rewards/format_reward": 0.9765625,
+      "step": 82
+    },
+    {
+      "completion_length": 74.58333587646484,
+      "epoch": 1.0,
+      "grad_norm": 2.9272571318373655,
+      "kl": 0.1044921875,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 0.004,
+      "reward": 2.1187774538993835,
+      "reward_std": 0.1469321921467781,
+      "rewards/accuracy_reward": 1.1187774240970612,
+      "rewards/format_reward": 1.0,
+      "step": 83
+    },
+    {
+      "completion_length": 67.5390625,
+      "epoch": 1.0120481927710843,
+      "grad_norm": 4.360041456699287,
+      "kl": 0.116455078125,
+      "learning_rate": 8.313253012048192e-07,
+      "loss": 0.0047,
+      "reward": 2.2748764753341675,
+      "reward_std": 0.30198951065540314,
+      "rewards/accuracy_reward": 1.2983139157295227,
+      "rewards/format_reward": 0.9765625,
+      "step": 84
+    },
+    {
+      "completion_length": 71.640625,
+      "epoch": 1.0240963855421688,
+      "grad_norm": 3.852904865115574,
+      "kl": 0.100341796875,
+      "learning_rate": 8.293172690763052e-07,
+      "loss": 0.004,
+      "reward": 2.22179639339447,
+      "reward_std": 0.2614322751760483,
+      "rewards/accuracy_reward": 1.2452340126037598,
+      "rewards/format_reward": 0.9765625,
+      "step": 85
+    },
+    {
+      "completion_length": 77.71875,
+      "epoch": 1.036144578313253,
+      "grad_norm": 4.570601093607917,
+      "kl": 0.086181640625,
+      "learning_rate": 8.273092369477911e-07,
+      "loss": 0.0034,
+      "reward": 2.3267804384231567,
+      "reward_std": 0.1871008574962616,
+      "rewards/accuracy_reward": 1.3424054384231567,
+      "rewards/format_reward": 0.984375,
+      "step": 86
+    },
+    {
+      "completion_length": 74.0703125,
+      "epoch": 1.0481927710843373,
+      "grad_norm": 4.387034223472388,
+      "kl": 0.09033203125,
+      "learning_rate": 8.253012048192771e-07,
+      "loss": 0.0036,
+      "reward": 2.280067205429077,
+      "reward_std": 0.2090277522802353,
+      "rewards/accuracy_reward": 1.2800670266151428,
+      "rewards/format_reward": 1.0,
+      "step": 87
+    },
+    {
+      "completion_length": 72.8828125,
+      "epoch": 1.0602409638554218,
+      "grad_norm": 3.640432077142004,
+      "kl": 0.097412109375,
+      "learning_rate": 8.23293172690763e-07,
+      "loss": 0.0039,
+      "reward": 2.2264442443847656,
+      "reward_std": 0.2877971976995468,
+      "rewards/accuracy_reward": 1.2576942443847656,
+      "rewards/format_reward": 0.96875,
+      "step": 88
+    },
+    {
+      "completion_length": 68.9765625,
+      "epoch": 1.072289156626506,
+      "grad_norm": 3.6617214501921755,
+      "kl": 0.10107421875,
+      "learning_rate": 8.21285140562249e-07,
+      "loss": 0.004,
+      "reward": 2.232625722885132,
+      "reward_std": 0.26599176973104477,
+      "rewards/accuracy_reward": 1.2482507824897766,
+      "rewards/format_reward": 0.984375,
+      "step": 89
+    },
+    {
+      "completion_length": 74.765625,
+      "epoch": 1.0843373493975903,
+      "grad_norm": 4.600311265578528,
+      "kl": 0.09130859375,
+      "learning_rate": 8.192771084337349e-07,
+      "loss": 0.0037,
+      "reward": 2.253629207611084,
+      "reward_std": 0.21175827831029892,
+      "rewards/accuracy_reward": 1.269254207611084,
+      "rewards/format_reward": 0.984375,
+      "step": 90
+    },
+    {
+      "completion_length": 76.59375,
+      "epoch": 1.0963855421686748,
+      "grad_norm": 4.145602929032845,
+      "kl": 0.087646484375,
+      "learning_rate": 8.172690763052207e-07,
+      "loss": 0.0035,
+      "reward": 2.2744953632354736,
+      "reward_std": 0.24358398467302322,
+      "rewards/accuracy_reward": 1.2901203632354736,
+      "rewards/format_reward": 0.984375,
+      "step": 91
+    },
+    {
+      "completion_length": 75.875,
+      "epoch": 1.108433734939759,
+      "grad_norm": 3.8292102418969853,
+      "kl": 0.10693359375,
+      "learning_rate": 8.152610441767068e-07,
+      "loss": 0.0043,
+      "reward": 2.4102468490600586,
+      "reward_std": 0.22168071568012238,
+      "rewards/accuracy_reward": 1.4180592894554138,
+      "rewards/format_reward": 0.9921875,
+      "step": 92
+    },
+    {
+      "completion_length": 73.5078125,
+      "epoch": 1.1204819277108433,
+      "grad_norm": 3.889694391559541,
+      "kl": 0.0859375,
+      "learning_rate": 8.132530120481927e-07,
+      "loss": 0.0034,
+      "reward": 2.19115674495697,
+      "reward_std": 0.191669300198555,
+      "rewards/accuracy_reward": 1.1989692449569702,
+      "rewards/format_reward": 0.9921875,
+      "step": 93
+    },
+    {
+      "completion_length": 74.359375,
+      "epoch": 1.1325301204819278,
+      "grad_norm": 13.572499915490392,
+      "kl": 0.115966796875,
+      "learning_rate": 8.112449799196787e-07,
+      "loss": 0.0046,
+      "reward": 2.3821544647216797,
+      "reward_std": 0.2079356163740158,
+      "rewards/accuracy_reward": 1.3899668455123901,
+      "rewards/format_reward": 0.9921875,
+      "step": 94
+    },
+    {
+      "completion_length": 70.875,
+      "epoch": 1.144578313253012,
+      "grad_norm": 3.96863603284974,
+      "kl": 0.096923828125,
+      "learning_rate": 8.092369477911646e-07,
+      "loss": 0.0039,
+      "reward": 2.301279664039612,
+      "reward_std": 0.17724627256393433,
+      "rewards/accuracy_reward": 1.309092104434967,
+      "rewards/format_reward": 0.9921875,
+      "step": 95
+    },
+    {
+      "completion_length": 69.3125,
+      "epoch": 1.1566265060240963,
+      "grad_norm": 3.4379001474745206,
+      "kl": 0.090087890625,
+      "learning_rate": 8.072289156626506e-07,
+      "loss": 0.0036,
+      "reward": 2.371612310409546,
+      "reward_std": 0.1584479957818985,
+      "rewards/accuracy_reward": 1.371612310409546,
+      "rewards/format_reward": 1.0,
+      "step": 96
+    },
+    {
+      "completion_length": 68.6171875,
+      "epoch": 1.1686746987951806,
+      "grad_norm": 4.586260816062996,
+      "kl": 0.09375,
+      "learning_rate": 8.052208835341365e-07,
+      "loss": 0.0037,
+      "reward": 2.4862219095230103,
+      "reward_std": 0.20000579208135605,
+      "rewards/accuracy_reward": 1.4862220287322998,
+      "rewards/format_reward": 1.0,
+      "step": 97
+    },
+    {
+      "completion_length": 70.015625,
+      "epoch": 1.180722891566265,
+      "grad_norm": 4.047101829945655,
+      "kl": 0.112060546875,
+      "learning_rate": 8.032128514056225e-07,
+      "loss": 0.0045,
+      "reward": 2.2514266967773438,
+      "reward_std": 0.22294947504997253,
+      "rewards/accuracy_reward": 1.2514267563819885,
+      "rewards/format_reward": 1.0,
+      "step": 98
+    },
+    {
+      "completion_length": 66.9140625,
+      "epoch": 1.1927710843373494,
+      "grad_norm": 5.444249065473958,
+      "kl": 0.088134765625,
+      "learning_rate": 8.012048192771084e-07,
+      "loss": 0.0035,
+      "reward": 2.333179473876953,
+      "reward_std": 0.1811930388212204,
+      "rewards/accuracy_reward": 1.3331794738769531,
+      "rewards/format_reward": 1.0,
+      "step": 99
+    },
+    {
+      "completion_length": 65.828125,
+      "epoch": 1.2048192771084336,
+      "grad_norm": 7.074570957060863,
+      "kl": 0.1064453125,
+      "learning_rate": 7.991967871485942e-07,
+      "loss": 0.0043,
+      "reward": 2.278498649597168,
+      "reward_std": 0.17714769393205643,
+      "rewards/accuracy_reward": 1.2863109111785889,
+      "rewards/format_reward": 0.9921875,
+      "step": 100
+    },
+    {
+      "completion_length": 62.6875,
+      "epoch": 1.216867469879518,
+      "grad_norm": 6.600402598086416,
+      "kl": 0.099609375,
+      "learning_rate": 7.971887550200803e-07,
+      "loss": 0.004,
+      "reward": 2.3798866271972656,
+      "reward_std": 0.1492375209927559,
+      "rewards/accuracy_reward": 1.3798866868019104,
+      "rewards/format_reward": 1.0,
+      "step": 101
+    },
+    {
+      "completion_length": 67.234375,
+      "epoch": 1.2289156626506024,
+      "grad_norm": 5.4322907915163645,
+      "kl": 0.0927734375,
+      "learning_rate": 7.951807228915662e-07,
+      "loss": 0.0037,
+      "reward": 2.295409917831421,
+      "reward_std": 0.26540718972682953,
+      "rewards/accuracy_reward": 1.311034917831421,
+      "rewards/format_reward": 0.984375,
+      "step": 102
+    },
+    {
+      "completion_length": 62.59375,
+      "epoch": 1.2409638554216866,
+      "grad_norm": 4.734234621294123,
+      "kl": 0.10986328125,
+      "learning_rate": 7.931726907630522e-07,
+      "loss": 0.0044,
+      "reward": 2.3131519556045532,
+      "reward_std": 0.2041746824979782,
+      "rewards/accuracy_reward": 1.3209643959999084,
+      "rewards/format_reward": 0.9921875,
+      "step": 103
+    },
+    {
+      "completion_length": 65.0078125,
+      "epoch": 1.2530120481927711,
+      "grad_norm": 11.27432402123553,
+      "kl": 0.094482421875,
+      "learning_rate": 7.911646586345381e-07,
+      "loss": 0.0038,
+      "reward": 2.423591375350952,
+      "reward_std": 0.17853456735610962,
+      "rewards/accuracy_reward": 1.4235913753509521,
+      "rewards/format_reward": 1.0,
+      "step": 104
+    },
+    {
+      "completion_length": 61.96875,
+      "epoch": 1.2650602409638554,
+      "grad_norm": 5.605209449566961,
+      "kl": 0.10595703125,
+      "learning_rate": 7.891566265060241e-07,
+      "loss": 0.0042,
+      "reward": 2.2498486042022705,
+      "reward_std": 0.2505866587162018,
+      "rewards/accuracy_reward": 1.2576610445976257,
+      "rewards/format_reward": 0.9921875,
+      "step": 105
+    },
+    {
+      "completion_length": 69.890625,
+      "epoch": 1.2771084337349397,
+      "grad_norm": 9.555144265496201,
+      "kl": 0.1015625,
+      "learning_rate": 7.8714859437751e-07,
+      "loss": 0.0041,
+      "reward": 2.153669834136963,
+      "reward_std": 0.2159716784954071,
+      "rewards/accuracy_reward": 1.161482334136963,
+      "rewards/format_reward": 0.9921875,
+      "step": 106
+    },
+    {
+      "completion_length": 63.5625,
+      "epoch": 1.2891566265060241,
+      "grad_norm": 4.205528221959235,
+      "kl": 0.100341796875,
+      "learning_rate": 7.851405622489959e-07,
+      "loss": 0.004,
+      "reward": 2.2599010467529297,
+      "reward_std": 0.22189538180828094,
+      "rewards/accuracy_reward": 1.2599008083343506,
+      "rewards/format_reward": 1.0,
+      "step": 107
+    },
+    {
+      "completion_length": 60.3359375,
+      "epoch": 1.3012048192771084,
+      "grad_norm": 4.549607105799596,
+      "kl": 0.13525390625,
+      "learning_rate": 7.831325301204819e-07,
+      "loss": 0.0054,
+      "reward": 2.2945663928985596,
+      "reward_std": 0.2269488275051117,
+      "rewards/accuracy_reward": 1.2945663928985596,
+      "rewards/format_reward": 1.0,
+      "step": 108
+    },
+    {
+      "completion_length": 63.9765625,
+      "epoch": 1.3132530120481927,
+      "grad_norm": 7.122658458301131,
+      "kl": 0.10400390625,
+      "learning_rate": 7.811244979919679e-07,
+      "loss": 0.0042,
+      "reward": 2.223813772201538,
+      "reward_std": 0.2691728472709656,
+      "rewards/accuracy_reward": 1.2316263318061829,
+      "rewards/format_reward": 0.9921875,
+      "step": 109
+    },
+    {
+      "completion_length": 64.0390625,
+      "epoch": 1.3253012048192772,
+      "grad_norm": 4.0970391288989285,
+      "kl": 0.102783203125,
+      "learning_rate": 7.791164658634538e-07,
+      "loss": 0.0041,
+      "reward": 2.402035713195801,
+      "reward_std": 0.2192593812942505,
+      "rewards/accuracy_reward": 1.409848153591156,
+      "rewards/format_reward": 0.9921875,
+      "step": 110
+    },
+    {
+      "completion_length": 61.984375,
+      "epoch": 1.3373493975903614,
+      "grad_norm": 5.00798288991921,
+      "kl": 0.100830078125,
+      "learning_rate": 7.771084337349397e-07,
+      "loss": 0.004,
+      "reward": 2.268544912338257,
+      "reward_std": 0.17878198623657227,
+      "rewards/accuracy_reward": 1.2685450315475464,
+      "rewards/format_reward": 1.0,
+      "step": 111
+    },
+    {
+      "completion_length": 58.296875,
+      "epoch": 1.3493975903614457,
+      "grad_norm": 4.283142882967245,
+      "kl": 0.10888671875,
+      "learning_rate": 7.751004016064257e-07,
+      "loss": 0.0044,
+      "reward": 2.373852849006653,
+      "reward_std": 0.17504306137561798,
+      "rewards/accuracy_reward": 1.3738529086112976,
+      "rewards/format_reward": 1.0,
+      "step": 112
+    },
+    {
+      "completion_length": 60.484375,
+      "epoch": 1.3614457831325302,
+      "grad_norm": 4.840347639337677,
+      "kl": 0.097412109375,
+      "learning_rate": 7.730923694779116e-07,
+      "loss": 0.0039,
+      "reward": 2.2944198846817017,
+      "reward_std": 0.2088237851858139,
+      "rewards/accuracy_reward": 1.2944198250770569,
+      "rewards/format_reward": 1.0,
+      "step": 113
+    },
+    {
+      "completion_length": 59.6328125,
+      "epoch": 1.3734939759036144,
+      "grad_norm": 3.441438097506757,
+      "kl": 0.095458984375,
+      "learning_rate": 7.710843373493975e-07,
+      "loss": 0.0038,
+      "reward": 2.2015284299850464,
+      "reward_std": 0.22288134694099426,
+      "rewards/accuracy_reward": 1.201528549194336,
+      "rewards/format_reward": 1.0,
+      "step": 114
+    },
+    {
+      "completion_length": 58.3203125,
+      "epoch": 1.3855421686746987,
+      "grad_norm": 5.2560716101244545,
+      "kl": 0.12890625,
+      "learning_rate": 7.690763052208835e-07,
+      "loss": 0.0052,
+      "reward": 2.395646095275879,
+      "reward_std": 0.21848639845848083,
+      "rewards/accuracy_reward": 1.3956461548805237,
+      "rewards/format_reward": 1.0,
+      "step": 115
+    },
+    {
+      "completion_length": 58.2734375,
+      "epoch": 1.3975903614457832,
+      "grad_norm": 5.450406858307557,
+      "kl": 0.1064453125,
+      "learning_rate": 7.670682730923694e-07,
+      "loss": 0.0043,
+      "reward": 2.4746010303497314,
+      "reward_std": 0.1482101045548916,
+      "rewards/accuracy_reward": 1.4746010303497314,
+      "rewards/format_reward": 1.0,
+      "step": 116
+    },
+    {
+      "completion_length": 57.65625,
+      "epoch": 1.4096385542168675,
+      "grad_norm": 4.642950561404122,
+      "kl": 0.124267578125,
+      "learning_rate": 7.650602409638554e-07,
+      "loss": 0.005,
+      "reward": 2.1899147033691406,
+      "reward_std": 0.2073155865073204,
+      "rewards/accuracy_reward": 1.1977271437644958,
+      "rewards/format_reward": 0.9921875,
+      "step": 117
+    },
+    {
+      "completion_length": 56.609375,
+      "epoch": 1.4216867469879517,
+      "grad_norm": 9.36763410057133,
+      "kl": 0.112548828125,
+      "learning_rate": 7.630522088353414e-07,
+      "loss": 0.0045,
+      "reward": 2.457427501678467,
+      "reward_std": 0.248141810297966,
+      "rewards/accuracy_reward": 1.4574276804924011,
+      "rewards/format_reward": 1.0,
+      "step": 118
+    },
+    {
+      "completion_length": 55.59375,
+      "epoch": 1.4337349397590362,
+      "grad_norm": 4.076025029890633,
+      "kl": 0.095947265625,
+      "learning_rate": 7.610441767068273e-07,
+      "loss": 0.0038,
+      "reward": 2.3175806999206543,
+      "reward_std": 0.21353702247142792,
+      "rewards/accuracy_reward": 1.3175806999206543,
+      "rewards/format_reward": 1.0,
+      "step": 119
+    },
+    {
+      "completion_length": 56.359375,
+      "epoch": 1.4457831325301205,
+      "grad_norm": 4.1118838634058905,
+      "kl": 0.10693359375,
+      "learning_rate": 7.590361445783132e-07,
+      "loss": 0.0043,
+      "reward": 2.306099772453308,
+      "reward_std": 0.2674330025911331,
+      "rewards/accuracy_reward": 1.3217247128486633,
+      "rewards/format_reward": 0.984375,
+      "step": 120
+    },
+    {
+      "completion_length": 56.765625,
+      "epoch": 1.4578313253012047,
+      "grad_norm": 4.370520474393478,
+      "kl": 0.10302734375,
+      "learning_rate": 7.570281124497991e-07,
+      "loss": 0.0041,
+      "reward": 2.1378331184387207,
+      "reward_std": 0.24683931469917297,
+      "rewards/accuracy_reward": 1.1378332376480103,
+      "rewards/format_reward": 1.0,
+      "step": 121
+    },
+    {
+      "completion_length": 61.4453125,
+      "epoch": 1.4698795180722892,
+      "grad_norm": 3.7827942646929427,
+      "kl": 0.120361328125,
+      "learning_rate": 7.550200803212851e-07,
+      "loss": 0.0048,
+      "reward": 2.1952574253082275,
+      "reward_std": 0.163675457239151,
+      "rewards/accuracy_reward": 1.1952574849128723,
+      "rewards/format_reward": 1.0,
+      "step": 122
+    },
+    {
+      "completion_length": 64.2734375,
+      "epoch": 1.4819277108433735,
+      "grad_norm": 3.7942059326042887,
+      "kl": 0.115478515625,
+      "learning_rate": 7.53012048192771e-07,
+      "loss": 0.0046,
+      "reward": 2.052876114845276,
+      "reward_std": 0.3279467225074768,
+      "rewards/accuracy_reward": 1.0606885850429535,
+      "rewards/format_reward": 0.9921875,
+      "step": 123
+    },
+    {
+      "completion_length": 61.7578125,
+      "epoch": 1.4939759036144578,
+      "grad_norm": 4.163145774578374,
+      "kl": 0.1083984375,
+      "learning_rate": 7.51004016064257e-07,
+      "loss": 0.0043,
+      "reward": 2.483773946762085,
+      "reward_std": 0.21236886084079742,
+      "rewards/accuracy_reward": 1.483773946762085,
+      "rewards/format_reward": 1.0,
+      "step": 124
+    },
+    {
+      "completion_length": 69.8359375,
+      "epoch": 1.5060240963855422,
+      "grad_norm": 8.540024207287942,
+      "kl": 0.122314453125,
+      "learning_rate": 7.489959839357429e-07,
+      "loss": 0.0049,
+      "reward": 2.207366466522217,
+      "reward_std": 0.22365009784698486,
+      "rewards/accuracy_reward": 1.2073664665222168,
+      "rewards/format_reward": 1.0,
+      "step": 125
+    },
+    {
+      "completion_length": 68.21875,
+      "epoch": 1.5180722891566265,
+      "grad_norm": 4.163585518888115,
+      "kl": 0.097412109375,
+      "learning_rate": 7.469879518072289e-07,
+      "loss": 0.0039,
+      "reward": 2.3682451248168945,
+      "reward_std": 0.17314215004444122,
+      "rewards/accuracy_reward": 1.3682451844215393,
+      "rewards/format_reward": 1.0,
+      "step": 126
+    },
+    {
+      "completion_length": 74.7734375,
+      "epoch": 1.5301204819277108,
+      "grad_norm": 5.7954755578535595,
+      "kl": 0.09912109375,
+      "learning_rate": 7.449799196787149e-07,
+      "loss": 0.004,
+      "reward": 2.3054428100585938,
+      "reward_std": 0.166117824614048,
+      "rewards/accuracy_reward": 1.313255250453949,
+      "rewards/format_reward": 0.9921875,
+      "step": 127
+    },
+    {
+      "completion_length": 77.3046875,
+      "epoch": 1.5421686746987953,
+      "grad_norm": 4.318669163836461,
+      "kl": 0.091796875,
+      "learning_rate": 7.429718875502008e-07,
+      "loss": 0.0037,
+      "reward": 2.1308990716934204,
+      "reward_std": 0.19852972030639648,
+      "rewards/accuracy_reward": 1.13089919090271,
+      "rewards/format_reward": 1.0,
+      "step": 128
+    },
+    {
+      "completion_length": 78.1015625,
+      "epoch": 1.5542168674698795,
+      "grad_norm": 4.096032296356097,
+      "kl": 0.102783203125,
+      "learning_rate": 7.409638554216867e-07,
+      "loss": 0.0041,
+      "reward": 2.445680260658264,
+      "reward_std": 0.1704091727733612,
+      "rewards/accuracy_reward": 1.4456802010536194,
+      "rewards/format_reward": 1.0,
+      "step": 129
+    },
+    {
+      "completion_length": 74.75,
+      "epoch": 1.5662650602409638,
+      "grad_norm": 4.47404453525868,
+      "kl": 0.100341796875,
+      "learning_rate": 7.389558232931726e-07,
+      "loss": 0.004,
+      "reward": 2.2448705434799194,
+      "reward_std": 0.21340852975845337,
+      "rewards/accuracy_reward": 1.2448704838752747,
+      "rewards/format_reward": 1.0,
+      "step": 130
+    },
+    {
+      "completion_length": 75.3671875,
+      "epoch": 1.5783132530120483,
+      "grad_norm": 23.135090346261265,
+      "kl": 1.1025390625,
+      "learning_rate": 7.369477911646586e-07,
+      "loss": 0.0444,
+      "reward": 2.368005871772766,
+      "reward_std": 0.24276328086853027,
+      "rewards/accuracy_reward": 1.3680058717727661,
+      "rewards/format_reward": 1.0,
+      "step": 131
+    },
+    {
+      "completion_length": 76.5234375,
+      "epoch": 1.5903614457831325,
+      "grad_norm": 3.560296625305877,
+      "kl": 0.14111328125,
+      "learning_rate": 7.349397590361446e-07,
+      "loss": 0.0056,
+      "reward": 2.3832234144210815,
+      "reward_std": 0.2271246314048767,
+      "rewards/accuracy_reward": 1.398848533630371,
+      "rewards/format_reward": 0.984375,
+      "step": 132
+    },
+    {
+      "completion_length": 78.515625,
+      "epoch": 1.6024096385542168,
+      "grad_norm": 4.271885997013165,
+      "kl": 0.103271484375,
+      "learning_rate": 7.329317269076305e-07,
+      "loss": 0.0041,
+      "reward": 2.11967396736145,
+      "reward_std": 0.21069814264774323,
+      "rewards/accuracy_reward": 1.119674026966095,
+      "rewards/format_reward": 1.0,
+      "step": 133
+    },
+    {
+      "completion_length": 81.2109375,
+      "epoch": 1.6144578313253013,
+      "grad_norm": 3.989749340172797,
+      "kl": 0.10009765625,
+      "learning_rate": 7.309236947791164e-07,
+      "loss": 0.004,
+      "reward": 2.2381746768951416,
+      "reward_std": 0.2712934762239456,
+      "rewards/accuracy_reward": 1.2537997961044312,
+      "rewards/format_reward": 0.984375,
+      "step": 134
+    },
+    {
+      "completion_length": 84.828125,
+      "epoch": 1.6265060240963856,
+      "grad_norm": 5.101727030105181,
+      "kl": 0.0927734375,
+      "learning_rate": 7.289156626506024e-07,
+      "loss": 0.0037,
+      "reward": 2.3006190061569214,
+      "reward_std": 0.2388201355934143,
+      "rewards/accuracy_reward": 1.3084314465522766,
+      "rewards/format_reward": 0.9921875,
+      "step": 135
+    },
+    {
+      "completion_length": 78.3984375,
+      "epoch": 1.6385542168674698,
+      "grad_norm": 7.945369222479043,
+      "kl": 0.109130859375,
+      "learning_rate": 7.269076305220884e-07,
+      "loss": 0.0044,
+      "reward": 2.187756061553955,
+      "reward_std": 0.22536994516849518,
+      "rewards/accuracy_reward": 1.2033808827400208,
+      "rewards/format_reward": 0.984375,
+      "step": 136
+    },
+    {
+      "completion_length": 83.0234375,
+      "epoch": 1.6506024096385543,
+      "grad_norm": 7.511759922163927,
+      "kl": 0.074462890625,
+      "learning_rate": 7.248995983935742e-07,
+      "loss": 0.003,
+      "reward": 2.299572706222534,
+      "reward_std": 0.22408785670995712,
+      "rewards/accuracy_reward": 1.3073852062225342,
+      "rewards/format_reward": 0.9921875,
+      "step": 137
+    },
+    {
+      "completion_length": 84.640625,
+      "epoch": 1.6626506024096386,
+      "grad_norm": 3.2982396535282623,
+      "kl": 0.0810546875,
+      "learning_rate": 7.228915662650602e-07,
+      "loss": 0.0032,
+      "reward": 2.3804391622543335,
+      "reward_std": 0.2060808688402176,
+      "rewards/accuracy_reward": 1.3804389834403992,
+      "rewards/format_reward": 1.0,
+      "step": 138
+    },
+    {
+      "completion_length": 87.8125,
+      "epoch": 1.6746987951807228,
+      "grad_norm": 8.41708008218346,
+      "kl": 0.0810546875,
+      "learning_rate": 7.208835341365461e-07,
+      "loss": 0.0032,
+      "reward": 2.2146860361099243,
+      "reward_std": 0.2540859431028366,
+      "rewards/accuracy_reward": 1.2146860361099243,
+      "rewards/format_reward": 1.0,
+      "step": 139
+    },
+    {
+      "completion_length": 86.140625,
+      "epoch": 1.6867469879518073,
+      "grad_norm": 3.5435273544538815,
+      "kl": 0.072998046875,
+      "learning_rate": 7.188755020080321e-07,
+      "loss": 0.0029,
+      "reward": 2.3307693004608154,
+      "reward_std": 0.20385809987783432,
+      "rewards/accuracy_reward": 1.3385818004608154,
+      "rewards/format_reward": 0.9921875,
+      "step": 140
+    },
+    {
+      "completion_length": 85.9375,
+      "epoch": 1.6987951807228916,
+      "grad_norm": 3.544683408089574,
+      "kl": 0.083984375,
+      "learning_rate": 7.168674698795181e-07,
+      "loss": 0.0034,
+      "reward": 2.2913438081741333,
+      "reward_std": 0.26863446831703186,
+      "rewards/accuracy_reward": 1.3069688081741333,
+      "rewards/format_reward": 0.984375,
+      "step": 141
+    },
+    {
+      "completion_length": 83.2578125,
+      "epoch": 1.7108433734939759,
+      "grad_norm": 4.741927242341381,
+      "kl": 0.12548828125,
+      "learning_rate": 7.14859437751004e-07,
+      "loss": 0.005,
+      "reward": 2.3960628509521484,
+      "reward_std": 0.2550785541534424,
+      "rewards/accuracy_reward": 1.3960627913475037,
+      "rewards/format_reward": 1.0,
+      "step": 142
+    },
+    {
+      "completion_length": 86.671875,
+      "epoch": 1.7228915662650603,
+      "grad_norm": 3.0874349711182494,
+      "kl": 0.07470703125,
+      "learning_rate": 7.128514056224899e-07,
+      "loss": 0.003,
+      "reward": 2.3813560009002686,
+      "reward_std": 0.25298502296209335,
+      "rewards/accuracy_reward": 1.381356120109558,
+      "rewards/format_reward": 1.0,
+      "step": 143
+    },
+    {
+      "completion_length": 80.40625,
+      "epoch": 1.7349397590361446,
+      "grad_norm": 9.215211678123678,
+      "kl": 0.085693359375,
+      "learning_rate": 7.108433734939758e-07,
+      "loss": 0.0034,
+      "reward": 2.3150322437286377,
+      "reward_std": 0.23231424391269684,
+      "rewards/accuracy_reward": 1.315032422542572,
+      "rewards/format_reward": 1.0,
+      "step": 144
+    },
+    {
+      "completion_length": 79.5859375,
+      "epoch": 1.7469879518072289,
+      "grad_norm": 3.3677362414264307,
+      "kl": 0.098876953125,
+      "learning_rate": 7.088353413654619e-07,
+      "loss": 0.0039,
+      "reward": 2.2901567220687866,
+      "reward_std": 0.21487458050251007,
+      "rewards/accuracy_reward": 1.2979693412780762,
+      "rewards/format_reward": 0.9921875,
+      "step": 145
+    },
+    {
+      "completion_length": 87.2734375,
+      "epoch": 1.7590361445783134,
+      "grad_norm": 3.8053306313986037,
+      "kl": 0.104736328125,
+      "learning_rate": 7.068273092369477e-07,
+      "loss": 0.0042,
+      "reward": 2.2074761390686035,
+      "reward_std": 0.24223129451274872,
+      "rewards/accuracy_reward": 1.2074760794639587,
+      "rewards/format_reward": 1.0,
+      "step": 146
+    },
+    {
+      "completion_length": 88.984375,
+      "epoch": 1.7710843373493976,
+      "grad_norm": 4.960937467624004,
+      "kl": 0.08251953125,
+      "learning_rate": 7.048192771084337e-07,
+      "loss": 0.0033,
+      "reward": 2.2357683181762695,
+      "reward_std": 0.2608248367905617,
+      "rewards/accuracy_reward": 1.2435806393623352,
+      "rewards/format_reward": 0.9921875,
+      "step": 147
+    },
+    {
+      "completion_length": 80.421875,
+      "epoch": 1.783132530120482,
+      "grad_norm": 3.5313461555382717,
+      "kl": 0.106689453125,
+      "learning_rate": 7.028112449799196e-07,
+      "loss": 0.0042,
+      "reward": 2.223365068435669,
+      "reward_std": 0.20793087780475616,
+      "rewards/accuracy_reward": 1.2311774492263794,
+      "rewards/format_reward": 0.9921875,
+      "step": 148
+    },
+    {
+      "completion_length": 81.6328125,
+      "epoch": 1.7951807228915664,
+      "grad_norm": 3.917968857756188,
+      "kl": 0.082763671875,
+      "learning_rate": 7.008032128514057e-07,
+      "loss": 0.0033,
+      "reward": 2.431049346923828,
+      "reward_std": 0.25210463255643845,
+      "rewards/accuracy_reward": 1.4310495257377625,
+      "rewards/format_reward": 1.0,
+      "step": 149
+    },
+    {
+      "completion_length": 82.71875,
+      "epoch": 1.8072289156626506,
+      "grad_norm": 3.2751640437820417,
+      "kl": 0.105224609375,
+      "learning_rate": 6.987951807228916e-07,
+      "loss": 0.0042,
+      "reward": 2.167607069015503,
+      "reward_std": 0.20023201406002045,
+      "rewards/accuracy_reward": 1.183232069015503,
+      "rewards/format_reward": 0.984375,
+      "step": 150
+    },
+    {
+      "completion_length": 80.1015625,
+      "epoch": 1.819277108433735,
+      "grad_norm": 3.696030829693263,
+      "kl": 0.09716796875,
+      "learning_rate": 6.967871485943774e-07,
+      "loss": 0.0039,
+      "reward": 2.545083999633789,
+      "reward_std": 0.17634352296590805,
+      "rewards/accuracy_reward": 1.5450841188430786,
+      "rewards/format_reward": 1.0,
+      "step": 151
+    },
+    {
+      "completion_length": 81.6484375,
+      "epoch": 1.8313253012048194,
+      "grad_norm": 5.419229696650584,
+      "kl": 0.119873046875,
+      "learning_rate": 6.947791164658634e-07,
+      "loss": 0.0048,
+      "reward": 2.144273281097412,
+      "reward_std": 0.2491978257894516,
+      "rewards/accuracy_reward": 1.152085781097412,
+      "rewards/format_reward": 0.9921875,
+      "step": 152
+    },
+    {
+      "completion_length": 77.96875,
+      "epoch": 1.8433734939759037,
+      "grad_norm": 34.81233821704641,
+      "kl": 0.09619140625,
+      "learning_rate": 6.927710843373493e-07,
+      "loss": 0.0039,
+      "reward": 2.4207249879837036,
+      "reward_std": 0.22066732123494148,
+      "rewards/accuracy_reward": 1.4207251071929932,
+      "rewards/format_reward": 1.0,
+      "step": 153
+    },
+    {
+      "completion_length": 81.3984375,
+      "epoch": 1.855421686746988,
+      "grad_norm": 4.095705367504911,
+      "kl": 0.101806640625,
+      "learning_rate": 6.907630522088354e-07,
+      "loss": 0.0041,
+      "reward": 2.160383105278015,
+      "reward_std": 0.27165083587169647,
+      "rewards/accuracy_reward": 1.1681956052780151,
+      "rewards/format_reward": 0.9921875,
+      "step": 154
+    },
+    {
+      "completion_length": 79.78125,
+      "epoch": 1.8674698795180724,
+      "grad_norm": 3.0440685644807663,
+      "kl": 0.11865234375,
+      "learning_rate": 6.887550200803212e-07,
+      "loss": 0.0047,
+      "reward": 2.4971319437026978,
+      "reward_std": 0.16808781027793884,
+      "rewards/accuracy_reward": 1.4971320629119873,
+      "rewards/format_reward": 1.0,
+      "step": 155
+    },
+    {
+      "completion_length": 83.09375,
+      "epoch": 1.8795180722891565,
+      "grad_norm": 3.1771226883841206,
+      "kl": 0.10498046875,
+      "learning_rate": 6.867469879518072e-07,
+      "loss": 0.0042,
+      "reward": 2.1450811624526978,
+      "reward_std": 0.2694619745016098,
+      "rewards/accuracy_reward": 1.1450812816619873,
+      "rewards/format_reward": 1.0,
+      "step": 156
+    },
+    {
+      "completion_length": 81.9453125,
+      "epoch": 1.891566265060241,
+      "grad_norm": 3.4230588560037583,
+      "kl": 0.113525390625,
+      "learning_rate": 6.847389558232931e-07,
+      "loss": 0.0045,
+      "reward": 2.44959032535553,
+      "reward_std": 0.16196198761463165,
+      "rewards/accuracy_reward": 1.4574028253555298,
+      "rewards/format_reward": 0.9921875,
+      "step": 157
+    },
+    {
+      "completion_length": 86.203125,
+      "epoch": 1.9036144578313254,
+      "grad_norm": 5.9344079114737,
+      "kl": 0.1015625,
+      "learning_rate": 6.827309236947792e-07,
+      "loss": 0.0041,
+      "reward": 2.1924350261688232,
+      "reward_std": 0.1869198903441429,
+      "rewards/accuracy_reward": 1.1924351453781128,
+      "rewards/format_reward": 1.0,
+      "step": 158
+    },
+    {
+      "completion_length": 84.7734375,
+      "epoch": 1.9156626506024095,
+      "grad_norm": 3.7338258911048707,
+      "kl": 0.105224609375,
+      "learning_rate": 6.807228915662651e-07,
+      "loss": 0.0042,
+      "reward": 2.298088550567627,
+      "reward_std": 0.2152806669473648,
+      "rewards/accuracy_reward": 1.3059011697769165,
+      "rewards/format_reward": 0.9921875,
+      "step": 159
+    },
+    {
+      "completion_length": 88.2109375,
+      "epoch": 1.927710843373494,
+      "grad_norm": 3.2737012532681535,
+      "kl": 0.124755859375,
+      "learning_rate": 6.787148594377509e-07,
+      "loss": 0.005,
+      "reward": 2.3695740699768066,
+      "reward_std": 0.300421878695488,
+      "rewards/accuracy_reward": 1.3930113911628723,
+      "rewards/format_reward": 0.9765625,
+      "step": 160
+    },
+    {
+      "completion_length": 82.9921875,
+      "epoch": 1.9397590361445785,
+      "grad_norm": 14.347253854862437,
+      "kl": 0.119873046875,
+      "learning_rate": 6.767068273092369e-07,
+      "loss": 0.0048,
+      "reward": 2.306626796722412,
+      "reward_std": 0.2548489645123482,
+      "rewards/accuracy_reward": 1.3222516179084778,
+      "rewards/format_reward": 0.984375,
+      "step": 161
+    },
+    {
+      "completion_length": 87.734375,
+      "epoch": 1.9518072289156625,
+      "grad_norm": 3.457686333163172,
+      "kl": 0.109375,
+      "learning_rate": 6.746987951807228e-07,
+      "loss": 0.0044,
+      "reward": 2.2328758239746094,
+      "reward_std": 0.28791245073080063,
+      "rewards/accuracy_reward": 1.2641257643699646,
+      "rewards/format_reward": 0.96875,
+      "step": 162
+    },
+    {
+      "completion_length": 83.25,
+      "epoch": 1.963855421686747,
+      "grad_norm": 4.1768305143971824,
+      "kl": 0.12353515625,
+      "learning_rate": 6.726907630522089e-07,
+      "loss": 0.0049,
+      "reward": 2.2161502838134766,
+      "reward_std": 0.25863420963287354,
+      "rewards/accuracy_reward": 1.2630252242088318,
+      "rewards/format_reward": 0.953125,
+      "step": 163
+    },
+    {
+      "completion_length": 88.734375,
+      "epoch": 1.9759036144578315,
+      "grad_norm": 4.842793088552531,
+      "kl": 0.105712890625,
+      "learning_rate": 6.706827309236947e-07,
+      "loss": 0.0042,
+      "reward": 2.090719521045685,
+      "reward_std": 0.25029148161411285,
+      "rewards/accuracy_reward": 1.1141569316387177,
+      "rewards/format_reward": 0.9765625,
+      "step": 164
+    },
+    {
+      "completion_length": 86.1953125,
+      "epoch": 1.9879518072289155,
+      "grad_norm": 3.657481472750154,
+      "kl": 0.125244140625,
+      "learning_rate": 6.686746987951807e-07,
+      "loss": 0.005,
+      "reward": 2.2765581607818604,
+      "reward_std": 0.2915503680706024,
+      "rewards/accuracy_reward": 1.30780827999115,
+      "rewards/format_reward": 0.96875,
+      "step": 165
+    },
+    {
+      "completion_length": 92.16666793823242,
+      "epoch": 2.0,
+      "grad_norm": 3.6057161188599776,
+      "kl": 0.125732421875,
+      "learning_rate": 6.666666666666666e-07,
+      "loss": 0.0047,
+      "reward": 2.234604835510254,
+      "reward_std": 0.2570358142256737,
+      "rewards/accuracy_reward": 1.2346049845218658,
+      "rewards/format_reward": 1.0,
+      "step": 166
+    },
+    {
+      "completion_length": 87.1484375,
+      "epoch": 2.0120481927710845,
+      "grad_norm": 3.7603470456590564,
+      "kl": 0.094482421875,
+      "learning_rate": 6.646586345381526e-07,
+      "loss": 0.0038,
+      "reward": 2.2034374475479126,
+      "reward_std": 0.3387380540370941,
+      "rewards/accuracy_reward": 1.2112498879432678,
+      "rewards/format_reward": 0.9921875,
+      "step": 167
+    },
+    {
+      "completion_length": 86.1953125,
+      "epoch": 2.0240963855421685,
+      "grad_norm": 4.4381952945033465,
+      "kl": 0.09765625,
+      "learning_rate": 6.626506024096386e-07,
+      "loss": 0.0039,
+      "reward": 2.222957730293274,
+      "reward_std": 0.2284381240606308,
+      "rewards/accuracy_reward": 1.238582730293274,
+      "rewards/format_reward": 0.984375,
+      "step": 168
+    },
+    {
+      "completion_length": 84.3125,
+      "epoch": 2.036144578313253,
+      "grad_norm": 3.399081917667578,
+      "kl": 0.0966796875,
+      "learning_rate": 6.606425702811244e-07,
+      "loss": 0.0039,
+      "reward": 2.2074966430664062,
+      "reward_std": 0.2783028930425644,
+      "rewards/accuracy_reward": 1.2231215238571167,
+      "rewards/format_reward": 0.984375,
+      "step": 169
+    },
+    {
+      "completion_length": 84.1640625,
+      "epoch": 2.0481927710843375,
+      "grad_norm": 3.794821230336393,
+      "kl": 0.10400390625,
+      "learning_rate": 6.586345381526104e-07,
+      "loss": 0.0042,
+      "reward": 2.2774429321289062,
+      "reward_std": 0.18755661696195602,
+      "rewards/accuracy_reward": 1.2774428129196167,
+      "rewards/format_reward": 1.0,
+      "step": 170
+    },
+    {
+      "completion_length": 84.7421875,
+      "epoch": 2.0602409638554215,
+      "grad_norm": 5.41653478361753,
+      "kl": 0.09130859375,
+      "learning_rate": 6.566265060240963e-07,
+      "loss": 0.0036,
+      "reward": 2.2825827598571777,
+      "reward_std": 0.20142250508069992,
+      "rewards/accuracy_reward": 1.2825825810432434,
+      "rewards/format_reward": 1.0,
+      "step": 171
+    },
+    {
+      "completion_length": 78.421875,
+      "epoch": 2.072289156626506,
+      "grad_norm": 4.831319526617051,
+      "kl": 0.099365234375,
+      "learning_rate": 6.546184738955824e-07,
+      "loss": 0.004,
+      "reward": 2.4247552156448364,
+      "reward_std": 0.19953592866659164,
+      "rewards/accuracy_reward": 1.4247552752494812,
+      "rewards/format_reward": 1.0,
+      "step": 172
+    },
+    {
+      "completion_length": 78.359375,
+      "epoch": 2.0843373493975905,
+      "grad_norm": 3.8109915515963038,
+      "kl": 0.10498046875,
+      "learning_rate": 6.526104417670682e-07,
+      "loss": 0.0042,
+      "reward": 2.3325507640838623,
+      "reward_std": 0.26026056706905365,
+      "rewards/accuracy_reward": 1.348175823688507,
+      "rewards/format_reward": 0.984375,
+      "step": 173
+    },
+    {
+      "completion_length": 79.21875,
+      "epoch": 2.0963855421686746,
+      "grad_norm": 4.94758596751216,
+      "kl": 0.130615234375,
+      "learning_rate": 6.506024096385541e-07,
+      "loss": 0.0052,
+      "reward": 2.3614529371261597,
+      "reward_std": 0.23941361159086227,
+      "rewards/accuracy_reward": 1.3614528179168701,
+      "rewards/format_reward": 1.0,
+      "step": 174
+    },
+    {
+      "completion_length": 80.8984375,
+      "epoch": 2.108433734939759,
+      "grad_norm": 4.645980861130919,
+      "kl": 0.12646484375,
+      "learning_rate": 6.485943775100401e-07,
+      "loss": 0.0051,
+      "reward": 2.148719310760498,
+      "reward_std": 0.2538711354136467,
+      "rewards/accuracy_reward": 1.1487191915512085,
+      "rewards/format_reward": 1.0,
+      "step": 175
+    },
+    {
+      "completion_length": 78.921875,
+      "epoch": 2.1204819277108435,
+      "grad_norm": 3.362542245290514,
+      "kl": 0.090576171875,
+      "learning_rate": 6.465863453815261e-07,
+      "loss": 0.0036,
+      "reward": 2.3466458320617676,
+      "reward_std": 0.21008533239364624,
+      "rewards/accuracy_reward": 1.346645712852478,
+      "rewards/format_reward": 1.0,
+      "step": 176
+    },
+    {
+      "completion_length": 78.5546875,
+      "epoch": 2.1325301204819276,
+      "grad_norm": 3.6960106974538585,
+      "kl": 0.0908203125,
+      "learning_rate": 6.445783132530121e-07,
+      "loss": 0.0036,
+      "reward": 2.4223729372024536,
+      "reward_std": 0.15239863470196724,
+      "rewards/accuracy_reward": 1.4223730564117432,
+      "rewards/format_reward": 1.0,
+      "step": 177
+    },
+    {
+      "completion_length": 76.890625,
+      "epoch": 2.144578313253012,
+      "grad_norm": 3.5646239400027913,
+      "kl": 0.103515625,
+      "learning_rate": 6.425702811244979e-07,
+      "loss": 0.0041,
+      "reward": 2.4388126134872437,
+      "reward_std": 0.22842204570770264,
+      "rewards/accuracy_reward": 1.4466250538825989,
+      "rewards/format_reward": 0.9921875,
+      "step": 178
+    },
+    {
+      "completion_length": 78.796875,
+      "epoch": 2.1566265060240966,
+      "grad_norm": 3.531186908359453,
+      "kl": 0.099609375,
+      "learning_rate": 6.405622489959839e-07,
+      "loss": 0.004,
+      "reward": 2.1039586067199707,
+      "reward_std": 0.23404612392187119,
+      "rewards/accuracy_reward": 1.1273961663246155,
+      "rewards/format_reward": 0.9765625,
+      "step": 179
+    },
+    {
+      "completion_length": 75.75,
+      "epoch": 2.1686746987951806,
+      "grad_norm": 5.0096541073452485,
+      "kl": 0.1015625,
+      "learning_rate": 6.385542168674698e-07,
+      "loss": 0.0041,
+      "reward": 2.374882221221924,
+      "reward_std": 0.2003496214747429,
+      "rewards/accuracy_reward": 1.374882161617279,
+      "rewards/format_reward": 1.0,
+      "step": 180
+    },
+    {
+      "completion_length": 79.9375,
+      "epoch": 2.180722891566265,
+      "grad_norm": 3.929802835585037,
+      "kl": 0.102294921875,
+      "learning_rate": 6.365461847389559e-07,
+      "loss": 0.0041,
+      "reward": 2.4310786724090576,
+      "reward_std": 0.20660096406936646,
+      "rewards/accuracy_reward": 1.4310787916183472,
+      "rewards/format_reward": 1.0,
+      "step": 181
+    },
+    {
+      "completion_length": 80.7578125,
+      "epoch": 2.1927710843373496,
+      "grad_norm": 4.226674931816659,
+      "kl": 0.09619140625,
+      "learning_rate": 6.345381526104418e-07,
+      "loss": 0.0038,
+      "reward": 2.3952780961990356,
+      "reward_std": 0.2160111963748932,
+      "rewards/accuracy_reward": 1.3952780961990356,
+      "rewards/format_reward": 1.0,
+      "step": 182
+    },
+    {
+      "completion_length": 80.484375,
+      "epoch": 2.2048192771084336,
+      "grad_norm": 3.463553859166022,
+      "kl": 0.107421875,
+      "learning_rate": 6.325301204819276e-07,
+      "loss": 0.0043,
+      "reward": 2.3913345336914062,
+      "reward_std": 0.22311442345380783,
+      "rewards/accuracy_reward": 1.3991470336914062,
+      "rewards/format_reward": 0.9921875,
+      "step": 183
+    },
+    {
+      "completion_length": 78.484375,
+      "epoch": 2.216867469879518,
+      "grad_norm": 3.9553841913647356,
+      "kl": 0.08642578125,
+      "learning_rate": 6.305220883534136e-07,
+      "loss": 0.0035,
+      "reward": 2.353707432746887,
+      "reward_std": 0.2809625118970871,
+      "rewards/accuracy_reward": 1.3615199327468872,
+      "rewards/format_reward": 0.9921875,
+      "step": 184
+    },
+    {
+      "completion_length": 86.203125,
+      "epoch": 2.2289156626506026,
+      "grad_norm": 6.103835532514207,
+      "kl": 0.075439453125,
+      "learning_rate": 6.285140562248996e-07,
+      "loss": 0.003,
+      "reward": 2.411812663078308,
+      "reward_std": 0.17931858450174332,
+      "rewards/accuracy_reward": 1.411812663078308,
+      "rewards/format_reward": 1.0,
+      "step": 185
+    },
+    {
+      "completion_length": 77.515625,
+      "epoch": 2.2409638554216866,
+      "grad_norm": 3.91857543195832,
+      "kl": 0.10107421875,
+      "learning_rate": 6.265060240963856e-07,
+      "loss": 0.004,
+      "reward": 2.2299575805664062,
+      "reward_std": 0.2100789025425911,
+      "rewards/accuracy_reward": 1.2377700209617615,
+      "rewards/format_reward": 0.9921875,
+      "step": 186
+    },
+    {
+      "completion_length": 77.09375,
+      "epoch": 2.253012048192771,
+      "grad_norm": 3.8592654709883796,
+      "kl": 0.095947265625,
+      "learning_rate": 6.244979919678714e-07,
+      "loss": 0.0038,
+      "reward": 2.47510826587677,
+      "reward_std": 0.2556135207414627,
+      "rewards/accuracy_reward": 1.4829206466674805,
+      "rewards/format_reward": 0.9921875,
+      "step": 187
+    },
+    {
+      "completion_length": 79.2890625,
+      "epoch": 2.2650602409638556,
+      "grad_norm": 6.921774157099546,
+      "kl": 0.093017578125,
+      "learning_rate": 6.224899598393574e-07,
+      "loss": 0.0037,
+      "reward": 2.3394941091537476,
+      "reward_std": 0.23163118958473206,
+      "rewards/accuracy_reward": 1.3394939303398132,
+      "rewards/format_reward": 1.0,
+      "step": 188
+    },
+    {
+      "completion_length": 79.546875,
+      "epoch": 2.2771084337349397,
+      "grad_norm": 5.699992937395376,
+      "kl": 0.08544921875,
+      "learning_rate": 6.204819277108434e-07,
+      "loss": 0.0034,
+      "reward": 2.330021381378174,
+      "reward_std": 0.21045994758605957,
+      "rewards/accuracy_reward": 1.3300212621688843,
+      "rewards/format_reward": 1.0,
+      "step": 189
+    },
+    {
+      "completion_length": 77.421875,
+      "epoch": 2.289156626506024,
+      "grad_norm": 4.425700742489554,
+      "kl": 0.098388671875,
+      "learning_rate": 6.184738955823293e-07,
+      "loss": 0.0039,
+      "reward": 2.2294440269470215,
+      "reward_std": 0.21671444922685623,
+      "rewards/accuracy_reward": 1.2294440865516663,
+      "rewards/format_reward": 1.0,
+      "step": 190
+    },
+    {
+      "completion_length": 74.6640625,
+      "epoch": 2.3012048192771086,
+      "grad_norm": 3.5141288907091783,
+      "kl": 0.08154296875,
+      "learning_rate": 6.164658634538153e-07,
+      "loss": 0.0033,
+      "reward": 2.417364239692688,
+      "reward_std": 0.18784678727388382,
+      "rewards/accuracy_reward": 1.4173641800880432,
+      "rewards/format_reward": 1.0,
+      "step": 191
+    },
+    {
+      "completion_length": 74.53125,
+      "epoch": 2.3132530120481927,
+      "grad_norm": 4.6610918738389095,
+      "kl": 0.096435546875,
+      "learning_rate": 6.144578313253011e-07,
+      "loss": 0.0039,
+      "reward": 2.4048426151275635,
+      "reward_std": 0.2764005810022354,
+      "rewards/accuracy_reward": 1.412655234336853,
+      "rewards/format_reward": 0.9921875,
+      "step": 192
+    },
+    {
+      "completion_length": 80.8984375,
+      "epoch": 2.325301204819277,
+      "grad_norm": 6.933183617809393,
+      "kl": 0.07861328125,
+      "learning_rate": 6.124497991967871e-07,
+      "loss": 0.0031,
+      "reward": 2.2180745601654053,
+      "reward_std": 0.2127843052148819,
+      "rewards/accuracy_reward": 1.21807461977005,
+      "rewards/format_reward": 1.0,
+      "step": 193
+    },
+    {
+      "completion_length": 80.9296875,
+      "epoch": 2.337349397590361,
+      "grad_norm": 4.526116466506062,
+      "kl": 0.088623046875,
+      "learning_rate": 6.104417670682731e-07,
+      "loss": 0.0035,
+      "reward": 2.2327487468719482,
+      "reward_std": 0.2369586005806923,
+      "rewards/accuracy_reward": 1.240561306476593,
+      "rewards/format_reward": 0.9921875,
+      "step": 194
+    },
+    {
+      "completion_length": 79.8359375,
+      "epoch": 2.3493975903614457,
+      "grad_norm": 3.410370565415923,
+      "kl": 0.09326171875,
+      "learning_rate": 6.084337349397591e-07,
+      "loss": 0.0037,
+      "reward": 2.222264051437378,
+      "reward_std": 0.26303592324256897,
+      "rewards/accuracy_reward": 1.230076551437378,
+      "rewards/format_reward": 0.9921875,
+      "step": 195
+    },
+    {
+      "completion_length": 73.8828125,
+      "epoch": 2.36144578313253,
+      "grad_norm": 3.962197046428477,
+      "kl": 0.103271484375,
+      "learning_rate": 6.064257028112449e-07,
+      "loss": 0.0041,
+      "reward": 2.296523690223694,
+      "reward_std": 0.370675727725029,
+      "rewards/accuracy_reward": 1.2965235710144043,
+      "rewards/format_reward": 1.0,
+      "step": 196
+    },
+    {
+      "completion_length": 74.515625,
+      "epoch": 2.3734939759036147,
+      "grad_norm": 3.7849181083166066,
+      "kl": 0.100341796875,
+      "learning_rate": 6.044176706827308e-07,
+      "loss": 0.004,
+      "reward": 2.1898573637008667,
+      "reward_std": 0.2903239354491234,
+      "rewards/accuracy_reward": 1.1898574829101562,
+      "rewards/format_reward": 1.0,
+      "step": 197
+    },
+    {
+      "completion_length": 71.015625,
+      "epoch": 2.3855421686746987,
+      "grad_norm": 4.598411590922377,
+      "kl": 0.09716796875,
+      "learning_rate": 6.024096385542169e-07,
+      "loss": 0.0039,
+      "reward": 2.3405251502990723,
+      "reward_std": 0.1668776124715805,
+      "rewards/accuracy_reward": 1.3405250310897827,
+      "rewards/format_reward": 1.0,
+      "step": 198
+    },
+    {
+      "completion_length": 72.0234375,
+      "epoch": 2.397590361445783,
+      "grad_norm": 4.094960420612339,
+      "kl": 0.08447265625,
+      "learning_rate": 6.004016064257028e-07,
+      "loss": 0.0034,
+      "reward": 2.2692129611968994,
+      "reward_std": 0.22979120910167694,
+      "rewards/accuracy_reward": 1.2848379015922546,
+      "rewards/format_reward": 0.984375,
+      "step": 199
+    },
+    {
+      "completion_length": 76.34375,
+      "epoch": 2.4096385542168672,
+      "grad_norm": 5.228591551586785,
+      "kl": 0.0771484375,
+      "learning_rate": 5.983935742971888e-07,
+      "loss": 0.0031,
+      "reward": 2.29106342792511,
+      "reward_std": 0.22756240516901016,
+      "rewards/accuracy_reward": 1.2910634279251099,
+      "rewards/format_reward": 1.0,
+      "step": 200
+    },
+    {
+      "completion_length": 79.3828125,
+      "epoch": 2.4216867469879517,
+      "grad_norm": 3.532651567007306,
+      "kl": 0.140869140625,
+      "learning_rate": 5.963855421686746e-07,
+      "loss": 0.0056,
+      "reward": 2.218053698539734,
+      "reward_std": 0.24822543561458588,
+      "rewards/accuracy_reward": 1.2180536985397339,
+      "rewards/format_reward": 1.0,
+      "step": 201
+    },
+    {
+      "completion_length": 76.0,
+      "epoch": 2.433734939759036,
+      "grad_norm": 3.316768093202225,
+      "kl": 0.088134765625,
+      "learning_rate": 5.943775100401606e-07,
+      "loss": 0.0035,
+      "reward": 2.26613187789917,
+      "reward_std": 0.24750088155269623,
+      "rewards/accuracy_reward": 1.2739443182945251,
+      "rewards/format_reward": 0.9921875,
+      "step": 202
+    },
+    {
+      "completion_length": 70.5234375,
+      "epoch": 2.4457831325301207,
+      "grad_norm": 9.031966519770473,
+      "kl": 0.099853515625,
+      "learning_rate": 5.923694779116466e-07,
+      "loss": 0.004,
+      "reward": 2.317081928253174,
+      "reward_std": 0.24299181252717972,
+      "rewards/accuracy_reward": 1.3248944282531738,
+      "rewards/format_reward": 0.9921875,
+      "step": 203
+    },
+    {
+      "completion_length": 72.1484375,
+      "epoch": 2.4578313253012047,
+      "grad_norm": 4.923799185057533,
+      "kl": 0.09716796875,
+      "learning_rate": 5.903614457831325e-07,
+      "loss": 0.0039,
+      "reward": 2.202351689338684,
+      "reward_std": 0.24287213385105133,
+      "rewards/accuracy_reward": 1.2023517489433289,
+      "rewards/format_reward": 1.0,
+      "step": 204
+    },
+    {
+      "completion_length": 75.5390625,
+      "epoch": 2.4698795180722892,
+      "grad_norm": 10.424209527328602,
+      "kl": 0.0849609375,
+      "learning_rate": 5.883534136546184e-07,
+      "loss": 0.0034,
+      "reward": 2.3431246280670166,
+      "reward_std": 0.21441341936588287,
+      "rewards/accuracy_reward": 1.3431245684623718,
+      "rewards/format_reward": 1.0,
+      "step": 205
+    },
+    {
+      "completion_length": 74.1328125,
+      "epoch": 2.4819277108433733,
+      "grad_norm": 5.39794558294026,
+      "kl": 0.08349609375,
+      "learning_rate": 5.863453815261043e-07,
+      "loss": 0.0033,
+      "reward": 2.318004846572876,
+      "reward_std": 0.1649407297372818,
+      "rewards/accuracy_reward": 1.3180049657821655,
+      "rewards/format_reward": 1.0,
+      "step": 206
+    },
+    {
+      "completion_length": 70.828125,
+      "epoch": 2.4939759036144578,
+      "grad_norm": 5.651509118393077,
+      "kl": 0.099609375,
+      "learning_rate": 5.843373493975904e-07,
+      "loss": 0.004,
+      "reward": 2.2745083570480347,
+      "reward_std": 0.1795399785041809,
+      "rewards/accuracy_reward": 1.27450829744339,
+      "rewards/format_reward": 1.0,
+      "step": 207
+    },
+    {
+      "completion_length": 75.1484375,
+      "epoch": 2.5060240963855422,
+      "grad_norm": 3.374258945078158,
+      "kl": 0.099853515625,
+      "learning_rate": 5.823293172690763e-07,
+      "loss": 0.004,
+      "reward": 2.183190941810608,
+      "reward_std": 0.19665208458900452,
+      "rewards/accuracy_reward": 1.183190941810608,
+      "rewards/format_reward": 1.0,
+      "step": 208
+    },
+    {
+      "completion_length": 75.15625,
+      "epoch": 2.5180722891566267,
+      "grad_norm": 3.680961209255419,
+      "kl": 0.085693359375,
+      "learning_rate": 5.803212851405623e-07,
+      "loss": 0.0034,
+      "reward": 2.3783202171325684,
+      "reward_std": 0.21517369151115417,
+      "rewards/accuracy_reward": 1.3861328959465027,
+      "rewards/format_reward": 0.9921875,
+      "step": 209
+    },
+    {
+      "completion_length": 75.890625,
+      "epoch": 2.5301204819277108,
+      "grad_norm": 4.203577590596214,
+      "kl": 0.093017578125,
+      "learning_rate": 5.783132530120481e-07,
+      "loss": 0.0037,
+      "reward": 2.232303738594055,
+      "reward_std": 0.21822457760572433,
+      "rewards/accuracy_reward": 1.2401162385940552,
+      "rewards/format_reward": 0.9921875,
+      "step": 210
+    },
+    {
+      "completion_length": 72.5234375,
+      "epoch": 2.5421686746987953,
+      "grad_norm": 5.049709537985753,
+      "kl": 0.09033203125,
+      "learning_rate": 5.76305220883534e-07,
+      "loss": 0.0036,
+      "reward": 2.3138071298599243,
+      "reward_std": 0.18903522193431854,
+      "rewards/accuracy_reward": 1.3138071298599243,
+      "rewards/format_reward": 1.0,
+      "step": 211
+    },
+    {
+      "completion_length": 77.6796875,
+      "epoch": 2.5542168674698793,
+      "grad_norm": 4.79270453347689,
+      "kl": 0.10791015625,
+      "learning_rate": 5.742971887550201e-07,
+      "loss": 0.0043,
+      "reward": 2.35454523563385,
+      "reward_std": 0.260717436671257,
+      "rewards/accuracy_reward": 1.36235773563385,
+      "rewards/format_reward": 0.9921875,
+      "step": 212
+    },
+    {
+      "completion_length": 75.5234375,
+      "epoch": 2.566265060240964,
+      "grad_norm": 3.8110594359613694,
+      "kl": 0.132080078125,
+      "learning_rate": 5.72289156626506e-07,
+      "loss": 0.0053,
+      "reward": 2.3396618366241455,
+      "reward_std": 0.2776957154273987,
+      "rewards/accuracy_reward": 1.3474743366241455,
+      "rewards/format_reward": 0.9921875,
+      "step": 213
+    },
+    {
+      "completion_length": 78.8203125,
+      "epoch": 2.5783132530120483,
+      "grad_norm": 3.5277793226603467,
+      "kl": 0.082763671875,
+      "learning_rate": 5.70281124497992e-07,
+      "loss": 0.0033,
+      "reward": 2.282657027244568,
+      "reward_std": 0.20082392543554306,
+      "rewards/accuracy_reward": 1.2826570868492126,
+      "rewards/format_reward": 1.0,
+      "step": 214
+    },
+    {
+      "completion_length": 79.7265625,
+      "epoch": 2.5903614457831328,
+      "grad_norm": 5.661825173466666,
+      "kl": 0.070068359375,
+      "learning_rate": 5.682730923694778e-07,
+      "loss": 0.0028,
+      "reward": 2.2916386127471924,
+      "reward_std": 0.22843700647354126,
+      "rewards/accuracy_reward": 1.2916386723518372,
+      "rewards/format_reward": 1.0,
+      "step": 215
+    },
+    {
+      "completion_length": 75.484375,
+      "epoch": 2.602409638554217,
+      "grad_norm": 5.408656767411551,
+      "kl": 0.074951171875,
+      "learning_rate": 5.662650602409639e-07,
+      "loss": 0.003,
+      "reward": 2.4862678050994873,
+      "reward_std": 0.17430586367845535,
+      "rewards/accuracy_reward": 1.4862679243087769,
+      "rewards/format_reward": 1.0,
+      "step": 216
+    },
+    {
+      "completion_length": 75.4140625,
+      "epoch": 2.6144578313253013,
+      "grad_norm": 4.437169209890788,
+      "kl": 0.1123046875,
+      "learning_rate": 5.642570281124498e-07,
+      "loss": 0.0045,
+      "reward": 2.2881970405578613,
+      "reward_std": 0.24159938842058182,
+      "rewards/accuracy_reward": 1.3116344809532166,
+      "rewards/format_reward": 0.9765625,
+      "step": 217
+    },
+    {
+      "completion_length": 77.1484375,
+      "epoch": 2.6265060240963853,
+      "grad_norm": 3.7017405154535608,
+      "kl": 0.0849609375,
+      "learning_rate": 5.622489959839358e-07,
+      "loss": 0.0034,
+      "reward": 2.42057728767395,
+      "reward_std": 0.1918034851551056,
+      "rewards/accuracy_reward": 1.4205771684646606,
+      "rewards/format_reward": 1.0,
+      "step": 218
+    },
+    {
+      "completion_length": 74.9921875,
+      "epoch": 2.63855421686747,
+      "grad_norm": 3.0572748613034184,
+      "kl": 0.08056640625,
+      "learning_rate": 5.602409638554216e-07,
+      "loss": 0.0032,
+      "reward": 2.296902298927307,
+      "reward_std": 0.22776726633310318,
+      "rewards/accuracy_reward": 1.2969022989273071,
+      "rewards/format_reward": 1.0,
+      "step": 219
+    },
+    {
+      "completion_length": 77.9375,
+      "epoch": 2.6506024096385543,
+      "grad_norm": 5.142063259050984,
+      "kl": 0.08251953125,
+      "learning_rate": 5.582329317269075e-07,
+      "loss": 0.0033,
+      "reward": 2.411815643310547,
+      "reward_std": 0.20656804740428925,
+      "rewards/accuracy_reward": 1.4118155241012573,
+      "rewards/format_reward": 1.0,
+      "step": 220
+    },
+    {
+      "completion_length": 75.0625,
+      "epoch": 2.662650602409639,
+      "grad_norm": 9.244315362233946,
+      "kl": 0.094482421875,
+      "learning_rate": 5.562248995983936e-07,
+      "loss": 0.0038,
+      "reward": 2.2525359392166138,
+      "reward_std": 0.23683273047208786,
+      "rewards/accuracy_reward": 1.2681609392166138,
+      "rewards/format_reward": 0.984375,
+      "step": 221
+    },
+    {
+      "completion_length": 78.390625,
+      "epoch": 2.674698795180723,
+      "grad_norm": 4.89406748105177,
+      "kl": 0.078125,
+      "learning_rate": 5.542168674698795e-07,
+      "loss": 0.0031,
+      "reward": 2.33753764629364,
+      "reward_std": 0.21247170120477676,
+      "rewards/accuracy_reward": 1.3453501462936401,
+      "rewards/format_reward": 0.9921875,
+      "step": 222
+    },
+    {
+      "completion_length": 73.0859375,
+      "epoch": 2.6867469879518073,
+      "grad_norm": 3.6393688137680464,
+      "kl": 0.0810546875,
+      "learning_rate": 5.522088353413655e-07,
+      "loss": 0.0032,
+      "reward": 2.2808330059051514,
+      "reward_std": 0.1841505616903305,
+      "rewards/accuracy_reward": 1.280833125114441,
+      "rewards/format_reward": 1.0,
+      "step": 223
+    },
+    {
+      "completion_length": 77.1484375,
+      "epoch": 2.6987951807228914,
+      "grad_norm": 2.9614100491209516,
+      "kl": 0.08447265625,
+      "learning_rate": 5.502008032128513e-07,
+      "loss": 0.0034,
+      "reward": 2.256025791168213,
+      "reward_std": 0.22689195722341537,
+      "rewards/accuracy_reward": 1.271650791168213,
+      "rewards/format_reward": 0.984375,
+      "step": 224
+    },
+    {
+      "completion_length": 72.6015625,
+      "epoch": 2.710843373493976,
+      "grad_norm": 4.624802749562738,
+      "kl": 0.0810546875,
+      "learning_rate": 5.481927710843374e-07,
+      "loss": 0.0032,
+      "reward": 2.367666721343994,
+      "reward_std": 0.20605457574129105,
+      "rewards/accuracy_reward": 1.367666482925415,
+      "rewards/format_reward": 1.0,
+      "step": 225
+    },
+    {
+      "completion_length": 70.859375,
+      "epoch": 2.7228915662650603,
+      "grad_norm": 6.0943428059060505,
+      "kl": 0.10205078125,
+      "learning_rate": 5.461847389558233e-07,
+      "loss": 0.0041,
+      "reward": 2.3246583938598633,
+      "reward_std": 0.17254704982042313,
+      "rewards/accuracy_reward": 1.3324708938598633,
+      "rewards/format_reward": 0.9921875,
+      "step": 226
+    },
+    {
+      "completion_length": 75.640625,
+      "epoch": 2.734939759036145,
+      "grad_norm": 4.26546660385252,
+      "kl": 0.090087890625,
+      "learning_rate": 5.441767068273092e-07,
+      "loss": 0.0036,
+      "reward": 2.307809591293335,
+      "reward_std": 0.2002812698483467,
+      "rewards/accuracy_reward": 1.315622091293335,
+      "rewards/format_reward": 0.9921875,
+      "step": 227
+    },
+    {
+      "completion_length": 73.671875,
+      "epoch": 2.746987951807229,
+      "grad_norm": 3.4690497244218435,
+      "kl": 0.0927734375,
+      "learning_rate": 5.421686746987951e-07,
+      "loss": 0.0037,
+      "reward": 2.4064533710479736,
+      "reward_std": 0.1763758659362793,
+      "rewards/accuracy_reward": 1.4142658710479736,
+      "rewards/format_reward": 0.9921875,
+      "step": 228
+    },
+    {
+      "completion_length": 77.265625,
+      "epoch": 2.7590361445783134,
+      "grad_norm": 3.8015660942675313,
+      "kl": 0.107666015625,
+      "learning_rate": 5.401606425702811e-07,
+      "loss": 0.0043,
+      "reward": 2.417749524116516,
+      "reward_std": 0.20080577582120895,
+      "rewards/accuracy_reward": 1.4333745837211609,
+      "rewards/format_reward": 0.984375,
+      "step": 229
+    },
+    {
+      "completion_length": 78.6484375,
+      "epoch": 2.7710843373493974,
+      "grad_norm": 4.593078230781537,
+      "kl": 0.081298828125,
+      "learning_rate": 5.381526104417671e-07,
+      "loss": 0.0032,
+      "reward": 2.310904383659363,
+      "reward_std": 0.20601534098386765,
+      "rewards/accuracy_reward": 1.326529324054718,
+      "rewards/format_reward": 0.984375,
+      "step": 230
+    },
+    {
+      "completion_length": 69.75,
+      "epoch": 2.783132530120482,
+      "grad_norm": 4.781119598148597,
+      "kl": 0.092041015625,
+      "learning_rate": 5.36144578313253e-07,
+      "loss": 0.0037,
+      "reward": 2.4060455560684204,
+      "reward_std": 0.1945626586675644,
+      "rewards/accuracy_reward": 1.41385817527771,
+      "rewards/format_reward": 0.9921875,
+      "step": 231
+    },
+    {
+      "completion_length": 72.125,
+      "epoch": 2.7951807228915664,
+      "grad_norm": 3.6431689651666925,
+      "kl": 0.084716796875,
+      "learning_rate": 5.34136546184739e-07,
+      "loss": 0.0034,
+      "reward": 2.2687569856643677,
+      "reward_std": 0.20781449228525162,
+      "rewards/accuracy_reward": 1.2765693664550781,
+      "rewards/format_reward": 0.9921875,
+      "step": 232
+    },
+    {
+      "completion_length": 75.28125,
+      "epoch": 2.807228915662651,
+      "grad_norm": 3.463525581618983,
+      "kl": 0.0830078125,
+      "learning_rate": 5.321285140562248e-07,
+      "loss": 0.0033,
+      "reward": 2.2786985635757446,
+      "reward_std": 0.1869373545050621,
+      "rewards/accuracy_reward": 1.2865110039710999,
+      "rewards/format_reward": 0.9921875,
+      "step": 233
+    },
+    {
+      "completion_length": 72.390625,
+      "epoch": 2.819277108433735,
+      "grad_norm": 3.989550051539227,
+      "kl": 0.08935546875,
+      "learning_rate": 5.301204819277109e-07,
+      "loss": 0.0036,
+      "reward": 2.2122349739074707,
+      "reward_std": 0.17366793006658554,
+      "rewards/accuracy_reward": 1.212234914302826,
+      "rewards/format_reward": 1.0,
+      "step": 234
+    },
+    {
+      "completion_length": 68.4296875,
+      "epoch": 2.8313253012048194,
+      "grad_norm": 5.293732432179004,
+      "kl": 0.1162109375,
+      "learning_rate": 5.281124497991968e-07,
+      "loss": 0.0046,
+      "reward": 2.273004412651062,
+      "reward_std": 0.21551835536956787,
+      "rewards/accuracy_reward": 1.2730044722557068,
+      "rewards/format_reward": 1.0,
+      "step": 235
+    },
+    {
+      "completion_length": 70.4765625,
+      "epoch": 2.8433734939759034,
+      "grad_norm": 3.483964465031993,
+      "kl": 0.08642578125,
+      "learning_rate": 5.261044176706827e-07,
+      "loss": 0.0035,
+      "reward": 2.5097464323043823,
+      "reward_std": 0.21660751849412918,
+      "rewards/accuracy_reward": 1.509746491909027,
+      "rewards/format_reward": 1.0,
+      "step": 236
+    },
+    {
+      "completion_length": 67.1796875,
+      "epoch": 2.855421686746988,
+      "grad_norm": 3.2613871176315286,
+      "kl": 0.109619140625,
+      "learning_rate": 5.240963855421686e-07,
+      "loss": 0.0044,
+      "reward": 2.2154468297958374,
+      "reward_std": 0.2426525428891182,
+      "rewards/accuracy_reward": 1.2154468894004822,
+      "rewards/format_reward": 1.0,
+      "step": 237
+    },
+    {
+      "completion_length": 73.875,
+      "epoch": 2.8674698795180724,
+      "grad_norm": 5.04569953866162,
+      "kl": 0.105224609375,
+      "learning_rate": 5.220883534136546e-07,
+      "loss": 0.0042,
+      "reward": 2.3947439193725586,
+      "reward_std": 0.16551193594932556,
+      "rewards/accuracy_reward": 1.3947439193725586,
+      "rewards/format_reward": 1.0,
+      "step": 238
+    },
+    {
+      "completion_length": 70.03125,
+      "epoch": 2.8795180722891565,
+      "grad_norm": 3.2080049289623997,
+      "kl": 0.10986328125,
+      "learning_rate": 5.200803212851406e-07,
+      "loss": 0.0044,
+      "reward": 2.394848346710205,
+      "reward_std": 0.22504138201475143,
+      "rewards/accuracy_reward": 1.394848346710205,
+      "rewards/format_reward": 1.0,
+      "step": 239
+    },
+    {
+      "completion_length": 70.90625,
+      "epoch": 2.891566265060241,
+      "grad_norm": 3.843192487462901,
+      "kl": 0.1171875,
+      "learning_rate": 5.180722891566265e-07,
+      "loss": 0.0047,
+      "reward": 2.2219191789627075,
+      "reward_std": 0.2526251822710037,
+      "rewards/accuracy_reward": 1.2219191193580627,
+      "rewards/format_reward": 1.0,
+      "step": 240
+    },
+    {
+      "completion_length": 67.1328125,
+      "epoch": 2.9036144578313254,
+      "grad_norm": 3.0217979987505394,
+      "kl": 0.104248046875,
+      "learning_rate": 5.160642570281125e-07,
+      "loss": 0.0042,
+      "reward": 2.2357059717178345,
+      "reward_std": 0.181558758020401,
+      "rewards/accuracy_reward": 1.235705852508545,
+      "rewards/format_reward": 1.0,
+      "step": 241
+    },
+    {
+      "completion_length": 67.0390625,
+      "epoch": 2.9156626506024095,
+      "grad_norm": 4.171949473201647,
+      "kl": 0.1044921875,
+      "learning_rate": 5.140562248995983e-07,
+      "loss": 0.0042,
+      "reward": 2.3148874044418335,
+      "reward_std": 0.17748098075389862,
+      "rewards/accuracy_reward": 1.3148874640464783,
+      "rewards/format_reward": 1.0,
+      "step": 242
+    },
+    {
+      "completion_length": 65.8671875,
+      "epoch": 2.927710843373494,
+      "grad_norm": 8.908769866071971,
+      "kl": 0.11181640625,
+      "learning_rate": 5.120481927710843e-07,
+      "loss": 0.0045,
+      "reward": 2.2218422889709473,
+      "reward_std": 0.1961566060781479,
+      "rewards/accuracy_reward": 1.2296549081802368,
+      "rewards/format_reward": 0.9921875,
+      "step": 243
+    },
+    {
+      "completion_length": 63.6953125,
+      "epoch": 2.9397590361445785,
+      "grad_norm": 12.929344924116855,
+      "kl": 0.106201171875,
+      "learning_rate": 5.100401606425703e-07,
+      "loss": 0.0042,
+      "reward": 2.4831990003585815,
+      "reward_std": 0.17936265468597412,
+      "rewards/accuracy_reward": 1.4831989407539368,
+      "rewards/format_reward": 1.0,
+      "step": 244
+    },
+    {
+      "completion_length": 62.28125,
+      "epoch": 2.9518072289156625,
+      "grad_norm": 3.4705083145900404,
+      "kl": 0.111328125,
+      "learning_rate": 5.080321285140562e-07,
+      "loss": 0.0044,
+      "reward": 2.352734327316284,
+      "reward_std": 0.2174607664346695,
+      "rewards/accuracy_reward": 1.3683592081069946,
+      "rewards/format_reward": 0.984375,
+      "step": 245
+    },
+    {
+      "completion_length": 69.640625,
+      "epoch": 2.963855421686747,
+      "grad_norm": 4.178352503452598,
+      "kl": 0.111572265625,
+      "learning_rate": 5.060240963855421e-07,
+      "loss": 0.0045,
+      "reward": 2.3825145959854126,
+      "reward_std": 0.21491926908493042,
+      "rewards/accuracy_reward": 1.3903270959854126,
+      "rewards/format_reward": 0.9921875,
+      "step": 246
+    },
+    {
+      "completion_length": 65.875,
+      "epoch": 2.9759036144578315,
+      "grad_norm": 4.426857679190133,
+      "kl": 0.149169921875,
+      "learning_rate": 5.040160642570281e-07,
+      "loss": 0.006,
+      "reward": 2.1721856594085693,
+      "reward_std": 0.2390434294939041,
+      "rewards/accuracy_reward": 1.1721857190132141,
+      "rewards/format_reward": 1.0,
+      "step": 247
+    },
+    {
+      "completion_length": 70.9921875,
+      "epoch": 2.9879518072289155,
+      "grad_norm": 4.720913912936636,
+      "kl": 0.114013671875,
+      "learning_rate": 5.020080321285141e-07,
+      "loss": 0.0046,
+      "reward": 2.2051347494125366,
+      "reward_std": 0.2722553163766861,
+      "rewards/accuracy_reward": 1.2285721898078918,
+      "rewards/format_reward": 0.9765625,
+      "step": 248
+    },
+    {
+      "completion_length": 64.25000190734863,
+      "epoch": 3.0,
+      "grad_norm": 3.5181266600609904,
+      "kl": 0.11962890625,
+      "learning_rate": 5e-07,
+      "loss": 0.0048,
+      "reward": 2.1161320209503174,
+      "reward_std": 0.430472195148468,
+      "rewards/accuracy_reward": 1.1994653940200806,
+      "rewards/format_reward": 0.9166666865348816,
+      "step": 249
+    },
+    {
+      "completion_length": 68.1875,
+      "epoch": 3.0120481927710845,
+      "grad_norm": 3.5431810235066643,
+      "kl": 0.09619140625,
+      "learning_rate": 4.979919678714859e-07,
+      "loss": 0.0038,
+      "reward": 2.323817491531372,
+      "reward_std": 0.23299024999141693,
+      "rewards/accuracy_reward": 1.3316298723220825,
+      "rewards/format_reward": 0.9921875,
+      "step": 250
+    },
+    {
+      "completion_length": 71.6953125,
+      "epoch": 3.0240963855421685,
+      "grad_norm": 3.3542739826451173,
+      "kl": 0.08642578125,
+      "learning_rate": 4.959839357429718e-07,
+      "loss": 0.0035,
+      "reward": 2.411439895629883,
+      "reward_std": 0.19917739927768707,
+      "rewards/accuracy_reward": 1.4114398956298828,
+      "rewards/format_reward": 1.0,
+      "step": 251
+    },
+    {
+      "completion_length": 68.109375,
+      "epoch": 3.036144578313253,
+      "grad_norm": 12.151823073672764,
+      "kl": 0.110107421875,
+      "learning_rate": 4.939759036144578e-07,
+      "loss": 0.0044,
+      "reward": 2.5318474769592285,
+      "reward_std": 0.18056734651327133,
+      "rewards/accuracy_reward": 1.5396599173545837,
+      "rewards/format_reward": 0.9921875,
+      "step": 252
+    },
+    {
+      "completion_length": 72.578125,
+      "epoch": 3.0481927710843375,
+      "grad_norm": 3.219943316402962,
+      "kl": 0.099853515625,
+      "learning_rate": 4.919678714859438e-07,
+      "loss": 0.004,
+      "reward": 2.3200578689575195,
+      "reward_std": 0.15618911385536194,
+      "rewards/accuracy_reward": 1.3200578689575195,
+      "rewards/format_reward": 1.0,
+      "step": 253
+    },
+    {
+      "completion_length": 61.3828125,
+      "epoch": 3.0602409638554215,
+      "grad_norm": 3.865556225897638,
+      "kl": 0.10888671875,
+      "learning_rate": 4.899598393574297e-07,
+      "loss": 0.0044,
+      "reward": 2.209138035774231,
+      "reward_std": 0.17473262548446655,
+      "rewards/accuracy_reward": 1.2091379761695862,
+      "rewards/format_reward": 1.0,
+      "step": 254
+    },
+    {
+      "completion_length": 66.7421875,
+      "epoch": 3.072289156626506,
+      "grad_norm": 4.017362101946035,
+      "kl": 0.1259765625,
+      "learning_rate": 4.879518072289156e-07,
+      "loss": 0.005,
+      "reward": 2.139701724052429,
+      "reward_std": 0.22376088798046112,
+      "rewards/accuracy_reward": 1.1397016048431396,
+      "rewards/format_reward": 1.0,
+      "step": 255
+    },
+    {
+      "completion_length": 62.71875,
+      "epoch": 3.0843373493975905,
+      "grad_norm": 3.4288754746391947,
+      "kl": 0.140625,
+      "learning_rate": 4.859437751004016e-07,
+      "loss": 0.0056,
+      "reward": 2.2105259895324707,
+      "reward_std": 0.22984497249126434,
+      "rewards/accuracy_reward": 1.2261508703231812,
+      "rewards/format_reward": 0.984375,
+      "step": 256
+    },
+    {
+      "completion_length": 66.6953125,
+      "epoch": 3.0963855421686746,
+      "grad_norm": 3.481985490355864,
+      "kl": 0.1181640625,
+      "learning_rate": 4.839357429718875e-07,
+      "loss": 0.0047,
+      "reward": 2.5049203634262085,
+      "reward_std": 0.1857297122478485,
+      "rewards/accuracy_reward": 1.5049203634262085,
+      "rewards/format_reward": 1.0,
+      "step": 257
+    },
+    {
+      "completion_length": 67.484375,
+      "epoch": 3.108433734939759,
+      "grad_norm": 3.6977753194922403,
+      "kl": 0.107666015625,
+      "learning_rate": 4.819277108433735e-07,
+      "loss": 0.0043,
+      "reward": 2.3002774715423584,
+      "reward_std": 0.21863283962011337,
+      "rewards/accuracy_reward": 1.3080899119377136,
+      "rewards/format_reward": 0.9921875,
+      "step": 258
+    },
+    {
+      "completion_length": 71.984375,
+      "epoch": 3.1204819277108435,
+      "grad_norm": 3.2391554999759054,
+      "kl": 0.099853515625,
+      "learning_rate": 4.799196787148594e-07,
+      "loss": 0.004,
+      "reward": 2.404132843017578,
+      "reward_std": 0.19443362206220627,
+      "rewards/accuracy_reward": 1.4119452238082886,
+      "rewards/format_reward": 0.9921875,
+      "step": 259
+    },
+    {
+      "completion_length": 70.3984375,
+      "epoch": 3.1325301204819276,
+      "grad_norm": 3.8470897735347993,
+      "kl": 0.11181640625,
+      "learning_rate": 4.779116465863453e-07,
+      "loss": 0.0045,
+      "reward": 2.2314306497573853,
+      "reward_std": 0.1860732138156891,
+      "rewards/accuracy_reward": 1.2392430305480957,
+      "rewards/format_reward": 0.9921875,
+      "step": 260
+    },
+    {
+      "completion_length": 71.7109375,
+      "epoch": 3.144578313253012,
+      "grad_norm": 5.7256880192839965,
+      "kl": 0.101806640625,
+      "learning_rate": 4.7590361445783126e-07,
+      "loss": 0.0041,
+      "reward": 2.3397083282470703,
+      "reward_std": 0.21985551714897156,
+      "rewards/accuracy_reward": 1.3397083282470703,
+      "rewards/format_reward": 1.0,
+      "step": 261
+    },
+    {
+      "completion_length": 72.7265625,
+      "epoch": 3.1566265060240966,
+      "grad_norm": 4.6788843643036255,
+      "kl": 0.183837890625,
+      "learning_rate": 4.7389558232931724e-07,
+      "loss": 0.0074,
+      "reward": 2.288654088973999,
+      "reward_std": 0.25063957273960114,
+      "rewards/accuracy_reward": 1.296466588973999,
+      "rewards/format_reward": 0.9921875,
+      "step": 262
+    },
+    {
+      "completion_length": 66.96875,
+      "epoch": 3.1686746987951806,
+      "grad_norm": 4.000735227178484,
+      "kl": 0.1171875,
+      "learning_rate": 4.7188755020080317e-07,
+      "loss": 0.0047,
+      "reward": 2.385547637939453,
+      "reward_std": 0.179743941873312,
+      "rewards/accuracy_reward": 1.393360197544098,
+      "rewards/format_reward": 0.9921875,
+      "step": 263
+    },
+    {
+      "completion_length": 73.078125,
+      "epoch": 3.180722891566265,
+      "grad_norm": 3.2436175706744903,
+      "kl": 0.08837890625,
+      "learning_rate": 4.6987951807228915e-07,
+      "loss": 0.0035,
+      "reward": 2.3714927434921265,
+      "reward_std": 0.1866167113184929,
+      "rewards/accuracy_reward": 1.3793052434921265,
+      "rewards/format_reward": 0.9921875,
+      "step": 264
+    },
+    {
+      "completion_length": 67.7578125,
+      "epoch": 3.1927710843373496,
+      "grad_norm": 4.16773338040152,
+      "kl": 0.09619140625,
+      "learning_rate": 4.678714859437751e-07,
+      "loss": 0.0038,
+      "reward": 2.256360650062561,
+      "reward_std": 0.2188187688589096,
+      "rewards/accuracy_reward": 1.256360650062561,
+      "rewards/format_reward": 1.0,
+      "step": 265
+    },
+    {
+      "completion_length": 71.6796875,
+      "epoch": 3.2048192771084336,
+      "grad_norm": 3.7554898641141388,
+      "kl": 0.094482421875,
+      "learning_rate": 4.6586345381526106e-07,
+      "loss": 0.0038,
+      "reward": 2.285356283187866,
+      "reward_std": 0.2733229324221611,
+      "rewards/accuracy_reward": 1.2853562831878662,
+      "rewards/format_reward": 1.0,
+      "step": 266
+    },
+    {
+      "completion_length": 69.53125,
+      "epoch": 3.216867469879518,
+      "grad_norm": 3.1396081677261747,
+      "kl": 0.11572265625,
+      "learning_rate": 4.63855421686747e-07,
+      "loss": 0.0046,
+      "reward": 2.194140672683716,
+      "reward_std": 0.2116081416606903,
+      "rewards/accuracy_reward": 1.1941407322883606,
+      "rewards/format_reward": 1.0,
+      "step": 267
+    },
+    {
+      "completion_length": 67.8203125,
+      "epoch": 3.2289156626506026,
+      "grad_norm": 7.260439555595242,
+      "kl": 0.08837890625,
+      "learning_rate": 4.6184738955823296e-07,
+      "loss": 0.0035,
+      "reward": 2.252182364463806,
+      "reward_std": 0.1803755983710289,
+      "rewards/accuracy_reward": 1.259994924068451,
+      "rewards/format_reward": 0.9921875,
+      "step": 268
+    },
+    {
+      "completion_length": 67.390625,
+      "epoch": 3.2409638554216866,
+      "grad_norm": 3.5049860895757696,
+      "kl": 0.08935546875,
+      "learning_rate": 4.5983935742971884e-07,
+      "loss": 0.0036,
+      "reward": 2.2208237648010254,
+      "reward_std": 0.23105446994304657,
+      "rewards/accuracy_reward": 1.2286362648010254,
+      "rewards/format_reward": 0.9921875,
+      "step": 269
+    },
+    {
+      "completion_length": 70.8515625,
+      "epoch": 3.253012048192771,
+      "grad_norm": 5.489156591080696,
+      "kl": 0.131591796875,
+      "learning_rate": 4.5783132530120476e-07,
+      "loss": 0.0053,
+      "reward": 2.2373805046081543,
+      "reward_std": 0.2680865153670311,
+      "rewards/accuracy_reward": 1.2373805046081543,
+      "rewards/format_reward": 1.0,
+      "step": 270
+    },
+    {
+      "completion_length": 67.3359375,
+      "epoch": 3.2650602409638556,
+      "grad_norm": 3.943203757539833,
+      "kl": 0.102783203125,
+      "learning_rate": 4.5582329317269074e-07,
+      "loss": 0.0041,
+      "reward": 2.2856905460357666,
+      "reward_std": 0.2643607556819916,
+      "rewards/accuracy_reward": 1.2856906652450562,
+      "rewards/format_reward": 1.0,
+      "step": 271
+    },
+    {
+      "completion_length": 76.703125,
+      "epoch": 3.2771084337349397,
+      "grad_norm": 4.067837029288379,
+      "kl": 0.14794921875,
+      "learning_rate": 4.5381526104417667e-07,
+      "loss": 0.0059,
+      "reward": 2.2173361778259277,
+      "reward_std": 0.23457611352205276,
+      "rewards/accuracy_reward": 1.2251486778259277,
+      "rewards/format_reward": 0.9921875,
+      "step": 272
+    },
+    {
+      "completion_length": 70.9765625,
+      "epoch": 3.289156626506024,
+      "grad_norm": 3.356513487854019,
+      "kl": 0.105712890625,
+      "learning_rate": 4.5180722891566265e-07,
+      "loss": 0.0042,
+      "reward": 2.3274762630462646,
+      "reward_std": 0.1404755339026451,
+      "rewards/accuracy_reward": 1.327476143836975,
+      "rewards/format_reward": 1.0,
+      "step": 273
+    },
+    {
+      "completion_length": 73.5546875,
+      "epoch": 3.3012048192771086,
+      "grad_norm": 2.8662666869018194,
+      "kl": 0.087646484375,
+      "learning_rate": 4.497991967871486e-07,
+      "loss": 0.0035,
+      "reward": 2.4234249591827393,
+      "reward_std": 0.23345230519771576,
+      "rewards/accuracy_reward": 1.4234249591827393,
+      "rewards/format_reward": 1.0,
+      "step": 274
+    },
+    {
+      "completion_length": 76.2890625,
+      "epoch": 3.3132530120481927,
+      "grad_norm": 3.6359732134875027,
+      "kl": 0.0849609375,
+      "learning_rate": 4.4779116465863456e-07,
+      "loss": 0.0034,
+      "reward": 2.2799594402313232,
+      "reward_std": 0.17667143046855927,
+      "rewards/accuracy_reward": 1.2799595594406128,
+      "rewards/format_reward": 1.0,
+      "step": 275
+    },
+    {
+      "completion_length": 74.9296875,
+      "epoch": 3.325301204819277,
+      "grad_norm": 3.4769457078888513,
+      "kl": 0.1181640625,
+      "learning_rate": 4.4578313253012043e-07,
+      "loss": 0.0047,
+      "reward": 2.282673478126526,
+      "reward_std": 0.20452508330345154,
+      "rewards/accuracy_reward": 1.282673418521881,
+      "rewards/format_reward": 1.0,
+      "step": 276
+    },
+    {
+      "completion_length": 73.828125,
+      "epoch": 3.337349397590361,
+      "grad_norm": 5.230024279024117,
+      "kl": 0.0830078125,
+      "learning_rate": 4.437751004016064e-07,
+      "loss": 0.0033,
+      "reward": 2.2097089290618896,
+      "reward_std": 0.22180304676294327,
+      "rewards/accuracy_reward": 1.2097087502479553,
+      "rewards/format_reward": 1.0,
+      "step": 277
+    },
+    {
+      "completion_length": 72.7109375,
+      "epoch": 3.3493975903614457,
+      "grad_norm": 3.8728422379908416,
+      "kl": 0.095458984375,
+      "learning_rate": 4.4176706827309234e-07,
+      "loss": 0.0038,
+      "reward": 2.491241931915283,
+      "reward_std": 0.22739917039871216,
+      "rewards/accuracy_reward": 1.4912420511245728,
+      "rewards/format_reward": 1.0,
+      "step": 278
+    },
+    {
+      "completion_length": 78.5078125,
+      "epoch": 3.36144578313253,
+      "grad_norm": 3.6858021846036535,
+      "kl": 0.0908203125,
+      "learning_rate": 4.3975903614457827e-07,
+      "loss": 0.0036,
+      "reward": 2.243127226829529,
+      "reward_std": 0.22939348965883255,
+      "rewards/accuracy_reward": 1.2431272268295288,
+      "rewards/format_reward": 1.0,
+      "step": 279
+    },
+    {
+      "completion_length": 72.765625,
+      "epoch": 3.3734939759036147,
+      "grad_norm": 4.156042584491376,
+      "kl": 0.1044921875,
+      "learning_rate": 4.3775100401606425e-07,
+      "loss": 0.0042,
+      "reward": 2.2150485515594482,
+      "reward_std": 0.23025363683700562,
+      "rewards/accuracy_reward": 1.2228610515594482,
+      "rewards/format_reward": 0.9921875,
+      "step": 280
+    },
+    {
+      "completion_length": 77.0390625,
+      "epoch": 3.3855421686746987,
+      "grad_norm": 3.3549823921313475,
+      "kl": 0.100341796875,
+      "learning_rate": 4.3574297188755017e-07,
+      "loss": 0.004,
+      "reward": 2.211505889892578,
+      "reward_std": 0.24677567183971405,
+      "rewards/accuracy_reward": 1.227130949497223,
+      "rewards/format_reward": 0.984375,
+      "step": 281
+    },
+    {
+      "completion_length": 78.296875,
+      "epoch": 3.397590361445783,
+      "grad_norm": 3.5036767872389514,
+      "kl": 0.0859375,
+      "learning_rate": 4.3373493975903615e-07,
+      "loss": 0.0034,
+      "reward": 2.346588611602783,
+      "reward_std": 0.20112959295511246,
+      "rewards/accuracy_reward": 1.3465884923934937,
+      "rewards/format_reward": 1.0,
+      "step": 282
+    },
+    {
+      "completion_length": 84.484375,
+      "epoch": 3.4096385542168672,
+      "grad_norm": 3.0794227415803874,
+      "kl": 0.09326171875,
+      "learning_rate": 4.3172690763052203e-07,
+      "loss": 0.0037,
+      "reward": 2.230928421020508,
+      "reward_std": 0.26287955790758133,
+      "rewards/accuracy_reward": 1.2387409210205078,
+      "rewards/format_reward": 0.9921875,
+      "step": 283
+    },
+    {
+      "completion_length": 84.0546875,
+      "epoch": 3.4216867469879517,
+      "grad_norm": 9.632017573370238,
+      "kl": 0.086181640625,
+      "learning_rate": 4.29718875502008e-07,
+      "loss": 0.0034,
+      "reward": 2.2049087285995483,
+      "reward_std": 0.19046999514102936,
+      "rewards/accuracy_reward": 1.204908847808838,
+      "rewards/format_reward": 1.0,
+      "step": 284
+    },
+    {
+      "completion_length": 74.875,
+      "epoch": 3.433734939759036,
+      "grad_norm": 3.04437077789607,
+      "kl": 0.07861328125,
+      "learning_rate": 4.2771084337349393e-07,
+      "loss": 0.0031,
+      "reward": 2.3966974020004272,
+      "reward_std": 0.1937796175479889,
+      "rewards/accuracy_reward": 1.3966973423957825,
+      "rewards/format_reward": 1.0,
+      "step": 285
+    },
+    {
+      "completion_length": 75.8359375,
+      "epoch": 3.4457831325301207,
+      "grad_norm": 5.311045139915637,
+      "kl": 0.163330078125,
+      "learning_rate": 4.257028112449799e-07,
+      "loss": 0.0065,
+      "reward": 2.3752543926239014,
+      "reward_std": 0.2273067831993103,
+      "rewards/accuracy_reward": 1.3830668926239014,
+      "rewards/format_reward": 0.9921875,
+      "step": 286
+    },
+    {
+      "completion_length": 78.6328125,
+      "epoch": 3.4578313253012047,
+      "grad_norm": 3.0911678350526763,
+      "kl": 0.082763671875,
+      "learning_rate": 4.2369477911646584e-07,
+      "loss": 0.0033,
+      "reward": 2.3473113775253296,
+      "reward_std": 0.14994988590478897,
+      "rewards/accuracy_reward": 1.3473113775253296,
+      "rewards/format_reward": 1.0,
+      "step": 287
+    },
+    {
+      "completion_length": 79.1640625,
+      "epoch": 3.4698795180722892,
+      "grad_norm": 3.5847413181475947,
+      "kl": 0.0849609375,
+      "learning_rate": 4.216867469879518e-07,
+      "loss": 0.0034,
+      "reward": 2.433477997779846,
+      "reward_std": 0.1769290268421173,
+      "rewards/accuracy_reward": 1.4334778785705566,
+      "rewards/format_reward": 1.0,
+      "step": 288
+    },
+    {
+      "completion_length": 83.390625,
+      "epoch": 3.4819277108433733,
+      "grad_norm": 4.01569190307187,
+      "kl": 0.09521484375,
+      "learning_rate": 4.1967871485943775e-07,
+      "loss": 0.0038,
+      "reward": 2.2789034843444824,
+      "reward_std": 0.2845103293657303,
+      "rewards/accuracy_reward": 1.2867161631584167,
+      "rewards/format_reward": 0.9921875,
+      "step": 289
+    },
+    {
+      "completion_length": 81.90625,
+      "epoch": 3.4939759036144578,
+      "grad_norm": 3.286849126987869,
+      "kl": 0.08642578125,
+      "learning_rate": 4.176706827309237e-07,
+      "loss": 0.0035,
+      "reward": 2.362874150276184,
+      "reward_std": 0.19387810677289963,
+      "rewards/accuracy_reward": 1.362874150276184,
+      "rewards/format_reward": 1.0,
+      "step": 290
+    },
+    {
+      "completion_length": 82.6640625,
+      "epoch": 3.5060240963855422,
+      "grad_norm": 3.658103173473351,
+      "kl": 0.10888671875,
+      "learning_rate": 4.156626506024096e-07,
+      "loss": 0.0043,
+      "reward": 2.0810331106185913,
+      "reward_std": 0.3057002127170563,
+      "rewards/accuracy_reward": 1.088845670223236,
+      "rewards/format_reward": 0.9921875,
+      "step": 291
+    },
+    {
+      "completion_length": 78.921875,
+      "epoch": 3.5180722891566267,
+      "grad_norm": 3.7103596490236774,
+      "kl": 0.08349609375,
+      "learning_rate": 4.1365461847389553e-07,
+      "loss": 0.0033,
+      "reward": 2.511967420578003,
+      "reward_std": 0.16890805214643478,
+      "rewards/accuracy_reward": 1.5119673609733582,
+      "rewards/format_reward": 1.0,
+      "step": 292
+    },
+    {
+      "completion_length": 79.0703125,
+      "epoch": 3.5301204819277108,
+      "grad_norm": 4.407185593870522,
+      "kl": 0.099853515625,
+      "learning_rate": 4.116465863453815e-07,
+      "loss": 0.004,
+      "reward": 2.298495650291443,
+      "reward_std": 0.18783311545848846,
+      "rewards/accuracy_reward": 1.2984956502914429,
+      "rewards/format_reward": 1.0,
+      "step": 293
+    },
+    {
+      "completion_length": 77.796875,
+      "epoch": 3.5421686746987953,
+      "grad_norm": 4.826014110118868,
+      "kl": 0.09814453125,
+      "learning_rate": 4.0963855421686744e-07,
+      "loss": 0.0039,
+      "reward": 2.2871015071868896,
+      "reward_std": 0.2442024052143097,
+      "rewards/accuracy_reward": 1.2871016263961792,
+      "rewards/format_reward": 1.0,
+      "step": 294
+    },
+    {
+      "completion_length": 81.0390625,
+      "epoch": 3.5542168674698793,
+      "grad_norm": 5.044218587715949,
+      "kl": 0.1220703125,
+      "learning_rate": 4.076305220883534e-07,
+      "loss": 0.0049,
+      "reward": 2.3120492696762085,
+      "reward_std": 0.26864828169345856,
+      "rewards/accuracy_reward": 1.3198617696762085,
+      "rewards/format_reward": 0.9921875,
+      "step": 295
+    },
+    {
+      "completion_length": 81.8046875,
+      "epoch": 3.566265060240964,
+      "grad_norm": 4.035337217053536,
+      "kl": 0.102783203125,
+      "learning_rate": 4.0562248995983934e-07,
+      "loss": 0.0041,
+      "reward": 2.2244678735733032,
+      "reward_std": 0.19216852635145187,
+      "rewards/accuracy_reward": 1.2244678139686584,
+      "rewards/format_reward": 1.0,
+      "step": 296
+    },
+    {
+      "completion_length": 82.1875,
+      "epoch": 3.5783132530120483,
+      "grad_norm": 5.473424541297646,
+      "kl": 0.082275390625,
+      "learning_rate": 4.036144578313253e-07,
+      "loss": 0.0033,
+      "reward": 2.1482508182525635,
+      "reward_std": 0.2517557144165039,
+      "rewards/accuracy_reward": 1.1560633182525635,
+      "rewards/format_reward": 0.9921875,
+      "step": 297
+    },
+    {
+      "completion_length": 76.8828125,
+      "epoch": 3.5903614457831328,
+      "grad_norm": 3.624065660089473,
+      "kl": 0.099609375,
+      "learning_rate": 4.0160642570281125e-07,
+      "loss": 0.004,
+      "reward": 2.460606813430786,
+      "reward_std": 0.20688265562057495,
+      "rewards/accuracy_reward": 1.476231873035431,
+      "rewards/format_reward": 0.984375,
+      "step": 298
+    },
+    {
+      "completion_length": 73.8828125,
+      "epoch": 3.602409638554217,
+      "grad_norm": 3.2496622555871775,
+      "kl": 0.10302734375,
+      "learning_rate": 3.995983935742971e-07,
+      "loss": 0.0041,
+      "reward": 2.448202967643738,
+      "reward_std": 0.20513835549354553,
+      "rewards/accuracy_reward": 1.4482029676437378,
+      "rewards/format_reward": 1.0,
+      "step": 299
+    },
+    {
+      "completion_length": 73.8828125,
+      "epoch": 3.6144578313253013,
+      "grad_norm": 3.248403260656612,
+      "kl": 0.1142578125,
+      "learning_rate": 3.975903614457831e-07,
+      "loss": 0.0046,
+      "reward": 2.3579249382019043,
+      "reward_std": 0.26106585562229156,
+      "rewards/accuracy_reward": 1.3657374382019043,
+      "rewards/format_reward": 0.9921875,
+      "step": 300
+    },
+    {
+      "completion_length": 81.78125,
+      "epoch": 3.6265060240963853,
+      "grad_norm": 4.192951592702023,
+      "kl": 0.090087890625,
+      "learning_rate": 3.9558232931726903e-07,
+      "loss": 0.0036,
+      "reward": 2.320730686187744,
+      "reward_std": 0.17225497588515282,
+      "rewards/accuracy_reward": 1.3207308053970337,
+      "rewards/format_reward": 1.0,
+      "step": 301
+    },
+    {
+      "completion_length": 81.78125,
+      "epoch": 3.63855421686747,
+      "grad_norm": 3.914334064533718,
+      "kl": 0.082763671875,
+      "learning_rate": 3.93574297188755e-07,
+      "loss": 0.0033,
+      "reward": 2.2756303548812866,
+      "reward_std": 0.21440081298351288,
+      "rewards/accuracy_reward": 1.2834429144859314,
+      "rewards/format_reward": 0.9921875,
+      "step": 302
+    },
+    {
+      "completion_length": 83.984375,
+      "epoch": 3.6506024096385543,
+      "grad_norm": 2.9158995310046705,
+      "kl": 0.09326171875,
+      "learning_rate": 3.9156626506024094e-07,
+      "loss": 0.0037,
+      "reward": 2.340207576751709,
+      "reward_std": 0.22486132383346558,
+      "rewards/accuracy_reward": 1.3402075171470642,
+      "rewards/format_reward": 1.0,
+      "step": 303
+    },
+    {
+      "completion_length": 73.0078125,
+      "epoch": 3.662650602409639,
+      "grad_norm": 3.64523826351094,
+      "kl": 0.130615234375,
+      "learning_rate": 3.895582329317269e-07,
+      "loss": 0.0052,
+      "reward": 2.306045651435852,
+      "reward_std": 0.21042678505182266,
+      "rewards/accuracy_reward": 1.313858151435852,
+      "rewards/format_reward": 0.9921875,
+      "step": 304
+    },
+    {
+      "completion_length": 77.140625,
+      "epoch": 3.674698795180723,
+      "grad_norm": 4.763683185347457,
+      "kl": 0.09619140625,
+      "learning_rate": 3.8755020080321285e-07,
+      "loss": 0.0038,
+      "reward": 2.292635202407837,
+      "reward_std": 0.24200939387083054,
+      "rewards/accuracy_reward": 1.308260202407837,
+      "rewards/format_reward": 0.984375,
+      "step": 305
+    },
+    {
+      "completion_length": 80.6875,
+      "epoch": 3.6867469879518073,
+      "grad_norm": 15.378313149094321,
+      "kl": 0.130126953125,
+      "learning_rate": 3.8554216867469877e-07,
+      "loss": 0.0052,
+      "reward": 2.2641184329986572,
+      "reward_std": 0.20184506475925446,
+      "rewards/accuracy_reward": 1.2719308137893677,
+      "rewards/format_reward": 0.9921875,
+      "step": 306
+    },
+    {
+      "completion_length": 72.4453125,
+      "epoch": 3.6987951807228914,
+      "grad_norm": 6.1838290298686225,
+      "kl": 0.114501953125,
+      "learning_rate": 3.835341365461847e-07,
+      "loss": 0.0046,
+      "reward": 2.4186692237854004,
+      "reward_std": 0.20656991004943848,
+      "rewards/accuracy_reward": 1.4264817833900452,
+      "rewards/format_reward": 0.9921875,
+      "step": 307
+    },
+    {
+      "completion_length": 73.71875,
+      "epoch": 3.710843373493976,
+      "grad_norm": 3.6680281562358794,
+      "kl": 0.092041015625,
+      "learning_rate": 3.815261044176707e-07,
+      "loss": 0.0037,
+      "reward": 2.3598402738571167,
+      "reward_std": 0.1814076155424118,
+      "rewards/accuracy_reward": 1.3598402738571167,
+      "rewards/format_reward": 1.0,
+      "step": 308
+    },
+    {
+      "completion_length": 75.5625,
+      "epoch": 3.7228915662650603,
+      "grad_norm": 4.1513164017455635,
+      "kl": 0.11962890625,
+      "learning_rate": 3.795180722891566e-07,
+      "loss": 0.0048,
+      "reward": 2.2364041805267334,
+      "reward_std": 0.20799466967582703,
+      "rewards/accuracy_reward": 1.236404299736023,
+      "rewards/format_reward": 1.0,
+      "step": 309
+    },
+    {
+      "completion_length": 76.2109375,
+      "epoch": 3.734939759036145,
+      "grad_norm": 4.53835509987933,
+      "kl": 0.088623046875,
+      "learning_rate": 3.7751004016064253e-07,
+      "loss": 0.0036,
+      "reward": 2.3527251482009888,
+      "reward_std": 0.17692391574382782,
+      "rewards/accuracy_reward": 1.3527252078056335,
+      "rewards/format_reward": 1.0,
+      "step": 310
+    },
+    {
+      "completion_length": 80.4375,
+      "epoch": 3.746987951807229,
+      "grad_norm": 3.703393707261026,
+      "kl": 0.1103515625,
+      "learning_rate": 3.755020080321285e-07,
+      "loss": 0.0044,
+      "reward": 2.298377275466919,
+      "reward_std": 0.21109677106142044,
+      "rewards/accuracy_reward": 1.2983773350715637,
+      "rewards/format_reward": 1.0,
+      "step": 311
+    },
+    {
+      "completion_length": 77.8125,
+      "epoch": 3.7590361445783134,
+      "grad_norm": 3.914375784414754,
+      "kl": 0.138916015625,
+      "learning_rate": 3.7349397590361444e-07,
+      "loss": 0.0056,
+      "reward": 2.1520947217941284,
+      "reward_std": 0.19967754930257797,
+      "rewards/accuracy_reward": 1.1520947813987732,
+      "rewards/format_reward": 1.0,
+      "step": 312
+    },
+    {
+      "completion_length": 79.2578125,
+      "epoch": 3.7710843373493974,
+      "grad_norm": 5.606330092523797,
+      "kl": 0.091064453125,
+      "learning_rate": 3.714859437751004e-07,
+      "loss": 0.0036,
+      "reward": 2.3204472064971924,
+      "reward_std": 0.1748044565320015,
+      "rewards/accuracy_reward": 1.3204472661018372,
+      "rewards/format_reward": 1.0,
+      "step": 313
+    },
+    {
+      "completion_length": 74.84375,
+      "epoch": 3.783132530120482,
+      "grad_norm": 3.2348525038063736,
+      "kl": 0.08447265625,
+      "learning_rate": 3.694779116465863e-07,
+      "loss": 0.0034,
+      "reward": 2.496751070022583,
+      "reward_std": 0.2072158306837082,
+      "rewards/accuracy_reward": 1.496751070022583,
+      "rewards/format_reward": 1.0,
+      "step": 314
+    },
+    {
+      "completion_length": 74.296875,
+      "epoch": 3.7951807228915664,
+      "grad_norm": 3.7371491385040483,
+      "kl": 0.0771484375,
+      "learning_rate": 3.674698795180723e-07,
+      "loss": 0.0031,
+      "reward": 2.395453691482544,
+      "reward_std": 0.16877512633800507,
+      "rewards/accuracy_reward": 1.3954537510871887,
+      "rewards/format_reward": 1.0,
+      "step": 315
+    },
+    {
+      "completion_length": 72.8671875,
+      "epoch": 3.807228915662651,
+      "grad_norm": 5.799331345023467,
+      "kl": 0.09619140625,
+      "learning_rate": 3.654618473895582e-07,
+      "loss": 0.0039,
+      "reward": 2.307594895362854,
+      "reward_std": 0.1985296756029129,
+      "rewards/accuracy_reward": 1.307594895362854,
+      "rewards/format_reward": 1.0,
+      "step": 316
+    },
+    {
+      "completion_length": 72.84375,
+      "epoch": 3.819277108433735,
+      "grad_norm": 5.215215330938529,
+      "kl": 0.11083984375,
+      "learning_rate": 3.634538152610442e-07,
+      "loss": 0.0044,
+      "reward": 2.2713290452957153,
+      "reward_std": 0.15980049967765808,
+      "rewards/accuracy_reward": 1.2791414856910706,
+      "rewards/format_reward": 0.9921875,
+      "step": 317
+    },
+    {
+      "completion_length": 66.28125,
+      "epoch": 3.8313253012048194,
+      "grad_norm": 9.42828281313003,
+      "kl": 0.106201171875,
+      "learning_rate": 3.614457831325301e-07,
+      "loss": 0.0042,
+      "reward": 2.441011667251587,
+      "reward_std": 0.21370699256658554,
+      "rewards/accuracy_reward": 1.4566364884376526,
+      "rewards/format_reward": 0.984375,
+      "step": 318
+    },
+    {
+      "completion_length": 74.3359375,
+      "epoch": 3.8433734939759034,
+      "grad_norm": 3.380164477319568,
+      "kl": 0.094970703125,
+      "learning_rate": 3.5943775100401604e-07,
+      "loss": 0.0038,
+      "reward": 2.5070927143096924,
+      "reward_std": 0.16660126298666,
+      "rewards/accuracy_reward": 1.5149051547050476,
+      "rewards/format_reward": 0.9921875,
+      "step": 319
+    },
+    {
+      "completion_length": 71.3046875,
+      "epoch": 3.855421686746988,
+      "grad_norm": 4.006205885169367,
+      "kl": 0.128662109375,
+      "learning_rate": 3.57429718875502e-07,
+      "loss": 0.0051,
+      "reward": 2.3042829036712646,
+      "reward_std": 0.2031613141298294,
+      "rewards/accuracy_reward": 1.3042829036712646,
+      "rewards/format_reward": 1.0,
+      "step": 320
+    },
+    {
+      "completion_length": 73.9609375,
+      "epoch": 3.8674698795180724,
+      "grad_norm": 5.771036516275782,
+      "kl": 0.093017578125,
+      "learning_rate": 3.554216867469879e-07,
+      "loss": 0.0037,
+      "reward": 2.422416090965271,
+      "reward_std": 0.19139418005943298,
+      "rewards/accuracy_reward": 1.4302285313606262,
+      "rewards/format_reward": 0.9921875,
+      "step": 321
+    },
+    {
+      "completion_length": 71.734375,
+      "epoch": 3.8795180722891565,
+      "grad_norm": 5.860041479699707,
+      "kl": 0.110595703125,
+      "learning_rate": 3.5341365461847387e-07,
+      "loss": 0.0044,
+      "reward": 2.100473999977112,
+      "reward_std": 0.21565508097410202,
+      "rewards/accuracy_reward": 1.1004739999771118,
+      "rewards/format_reward": 1.0,
+      "step": 322
+    },
+    {
+      "completion_length": 69.046875,
+      "epoch": 3.891566265060241,
+      "grad_norm": 4.962719097630754,
+      "kl": 0.1396484375,
+      "learning_rate": 3.514056224899598e-07,
+      "loss": 0.0056,
+      "reward": 2.337049961090088,
+      "reward_std": 0.201468363404274,
+      "rewards/accuracy_reward": 1.337049961090088,
+      "rewards/format_reward": 1.0,
+      "step": 323
+    },
+    {
+      "completion_length": 70.0234375,
+      "epoch": 3.9036144578313254,
+      "grad_norm": 3.786778485554144,
+      "kl": 0.1064453125,
+      "learning_rate": 3.493975903614458e-07,
+      "loss": 0.0043,
+      "reward": 2.282514452934265,
+      "reward_std": 0.2470734864473343,
+      "rewards/accuracy_reward": 1.2903268933296204,
+      "rewards/format_reward": 0.9921875,
+      "step": 324
+    },
+    {
+      "completion_length": 66.5546875,
+      "epoch": 3.9156626506024095,
+      "grad_norm": 5.681847770854111,
+      "kl": 0.14599609375,
+      "learning_rate": 3.473895582329317e-07,
+      "loss": 0.0059,
+      "reward": 2.2830464839935303,
+      "reward_std": 0.16951018571853638,
+      "rewards/accuracy_reward": 1.2830466032028198,
+      "rewards/format_reward": 1.0,
+      "step": 325
+    },
+    {
+      "completion_length": 69.9765625,
+      "epoch": 3.927710843373494,
+      "grad_norm": 3.545177223680582,
+      "kl": 0.1123046875,
+      "learning_rate": 3.453815261044177e-07,
+      "loss": 0.0045,
+      "reward": 2.3249276876449585,
+      "reward_std": 0.23469389975070953,
+      "rewards/accuracy_reward": 1.3249276876449585,
+      "rewards/format_reward": 1.0,
+      "step": 326
+    },
+    {
+      "completion_length": 67.2109375,
+      "epoch": 3.9397590361445785,
+      "grad_norm": 4.464381426334607,
+      "kl": 0.111328125,
+      "learning_rate": 3.433734939759036e-07,
+      "loss": 0.0045,
+      "reward": 2.313346743583679,
+      "reward_std": 0.24960950016975403,
+      "rewards/accuracy_reward": 1.321159303188324,
+      "rewards/format_reward": 0.9921875,
+      "step": 327
+    },
+    {
+      "completion_length": 69.5390625,
+      "epoch": 3.9518072289156625,
+      "grad_norm": 5.503294892764904,
+      "kl": 0.13818359375,
+      "learning_rate": 3.413654618473896e-07,
+      "loss": 0.0055,
+      "reward": 2.250451922416687,
+      "reward_std": 0.19627484679222107,
+      "rewards/accuracy_reward": 1.2582644820213318,
+      "rewards/format_reward": 0.9921875,
+      "step": 328
+    },
+    {
+      "completion_length": 72.875,
+      "epoch": 3.963855421686747,
+      "grad_norm": 3.94333602961405,
+      "kl": 0.126953125,
+      "learning_rate": 3.3935742971887547e-07,
+      "loss": 0.0051,
+      "reward": 2.4282917976379395,
+      "reward_std": 0.23817364871501923,
+      "rewards/accuracy_reward": 1.4361043572425842,
+      "rewards/format_reward": 0.9921875,
+      "step": 329
+    },
+    {
+      "completion_length": 68.078125,
+      "epoch": 3.9759036144578315,
+      "grad_norm": 4.246221946155538,
+      "kl": 0.10302734375,
+      "learning_rate": 3.373493975903614e-07,
+      "loss": 0.0041,
+      "reward": 2.3756778240203857,
+      "reward_std": 0.23032685369253159,
+      "rewards/accuracy_reward": 1.3756778836250305,
+      "rewards/format_reward": 1.0,
+      "step": 330
+    },
+    {
+      "completion_length": 63.171875,
+      "epoch": 3.9879518072289155,
+      "grad_norm": 4.823180720092978,
+      "kl": 0.14111328125,
+      "learning_rate": 3.353413654618474e-07,
+      "loss": 0.0057,
+      "reward": 2.2716495990753174,
+      "reward_std": 0.25546562671661377,
+      "rewards/accuracy_reward": 1.2794621586799622,
+      "rewards/format_reward": 0.9921875,
+      "step": 331
+    },
+    {
+      "completion_length": 79.75000381469727,
+      "epoch": 4.0,
+      "grad_norm": 3.966089593429622,
+      "kl": 0.10986328125,
+      "learning_rate": 3.333333333333333e-07,
+      "loss": 0.0047,
+      "reward": 1.9844202995300293,
+      "reward_std": 0.41577973030507565,
+      "rewards/accuracy_reward": 0.9844204187393188,
+      "rewards/format_reward": 1.0,
+      "step": 332
+    },
+    {
+      "completion_length": 67.8984375,
+      "epoch": 4.0120481927710845,
+      "grad_norm": 3.4890518846644203,
+      "kl": 0.112548828125,
+      "learning_rate": 3.313253012048193e-07,
+      "loss": 0.0045,
+      "reward": 2.273194432258606,
+      "reward_std": 0.1845482587814331,
+      "rewards/accuracy_reward": 1.2810069918632507,
+      "rewards/format_reward": 0.9921875,
+      "step": 333
+    },
+    {
+      "completion_length": 70.1328125,
+      "epoch": 4.024096385542169,
+      "grad_norm": 3.1401475074211698,
+      "kl": 0.106201171875,
+      "learning_rate": 3.293172690763052e-07,
+      "loss": 0.0042,
+      "reward": 2.348654627799988,
+      "reward_std": 0.20452319085597992,
+      "rewards/accuracy_reward": 1.3564670085906982,
+      "rewards/format_reward": 0.9921875,
+      "step": 334
+    },
+    {
+      "completion_length": 67.4296875,
+      "epoch": 4.036144578313253,
+      "grad_norm": 4.049959483426693,
+      "kl": 0.107177734375,
+      "learning_rate": 3.273092369477912e-07,
+      "loss": 0.0043,
+      "reward": 2.270454525947571,
+      "reward_std": 0.21142029762268066,
+      "rewards/accuracy_reward": 1.2704546451568604,
+      "rewards/format_reward": 1.0,
+      "step": 335
+    },
+    {
+      "completion_length": 71.1484375,
+      "epoch": 4.048192771084337,
+      "grad_norm": 3.9561612834766273,
+      "kl": 0.097412109375,
+      "learning_rate": 3.2530120481927706e-07,
+      "loss": 0.0039,
+      "reward": 2.1833893060684204,
+      "reward_std": 0.1801520176231861,
+      "rewards/accuracy_reward": 1.1912018656730652,
+      "rewards/format_reward": 0.9921875,
+      "step": 336
+    },
+    {
+      "completion_length": 69.59375,
+      "epoch": 4.0602409638554215,
+      "grad_norm": 3.977655100011985,
+      "kl": 0.1474609375,
+      "learning_rate": 3.2329317269076304e-07,
+      "loss": 0.0059,
+      "reward": 2.2047336101531982,
+      "reward_std": 0.1999206244945526,
+      "rewards/accuracy_reward": 1.204733669757843,
+      "rewards/format_reward": 1.0,
+      "step": 337
+    },
+    {
+      "completion_length": 61.4765625,
+      "epoch": 4.072289156626506,
+      "grad_norm": 4.191698428231115,
+      "kl": 0.12939453125,
+      "learning_rate": 3.2128514056224897e-07,
+      "loss": 0.0052,
+      "reward": 2.3498200178146362,
+      "reward_std": 0.2275300845503807,
+      "rewards/accuracy_reward": 1.3498198986053467,
+      "rewards/format_reward": 1.0,
+      "step": 338
+    },
+    {
+      "completion_length": 64.4140625,
+      "epoch": 4.0843373493975905,
+      "grad_norm": 3.9067810348739114,
+      "kl": 0.116943359375,
+      "learning_rate": 3.192771084337349e-07,
+      "loss": 0.0047,
+      "reward": 2.352308511734009,
+      "reward_std": 0.22002745419740677,
+      "rewards/accuracy_reward": 1.3523083925247192,
+      "rewards/format_reward": 1.0,
+      "step": 339
+    },
+    {
+      "completion_length": 73.2890625,
+      "epoch": 4.096385542168675,
+      "grad_norm": 4.489032904646898,
+      "kl": 0.104736328125,
+      "learning_rate": 3.172690763052209e-07,
+      "loss": 0.0042,
+      "reward": 2.1710336208343506,
+      "reward_std": 0.17718148604035378,
+      "rewards/accuracy_reward": 1.1710334420204163,
+      "rewards/format_reward": 1.0,
+      "step": 340
+    },
+    {
+      "completion_length": 74.3671875,
+      "epoch": 4.108433734939759,
+      "grad_norm": 4.230949730619595,
+      "kl": 0.139892578125,
+      "learning_rate": 3.152610441767068e-07,
+      "loss": 0.0056,
+      "reward": 2.084486246109009,
+      "reward_std": 0.2170683741569519,
+      "rewards/accuracy_reward": 1.0922988057136536,
+      "rewards/format_reward": 0.9921875,
+      "step": 341
+    },
+    {
+      "completion_length": 65.5625,
+      "epoch": 4.120481927710843,
+      "grad_norm": 5.461293103432774,
+      "kl": 0.1044921875,
+      "learning_rate": 3.132530120481928e-07,
+      "loss": 0.0042,
+      "reward": 2.381394147872925,
+      "reward_std": 0.193039670586586,
+      "rewards/accuracy_reward": 1.38139408826828,
+      "rewards/format_reward": 1.0,
+      "step": 342
+    },
+    {
+      "completion_length": 66.15625,
+      "epoch": 4.132530120481928,
+      "grad_norm": 4.070866693962467,
+      "kl": 0.111572265625,
+      "learning_rate": 3.112449799196787e-07,
+      "loss": 0.0045,
+      "reward": 2.357278347015381,
+      "reward_std": 0.15215902030467987,
+      "rewards/accuracy_reward": 1.3729035258293152,
+      "rewards/format_reward": 0.984375,
+      "step": 343
+    },
+    {
+      "completion_length": 69.1328125,
+      "epoch": 4.144578313253012,
+      "grad_norm": 4.335873726549927,
+      "kl": 0.123046875,
+      "learning_rate": 3.0923694779116464e-07,
+      "loss": 0.0049,
+      "reward": 2.282222032546997,
+      "reward_std": 0.25280918926000595,
+      "rewards/accuracy_reward": 1.2978470921516418,
+      "rewards/format_reward": 0.984375,
+      "step": 344
+    },
+    {
+      "completion_length": 73.6015625,
+      "epoch": 4.156626506024097,
+      "grad_norm": 4.412489990442917,
+      "kl": 0.09765625,
+      "learning_rate": 3.0722891566265056e-07,
+      "loss": 0.0039,
+      "reward": 2.421238660812378,
+      "reward_std": 0.21779820322990417,
+      "rewards/accuracy_reward": 1.4290512800216675,
+      "rewards/format_reward": 0.9921875,
+      "step": 345
+    },
+    {
+      "completion_length": 67.3984375,
+      "epoch": 4.168674698795181,
+      "grad_norm": 3.7050619604015775,
+      "kl": 0.111083984375,
+      "learning_rate": 3.0522088353413654e-07,
+      "loss": 0.0044,
+      "reward": 2.4159966707229614,
+      "reward_std": 0.17116259038448334,
+      "rewards/accuracy_reward": 1.4159966707229614,
+      "rewards/format_reward": 1.0,
+      "step": 346
+    },
+    {
+      "completion_length": 68.7109375,
+      "epoch": 4.180722891566265,
+      "grad_norm": 4.638840034522594,
+      "kl": 0.119873046875,
+      "learning_rate": 3.0321285140562247e-07,
+      "loss": 0.0048,
+      "reward": 2.430918335914612,
+      "reward_std": 0.23829656839370728,
+      "rewards/accuracy_reward": 1.4309183359146118,
+      "rewards/format_reward": 1.0,
+      "step": 347
+    },
+    {
+      "completion_length": 68.203125,
+      "epoch": 4.192771084337349,
+      "grad_norm": 7.531973472034052,
+      "kl": 0.124267578125,
+      "learning_rate": 3.0120481927710845e-07,
+      "loss": 0.005,
+      "reward": 2.2654261589050293,
+      "reward_std": 0.214869923889637,
+      "rewards/accuracy_reward": 1.2966760993003845,
+      "rewards/format_reward": 0.96875,
+      "step": 348
+    },
+    {
+      "completion_length": 66.3046875,
+      "epoch": 4.204819277108434,
+      "grad_norm": 6.290139006407989,
+      "kl": 0.15673828125,
+      "learning_rate": 2.991967871485944e-07,
+      "loss": 0.0063,
+      "reward": 2.440833330154419,
+      "reward_std": 0.20570393651723862,
+      "rewards/accuracy_reward": 1.4642709493637085,
+      "rewards/format_reward": 0.9765625,
+      "step": 349
+    },
+    {
+      "completion_length": 68.5078125,
+      "epoch": 4.216867469879518,
+      "grad_norm": 3.870085506410607,
+      "kl": 0.11376953125,
+      "learning_rate": 2.971887550200803e-07,
+      "loss": 0.0046,
+      "reward": 2.4419082403182983,
+      "reward_std": 0.1332126259803772,
+      "rewards/accuracy_reward": 1.441908359527588,
+      "rewards/format_reward": 1.0,
+      "step": 350
+    },
+    {
+      "completion_length": 67.7109375,
+      "epoch": 4.228915662650603,
+      "grad_norm": 5.222390077968289,
+      "kl": 0.12548828125,
+      "learning_rate": 2.9518072289156623e-07,
+      "loss": 0.005,
+      "reward": 2.354392647743225,
+      "reward_std": 0.250136561691761,
+      "rewards/accuracy_reward": 1.3700175285339355,
+      "rewards/format_reward": 0.984375,
+      "step": 351
+    },
+    {
+      "completion_length": 63.75,
+      "epoch": 4.240963855421687,
+      "grad_norm": 5.7394258697520835,
+      "kl": 0.13671875,
+      "learning_rate": 2.9317269076305216e-07,
+      "loss": 0.0055,
+      "reward": 2.1846532821655273,
+      "reward_std": 0.27685467153787613,
+      "rewards/accuracy_reward": 1.2080907225608826,
+      "rewards/format_reward": 0.9765625,
+      "step": 352
+    },
+    {
+      "completion_length": 68.734375,
+      "epoch": 4.253012048192771,
+      "grad_norm": 3.522967170920438,
+      "kl": 0.10400390625,
+      "learning_rate": 2.9116465863453814e-07,
+      "loss": 0.0041,
+      "reward": 2.315014600753784,
+      "reward_std": 0.13816260546445847,
+      "rewards/accuracy_reward": 1.3150146007537842,
+      "rewards/format_reward": 1.0,
+      "step": 353
+    },
+    {
+      "completion_length": 72.8125,
+      "epoch": 4.265060240963855,
+      "grad_norm": 3.727859373676823,
+      "kl": 0.12939453125,
+      "learning_rate": 2.8915662650602407e-07,
+      "loss": 0.0052,
+      "reward": 2.206972360610962,
+      "reward_std": 0.23467965424060822,
+      "rewards/accuracy_reward": 1.2069722414016724,
+      "rewards/format_reward": 1.0,
+      "step": 354
+    },
+    {
+      "completion_length": 70.3359375,
+      "epoch": 4.27710843373494,
+      "grad_norm": 3.380662774166939,
+      "kl": 0.09716796875,
+      "learning_rate": 2.8714859437751005e-07,
+      "loss": 0.0039,
+      "reward": 2.1916306018829346,
+      "reward_std": 0.23339906334877014,
+      "rewards/accuracy_reward": 1.2072556018829346,
+      "rewards/format_reward": 0.984375,
+      "step": 355
+    },
+    {
+      "completion_length": 72.4375,
+      "epoch": 4.289156626506024,
+      "grad_norm": 3.5703829288777764,
+      "kl": 0.11376953125,
+      "learning_rate": 2.85140562248996e-07,
+      "loss": 0.0046,
+      "reward": 2.142443895339966,
+      "reward_std": 0.2050827294588089,
+      "rewards/accuracy_reward": 1.1580689549446106,
+      "rewards/format_reward": 0.984375,
+      "step": 356
+    },
+    {
+      "completion_length": 66.9921875,
+      "epoch": 4.301204819277109,
+      "grad_norm": 3.6787951883313275,
+      "kl": 0.119873046875,
+      "learning_rate": 2.8313253012048195e-07,
+      "loss": 0.0048,
+      "reward": 2.6013587713241577,
+      "reward_std": 0.17792491614818573,
+      "rewards/accuracy_reward": 1.6013588309288025,
+      "rewards/format_reward": 1.0,
+      "step": 357
+    },
+    {
+      "completion_length": 67.1875,
+      "epoch": 4.313253012048193,
+      "grad_norm": 7.9299540096420476,
+      "kl": 0.111328125,
+      "learning_rate": 2.811244979919679e-07,
+      "loss": 0.0044,
+      "reward": 2.2114800214767456,
+      "reward_std": 0.2541910707950592,
+      "rewards/accuracy_reward": 1.2271050810813904,
+      "rewards/format_reward": 0.984375,
+      "step": 358
+    },
+    {
+      "completion_length": 69.1953125,
+      "epoch": 4.325301204819277,
+      "grad_norm": 3.7315177619787687,
+      "kl": 0.10400390625,
+      "learning_rate": 2.7911646586345376e-07,
+      "loss": 0.0042,
+      "reward": 2.2850147485733032,
+      "reward_std": 0.24116653203964233,
+      "rewards/accuracy_reward": 1.3084524869918823,
+      "rewards/format_reward": 0.9765625,
+      "step": 359
+    },
+    {
+      "completion_length": 76.6640625,
+      "epoch": 4.337349397590361,
+      "grad_norm": 3.8031600707561886,
+      "kl": 0.08984375,
+      "learning_rate": 2.7710843373493974e-07,
+      "loss": 0.0036,
+      "reward": 2.372725009918213,
+      "reward_std": 0.23598377406597137,
+      "rewards/accuracy_reward": 1.380537509918213,
+      "rewards/format_reward": 0.9921875,
+      "step": 360
+    },
+    {
+      "completion_length": 72.6015625,
+      "epoch": 4.349397590361446,
+      "grad_norm": 6.29903230301134,
+      "kl": 0.10205078125,
+      "learning_rate": 2.7510040160642566e-07,
+      "loss": 0.0041,
+      "reward": 2.3671088218688965,
+      "reward_std": 0.21375955641269684,
+      "rewards/accuracy_reward": 1.3749213814735413,
+      "rewards/format_reward": 0.9921875,
+      "step": 361
+    },
+    {
+      "completion_length": 74.546875,
+      "epoch": 4.36144578313253,
+      "grad_norm": 4.5097271327174555,
+      "kl": 0.100341796875,
+      "learning_rate": 2.7309236947791164e-07,
+      "loss": 0.004,
+      "reward": 2.338581085205078,
+      "reward_std": 0.21793486177921295,
+      "rewards/accuracy_reward": 1.3463934063911438,
+      "rewards/format_reward": 0.9921875,
+      "step": 362
+    },
+    {
+      "completion_length": 73.203125,
+      "epoch": 4.373493975903615,
+      "grad_norm": 7.563928087147195,
+      "kl": 0.093505859375,
+      "learning_rate": 2.7108433734939757e-07,
+      "loss": 0.0037,
+      "reward": 2.4811813831329346,
+      "reward_std": 0.1661686971783638,
+      "rewards/accuracy_reward": 1.4811814427375793,
+      "rewards/format_reward": 1.0,
+      "step": 363
+    },
+    {
+      "completion_length": 72.2109375,
+      "epoch": 4.385542168674699,
+      "grad_norm": 4.157739455544304,
+      "kl": 0.11767578125,
+      "learning_rate": 2.6907630522088355e-07,
+      "loss": 0.0047,
+      "reward": 2.227518320083618,
+      "reward_std": 0.2459297701716423,
+      "rewards/accuracy_reward": 1.235330879688263,
+      "rewards/format_reward": 0.9921875,
+      "step": 364
+    },
+    {
+      "completion_length": 73.125,
+      "epoch": 4.397590361445783,
+      "grad_norm": 3.957643739786318,
+      "kl": 0.130126953125,
+      "learning_rate": 2.670682730923695e-07,
+      "loss": 0.0052,
+      "reward": 2.398737668991089,
+      "reward_std": 0.2508920058608055,
+      "rewards/accuracy_reward": 1.406550109386444,
+      "rewards/format_reward": 0.9921875,
+      "step": 365
+    },
+    {
+      "completion_length": 80.6484375,
+      "epoch": 4.409638554216867,
+      "grad_norm": 8.267939908268028,
+      "kl": 0.126220703125,
+      "learning_rate": 2.6506024096385546e-07,
+      "loss": 0.005,
+      "reward": 2.1884970664978027,
+      "reward_std": 0.32723745703697205,
+      "rewards/accuracy_reward": 1.2119346857070923,
+      "rewards/format_reward": 0.9765625,
+      "step": 366
+    },
+    {
+      "completion_length": 80.09375,
+      "epoch": 4.421686746987952,
+      "grad_norm": 3.0023836541953988,
+      "kl": 0.089111328125,
+      "learning_rate": 2.6305220883534133e-07,
+      "loss": 0.0036,
+      "reward": 2.4019484519958496,
+      "reward_std": 0.20879995077848434,
+      "rewards/accuracy_reward": 1.4019483923912048,
+      "rewards/format_reward": 1.0,
+      "step": 367
+    },
+    {
+      "completion_length": 76.890625,
+      "epoch": 4.433734939759036,
+      "grad_norm": 3.8760535577901916,
+      "kl": 0.110107421875,
+      "learning_rate": 2.610441767068273e-07,
+      "loss": 0.0044,
+      "reward": 2.217389702796936,
+      "reward_std": 0.20581622421741486,
+      "rewards/accuracy_reward": 1.225202202796936,
+      "rewards/format_reward": 0.9921875,
+      "step": 368
+    },
+    {
+      "completion_length": 70.046875,
+      "epoch": 4.445783132530121,
+      "grad_norm": 4.189426211226252,
+      "kl": 0.09912109375,
+      "learning_rate": 2.5903614457831324e-07,
+      "loss": 0.004,
+      "reward": 2.3884357213974,
+      "reward_std": 0.23216703534126282,
+      "rewards/accuracy_reward": 1.4118732213974,
+      "rewards/format_reward": 0.9765625,
+      "step": 369
+    },
+    {
+      "completion_length": 75.3125,
+      "epoch": 4.457831325301205,
+      "grad_norm": 3.5709834038432886,
+      "kl": 0.112060546875,
+      "learning_rate": 2.5702811244979916e-07,
+      "loss": 0.0045,
+      "reward": 2.4395360946655273,
+      "reward_std": 0.25345855951309204,
+      "rewards/accuracy_reward": 1.4551611542701721,
+      "rewards/format_reward": 0.984375,
+      "step": 370
+    },
+    {
+      "completion_length": 76.03125,
+      "epoch": 4.469879518072289,
+      "grad_norm": 3.8012985013892897,
+      "kl": 0.11962890625,
+      "learning_rate": 2.5502008032128514e-07,
+      "loss": 0.0048,
+      "reward": 2.2614444494247437,
+      "reward_std": 0.25984859466552734,
+      "rewards/accuracy_reward": 1.2692569494247437,
+      "rewards/format_reward": 0.9921875,
+      "step": 371
+    },
+    {
+      "completion_length": 72.34375,
+      "epoch": 4.481927710843373,
+      "grad_norm": 3.81905493683615,
+      "kl": 0.118408203125,
+      "learning_rate": 2.5301204819277107e-07,
+      "loss": 0.0047,
+      "reward": 2.24534273147583,
+      "reward_std": 0.2783522978425026,
+      "rewards/accuracy_reward": 1.25315523147583,
+      "rewards/format_reward": 0.9921875,
+      "step": 372
+    },
+    {
+      "completion_length": 73.625,
+      "epoch": 4.493975903614458,
+      "grad_norm": 5.859434170398068,
+      "kl": 0.129638671875,
+      "learning_rate": 2.5100401606425705e-07,
+      "loss": 0.0052,
+      "reward": 2.242166519165039,
+      "reward_std": 0.19818732887506485,
+      "rewards/accuracy_reward": 1.2421664595603943,
+      "rewards/format_reward": 1.0,
+      "step": 373
+    },
+    {
+      "completion_length": 70.7734375,
+      "epoch": 4.506024096385542,
+      "grad_norm": 4.577359942879205,
+      "kl": 0.113037109375,
+      "learning_rate": 2.489959839357429e-07,
+      "loss": 0.0045,
+      "reward": 2.40807843208313,
+      "reward_std": 0.16506175324320793,
+      "rewards/accuracy_reward": 1.408078372478485,
+      "rewards/format_reward": 1.0,
+      "step": 374
+    },
+    {
+      "completion_length": 71.6484375,
+      "epoch": 4.518072289156627,
+      "grad_norm": 3.6969886550918627,
+      "kl": 0.0947265625,
+      "learning_rate": 2.469879518072289e-07,
+      "loss": 0.0038,
+      "reward": 2.4090828895568848,
+      "reward_std": 0.17872843891382217,
+      "rewards/accuracy_reward": 1.4090829491615295,
+      "rewards/format_reward": 1.0,
+      "step": 375
+    },
+    {
+      "completion_length": 75.640625,
+      "epoch": 4.530120481927711,
+      "grad_norm": 3.182069910394249,
+      "kl": 0.112548828125,
+      "learning_rate": 2.4497991967871483e-07,
+      "loss": 0.0045,
+      "reward": 2.429325222969055,
+      "reward_std": 0.18355486541986465,
+      "rewards/accuracy_reward": 1.4371376037597656,
+      "rewards/format_reward": 0.9921875,
+      "step": 376
+    },
+    {
+      "completion_length": 76.8515625,
+      "epoch": 4.542168674698795,
+      "grad_norm": 4.3761923522139625,
+      "kl": 0.103515625,
+      "learning_rate": 2.429718875502008e-07,
+      "loss": 0.0041,
+      "reward": 2.215627670288086,
+      "reward_std": 0.29024538397789,
+      "rewards/accuracy_reward": 1.2234401106834412,
+      "rewards/format_reward": 0.9921875,
+      "step": 377
+    },
+    {
+      "completion_length": 72.640625,
+      "epoch": 4.554216867469879,
+      "grad_norm": 5.739152465768093,
+      "kl": 0.096923828125,
+      "learning_rate": 2.4096385542168674e-07,
+      "loss": 0.0039,
+      "reward": 2.3864386081695557,
+      "reward_std": 0.14991050213575363,
+      "rewards/accuracy_reward": 1.3864384889602661,
+      "rewards/format_reward": 1.0,
+      "step": 378
+    },
+    {
+      "completion_length": 73.7890625,
+      "epoch": 4.566265060240964,
+      "grad_norm": 4.330609617515541,
+      "kl": 0.105712890625,
+      "learning_rate": 2.3895582329317267e-07,
+      "loss": 0.0042,
+      "reward": 2.2676793336868286,
+      "reward_std": 0.1841476932168007,
+      "rewards/accuracy_reward": 1.2754917740821838,
+      "rewards/format_reward": 0.9921875,
+      "step": 379
+    },
+    {
+      "completion_length": 69.5859375,
+      "epoch": 4.578313253012048,
+      "grad_norm": 16.70825245009543,
+      "kl": 0.103515625,
+      "learning_rate": 2.3694779116465862e-07,
+      "loss": 0.0041,
+      "reward": 2.3687047958374023,
+      "reward_std": 0.23368250578641891,
+      "rewards/accuracy_reward": 1.3765172958374023,
+      "rewards/format_reward": 0.9921875,
+      "step": 380
+    },
+    {
+      "completion_length": 68.5703125,
+      "epoch": 4.590361445783133,
+      "grad_norm": 4.946973705468274,
+      "kl": 0.11865234375,
+      "learning_rate": 2.3493975903614457e-07,
+      "loss": 0.0047,
+      "reward": 2.409714102745056,
+      "reward_std": 0.17494437843561172,
+      "rewards/accuracy_reward": 1.4175265431404114,
+      "rewards/format_reward": 0.9921875,
+      "step": 381
+    },
+    {
+      "completion_length": 69.09375,
+      "epoch": 4.602409638554217,
+      "grad_norm": 3.4407209788639155,
+      "kl": 0.108154296875,
+      "learning_rate": 2.3293172690763053e-07,
+      "loss": 0.0043,
+      "reward": 2.3722596168518066,
+      "reward_std": 0.2456066906452179,
+      "rewards/accuracy_reward": 1.3722596764564514,
+      "rewards/format_reward": 1.0,
+      "step": 382
+    },
+    {
+      "completion_length": 73.40625,
+      "epoch": 4.614457831325301,
+      "grad_norm": 6.785057754949663,
+      "kl": 0.093017578125,
+      "learning_rate": 2.3092369477911648e-07,
+      "loss": 0.0037,
+      "reward": 2.390730619430542,
+      "reward_std": 0.13034258037805557,
+      "rewards/accuracy_reward": 1.390730619430542,
+      "rewards/format_reward": 1.0,
+      "step": 383
+    },
+    {
+      "completion_length": 69.578125,
+      "epoch": 4.626506024096385,
+      "grad_norm": 4.146766679362004,
+      "kl": 0.110107421875,
+      "learning_rate": 2.2891566265060238e-07,
+      "loss": 0.0044,
+      "reward": 2.457837224006653,
+      "reward_std": 0.19646844267845154,
+      "rewards/accuracy_reward": 1.465649664402008,
+      "rewards/format_reward": 0.9921875,
+      "step": 384
+    },
+    {
+      "completion_length": 71.4765625,
+      "epoch": 4.63855421686747,
+      "grad_norm": 3.5134218173180884,
+      "kl": 0.10791015625,
+      "learning_rate": 2.2690763052208834e-07,
+      "loss": 0.0043,
+      "reward": 2.2395870685577393,
+      "reward_std": 0.23986083269119263,
+      "rewards/accuracy_reward": 1.2630245089530945,
+      "rewards/format_reward": 0.9765625,
+      "step": 385
+    },
+    {
+      "completion_length": 67.8984375,
+      "epoch": 4.650602409638554,
+      "grad_norm": 3.5532098801033323,
+      "kl": 0.112060546875,
+      "learning_rate": 2.248995983935743e-07,
+      "loss": 0.0045,
+      "reward": 2.155800759792328,
+      "reward_std": 0.26599714159965515,
+      "rewards/accuracy_reward": 1.1714258790016174,
+      "rewards/format_reward": 0.984375,
+      "step": 386
+    },
+    {
+      "completion_length": 67.921875,
+      "epoch": 4.662650602409639,
+      "grad_norm": 3.977191337497143,
+      "kl": 0.12353515625,
+      "learning_rate": 2.2289156626506022e-07,
+      "loss": 0.0049,
+      "reward": 2.1573885679244995,
+      "reward_std": 0.19674725830554962,
+      "rewards/accuracy_reward": 1.165201187133789,
+      "rewards/format_reward": 0.9921875,
+      "step": 387
+    },
+    {
+      "completion_length": 73.3671875,
+      "epoch": 4.674698795180722,
+      "grad_norm": 3.4384187805900894,
+      "kl": 0.1005859375,
+      "learning_rate": 2.2088353413654617e-07,
+      "loss": 0.004,
+      "reward": 2.238619089126587,
+      "reward_std": 0.1663391888141632,
+      "rewards/accuracy_reward": 1.2386190295219421,
+      "rewards/format_reward": 1.0,
+      "step": 388
+    },
+    {
+      "completion_length": 71.3515625,
+      "epoch": 4.686746987951807,
+      "grad_norm": 3.6715987846617737,
+      "kl": 0.1103515625,
+      "learning_rate": 2.1887550200803212e-07,
+      "loss": 0.0044,
+      "reward": 2.2813053131103516,
+      "reward_std": 0.20307840406894684,
+      "rewards/accuracy_reward": 1.2891177535057068,
+      "rewards/format_reward": 0.9921875,
+      "step": 389
+    },
+    {
+      "completion_length": 67.8671875,
+      "epoch": 4.698795180722891,
+      "grad_norm": 4.1990886176906566,
+      "kl": 0.1181640625,
+      "learning_rate": 2.1686746987951808e-07,
+      "loss": 0.0047,
+      "reward": 2.3316123485565186,
+      "reward_std": 0.18899912387132645,
+      "rewards/accuracy_reward": 1.339424967765808,
+      "rewards/format_reward": 0.9921875,
+      "step": 390
+    },
+    {
+      "completion_length": 73.5390625,
+      "epoch": 4.710843373493976,
+      "grad_norm": 4.5848307121684035,
+      "kl": 0.11767578125,
+      "learning_rate": 2.14859437751004e-07,
+      "loss": 0.0047,
+      "reward": 2.3556346893310547,
+      "reward_std": 0.17518161982297897,
+      "rewards/accuracy_reward": 1.3634473085403442,
+      "rewards/format_reward": 0.9921875,
+      "step": 391
+    },
+    {
+      "completion_length": 73.3828125,
+      "epoch": 4.72289156626506,
+      "grad_norm": 4.308895887462787,
+      "kl": 0.09716796875,
+      "learning_rate": 2.1285140562248996e-07,
+      "loss": 0.0039,
+      "reward": 2.3230199813842773,
+      "reward_std": 0.2215501293540001,
+      "rewards/accuracy_reward": 1.3230200409889221,
+      "rewards/format_reward": 1.0,
+      "step": 392
+    },
+    {
+      "completion_length": 71.625,
+      "epoch": 4.734939759036145,
+      "grad_norm": 3.8869195849917335,
+      "kl": 0.117919921875,
+      "learning_rate": 2.108433734939759e-07,
+      "loss": 0.0047,
+      "reward": 2.311624765396118,
+      "reward_std": 0.233637273311615,
+      "rewards/accuracy_reward": 1.3116250038146973,
+      "rewards/format_reward": 1.0,
+      "step": 393
+    },
+    {
+      "completion_length": 67.828125,
+      "epoch": 4.746987951807229,
+      "grad_norm": 4.950759054297939,
+      "kl": 0.10888671875,
+      "learning_rate": 2.0883534136546184e-07,
+      "loss": 0.0044,
+      "reward": 2.379747152328491,
+      "reward_std": 0.19298578798770905,
+      "rewards/accuracy_reward": 1.3797469735145569,
+      "rewards/format_reward": 1.0,
+      "step": 394
+    },
+    {
+      "completion_length": 72.2578125,
+      "epoch": 4.759036144578313,
+      "grad_norm": 45.47765651174386,
+      "kl": 0.126708984375,
+      "learning_rate": 2.0682730923694776e-07,
+      "loss": 0.0051,
+      "reward": 2.078563928604126,
+      "reward_std": 0.253988578915596,
+      "rewards/accuracy_reward": 1.0941888689994812,
+      "rewards/format_reward": 0.984375,
+      "step": 395
+    },
+    {
+      "completion_length": 71.6484375,
+      "epoch": 4.771084337349397,
+      "grad_norm": 6.044646695827286,
+      "kl": 0.13916015625,
+      "learning_rate": 2.0481927710843372e-07,
+      "loss": 0.0056,
+      "reward": 2.485829472541809,
+      "reward_std": 0.180104598402977,
+      "rewards/accuracy_reward": 1.4858292937278748,
+      "rewards/format_reward": 1.0,
+      "step": 396
+    },
+    {
+      "completion_length": 65.09375,
+      "epoch": 4.783132530120482,
+      "grad_norm": 4.360820446081869,
+      "kl": 0.1416015625,
+      "learning_rate": 2.0281124497991967e-07,
+      "loss": 0.0057,
+      "reward": 2.1638635396957397,
+      "reward_std": 0.31551285088062286,
+      "rewards/accuracy_reward": 1.1873010993003845,
+      "rewards/format_reward": 0.9765625,
+      "step": 397
+    },
+    {
+      "completion_length": 70.6328125,
+      "epoch": 4.795180722891566,
+      "grad_norm": 5.234619949658262,
+      "kl": 0.115966796875,
+      "learning_rate": 2.0080321285140563e-07,
+      "loss": 0.0046,
+      "reward": 2.424190402030945,
+      "reward_std": 0.23157334327697754,
+      "rewards/accuracy_reward": 1.4241904616355896,
+      "rewards/format_reward": 1.0,
+      "step": 398
+    },
+    {
+      "completion_length": 70.4375,
+      "epoch": 4.807228915662651,
+      "grad_norm": 5.2543384630783265,
+      "kl": 0.12060546875,
+      "learning_rate": 1.9879518072289155e-07,
+      "loss": 0.0048,
+      "reward": 2.3333520889282227,
+      "reward_std": 0.2145429253578186,
+      "rewards/accuracy_reward": 1.3411647081375122,
+      "rewards/format_reward": 0.9921875,
+      "step": 399
+    },
+    {
+      "completion_length": 65.421875,
+      "epoch": 4.8192771084337345,
+      "grad_norm": 6.050688926597152,
+      "kl": 0.125732421875,
+      "learning_rate": 1.967871485943775e-07,
+      "loss": 0.005,
+      "reward": 2.412783145904541,
+      "reward_std": 0.2059781178832054,
+      "rewards/accuracy_reward": 1.420595645904541,
+      "rewards/format_reward": 0.9921875,
+      "step": 400
+    },
+    {
+      "completion_length": 63.5546875,
+      "epoch": 4.831325301204819,
+      "grad_norm": 4.14350718873446,
+      "kl": 0.143798828125,
+      "learning_rate": 1.9477911646586346e-07,
+      "loss": 0.0057,
+      "reward": 2.3667309284210205,
+      "reward_std": 0.1764308363199234,
+      "rewards/accuracy_reward": 1.3745434284210205,
+      "rewards/format_reward": 0.9921875,
+      "step": 401
+    },
+    {
+      "completion_length": 71.8671875,
+      "epoch": 4.843373493975903,
+      "grad_norm": 4.134424932683493,
+      "kl": 0.126953125,
+      "learning_rate": 1.9277108433734939e-07,
+      "loss": 0.0051,
+      "reward": 2.2129541635513306,
+      "reward_std": 0.1565767452120781,
+      "rewards/accuracy_reward": 1.2129541635513306,
+      "rewards/format_reward": 1.0,
+      "step": 402
+    },
+    {
+      "completion_length": 64.0390625,
+      "epoch": 4.855421686746988,
+      "grad_norm": 4.135875391105592,
+      "kl": 0.166015625,
+      "learning_rate": 1.9076305220883534e-07,
+      "loss": 0.0066,
+      "reward": 2.3259581327438354,
+      "reward_std": 0.2349315583705902,
+      "rewards/accuracy_reward": 1.3259583115577698,
+      "rewards/format_reward": 1.0,
+      "step": 403
+    },
+    {
+      "completion_length": 66.515625,
+      "epoch": 4.867469879518072,
+      "grad_norm": 4.276605246406482,
+      "kl": 0.138916015625,
+      "learning_rate": 1.8875502008032127e-07,
+      "loss": 0.0056,
+      "reward": 2.306966781616211,
+      "reward_std": 0.2081274688243866,
+      "rewards/accuracy_reward": 1.3069666624069214,
+      "rewards/format_reward": 1.0,
+      "step": 404
+    },
+    {
+      "completion_length": 62.28125,
+      "epoch": 4.879518072289157,
+      "grad_norm": 4.594134632277065,
+      "kl": 0.1826171875,
+      "learning_rate": 1.8674698795180722e-07,
+      "loss": 0.0073,
+      "reward": 2.126552700996399,
+      "reward_std": 0.255823478102684,
+      "rewards/accuracy_reward": 1.1421778202056885,
+      "rewards/format_reward": 0.984375,
+      "step": 405
+    },
+    {
+      "completion_length": 62.3671875,
+      "epoch": 4.891566265060241,
+      "grad_norm": 3.568434088807843,
+      "kl": 0.14013671875,
+      "learning_rate": 1.8473895582329315e-07,
+      "loss": 0.0056,
+      "reward": 2.417848587036133,
+      "reward_std": 0.22225632518529892,
+      "rewards/accuracy_reward": 1.4334735870361328,
+      "rewards/format_reward": 0.984375,
+      "step": 406
+    },
+    {
+      "completion_length": 66.5078125,
+      "epoch": 4.903614457831325,
+      "grad_norm": 4.123527789276523,
+      "kl": 0.10986328125,
+      "learning_rate": 1.827309236947791e-07,
+      "loss": 0.0044,
+      "reward": 2.294624924659729,
+      "reward_std": 0.19924252480268478,
+      "rewards/accuracy_reward": 1.3024373650550842,
+      "rewards/format_reward": 0.9921875,
+      "step": 407
+    },
+    {
+      "completion_length": 66.390625,
+      "epoch": 4.9156626506024095,
+      "grad_norm": 3.62978164804241,
+      "kl": 0.12890625,
+      "learning_rate": 1.8072289156626505e-07,
+      "loss": 0.0051,
+      "reward": 2.543404698371887,
+      "reward_std": 0.1362360306084156,
+      "rewards/accuracy_reward": 1.5434046983718872,
+      "rewards/format_reward": 1.0,
+      "step": 408
+    },
+    {
+      "completion_length": 63.9765625,
+      "epoch": 4.927710843373494,
+      "grad_norm": 4.35384844886202,
+      "kl": 0.12890625,
+      "learning_rate": 1.78714859437751e-07,
+      "loss": 0.0052,
+      "reward": 2.418124198913574,
+      "reward_std": 0.22236012667417526,
+      "rewards/accuracy_reward": 1.4337490797042847,
+      "rewards/format_reward": 0.984375,
+      "step": 409
+    },
+    {
+      "completion_length": 68.90625,
+      "epoch": 4.9397590361445785,
+      "grad_norm": 5.014972518639089,
+      "kl": 0.1103515625,
+      "learning_rate": 1.7670682730923694e-07,
+      "loss": 0.0044,
+      "reward": 2.4006751775741577,
+      "reward_std": 0.16714774072170258,
+      "rewards/accuracy_reward": 1.4006752967834473,
+      "rewards/format_reward": 1.0,
+      "step": 410
+    },
+    {
+      "completion_length": 69.59375,
+      "epoch": 4.951807228915663,
+      "grad_norm": 7.696032017895469,
+      "kl": 0.13916015625,
+      "learning_rate": 1.746987951807229e-07,
+      "loss": 0.0056,
+      "reward": 2.395194172859192,
+      "reward_std": 0.16039493680000305,
+      "rewards/accuracy_reward": 1.3951941132545471,
+      "rewards/format_reward": 1.0,
+      "step": 411
+    },
+    {
+      "completion_length": 70.125,
+      "epoch": 4.9638554216867465,
+      "grad_norm": 4.628350833888434,
+      "kl": 0.149169921875,
+      "learning_rate": 1.7269076305220884e-07,
+      "loss": 0.006,
+      "reward": 2.1348607540130615,
+      "reward_std": 0.1709538996219635,
+      "rewards/accuracy_reward": 1.1348606944084167,
+      "rewards/format_reward": 1.0,
+      "step": 412
+    },
+    {
+      "completion_length": 66.2109375,
+      "epoch": 4.975903614457831,
+      "grad_norm": 3.188607704812383,
+      "kl": 0.12646484375,
+      "learning_rate": 1.706827309236948e-07,
+      "loss": 0.0051,
+      "reward": 2.302504062652588,
+      "reward_std": 0.2623682767152786,
+      "rewards/accuracy_reward": 1.3181291222572327,
+      "rewards/format_reward": 0.984375,
+      "step": 413
+    },
+    {
+      "completion_length": 64.171875,
+      "epoch": 4.9879518072289155,
+      "grad_norm": 3.9665667179390773,
+      "kl": 0.128662109375,
+      "learning_rate": 1.686746987951807e-07,
+      "loss": 0.0052,
+      "reward": 2.4097338914871216,
+      "reward_std": 0.17293449118733406,
+      "rewards/accuracy_reward": 1.4097338318824768,
+      "rewards/format_reward": 1.0,
+      "step": 414
+    },
+    {
+      "completion_length": 77.33333587646484,
+      "epoch": 5.0,
+      "grad_norm": 3.313170759959086,
+      "kl": 0.1083984375,
+      "learning_rate": 1.6666666666666665e-07,
+      "loss": 0.004,
+      "reward": 2.2759520411491394,
+      "reward_std": 0.1403224766254425,
+      "rewards/accuracy_reward": 1.2759520411491394,
+      "rewards/format_reward": 1.0,
+      "step": 415
+    },
+    {
+      "completion_length": 66.3203125,
+      "epoch": 5.0120481927710845,
+      "grad_norm": 4.277881132595083,
+      "kl": 0.14306640625,
+      "learning_rate": 1.646586345381526e-07,
+      "loss": 0.0057,
+      "reward": 2.373741865158081,
+      "reward_std": 0.20744601637125015,
+      "rewards/accuracy_reward": 1.3815542459487915,
+      "rewards/format_reward": 0.9921875,
+      "step": 416
+    },
+    {
+      "completion_length": 66.53125,
+      "epoch": 5.024096385542169,
+      "grad_norm": 3.9929439696450575,
+      "kl": 0.12939453125,
+      "learning_rate": 1.6265060240963853e-07,
+      "loss": 0.0052,
+      "reward": 2.35166335105896,
+      "reward_std": 0.2503097951412201,
+      "rewards/accuracy_reward": 1.35166335105896,
+      "rewards/format_reward": 1.0,
+      "step": 417
+    },
+    {
+      "completion_length": 68.625,
+      "epoch": 5.036144578313253,
+      "grad_norm": 4.023924792103433,
+      "kl": 0.114013671875,
+      "learning_rate": 1.6064257028112448e-07,
+      "loss": 0.0046,
+      "reward": 2.2476612329483032,
+      "reward_std": 0.185993991792202,
+      "rewards/accuracy_reward": 1.2554737329483032,
+      "rewards/format_reward": 0.9921875,
+      "step": 418
+    },
+    {
+      "completion_length": 65.7421875,
+      "epoch": 5.048192771084337,
+      "grad_norm": 3.5711137415239618,
+      "kl": 0.134033203125,
+      "learning_rate": 1.5863453815261044e-07,
+      "loss": 0.0054,
+      "reward": 2.2856324911117554,
+      "reward_std": 0.14102690666913986,
+      "rewards/accuracy_reward": 1.2856324911117554,
+      "rewards/format_reward": 1.0,
+      "step": 419
+    },
+    {
+      "completion_length": 65.1328125,
+      "epoch": 5.0602409638554215,
+      "grad_norm": 5.8881280705003505,
+      "kl": 0.1259765625,
+      "learning_rate": 1.566265060240964e-07,
+      "loss": 0.005,
+      "reward": 2.474275588989258,
+      "reward_std": 0.2030300498008728,
+      "rewards/accuracy_reward": 1.474275529384613,
+      "rewards/format_reward": 1.0,
+      "step": 420
+    },
+    {
+      "completion_length": 59.453125,
+      "epoch": 5.072289156626506,
+      "grad_norm": 17.487945694806488,
+      "kl": 0.1279296875,
+      "learning_rate": 1.5461847389558232e-07,
+      "loss": 0.0051,
+      "reward": 2.468233823776245,
+      "reward_std": 0.17333931475877762,
+      "rewards/accuracy_reward": 1.4682338237762451,
+      "rewards/format_reward": 1.0,
+      "step": 421
+    },
+    {
+      "completion_length": 67.7421875,
+      "epoch": 5.0843373493975905,
+      "grad_norm": 4.5642738703913865,
+      "kl": 0.12646484375,
+      "learning_rate": 1.5261044176706827e-07,
+      "loss": 0.0051,
+      "reward": 2.39510977268219,
+      "reward_std": 0.1837218478322029,
+      "rewards/accuracy_reward": 1.3951098918914795,
+      "rewards/format_reward": 1.0,
+      "step": 422
+    },
+    {
+      "completion_length": 64.515625,
+      "epoch": 5.096385542168675,
+      "grad_norm": 7.684070732359071,
+      "kl": 0.139892578125,
+      "learning_rate": 1.5060240963855423e-07,
+      "loss": 0.0056,
+      "reward": 2.16294264793396,
+      "reward_std": 0.14895135164260864,
+      "rewards/accuracy_reward": 1.1707550883293152,
+      "rewards/format_reward": 0.9921875,
+      "step": 423
+    },
+    {
+      "completion_length": 64.46875,
+      "epoch": 5.108433734939759,
+      "grad_norm": 3.930344733874979,
+      "kl": 0.11669921875,
+      "learning_rate": 1.4859437751004015e-07,
+      "loss": 0.0047,
+      "reward": 2.3980486392974854,
+      "reward_std": 0.15896277129650116,
+      "rewards/accuracy_reward": 1.3980485796928406,
+      "rewards/format_reward": 1.0,
+      "step": 424
+    },
+    {
+      "completion_length": 68.875,
+      "epoch": 5.120481927710843,
+      "grad_norm": 6.912033255857147,
+      "kl": 0.118896484375,
+      "learning_rate": 1.4658634538152608e-07,
+      "loss": 0.0048,
+      "reward": 2.4401201009750366,
+      "reward_std": 0.18969366699457169,
+      "rewards/accuracy_reward": 1.440119981765747,
+      "rewards/format_reward": 1.0,
+      "step": 425
+    },
+    {
+      "completion_length": 65.609375,
+      "epoch": 5.132530120481928,
+      "grad_norm": 3.6477005267341163,
+      "kl": 0.1708984375,
+      "learning_rate": 1.4457831325301203e-07,
+      "loss": 0.0068,
+      "reward": 2.300011992454529,
+      "reward_std": 0.2104162722826004,
+      "rewards/accuracy_reward": 1.300011932849884,
+      "rewards/format_reward": 1.0,
+      "step": 426
+    },
+    {
+      "completion_length": 65.0859375,
+      "epoch": 5.144578313253012,
+      "grad_norm": 5.390081007205584,
+      "kl": 0.12548828125,
+      "learning_rate": 1.42570281124498e-07,
+      "loss": 0.005,
+      "reward": 2.407547354698181,
+      "reward_std": 0.19479839503765106,
+      "rewards/accuracy_reward": 1.4075472354888916,
+      "rewards/format_reward": 1.0,
+      "step": 427
+    },
+    {
+      "completion_length": 65.8046875,
+      "epoch": 5.156626506024097,
+      "grad_norm": 5.842696773596783,
+      "kl": 0.12255859375,
+      "learning_rate": 1.4056224899598394e-07,
+      "loss": 0.0049,
+      "reward": 2.2872836589813232,
+      "reward_std": 0.2501709461212158,
+      "rewards/accuracy_reward": 1.2950963973999023,
+      "rewards/format_reward": 0.9921875,
+      "step": 428
+    },
+    {
+      "completion_length": 67.2890625,
+      "epoch": 5.168674698795181,
+      "grad_norm": 3.9373211288360612,
+      "kl": 0.134765625,
+      "learning_rate": 1.3855421686746987e-07,
+      "loss": 0.0054,
+      "reward": 2.4114162921905518,
+      "reward_std": 0.22173649817705154,
+      "rewards/accuracy_reward": 1.419228732585907,
+      "rewards/format_reward": 0.9921875,
+      "step": 429
+    },
+    {
+      "completion_length": 65.7265625,
+      "epoch": 5.180722891566265,
+      "grad_norm": 5.989728831260378,
+      "kl": 0.20263671875,
+      "learning_rate": 1.3654618473895582e-07,
+      "loss": 0.0081,
+      "reward": 2.349661111831665,
+      "reward_std": 0.24485966563224792,
+      "rewards/accuracy_reward": 1.3496609926223755,
+      "rewards/format_reward": 1.0,
+      "step": 430
+    },
+    {
+      "completion_length": 71.0390625,
+      "epoch": 5.192771084337349,
+      "grad_norm": 4.9722233041190425,
+      "kl": 0.11083984375,
+      "learning_rate": 1.3453815261044177e-07,
+      "loss": 0.0044,
+      "reward": 2.423168659210205,
+      "reward_std": 0.16536322236061096,
+      "rewards/accuracy_reward": 1.4231685996055603,
+      "rewards/format_reward": 1.0,
+      "step": 431
+    },
+    {
+      "completion_length": 66.234375,
+      "epoch": 5.204819277108434,
+      "grad_norm": 3.5058259130400162,
+      "kl": 0.1376953125,
+      "learning_rate": 1.3253012048192773e-07,
+      "loss": 0.0055,
+      "reward": 2.2352651357650757,
+      "reward_std": 0.18688317388296127,
+      "rewards/accuracy_reward": 1.2352651357650757,
+      "rewards/format_reward": 1.0,
+      "step": 432
+    },
+    {
+      "completion_length": 72.8203125,
+      "epoch": 5.216867469879518,
+      "grad_norm": 3.8748331360003485,
+      "kl": 0.130859375,
+      "learning_rate": 1.3052208835341366e-07,
+      "loss": 0.0052,
+      "reward": 2.3151748180389404,
+      "reward_std": 0.21110112965106964,
+      "rewards/accuracy_reward": 1.3229871988296509,
+      "rewards/format_reward": 0.9921875,
+      "step": 433
+    },
+    {
+      "completion_length": 68.8671875,
+      "epoch": 5.228915662650603,
+      "grad_norm": 3.985332448415374,
+      "kl": 0.1220703125,
+      "learning_rate": 1.2851405622489958e-07,
+      "loss": 0.0049,
+      "reward": 2.26615047454834,
+      "reward_std": 0.20259422063827515,
+      "rewards/accuracy_reward": 1.2739630937576294,
+      "rewards/format_reward": 0.9921875,
+      "step": 434
+    },
+    {
+      "completion_length": 64.0234375,
+      "epoch": 5.240963855421687,
+      "grad_norm": 4.209088113123041,
+      "kl": 0.119873046875,
+      "learning_rate": 1.2650602409638554e-07,
+      "loss": 0.0048,
+      "reward": 2.345677137374878,
+      "reward_std": 0.16655350476503372,
+      "rewards/accuracy_reward": 1.345677137374878,
+      "rewards/format_reward": 1.0,
+      "step": 435
+    },
+    {
+      "completion_length": 72.2109375,
+      "epoch": 5.253012048192771,
+      "grad_norm": 3.7180924645581994,
+      "kl": 0.13427734375,
+      "learning_rate": 1.2449799196787146e-07,
+      "loss": 0.0054,
+      "reward": 2.163213849067688,
+      "reward_std": 0.3149610310792923,
+      "rewards/accuracy_reward": 1.1866515278816223,
+      "rewards/format_reward": 0.9765625,
+      "step": 436
+    },
+    {
+      "completion_length": 65.328125,
+      "epoch": 5.265060240963855,
+      "grad_norm": 3.8280472693841556,
+      "kl": 0.12744140625,
+      "learning_rate": 1.2248995983935742e-07,
+      "loss": 0.0051,
+      "reward": 2.3446794748306274,
+      "reward_std": 0.22430174052715302,
+      "rewards/accuracy_reward": 1.3446794152259827,
+      "rewards/format_reward": 1.0,
+      "step": 437
+    },
+    {
+      "completion_length": 64.65625,
+      "epoch": 5.27710843373494,
+      "grad_norm": 5.861122122648032,
+      "kl": 0.12060546875,
+      "learning_rate": 1.2048192771084337e-07,
+      "loss": 0.0048,
+      "reward": 2.379356861114502,
+      "reward_std": 0.1506607085466385,
+      "rewards/accuracy_reward": 1.3871691226959229,
+      "rewards/format_reward": 0.9921875,
+      "step": 438
+    },
+    {
+      "completion_length": 71.1171875,
+      "epoch": 5.289156626506024,
+      "grad_norm": 3.8119653679452092,
+      "kl": 0.12353515625,
+      "learning_rate": 1.1847389558232931e-07,
+      "loss": 0.0049,
+      "reward": 2.388357400894165,
+      "reward_std": 0.23687779903411865,
+      "rewards/accuracy_reward": 1.3961697816848755,
+      "rewards/format_reward": 0.9921875,
+      "step": 439
+    },
+    {
+      "completion_length": 72.3515625,
+      "epoch": 5.301204819277109,
+      "grad_norm": 3.9178115284886372,
+      "kl": 0.095458984375,
+      "learning_rate": 1.1646586345381526e-07,
+      "loss": 0.0038,
+      "reward": 2.6513583660125732,
+      "reward_std": 0.17830242216587067,
+      "rewards/accuracy_reward": 1.6513583660125732,
+      "rewards/format_reward": 1.0,
+      "step": 440
+    },
+    {
+      "completion_length": 68.921875,
+      "epoch": 5.313253012048193,
+      "grad_norm": 4.623442869387058,
+      "kl": 0.100830078125,
+      "learning_rate": 1.1445783132530119e-07,
+      "loss": 0.004,
+      "reward": 2.549654483795166,
+      "reward_std": 0.16079290956258774,
+      "rewards/accuracy_reward": 1.5574671030044556,
+      "rewards/format_reward": 0.9921875,
+      "step": 441
+    },
+    {
+      "completion_length": 71.3203125,
+      "epoch": 5.325301204819277,
+      "grad_norm": 5.278895722638805,
+      "kl": 0.10986328125,
+      "learning_rate": 1.1244979919678714e-07,
+      "loss": 0.0044,
+      "reward": 2.203883409500122,
+      "reward_std": 0.258064404129982,
+      "rewards/accuracy_reward": 1.2116957902908325,
+      "rewards/format_reward": 0.9921875,
+      "step": 442
+    },
+    {
+      "completion_length": 69.515625,
+      "epoch": 5.337349397590361,
+      "grad_norm": 4.142710717599773,
+      "kl": 0.113525390625,
+      "learning_rate": 1.1044176706827308e-07,
+      "loss": 0.0045,
+      "reward": 2.1769516468048096,
+      "reward_std": 0.275626465678215,
+      "rewards/accuracy_reward": 1.1769516468048096,
+      "rewards/format_reward": 1.0,
+      "step": 443
+    },
+    {
+      "completion_length": 68.3203125,
+      "epoch": 5.349397590361446,
+      "grad_norm": 4.180078412016221,
+      "kl": 0.147216796875,
+      "learning_rate": 1.0843373493975904e-07,
+      "loss": 0.0059,
+      "reward": 2.381720542907715,
+      "reward_std": 0.20287376642227173,
+      "rewards/accuracy_reward": 1.3817205429077148,
+      "rewards/format_reward": 1.0,
+      "step": 444
+    },
+    {
+      "completion_length": 69.7421875,
+      "epoch": 5.36144578313253,
+      "grad_norm": 3.7523897150785603,
+      "kl": 0.12939453125,
+      "learning_rate": 1.0642570281124498e-07,
+      "loss": 0.0052,
+      "reward": 2.3669261932373047,
+      "reward_std": 0.2056456208229065,
+      "rewards/accuracy_reward": 1.3747385740280151,
+      "rewards/format_reward": 0.9921875,
+      "step": 445
+    },
+    {
+      "completion_length": 67.7109375,
+      "epoch": 5.373493975903615,
+      "grad_norm": 4.924758819089559,
+      "kl": 0.185546875,
+      "learning_rate": 1.0441767068273092e-07,
+      "loss": 0.0074,
+      "reward": 2.4100332260131836,
+      "reward_std": 0.22913093864917755,
+      "rewards/accuracy_reward": 1.4178457260131836,
+      "rewards/format_reward": 0.9921875,
+      "step": 446
+    },
+    {
+      "completion_length": 69.1875,
+      "epoch": 5.385542168674699,
+      "grad_norm": 3.080626056952063,
+      "kl": 0.122314453125,
+      "learning_rate": 1.0240963855421686e-07,
+      "loss": 0.0049,
+      "reward": 2.3073067665100098,
+      "reward_std": 0.23586007952690125,
+      "rewards/accuracy_reward": 1.315119206905365,
+      "rewards/format_reward": 0.9921875,
+      "step": 447
+    },
+    {
+      "completion_length": 67.59375,
+      "epoch": 5.397590361445783,
+      "grad_norm": 3.8573400804993314,
+      "kl": 0.128662109375,
+      "learning_rate": 1.0040160642570281e-07,
+      "loss": 0.0051,
+      "reward": 2.2195699214935303,
+      "reward_std": 0.18059836328029633,
+      "rewards/accuracy_reward": 1.2195698618888855,
+      "rewards/format_reward": 1.0,
+      "step": 448
+    },
+    {
+      "completion_length": 65.0078125,
+      "epoch": 5.409638554216867,
+      "grad_norm": 9.729377045307634,
+      "kl": 0.110107421875,
+      "learning_rate": 9.839357429718875e-08,
+      "loss": 0.0044,
+      "reward": 2.335146427154541,
+      "reward_std": 0.20962534099817276,
+      "rewards/accuracy_reward": 1.3429590463638306,
+      "rewards/format_reward": 0.9921875,
+      "step": 449
+    },
+    {
+      "completion_length": 76.171875,
+      "epoch": 5.421686746987952,
+      "grad_norm": 5.139417091846479,
+      "kl": 0.17626953125,
+      "learning_rate": 9.638554216867469e-08,
+      "loss": 0.0071,
+      "reward": 2.2514326572418213,
+      "reward_std": 0.18450473248958588,
+      "rewards/accuracy_reward": 1.2592450976371765,
+      "rewards/format_reward": 0.9921875,
+      "step": 450
+    },
+    {
+      "completion_length": 68.046875,
+      "epoch": 5.433734939759036,
+      "grad_norm": 3.961385062957452,
+      "kl": 0.10693359375,
+      "learning_rate": 9.437751004016063e-08,
+      "loss": 0.0043,
+      "reward": 2.328533172607422,
+      "reward_std": 0.18290965259075165,
+      "rewards/accuracy_reward": 1.3285331726074219,
+      "rewards/format_reward": 1.0,
+      "step": 451
+    },
+    {
+      "completion_length": 68.6953125,
+      "epoch": 5.445783132530121,
+      "grad_norm": 4.887519681333338,
+      "kl": 0.103759765625,
+      "learning_rate": 9.236947791164657e-08,
+      "loss": 0.0042,
+      "reward": 2.3144426345825195,
+      "reward_std": 0.21034369617700577,
+      "rewards/accuracy_reward": 1.3144426941871643,
+      "rewards/format_reward": 1.0,
+      "step": 452
+    },
+    {
+      "completion_length": 68.0,
+      "epoch": 5.457831325301205,
+      "grad_norm": 3.80893967356862,
+      "kl": 0.127685546875,
+      "learning_rate": 9.036144578313253e-08,
+      "loss": 0.0051,
+      "reward": 2.4345412254333496,
+      "reward_std": 0.2006332352757454,
+      "rewards/accuracy_reward": 1.4345412254333496,
+      "rewards/format_reward": 1.0,
+      "step": 453
+    },
+    {
+      "completion_length": 67.046875,
+      "epoch": 5.469879518072289,
+      "grad_norm": 4.2954066473287815,
+      "kl": 0.12841796875,
+      "learning_rate": 8.835341365461847e-08,
+      "loss": 0.0052,
+      "reward": 2.353352427482605,
+      "reward_std": 0.22566306591033936,
+      "rewards/accuracy_reward": 1.353352427482605,
+      "rewards/format_reward": 1.0,
+      "step": 454
+    },
+    {
+      "completion_length": 64.8984375,
+      "epoch": 5.481927710843373,
+      "grad_norm": 4.546803918905019,
+      "kl": 0.1337890625,
+      "learning_rate": 8.634538152610442e-08,
+      "loss": 0.0054,
+      "reward": 2.3113902807235718,
+      "reward_std": 0.20004340261220932,
+      "rewards/accuracy_reward": 1.3192027807235718,
+      "rewards/format_reward": 0.9921875,
+      "step": 455
+    },
+    {
+      "completion_length": 66.1640625,
+      "epoch": 5.493975903614458,
+      "grad_norm": 3.5466190382737883,
+      "kl": 0.123046875,
+      "learning_rate": 8.433734939759035e-08,
+      "loss": 0.0049,
+      "reward": 2.3270002603530884,
+      "reward_std": 0.21506989747285843,
+      "rewards/accuracy_reward": 1.3270001411437988,
+      "rewards/format_reward": 1.0,
+      "step": 456
+    },
+    {
+      "completion_length": 72.3984375,
+      "epoch": 5.506024096385542,
+      "grad_norm": 5.213818604387868,
+      "kl": 0.1328125,
+      "learning_rate": 8.23293172690763e-08,
+      "loss": 0.0053,
+      "reward": 2.4117329120635986,
+      "reward_std": 0.21075783669948578,
+      "rewards/accuracy_reward": 1.411732792854309,
+      "rewards/format_reward": 1.0,
+      "step": 457
+    },
+    {
+      "completion_length": 63.4140625,
+      "epoch": 5.518072289156627,
+      "grad_norm": 4.087135154378612,
+      "kl": 0.1142578125,
+      "learning_rate": 8.032128514056224e-08,
+      "loss": 0.0046,
+      "reward": 2.2361518144607544,
+      "reward_std": 0.15534771978855133,
+      "rewards/accuracy_reward": 1.2361518740653992,
+      "rewards/format_reward": 1.0,
+      "step": 458
+    },
+    {
+      "completion_length": 66.6796875,
+      "epoch": 5.530120481927711,
+      "grad_norm": 3.8509871084036083,
+      "kl": 0.12255859375,
+      "learning_rate": 7.83132530120482e-08,
+      "loss": 0.0049,
+      "reward": 2.402904510498047,
+      "reward_std": 0.18761365860700607,
+      "rewards/accuracy_reward": 1.4029043912887573,
+      "rewards/format_reward": 1.0,
+      "step": 459
+    },
+    {
+      "completion_length": 67.921875,
+      "epoch": 5.542168674698795,
+      "grad_norm": 3.8868143152174714,
+      "kl": 0.1201171875,
+      "learning_rate": 7.630522088353414e-08,
+      "loss": 0.0048,
+      "reward": 2.202209234237671,
+      "reward_std": 0.20886321365833282,
+      "rewards/accuracy_reward": 1.2022093534469604,
+      "rewards/format_reward": 1.0,
+      "step": 460
+    },
+    {
+      "completion_length": 69.84375,
+      "epoch": 5.554216867469879,
+      "grad_norm": 9.828452094441177,
+      "kl": 0.138427734375,
+      "learning_rate": 7.429718875502008e-08,
+      "loss": 0.0055,
+      "reward": 2.255289673805237,
+      "reward_std": 0.3091956526041031,
+      "rewards/accuracy_reward": 1.2787271738052368,
+      "rewards/format_reward": 0.9765625,
+      "step": 461
+    },
+    {
+      "completion_length": 67.7265625,
+      "epoch": 5.566265060240964,
+      "grad_norm": 3.5884325923981777,
+      "kl": 0.14501953125,
+      "learning_rate": 7.228915662650602e-08,
+      "loss": 0.0058,
+      "reward": 2.389763116836548,
+      "reward_std": 0.1989041194319725,
+      "rewards/accuracy_reward": 1.3897631168365479,
+      "rewards/format_reward": 1.0,
+      "step": 462
+    },
+    {
+      "completion_length": 63.4765625,
+      "epoch": 5.578313253012048,
+      "grad_norm": 3.943165256338966,
+      "kl": 0.15185546875,
+      "learning_rate": 7.028112449799197e-08,
+      "loss": 0.0061,
+      "reward": 2.2263519763946533,
+      "reward_std": 0.22419632971286774,
+      "rewards/accuracy_reward": 1.2341644763946533,
+      "rewards/format_reward": 0.9921875,
+      "step": 463
+    },
+    {
+      "completion_length": 67.734375,
+      "epoch": 5.590361445783133,
+      "grad_norm": 8.892123036444877,
+      "kl": 0.126953125,
+      "learning_rate": 6.827309236947791e-08,
+      "loss": 0.0051,
+      "reward": 2.3126423358917236,
+      "reward_std": 0.17722339183092117,
+      "rewards/accuracy_reward": 1.3126422762870789,
+      "rewards/format_reward": 1.0,
+      "step": 464
+    },
+    {
+      "completion_length": 75.5546875,
+      "epoch": 5.602409638554217,
+      "grad_norm": 4.229071556328315,
+      "kl": 0.1240234375,
+      "learning_rate": 6.626506024096386e-08,
+      "loss": 0.005,
+      "reward": 2.2280049324035645,
+      "reward_std": 0.22474994510412216,
+      "rewards/accuracy_reward": 1.235817551612854,
+      "rewards/format_reward": 0.9921875,
+      "step": 465
+    },
+    {
+      "completion_length": 66.9609375,
+      "epoch": 5.614457831325301,
+      "grad_norm": 4.577684554062664,
+      "kl": 0.12451171875,
+      "learning_rate": 6.425702811244979e-08,
+      "loss": 0.005,
+      "reward": 2.2235909700393677,
+      "reward_std": 0.22441789507865906,
+      "rewards/accuracy_reward": 1.2392158508300781,
+      "rewards/format_reward": 0.984375,
+      "step": 466
+    },
+    {
+      "completion_length": 70.4375,
+      "epoch": 5.626506024096385,
+      "grad_norm": 4.349159327486559,
+      "kl": 0.112548828125,
+      "learning_rate": 6.224899598393573e-08,
+      "loss": 0.0045,
+      "reward": 2.3591808080673218,
+      "reward_std": 0.1966349333524704,
+      "rewards/accuracy_reward": 1.3669933080673218,
+      "rewards/format_reward": 0.9921875,
+      "step": 467
+    },
+    {
+      "completion_length": 69.4453125,
+      "epoch": 5.63855421686747,
+      "grad_norm": 3.0423100870405437,
+      "kl": 0.138671875,
+      "learning_rate": 6.024096385542168e-08,
+      "loss": 0.0055,
+      "reward": 2.4168301820755005,
+      "reward_std": 0.23313428461551666,
+      "rewards/accuracy_reward": 1.4246427416801453,
+      "rewards/format_reward": 0.9921875,
+      "step": 468
+    },
+    {
+      "completion_length": 67.9453125,
+      "epoch": 5.650602409638554,
+      "grad_norm": 4.8492295392656075,
+      "kl": 0.124755859375,
+      "learning_rate": 5.823293172690763e-08,
+      "loss": 0.005,
+      "reward": 2.3264076709747314,
+      "reward_std": 0.18676774948835373,
+      "rewards/accuracy_reward": 1.3264076709747314,
+      "rewards/format_reward": 1.0,
+      "step": 469
+    },
+    {
+      "completion_length": 68.3984375,
+      "epoch": 5.662650602409639,
+      "grad_norm": 3.7143887896006706,
+      "kl": 0.118896484375,
+      "learning_rate": 5.622489959839357e-08,
+      "loss": 0.0048,
+      "reward": 2.275146722793579,
+      "reward_std": 0.23441863059997559,
+      "rewards/accuracy_reward": 1.2907716631889343,
+      "rewards/format_reward": 0.984375,
+      "step": 470
+    },
+    {
+      "completion_length": 69.703125,
+      "epoch": 5.674698795180722,
+      "grad_norm": 6.421818895030251,
+      "kl": 0.105712890625,
+      "learning_rate": 5.421686746987952e-08,
+      "loss": 0.0042,
+      "reward": 2.3713172674179077,
+      "reward_std": 0.17046835273504257,
+      "rewards/accuracy_reward": 1.3713172674179077,
+      "rewards/format_reward": 1.0,
+      "step": 471
+    },
+    {
+      "completion_length": 71.7578125,
+      "epoch": 5.686746987951807,
+      "grad_norm": 3.7429303333646846,
+      "kl": 0.17333984375,
+      "learning_rate": 5.220883534136546e-08,
+      "loss": 0.0069,
+      "reward": 2.21248197555542,
+      "reward_std": 0.1897253841161728,
+      "rewards/accuracy_reward": 1.2202943563461304,
+      "rewards/format_reward": 0.9921875,
+      "step": 472
+    },
+    {
+      "completion_length": 66.0625,
+      "epoch": 5.698795180722891,
+      "grad_norm": 4.6125292648898375,
+      "kl": 0.1171875,
+      "learning_rate": 5.0200803212851406e-08,
+      "loss": 0.0047,
+      "reward": 2.3862085342407227,
+      "reward_std": 0.14106625318527222,
+      "rewards/accuracy_reward": 1.3940210938453674,
+      "rewards/format_reward": 0.9921875,
+      "step": 473
+    },
+    {
+      "completion_length": 71.4296875,
+      "epoch": 5.710843373493976,
+      "grad_norm": 4.192704287374918,
+      "kl": 0.108642578125,
+      "learning_rate": 4.8192771084337347e-08,
+      "loss": 0.0043,
+      "reward": 2.3476767539978027,
+      "reward_std": 0.20362288504838943,
+      "rewards/accuracy_reward": 1.3476767539978027,
+      "rewards/format_reward": 1.0,
+      "step": 474
+    },
+    {
+      "completion_length": 67.2109375,
+      "epoch": 5.72289156626506,
+      "grad_norm": 4.1447657242460645,
+      "kl": 0.1298828125,
+      "learning_rate": 4.618473895582329e-08,
+      "loss": 0.0052,
+      "reward": 2.266420602798462,
+      "reward_std": 0.2129717692732811,
+      "rewards/accuracy_reward": 1.2664207220077515,
+      "rewards/format_reward": 1.0,
+      "step": 475
+    },
+    {
+      "completion_length": 66.546875,
+      "epoch": 5.734939759036145,
+      "grad_norm": 3.4345215566799574,
+      "kl": 0.106201171875,
+      "learning_rate": 4.4176706827309234e-08,
+      "loss": 0.0042,
+      "reward": 2.352730870246887,
+      "reward_std": 0.1454787813127041,
+      "rewards/accuracy_reward": 1.3605434894561768,
+      "rewards/format_reward": 0.9921875,
+      "step": 476
+    },
+    {
+      "completion_length": 71.828125,
+      "epoch": 5.746987951807229,
+      "grad_norm": 4.187659893839478,
+      "kl": 0.111328125,
+      "learning_rate": 4.2168674698795174e-08,
+      "loss": 0.0045,
+      "reward": 2.2670211791992188,
+      "reward_std": 0.22116923332214355,
+      "rewards/accuracy_reward": 1.267021119594574,
+      "rewards/format_reward": 1.0,
+      "step": 477
+    },
+    {
+      "completion_length": 69.1875,
+      "epoch": 5.759036144578313,
+      "grad_norm": 3.8623536023281617,
+      "kl": 0.114013671875,
+      "learning_rate": 4.016064257028112e-08,
+      "loss": 0.0046,
+      "reward": 2.222132921218872,
+      "reward_std": 0.23479964584112167,
+      "rewards/accuracy_reward": 1.2221328020095825,
+      "rewards/format_reward": 1.0,
+      "step": 478
+    },
+    {
+      "completion_length": 70.9296875,
+      "epoch": 5.771084337349397,
+      "grad_norm": 4.262446208684037,
+      "kl": 0.09375,
+      "learning_rate": 3.815261044176707e-08,
+      "loss": 0.0037,
+      "reward": 2.2334243059158325,
+      "reward_std": 0.21778832376003265,
+      "rewards/accuracy_reward": 1.2334243059158325,
+      "rewards/format_reward": 1.0,
+      "step": 479
+    },
+    {
+      "completion_length": 68.2421875,
+      "epoch": 5.783132530120482,
+      "grad_norm": 3.475197673617196,
+      "kl": 0.10595703125,
+      "learning_rate": 3.614457831325301e-08,
+      "loss": 0.0042,
+      "reward": 2.4461944103240967,
+      "reward_std": 0.21106188744306564,
+      "rewards/accuracy_reward": 1.4540069103240967,
+      "rewards/format_reward": 0.9921875,
+      "step": 480
+    },
+    {
+      "completion_length": 70.3671875,
+      "epoch": 5.795180722891566,
+      "grad_norm": 4.56883704942929,
+      "kl": 0.11865234375,
+      "learning_rate": 3.4136546184738955e-08,
+      "loss": 0.0047,
+      "reward": 2.441108226776123,
+      "reward_std": 0.2091435343027115,
+      "rewards/accuracy_reward": 1.441108226776123,
+      "rewards/format_reward": 1.0,
+      "step": 481
+    },
+    {
+      "completion_length": 69.171875,
+      "epoch": 5.807228915662651,
+      "grad_norm": 3.959761896565078,
+      "kl": 0.12451171875,
+      "learning_rate": 3.2128514056224896e-08,
+      "loss": 0.005,
+      "reward": 2.3847368955612183,
+      "reward_std": 0.14646587148308754,
+      "rewards/accuracy_reward": 1.3847368359565735,
+      "rewards/format_reward": 1.0,
+      "step": 482
+    },
+    {
+      "completion_length": 75.3125,
+      "epoch": 5.8192771084337345,
+      "grad_norm": 4.6238410926161855,
+      "kl": 0.108642578125,
+      "learning_rate": 3.012048192771084e-08,
+      "loss": 0.0043,
+      "reward": 2.2356351613998413,
+      "reward_std": 0.3032216280698776,
+      "rewards/accuracy_reward": 1.2434476613998413,
+      "rewards/format_reward": 0.9921875,
+      "step": 483
+    },
+    {
+      "completion_length": 70.921875,
+      "epoch": 5.831325301204819,
+      "grad_norm": 4.963499305554948,
+      "kl": 0.082275390625,
+      "learning_rate": 2.8112449799196786e-08,
+      "loss": 0.0033,
+      "reward": 2.3230150938034058,
+      "reward_std": 0.16892920434474945,
+      "rewards/accuracy_reward": 1.3230149745941162,
+      "rewards/format_reward": 1.0,
+      "step": 484
+    },
+    {
+      "completion_length": 69.3359375,
+      "epoch": 5.843373493975903,
+      "grad_norm": 4.069771837808966,
+      "kl": 0.1396484375,
+      "learning_rate": 2.610441767068273e-08,
+      "loss": 0.0056,
+      "reward": 2.327863335609436,
+      "reward_std": 0.23238816112279892,
+      "rewards/accuracy_reward": 1.3434883952140808,
+      "rewards/format_reward": 0.984375,
+      "step": 485
+    },
+    {
+      "completion_length": 68.875,
+      "epoch": 5.855421686746988,
+      "grad_norm": 4.471391988945464,
+      "kl": 0.13330078125,
+      "learning_rate": 2.4096385542168673e-08,
+      "loss": 0.0053,
+      "reward": 2.331111192703247,
+      "reward_std": 0.1987084299325943,
+      "rewards/accuracy_reward": 1.3389237523078918,
+      "rewards/format_reward": 0.9921875,
+      "step": 486
+    },
+    {
+      "completion_length": 72.2734375,
+      "epoch": 5.867469879518072,
+      "grad_norm": 4.3661266337784514,
+      "kl": 0.128173828125,
+      "learning_rate": 2.2088353413654617e-08,
+      "loss": 0.0051,
+      "reward": 2.2740135192871094,
+      "reward_std": 0.17679665982723236,
+      "rewards/accuracy_reward": 1.2740132808685303,
+      "rewards/format_reward": 1.0,
+      "step": 487
+    },
+    {
+      "completion_length": 69.328125,
+      "epoch": 5.879518072289157,
+      "grad_norm": 4.78815312664634,
+      "kl": 0.150634765625,
+      "learning_rate": 2.008032128514056e-08,
+      "loss": 0.006,
+      "reward": 2.2422866821289062,
+      "reward_std": 0.23693696409463882,
+      "rewards/accuracy_reward": 1.2422866821289062,
+      "rewards/format_reward": 1.0,
+      "step": 488
+    },
+    {
+      "completion_length": 71.4140625,
+      "epoch": 5.891566265060241,
+      "grad_norm": 6.245102077972556,
+      "kl": 0.121826171875,
+      "learning_rate": 1.8072289156626504e-08,
+      "loss": 0.0049,
+      "reward": 2.315194010734558,
+      "reward_std": 0.1885218769311905,
+      "rewards/accuracy_reward": 1.3230066299438477,
+      "rewards/format_reward": 0.9921875,
+      "step": 489
+    },
+    {
+      "completion_length": 63.8984375,
+      "epoch": 5.903614457831325,
+      "grad_norm": 4.510763484461414,
+      "kl": 0.122314453125,
+      "learning_rate": 1.6064257028112448e-08,
+      "loss": 0.0049,
+      "reward": 2.3149102926254272,
+      "reward_std": 0.1639706939458847,
+      "rewards/accuracy_reward": 1.3149102926254272,
+      "rewards/format_reward": 1.0,
+      "step": 490
+    },
+    {
+      "completion_length": 66.0,
+      "epoch": 5.9156626506024095,
+      "grad_norm": 4.091329557372317,
+      "kl": 0.1435546875,
+      "learning_rate": 1.4056224899598393e-08,
+      "loss": 0.0058,
+      "reward": 2.4370064735412598,
+      "reward_std": 0.15971215814352036,
+      "rewards/accuracy_reward": 1.4370064735412598,
+      "rewards/format_reward": 1.0,
+      "step": 491
+    },
+    {
+      "completion_length": 70.484375,
+      "epoch": 5.927710843373494,
+      "grad_norm": 4.3856574896033305,
+      "kl": 0.155029296875,
+      "learning_rate": 1.2048192771084337e-08,
+      "loss": 0.0062,
+      "reward": 2.351839542388916,
+      "reward_std": 0.2616487815976143,
+      "rewards/accuracy_reward": 1.359652042388916,
+      "rewards/format_reward": 0.9921875,
+      "step": 492
+    },
+    {
+      "completion_length": 74.171875,
+      "epoch": 5.9397590361445785,
+      "grad_norm": 3.3373281083458974,
+      "kl": 0.107177734375,
+      "learning_rate": 1.004016064257028e-08,
+      "loss": 0.0043,
+      "reward": 2.3034894466400146,
+      "reward_std": 0.12144535779953003,
+      "rewards/accuracy_reward": 1.3113019466400146,
+      "rewards/format_reward": 0.9921875,
+      "step": 493
+    },
+    {
+      "completion_length": 72.8515625,
+      "epoch": 5.951807228915663,
+      "grad_norm": 3.3157754210190773,
+      "kl": 0.097412109375,
+      "learning_rate": 8.032128514056224e-09,
+      "loss": 0.0039,
+      "reward": 2.421133041381836,
+      "reward_std": 0.16620434820652008,
+      "rewards/accuracy_reward": 1.421133041381836,
+      "rewards/format_reward": 1.0,
+      "step": 494
+    },
+    {
+      "completion_length": 76.1328125,
+      "epoch": 5.9638554216867465,
+      "grad_norm": 3.788575194538334,
+      "kl": 0.12158203125,
+      "learning_rate": 6.024096385542168e-09,
+      "loss": 0.0049,
+      "reward": 2.3588104248046875,
+      "reward_std": 0.1766229048371315,
+      "rewards/accuracy_reward": 1.358810544013977,
+      "rewards/format_reward": 1.0,
+      "step": 495
+    },
+    {
+      "completion_length": 71.515625,
+      "epoch": 5.975903614457831,
+      "grad_norm": 4.2730966058785835,
+      "kl": 0.11962890625,
+      "learning_rate": 4.016064257028112e-09,
+      "loss": 0.0048,
+      "reward": 2.3155951499938965,
+      "reward_std": 0.25304850190877914,
+      "rewards/accuracy_reward": 1.3234076499938965,
+      "rewards/format_reward": 0.9921875,
+      "step": 496
+    },
+    {
+      "completion_length": 68.859375,
+      "epoch": 5.9879518072289155,
+      "grad_norm": 4.371956801820215,
+      "kl": 0.119140625,
+      "learning_rate": 2.008032128514056e-09,
+      "loss": 0.0048,
+      "reward": 2.3737374544143677,
+      "reward_std": 0.20605729520320892,
+      "rewards/accuracy_reward": 1.373737394809723,
+      "rewards/format_reward": 1.0,
+      "step": 497
+    },
+    {
+      "completion_length": 60.75000190734863,
+      "epoch": 6.0,
+      "grad_norm": 3.9720317304626964,
+      "kl": 0.1171875,
+      "learning_rate": 0.0,
+      "loss": 0.0046,
+      "reward": 2.4247955083847046,
+      "reward_std": 0.17968511581420898,
+      "rewards/accuracy_reward": 1.4247953295707703,
+      "rewards/format_reward": 1.0,
+      "step": 498
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 498,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}