zoeye123
/

DeepSeek-R1-Distill-Qwen-1.5B-GRPO

@@ -1,11 +1,9 @@
 ---
 base_model: deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
-datasets: open-r1/OpenR1-Math-220k
 library_name: transformers
 model_name: DeepSeek-R1-Distill-Qwen-1.5B-GRPO
 tags:
 - generated_from_trainer
-- open-r1
 - trl
 - grpo
 licence: license
@@ -13,7 +11,7 @@ licence: license
 # Model Card for DeepSeek-R1-Distill-Qwen-1.5B-GRPO
-This model is a fine-tuned version of [deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B) on the [open-r1/OpenR1-Math-220k](https://huggingface.co/datasets/open-r1/OpenR1-Math-220k) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -29,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yeshugno-microsoft/huggingface/runs/x9spl3vt)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

 ---
 base_model: deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
 library_name: transformers
 model_name: DeepSeek-R1-Distill-Qwen-1.5B-GRPO
 tags:
 - generated_from_trainer
 - trl
 - grpo
 licence: license
 # Model Card for DeepSeek-R1-Distill-Qwen-1.5B-GRPO
+This model is a fine-tuned version of [deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yeshugno-microsoft/huggingface/runs/0cfrj5s4)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.7939677238464355e-09,
-    "train_runtime": 254.4903,
-    "train_samples": 10,
-    "train_samples_per_second": 0.039,
-    "train_steps_per_second": 0.008
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.0003328805177226313,
+    "train_runtime": 21588.6366,
+    "train_samples": 1000,
+    "train_samples_per_second": 0.046,
+    "train_steps_per_second": 0.006
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.7939677238464355e-09,
-    "train_runtime": 254.4903,
-    "train_samples": 10,
-    "train_samples_per_second": 0.039,
-    "train_steps_per_second": 0.008
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.0003328805177226313,
+    "train_runtime": 21588.6366,
+    "train_samples": 1000,
+    "train_samples_per_second": 0.046,
+    "train_steps_per_second": 0.006
 }

trainer_state.json CHANGED Viewed

@@ -1,51 +1,1650 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8,
   "eval_steps": 500,
-  "global_step": 2,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 1842.03125,
-      "epoch": 0.4,
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 0.0,
       "loss": 0.0,
-      "reward": 0.125,
-      "reward_std": 0.13363061845302582,
-      "rewards/accuracy_reward": 0.125,
       "rewards/format_reward": 0.0,
       "step": 1
     },
     {
-      "completion_length": 1805.84375,
-      "epoch": 0.8,
       "grad_norm": 0.0,
       "kl": 0.0,
-      "learning_rate": 0.0,
       "loss": 0.0,
-      "reward": 0.125,
-      "reward_std": 0.13363061845302582,
-      "rewards/accuracy_reward": 0.125,
       "rewards/format_reward": 0.0,
       "step": 2
     },
     {
       "epoch": 0.8,
-      "step": 2,
       "total_flos": 0.0,
-      "train_loss": 2.7939677238464355e-09,
-      "train_runtime": 254.4903,
-      "train_samples_per_second": 0.039,
-      "train_steps_per_second": 0.008
     }
   ],
   "logging_steps": 1,
-  "max_steps": 2,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 125,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 1721.0417022705078,
+      "epoch": 0.008,
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 0.0,
       "loss": 0.0,
+      "reward": 0.17708333488553762,
+      "reward_std": 0.09763014316558838,
+      "rewards/accuracy_reward": 0.17708333488553762,
       "rewards/format_reward": 0.0,
       "step": 1
     },
     {
+      "completion_length": 1944.875015258789,
+      "epoch": 0.016,
       "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 7.692307692307692e-08,
       "loss": 0.0,
+      "reward": 0.09375,
+      "reward_std": 0.05653337761759758,
+      "rewards/accuracy_reward": 0.09375,
       "rewards/format_reward": 0.0,
       "step": 2
     },
     {
+      "completion_length": 1621.6250228881836,
+      "epoch": 0.024,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.692307692307692e-08,
+      "loss": 0.0,
+      "reward": 0.14583333861082792,
+      "reward_std": 0.16199623048305511,
+      "rewards/accuracy_reward": 0.14583333861082792,
+      "rewards/format_reward": 0.0,
+      "step": 3
+    },
+    {
+      "completion_length": 1667.333351135254,
+      "epoch": 0.032,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.692307692307692e-08,
+      "loss": 0.0,
+      "reward": 0.09375000558793545,
+      "reward_std": 0.11302226781845093,
+      "rewards/accuracy_reward": 0.0729166716337204,
+      "rewards/format_reward": 0.02083333395421505,
+      "step": 4
+    },
+    {
+      "completion_length": 1555.8854598999023,
+      "epoch": 0.04,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 1.5384615384615385e-07,
+      "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.06527911871671677,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/format_reward": 0.0,
+      "step": 5
+    },
+    {
+      "completion_length": 1598.6354522705078,
+      "epoch": 0.048,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 2.3076923076923078e-07,
+      "loss": 0.0,
+      "reward": 0.06250000186264515,
+      "reward_std": 0.11020193248987198,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/format_reward": 0.02083333395421505,
+      "step": 6
+    },
+    {
+      "completion_length": 1771.7916870117188,
+      "epoch": 0.056,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.076923076923077e-07,
+      "loss": 0.0,
+      "reward": 0.0520833358168602,
+      "reward_std": 0.06436608731746674,
+      "rewards/accuracy_reward": 0.0520833358168602,
+      "rewards/format_reward": 0.0,
+      "step": 7
+    },
+    {
+      "completion_length": 1735.2916870117188,
+      "epoch": 0.064,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 3.8461538461538463e-07,
+      "loss": 0.0,
+      "reward": 0.07291666977107525,
+      "reward_std": 0.11302226781845093,
+      "rewards/accuracy_reward": 0.07291666977107525,
+      "rewards/format_reward": 0.0,
+      "step": 8
+    },
+    {
+      "completion_length": 1848.2916870117188,
+      "epoch": 0.072,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.6153846153846156e-07,
+      "loss": -0.0,
+      "reward": 0.010416666977107525,
+      "reward_std": 0.03608439117670059,
+      "rewards/accuracy_reward": 0.010416666977107525,
+      "rewards/format_reward": 0.0,
+      "step": 9
+    },
+    {
+      "completion_length": 1668.5312805175781,
+      "epoch": 0.08,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.6153846153846156e-07,
+      "loss": 0.0,
+      "reward": 0.08333333674818277,
+      "reward_std": 0.14910665899515152,
+      "rewards/accuracy_reward": 0.08333333674818277,
+      "rewards/format_reward": 0.0,
+      "step": 10
+    },
+    {
+      "completion_length": 1871.9687805175781,
+      "epoch": 0.088,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.384615384615384e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 0.0,
+      "step": 11
+    },
+    {
+      "completion_length": 1863.7500305175781,
+      "epoch": 0.096,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 5.384615384615384e-07,
+      "loss": 0.0,
+      "reward": 0.02083333395421505,
+      "reward_std": 0.07216878235340118,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/format_reward": 0.0,
+      "step": 12
+    },
+    {
+      "completion_length": 1803.5104370117188,
+      "epoch": 0.104,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.153846153846154e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 0.0,
+      "step": 13
+    },
+    {
+      "completion_length": 1560.7708587646484,
+      "epoch": 0.112,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.923076923076922e-07,
+      "loss": -0.0,
+      "reward": 0.14583333395421505,
+      "reward_std": 0.04865618050098419,
+      "rewards/accuracy_reward": 0.14583333395421505,
+      "rewards/format_reward": 0.0,
+      "step": 14
+    },
+    {
+      "completion_length": 1918.3646087646484,
+      "epoch": 0.12,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.923076923076922e-07,
+      "loss": -0.0,
+      "reward": 0.22916666697710752,
+      "reward_std": 0.15789688751101494,
+      "rewards/accuracy_reward": 0.22916666697710752,
+      "rewards/format_reward": 0.0,
+      "step": 15
+    },
+    {
+      "completion_length": 1745.6458740234375,
+      "epoch": 0.128,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 6.923076923076922e-07,
+      "loss": -0.0,
+      "reward": 0.18750000093132257,
+      "reward_std": 0.14127394929528236,
+      "rewards/accuracy_reward": 0.18750000093132257,
+      "rewards/format_reward": 0.0,
+      "step": 16
+    },
+    {
+      "completion_length": 1737.7812728881836,
+      "epoch": 0.136,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.692307692307693e-07,
+      "loss": 0.0,
+      "reward": 0.0416666679084301,
+      "reward_std": 0.06154575198888779,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 0.010416666977107525,
+      "step": 17
+    },
+    {
+      "completion_length": 1527.2917175292969,
+      "epoch": 0.144,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 7.692307692307693e-07,
+      "loss": -0.0,
+      "reward": 0.3958333348855376,
+      "reward_std": 0.21344273164868355,
+      "rewards/accuracy_reward": 0.3854166679084301,
+      "rewards/format_reward": 0.010416666977107525,
+      "step": 18
+    },
+    {
+      "completion_length": 1783.3958587646484,
+      "epoch": 0.152,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.461538461538461e-07,
+      "loss": 0.0,
+      "reward": 0.13541666697710752,
+      "reward_std": 0.03608439117670059,
+      "rewards/accuracy_reward": 0.13541666697710752,
+      "rewards/format_reward": 0.0,
+      "step": 19
+    },
+    {
+      "completion_length": 1755.5208740234375,
+      "epoch": 0.16,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.461538461538461e-07,
+      "loss": 0.0,
+      "reward": 0.23958333674818277,
+      "reward_std": 0.16979892551898956,
+      "rewards/accuracy_reward": 0.22916666977107525,
+      "rewards/format_reward": 0.010416666977107525,
+      "step": 20
+    },
+    {
+      "completion_length": 1797.2083740234375,
+      "epoch": 0.168,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.461538461538461e-07,
+      "loss": -0.0,
+      "reward": 0.05208333395421505,
+      "reward_std": 0.10518955811858177,
+      "rewards/accuracy_reward": 0.05208333395421505,
+      "rewards/format_reward": 0.0,
+      "step": 21
+    },
+    {
+      "completion_length": 1737.2916717529297,
+      "epoch": 0.176,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 8.461538461538461e-07,
+      "loss": 0.0,
+      "reward": 0.07291666883975267,
+      "reward_std": 0.14628632366657257,
+      "rewards/accuracy_reward": 0.06250000093132257,
+      "rewards/format_reward": 0.010416666977107525,
+      "step": 22
+    },
+    {
+      "completion_length": 1865.281265258789,
+      "epoch": 0.184,
+      "grad_norm": 0.07227283716201782,
+      "kl": 0.0,
+      "learning_rate": 9.230769230769231e-07,
+      "loss": 0.0,
+      "reward": 0.052083334885537624,
+      "reward_std": 0.09763014316558838,
+      "rewards/accuracy_reward": 0.052083334885537624,
+      "rewards/format_reward": 0.0,
+      "step": 23
+    },
+    {
+      "completion_length": 1721.583351135254,
+      "epoch": 0.192,
+      "grad_norm": 3.1304349249694496e-05,
+      "kl": -7.547438144683838e-06,
+      "learning_rate": 1e-06,
+      "loss": -0.0,
+      "reward": 0.06250000279396772,
+      "reward_std": 0.10045047849416733,
+      "rewards/accuracy_reward": 0.0520833358168602,
+      "rewards/format_reward": 0.010416666977107525,
+      "step": 24
+    },
+    {
+      "completion_length": 1667.0521240234375,
+      "epoch": 0.2,
+      "grad_norm": 0.057344950735569,
+      "kl": -7.309019565582275e-06,
+      "learning_rate": 9.998229818723738e-07,
+      "loss": -0.0,
+      "reward": 0.1041666716337204,
+      "reward_std": 0.14010312780737877,
+      "rewards/accuracy_reward": 0.09375,
+      "rewards/format_reward": 0.010416666977107525,
+      "step": 25
+    },
+    {
+      "completion_length": 1752.8021240234375,
+      "epoch": 0.208,
+      "grad_norm": 0.11655361950397491,
+      "kl": -9.395182132720947e-06,
+      "learning_rate": 9.992920667580175e-07,
+      "loss": -0.0,
+      "reward": 0.26041667349636555,
+      "reward_std": 0.17456801980733871,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/format_reward": 0.031250000931322575,
+      "step": 26
+    },
+    {
+      "completion_length": 1865.9167175292969,
+      "epoch": 0.216,
+      "grad_norm": 0.0001482899097027257,
+      "kl": -1.2703239917755127e-05,
+      "learning_rate": 9.984076723529287e-07,
+      "loss": -0.0,
+      "reward": 0.13541666697710752,
+      "reward_std": 0.03608439117670059,
+      "rewards/accuracy_reward": 0.13541666697710752,
+      "rewards/format_reward": 0.0,
+      "step": 27
+    },
+    {
+      "completion_length": 1667.031265258789,
+      "epoch": 0.224,
+      "grad_norm": 0.00021164790086913854,
+      "kl": -1.093745231628418e-05,
+      "learning_rate": 9.971704944519593e-07,
+      "loss": -0.0,
+      "reward": 0.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 0.0,
+      "step": 28
+    },
+    {
+      "completion_length": 1666.7812805175781,
+      "epoch": 0.232,
+      "grad_norm": 0.000568240531720221,
+      "kl": -7.115304470062256e-06,
+      "learning_rate": 9.955815064014005e-07,
+      "loss": -0.0,
+      "reward": 0.031250000931322575,
+      "reward_std": 0.08474057912826538,
+      "rewards/accuracy_reward": 0.031250000931322575,
+      "rewards/format_reward": 0.0,
+      "step": 29
+    },
+    {
+      "completion_length": 1486.2187881469727,
+      "epoch": 0.24,
+      "grad_norm": 0.1216636374592781,
+      "kl": -4.678964614868164e-06,
+      "learning_rate": 9.93641958333206e-07,
+      "loss": -0.0,
+      "reward": 0.2187500037252903,
+      "reward_std": 0.24490400031208992,
+      "rewards/accuracy_reward": 0.2187500037252903,
+      "rewards/format_reward": 0.0,
+      "step": 30
+    },
+    {
+      "completion_length": 1651.020866394043,
+      "epoch": 0.248,
+      "grad_norm": 0.09538763761520386,
+      "kl": -6.183981895446777e-07,
+      "learning_rate": 9.913533761814537e-07,
+      "loss": -0.0,
+      "reward": 0.041666666977107525,
+      "reward_std": 0.09261776879429817,
+      "rewards/accuracy_reward": 0.041666666977107525,
+      "rewards/format_reward": 0.0,
+      "step": 31
+    },
+    {
+      "completion_length": 1917.9375305175781,
+      "epoch": 0.256,
+      "grad_norm": 0.056192267686128616,
+      "kl": 3.120303153991699e-05,
+      "learning_rate": 9.887175604818206e-07,
+      "loss": 0.0,
+      "reward": 0.15625000093132257,
+      "reward_std": 0.10825317353010178,
+      "rewards/accuracy_reward": 0.14583333395421505,
+      "rewards/format_reward": 0.010416666977107525,
+      "step": 32
+    },
+    {
+      "completion_length": 1721.8646087646484,
+      "epoch": 0.264,
+      "grad_norm": 0.0013622839469462633,
+      "kl": 5.451589822769165e-05,
+      "learning_rate": 9.857365849550177e-07,
+      "loss": 0.0,
+      "reward": 0.13541666697710752,
+      "reward_std": 0.03608439117670059,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/format_reward": 0.010416666977107525,
+      "step": 33
+    },
+    {
+      "completion_length": 1964.8750305175781,
+      "epoch": 0.272,
+      "grad_norm": 0.0009671057923696935,
+      "kl": 6.0245394706726074e-05,
+      "learning_rate": 9.824127948752948e-07,
+      "loss": 0.0,
+      "reward": 0.02083333395421505,
+      "reward_std": 0.07216878235340118,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/format_reward": 0.0,
+      "step": 34
+    },
+    {
+      "completion_length": 1607.7708587646484,
+      "epoch": 0.28,
+      "grad_norm": 0.11371063441038132,
+      "kl": 6.452202796936035e-05,
+      "learning_rate": 9.787488052253033e-07,
+      "loss": 0.0,
+      "reward": 0.041666666977107525,
+      "reward_std": 0.09261776879429817,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/format_reward": 0.02083333395421505,
+      "step": 35
+    },
+    {
+      "completion_length": 1803.7500305175781,
+      "epoch": 0.288,
+      "grad_norm": 0.0009732124162837863,
+      "kl": 0.00013828277587890625,
+      "learning_rate": 9.747474986387654e-07,
+      "loss": 0.0,
+      "reward": 0.19791666697710752,
+      "reward_std": 0.10136350989341736,
+      "rewards/accuracy_reward": 0.19791666697710752,
+      "rewards/format_reward": 0.0,
+      "step": 36
+    },
+    {
+      "completion_length": 1660.7292175292969,
+      "epoch": 0.296,
+      "grad_norm": 0.054171618074178696,
+      "kl": 0.000163249671459198,
+      "learning_rate": 9.7041202313257e-07,
+      "loss": 0.0,
+      "reward": 0.19791666977107525,
+      "reward_std": 0.15001969039440155,
+      "rewards/accuracy_reward": 0.16666666977107525,
+      "rewards/format_reward": 0.03125,
+      "step": 37
+    },
+    {
+      "completion_length": 1631.750015258789,
+      "epoch": 0.304,
+      "grad_norm": 0.10330933332443237,
+      "kl": 0.0003886893391609192,
+      "learning_rate": 9.657457896300791e-07,
+      "loss": 0.0,
+      "reward": 0.25000000558793545,
+      "reward_std": 0.16188634932041168,
+      "rewards/accuracy_reward": 0.21875000279396772,
+      "rewards/format_reward": 0.031250000931322575,
+      "step": 38
+    },
+    {
+      "completion_length": 1778.6041946411133,
+      "epoch": 0.312,
+      "grad_norm": 0.0016962133813649416,
+      "kl": 0.00030538439750671387,
+      "learning_rate": 9.607524692775935e-07,
+      "loss": 0.0,
+      "reward": 0.02083333395421505,
+      "reward_std": 0.04865618795156479,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/format_reward": 0.0,
+      "step": 39
+    },
+    {
+      "completion_length": 1545.9167175292969,
+      "epoch": 0.32,
+      "grad_norm": 0.050718892365694046,
+      "kl": 0.0006757676601409912,
+      "learning_rate": 9.554359905560885e-07,
+      "loss": 0.0,
+      "reward": 0.33333334140479565,
+      "reward_std": 0.27968307584524155,
+      "rewards/accuracy_reward": 0.33333334140479565,
+      "rewards/format_reward": 0.0,
+      "step": 40
+    },
+    {
+      "completion_length": 1609.9271087646484,
+      "epoch": 0.328,
+      "grad_norm": 0.11008451133966446,
+      "kl": 0.0004702061414718628,
+      "learning_rate": 9.498005361904924e-07,
+      "loss": 0.0,
+      "reward": 0.1145833358168602,
+      "reward_std": 0.21539149060845375,
+      "rewards/accuracy_reward": 0.06250000186264515,
+      "rewards/format_reward": 0.05208333395421505,
+      "step": 41
+    },
+    {
+      "completion_length": 1728.614616394043,
+      "epoch": 0.336,
+      "grad_norm": 0.09986075758934021,
+      "kl": 0.0009259581565856934,
+      "learning_rate": 9.438505398589392e-07,
+      "loss": 0.0,
+      "reward": 0.08333333488553762,
+      "reward_std": 0.15416352078318596,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/format_reward": 0.041666666977107525,
+      "step": 42
+    },
+    {
+      "completion_length": 1522.0312728881836,
+      "epoch": 0.344,
+      "grad_norm": 0.06469858437776566,
+      "kl": 0.0012334585189819336,
+      "learning_rate": 9.37590682704584e-07,
+      "loss": 0.0,
+      "reward": 0.21875000093132257,
+      "reward_std": 0.15001969039440155,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 0.031250000931322575,
+      "step": 43
+    },
+    {
+      "completion_length": 1845.1875305175781,
+      "epoch": 0.352,
+      "grad_norm": 0.05903354659676552,
+      "kl": 0.0015518367290496826,
+      "learning_rate": 9.310258896527278e-07,
+      "loss": 0.0001,
+      "reward": 0.11458333674818277,
+      "reward_std": 0.20783207565546036,
+      "rewards/accuracy_reward": 0.08333333395421505,
+      "rewards/format_reward": 0.031250000931322575,
+      "step": 44
+    },
+    {
+      "completion_length": 1626.8541793823242,
+      "epoch": 0.36,
+      "grad_norm": 0.002270436380058527,
+      "kl": 0.0011032521724700928,
+      "learning_rate": 9.241613255361454e-07,
+      "loss": 0.0,
+      "reward": 0.0833333358168602,
+      "reward_std": 0.12089946493506432,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 0.0833333358168602,
+      "step": 45
+    },
+    {
+      "completion_length": 1350.5729446411133,
+      "epoch": 0.368,
+      "grad_norm": 0.08985026180744171,
+      "kl": 0.0012712180614471436,
+      "learning_rate": 9.17002391031667e-07,
+      "loss": 0.0001,
+      "reward": 0.3541666753590107,
+      "reward_std": 0.3032701872289181,
+      "rewards/accuracy_reward": 0.2812500046566129,
+      "rewards/format_reward": 0.07291666697710752,
+      "step": 46
+    },
+    {
+      "completion_length": 1617.0312728881836,
+      "epoch": 0.376,
+      "grad_norm": 0.0014874560292810202,
+      "kl": 0.0019048452377319336,
+      "learning_rate": 9.095547184112122e-07,
+      "loss": 0.0001,
+      "reward": 0.0729166679084301,
+      "reward_std": 0.17735834792256355,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/format_reward": 0.05208333395421505,
+      "step": 47
+    },
+    {
+      "completion_length": 1839.6146087646484,
+      "epoch": 0.384,
+      "grad_norm": 0.05115436390042305,
+      "kl": 0.00142669677734375,
+      "learning_rate": 9.018241671106134e-07,
+      "loss": 0.0001,
+      "reward": 0.1145833395421505,
+      "reward_std": 0.18088211119174957,
+      "rewards/accuracy_reward": 0.09375000093132257,
+      "rewards/format_reward": 0.02083333395421505,
+      "step": 48
+    },
+    {
+      "completion_length": 1270.8229370117188,
+      "epoch": 0.392,
+      "grad_norm": 0.09885463118553162,
+      "kl": 0.001969635486602783,
+      "learning_rate": 8.938168191197233e-07,
+      "loss": 0.0001,
+      "reward": 0.4583333423361182,
+      "reward_std": 0.2759315297007561,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/format_reward": 0.06250000186264515,
+      "step": 49
+    },
+    {
+      "completion_length": 1280.7396087646484,
+      "epoch": 0.4,
+      "grad_norm": 0.10244077444076538,
+      "kl": 0.008331120014190674,
+      "learning_rate": 8.855389741974244e-07,
+      "loss": 0.0003,
+      "reward": 0.33333334513008595,
+      "reward_std": 0.2721981704235077,
+      "rewards/accuracy_reward": 0.21875000838190317,
+      "rewards/format_reward": 0.11458333674818277,
+      "step": 50
+    },
+    {
+      "completion_length": 1760.2396240234375,
+      "epoch": 0.408,
+      "grad_norm": 0.15419930219650269,
+      "kl": 0.001972787082195282,
+      "learning_rate": 8.769971449153122e-07,
+      "loss": 0.0001,
+      "reward": 0.22916667349636555,
+      "reward_std": 0.20281970128417015,
+      "rewards/accuracy_reward": 0.18750000186264515,
+      "rewards/format_reward": 0.0416666679084301,
+      "step": 51
+    },
+    {
+      "completion_length": 1589.5937728881836,
+      "epoch": 0.416,
+      "grad_norm": 0.08847062289714813,
+      "kl": 0.00470280647277832,
+      "learning_rate": 8.681980515339463e-07,
+      "loss": 0.0002,
+      "reward": 0.2083333395421505,
+      "reward_std": 0.15885811299085617,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/format_reward": 0.0833333358168602,
+      "step": 52
+    },
+    {
+      "completion_length": 1216.8437843322754,
+      "epoch": 0.424,
+      "grad_norm": 0.09562092274427414,
+      "kl": 0.0038253068923950195,
+      "learning_rate": 8.591486167157057e-07,
+      "loss": 0.0002,
+      "reward": 0.32291668094694614,
+      "reward_std": 0.4110877886414528,
+      "rewards/accuracy_reward": 0.2187500074505806,
+      "rewards/format_reward": 0.10416666883975267,
+      "step": 53
+    },
+    {
+      "completion_length": 1607.8125381469727,
+      "epoch": 0.432,
+      "grad_norm": 0.09562092274427414,
+      "kl": 0.0024794340133666992,
+      "learning_rate": 8.591486167157057e-07,
+      "loss": 0.0001,
+      "reward": 0.40625000931322575,
+      "reward_std": 0.29860204458236694,
+      "rewards/accuracy_reward": 0.2916666716337204,
+      "rewards/format_reward": 0.11458333488553762,
+      "step": 54
+    },
+    {
+      "completion_length": 1466.2187728881836,
+      "epoch": 0.44,
+      "grad_norm": 0.12597741186618805,
+      "kl": 0.0032531023025512695,
+      "learning_rate": 8.498559600784018e-07,
+      "loss": 0.0001,
+      "reward": 0.10416666883975267,
+      "reward_std": 0.28561151400208473,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 0.07291666883975267,
+      "step": 55
+    },
+    {
+      "completion_length": 1158.5313034057617,
+      "epoch": 0.448,
+      "grad_norm": 0.1452835649251938,
+      "kl": 0.007259368896484375,
+      "learning_rate": 8.403273925939395e-07,
+      "loss": 0.0003,
+      "reward": 0.43750000838190317,
+      "reward_std": 0.32371916621923447,
+      "rewards/accuracy_reward": 0.2604166669771075,
+      "rewards/format_reward": 0.17708333767950535,
+      "step": 56
+    },
+    {
+      "completion_length": 1328.3958587646484,
+      "epoch": 0.456,
+      "grad_norm": 0.0959007516503334,
+      "kl": 0.012780427932739258,
+      "learning_rate": 8.305704108364301e-07,
+      "loss": 0.0005,
+      "reward": 0.4062500111758709,
+      "reward_std": 0.37512117996811867,
+      "rewards/accuracy_reward": 0.22916667442768812,
+      "rewards/format_reward": 0.17708333674818277,
+      "step": 57
+    },
+    {
+      "completion_length": 1199.7917022705078,
+      "epoch": 0.464,
+      "grad_norm": 0.053846701979637146,
+      "kl": 0.006056308746337891,
+      "learning_rate": 8.205926910842825e-07,
+      "loss": 0.0002,
+      "reward": 0.4791666716337204,
+      "reward_std": 0.30927008762955666,
+      "rewards/accuracy_reward": 0.19791667442768812,
+      "rewards/format_reward": 0.2812500037252903,
+      "step": 58
+    },
+    {
+      "completion_length": 1548.4062805175781,
+      "epoch": 0.472,
+      "grad_norm": 0.15665732324123383,
+      "kl": 0.0060198307037353516,
+      "learning_rate": 8.104020832809126e-07,
+      "loss": 0.0002,
+      "reward": 0.4166666865348816,
+      "reward_std": 0.37532175332307816,
+      "rewards/accuracy_reward": 0.3020833432674408,
+      "rewards/format_reward": 0.11458333674818277,
+      "step": 59
+    },
+    {
+      "completion_length": 1357.1250457763672,
+      "epoch": 0.48,
+      "grad_norm": 0.17250967025756836,
+      "kl": 0.005661368370056152,
+      "learning_rate": 8.00006604858821e-07,
+      "loss": 0.0002,
+      "reward": 0.42708334419876337,
+      "reward_std": 0.44033083319664,
+      "rewards/accuracy_reward": 0.1458333358168602,
+      "rewards/format_reward": 0.28125000838190317,
+      "step": 60
+    },
+    {
+      "completion_length": 1528.5104598999023,
+      "epoch": 0.488,
+      "grad_norm": 0.39410439133644104,
+      "kl": 0.012995481491088867,
+      "learning_rate": 7.894144344319013e-07,
+      "loss": 0.0005,
+      "reward": 0.33333334140479565,
+      "reward_std": 0.3153763897716999,
+      "rewards/accuracy_reward": 0.18750000279396772,
+      "rewards/format_reward": 0.14583333861082792,
+      "step": 61
+    },
+    {
+      "completion_length": 1634.0833740234375,
+      "epoch": 0.496,
+      "grad_norm": 0.003453546669334173,
+      "kl": 0.005750775337219238,
+      "learning_rate": 7.786339053609382e-07,
+      "loss": 0.0002,
+      "reward": 0.23958333861082792,
+      "reward_std": 0.3065379671752453,
+      "rewards/accuracy_reward": 0.010416666977107525,
+      "rewards/format_reward": 0.22916667442768812,
+      "step": 62
+    },
+    {
+      "completion_length": 1417.6042022705078,
+      "epoch": 0.504,
+      "grad_norm": 0.2036859691143036,
+      "kl": 0.0056678056716918945,
+      "learning_rate": 7.676734991973579e-07,
+      "loss": 0.0002,
+      "reward": 0.2916666744276881,
+      "reward_std": 0.35410021990537643,
+      "rewards/accuracy_reward": 0.010416666977107525,
+      "rewards/format_reward": 0.2812500074505806,
+      "step": 63
+    },
+    {
+      "completion_length": 1605.0521087646484,
+      "epoch": 0.512,
+      "grad_norm": 0.11567196249961853,
+      "kl": 0.005307435989379883,
+      "learning_rate": 7.56541839010392e-07,
+      "loss": 0.0002,
+      "reward": 0.32291667349636555,
+      "reward_std": 0.4613286033272743,
+      "rewards/accuracy_reward": 0.07291666883975267,
+      "rewards/format_reward": 0.2500000046566129,
+      "step": 64
+    },
+    {
+      "completion_length": 1362.8125076293945,
+      "epoch": 0.52,
+      "grad_norm": 0.14872920513153076,
+      "kl": 0.004861712455749512,
+      "learning_rate": 7.45247682602901e-07,
+      "loss": 0.0002,
+      "reward": 0.47916668839752674,
+      "reward_std": 0.47535645961761475,
+      "rewards/accuracy_reward": 0.14583333395421505,
+      "rewards/format_reward": 0.33333334513008595,
+      "step": 65
+    },
+    {
+      "completion_length": 1370.4167022705078,
+      "epoch": 0.528,
+      "grad_norm": 0.14111247658729553,
+      "kl": 0.005552053451538086,
+      "learning_rate": 7.337999156211983e-07,
+      "loss": 0.0002,
+      "reward": 0.5104166753590107,
+      "reward_std": 0.46016135439276695,
+      "rewards/accuracy_reward": 0.09375000279396772,
+      "rewards/format_reward": 0.416666672565043,
+      "step": 66
+    },
+    {
+      "completion_length": 1390.9062805175781,
+      "epoch": 0.536,
+      "grad_norm": 0.0858726054430008,
+      "kl": 0.010532855987548828,
+      "learning_rate": 7.222075445642904e-07,
+      "loss": 0.0004,
+      "reward": 0.5000000083819032,
+      "reward_std": 0.4547799788415432,
+      "rewards/accuracy_reward": 0.15625000093132257,
+      "rewards/format_reward": 0.34375000931322575,
+      "step": 67
+    },
+    {
+      "completion_length": 1446.6667098999023,
+      "epoch": 0.544,
+      "grad_norm": 0.12936249375343323,
+      "kl": 0.006559848785400391,
+      "learning_rate": 7.104796896980408e-07,
+      "loss": 0.0003,
+      "reward": 0.41666667722165585,
+      "reward_std": 0.45394138246774673,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 0.38541667722165585,
+      "step": 68
+    },
+    {
+      "completion_length": 1062.3229522705078,
+      "epoch": 0.552,
+      "grad_norm": 0.0991756021976471,
+      "kl": 0.028393268585205078,
+      "learning_rate": 6.986255778798252e-07,
+      "loss": 0.0011,
+      "reward": 0.9583333656191826,
+      "reward_std": 0.488203439861536,
+      "rewards/accuracy_reward": 0.31250000186264515,
+      "rewards/format_reward": 0.6458333544433117,
+      "step": 69
+    },
+    {
+      "completion_length": 1272.927116394043,
+      "epoch": 0.56,
+      "grad_norm": 0.12522751092910767,
+      "kl": 0.006715059280395508,
+      "learning_rate": 6.866545352993266e-07,
+      "loss": 0.0003,
+      "reward": 0.7187500223517418,
+      "reward_std": 0.4580589644610882,
+      "rewards/accuracy_reward": 0.27083333395421505,
+      "rewards/format_reward": 0.44791667722165585,
+      "step": 70
+    },
+    {
+      "completion_length": 1295.0104446411133,
+      "epoch": 0.568,
+      "grad_norm": 0.09719894826412201,
+      "kl": 0.006929874420166016,
+      "learning_rate": 6.745759801411822e-07,
+      "loss": 0.0003,
+      "reward": 0.6770833628252149,
+      "reward_std": 0.605831079185009,
+      "rewards/accuracy_reward": 0.22916667256504297,
+      "rewards/format_reward": 0.44791668839752674,
+      "step": 71
+    },
+    {
+      "completion_length": 1681.520866394043,
+      "epoch": 0.576,
+      "grad_norm": 0.12705527245998383,
+      "kl": 0.005926847457885742,
+      "learning_rate": 6.623994151752521e-07,
+      "loss": 0.0002,
+      "reward": 0.2187500037252903,
+      "reward_std": 0.25818225741386414,
+      "rewards/accuracy_reward": 0.010416666977107525,
+      "rewards/format_reward": 0.2083333358168602,
+      "step": 72
+    },
+    {
+      "completion_length": 972.6771011352539,
+      "epoch": 0.584,
+      "grad_norm": 0.09554693847894669,
+      "kl": 0.011373519897460938,
+      "learning_rate": 6.501344202803414e-07,
+      "loss": 0.0005,
+      "reward": 0.6666666716337204,
+      "reward_std": 0.39136262610554695,
+      "rewards/accuracy_reward": 0.06250000186264515,
+      "rewards/format_reward": 0.604166679084301,
+      "step": 73
+    },
+    {
+      "completion_length": 1333.552116394043,
+      "epoch": 0.592,
+      "grad_norm": 0.1676543802022934,
+      "kl": 0.006979465484619141,
+      "learning_rate": 6.377906449072577e-07,
+      "loss": 0.0003,
+      "reward": 0.5312500149011612,
+      "reward_std": 0.4429461173713207,
+      "rewards/accuracy_reward": 0.1250000037252903,
+      "rewards/format_reward": 0.4062500149011612,
+      "step": 74
+    },
+    {
+      "completion_length": 1172.7604446411133,
+      "epoch": 0.6,
+      "grad_norm": 0.1972622275352478,
+      "kl": 0.00921487808227539,
+      "learning_rate": 6.253778004871314e-07,
+      "loss": 0.0004,
+      "reward": 0.6041666902601719,
+      "reward_std": 0.505381915718317,
+      "rewards/accuracy_reward": 0.11458333861082792,
+      "rewards/format_reward": 0.4895833432674408,
+      "step": 75
+    },
+    {
+      "completion_length": 1327.0833740234375,
+      "epoch": 0.608,
+      "grad_norm": 0.16929921507835388,
+      "kl": 0.00800466537475586,
+      "learning_rate": 6.129056527909748e-07,
+      "loss": 0.0003,
+      "reward": 0.46875000558793545,
+      "reward_std": 0.5199594870209694,
+      "rewards/accuracy_reward": 0.010416666977107525,
+      "rewards/format_reward": 0.45833334140479565,
+      "step": 76
+    },
+    {
+      "completion_length": 1060.5833587646484,
+      "epoch": 0.616,
+      "grad_norm": 0.2086302489042282,
+      "kl": 0.012459754943847656,
+      "learning_rate": 6.003840142464885e-07,
+      "loss": 0.0005,
+      "reward": 0.8020833656191826,
+      "reward_std": 0.5204068273305893,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 0.6458333507180214,
+      "step": 77
+    },
+    {
+      "completion_length": 1362.739616394043,
+      "epoch": 0.624,
+      "grad_norm": 0.07928597182035446,
+      "kl": 0.006580352783203125,
+      "learning_rate": 5.878227362181614e-07,
+      "loss": 0.0003,
+      "reward": 0.43750000931322575,
+      "reward_std": 0.25147588178515434,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 0.43750000931322575,
+      "step": 78
+    },
+    {
+      "completion_length": 1356.2604446411133,
+      "epoch": 0.632,
+      "grad_norm": 0.11168374121189117,
+      "kl": 0.00591731071472168,
+      "learning_rate": 5.752317012567362e-07,
+      "loss": 0.0002,
+      "reward": 0.6458333488553762,
+      "reward_std": 0.49627581238746643,
+      "rewards/accuracy_reward": 0.22916667722165585,
+      "rewards/format_reward": 0.41666668094694614,
+      "step": 79
+    },
+    {
+      "completion_length": 960.5625381469727,
+      "epoch": 0.64,
+      "grad_norm": 0.11304420977830887,
+      "kl": 0.011513233184814453,
+      "learning_rate": 5.626208153241411e-07,
+      "loss": 0.0005,
+      "reward": 0.9062500074505806,
+      "reward_std": 0.44416263699531555,
+      "rewards/accuracy_reward": 0.18750001024454832,
+      "rewards/format_reward": 0.718750013038516,
+      "step": 80
+    },
+    {
+      "completion_length": 1400.8750305175781,
+      "epoch": 0.648,
+      "grad_norm": 0.0740160122513771,
+      "kl": 0.0074901580810546875,
+      "learning_rate": 5.5e-07,
+      "loss": 0.0003,
+      "reward": 0.5729166753590107,
+      "reward_std": 0.3763520009815693,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/format_reward": 0.5312500111758709,
+      "step": 81
+    },
+    {
+      "completion_length": 754.583366394043,
+      "epoch": 0.656,
+      "grad_norm": 0.22753088176250458,
+      "kl": 0.015882015228271484,
+      "learning_rate": 5.373791846758589e-07,
+      "loss": 0.0006,
+      "reward": 1.041666692122817,
+      "reward_std": 0.43276379629969597,
+      "rewards/accuracy_reward": 0.3437500074505806,
+      "rewards/format_reward": 0.6979166772216558,
+      "step": 82
+    },
+    {
+      "completion_length": 1032.552116394043,
+      "epoch": 0.664,
+      "grad_norm": 0.10078462958335876,
+      "kl": 0.012661933898925781,
+      "learning_rate": 5.247682987432637e-07,
+      "loss": 0.0005,
+      "reward": 0.7500000111758709,
+      "reward_std": 0.5134871490299702,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 0.5937500111758709,
+      "step": 83
+    },
+    {
+      "completion_length": 1074.0000267028809,
+      "epoch": 0.672,
+      "grad_norm": 0.06993328779935837,
+      "kl": 0.011388182640075684,
+      "learning_rate": 5.121772637818387e-07,
+      "loss": 0.0005,
+      "reward": 0.7291666846722364,
+      "reward_std": 0.3966032788157463,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/format_reward": 0.6875000223517418,
+      "step": 84
+    },
+    {
+      "completion_length": 1188.4062728881836,
+      "epoch": 0.68,
+      "grad_norm": 0.11544036120176315,
+      "kl": 0.009247779846191406,
+      "learning_rate": 4.996159857535115e-07,
+      "loss": 0.0004,
+      "reward": 0.8437500149011612,
+      "reward_std": 0.5094321705400944,
+      "rewards/accuracy_reward": 0.2500000074505806,
+      "rewards/format_reward": 0.5937500074505806,
+      "step": 85
+    },
+    {
+      "completion_length": 988.0000457763672,
+      "epoch": 0.688,
+      "grad_norm": 0.13851231336593628,
+      "kl": 0.0120697021484375,
+      "learning_rate": 4.870943472090254e-07,
+      "loss": 0.0005,
+      "reward": 0.739583358168602,
+      "reward_std": 0.42295433580875397,
+      "rewards/accuracy_reward": 0.041666666977107525,
+      "rewards/format_reward": 0.6979166865348816,
+      "step": 86
+    },
+    {
+      "completion_length": 853.0833473205566,
+      "epoch": 0.696,
+      "grad_norm": 0.11069481074810028,
+      "kl": 0.014725208282470703,
+      "learning_rate": 4.7462219951286864e-07,
+      "loss": 0.0006,
+      "reward": 0.6979166716337204,
+      "reward_std": 0.4276985712349415,
+      "rewards/accuracy_reward": 0.010416666977107525,
+      "rewards/format_reward": 0.6875000074505806,
+      "step": 87
+    },
+    {
+      "completion_length": 1298.302116394043,
+      "epoch": 0.704,
+      "grad_norm": 0.127773255109787,
+      "kl": 0.01068568229675293,
+      "learning_rate": 4.6220935509274227e-07,
+      "loss": 0.0004,
+      "reward": 0.5729166893288493,
+      "reward_std": 0.4483075179159641,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 0.5729166893288493,
+      "step": 88
+    },
+    {
+      "completion_length": 806.1354351043701,
+      "epoch": 0.712,
+      "grad_norm": 0.09778036177158356,
+      "kl": 0.018845558166503906,
+      "learning_rate": 4.4986557971965856e-07,
+      "loss": 0.0008,
+      "reward": 1.0937500223517418,
+      "reward_std": 0.2953929826617241,
+      "rewards/accuracy_reward": 0.27083333395421505,
+      "rewards/format_reward": 0.8229166865348816,
+      "step": 89
+    },
+    {
+      "completion_length": 687.0000152587891,
+      "epoch": 0.72,
+      "grad_norm": 0.17915241420269012,
+      "kl": 0.017522811889648438,
+      "learning_rate": 4.3760058482474783e-07,
+      "loss": 0.0007,
+      "reward": 1.041666679084301,
+      "reward_std": 0.38721640035510063,
+      "rewards/accuracy_reward": 0.16666667349636555,
+      "rewards/format_reward": 0.8750000074505806,
+      "step": 90
+    },
+    {
+      "completion_length": 881.3437614440918,
+      "epoch": 0.728,
+      "grad_norm": 0.14008083939552307,
+      "kl": 0.013111591339111328,
+      "learning_rate": 4.254240198588178e-07,
+      "loss": 0.0005,
+      "reward": 0.8854166865348816,
+      "reward_std": 0.31409377604722977,
+      "rewards/accuracy_reward": 0.05208333395421505,
+      "rewards/format_reward": 0.8333333507180214,
+      "step": 91
+    },
+    {
+      "completion_length": 927.1354446411133,
+      "epoch": 0.736,
+      "grad_norm": 0.04579927399754524,
+      "kl": 0.015148162841796875,
+      "learning_rate": 4.133454647006733e-07,
+      "loss": 0.0006,
+      "reward": 1.0520833656191826,
+      "reward_std": 0.3989434242248535,
+      "rewards/accuracy_reward": 0.3645833395421505,
+      "rewards/format_reward": 0.6875000149011612,
+      "step": 92
+    },
+    {
+      "completion_length": 1096.2708702087402,
+      "epoch": 0.744,
+      "grad_norm": 0.11566469073295593,
+      "kl": 0.012713432312011719,
+      "learning_rate": 4.013744221201749e-07,
+      "loss": 0.0005,
+      "reward": 0.6770833414047956,
+      "reward_std": 0.4284285344183445,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/format_reward": 0.6354166772216558,
+      "step": 93
+    },
+    {
+      "completion_length": 690.1041774749756,
+      "epoch": 0.752,
+      "grad_norm": 0.15324266254901886,
+      "kl": 0.016754150390625,
+      "learning_rate": 3.895203103019592e-07,
+      "loss": 0.0007,
+      "reward": 1.0208333507180214,
+      "reward_std": 0.4104958660900593,
+      "rewards/accuracy_reward": 0.15625000838190317,
+      "rewards/format_reward": 0.8645833507180214,
+      "step": 94
+    },
+    {
+      "completion_length": 814.8437843322754,
+      "epoch": 0.76,
+      "grad_norm": 0.11410548537969589,
+      "kl": 0.018395423889160156,
+      "learning_rate": 3.777924554357096e-07,
+      "loss": 0.0007,
+      "reward": 0.9479166865348816,
+      "reward_std": 0.4380828067660332,
+      "rewards/accuracy_reward": 0.1145833358168602,
+      "rewards/format_reward": 0.8333333507180214,
+      "step": 95
+    },
+    {
+      "completion_length": 918.2187805175781,
+      "epoch": 0.768,
+      "grad_norm": 0.16425909101963043,
+      "kl": 0.012192249298095703,
+      "learning_rate": 3.662000843788018e-07,
+      "loss": 0.0005,
+      "reward": 0.8125000149011612,
+      "reward_std": 0.3481748141348362,
+      "rewards/accuracy_reward": 0.07291666977107525,
+      "rewards/format_reward": 0.7395833432674408,
+      "step": 96
+    },
+    {
+      "completion_length": 844.8541870117188,
+      "epoch": 0.776,
+      "grad_norm": 0.1520727574825287,
+      "kl": 0.0149383544921875,
+      "learning_rate": 3.547523173970989e-07,
+      "loss": 0.0006,
+      "reward": 0.9791666939854622,
+      "reward_std": 0.42518816888332367,
+      "rewards/accuracy_reward": 0.17708333488553762,
+      "rewards/format_reward": 0.802083358168602,
+      "step": 97
+    },
+    {
+      "completion_length": 678.458366394043,
+      "epoch": 0.784,
+      "grad_norm": 0.11712879687547684,
+      "kl": 0.018598556518554688,
+      "learning_rate": 3.4345816098960794e-07,
+      "loss": 0.0007,
+      "reward": 1.270833358168602,
+      "reward_std": 0.4059586226940155,
+      "rewards/accuracy_reward": 0.4166666753590107,
+      "rewards/format_reward": 0.854166679084301,
+      "step": 98
+    },
+    {
+      "completion_length": 707.4479446411133,
+      "epoch": 0.792,
+      "grad_norm": 0.00943591445684433,
+      "kl": 0.018640995025634766,
+      "learning_rate": 3.323265008026421e-07,
+      "loss": 0.0007,
+      "reward": 1.020833346992731,
+      "reward_std": 0.3158864565193653,
+      "rewards/accuracy_reward": 0.1666666679084301,
+      "rewards/format_reward": 0.8541666753590107,
+      "step": 99
+    },
+    {
+      "completion_length": 900.7083511352539,
       "epoch": 0.8,
+      "grad_norm": 0.1339350938796997,
+      "kl": 0.014582633972167969,
+      "learning_rate": 3.2136609463906184e-07,
+      "loss": 0.0006,
+      "reward": 0.7604166865348816,
+      "reward_std": 0.4508432447910309,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/format_reward": 0.7187500223517418,
+      "step": 100
+    },
+    {
+      "completion_length": 753.3750286102295,
+      "epoch": 0.808,
+      "grad_norm": 0.09386853128671646,
+      "kl": 0.01984691619873047,
+      "learning_rate": 3.105855655680986e-07,
+      "loss": 0.0008,
+      "reward": 1.0312500149011612,
+      "reward_std": 0.3750321790575981,
+      "rewards/accuracy_reward": 0.16666666883975267,
+      "rewards/format_reward": 0.8645833432674408,
+      "step": 101
+    },
+    {
+      "completion_length": 962.6666831970215,
+      "epoch": 0.816,
+      "grad_norm": 0.17427518963813782,
+      "kl": 0.017024517059326172,
+      "learning_rate": 2.999933951411791e-07,
+      "loss": 0.0007,
+      "reward": 0.9895833656191826,
+      "reward_std": 0.3274080455303192,
+      "rewards/accuracy_reward": 0.2812500074505806,
+      "rewards/format_reward": 0.7083333432674408,
+      "step": 102
+    },
+    {
+      "completion_length": 812.7500228881836,
+      "epoch": 0.824,
+      "grad_norm": 0.08086265623569489,
+      "kl": 0.01704549789428711,
+      "learning_rate": 2.895979167190874e-07,
+      "loss": 0.0007,
+      "reward": 0.864583358168602,
+      "reward_std": 0.4472285062074661,
+      "rewards/accuracy_reward": 0.10416666977107525,
+      "rewards/format_reward": 0.7604166939854622,
+      "step": 103
+    },
+    {
+      "completion_length": 592.4583549499512,
+      "epoch": 0.832,
+      "grad_norm": 0.1811506450176239,
+      "kl": 0.02013111114501953,
+      "learning_rate": 2.794073089157173e-07,
+      "loss": 0.0008,
+      "reward": 1.2187500298023224,
+      "reward_std": 0.39934028312563896,
+      "rewards/accuracy_reward": 0.3020833367481828,
+      "rewards/format_reward": 0.916666679084301,
+      "step": 104
+    },
+    {
+      "completion_length": 906.2500267028809,
+      "epoch": 0.84,
+      "grad_norm": 0.15297923982143402,
+      "kl": 0.018891334533691406,
+      "learning_rate": 2.6942958916356994e-07,
+      "loss": 0.0008,
+      "reward": 0.8125000186264515,
+      "reward_std": 0.44843045622110367,
+      "rewards/accuracy_reward": 0.10416666697710752,
+      "rewards/format_reward": 0.7083333544433117,
+      "step": 105
+    },
+    {
+      "completion_length": 995.7604522705078,
+      "epoch": 0.848,
+      "grad_norm": 0.12237068265676498,
+      "kl": 0.014804840087890625,
+      "learning_rate": 2.596726074060607e-07,
+      "loss": 0.0006,
+      "reward": 0.7604166865348816,
+      "reward_std": 0.5074402429163456,
+      "rewards/accuracy_reward": 0.05208333395421505,
+      "rewards/format_reward": 0.7083333507180214,
+      "step": 106
+    },
+    {
+      "completion_length": 878.5937728881836,
+      "epoch": 0.856,
+      "grad_norm": 0.13649912178516388,
+      "kl": 0.026726722717285156,
+      "learning_rate": 2.501440399215983e-07,
+      "loss": 0.0011,
+      "reward": 0.7916666939854622,
+      "reward_std": 0.4398350641131401,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/format_reward": 0.7500000223517418,
+      "step": 107
+    },
+    {
+      "completion_length": 822.510440826416,
+      "epoch": 0.864,
+      "grad_norm": 0.17916011810302734,
+      "kl": 0.018551349639892578,
+      "learning_rate": 2.4085138328429425e-07,
+      "loss": 0.0007,
+      "reward": 1.0520833656191826,
+      "reward_std": 0.4777773655951023,
+      "rewards/accuracy_reward": 0.21875000465661287,
+      "rewards/format_reward": 0.8333333507180214,
+      "step": 108
+    },
+    {
+      "completion_length": 900.5312728881836,
+      "epoch": 0.872,
+      "grad_norm": 0.12796513736248016,
+      "kl": 0.01479339599609375,
+      "learning_rate": 2.3180194846605364e-07,
+      "loss": 0.0006,
+      "reward": 1.0625000223517418,
+      "reward_std": 0.3528694063425064,
+      "rewards/accuracy_reward": 0.2395833432674408,
+      "rewards/format_reward": 0.822916679084301,
+      "step": 109
+    },
+    {
+      "completion_length": 847.4896087646484,
+      "epoch": 0.88,
+      "grad_norm": 0.14577722549438477,
+      "kl": 0.015839576721191406,
+      "learning_rate": 2.2300285508468792e-07,
+      "loss": 0.0006,
+      "reward": 1.0208333656191826,
+      "reward_std": 0.3138932101428509,
+      "rewards/accuracy_reward": 0.1458333358168602,
+      "rewards/format_reward": 0.8750000149011612,
+      "step": 110
+    },
+    {
+      "completion_length": 684.7187690734863,
+      "epoch": 0.888,
+      "grad_norm": 0.08863761276006699,
+      "kl": 0.02144336700439453,
+      "learning_rate": 2.1446102580257546e-07,
+      "loss": 0.0009,
+      "reward": 1.0208333507180214,
+      "reward_std": 0.32314179465174675,
+      "rewards/accuracy_reward": 0.18750000279396772,
+      "rewards/format_reward": 0.8333333507180214,
+      "step": 111
+    },
+    {
+      "completion_length": 648.2708473205566,
+      "epoch": 0.896,
+      "grad_norm": 0.1076781153678894,
+      "kl": 0.018851280212402344,
+      "learning_rate": 2.0618318088027664e-07,
+      "loss": 0.0008,
+      "reward": 0.9895833507180214,
+      "reward_std": 0.34308793768286705,
+      "rewards/accuracy_reward": 0.08333333395421505,
+      "rewards/format_reward": 0.9062500149011612,
+      "step": 112
+    },
+    {
+      "completion_length": 848.979175567627,
+      "epoch": 0.904,
+      "grad_norm": 0.1795138269662857,
+      "kl": 0.028219223022460938,
+      "learning_rate": 1.9817583288938662e-07,
+      "loss": 0.0011,
+      "reward": 0.9687500298023224,
+      "reward_std": 0.48388223350048065,
+      "rewards/accuracy_reward": 0.20833334140479565,
+      "rewards/format_reward": 0.7604166828095913,
+      "step": 113
+    },
+    {
+      "completion_length": 807.0416793823242,
+      "epoch": 0.912,
+      "grad_norm": 0.1863919496536255,
+      "kl": 0.016091346740722656,
+      "learning_rate": 1.9044528158878803e-07,
+      "loss": 0.0006,
+      "reward": 1.0625000149011612,
+      "reward_std": 0.36854929849505424,
+      "rewards/accuracy_reward": 0.16666666697710752,
+      "rewards/format_reward": 0.8958333507180214,
+      "step": 114
+    },
+    {
+      "completion_length": 730.8125228881836,
+      "epoch": 0.92,
+      "grad_norm": 0.008086685091257095,
+      "kl": 0.019659996032714844,
+      "learning_rate": 1.8299760896833295e-07,
+      "loss": 0.0008,
+      "reward": 1.0312500149011612,
+      "reward_std": 0.1851910501718521,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/format_reward": 0.9062500149011612,
+      "step": 115
+    },
+    {
+      "completion_length": 1080.8958587646484,
+      "epoch": 0.928,
+      "grad_norm": 0.13679863512516022,
+      "kl": 0.0175095796585083,
+      "learning_rate": 1.758386744638546e-07,
+      "loss": 0.0007,
+      "reward": 0.6875000223517418,
+      "reward_std": 0.4191872850060463,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/format_reward": 0.6458333507180214,
+      "step": 116
+    },
+    {
+      "completion_length": 924.6250343322754,
+      "epoch": 0.936,
+      "grad_norm": 0.1184714287519455,
+      "kl": 0.015748023986816406,
+      "learning_rate": 1.6897411034727217e-07,
+      "loss": 0.0006,
+      "reward": 0.989583358168602,
+      "reward_std": 0.4329289048910141,
+      "rewards/accuracy_reward": 0.16666667722165585,
+      "rewards/format_reward": 0.8229166865348816,
+      "step": 117
+    },
+    {
+      "completion_length": 780.7083511352539,
+      "epoch": 0.944,
+      "grad_norm": 0.15466775000095367,
+      "kl": 0.025674819946289062,
+      "learning_rate": 1.6240931729541597e-07,
+      "loss": 0.001,
+      "reward": 0.9687500149011612,
+      "reward_std": 0.34918052703142166,
+      "rewards/accuracy_reward": 0.12500000093132257,
+      "rewards/format_reward": 0.8437500149011612,
+      "step": 118
+    },
+    {
+      "completion_length": 614.0625038146973,
+      "epoch": 0.952,
+      "grad_norm": 0.21478953957557678,
+      "kl": 0.022258758544921875,
+      "learning_rate": 1.5614946014106085e-07,
+      "loss": 0.0009,
+      "reward": 0.9270833507180214,
+      "reward_std": 0.35268617793917656,
+      "rewards/accuracy_reward": 0.052083334885537624,
+      "rewards/format_reward": 0.8750000149011612,
+      "step": 119
+    },
+    {
+      "completion_length": 785.1666870117188,
+      "epoch": 0.96,
+      "grad_norm": 0.053828902542591095,
+      "kl": 0.01752948760986328,
+      "learning_rate": 1.5019946380950755e-07,
+      "loss": 0.0007,
+      "reward": 1.010416679084301,
+      "reward_std": 0.328002754598856,
+      "rewards/accuracy_reward": 0.1458333358168602,
+      "rewards/format_reward": 0.8645833507180214,
+      "step": 120
+    },
+    {
+      "completion_length": 675.9166831970215,
+      "epoch": 0.968,
+      "grad_norm": 0.31227222084999084,
+      "kl": 0.02220916748046875,
+      "learning_rate": 1.4456400944391144e-07,
+      "loss": 0.0009,
+      "reward": 0.9791666865348816,
+      "reward_std": 0.3436807915568352,
+      "rewards/accuracy_reward": 0.11458333861082792,
+      "rewards/format_reward": 0.8645833507180214,
+      "step": 121
+    },
+    {
+      "completion_length": 901.2083511352539,
+      "epoch": 0.976,
+      "grad_norm": 0.13310351967811584,
+      "kl": 0.020013809204101562,
+      "learning_rate": 1.392475307224065e-07,
+      "loss": 0.0008,
+      "reward": 0.7395833507180214,
+      "reward_std": 0.2778088189661503,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 0.7395833507180214,
+      "step": 122
+    },
+    {
+      "completion_length": 674.9791946411133,
+      "epoch": 0.984,
+      "grad_norm": 0.09870073944330215,
+      "kl": 0.02259063720703125,
+      "learning_rate": 1.3425421036992097e-07,
+      "loss": 0.0009,
+      "reward": 1.0104166939854622,
+      "reward_std": 0.32367467880249023,
+      "rewards/accuracy_reward": 0.15625000093132257,
+      "rewards/format_reward": 0.8541666865348816,
+      "step": 123
+    },
+    {
+      "completion_length": 878.7083625793457,
+      "epoch": 0.992,
+      "grad_norm": 0.2026570737361908,
+      "kl": 0.018926620483398438,
+      "learning_rate": 1.2958797686743014e-07,
+      "loss": 0.0008,
+      "reward": 0.8437500223517418,
+      "reward_std": 0.5021120570600033,
+      "rewards/accuracy_reward": 0.10416666977107525,
+      "rewards/format_reward": 0.7395833507180214,
+      "step": 124
+    },
+    {
+      "completion_length": 611.5,
+      "epoch": 1.0,
+      "grad_norm": 0.2026570737361908,
+      "kl": 0.03096485137939453,
+      "learning_rate": 1.2958797686743014e-07,
+      "loss": 0.0012,
+      "reward": 0.9687500298023224,
+      "reward_std": 0.3619955964386463,
+      "rewards/accuracy_reward": 0.11458333395421505,
+      "rewards/format_reward": 0.854166679084301,
+      "step": 125
+    },
+    {
+      "epoch": 1.0,
+      "step": 125,
       "total_flos": 0.0,
+      "train_loss": 0.0003328805177226313,
+      "train_runtime": 21588.6366,
+      "train_samples_per_second": 0.046,
+      "train_steps_per_second": 0.006
     }
   ],
   "logging_steps": 1,
+  "max_steps": 125,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,