{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.512,
  "eval_steps": 500,
  "global_step": 60,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.008533333333333334,
      "grad_norm": 160.11701043689894,
      "learning_rate": 0.0,
      "loss": 32.4968,
      "step": 1
    },
    {
      "epoch": 0.017066666666666667,
      "grad_norm": 157.24779534424323,
      "learning_rate": 1.5051499783199057e-06,
      "loss": 31.6979,
      "step": 2
    },
    {
      "epoch": 0.0256,
      "grad_norm": 157.9465272449825,
      "learning_rate": 2.385606273598312e-06,
      "loss": 31.8828,
      "step": 3
    },
    {
      "epoch": 0.034133333333333335,
      "grad_norm": 160.2154859965946,
      "learning_rate": 3.0102999566398115e-06,
      "loss": 31.9681,
      "step": 4
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 158.5305446712084,
      "learning_rate": 3.4948500216800934e-06,
      "loss": 31.3717,
      "step": 5
    },
    {
      "epoch": 0.0512,
      "grad_norm": 155.50243039700376,
      "learning_rate": 3.890756251918218e-06,
      "loss": 30.5348,
      "step": 6
    },
    {
      "epoch": 0.05973333333333333,
      "grad_norm": 168.6887446693614,
      "learning_rate": 4.225490200071284e-06,
      "loss": 31.3845,
      "step": 7
    },
    {
      "epoch": 0.06826666666666667,
      "grad_norm": 164.2631689450651,
      "learning_rate": 4.515449934959717e-06,
      "loss": 30.5243,
      "step": 8
    },
    {
      "epoch": 0.0768,
      "grad_norm": 174.1878139573776,
      "learning_rate": 4.771212547196624e-06,
      "loss": 30.0138,
      "step": 9
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 177.9519334680014,
      "learning_rate": 4.9999999999999996e-06,
      "loss": 29.6143,
      "step": 10
    },
    {
      "epoch": 0.09386666666666667,
      "grad_norm": 183.57104380865735,
      "learning_rate": 5.206963425791125e-06,
      "loss": 28.8718,
      "step": 11
    },
    {
      "epoch": 0.1024,
      "grad_norm": 186.4090344511231,
      "learning_rate": 5.395906230238124e-06,
      "loss": 26.1695,
      "step": 12
    },
    {
      "epoch": 0.11093333333333333,
      "grad_norm": 198.17161320746723,
      "learning_rate": 5.5697167615341825e-06,
      "loss": 26.1266,
      "step": 13
    },
    {
      "epoch": 0.11946666666666667,
      "grad_norm": 182.4443087115901,
      "learning_rate": 5.730640178391189e-06,
      "loss": 24.2121,
      "step": 14
    },
    {
      "epoch": 0.128,
      "grad_norm": 159.38105380659272,
      "learning_rate": 5.880456295278406e-06,
      "loss": 22.5796,
      "step": 15
    },
    {
      "epoch": 0.13653333333333334,
      "grad_norm": 142.82387126501297,
      "learning_rate": 6.020599913279623e-06,
      "loss": 21.1346,
      "step": 16
    },
    {
      "epoch": 0.14506666666666668,
      "grad_norm": 123.86394296641578,
      "learning_rate": 6.15224460689137e-06,
      "loss": 19.8457,
      "step": 17
    },
    {
      "epoch": 0.1536,
      "grad_norm": 112.3988260336824,
      "learning_rate": 6.276362525516529e-06,
      "loss": 18.7824,
      "step": 18
    },
    {
      "epoch": 0.16213333333333332,
      "grad_norm": 120.96712330991012,
      "learning_rate": 6.393768004764144e-06,
      "loss": 18.0207,
      "step": 19
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 129.42692949353702,
      "learning_rate": 6.505149978319905e-06,
      "loss": 16.8355,
      "step": 20
    },
    {
      "epoch": 0.1792,
      "grad_norm": 120.65595457746791,
      "learning_rate": 6.611096473669596e-06,
      "loss": 15.252,
      "step": 21
    },
    {
      "epoch": 0.18773333333333334,
      "grad_norm": 133.05280466087515,
      "learning_rate": 6.712113404111031e-06,
      "loss": 14.1391,
      "step": 22
    },
    {
      "epoch": 0.19626666666666667,
      "grad_norm": 127.95029628849048,
      "learning_rate": 6.808639180087963e-06,
      "loss": 12.9566,
      "step": 23
    },
    {
      "epoch": 0.2048,
      "grad_norm": 108.83495245094748,
      "learning_rate": 6.90105620855803e-06,
      "loss": 11.8743,
      "step": 24
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 99.90727146021455,
      "learning_rate": 6.989700043360187e-06,
      "loss": 10.962,
      "step": 25
    },
    {
      "epoch": 0.22186666666666666,
      "grad_norm": 98.37126740059823,
      "learning_rate": 7.074866739854089e-06,
      "loss": 9.9919,
      "step": 26
    },
    {
      "epoch": 0.2304,
      "grad_norm": 92.26708429201608,
      "learning_rate": 7.156818820794936e-06,
      "loss": 8.8811,
      "step": 27
    },
    {
      "epoch": 0.23893333333333333,
      "grad_norm": 83.36099898839835,
      "learning_rate": 7.235790156711096e-06,
      "loss": 7.7806,
      "step": 28
    },
    {
      "epoch": 0.24746666666666667,
      "grad_norm": 68.07500315598597,
      "learning_rate": 7.3119899894947795e-06,
      "loss": 7.0528,
      "step": 29
    },
    {
      "epoch": 0.256,
      "grad_norm": 69.58960332280246,
      "learning_rate": 7.385606273598311e-06,
      "loss": 6.3683,
      "step": 30
    },
    {
      "epoch": 0.26453333333333334,
      "grad_norm": 68.77532204123075,
      "learning_rate": 7.456808469171363e-06,
      "loss": 6.1635,
      "step": 31
    },
    {
      "epoch": 0.2730666666666667,
      "grad_norm": 66.29676636510072,
      "learning_rate": 7.5257498915995295e-06,
      "loss": 4.711,
      "step": 32
    },
    {
      "epoch": 0.2816,
      "grad_norm": 42.87145091679237,
      "learning_rate": 7.592569699389437e-06,
      "loss": 4.5119,
      "step": 33
    },
    {
      "epoch": 0.29013333333333335,
      "grad_norm": 26.2592350291551,
      "learning_rate": 7.657394585211274e-06,
      "loss": 4.31,
      "step": 34
    },
    {
      "epoch": 0.2986666666666667,
      "grad_norm": 15.35959008067237,
      "learning_rate": 7.720340221751376e-06,
      "loss": 4.0001,
      "step": 35
    },
    {
      "epoch": 0.3072,
      "grad_norm": 8.50847651865227,
      "learning_rate": 7.781512503836437e-06,
      "loss": 3.5723,
      "step": 36
    },
    {
      "epoch": 0.3157333333333333,
      "grad_norm": 6.562581089063746,
      "learning_rate": 7.841008620334974e-06,
      "loss": 3.9254,
      "step": 37
    },
    {
      "epoch": 0.32426666666666665,
      "grad_norm": 5.6145595722250095,
      "learning_rate": 7.89891798308405e-06,
      "loss": 3.8746,
      "step": 38
    },
    {
      "epoch": 0.3328,
      "grad_norm": 5.385367220486204,
      "learning_rate": 7.955323035132495e-06,
      "loss": 3.8128,
      "step": 39
    },
    {
      "epoch": 0.3413333333333333,
      "grad_norm": 5.403447124703616,
      "learning_rate": 8.010299956639811e-06,
      "loss": 3.885,
      "step": 40
    },
    {
      "epoch": 0.34986666666666666,
      "grad_norm": 5.48242204895128,
      "learning_rate": 8.063919283598677e-06,
      "loss": 3.8048,
      "step": 41
    },
    {
      "epoch": 0.3584,
      "grad_norm": 5.5525098950513865,
      "learning_rate": 8.116246451989503e-06,
      "loss": 3.7508,
      "step": 42
    },
    {
      "epoch": 0.36693333333333333,
      "grad_norm": 5.354384520535484,
      "learning_rate": 8.167342277897933e-06,
      "loss": 3.5069,
      "step": 43
    },
    {
      "epoch": 0.37546666666666667,
      "grad_norm": 5.46272338131107,
      "learning_rate": 8.217263382430936e-06,
      "loss": 3.6747,
      "step": 44
    },
    {
      "epoch": 0.384,
      "grad_norm": 4.798550688968453,
      "learning_rate": 8.266062568876717e-06,
      "loss": 3.1609,
      "step": 45
    },
    {
      "epoch": 0.39253333333333335,
      "grad_norm": 5.755104452953421,
      "learning_rate": 8.31378915840787e-06,
      "loss": 3.5733,
      "step": 46
    },
    {
      "epoch": 0.4010666666666667,
      "grad_norm": 4.618763611067563,
      "learning_rate": 8.360489289678585e-06,
      "loss": 2.9402,
      "step": 47
    },
    {
      "epoch": 0.4096,
      "grad_norm": 5.506785974818791,
      "learning_rate": 8.406206186877936e-06,
      "loss": 3.382,
      "step": 48
    },
    {
      "epoch": 0.41813333333333336,
      "grad_norm": 4.68603207809794,
      "learning_rate": 8.450980400142568e-06,
      "loss": 2.9918,
      "step": 49
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 5.124033394817131,
      "learning_rate": 8.494850021680093e-06,
      "loss": 3.3202,
      "step": 50
    },
    {
      "epoch": 0.4352,
      "grad_norm": 4.293001183481895,
      "learning_rate": 8.537850880489681e-06,
      "loss": 2.8519,
      "step": 51
    },
    {
      "epoch": 0.4437333333333333,
      "grad_norm": 4.382596858902394,
      "learning_rate": 8.580016718173996e-06,
      "loss": 2.9683,
      "step": 52
    },
    {
      "epoch": 0.45226666666666665,
      "grad_norm": 4.3176263388044696,
      "learning_rate": 8.621379348003945e-06,
      "loss": 2.9257,
      "step": 53
    },
    {
      "epoch": 0.4608,
      "grad_norm": 4.5250022171605195,
      "learning_rate": 8.661968799114844e-06,
      "loss": 3.0556,
      "step": 54
    },
    {
      "epoch": 0.4693333333333333,
      "grad_norm": 4.429424190600661,
      "learning_rate": 8.701813447471218e-06,
      "loss": 2.9513,
      "step": 55
    },
    {
      "epoch": 0.47786666666666666,
      "grad_norm": 4.349652568052827,
      "learning_rate": 8.740940135031001e-06,
      "loss": 2.9029,
      "step": 56
    },
    {
      "epoch": 0.4864,
      "grad_norm": 4.299227871435445,
      "learning_rate": 8.779374278362457e-06,
      "loss": 2.5989,
      "step": 57
    },
    {
      "epoch": 0.49493333333333334,
      "grad_norm": 4.562461330302201,
      "learning_rate": 8.817139967814684e-06,
      "loss": 2.8158,
      "step": 58
    },
    {
      "epoch": 0.5034666666666666,
      "grad_norm": 4.606987182758338,
      "learning_rate": 8.854260058210721e-06,
      "loss": 2.6272,
      "step": 59
    },
    {
      "epoch": 0.512,
      "grad_norm": 4.9420031522511545,
      "learning_rate": 8.890756251918216e-06,
      "loss": 2.5488,
      "step": 60
    }
  ],
  "logging_steps": 1,
  "max_steps": 301,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 20,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 8.473824188421898e+17,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}