{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.5969338869370808,
  "global_step": 5000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03,
      "learning_rate": 2.8744809964867454e-07,
      "loss": 91.176,
      "step": 100
    },
    {
      "epoch": 0.06,
      "learning_rate": 6.068348770360907e-07,
      "loss": 64.0684,
      "step": 200
    },
    {
      "epoch": 0.1,
      "learning_rate": 9.26221654423507e-07,
      "loss": 27.1061,
      "step": 300
    },
    {
      "epoch": 0.13,
      "learning_rate": 1.242414564037049e-06,
      "loss": 8.0198,
      "step": 400
    },
    {
      "epoch": 0.16,
      "learning_rate": 1.561801341424465e-06,
      "loss": 4.7691,
      "step": 500
    },
    {
      "epoch": 0.19,
      "learning_rate": 1.8811881188118813e-06,
      "loss": 3.4387,
      "step": 600
    },
    {
      "epoch": 0.22,
      "learning_rate": 2.2005748961992977e-06,
      "loss": 2.7027,
      "step": 700
    },
    {
      "epoch": 0.26,
      "learning_rate": 2.5199616735867137e-06,
      "loss": 2.4431,
      "step": 800
    },
    {
      "epoch": 0.29,
      "learning_rate": 2.8393484509741297e-06,
      "loss": 2.0534,
      "step": 900
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.1587352283615465e-06,
      "loss": 1.8537,
      "step": 1000
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.4781220057489625e-06,
      "loss": 1.642,
      "step": 1100
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.797508783136378e-06,
      "loss": 1.5092,
      "step": 1200
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.1168955605237945e-06,
      "loss": 1.4302,
      "step": 1300
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.436282337911211e-06,
      "loss": 1.3527,
      "step": 1400
    },
    {
      "epoch": 0.48,
      "learning_rate": 4.755669115298627e-06,
      "loss": 1.2495,
      "step": 1500
    },
    {
      "epoch": 0.51,
      "learning_rate": 5.075055892686043e-06,
      "loss": 1.2039,
      "step": 1600
    },
    {
      "epoch": 0.54,
      "learning_rate": 5.39444267007346e-06,
      "loss": 1.1438,
      "step": 1700
    },
    {
      "epoch": 0.57,
      "learning_rate": 5.713829447460876e-06,
      "loss": 1.1056,
      "step": 1800
    },
    {
      "epoch": 0.61,
      "learning_rate": 6.033216224848291e-06,
      "loss": 1.0436,
      "step": 1900
    },
    {
      "epoch": 0.64,
      "learning_rate": 6.352603002235708e-06,
      "loss": 1.0225,
      "step": 2000
    },
    {
      "epoch": 0.67,
      "learning_rate": 6.671989779623123e-06,
      "loss": 0.9856,
      "step": 2100
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.9913765570105406e-06,
      "loss": 0.9412,
      "step": 2200
    },
    {
      "epoch": 0.73,
      "learning_rate": 7.310763334397957e-06,
      "loss": 0.9075,
      "step": 2300
    },
    {
      "epoch": 0.77,
      "learning_rate": 7.630150111785373e-06,
      "loss": 0.8752,
      "step": 2400
    },
    {
      "epoch": 0.8,
      "learning_rate": 7.949536889172788e-06,
      "loss": 0.854,
      "step": 2500
    },
    {
      "epoch": 0.83,
      "learning_rate": 8.268923666560205e-06,
      "loss": 0.8282,
      "step": 2600
    },
    {
      "epoch": 0.86,
      "learning_rate": 8.588310443947621e-06,
      "loss": 0.8074,
      "step": 2700
    },
    {
      "epoch": 0.89,
      "learning_rate": 8.907697221335038e-06,
      "loss": 0.7976,
      "step": 2800
    },
    {
      "epoch": 0.93,
      "learning_rate": 9.227083998722454e-06,
      "loss": 0.7955,
      "step": 2900
    },
    {
      "epoch": 0.96,
      "learning_rate": 9.54647077610987e-06,
      "loss": 0.7502,
      "step": 3000
    },
    {
      "epoch": 0.99,
      "learning_rate": 9.865857553497285e-06,
      "loss": 0.7455,
      "step": 3100
    },
    {
      "epoch": 1.02,
      "learning_rate": 1.0185244330884702e-05,
      "loss": 0.7177,
      "step": 3200
    },
    {
      "epoch": 1.05,
      "learning_rate": 1.050463110827212e-05,
      "loss": 0.724,
      "step": 3300
    },
    {
      "epoch": 1.09,
      "learning_rate": 1.0824017885659535e-05,
      "loss": 0.6975,
      "step": 3400
    },
    {
      "epoch": 1.12,
      "learning_rate": 1.114340466304695e-05,
      "loss": 0.7054,
      "step": 3500
    },
    {
      "epoch": 1.15,
      "learning_rate": 1.1462791440434366e-05,
      "loss": 0.71,
      "step": 3600
    },
    {
      "epoch": 1.18,
      "learning_rate": 1.1782178217821782e-05,
      "loss": 0.6825,
      "step": 3700
    },
    {
      "epoch": 1.21,
      "learning_rate": 1.2101564995209199e-05,
      "loss": 0.6792,
      "step": 3800
    },
    {
      "epoch": 1.25,
      "learning_rate": 1.2420951772596615e-05,
      "loss": 0.6794,
      "step": 3900
    },
    {
      "epoch": 1.28,
      "learning_rate": 1.2740338549984032e-05,
      "loss": 0.6672,
      "step": 4000
    },
    {
      "epoch": 1.31,
      "learning_rate": 1.3059725327371449e-05,
      "loss": 0.6356,
      "step": 4100
    },
    {
      "epoch": 1.34,
      "learning_rate": 1.3379112104758865e-05,
      "loss": 0.6503,
      "step": 4200
    },
    {
      "epoch": 1.37,
      "learning_rate": 1.369849888214628e-05,
      "loss": 0.6495,
      "step": 4300
    },
    {
      "epoch": 1.41,
      "learning_rate": 1.4017885659533696e-05,
      "loss": 0.6428,
      "step": 4400
    },
    {
      "epoch": 1.44,
      "learning_rate": 1.4337272436921113e-05,
      "loss": 0.6171,
      "step": 4500
    },
    {
      "epoch": 1.47,
      "learning_rate": 1.4656659214308529e-05,
      "loss": 0.6084,
      "step": 4600
    },
    {
      "epoch": 1.5,
      "learning_rate": 1.4976045991695944e-05,
      "loss": 0.6222,
      "step": 4700
    },
    {
      "epoch": 1.53,
      "learning_rate": 1.529543276908336e-05,
      "loss": 0.5971,
      "step": 4800
    },
    {
      "epoch": 1.56,
      "learning_rate": 1.5614819546470777e-05,
      "loss": 0.5745,
      "step": 4900
    },
    {
      "epoch": 1.6,
      "learning_rate": 1.5934206323858196e-05,
      "loss": 0.5753,
      "step": 5000
    }
  ],
  "max_steps": 125240,
  "num_train_epochs": 40,
  "total_flos": 0.0,
  "trial_name": null,
  "trial_params": null
}