{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 1041,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.2881844380403458,
      "grad_norm": 1.4422333240509033,
      "learning_rate": 0.0001815561959654179,
      "loss": 3.1655,
      "step": 100
    },
    {
      "epoch": 0.5763688760806917,
      "grad_norm": 1.9075777530670166,
      "learning_rate": 0.00016234390009606147,
      "loss": 0.8772,
      "step": 200
    },
    {
      "epoch": 0.8645533141210374,
      "grad_norm": 1.9097354412078857,
      "learning_rate": 0.0001431316042267051,
      "loss": 0.451,
      "step": 300
    },
    {
      "epoch": 1.1527377521613833,
      "grad_norm": 1.6237609386444092,
      "learning_rate": 0.00012391930835734872,
      "loss": 0.3981,
      "step": 400
    },
    {
      "epoch": 1.440922190201729,
      "grad_norm": 1.9261122941970825,
      "learning_rate": 0.00010470701248799233,
      "loss": 0.367,
      "step": 500
    },
    {
      "epoch": 1.440922190201729,
      "eval_runtime": 216.0803,
      "eval_samples_per_second": 5.725,
      "eval_steps_per_second": 2.865,
      "step": 500
    },
    {
      "epoch": 1.729106628242075,
      "grad_norm": 1.2721047401428223,
      "learning_rate": 8.549471661863592e-05,
      "loss": 0.3705,
      "step": 600
    },
    {
      "epoch": 2.0172910662824206,
      "grad_norm": 1.371832251548767,
      "learning_rate": 6.628242074927953e-05,
      "loss": 0.3746,
      "step": 700
    },
    {
      "epoch": 2.3054755043227666,
      "grad_norm": 1.7075700759887695,
      "learning_rate": 4.7070124879923156e-05,
      "loss": 0.3314,
      "step": 800
    },
    {
      "epoch": 2.5936599423631126,
      "grad_norm": 1.1070783138275146,
      "learning_rate": 2.7857829010566765e-05,
      "loss": 0.3145,
      "step": 900
    },
    {
      "epoch": 2.881844380403458,
      "grad_norm": 1.6173722743988037,
      "learning_rate": 8.645533141210376e-06,
      "loss": 0.3149,
      "step": 1000
    },
    {
      "epoch": 2.881844380403458,
      "eval_runtime": 213.2376,
      "eval_samples_per_second": 5.801,
      "eval_steps_per_second": 2.903,
      "step": 1000
    },
    {
      "epoch": 3.0,
      "step": 1041,
      "total_flos": 2.42193908736e+18,
      "train_loss": 0.6824458238599852,
      "train_runtime": 2058.2511,
      "train_samples_per_second": 4.042,
      "train_steps_per_second": 0.506
    }
  ],
  "logging_steps": 100,
  "max_steps": 1041,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.42193908736e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}