{
  "best_metric": 0.5598700642585754,
  "best_model_checkpoint": "miner_id_24/checkpoint-50",
  "epoch": 0.019753086419753086,
  "eval_steps": 50,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00019753086419753085,
      "eval_loss": 0.7619494795799255,
      "eval_runtime": 157.1876,
      "eval_samples_per_second": 13.563,
      "eval_steps_per_second": 3.391,
      "step": 1
    },
    {
      "epoch": 0.0019753086419753087,
      "grad_norm": 2.8007144927978516,
      "learning_rate": 4.08e-05,
      "loss": 1.1467,
      "step": 10
    },
    {
      "epoch": 0.003950617283950617,
      "grad_norm": 4.038558006286621,
      "learning_rate": 8.16e-05,
      "loss": 0.8458,
      "step": 20
    },
    {
      "epoch": 0.005925925925925926,
      "grad_norm": 5.107570648193359,
      "learning_rate": 0.0001224,
      "loss": 0.4401,
      "step": 30
    },
    {
      "epoch": 0.007901234567901235,
      "grad_norm": 11.454261779785156,
      "learning_rate": 0.0001632,
      "loss": 0.7541,
      "step": 40
    },
    {
      "epoch": 0.009876543209876543,
      "grad_norm": 36.3629150390625,
      "learning_rate": 0.000204,
      "loss": 1.6878,
      "step": 50
    },
    {
      "epoch": 0.009876543209876543,
      "eval_loss": 0.5598700642585754,
      "eval_runtime": 157.4097,
      "eval_samples_per_second": 13.544,
      "eval_steps_per_second": 3.386,
      "step": 50
    },
    {
      "epoch": 0.011851851851851851,
      "grad_norm": 3.0428309440612793,
      "learning_rate": 0.00020375153312650207,
      "loss": 1.0978,
      "step": 60
    },
    {
      "epoch": 0.013827160493827161,
      "grad_norm": 4.016880512237549,
      "learning_rate": 0.00020300734301164017,
      "loss": 0.8226,
      "step": 70
    },
    {
      "epoch": 0.01580246913580247,
      "grad_norm": 4.501338958740234,
      "learning_rate": 0.00020177105527484818,
      "loss": 0.6569,
      "step": 80
    },
    {
      "epoch": 0.017777777777777778,
      "grad_norm": 7.035243511199951,
      "learning_rate": 0.00020004869298570854,
      "loss": 1.1252,
      "step": 90
    },
    {
      "epoch": 0.019753086419753086,
      "grad_norm": 39.680564880371094,
      "learning_rate": 0.00019784864732016265,
      "loss": 2.0553,
      "step": 100
    },
    {
      "epoch": 0.019753086419753086,
      "eval_loss": 0.732351541519165,
      "eval_runtime": 157.2532,
      "eval_samples_per_second": 13.558,
      "eval_steps_per_second": 3.389,
      "step": 100
    }
  ],
  "logging_steps": 10,
  "max_steps": 500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 1
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.370090452385792e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}