{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.512, "eval_steps": 500, "global_step": 60, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.008533333333333334, "grad_norm": 160.11701043689894, "learning_rate": 0.0, "loss": 32.4968, "step": 1 }, { "epoch": 0.017066666666666667, "grad_norm": 157.24779534424323, "learning_rate": 1.5051499783199057e-06, "loss": 31.6979, "step": 2 }, { "epoch": 0.0256, "grad_norm": 157.9465272449825, "learning_rate": 2.385606273598312e-06, "loss": 31.8828, "step": 3 }, { "epoch": 0.034133333333333335, "grad_norm": 160.2154859965946, "learning_rate": 3.0102999566398115e-06, "loss": 31.9681, "step": 4 }, { "epoch": 0.042666666666666665, "grad_norm": 158.5305446712084, "learning_rate": 3.4948500216800934e-06, "loss": 31.3717, "step": 5 }, { "epoch": 0.0512, "grad_norm": 155.50243039700376, "learning_rate": 3.890756251918218e-06, "loss": 30.5348, "step": 6 }, { "epoch": 0.05973333333333333, "grad_norm": 168.6887446693614, "learning_rate": 4.225490200071284e-06, "loss": 31.3845, "step": 7 }, { "epoch": 0.06826666666666667, "grad_norm": 164.2631689450651, "learning_rate": 4.515449934959717e-06, "loss": 30.5243, "step": 8 }, { "epoch": 0.0768, "grad_norm": 174.1878139573776, "learning_rate": 4.771212547196624e-06, "loss": 30.0138, "step": 9 }, { "epoch": 0.08533333333333333, "grad_norm": 177.9519334680014, "learning_rate": 4.9999999999999996e-06, "loss": 29.6143, "step": 10 }, { "epoch": 0.09386666666666667, "grad_norm": 183.57104380865735, "learning_rate": 5.206963425791125e-06, "loss": 28.8718, "step": 11 }, { "epoch": 0.1024, "grad_norm": 186.4090344511231, "learning_rate": 5.395906230238124e-06, "loss": 26.1695, "step": 12 }, { "epoch": 0.11093333333333333, "grad_norm": 198.17161320746723, "learning_rate": 5.5697167615341825e-06, "loss": 26.1266, "step": 13 }, { "epoch": 0.11946666666666667, "grad_norm": 182.4443087115901, "learning_rate": 5.730640178391189e-06, "loss": 24.2121, "step": 14 }, { "epoch": 0.128, "grad_norm": 159.38105380659272, "learning_rate": 5.880456295278406e-06, "loss": 22.5796, "step": 15 }, { "epoch": 0.13653333333333334, "grad_norm": 142.82387126501297, "learning_rate": 6.020599913279623e-06, "loss": 21.1346, "step": 16 }, { "epoch": 0.14506666666666668, "grad_norm": 123.86394296641578, "learning_rate": 6.15224460689137e-06, "loss": 19.8457, "step": 17 }, { "epoch": 0.1536, "grad_norm": 112.3988260336824, "learning_rate": 6.276362525516529e-06, "loss": 18.7824, "step": 18 }, { "epoch": 0.16213333333333332, "grad_norm": 120.96712330991012, "learning_rate": 6.393768004764144e-06, "loss": 18.0207, "step": 19 }, { "epoch": 0.17066666666666666, "grad_norm": 129.42692949353702, "learning_rate": 6.505149978319905e-06, "loss": 16.8355, "step": 20 }, { "epoch": 0.1792, "grad_norm": 120.65595457746791, "learning_rate": 6.611096473669596e-06, "loss": 15.252, "step": 21 }, { "epoch": 0.18773333333333334, "grad_norm": 133.05280466087515, "learning_rate": 6.712113404111031e-06, "loss": 14.1391, "step": 22 }, { "epoch": 0.19626666666666667, "grad_norm": 127.95029628849048, "learning_rate": 6.808639180087963e-06, "loss": 12.9566, "step": 23 }, { "epoch": 0.2048, "grad_norm": 108.83495245094748, "learning_rate": 6.90105620855803e-06, "loss": 11.8743, "step": 24 }, { "epoch": 0.21333333333333335, "grad_norm": 99.90727146021455, "learning_rate": 6.989700043360187e-06, "loss": 10.962, "step": 25 }, { "epoch": 0.22186666666666666, "grad_norm": 98.37126740059823, "learning_rate": 7.074866739854089e-06, "loss": 9.9919, "step": 26 }, { "epoch": 0.2304, "grad_norm": 92.26708429201608, "learning_rate": 7.156818820794936e-06, "loss": 8.8811, "step": 27 }, { "epoch": 0.23893333333333333, "grad_norm": 83.36099898839835, "learning_rate": 7.235790156711096e-06, "loss": 7.7806, "step": 28 }, { "epoch": 0.24746666666666667, "grad_norm": 68.07500315598597, "learning_rate": 7.3119899894947795e-06, "loss": 7.0528, "step": 29 }, { "epoch": 0.256, "grad_norm": 69.58960332280246, "learning_rate": 7.385606273598311e-06, "loss": 6.3683, "step": 30 }, { "epoch": 0.26453333333333334, "grad_norm": 68.77532204123075, "learning_rate": 7.456808469171363e-06, "loss": 6.1635, "step": 31 }, { "epoch": 0.2730666666666667, "grad_norm": 66.29676636510072, "learning_rate": 7.5257498915995295e-06, "loss": 4.711, "step": 32 }, { "epoch": 0.2816, "grad_norm": 42.87145091679237, "learning_rate": 7.592569699389437e-06, "loss": 4.5119, "step": 33 }, { "epoch": 0.29013333333333335, "grad_norm": 26.2592350291551, "learning_rate": 7.657394585211274e-06, "loss": 4.31, "step": 34 }, { "epoch": 0.2986666666666667, "grad_norm": 15.35959008067237, "learning_rate": 7.720340221751376e-06, "loss": 4.0001, "step": 35 }, { "epoch": 0.3072, "grad_norm": 8.50847651865227, "learning_rate": 7.781512503836437e-06, "loss": 3.5723, "step": 36 }, { "epoch": 0.3157333333333333, "grad_norm": 6.562581089063746, "learning_rate": 7.841008620334974e-06, "loss": 3.9254, "step": 37 }, { "epoch": 0.32426666666666665, "grad_norm": 5.6145595722250095, "learning_rate": 7.89891798308405e-06, "loss": 3.8746, "step": 38 }, { "epoch": 0.3328, "grad_norm": 5.385367220486204, "learning_rate": 7.955323035132495e-06, "loss": 3.8128, "step": 39 }, { "epoch": 0.3413333333333333, "grad_norm": 5.403447124703616, "learning_rate": 8.010299956639811e-06, "loss": 3.885, "step": 40 }, { "epoch": 0.34986666666666666, "grad_norm": 5.48242204895128, "learning_rate": 8.063919283598677e-06, "loss": 3.8048, "step": 41 }, { "epoch": 0.3584, "grad_norm": 5.5525098950513865, "learning_rate": 8.116246451989503e-06, "loss": 3.7508, "step": 42 }, { "epoch": 0.36693333333333333, "grad_norm": 5.354384520535484, "learning_rate": 8.167342277897933e-06, "loss": 3.5069, "step": 43 }, { "epoch": 0.37546666666666667, "grad_norm": 5.46272338131107, "learning_rate": 8.217263382430936e-06, "loss": 3.6747, "step": 44 }, { "epoch": 0.384, "grad_norm": 4.798550688968453, "learning_rate": 8.266062568876717e-06, "loss": 3.1609, "step": 45 }, { "epoch": 0.39253333333333335, "grad_norm": 5.755104452953421, "learning_rate": 8.31378915840787e-06, "loss": 3.5733, "step": 46 }, { "epoch": 0.4010666666666667, "grad_norm": 4.618763611067563, "learning_rate": 8.360489289678585e-06, "loss": 2.9402, "step": 47 }, { "epoch": 0.4096, "grad_norm": 5.506785974818791, "learning_rate": 8.406206186877936e-06, "loss": 3.382, "step": 48 }, { "epoch": 0.41813333333333336, "grad_norm": 4.68603207809794, "learning_rate": 8.450980400142568e-06, "loss": 2.9918, "step": 49 }, { "epoch": 0.4266666666666667, "grad_norm": 5.124033394817131, "learning_rate": 8.494850021680093e-06, "loss": 3.3202, "step": 50 }, { "epoch": 0.4352, "grad_norm": 4.293001183481895, "learning_rate": 8.537850880489681e-06, "loss": 2.8519, "step": 51 }, { "epoch": 0.4437333333333333, "grad_norm": 4.382596858902394, "learning_rate": 8.580016718173996e-06, "loss": 2.9683, "step": 52 }, { "epoch": 0.45226666666666665, "grad_norm": 4.3176263388044696, "learning_rate": 8.621379348003945e-06, "loss": 2.9257, "step": 53 }, { "epoch": 0.4608, "grad_norm": 4.5250022171605195, "learning_rate": 8.661968799114844e-06, "loss": 3.0556, "step": 54 }, { "epoch": 0.4693333333333333, "grad_norm": 4.429424190600661, "learning_rate": 8.701813447471218e-06, "loss": 2.9513, "step": 55 }, { "epoch": 0.47786666666666666, "grad_norm": 4.349652568052827, "learning_rate": 8.740940135031001e-06, "loss": 2.9029, "step": 56 }, { "epoch": 0.4864, "grad_norm": 4.299227871435445, "learning_rate": 8.779374278362457e-06, "loss": 2.5989, "step": 57 }, { "epoch": 0.49493333333333334, "grad_norm": 4.562461330302201, "learning_rate": 8.817139967814684e-06, "loss": 2.8158, "step": 58 }, { "epoch": 0.5034666666666666, "grad_norm": 4.606987182758338, "learning_rate": 8.854260058210721e-06, "loss": 2.6272, "step": 59 }, { "epoch": 0.512, "grad_norm": 4.9420031522511545, "learning_rate": 8.890756251918216e-06, "loss": 2.5488, "step": 60 } ], "logging_steps": 1, "max_steps": 301, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 20, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 8.473824188421898e+17, "train_batch_size": 16, "trial_name": null, "trial_params": null }