{ "best_metric": 10.322370529174805, "best_model_checkpoint": "miner_id_24/checkpoint-100", "epoch": 0.20833333333333334, "eval_steps": 50, "global_step": 100, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0020833333333333333, "grad_norm": 0.3520921468734741, "learning_rate": 1.013e-05, "loss": 20.764, "step": 1 }, { "epoch": 0.0020833333333333333, "eval_loss": 10.377023696899414, "eval_runtime": 1.0283, "eval_samples_per_second": 197.416, "eval_steps_per_second": 49.597, "step": 1 }, { "epoch": 0.004166666666666667, "grad_norm": 0.4214218854904175, "learning_rate": 2.026e-05, "loss": 20.7672, "step": 2 }, { "epoch": 0.00625, "grad_norm": 0.47043052315711975, "learning_rate": 3.039e-05, "loss": 20.7803, "step": 3 }, { "epoch": 0.008333333333333333, "grad_norm": 0.46754786372184753, "learning_rate": 4.052e-05, "loss": 20.7555, "step": 4 }, { "epoch": 0.010416666666666666, "grad_norm": 0.4406397044658661, "learning_rate": 5.065e-05, "loss": 20.7536, "step": 5 }, { "epoch": 0.0125, "grad_norm": 0.34239840507507324, "learning_rate": 6.078e-05, "loss": 20.7392, "step": 6 }, { "epoch": 0.014583333333333334, "grad_norm": 0.3299899697303772, "learning_rate": 7.091e-05, "loss": 20.7373, "step": 7 }, { "epoch": 0.016666666666666666, "grad_norm": 0.41817376017570496, "learning_rate": 8.104e-05, "loss": 20.7395, "step": 8 }, { "epoch": 0.01875, "grad_norm": 0.3894173204898834, "learning_rate": 9.117e-05, "loss": 20.7563, "step": 9 }, { "epoch": 0.020833333333333332, "grad_norm": 0.4278939366340637, "learning_rate": 0.0001013, "loss": 20.7549, "step": 10 }, { "epoch": 0.022916666666666665, "grad_norm": 0.3833448886871338, "learning_rate": 0.00010076684210526316, "loss": 20.7505, "step": 11 }, { "epoch": 0.025, "grad_norm": 0.5457374453544617, "learning_rate": 0.0001002336842105263, "loss": 20.7601, "step": 12 }, { "epoch": 0.027083333333333334, "grad_norm": 0.4061744809150696, "learning_rate": 9.970052631578946e-05, "loss": 20.7376, "step": 13 }, { "epoch": 0.029166666666666667, "grad_norm": 0.3763207495212555, "learning_rate": 9.916736842105263e-05, "loss": 20.7392, "step": 14 }, { "epoch": 0.03125, "grad_norm": 0.44841688871383667, "learning_rate": 9.863421052631579e-05, "loss": 20.7464, "step": 15 }, { "epoch": 0.03333333333333333, "grad_norm": 0.42486947774887085, "learning_rate": 9.810105263157895e-05, "loss": 20.7437, "step": 16 }, { "epoch": 0.035416666666666666, "grad_norm": 0.44332557916641235, "learning_rate": 9.756789473684211e-05, "loss": 20.7247, "step": 17 }, { "epoch": 0.0375, "grad_norm": 0.5130252242088318, "learning_rate": 9.703473684210525e-05, "loss": 20.7445, "step": 18 }, { "epoch": 0.03958333333333333, "grad_norm": 0.6956832408905029, "learning_rate": 9.650157894736842e-05, "loss": 20.6938, "step": 19 }, { "epoch": 0.041666666666666664, "grad_norm": 0.46365290880203247, "learning_rate": 9.596842105263158e-05, "loss": 20.7299, "step": 20 }, { "epoch": 0.04375, "grad_norm": 0.5153777599334717, "learning_rate": 9.543526315789474e-05, "loss": 20.7362, "step": 21 }, { "epoch": 0.04583333333333333, "grad_norm": 0.5336391925811768, "learning_rate": 9.49021052631579e-05, "loss": 20.7454, "step": 22 }, { "epoch": 0.04791666666666667, "grad_norm": 0.40522825717926025, "learning_rate": 9.436894736842105e-05, "loss": 20.7008, "step": 23 }, { "epoch": 0.05, "grad_norm": 0.49724772572517395, "learning_rate": 9.38357894736842e-05, "loss": 20.721, "step": 24 }, { "epoch": 0.052083333333333336, "grad_norm": 0.41228872537612915, "learning_rate": 9.330263157894737e-05, "loss": 20.7437, "step": 25 }, { "epoch": 0.05416666666666667, "grad_norm": 0.6203362345695496, "learning_rate": 9.276947368421051e-05, "loss": 20.7481, "step": 26 }, { "epoch": 0.05625, "grad_norm": 0.6059979796409607, "learning_rate": 9.223631578947369e-05, "loss": 20.7256, "step": 27 }, { "epoch": 0.058333333333333334, "grad_norm": 0.5935781598091125, "learning_rate": 9.170315789473684e-05, "loss": 20.7254, "step": 28 }, { "epoch": 0.06041666666666667, "grad_norm": 0.7292362451553345, "learning_rate": 9.117e-05, "loss": 20.7242, "step": 29 }, { "epoch": 0.0625, "grad_norm": 0.6823543906211853, "learning_rate": 9.063684210526316e-05, "loss": 20.7328, "step": 30 }, { "epoch": 0.06458333333333334, "grad_norm": 0.7503632307052612, "learning_rate": 9.010368421052632e-05, "loss": 20.7269, "step": 31 }, { "epoch": 0.06666666666666667, "grad_norm": 0.9543562531471252, "learning_rate": 8.957052631578946e-05, "loss": 20.7294, "step": 32 }, { "epoch": 0.06875, "grad_norm": 0.8262564539909363, "learning_rate": 8.903736842105263e-05, "loss": 20.7386, "step": 33 }, { "epoch": 0.07083333333333333, "grad_norm": 0.6799699664115906, "learning_rate": 8.850421052631579e-05, "loss": 20.7121, "step": 34 }, { "epoch": 0.07291666666666667, "grad_norm": 0.9119449257850647, "learning_rate": 8.797105263157895e-05, "loss": 20.7142, "step": 35 }, { "epoch": 0.075, "grad_norm": 0.8500229120254517, "learning_rate": 8.743789473684211e-05, "loss": 20.6797, "step": 36 }, { "epoch": 0.07708333333333334, "grad_norm": 0.7141941785812378, "learning_rate": 8.690473684210526e-05, "loss": 20.6884, "step": 37 }, { "epoch": 0.07916666666666666, "grad_norm": 0.5889747142791748, "learning_rate": 8.637157894736842e-05, "loss": 20.7075, "step": 38 }, { "epoch": 0.08125, "grad_norm": 0.9111669063568115, "learning_rate": 8.583842105263158e-05, "loss": 20.6971, "step": 39 }, { "epoch": 0.08333333333333333, "grad_norm": 0.9392410516738892, "learning_rate": 8.530526315789472e-05, "loss": 20.6977, "step": 40 }, { "epoch": 0.08541666666666667, "grad_norm": 0.7585451006889343, "learning_rate": 8.47721052631579e-05, "loss": 20.7038, "step": 41 }, { "epoch": 0.0875, "grad_norm": 0.6633560061454773, "learning_rate": 8.423894736842105e-05, "loss": 20.7146, "step": 42 }, { "epoch": 0.08958333333333333, "grad_norm": 0.5992672443389893, "learning_rate": 8.37057894736842e-05, "loss": 20.6574, "step": 43 }, { "epoch": 0.09166666666666666, "grad_norm": 0.7080777287483215, "learning_rate": 8.317263157894737e-05, "loss": 20.6819, "step": 44 }, { "epoch": 0.09375, "grad_norm": 0.7078990340232849, "learning_rate": 8.263947368421053e-05, "loss": 20.6724, "step": 45 }, { "epoch": 0.09583333333333334, "grad_norm": 0.8119835257530212, "learning_rate": 8.210631578947368e-05, "loss": 20.6732, "step": 46 }, { "epoch": 0.09791666666666667, "grad_norm": 0.9918007850646973, "learning_rate": 8.157315789473684e-05, "loss": 20.6793, "step": 47 }, { "epoch": 0.1, "grad_norm": 1.0355883836746216, "learning_rate": 8.104e-05, "loss": 20.6771, "step": 48 }, { "epoch": 0.10208333333333333, "grad_norm": 0.9954332709312439, "learning_rate": 8.050684210526316e-05, "loss": 20.712, "step": 49 }, { "epoch": 0.10416666666666667, "grad_norm": 0.9032604694366455, "learning_rate": 7.997368421052632e-05, "loss": 20.6897, "step": 50 }, { "epoch": 0.10416666666666667, "eval_loss": 10.333270072937012, "eval_runtime": 1.0375, "eval_samples_per_second": 195.665, "eval_steps_per_second": 49.157, "step": 50 }, { "epoch": 0.10625, "grad_norm": 0.6725262403488159, "learning_rate": 7.944052631578947e-05, "loss": 20.6651, "step": 51 }, { "epoch": 0.10833333333333334, "grad_norm": 0.6348769664764404, "learning_rate": 7.890736842105263e-05, "loss": 20.6588, "step": 52 }, { "epoch": 0.11041666666666666, "grad_norm": 0.6539647579193115, "learning_rate": 7.837421052631579e-05, "loss": 20.6603, "step": 53 }, { "epoch": 0.1125, "grad_norm": 0.7179890871047974, "learning_rate": 7.784105263157893e-05, "loss": 20.6582, "step": 54 }, { "epoch": 0.11458333333333333, "grad_norm": 0.568970799446106, "learning_rate": 7.730789473684211e-05, "loss": 20.6595, "step": 55 }, { "epoch": 0.11666666666666667, "grad_norm": 0.4986928403377533, "learning_rate": 7.677473684210526e-05, "loss": 20.6753, "step": 56 }, { "epoch": 0.11875, "grad_norm": 0.5608803033828735, "learning_rate": 7.624157894736842e-05, "loss": 20.6667, "step": 57 }, { "epoch": 0.12083333333333333, "grad_norm": 0.4749945402145386, "learning_rate": 7.570842105263158e-05, "loss": 20.6327, "step": 58 }, { "epoch": 0.12291666666666666, "grad_norm": 0.6889947056770325, "learning_rate": 7.517526315789474e-05, "loss": 20.6299, "step": 59 }, { "epoch": 0.125, "grad_norm": 0.48256805539131165, "learning_rate": 7.464210526315789e-05, "loss": 20.6442, "step": 60 }, { "epoch": 0.12708333333333333, "grad_norm": 0.7472884654998779, "learning_rate": 7.410894736842106e-05, "loss": 20.6627, "step": 61 }, { "epoch": 0.12916666666666668, "grad_norm": 0.5614337921142578, "learning_rate": 7.35757894736842e-05, "loss": 20.6467, "step": 62 }, { "epoch": 0.13125, "grad_norm": 0.7431515455245972, "learning_rate": 7.304263157894737e-05, "loss": 20.6751, "step": 63 }, { "epoch": 0.13333333333333333, "grad_norm": 0.6878007054328918, "learning_rate": 7.250947368421053e-05, "loss": 20.6749, "step": 64 }, { "epoch": 0.13541666666666666, "grad_norm": 0.6373714804649353, "learning_rate": 7.197631578947368e-05, "loss": 20.6628, "step": 65 }, { "epoch": 0.1375, "grad_norm": 0.6107881665229797, "learning_rate": 7.144315789473684e-05, "loss": 20.6368, "step": 66 }, { "epoch": 0.13958333333333334, "grad_norm": 0.6302750706672668, "learning_rate": 7.091e-05, "loss": 20.6061, "step": 67 }, { "epoch": 0.14166666666666666, "grad_norm": 0.7748825550079346, "learning_rate": 7.037684210526316e-05, "loss": 20.6132, "step": 68 }, { "epoch": 0.14375, "grad_norm": 0.7745639681816101, "learning_rate": 6.984368421052632e-05, "loss": 20.6303, "step": 69 }, { "epoch": 0.14583333333333334, "grad_norm": 0.7478723526000977, "learning_rate": 6.931052631578947e-05, "loss": 20.6666, "step": 70 }, { "epoch": 0.14791666666666667, "grad_norm": 0.605993926525116, "learning_rate": 6.877736842105263e-05, "loss": 20.6449, "step": 71 }, { "epoch": 0.15, "grad_norm": 0.5979759097099304, "learning_rate": 6.824421052631579e-05, "loss": 20.6691, "step": 72 }, { "epoch": 0.15208333333333332, "grad_norm": 0.43290168046951294, "learning_rate": 6.771105263157895e-05, "loss": 20.675, "step": 73 }, { "epoch": 0.15416666666666667, "grad_norm": 0.5351336002349854, "learning_rate": 6.71778947368421e-05, "loss": 20.6528, "step": 74 }, { "epoch": 0.15625, "grad_norm": 0.4322650134563446, "learning_rate": 6.664473684210527e-05, "loss": 20.6732, "step": 75 }, { "epoch": 0.15833333333333333, "grad_norm": 0.44359371066093445, "learning_rate": 6.611157894736842e-05, "loss": 20.6606, "step": 76 }, { "epoch": 0.16041666666666668, "grad_norm": 0.4732012152671814, "learning_rate": 6.557842105263158e-05, "loss": 20.6395, "step": 77 }, { "epoch": 0.1625, "grad_norm": 0.5439114570617676, "learning_rate": 6.504526315789474e-05, "loss": 20.6482, "step": 78 }, { "epoch": 0.16458333333333333, "grad_norm": 0.7015860080718994, "learning_rate": 6.451210526315789e-05, "loss": 20.6319, "step": 79 }, { "epoch": 0.16666666666666666, "grad_norm": 0.6103214025497437, "learning_rate": 6.397894736842105e-05, "loss": 20.6443, "step": 80 }, { "epoch": 0.16875, "grad_norm": 0.37088441848754883, "learning_rate": 6.344578947368421e-05, "loss": 20.6356, "step": 81 }, { "epoch": 0.17083333333333334, "grad_norm": 0.6528430581092834, "learning_rate": 6.291263157894737e-05, "loss": 20.6587, "step": 82 }, { "epoch": 0.17291666666666666, "grad_norm": 0.7054880261421204, "learning_rate": 6.237947368421053e-05, "loss": 20.6713, "step": 83 }, { "epoch": 0.175, "grad_norm": 0.5389326214790344, "learning_rate": 6.184631578947368e-05, "loss": 20.6436, "step": 84 }, { "epoch": 0.17708333333333334, "grad_norm": 0.5650012493133545, "learning_rate": 6.131315789473684e-05, "loss": 20.6255, "step": 85 }, { "epoch": 0.17916666666666667, "grad_norm": 0.6043394207954407, "learning_rate": 6.078e-05, "loss": 20.6379, "step": 86 }, { "epoch": 0.18125, "grad_norm": 0.4503845274448395, "learning_rate": 6.024684210526315e-05, "loss": 20.6526, "step": 87 }, { "epoch": 0.18333333333333332, "grad_norm": 0.533659040927887, "learning_rate": 5.9713684210526305e-05, "loss": 20.6527, "step": 88 }, { "epoch": 0.18541666666666667, "grad_norm": 0.6213618516921997, "learning_rate": 5.918052631578947e-05, "loss": 20.6284, "step": 89 }, { "epoch": 0.1875, "grad_norm": 1.1620638370513916, "learning_rate": 5.8647368421052634e-05, "loss": 20.6617, "step": 90 }, { "epoch": 0.18958333333333333, "grad_norm": 0.515569806098938, "learning_rate": 5.811421052631579e-05, "loss": 20.6648, "step": 91 }, { "epoch": 0.19166666666666668, "grad_norm": 0.7997931838035583, "learning_rate": 5.758105263157894e-05, "loss": 20.6617, "step": 92 }, { "epoch": 0.19375, "grad_norm": 0.48507264256477356, "learning_rate": 5.70478947368421e-05, "loss": 20.6397, "step": 93 }, { "epoch": 0.19583333333333333, "grad_norm": 0.6217122077941895, "learning_rate": 5.6514736842105256e-05, "loss": 20.6589, "step": 94 }, { "epoch": 0.19791666666666666, "grad_norm": 0.4621007442474365, "learning_rate": 5.5981578947368424e-05, "loss": 20.617, "step": 95 }, { "epoch": 0.2, "grad_norm": 0.550322413444519, "learning_rate": 5.544842105263158e-05, "loss": 20.6374, "step": 96 }, { "epoch": 0.20208333333333334, "grad_norm": 0.6280121803283691, "learning_rate": 5.491526315789474e-05, "loss": 20.6391, "step": 97 }, { "epoch": 0.20416666666666666, "grad_norm": 0.7596859931945801, "learning_rate": 5.438210526315789e-05, "loss": 20.6297, "step": 98 }, { "epoch": 0.20625, "grad_norm": 0.8180075883865356, "learning_rate": 5.384894736842105e-05, "loss": 20.6631, "step": 99 }, { "epoch": 0.20833333333333334, "grad_norm": 0.6678614616394043, "learning_rate": 5.331578947368421e-05, "loss": 20.6684, "step": 100 }, { "epoch": 0.20833333333333334, "eval_loss": 10.322370529174805, "eval_runtime": 1.019, "eval_samples_per_second": 199.215, "eval_steps_per_second": 50.049, "step": 100 } ], "logging_steps": 1, "max_steps": 200, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 50, "stateful_callbacks": { "EarlyStoppingCallback": { "args": { "early_stopping_patience": 5, "early_stopping_threshold": 0.0 }, "attributes": { "early_stopping_patience_counter": 0 } }, "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 7437767933952.0, "train_batch_size": 4, "trial_name": null, "trial_params": null }