{ "best_metric": 10.32067584991455, "best_model_checkpoint": "miner_id_24/checkpoint-200", "epoch": 0.4166666666666667, "eval_steps": 50, "global_step": 200, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0020833333333333333, "grad_norm": 0.3520921468734741, "learning_rate": 1.013e-05, "loss": 20.764, "step": 1 }, { "epoch": 0.0020833333333333333, "eval_loss": 10.377023696899414, "eval_runtime": 1.0283, "eval_samples_per_second": 197.416, "eval_steps_per_second": 49.597, "step": 1 }, { "epoch": 0.004166666666666667, "grad_norm": 0.4214218854904175, "learning_rate": 2.026e-05, "loss": 20.7672, "step": 2 }, { "epoch": 0.00625, "grad_norm": 0.47043052315711975, "learning_rate": 3.039e-05, "loss": 20.7803, "step": 3 }, { "epoch": 0.008333333333333333, "grad_norm": 0.46754786372184753, "learning_rate": 4.052e-05, "loss": 20.7555, "step": 4 }, { "epoch": 0.010416666666666666, "grad_norm": 0.4406397044658661, "learning_rate": 5.065e-05, "loss": 20.7536, "step": 5 }, { "epoch": 0.0125, "grad_norm": 0.34239840507507324, "learning_rate": 6.078e-05, "loss": 20.7392, "step": 6 }, { "epoch": 0.014583333333333334, "grad_norm": 0.3299899697303772, "learning_rate": 7.091e-05, "loss": 20.7373, "step": 7 }, { "epoch": 0.016666666666666666, "grad_norm": 0.41817376017570496, "learning_rate": 8.104e-05, "loss": 20.7395, "step": 8 }, { "epoch": 0.01875, "grad_norm": 0.3894173204898834, "learning_rate": 9.117e-05, "loss": 20.7563, "step": 9 }, { "epoch": 0.020833333333333332, "grad_norm": 0.4278939366340637, "learning_rate": 0.0001013, "loss": 20.7549, "step": 10 }, { "epoch": 0.022916666666666665, "grad_norm": 0.3833448886871338, "learning_rate": 0.00010076684210526316, "loss": 20.7505, "step": 11 }, { "epoch": 0.025, "grad_norm": 0.5457374453544617, "learning_rate": 0.0001002336842105263, "loss": 20.7601, "step": 12 }, { "epoch": 0.027083333333333334, "grad_norm": 0.4061744809150696, "learning_rate": 9.970052631578946e-05, "loss": 20.7376, "step": 13 }, { "epoch": 0.029166666666666667, "grad_norm": 0.3763207495212555, "learning_rate": 9.916736842105263e-05, "loss": 20.7392, "step": 14 }, { "epoch": 0.03125, "grad_norm": 0.44841688871383667, "learning_rate": 9.863421052631579e-05, "loss": 20.7464, "step": 15 }, { "epoch": 0.03333333333333333, "grad_norm": 0.42486947774887085, "learning_rate": 9.810105263157895e-05, "loss": 20.7437, "step": 16 }, { "epoch": 0.035416666666666666, "grad_norm": 0.44332557916641235, "learning_rate": 9.756789473684211e-05, "loss": 20.7247, "step": 17 }, { "epoch": 0.0375, "grad_norm": 0.5130252242088318, "learning_rate": 9.703473684210525e-05, "loss": 20.7445, "step": 18 }, { "epoch": 0.03958333333333333, "grad_norm": 0.6956832408905029, "learning_rate": 9.650157894736842e-05, "loss": 20.6938, "step": 19 }, { "epoch": 0.041666666666666664, "grad_norm": 0.46365290880203247, "learning_rate": 9.596842105263158e-05, "loss": 20.7299, "step": 20 }, { "epoch": 0.04375, "grad_norm": 0.5153777599334717, "learning_rate": 9.543526315789474e-05, "loss": 20.7362, "step": 21 }, { "epoch": 0.04583333333333333, "grad_norm": 0.5336391925811768, "learning_rate": 9.49021052631579e-05, "loss": 20.7454, "step": 22 }, { "epoch": 0.04791666666666667, "grad_norm": 0.40522825717926025, "learning_rate": 9.436894736842105e-05, "loss": 20.7008, "step": 23 }, { "epoch": 0.05, "grad_norm": 0.49724772572517395, "learning_rate": 9.38357894736842e-05, "loss": 20.721, "step": 24 }, { "epoch": 0.052083333333333336, "grad_norm": 0.41228872537612915, "learning_rate": 9.330263157894737e-05, "loss": 20.7437, "step": 25 }, { "epoch": 0.05416666666666667, "grad_norm": 0.6203362345695496, "learning_rate": 9.276947368421051e-05, "loss": 20.7481, "step": 26 }, { "epoch": 0.05625, "grad_norm": 0.6059979796409607, "learning_rate": 9.223631578947369e-05, "loss": 20.7256, "step": 27 }, { "epoch": 0.058333333333333334, "grad_norm": 0.5935781598091125, "learning_rate": 9.170315789473684e-05, "loss": 20.7254, "step": 28 }, { "epoch": 0.06041666666666667, "grad_norm": 0.7292362451553345, "learning_rate": 9.117e-05, "loss": 20.7242, "step": 29 }, { "epoch": 0.0625, "grad_norm": 0.6823543906211853, "learning_rate": 9.063684210526316e-05, "loss": 20.7328, "step": 30 }, { "epoch": 0.06458333333333334, "grad_norm": 0.7503632307052612, "learning_rate": 9.010368421052632e-05, "loss": 20.7269, "step": 31 }, { "epoch": 0.06666666666666667, "grad_norm": 0.9543562531471252, "learning_rate": 8.957052631578946e-05, "loss": 20.7294, "step": 32 }, { "epoch": 0.06875, "grad_norm": 0.8262564539909363, "learning_rate": 8.903736842105263e-05, "loss": 20.7386, "step": 33 }, { "epoch": 0.07083333333333333, "grad_norm": 0.6799699664115906, "learning_rate": 8.850421052631579e-05, "loss": 20.7121, "step": 34 }, { "epoch": 0.07291666666666667, "grad_norm": 0.9119449257850647, "learning_rate": 8.797105263157895e-05, "loss": 20.7142, "step": 35 }, { "epoch": 0.075, "grad_norm": 0.8500229120254517, "learning_rate": 8.743789473684211e-05, "loss": 20.6797, "step": 36 }, { "epoch": 0.07708333333333334, "grad_norm": 0.7141941785812378, "learning_rate": 8.690473684210526e-05, "loss": 20.6884, "step": 37 }, { "epoch": 0.07916666666666666, "grad_norm": 0.5889747142791748, "learning_rate": 8.637157894736842e-05, "loss": 20.7075, "step": 38 }, { "epoch": 0.08125, "grad_norm": 0.9111669063568115, "learning_rate": 8.583842105263158e-05, "loss": 20.6971, "step": 39 }, { "epoch": 0.08333333333333333, "grad_norm": 0.9392410516738892, "learning_rate": 8.530526315789472e-05, "loss": 20.6977, "step": 40 }, { "epoch": 0.08541666666666667, "grad_norm": 0.7585451006889343, "learning_rate": 8.47721052631579e-05, "loss": 20.7038, "step": 41 }, { "epoch": 0.0875, "grad_norm": 0.6633560061454773, "learning_rate": 8.423894736842105e-05, "loss": 20.7146, "step": 42 }, { "epoch": 0.08958333333333333, "grad_norm": 0.5992672443389893, "learning_rate": 8.37057894736842e-05, "loss": 20.6574, "step": 43 }, { "epoch": 0.09166666666666666, "grad_norm": 0.7080777287483215, "learning_rate": 8.317263157894737e-05, "loss": 20.6819, "step": 44 }, { "epoch": 0.09375, "grad_norm": 0.7078990340232849, "learning_rate": 8.263947368421053e-05, "loss": 20.6724, "step": 45 }, { "epoch": 0.09583333333333334, "grad_norm": 0.8119835257530212, "learning_rate": 8.210631578947368e-05, "loss": 20.6732, "step": 46 }, { "epoch": 0.09791666666666667, "grad_norm": 0.9918007850646973, "learning_rate": 8.157315789473684e-05, "loss": 20.6793, "step": 47 }, { "epoch": 0.1, "grad_norm": 1.0355883836746216, "learning_rate": 8.104e-05, "loss": 20.6771, "step": 48 }, { "epoch": 0.10208333333333333, "grad_norm": 0.9954332709312439, "learning_rate": 8.050684210526316e-05, "loss": 20.712, "step": 49 }, { "epoch": 0.10416666666666667, "grad_norm": 0.9032604694366455, "learning_rate": 7.997368421052632e-05, "loss": 20.6897, "step": 50 }, { "epoch": 0.10416666666666667, "eval_loss": 10.333270072937012, "eval_runtime": 1.0375, "eval_samples_per_second": 195.665, "eval_steps_per_second": 49.157, "step": 50 }, { "epoch": 0.10625, "grad_norm": 0.6725262403488159, "learning_rate": 7.944052631578947e-05, "loss": 20.6651, "step": 51 }, { "epoch": 0.10833333333333334, "grad_norm": 0.6348769664764404, "learning_rate": 7.890736842105263e-05, "loss": 20.6588, "step": 52 }, { "epoch": 0.11041666666666666, "grad_norm": 0.6539647579193115, "learning_rate": 7.837421052631579e-05, "loss": 20.6603, "step": 53 }, { "epoch": 0.1125, "grad_norm": 0.7179890871047974, "learning_rate": 7.784105263157893e-05, "loss": 20.6582, "step": 54 }, { "epoch": 0.11458333333333333, "grad_norm": 0.568970799446106, "learning_rate": 7.730789473684211e-05, "loss": 20.6595, "step": 55 }, { "epoch": 0.11666666666666667, "grad_norm": 0.4986928403377533, "learning_rate": 7.677473684210526e-05, "loss": 20.6753, "step": 56 }, { "epoch": 0.11875, "grad_norm": 0.5608803033828735, "learning_rate": 7.624157894736842e-05, "loss": 20.6667, "step": 57 }, { "epoch": 0.12083333333333333, "grad_norm": 0.4749945402145386, "learning_rate": 7.570842105263158e-05, "loss": 20.6327, "step": 58 }, { "epoch": 0.12291666666666666, "grad_norm": 0.6889947056770325, "learning_rate": 7.517526315789474e-05, "loss": 20.6299, "step": 59 }, { "epoch": 0.125, "grad_norm": 0.48256805539131165, "learning_rate": 7.464210526315789e-05, "loss": 20.6442, "step": 60 }, { "epoch": 0.12708333333333333, "grad_norm": 0.7472884654998779, "learning_rate": 7.410894736842106e-05, "loss": 20.6627, "step": 61 }, { "epoch": 0.12916666666666668, "grad_norm": 0.5614337921142578, "learning_rate": 7.35757894736842e-05, "loss": 20.6467, "step": 62 }, { "epoch": 0.13125, "grad_norm": 0.7431515455245972, "learning_rate": 7.304263157894737e-05, "loss": 20.6751, "step": 63 }, { "epoch": 0.13333333333333333, "grad_norm": 0.6878007054328918, "learning_rate": 7.250947368421053e-05, "loss": 20.6749, "step": 64 }, { "epoch": 0.13541666666666666, "grad_norm": 0.6373714804649353, "learning_rate": 7.197631578947368e-05, "loss": 20.6628, "step": 65 }, { "epoch": 0.1375, "grad_norm": 0.6107881665229797, "learning_rate": 7.144315789473684e-05, "loss": 20.6368, "step": 66 }, { "epoch": 0.13958333333333334, "grad_norm": 0.6302750706672668, "learning_rate": 7.091e-05, "loss": 20.6061, "step": 67 }, { "epoch": 0.14166666666666666, "grad_norm": 0.7748825550079346, "learning_rate": 7.037684210526316e-05, "loss": 20.6132, "step": 68 }, { "epoch": 0.14375, "grad_norm": 0.7745639681816101, "learning_rate": 6.984368421052632e-05, "loss": 20.6303, "step": 69 }, { "epoch": 0.14583333333333334, "grad_norm": 0.7478723526000977, "learning_rate": 6.931052631578947e-05, "loss": 20.6666, "step": 70 }, { "epoch": 0.14791666666666667, "grad_norm": 0.605993926525116, "learning_rate": 6.877736842105263e-05, "loss": 20.6449, "step": 71 }, { "epoch": 0.15, "grad_norm": 0.5979759097099304, "learning_rate": 6.824421052631579e-05, "loss": 20.6691, "step": 72 }, { "epoch": 0.15208333333333332, "grad_norm": 0.43290168046951294, "learning_rate": 6.771105263157895e-05, "loss": 20.675, "step": 73 }, { "epoch": 0.15416666666666667, "grad_norm": 0.5351336002349854, "learning_rate": 6.71778947368421e-05, "loss": 20.6528, "step": 74 }, { "epoch": 0.15625, "grad_norm": 0.4322650134563446, "learning_rate": 6.664473684210527e-05, "loss": 20.6732, "step": 75 }, { "epoch": 0.15833333333333333, "grad_norm": 0.44359371066093445, "learning_rate": 6.611157894736842e-05, "loss": 20.6606, "step": 76 }, { "epoch": 0.16041666666666668, "grad_norm": 0.4732012152671814, "learning_rate": 6.557842105263158e-05, "loss": 20.6395, "step": 77 }, { "epoch": 0.1625, "grad_norm": 0.5439114570617676, "learning_rate": 6.504526315789474e-05, "loss": 20.6482, "step": 78 }, { "epoch": 0.16458333333333333, "grad_norm": 0.7015860080718994, "learning_rate": 6.451210526315789e-05, "loss": 20.6319, "step": 79 }, { "epoch": 0.16666666666666666, "grad_norm": 0.6103214025497437, "learning_rate": 6.397894736842105e-05, "loss": 20.6443, "step": 80 }, { "epoch": 0.16875, "grad_norm": 0.37088441848754883, "learning_rate": 6.344578947368421e-05, "loss": 20.6356, "step": 81 }, { "epoch": 0.17083333333333334, "grad_norm": 0.6528430581092834, "learning_rate": 6.291263157894737e-05, "loss": 20.6587, "step": 82 }, { "epoch": 0.17291666666666666, "grad_norm": 0.7054880261421204, "learning_rate": 6.237947368421053e-05, "loss": 20.6713, "step": 83 }, { "epoch": 0.175, "grad_norm": 0.5389326214790344, "learning_rate": 6.184631578947368e-05, "loss": 20.6436, "step": 84 }, { "epoch": 0.17708333333333334, "grad_norm": 0.5650012493133545, "learning_rate": 6.131315789473684e-05, "loss": 20.6255, "step": 85 }, { "epoch": 0.17916666666666667, "grad_norm": 0.6043394207954407, "learning_rate": 6.078e-05, "loss": 20.6379, "step": 86 }, { "epoch": 0.18125, "grad_norm": 0.4503845274448395, "learning_rate": 6.024684210526315e-05, "loss": 20.6526, "step": 87 }, { "epoch": 0.18333333333333332, "grad_norm": 0.533659040927887, "learning_rate": 5.9713684210526305e-05, "loss": 20.6527, "step": 88 }, { "epoch": 0.18541666666666667, "grad_norm": 0.6213618516921997, "learning_rate": 5.918052631578947e-05, "loss": 20.6284, "step": 89 }, { "epoch": 0.1875, "grad_norm": 1.1620638370513916, "learning_rate": 5.8647368421052634e-05, "loss": 20.6617, "step": 90 }, { "epoch": 0.18958333333333333, "grad_norm": 0.515569806098938, "learning_rate": 5.811421052631579e-05, "loss": 20.6648, "step": 91 }, { "epoch": 0.19166666666666668, "grad_norm": 0.7997931838035583, "learning_rate": 5.758105263157894e-05, "loss": 20.6617, "step": 92 }, { "epoch": 0.19375, "grad_norm": 0.48507264256477356, "learning_rate": 5.70478947368421e-05, "loss": 20.6397, "step": 93 }, { "epoch": 0.19583333333333333, "grad_norm": 0.6217122077941895, "learning_rate": 5.6514736842105256e-05, "loss": 20.6589, "step": 94 }, { "epoch": 0.19791666666666666, "grad_norm": 0.4621007442474365, "learning_rate": 5.5981578947368424e-05, "loss": 20.617, "step": 95 }, { "epoch": 0.2, "grad_norm": 0.550322413444519, "learning_rate": 5.544842105263158e-05, "loss": 20.6374, "step": 96 }, { "epoch": 0.20208333333333334, "grad_norm": 0.6280121803283691, "learning_rate": 5.491526315789474e-05, "loss": 20.6391, "step": 97 }, { "epoch": 0.20416666666666666, "grad_norm": 0.7596859931945801, "learning_rate": 5.438210526315789e-05, "loss": 20.6297, "step": 98 }, { "epoch": 0.20625, "grad_norm": 0.8180075883865356, "learning_rate": 5.384894736842105e-05, "loss": 20.6631, "step": 99 }, { "epoch": 0.20833333333333334, "grad_norm": 0.6678614616394043, "learning_rate": 5.331578947368421e-05, "loss": 20.6684, "step": 100 }, { "epoch": 0.20833333333333334, "eval_loss": 10.322370529174805, "eval_runtime": 1.019, "eval_samples_per_second": 199.215, "eval_steps_per_second": 50.049, "step": 100 }, { "epoch": 0.21041666666666667, "grad_norm": 0.4385266602039337, "learning_rate": 5.278263157894736e-05, "loss": 20.6474, "step": 101 }, { "epoch": 0.2125, "grad_norm": 0.41741111874580383, "learning_rate": 5.224947368421053e-05, "loss": 20.66, "step": 102 }, { "epoch": 0.21458333333333332, "grad_norm": 0.4977112412452698, "learning_rate": 5.171631578947368e-05, "loss": 20.6246, "step": 103 }, { "epoch": 0.21666666666666667, "grad_norm": 0.37505587935447693, "learning_rate": 5.1183157894736844e-05, "loss": 20.6505, "step": 104 }, { "epoch": 0.21875, "grad_norm": 0.3949950933456421, "learning_rate": 5.065e-05, "loss": 20.6395, "step": 105 }, { "epoch": 0.22083333333333333, "grad_norm": 0.4057898223400116, "learning_rate": 5.011684210526315e-05, "loss": 20.6332, "step": 106 }, { "epoch": 0.22291666666666668, "grad_norm": 0.3241182863712311, "learning_rate": 4.958368421052631e-05, "loss": 20.6365, "step": 107 }, { "epoch": 0.225, "grad_norm": 0.3523682653903961, "learning_rate": 4.9050526315789473e-05, "loss": 20.6223, "step": 108 }, { "epoch": 0.22708333333333333, "grad_norm": 0.36585143208503723, "learning_rate": 4.851736842105263e-05, "loss": 20.6423, "step": 109 }, { "epoch": 0.22916666666666666, "grad_norm": 0.4735593795776367, "learning_rate": 4.798421052631579e-05, "loss": 20.6347, "step": 110 }, { "epoch": 0.23125, "grad_norm": 0.4410809576511383, "learning_rate": 4.745105263157895e-05, "loss": 20.6292, "step": 111 }, { "epoch": 0.23333333333333334, "grad_norm": 0.5188106298446655, "learning_rate": 4.69178947368421e-05, "loss": 20.6171, "step": 112 }, { "epoch": 0.23541666666666666, "grad_norm": 0.46558457612991333, "learning_rate": 4.638473684210526e-05, "loss": 20.6412, "step": 113 }, { "epoch": 0.2375, "grad_norm": 0.5905560851097107, "learning_rate": 4.585157894736842e-05, "loss": 20.6499, "step": 114 }, { "epoch": 0.23958333333333334, "grad_norm": 0.48409169912338257, "learning_rate": 4.531842105263158e-05, "loss": 20.6625, "step": 115 }, { "epoch": 0.24166666666666667, "grad_norm": 0.5367798209190369, "learning_rate": 4.478526315789473e-05, "loss": 20.6262, "step": 116 }, { "epoch": 0.24375, "grad_norm": 0.6423622369766235, "learning_rate": 4.425210526315789e-05, "loss": 20.6349, "step": 117 }, { "epoch": 0.24583333333333332, "grad_norm": 0.5764158368110657, "learning_rate": 4.3718947368421054e-05, "loss": 20.6013, "step": 118 }, { "epoch": 0.24791666666666667, "grad_norm": 0.5275463461875916, "learning_rate": 4.318578947368421e-05, "loss": 20.6328, "step": 119 }, { "epoch": 0.25, "grad_norm": 0.6234863996505737, "learning_rate": 4.265263157894736e-05, "loss": 20.6474, "step": 120 }, { "epoch": 0.2520833333333333, "grad_norm": 0.7221078276634216, "learning_rate": 4.211947368421052e-05, "loss": 20.6963, "step": 121 }, { "epoch": 0.25416666666666665, "grad_norm": 0.5051620602607727, "learning_rate": 4.1586315789473684e-05, "loss": 20.6692, "step": 122 }, { "epoch": 0.25625, "grad_norm": 0.48376530408859253, "learning_rate": 4.105315789473684e-05, "loss": 20.6412, "step": 123 }, { "epoch": 0.25833333333333336, "grad_norm": 0.49838507175445557, "learning_rate": 4.052e-05, "loss": 20.6351, "step": 124 }, { "epoch": 0.2604166666666667, "grad_norm": 0.49359792470932007, "learning_rate": 3.998684210526316e-05, "loss": 20.663, "step": 125 }, { "epoch": 0.2625, "grad_norm": 0.5166780352592468, "learning_rate": 3.945368421052631e-05, "loss": 20.6373, "step": 126 }, { "epoch": 0.26458333333333334, "grad_norm": 0.49425914883613586, "learning_rate": 3.892052631578947e-05, "loss": 20.633, "step": 127 }, { "epoch": 0.26666666666666666, "grad_norm": 0.49733734130859375, "learning_rate": 3.838736842105263e-05, "loss": 20.6359, "step": 128 }, { "epoch": 0.26875, "grad_norm": 0.5188809633255005, "learning_rate": 3.785421052631579e-05, "loss": 20.6379, "step": 129 }, { "epoch": 0.2708333333333333, "grad_norm": 0.39285358786582947, "learning_rate": 3.732105263157894e-05, "loss": 20.643, "step": 130 }, { "epoch": 0.27291666666666664, "grad_norm": 0.49707740545272827, "learning_rate": 3.67878947368421e-05, "loss": 20.6648, "step": 131 }, { "epoch": 0.275, "grad_norm": 0.7976504564285278, "learning_rate": 3.6254736842105264e-05, "loss": 20.6276, "step": 132 }, { "epoch": 0.27708333333333335, "grad_norm": 0.5746451020240784, "learning_rate": 3.572157894736842e-05, "loss": 20.6436, "step": 133 }, { "epoch": 0.2791666666666667, "grad_norm": 0.6766664981842041, "learning_rate": 3.518842105263158e-05, "loss": 20.6221, "step": 134 }, { "epoch": 0.28125, "grad_norm": 0.5276723504066467, "learning_rate": 3.465526315789473e-05, "loss": 20.6462, "step": 135 }, { "epoch": 0.2833333333333333, "grad_norm": 0.5135507583618164, "learning_rate": 3.4122105263157894e-05, "loss": 20.6701, "step": 136 }, { "epoch": 0.28541666666666665, "grad_norm": 0.6995293498039246, "learning_rate": 3.358894736842105e-05, "loss": 20.6388, "step": 137 }, { "epoch": 0.2875, "grad_norm": 0.8156008720397949, "learning_rate": 3.305578947368421e-05, "loss": 20.6589, "step": 138 }, { "epoch": 0.28958333333333336, "grad_norm": 0.5687384009361267, "learning_rate": 3.252263157894737e-05, "loss": 20.689, "step": 139 }, { "epoch": 0.2916666666666667, "grad_norm": 0.8851698637008667, "learning_rate": 3.198947368421052e-05, "loss": 20.6392, "step": 140 }, { "epoch": 0.29375, "grad_norm": 0.5796428918838501, "learning_rate": 3.1456315789473684e-05, "loss": 20.6566, "step": 141 }, { "epoch": 0.29583333333333334, "grad_norm": 0.47995954751968384, "learning_rate": 3.092315789473684e-05, "loss": 20.6705, "step": 142 }, { "epoch": 0.29791666666666666, "grad_norm": 0.4602159261703491, "learning_rate": 3.039e-05, "loss": 20.635, "step": 143 }, { "epoch": 0.3, "grad_norm": 0.4354487359523773, "learning_rate": 2.9856842105263153e-05, "loss": 20.6625, "step": 144 }, { "epoch": 0.3020833333333333, "grad_norm": 0.7370344400405884, "learning_rate": 2.9323684210526317e-05, "loss": 20.6079, "step": 145 }, { "epoch": 0.30416666666666664, "grad_norm": 0.6235302686691284, "learning_rate": 2.879052631578947e-05, "loss": 20.6457, "step": 146 }, { "epoch": 0.30625, "grad_norm": 0.512186586856842, "learning_rate": 2.8257368421052628e-05, "loss": 20.6409, "step": 147 }, { "epoch": 0.30833333333333335, "grad_norm": 0.6020389199256897, "learning_rate": 2.772421052631579e-05, "loss": 20.6458, "step": 148 }, { "epoch": 0.3104166666666667, "grad_norm": 0.8881978988647461, "learning_rate": 2.7191052631578946e-05, "loss": 20.6533, "step": 149 }, { "epoch": 0.3125, "grad_norm": 0.6261757016181946, "learning_rate": 2.6657894736842104e-05, "loss": 20.6573, "step": 150 }, { "epoch": 0.3125, "eval_loss": 10.321195602416992, "eval_runtime": 1.0805, "eval_samples_per_second": 187.879, "eval_steps_per_second": 47.201, "step": 150 }, { "epoch": 0.3145833333333333, "grad_norm": 0.396433025598526, "learning_rate": 2.6124736842105265e-05, "loss": 20.6494, "step": 151 }, { "epoch": 0.31666666666666665, "grad_norm": 0.5158248543739319, "learning_rate": 2.5591578947368422e-05, "loss": 20.6223, "step": 152 }, { "epoch": 0.31875, "grad_norm": 0.4182606339454651, "learning_rate": 2.5058421052631576e-05, "loss": 20.6377, "step": 153 }, { "epoch": 0.32083333333333336, "grad_norm": 0.41166260838508606, "learning_rate": 2.4525263157894737e-05, "loss": 20.6305, "step": 154 }, { "epoch": 0.3229166666666667, "grad_norm": 0.4873163402080536, "learning_rate": 2.3992105263157894e-05, "loss": 20.6378, "step": 155 }, { "epoch": 0.325, "grad_norm": 0.3092517852783203, "learning_rate": 2.345894736842105e-05, "loss": 20.6302, "step": 156 }, { "epoch": 0.32708333333333334, "grad_norm": 0.3140634298324585, "learning_rate": 2.292578947368421e-05, "loss": 20.6357, "step": 157 }, { "epoch": 0.32916666666666666, "grad_norm": 0.5920194387435913, "learning_rate": 2.2392631578947366e-05, "loss": 20.6324, "step": 158 }, { "epoch": 0.33125, "grad_norm": 0.4728413224220276, "learning_rate": 2.1859473684210527e-05, "loss": 20.6226, "step": 159 }, { "epoch": 0.3333333333333333, "grad_norm": 0.3897598683834076, "learning_rate": 2.132631578947368e-05, "loss": 20.6237, "step": 160 }, { "epoch": 0.33541666666666664, "grad_norm": 0.5689892768859863, "learning_rate": 2.0793157894736842e-05, "loss": 20.6367, "step": 161 }, { "epoch": 0.3375, "grad_norm": 0.4379670321941376, "learning_rate": 2.026e-05, "loss": 20.6212, "step": 162 }, { "epoch": 0.33958333333333335, "grad_norm": 0.4417364299297333, "learning_rate": 1.9726842105263157e-05, "loss": 20.6563, "step": 163 }, { "epoch": 0.3416666666666667, "grad_norm": 0.44751083850860596, "learning_rate": 1.9193684210526314e-05, "loss": 20.6331, "step": 164 }, { "epoch": 0.34375, "grad_norm": 0.5610325336456299, "learning_rate": 1.866052631578947e-05, "loss": 20.6583, "step": 165 }, { "epoch": 0.3458333333333333, "grad_norm": 0.7253609895706177, "learning_rate": 1.8127368421052632e-05, "loss": 20.6524, "step": 166 }, { "epoch": 0.34791666666666665, "grad_norm": 0.48384615778923035, "learning_rate": 1.759421052631579e-05, "loss": 20.6326, "step": 167 }, { "epoch": 0.35, "grad_norm": 0.6290586590766907, "learning_rate": 1.7061052631578947e-05, "loss": 20.588, "step": 168 }, { "epoch": 0.35208333333333336, "grad_norm": 0.4987987279891968, "learning_rate": 1.6527894736842104e-05, "loss": 20.62, "step": 169 }, { "epoch": 0.3541666666666667, "grad_norm": 0.46212947368621826, "learning_rate": 1.599473684210526e-05, "loss": 20.6189, "step": 170 }, { "epoch": 0.35625, "grad_norm": 0.5743746757507324, "learning_rate": 1.546157894736842e-05, "loss": 20.6652, "step": 171 }, { "epoch": 0.35833333333333334, "grad_norm": 0.7571426630020142, "learning_rate": 1.4928421052631576e-05, "loss": 20.6462, "step": 172 }, { "epoch": 0.36041666666666666, "grad_norm": 0.4095039665699005, "learning_rate": 1.4395263157894735e-05, "loss": 20.6249, "step": 173 }, { "epoch": 0.3625, "grad_norm": 0.44304630160331726, "learning_rate": 1.3862105263157895e-05, "loss": 20.6589, "step": 174 }, { "epoch": 0.3645833333333333, "grad_norm": 0.44080987572669983, "learning_rate": 1.3328947368421052e-05, "loss": 20.6469, "step": 175 }, { "epoch": 0.36666666666666664, "grad_norm": 0.35375094413757324, "learning_rate": 1.2795789473684211e-05, "loss": 20.6367, "step": 176 }, { "epoch": 0.36875, "grad_norm": 0.5444054007530212, "learning_rate": 1.2262631578947368e-05, "loss": 20.6538, "step": 177 }, { "epoch": 0.37083333333333335, "grad_norm": 0.5192680358886719, "learning_rate": 1.1729473684210526e-05, "loss": 20.6364, "step": 178 }, { "epoch": 0.3729166666666667, "grad_norm": 0.4619433581829071, "learning_rate": 1.1196315789473683e-05, "loss": 20.6507, "step": 179 }, { "epoch": 0.375, "grad_norm": 0.47730815410614014, "learning_rate": 1.066315789473684e-05, "loss": 20.6532, "step": 180 }, { "epoch": 0.3770833333333333, "grad_norm": 0.5851055979728699, "learning_rate": 1.013e-05, "loss": 20.6487, "step": 181 }, { "epoch": 0.37916666666666665, "grad_norm": 0.4503679871559143, "learning_rate": 9.596842105263157e-06, "loss": 20.6606, "step": 182 }, { "epoch": 0.38125, "grad_norm": 0.44411399960517883, "learning_rate": 9.063684210526316e-06, "loss": 20.625, "step": 183 }, { "epoch": 0.38333333333333336, "grad_norm": 0.6106891632080078, "learning_rate": 8.530526315789473e-06, "loss": 20.6381, "step": 184 }, { "epoch": 0.3854166666666667, "grad_norm": 0.5893099308013916, "learning_rate": 7.99736842105263e-06, "loss": 20.6543, "step": 185 }, { "epoch": 0.3875, "grad_norm": 0.5627808570861816, "learning_rate": 7.464210526315788e-06, "loss": 20.6553, "step": 186 }, { "epoch": 0.38958333333333334, "grad_norm": 0.5737026333808899, "learning_rate": 6.931052631578947e-06, "loss": 20.6238, "step": 187 }, { "epoch": 0.39166666666666666, "grad_norm": 0.7561337351799011, "learning_rate": 6.3978947368421055e-06, "loss": 20.6556, "step": 188 }, { "epoch": 0.39375, "grad_norm": 0.6301289200782776, "learning_rate": 5.864736842105263e-06, "loss": 20.6375, "step": 189 }, { "epoch": 0.3958333333333333, "grad_norm": 0.5358433127403259, "learning_rate": 5.33157894736842e-06, "loss": 20.6691, "step": 190 }, { "epoch": 0.39791666666666664, "grad_norm": 0.38694852590560913, "learning_rate": 4.7984210526315785e-06, "loss": 20.6612, "step": 191 }, { "epoch": 0.4, "grad_norm": 0.46380680799484253, "learning_rate": 4.265263157894737e-06, "loss": 20.6385, "step": 192 }, { "epoch": 0.40208333333333335, "grad_norm": 0.49250560998916626, "learning_rate": 3.732105263157894e-06, "loss": 20.6378, "step": 193 }, { "epoch": 0.4041666666666667, "grad_norm": 0.3325363099575043, "learning_rate": 3.1989473684210527e-06, "loss": 20.6393, "step": 194 }, { "epoch": 0.40625, "grad_norm": 0.36900144815444946, "learning_rate": 2.66578947368421e-06, "loss": 20.6299, "step": 195 }, { "epoch": 0.4083333333333333, "grad_norm": 0.5481805205345154, "learning_rate": 2.1326315789473684e-06, "loss": 20.6391, "step": 196 }, { "epoch": 0.41041666666666665, "grad_norm": 0.6909500956535339, "learning_rate": 1.5994736842105264e-06, "loss": 20.6108, "step": 197 }, { "epoch": 0.4125, "grad_norm": 0.7030799984931946, "learning_rate": 1.0663157894736842e-06, "loss": 20.6344, "step": 198 }, { "epoch": 0.41458333333333336, "grad_norm": 0.7141848206520081, "learning_rate": 5.331578947368421e-07, "loss": 20.6562, "step": 199 }, { "epoch": 0.4166666666666667, "grad_norm": 0.6437216401100159, "learning_rate": 0.0, "loss": 20.6452, "step": 200 }, { "epoch": 0.4166666666666667, "eval_loss": 10.32067584991455, "eval_runtime": 1.0275, "eval_samples_per_second": 197.571, "eval_steps_per_second": 49.636, "step": 200 } ], "logging_steps": 1, "max_steps": 200, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 50, "stateful_callbacks": { "EarlyStoppingCallback": { "args": { "early_stopping_patience": 5, "early_stopping_threshold": 0.0 }, "attributes": { "early_stopping_patience_counter": 0 } }, "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 14821833572352.0, "train_batch_size": 4, "trial_name": null, "trial_params": null }