diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,26292 @@ +{ + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 1.0, + "eval_steps": 500, + "global_step": 3750, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.0002666666666666667, + "grad_norm": 16.664779387467302, + "learning_rate": 8.771929824561404e-08, + "loss": 1.1585, + "step": 1 + }, + { + "epoch": 0.0005333333333333334, + "grad_norm": 21.259110828252272, + "learning_rate": 1.7543859649122808e-07, + "loss": 1.3009, + "step": 2 + }, + { + "epoch": 0.0008, + "grad_norm": 17.732992884609583, + "learning_rate": 2.6315789473684213e-07, + "loss": 1.2139, + "step": 3 + }, + { + "epoch": 0.0010666666666666667, + "grad_norm": 27.211841293013986, + "learning_rate": 3.5087719298245616e-07, + "loss": 1.3633, + "step": 4 + }, + { + "epoch": 0.0013333333333333333, + "grad_norm": 19.90230320000923, + "learning_rate": 4.385964912280702e-07, + "loss": 1.3111, + "step": 5 + }, + { + "epoch": 0.0016, + "grad_norm": 25.128699876059585, + "learning_rate": 5.263157894736843e-07, + "loss": 1.4258, + "step": 6 + }, + { + "epoch": 0.0018666666666666666, + "grad_norm": 20.211274918364534, + "learning_rate": 6.140350877192982e-07, + "loss": 1.2316, + "step": 7 + }, + { + "epoch": 0.0021333333333333334, + "grad_norm": 18.945852675414784, + "learning_rate": 7.017543859649123e-07, + "loss": 1.2081, + "step": 8 + }, + { + "epoch": 0.0024, + "grad_norm": 17.04455353569353, + "learning_rate": 7.894736842105263e-07, + "loss": 1.2149, + "step": 9 + }, + { + "epoch": 0.0026666666666666666, + "grad_norm": 16.899842737423874, + "learning_rate": 8.771929824561404e-07, + "loss": 1.1125, + "step": 10 + }, + { + "epoch": 0.0029333333333333334, + "grad_norm": 18.08762146117638, + "learning_rate": 9.649122807017545e-07, + "loss": 1.1811, + "step": 11 + }, + { + "epoch": 0.0032, + "grad_norm": 16.2832700777289, + "learning_rate": 1.0526315789473685e-06, + "loss": 1.0205, + "step": 12 + }, + { + "epoch": 0.0034666666666666665, + "grad_norm": 13.790617795284318, + "learning_rate": 1.1403508771929824e-06, + "loss": 1.0519, + "step": 13 + }, + { + "epoch": 0.0037333333333333333, + "grad_norm": 16.306849589321732, + "learning_rate": 1.2280701754385965e-06, + "loss": 1.0359, + "step": 14 + }, + { + "epoch": 0.004, + "grad_norm": 7.942837650824751, + "learning_rate": 1.3157894736842106e-06, + "loss": 0.8823, + "step": 15 + }, + { + "epoch": 0.004266666666666667, + "grad_norm": 8.474295367631033, + "learning_rate": 1.4035087719298246e-06, + "loss": 0.8862, + "step": 16 + }, + { + "epoch": 0.004533333333333334, + "grad_norm": 6.83826623068806, + "learning_rate": 1.4912280701754387e-06, + "loss": 0.8772, + "step": 17 + }, + { + "epoch": 0.0048, + "grad_norm": 6.13212128531144, + "learning_rate": 1.5789473684210526e-06, + "loss": 0.7811, + "step": 18 + }, + { + "epoch": 0.005066666666666666, + "grad_norm": 6.214004650213308, + "learning_rate": 1.6666666666666667e-06, + "loss": 0.8042, + "step": 19 + }, + { + "epoch": 0.005333333333333333, + "grad_norm": 5.643022914757044, + "learning_rate": 1.7543859649122807e-06, + "loss": 0.806, + "step": 20 + }, + { + "epoch": 0.0056, + "grad_norm": 6.375424282038437, + "learning_rate": 1.8421052631578948e-06, + "loss": 0.7365, + "step": 21 + }, + { + "epoch": 0.005866666666666667, + "grad_norm": 5.90062047649027, + "learning_rate": 1.929824561403509e-06, + "loss": 0.7356, + "step": 22 + }, + { + "epoch": 0.0061333333333333335, + "grad_norm": 5.735589010403914, + "learning_rate": 2.017543859649123e-06, + "loss": 0.7852, + "step": 23 + }, + { + "epoch": 0.0064, + "grad_norm": 4.729703875740328, + "learning_rate": 2.105263157894737e-06, + "loss": 0.6797, + "step": 24 + }, + { + "epoch": 0.006666666666666667, + "grad_norm": 4.821504315991865, + "learning_rate": 2.192982456140351e-06, + "loss": 0.7002, + "step": 25 + }, + { + "epoch": 0.006933333333333333, + "grad_norm": 4.927851683299393, + "learning_rate": 2.280701754385965e-06, + "loss": 0.6842, + "step": 26 + }, + { + "epoch": 0.0072, + "grad_norm": 5.137324317569162, + "learning_rate": 2.368421052631579e-06, + "loss": 0.7083, + "step": 27 + }, + { + "epoch": 0.007466666666666667, + "grad_norm": 5.268760209424453, + "learning_rate": 2.456140350877193e-06, + "loss": 0.7123, + "step": 28 + }, + { + "epoch": 0.007733333333333333, + "grad_norm": 4.591521035546915, + "learning_rate": 2.5438596491228075e-06, + "loss": 0.6304, + "step": 29 + }, + { + "epoch": 0.008, + "grad_norm": 4.207797136242618, + "learning_rate": 2.631578947368421e-06, + "loss": 0.6349, + "step": 30 + }, + { + "epoch": 0.008266666666666667, + "grad_norm": 4.62097317018694, + "learning_rate": 2.7192982456140356e-06, + "loss": 0.6225, + "step": 31 + }, + { + "epoch": 0.008533333333333334, + "grad_norm": 4.66399450986635, + "learning_rate": 2.8070175438596493e-06, + "loss": 0.6018, + "step": 32 + }, + { + "epoch": 0.0088, + "grad_norm": 4.831310305591146, + "learning_rate": 2.8947368421052634e-06, + "loss": 0.6107, + "step": 33 + }, + { + "epoch": 0.009066666666666667, + "grad_norm": 4.891695649176905, + "learning_rate": 2.9824561403508774e-06, + "loss": 0.6257, + "step": 34 + }, + { + "epoch": 0.009333333333333334, + "grad_norm": 4.3457536675681325, + "learning_rate": 3.0701754385964915e-06, + "loss": 0.6031, + "step": 35 + }, + { + "epoch": 0.0096, + "grad_norm": 5.110868253262536, + "learning_rate": 3.157894736842105e-06, + "loss": 0.6442, + "step": 36 + }, + { + "epoch": 0.009866666666666666, + "grad_norm": 4.557330645644073, + "learning_rate": 3.2456140350877197e-06, + "loss": 0.5805, + "step": 37 + }, + { + "epoch": 0.010133333333333333, + "grad_norm": 4.773438432021475, + "learning_rate": 3.3333333333333333e-06, + "loss": 0.6043, + "step": 38 + }, + { + "epoch": 0.0104, + "grad_norm": 4.4452460683286805, + "learning_rate": 3.421052631578948e-06, + "loss": 0.5922, + "step": 39 + }, + { + "epoch": 0.010666666666666666, + "grad_norm": 4.354531332452033, + "learning_rate": 3.5087719298245615e-06, + "loss": 0.5702, + "step": 40 + }, + { + "epoch": 0.010933333333333333, + "grad_norm": 4.149325932780086, + "learning_rate": 3.596491228070176e-06, + "loss": 0.5657, + "step": 41 + }, + { + "epoch": 0.0112, + "grad_norm": 4.9095519849137395, + "learning_rate": 3.6842105263157896e-06, + "loss": 0.6041, + "step": 42 + }, + { + "epoch": 0.011466666666666667, + "grad_norm": 4.335381010732938, + "learning_rate": 3.7719298245614037e-06, + "loss": 0.6024, + "step": 43 + }, + { + "epoch": 0.011733333333333333, + "grad_norm": 3.654183525448732, + "learning_rate": 3.859649122807018e-06, + "loss": 0.5029, + "step": 44 + }, + { + "epoch": 0.012, + "grad_norm": 3.642659442322371, + "learning_rate": 3.947368421052632e-06, + "loss": 0.4944, + "step": 45 + }, + { + "epoch": 0.012266666666666667, + "grad_norm": 4.076536234470417, + "learning_rate": 4.035087719298246e-06, + "loss": 0.5602, + "step": 46 + }, + { + "epoch": 0.012533333333333334, + "grad_norm": 4.345904381688737, + "learning_rate": 4.12280701754386e-06, + "loss": 0.5844, + "step": 47 + }, + { + "epoch": 0.0128, + "grad_norm": 3.790935881903741, + "learning_rate": 4.210526315789474e-06, + "loss": 0.5543, + "step": 48 + }, + { + "epoch": 0.013066666666666667, + "grad_norm": 4.43947747284119, + "learning_rate": 4.298245614035088e-06, + "loss": 0.6317, + "step": 49 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 4.2214032418178835, + "learning_rate": 4.385964912280702e-06, + "loss": 0.5675, + "step": 50 + }, + { + "epoch": 0.0136, + "grad_norm": 4.177891117760546, + "learning_rate": 4.473684210526316e-06, + "loss": 0.539, + "step": 51 + }, + { + "epoch": 0.013866666666666666, + "grad_norm": 3.8765276391219103, + "learning_rate": 4.56140350877193e-06, + "loss": 0.5401, + "step": 52 + }, + { + "epoch": 0.014133333333333333, + "grad_norm": 4.139376801664263, + "learning_rate": 4.649122807017544e-06, + "loss": 0.5683, + "step": 53 + }, + { + "epoch": 0.0144, + "grad_norm": 4.386406428056687, + "learning_rate": 4.736842105263158e-06, + "loss": 0.6051, + "step": 54 + }, + { + "epoch": 0.014666666666666666, + "grad_norm": 4.064778648215169, + "learning_rate": 4.824561403508772e-06, + "loss": 0.5759, + "step": 55 + }, + { + "epoch": 0.014933333333333333, + "grad_norm": 4.219162510613236, + "learning_rate": 4.912280701754386e-06, + "loss": 0.5704, + "step": 56 + }, + { + "epoch": 0.0152, + "grad_norm": 3.831974081926601, + "learning_rate": 5e-06, + "loss": 0.5397, + "step": 57 + }, + { + "epoch": 0.015466666666666667, + "grad_norm": 4.6183346531644744, + "learning_rate": 4.999999095411386e-06, + "loss": 0.6138, + "step": 58 + }, + { + "epoch": 0.015733333333333332, + "grad_norm": 3.7387169752428195, + "learning_rate": 4.9999963816462e-06, + "loss": 0.5323, + "step": 59 + }, + { + "epoch": 0.016, + "grad_norm": 4.239229425480186, + "learning_rate": 4.999991858706405e-06, + "loss": 0.4789, + "step": 60 + }, + { + "epoch": 0.016266666666666665, + "grad_norm": 3.7689009798083024, + "learning_rate": 4.9999855265952725e-06, + "loss": 0.5465, + "step": 61 + }, + { + "epoch": 0.016533333333333334, + "grad_norm": 4.05183646162081, + "learning_rate": 4.9999773853173875e-06, + "loss": 0.5761, + "step": 62 + }, + { + "epoch": 0.0168, + "grad_norm": 3.931061351868771, + "learning_rate": 4.99996743487864e-06, + "loss": 0.54, + "step": 63 + }, + { + "epoch": 0.017066666666666667, + "grad_norm": 3.6573129700054587, + "learning_rate": 4.999955675286231e-06, + "loss": 0.5477, + "step": 64 + }, + { + "epoch": 0.017333333333333333, + "grad_norm": 4.074275033874058, + "learning_rate": 4.999942106548672e-06, + "loss": 0.5834, + "step": 65 + }, + { + "epoch": 0.0176, + "grad_norm": 3.494548303290731, + "learning_rate": 4.99992672867578e-06, + "loss": 0.5213, + "step": 66 + }, + { + "epoch": 0.017866666666666666, + "grad_norm": 4.03353340840384, + "learning_rate": 4.999909541678686e-06, + "loss": 0.5532, + "step": 67 + }, + { + "epoch": 0.018133333333333335, + "grad_norm": 3.8866233851405685, + "learning_rate": 4.999890545569825e-06, + "loss": 0.5791, + "step": 68 + }, + { + "epoch": 0.0184, + "grad_norm": 3.9571742348999366, + "learning_rate": 4.999869740362947e-06, + "loss": 0.5193, + "step": 69 + }, + { + "epoch": 0.018666666666666668, + "grad_norm": 4.275313986435107, + "learning_rate": 4.999847126073107e-06, + "loss": 0.5868, + "step": 70 + }, + { + "epoch": 0.018933333333333333, + "grad_norm": 4.715217195538646, + "learning_rate": 4.999822702716668e-06, + "loss": 0.636, + "step": 71 + }, + { + "epoch": 0.0192, + "grad_norm": 3.6899622703893504, + "learning_rate": 4.999796470311307e-06, + "loss": 0.5449, + "step": 72 + }, + { + "epoch": 0.019466666666666667, + "grad_norm": 3.741914785422942, + "learning_rate": 4.999768428876007e-06, + "loss": 0.5359, + "step": 73 + }, + { + "epoch": 0.019733333333333332, + "grad_norm": 4.294176117244813, + "learning_rate": 4.999738578431061e-06, + "loss": 0.6106, + "step": 74 + }, + { + "epoch": 0.02, + "grad_norm": 3.832398928514838, + "learning_rate": 4.99970691899807e-06, + "loss": 0.5616, + "step": 75 + }, + { + "epoch": 0.020266666666666665, + "grad_norm": 3.6813352011445586, + "learning_rate": 4.999673450599946e-06, + "loss": 0.4993, + "step": 76 + }, + { + "epoch": 0.020533333333333334, + "grad_norm": 3.6417212739231264, + "learning_rate": 4.999638173260908e-06, + "loss": 0.5886, + "step": 77 + }, + { + "epoch": 0.0208, + "grad_norm": 3.912060920032368, + "learning_rate": 4.999601087006487e-06, + "loss": 0.5709, + "step": 78 + }, + { + "epoch": 0.021066666666666668, + "grad_norm": 3.580747505651906, + "learning_rate": 4.99956219186352e-06, + "loss": 0.5004, + "step": 79 + }, + { + "epoch": 0.021333333333333333, + "grad_norm": 2.944029948159031, + "learning_rate": 4.999521487860154e-06, + "loss": 0.4468, + "step": 80 + }, + { + "epoch": 0.0216, + "grad_norm": 3.601419453991183, + "learning_rate": 4.999478975025845e-06, + "loss": 0.5409, + "step": 81 + }, + { + "epoch": 0.021866666666666666, + "grad_norm": 3.797133488665564, + "learning_rate": 4.999434653391361e-06, + "loss": 0.56, + "step": 82 + }, + { + "epoch": 0.022133333333333335, + "grad_norm": 3.7270657577804203, + "learning_rate": 4.9993885229887725e-06, + "loss": 0.5323, + "step": 83 + }, + { + "epoch": 0.0224, + "grad_norm": 3.5578036473131047, + "learning_rate": 4.9993405838514656e-06, + "loss": 0.4826, + "step": 84 + }, + { + "epoch": 0.02266666666666667, + "grad_norm": 3.6576120898756255, + "learning_rate": 4.999290836014131e-06, + "loss": 0.5021, + "step": 85 + }, + { + "epoch": 0.022933333333333333, + "grad_norm": 3.9216063758679063, + "learning_rate": 4.99923927951277e-06, + "loss": 0.5341, + "step": 86 + }, + { + "epoch": 0.0232, + "grad_norm": 3.9928924345830814, + "learning_rate": 4.9991859143846934e-06, + "loss": 0.5782, + "step": 87 + }, + { + "epoch": 0.023466666666666667, + "grad_norm": 3.812922190094923, + "learning_rate": 4.9991307406685185e-06, + "loss": 0.5558, + "step": 88 + }, + { + "epoch": 0.023733333333333332, + "grad_norm": 4.326274624009955, + "learning_rate": 4.999073758404174e-06, + "loss": 0.6184, + "step": 89 + }, + { + "epoch": 0.024, + "grad_norm": 3.8419338354451167, + "learning_rate": 4.999014967632896e-06, + "loss": 0.5223, + "step": 90 + }, + { + "epoch": 0.024266666666666666, + "grad_norm": 3.5058696550240933, + "learning_rate": 4.99895436839723e-06, + "loss": 0.4855, + "step": 91 + }, + { + "epoch": 0.024533333333333334, + "grad_norm": 3.8292763418802283, + "learning_rate": 4.9988919607410295e-06, + "loss": 0.5978, + "step": 92 + }, + { + "epoch": 0.0248, + "grad_norm": 3.6789483112868817, + "learning_rate": 4.998827744709457e-06, + "loss": 0.5151, + "step": 93 + }, + { + "epoch": 0.025066666666666668, + "grad_norm": 3.6727854869156733, + "learning_rate": 4.998761720348984e-06, + "loss": 0.5391, + "step": 94 + }, + { + "epoch": 0.025333333333333333, + "grad_norm": 3.6735755581735043, + "learning_rate": 4.99869388770739e-06, + "loss": 0.5439, + "step": 95 + }, + { + "epoch": 0.0256, + "grad_norm": 3.8225889183763493, + "learning_rate": 4.998624246833764e-06, + "loss": 0.5479, + "step": 96 + }, + { + "epoch": 0.025866666666666666, + "grad_norm": 4.541475336968338, + "learning_rate": 4.998552797778503e-06, + "loss": 0.5631, + "step": 97 + }, + { + "epoch": 0.026133333333333335, + "grad_norm": 3.716982842811319, + "learning_rate": 4.998479540593313e-06, + "loss": 0.5359, + "step": 98 + }, + { + "epoch": 0.0264, + "grad_norm": 3.87105906410667, + "learning_rate": 4.998404475331207e-06, + "loss": 0.5079, + "step": 99 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 4.640660694203583, + "learning_rate": 4.998327602046509e-06, + "loss": 0.5931, + "step": 100 + }, + { + "epoch": 0.026933333333333333, + "grad_norm": 3.931945796970524, + "learning_rate": 4.998248920794848e-06, + "loss": 0.6112, + "step": 101 + }, + { + "epoch": 0.0272, + "grad_norm": 3.6011115802109357, + "learning_rate": 4.998168431633166e-06, + "loss": 0.5479, + "step": 102 + }, + { + "epoch": 0.027466666666666667, + "grad_norm": 3.7922912213009674, + "learning_rate": 4.998086134619708e-06, + "loss": 0.5408, + "step": 103 + }, + { + "epoch": 0.027733333333333332, + "grad_norm": 5.230073812133869, + "learning_rate": 4.998002029814032e-06, + "loss": 0.5253, + "step": 104 + }, + { + "epoch": 0.028, + "grad_norm": 3.3549558199957987, + "learning_rate": 4.997916117277e-06, + "loss": 0.4897, + "step": 105 + }, + { + "epoch": 0.028266666666666666, + "grad_norm": 3.2546829730647167, + "learning_rate": 4.997828397070787e-06, + "loss": 0.4921, + "step": 106 + }, + { + "epoch": 0.028533333333333334, + "grad_norm": 3.5467011504565726, + "learning_rate": 4.997738869258871e-06, + "loss": 0.5343, + "step": 107 + }, + { + "epoch": 0.0288, + "grad_norm": 3.299989078332568, + "learning_rate": 4.997647533906043e-06, + "loss": 0.5215, + "step": 108 + }, + { + "epoch": 0.029066666666666668, + "grad_norm": 3.377007248269215, + "learning_rate": 4.997554391078398e-06, + "loss": 0.5329, + "step": 109 + }, + { + "epoch": 0.029333333333333333, + "grad_norm": 3.2141221604903945, + "learning_rate": 4.997459440843342e-06, + "loss": 0.4558, + "step": 110 + }, + { + "epoch": 0.0296, + "grad_norm": 3.3463765683517708, + "learning_rate": 4.997362683269587e-06, + "loss": 0.5167, + "step": 111 + }, + { + "epoch": 0.029866666666666666, + "grad_norm": 3.5339087474526027, + "learning_rate": 4.997264118427153e-06, + "loss": 0.5159, + "step": 112 + }, + { + "epoch": 0.030133333333333335, + "grad_norm": 3.8098671461388793, + "learning_rate": 4.99716374638737e-06, + "loss": 0.5734, + "step": 113 + }, + { + "epoch": 0.0304, + "grad_norm": 3.2757471712055244, + "learning_rate": 4.997061567222873e-06, + "loss": 0.486, + "step": 114 + }, + { + "epoch": 0.030666666666666665, + "grad_norm": 3.286678784675395, + "learning_rate": 4.996957581007608e-06, + "loss": 0.5165, + "step": 115 + }, + { + "epoch": 0.030933333333333334, + "grad_norm": 3.6434219044744136, + "learning_rate": 4.9968517878168245e-06, + "loss": 0.5237, + "step": 116 + }, + { + "epoch": 0.0312, + "grad_norm": 3.627938615615135, + "learning_rate": 4.996744187727083e-06, + "loss": 0.5142, + "step": 117 + }, + { + "epoch": 0.031466666666666664, + "grad_norm": 3.320853097575591, + "learning_rate": 4.99663478081625e-06, + "loss": 0.5195, + "step": 118 + }, + { + "epoch": 0.031733333333333336, + "grad_norm": 3.6391771571423654, + "learning_rate": 4.996523567163502e-06, + "loss": 0.5618, + "step": 119 + }, + { + "epoch": 0.032, + "grad_norm": 3.4863362691510322, + "learning_rate": 4.996410546849318e-06, + "loss": 0.5404, + "step": 120 + }, + { + "epoch": 0.032266666666666666, + "grad_norm": 4.017840443053972, + "learning_rate": 4.996295719955491e-06, + "loss": 0.5362, + "step": 121 + }, + { + "epoch": 0.03253333333333333, + "grad_norm": 3.2984055568221984, + "learning_rate": 4.996179086565114e-06, + "loss": 0.4817, + "step": 122 + }, + { + "epoch": 0.0328, + "grad_norm": 3.035660532380442, + "learning_rate": 4.996060646762595e-06, + "loss": 0.4517, + "step": 123 + }, + { + "epoch": 0.03306666666666667, + "grad_norm": 3.539994686736976, + "learning_rate": 4.995940400633643e-06, + "loss": 0.528, + "step": 124 + }, + { + "epoch": 0.03333333333333333, + "grad_norm": 3.334218903660853, + "learning_rate": 4.995818348265278e-06, + "loss": 0.4999, + "step": 125 + }, + { + "epoch": 0.0336, + "grad_norm": 3.964059548314963, + "learning_rate": 4.995694489745824e-06, + "loss": 0.5518, + "step": 126 + }, + { + "epoch": 0.03386666666666667, + "grad_norm": 3.3899972345657137, + "learning_rate": 4.995568825164915e-06, + "loss": 0.5279, + "step": 127 + }, + { + "epoch": 0.034133333333333335, + "grad_norm": 3.5709219668983643, + "learning_rate": 4.995441354613491e-06, + "loss": 0.5486, + "step": 128 + }, + { + "epoch": 0.0344, + "grad_norm": 4.98908649883216, + "learning_rate": 4.995312078183798e-06, + "loss": 0.5248, + "step": 129 + }, + { + "epoch": 0.034666666666666665, + "grad_norm": 3.4693372789893764, + "learning_rate": 4.995180995969391e-06, + "loss": 0.5555, + "step": 130 + }, + { + "epoch": 0.03493333333333333, + "grad_norm": 3.1631371509927786, + "learning_rate": 4.995048108065129e-06, + "loss": 0.4766, + "step": 131 + }, + { + "epoch": 0.0352, + "grad_norm": 3.6587619499659767, + "learning_rate": 4.994913414567179e-06, + "loss": 0.5211, + "step": 132 + }, + { + "epoch": 0.03546666666666667, + "grad_norm": 3.3219752454058558, + "learning_rate": 4.9947769155730155e-06, + "loss": 0.5275, + "step": 133 + }, + { + "epoch": 0.03573333333333333, + "grad_norm": 3.413632369325516, + "learning_rate": 4.994638611181418e-06, + "loss": 0.5289, + "step": 134 + }, + { + "epoch": 0.036, + "grad_norm": 3.6136773511380684, + "learning_rate": 4.994498501492475e-06, + "loss": 0.5283, + "step": 135 + }, + { + "epoch": 0.03626666666666667, + "grad_norm": 4.026084256616267, + "learning_rate": 4.994356586607578e-06, + "loss": 0.5208, + "step": 136 + }, + { + "epoch": 0.036533333333333334, + "grad_norm": 3.722023910761381, + "learning_rate": 4.994212866629428e-06, + "loss": 0.5414, + "step": 137 + }, + { + "epoch": 0.0368, + "grad_norm": 3.5528597040724392, + "learning_rate": 4.99406734166203e-06, + "loss": 0.5266, + "step": 138 + }, + { + "epoch": 0.037066666666666664, + "grad_norm": 3.1590905669047276, + "learning_rate": 4.9939200118106965e-06, + "loss": 0.4458, + "step": 139 + }, + { + "epoch": 0.037333333333333336, + "grad_norm": 3.246167195189022, + "learning_rate": 4.9937708771820465e-06, + "loss": 0.5281, + "step": 140 + }, + { + "epoch": 0.0376, + "grad_norm": 3.336184435055362, + "learning_rate": 4.993619937884003e-06, + "loss": 0.5229, + "step": 141 + }, + { + "epoch": 0.037866666666666667, + "grad_norm": 4.121329975887411, + "learning_rate": 4.993467194025798e-06, + "loss": 0.6044, + "step": 142 + }, + { + "epoch": 0.03813333333333333, + "grad_norm": 3.5145940681973973, + "learning_rate": 4.9933126457179664e-06, + "loss": 0.5135, + "step": 143 + }, + { + "epoch": 0.0384, + "grad_norm": 3.826425100945296, + "learning_rate": 4.993156293072351e-06, + "loss": 0.5524, + "step": 144 + }, + { + "epoch": 0.03866666666666667, + "grad_norm": 3.2350581179193956, + "learning_rate": 4.9929981362021e-06, + "loss": 0.4861, + "step": 145 + }, + { + "epoch": 0.038933333333333334, + "grad_norm": 3.5244201937931736, + "learning_rate": 4.992838175221665e-06, + "loss": 0.4949, + "step": 146 + }, + { + "epoch": 0.0392, + "grad_norm": 3.345002474222351, + "learning_rate": 4.992676410246808e-06, + "loss": 0.4843, + "step": 147 + }, + { + "epoch": 0.039466666666666664, + "grad_norm": 3.982107262081199, + "learning_rate": 4.9925128413945915e-06, + "loss": 0.5169, + "step": 148 + }, + { + "epoch": 0.039733333333333336, + "grad_norm": 4.420206156116031, + "learning_rate": 4.992347468783386e-06, + "loss": 0.519, + "step": 149 + }, + { + "epoch": 0.04, + "grad_norm": 3.5986824396586155, + "learning_rate": 4.992180292532868e-06, + "loss": 0.4976, + "step": 150 + }, + { + "epoch": 0.040266666666666666, + "grad_norm": 3.4658534857792276, + "learning_rate": 4.9920113127640154e-06, + "loss": 0.5241, + "step": 151 + }, + { + "epoch": 0.04053333333333333, + "grad_norm": 3.2345602463007004, + "learning_rate": 4.991840529599117e-06, + "loss": 0.5189, + "step": 152 + }, + { + "epoch": 0.0408, + "grad_norm": 3.016814163613408, + "learning_rate": 4.991667943161762e-06, + "loss": 0.4747, + "step": 153 + }, + { + "epoch": 0.04106666666666667, + "grad_norm": 3.307813360099244, + "learning_rate": 4.991493553576846e-06, + "loss": 0.5055, + "step": 154 + }, + { + "epoch": 0.04133333333333333, + "grad_norm": 3.312645878921915, + "learning_rate": 4.99131736097057e-06, + "loss": 0.5269, + "step": 155 + }, + { + "epoch": 0.0416, + "grad_norm": 3.376637583630637, + "learning_rate": 4.991139365470441e-06, + "loss": 0.5312, + "step": 156 + }, + { + "epoch": 0.04186666666666667, + "grad_norm": 3.1609600696998936, + "learning_rate": 4.990959567205266e-06, + "loss": 0.5342, + "step": 157 + }, + { + "epoch": 0.042133333333333335, + "grad_norm": 3.187100198932855, + "learning_rate": 4.990777966305163e-06, + "loss": 0.493, + "step": 158 + }, + { + "epoch": 0.0424, + "grad_norm": 3.185942977276951, + "learning_rate": 4.9905945629015485e-06, + "loss": 0.507, + "step": 159 + }, + { + "epoch": 0.042666666666666665, + "grad_norm": 2.832730109420205, + "learning_rate": 4.990409357127148e-06, + "loss": 0.4496, + "step": 160 + }, + { + "epoch": 0.04293333333333333, + "grad_norm": 3.5486910780160223, + "learning_rate": 4.990222349115988e-06, + "loss": 0.5449, + "step": 161 + }, + { + "epoch": 0.0432, + "grad_norm": 3.3570318486359856, + "learning_rate": 4.990033539003404e-06, + "loss": 0.5021, + "step": 162 + }, + { + "epoch": 0.04346666666666667, + "grad_norm": 3.2864368490605322, + "learning_rate": 4.989842926926028e-06, + "loss": 0.5108, + "step": 163 + }, + { + "epoch": 0.04373333333333333, + "grad_norm": 3.8078930431509477, + "learning_rate": 4.989650513021803e-06, + "loss": 0.5953, + "step": 164 + }, + { + "epoch": 0.044, + "grad_norm": 3.8458072867492015, + "learning_rate": 4.989456297429974e-06, + "loss": 0.5775, + "step": 165 + }, + { + "epoch": 0.04426666666666667, + "grad_norm": 3.5151007100059233, + "learning_rate": 4.989260280291087e-06, + "loss": 0.5063, + "step": 166 + }, + { + "epoch": 0.044533333333333334, + "grad_norm": 3.4882619459535666, + "learning_rate": 4.989062461746995e-06, + "loss": 0.5249, + "step": 167 + }, + { + "epoch": 0.0448, + "grad_norm": 3.295879769050429, + "learning_rate": 4.9888628419408545e-06, + "loss": 0.512, + "step": 168 + }, + { + "epoch": 0.045066666666666665, + "grad_norm": 3.3337316655894855, + "learning_rate": 4.988661421017123e-06, + "loss": 0.4908, + "step": 169 + }, + { + "epoch": 0.04533333333333334, + "grad_norm": 3.211645501056716, + "learning_rate": 4.988458199121562e-06, + "loss": 0.4842, + "step": 170 + }, + { + "epoch": 0.0456, + "grad_norm": 3.0876353420668377, + "learning_rate": 4.988253176401241e-06, + "loss": 0.4813, + "step": 171 + }, + { + "epoch": 0.04586666666666667, + "grad_norm": 3.0913792444791204, + "learning_rate": 4.988046353004525e-06, + "loss": 0.4923, + "step": 172 + }, + { + "epoch": 0.04613333333333333, + "grad_norm": 3.5551205990787027, + "learning_rate": 4.987837729081089e-06, + "loss": 0.4992, + "step": 173 + }, + { + "epoch": 0.0464, + "grad_norm": 3.4399895908034623, + "learning_rate": 4.9876273047819065e-06, + "loss": 0.5462, + "step": 174 + }, + { + "epoch": 0.04666666666666667, + "grad_norm": 3.2640876711512834, + "learning_rate": 4.987415080259256e-06, + "loss": 0.5499, + "step": 175 + }, + { + "epoch": 0.046933333333333334, + "grad_norm": 3.7173026805349965, + "learning_rate": 4.987201055666717e-06, + "loss": 0.5707, + "step": 176 + }, + { + "epoch": 0.0472, + "grad_norm": 3.5354598511524404, + "learning_rate": 4.986985231159175e-06, + "loss": 0.5446, + "step": 177 + }, + { + "epoch": 0.047466666666666664, + "grad_norm": 3.663928727125482, + "learning_rate": 4.986767606892814e-06, + "loss": 0.6136, + "step": 178 + }, + { + "epoch": 0.047733333333333336, + "grad_norm": 3.081817993285177, + "learning_rate": 4.986548183025124e-06, + "loss": 0.502, + "step": 179 + }, + { + "epoch": 0.048, + "grad_norm": 3.3567444350330904, + "learning_rate": 4.986326959714894e-06, + "loss": 0.5155, + "step": 180 + }, + { + "epoch": 0.048266666666666666, + "grad_norm": 3.522848483596829, + "learning_rate": 4.986103937122218e-06, + "loss": 0.5469, + "step": 181 + }, + { + "epoch": 0.04853333333333333, + "grad_norm": 3.076570282124742, + "learning_rate": 4.985879115408491e-06, + "loss": 0.493, + "step": 182 + }, + { + "epoch": 0.0488, + "grad_norm": 3.246018535433531, + "learning_rate": 4.985652494736409e-06, + "loss": 0.5336, + "step": 183 + }, + { + "epoch": 0.04906666666666667, + "grad_norm": 3.4873058597226234, + "learning_rate": 4.985424075269971e-06, + "loss": 0.5816, + "step": 184 + }, + { + "epoch": 0.04933333333333333, + "grad_norm": 3.396574458152799, + "learning_rate": 4.985193857174479e-06, + "loss": 0.5447, + "step": 185 + }, + { + "epoch": 0.0496, + "grad_norm": 4.565469725849569, + "learning_rate": 4.9849618406165335e-06, + "loss": 0.5715, + "step": 186 + }, + { + "epoch": 0.04986666666666666, + "grad_norm": 3.5035500712230276, + "learning_rate": 4.984728025764038e-06, + "loss": 0.5658, + "step": 187 + }, + { + "epoch": 0.050133333333333335, + "grad_norm": 3.561498119385834, + "learning_rate": 4.984492412786199e-06, + "loss": 0.4894, + "step": 188 + }, + { + "epoch": 0.0504, + "grad_norm": 3.0436725898311074, + "learning_rate": 4.984255001853522e-06, + "loss": 0.5433, + "step": 189 + }, + { + "epoch": 0.050666666666666665, + "grad_norm": 3.1382958166692156, + "learning_rate": 4.984015793137813e-06, + "loss": 0.492, + "step": 190 + }, + { + "epoch": 0.05093333333333333, + "grad_norm": 4.235309482041514, + "learning_rate": 4.983774786812183e-06, + "loss": 0.5318, + "step": 191 + }, + { + "epoch": 0.0512, + "grad_norm": 2.9330887653974647, + "learning_rate": 4.98353198305104e-06, + "loss": 0.4835, + "step": 192 + }, + { + "epoch": 0.05146666666666667, + "grad_norm": 5.016620741657026, + "learning_rate": 4.983287382030093e-06, + "loss": 0.4793, + "step": 193 + }, + { + "epoch": 0.05173333333333333, + "grad_norm": 3.136151048883616, + "learning_rate": 4.983040983926354e-06, + "loss": 0.4776, + "step": 194 + }, + { + "epoch": 0.052, + "grad_norm": 3.189686296710991, + "learning_rate": 4.982792788918133e-06, + "loss": 0.515, + "step": 195 + }, + { + "epoch": 0.05226666666666667, + "grad_norm": 3.059085616414067, + "learning_rate": 4.982542797185043e-06, + "loss": 0.4702, + "step": 196 + }, + { + "epoch": 0.052533333333333335, + "grad_norm": 3.3213544062570883, + "learning_rate": 4.982291008907995e-06, + "loss": 0.547, + "step": 197 + }, + { + "epoch": 0.0528, + "grad_norm": 3.4227005646532227, + "learning_rate": 4.982037424269201e-06, + "loss": 0.4895, + "step": 198 + }, + { + "epoch": 0.053066666666666665, + "grad_norm": 3.3236057852775867, + "learning_rate": 4.981782043452171e-06, + "loss": 0.5303, + "step": 199 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 3.486664543933442, + "learning_rate": 4.9815248666417205e-06, + "loss": 0.5269, + "step": 200 + }, + { + "epoch": 0.0536, + "grad_norm": 4.332963857319183, + "learning_rate": 4.981265894023957e-06, + "loss": 0.5649, + "step": 201 + }, + { + "epoch": 0.05386666666666667, + "grad_norm": 3.1022291834137907, + "learning_rate": 4.981005125786293e-06, + "loss": 0.4833, + "step": 202 + }, + { + "epoch": 0.05413333333333333, + "grad_norm": 3.2711645634738056, + "learning_rate": 4.980742562117441e-06, + "loss": 0.5431, + "step": 203 + }, + { + "epoch": 0.0544, + "grad_norm": 3.4015751797130473, + "learning_rate": 4.980478203207407e-06, + "loss": 0.5611, + "step": 204 + }, + { + "epoch": 0.05466666666666667, + "grad_norm": 3.1927520965535288, + "learning_rate": 4.9802120492475015e-06, + "loss": 0.5106, + "step": 205 + }, + { + "epoch": 0.054933333333333334, + "grad_norm": 3.1946773961545247, + "learning_rate": 4.979944100430333e-06, + "loss": 0.4582, + "step": 206 + }, + { + "epoch": 0.0552, + "grad_norm": 3.148182228958422, + "learning_rate": 4.979674356949807e-06, + "loss": 0.4843, + "step": 207 + }, + { + "epoch": 0.055466666666666664, + "grad_norm": 3.8754028003825254, + "learning_rate": 4.97940281900113e-06, + "loss": 0.5448, + "step": 208 + }, + { + "epoch": 0.055733333333333336, + "grad_norm": 3.1047793562904693, + "learning_rate": 4.979129486780806e-06, + "loss": 0.4934, + "step": 209 + }, + { + "epoch": 0.056, + "grad_norm": 3.3620139633336437, + "learning_rate": 4.978854360486637e-06, + "loss": 0.4717, + "step": 210 + }, + { + "epoch": 0.056266666666666666, + "grad_norm": 3.5251150225827534, + "learning_rate": 4.978577440317724e-06, + "loss": 0.5377, + "step": 211 + }, + { + "epoch": 0.05653333333333333, + "grad_norm": 3.0739987143745617, + "learning_rate": 4.978298726474467e-06, + "loss": 0.4884, + "step": 212 + }, + { + "epoch": 0.0568, + "grad_norm": 3.5204582854821234, + "learning_rate": 4.978018219158562e-06, + "loss": 0.5303, + "step": 213 + }, + { + "epoch": 0.05706666666666667, + "grad_norm": 3.3814681802707907, + "learning_rate": 4.977735918573005e-06, + "loss": 0.5058, + "step": 214 + }, + { + "epoch": 0.05733333333333333, + "grad_norm": 3.104430749225578, + "learning_rate": 4.977451824922087e-06, + "loss": 0.496, + "step": 215 + }, + { + "epoch": 0.0576, + "grad_norm": 3.2829930934640417, + "learning_rate": 4.977165938411399e-06, + "loss": 0.5096, + "step": 216 + }, + { + "epoch": 0.057866666666666663, + "grad_norm": 3.664283813470016, + "learning_rate": 4.9768782592478306e-06, + "loss": 0.5316, + "step": 217 + }, + { + "epoch": 0.058133333333333335, + "grad_norm": 3.056204172084974, + "learning_rate": 4.976588787639565e-06, + "loss": 0.4942, + "step": 218 + }, + { + "epoch": 0.0584, + "grad_norm": 3.5701306872309657, + "learning_rate": 4.9762975237960845e-06, + "loss": 0.5205, + "step": 219 + }, + { + "epoch": 0.058666666666666666, + "grad_norm": 3.067161195753053, + "learning_rate": 4.976004467928167e-06, + "loss": 0.4717, + "step": 220 + }, + { + "epoch": 0.05893333333333333, + "grad_norm": 3.2754891029241406, + "learning_rate": 4.975709620247892e-06, + "loss": 0.4363, + "step": 221 + }, + { + "epoch": 0.0592, + "grad_norm": 3.280975123781493, + "learning_rate": 4.9754129809686295e-06, + "loss": 0.5078, + "step": 222 + }, + { + "epoch": 0.05946666666666667, + "grad_norm": 4.6404012909163725, + "learning_rate": 4.975114550305049e-06, + "loss": 0.5093, + "step": 223 + }, + { + "epoch": 0.05973333333333333, + "grad_norm": 3.3186040152109593, + "learning_rate": 4.9748143284731175e-06, + "loss": 0.5364, + "step": 224 + }, + { + "epoch": 0.06, + "grad_norm": 2.937376527701268, + "learning_rate": 4.974512315690096e-06, + "loss": 0.4826, + "step": 225 + }, + { + "epoch": 0.06026666666666667, + "grad_norm": 3.254641274419012, + "learning_rate": 4.974208512174541e-06, + "loss": 0.5104, + "step": 226 + }, + { + "epoch": 0.060533333333333335, + "grad_norm": 3.6088946260925177, + "learning_rate": 4.973902918146308e-06, + "loss": 0.5738, + "step": 227 + }, + { + "epoch": 0.0608, + "grad_norm": 3.729124099935541, + "learning_rate": 4.973595533826545e-06, + "loss": 0.5655, + "step": 228 + }, + { + "epoch": 0.061066666666666665, + "grad_norm": 3.1315940399195794, + "learning_rate": 4.973286359437699e-06, + "loss": 0.5506, + "step": 229 + }, + { + "epoch": 0.06133333333333333, + "grad_norm": 3.682497819886356, + "learning_rate": 4.972975395203509e-06, + "loss": 0.5055, + "step": 230 + }, + { + "epoch": 0.0616, + "grad_norm": 3.1545061287940848, + "learning_rate": 4.972662641349012e-06, + "loss": 0.4924, + "step": 231 + }, + { + "epoch": 0.06186666666666667, + "grad_norm": 3.763625472437068, + "learning_rate": 4.972348098100537e-06, + "loss": 0.5222, + "step": 232 + }, + { + "epoch": 0.06213333333333333, + "grad_norm": 3.0281751446094516, + "learning_rate": 4.972031765685712e-06, + "loss": 0.5141, + "step": 233 + }, + { + "epoch": 0.0624, + "grad_norm": 3.455763493296629, + "learning_rate": 4.971713644333456e-06, + "loss": 0.5127, + "step": 234 + }, + { + "epoch": 0.06266666666666666, + "grad_norm": 2.8541532859174823, + "learning_rate": 4.9713937342739845e-06, + "loss": 0.4203, + "step": 235 + }, + { + "epoch": 0.06293333333333333, + "grad_norm": 2.9908237851704187, + "learning_rate": 4.9710720357388076e-06, + "loss": 0.4563, + "step": 236 + }, + { + "epoch": 0.0632, + "grad_norm": 3.602774863246798, + "learning_rate": 4.9707485489607285e-06, + "loss": 0.4919, + "step": 237 + }, + { + "epoch": 0.06346666666666667, + "grad_norm": 3.1779524726831787, + "learning_rate": 4.970423274173845e-06, + "loss": 0.4912, + "step": 238 + }, + { + "epoch": 0.06373333333333334, + "grad_norm": 3.4015075885465573, + "learning_rate": 4.97009621161355e-06, + "loss": 0.5219, + "step": 239 + }, + { + "epoch": 0.064, + "grad_norm": 3.332450655998677, + "learning_rate": 4.969767361516529e-06, + "loss": 0.5433, + "step": 240 + }, + { + "epoch": 0.06426666666666667, + "grad_norm": 3.259291883649026, + "learning_rate": 4.969436724120761e-06, + "loss": 0.5344, + "step": 241 + }, + { + "epoch": 0.06453333333333333, + "grad_norm": 3.4133033935843358, + "learning_rate": 4.969104299665517e-06, + "loss": 0.506, + "step": 242 + }, + { + "epoch": 0.0648, + "grad_norm": 3.50586708733024, + "learning_rate": 4.968770088391366e-06, + "loss": 0.5296, + "step": 243 + }, + { + "epoch": 0.06506666666666666, + "grad_norm": 3.3747741323442155, + "learning_rate": 4.968434090540165e-06, + "loss": 0.535, + "step": 244 + }, + { + "epoch": 0.06533333333333333, + "grad_norm": 3.6575919074486816, + "learning_rate": 4.968096306355066e-06, + "loss": 0.5698, + "step": 245 + }, + { + "epoch": 0.0656, + "grad_norm": 4.170142084339481, + "learning_rate": 4.967756736080514e-06, + "loss": 0.6019, + "step": 246 + }, + { + "epoch": 0.06586666666666667, + "grad_norm": 3.203204961842512, + "learning_rate": 4.967415379962246e-06, + "loss": 0.4977, + "step": 247 + }, + { + "epoch": 0.06613333333333334, + "grad_norm": 3.3205074228970326, + "learning_rate": 4.967072238247291e-06, + "loss": 0.51, + "step": 248 + }, + { + "epoch": 0.0664, + "grad_norm": 2.988259466863908, + "learning_rate": 4.966727311183971e-06, + "loss": 0.4508, + "step": 249 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 3.138002031798859, + "learning_rate": 4.966380599021901e-06, + "loss": 0.5175, + "step": 250 + }, + { + "epoch": 0.06693333333333333, + "grad_norm": 3.2906120137705006, + "learning_rate": 4.966032102011984e-06, + "loss": 0.502, + "step": 251 + }, + { + "epoch": 0.0672, + "grad_norm": 3.609166949916554, + "learning_rate": 4.9656818204064185e-06, + "loss": 0.5466, + "step": 252 + }, + { + "epoch": 0.06746666666666666, + "grad_norm": 3.066079905140308, + "learning_rate": 4.9653297544586945e-06, + "loss": 0.5128, + "step": 253 + }, + { + "epoch": 0.06773333333333334, + "grad_norm": 3.119169052181802, + "learning_rate": 4.964975904423589e-06, + "loss": 0.4989, + "step": 254 + }, + { + "epoch": 0.068, + "grad_norm": 3.753147368129673, + "learning_rate": 4.964620270557175e-06, + "loss": 0.5763, + "step": 255 + }, + { + "epoch": 0.06826666666666667, + "grad_norm": 2.959157022454219, + "learning_rate": 4.964262853116813e-06, + "loss": 0.4902, + "step": 256 + }, + { + "epoch": 0.06853333333333333, + "grad_norm": 3.0209969259082956, + "learning_rate": 4.963903652361157e-06, + "loss": 0.4947, + "step": 257 + }, + { + "epoch": 0.0688, + "grad_norm": 4.072573433131865, + "learning_rate": 4.963542668550149e-06, + "loss": 0.6255, + "step": 258 + }, + { + "epoch": 0.06906666666666667, + "grad_norm": 2.95427106736962, + "learning_rate": 4.963179901945024e-06, + "loss": 0.461, + "step": 259 + }, + { + "epoch": 0.06933333333333333, + "grad_norm": 3.4814213837495194, + "learning_rate": 4.962815352808303e-06, + "loss": 0.6273, + "step": 260 + }, + { + "epoch": 0.0696, + "grad_norm": 3.1554426358956245, + "learning_rate": 4.962449021403803e-06, + "loss": 0.5164, + "step": 261 + }, + { + "epoch": 0.06986666666666666, + "grad_norm": 2.8900787912158985, + "learning_rate": 4.962080907996625e-06, + "loss": 0.4476, + "step": 262 + }, + { + "epoch": 0.07013333333333334, + "grad_norm": 2.7762042175274466, + "learning_rate": 4.961711012853161e-06, + "loss": 0.4884, + "step": 263 + }, + { + "epoch": 0.0704, + "grad_norm": 3.0855121371309977, + "learning_rate": 4.961339336241097e-06, + "loss": 0.5087, + "step": 264 + }, + { + "epoch": 0.07066666666666667, + "grad_norm": 3.003609553271574, + "learning_rate": 4.960965878429401e-06, + "loss": 0.4643, + "step": 265 + }, + { + "epoch": 0.07093333333333333, + "grad_norm": 3.2000172051603832, + "learning_rate": 4.960590639688335e-06, + "loss": 0.579, + "step": 266 + }, + { + "epoch": 0.0712, + "grad_norm": 3.4002117777790044, + "learning_rate": 4.960213620289449e-06, + "loss": 0.5512, + "step": 267 + }, + { + "epoch": 0.07146666666666666, + "grad_norm": 2.7426088172462615, + "learning_rate": 4.9598348205055804e-06, + "loss": 0.4477, + "step": 268 + }, + { + "epoch": 0.07173333333333333, + "grad_norm": 3.217406633017094, + "learning_rate": 4.959454240610855e-06, + "loss": 0.4665, + "step": 269 + }, + { + "epoch": 0.072, + "grad_norm": 2.7424242503019234, + "learning_rate": 4.959071880880688e-06, + "loss": 0.4864, + "step": 270 + }, + { + "epoch": 0.07226666666666667, + "grad_norm": 3.2383925542719267, + "learning_rate": 4.958687741591782e-06, + "loss": 0.5033, + "step": 271 + }, + { + "epoch": 0.07253333333333334, + "grad_norm": 2.944759935358767, + "learning_rate": 4.958301823022128e-06, + "loss": 0.4653, + "step": 272 + }, + { + "epoch": 0.0728, + "grad_norm": 3.306727132636148, + "learning_rate": 4.957914125451002e-06, + "loss": 0.5216, + "step": 273 + }, + { + "epoch": 0.07306666666666667, + "grad_norm": 3.3226087721172775, + "learning_rate": 4.9575246491589715e-06, + "loss": 0.5207, + "step": 274 + }, + { + "epoch": 0.07333333333333333, + "grad_norm": 2.9530470731607306, + "learning_rate": 4.957133394427887e-06, + "loss": 0.4839, + "step": 275 + }, + { + "epoch": 0.0736, + "grad_norm": 3.2167650259477387, + "learning_rate": 4.956740361540891e-06, + "loss": 0.5313, + "step": 276 + }, + { + "epoch": 0.07386666666666666, + "grad_norm": 2.9421123565434786, + "learning_rate": 4.956345550782409e-06, + "loss": 0.4669, + "step": 277 + }, + { + "epoch": 0.07413333333333333, + "grad_norm": 2.90077015588377, + "learning_rate": 4.955948962438153e-06, + "loss": 0.482, + "step": 278 + }, + { + "epoch": 0.0744, + "grad_norm": 3.375056174651594, + "learning_rate": 4.955550596795122e-06, + "loss": 0.5441, + "step": 279 + }, + { + "epoch": 0.07466666666666667, + "grad_norm": 3.3311086840158013, + "learning_rate": 4.955150454141604e-06, + "loss": 0.5077, + "step": 280 + }, + { + "epoch": 0.07493333333333334, + "grad_norm": 4.277471771214726, + "learning_rate": 4.954748534767169e-06, + "loss": 0.5704, + "step": 281 + }, + { + "epoch": 0.0752, + "grad_norm": 3.2120790845261227, + "learning_rate": 4.9543448389626745e-06, + "loss": 0.5212, + "step": 282 + }, + { + "epoch": 0.07546666666666667, + "grad_norm": 3.332656408177282, + "learning_rate": 4.953939367020263e-06, + "loss": 0.5488, + "step": 283 + }, + { + "epoch": 0.07573333333333333, + "grad_norm": 3.29732222076447, + "learning_rate": 4.953532119233364e-06, + "loss": 0.5125, + "step": 284 + }, + { + "epoch": 0.076, + "grad_norm": 3.1493202901722803, + "learning_rate": 4.953123095896689e-06, + "loss": 0.5554, + "step": 285 + }, + { + "epoch": 0.07626666666666666, + "grad_norm": 3.1553700940745775, + "learning_rate": 4.952712297306239e-06, + "loss": 0.5378, + "step": 286 + }, + { + "epoch": 0.07653333333333333, + "grad_norm": 3.0805402101789903, + "learning_rate": 4.952299723759294e-06, + "loss": 0.43, + "step": 287 + }, + { + "epoch": 0.0768, + "grad_norm": 3.24388342131281, + "learning_rate": 4.951885375554424e-06, + "loss": 0.4979, + "step": 288 + }, + { + "epoch": 0.07706666666666667, + "grad_norm": 3.1925633374167557, + "learning_rate": 4.951469252991478e-06, + "loss": 0.5286, + "step": 289 + }, + { + "epoch": 0.07733333333333334, + "grad_norm": 2.763637076972043, + "learning_rate": 4.951051356371594e-06, + "loss": 0.4595, + "step": 290 + }, + { + "epoch": 0.0776, + "grad_norm": 3.1697385452434363, + "learning_rate": 4.950631685997192e-06, + "loss": 0.495, + "step": 291 + }, + { + "epoch": 0.07786666666666667, + "grad_norm": 2.974169891477938, + "learning_rate": 4.950210242171973e-06, + "loss": 0.4376, + "step": 292 + }, + { + "epoch": 0.07813333333333333, + "grad_norm": 3.1528177407208404, + "learning_rate": 4.949787025200926e-06, + "loss": 0.481, + "step": 293 + }, + { + "epoch": 0.0784, + "grad_norm": 3.4694867948212536, + "learning_rate": 4.949362035390318e-06, + "loss": 0.496, + "step": 294 + }, + { + "epoch": 0.07866666666666666, + "grad_norm": 2.7648421648720993, + "learning_rate": 4.948935273047705e-06, + "loss": 0.4466, + "step": 295 + }, + { + "epoch": 0.07893333333333333, + "grad_norm": 2.8480008205339336, + "learning_rate": 4.94850673848192e-06, + "loss": 0.4392, + "step": 296 + }, + { + "epoch": 0.0792, + "grad_norm": 3.1089410004305154, + "learning_rate": 4.9480764320030825e-06, + "loss": 0.4888, + "step": 297 + }, + { + "epoch": 0.07946666666666667, + "grad_norm": 2.920424246406726, + "learning_rate": 4.947644353922592e-06, + "loss": 0.4675, + "step": 298 + }, + { + "epoch": 0.07973333333333334, + "grad_norm": 3.9239992000533688, + "learning_rate": 4.94721050455313e-06, + "loss": 0.5262, + "step": 299 + }, + { + "epoch": 0.08, + "grad_norm": 2.7249612126263703, + "learning_rate": 4.946774884208663e-06, + "loss": 0.4854, + "step": 300 + }, + { + "epoch": 0.08026666666666667, + "grad_norm": 2.913710951568275, + "learning_rate": 4.946337493204434e-06, + "loss": 0.4897, + "step": 301 + }, + { + "epoch": 0.08053333333333333, + "grad_norm": 3.8780073639147505, + "learning_rate": 4.945898331856972e-06, + "loss": 0.5383, + "step": 302 + }, + { + "epoch": 0.0808, + "grad_norm": 3.7168575961295063, + "learning_rate": 4.945457400484085e-06, + "loss": 0.5151, + "step": 303 + }, + { + "epoch": 0.08106666666666666, + "grad_norm": 3.086008175995829, + "learning_rate": 4.945014699404863e-06, + "loss": 0.5007, + "step": 304 + }, + { + "epoch": 0.08133333333333333, + "grad_norm": 2.935597632906862, + "learning_rate": 4.944570228939674e-06, + "loss": 0.5013, + "step": 305 + }, + { + "epoch": 0.0816, + "grad_norm": 3.1192465780900087, + "learning_rate": 4.944123989410169e-06, + "loss": 0.5349, + "step": 306 + }, + { + "epoch": 0.08186666666666667, + "grad_norm": 2.7212838937296224, + "learning_rate": 4.943675981139279e-06, + "loss": 0.4492, + "step": 307 + }, + { + "epoch": 0.08213333333333334, + "grad_norm": 2.8852966078389635, + "learning_rate": 4.943226204451215e-06, + "loss": 0.4626, + "step": 308 + }, + { + "epoch": 0.0824, + "grad_norm": 3.1976276452909786, + "learning_rate": 4.942774659671465e-06, + "loss": 0.477, + "step": 309 + }, + { + "epoch": 0.08266666666666667, + "grad_norm": 3.0355743200374357, + "learning_rate": 4.942321347126802e-06, + "loss": 0.4618, + "step": 310 + }, + { + "epoch": 0.08293333333333333, + "grad_norm": 3.1595967023987774, + "learning_rate": 4.9418662671452736e-06, + "loss": 0.5328, + "step": 311 + }, + { + "epoch": 0.0832, + "grad_norm": 3.011641266496546, + "learning_rate": 4.941409420056207e-06, + "loss": 0.5088, + "step": 312 + }, + { + "epoch": 0.08346666666666666, + "grad_norm": 2.8109443382570536, + "learning_rate": 4.94095080619021e-06, + "loss": 0.4815, + "step": 313 + }, + { + "epoch": 0.08373333333333334, + "grad_norm": 3.312145642896201, + "learning_rate": 4.940490425879168e-06, + "loss": 0.5343, + "step": 314 + }, + { + "epoch": 0.084, + "grad_norm": 3.6576634648839197, + "learning_rate": 4.940028279456246e-06, + "loss": 0.5732, + "step": 315 + }, + { + "epoch": 0.08426666666666667, + "grad_norm": 2.808422566167049, + "learning_rate": 4.9395643672558845e-06, + "loss": 0.4823, + "step": 316 + }, + { + "epoch": 0.08453333333333334, + "grad_norm": 2.724521312049742, + "learning_rate": 4.939098689613804e-06, + "loss": 0.4624, + "step": 317 + }, + { + "epoch": 0.0848, + "grad_norm": 3.030635451165199, + "learning_rate": 4.9386312468670006e-06, + "loss": 0.5154, + "step": 318 + }, + { + "epoch": 0.08506666666666667, + "grad_norm": 2.8108276056900032, + "learning_rate": 4.93816203935375e-06, + "loss": 0.4705, + "step": 319 + }, + { + "epoch": 0.08533333333333333, + "grad_norm": 2.8513589272695143, + "learning_rate": 4.9376910674136046e-06, + "loss": 0.5032, + "step": 320 + }, + { + "epoch": 0.0856, + "grad_norm": 3.402981171265507, + "learning_rate": 4.937218331387392e-06, + "loss": 0.4863, + "step": 321 + }, + { + "epoch": 0.08586666666666666, + "grad_norm": 3.5090343774067003, + "learning_rate": 4.936743831617218e-06, + "loss": 0.5298, + "step": 322 + }, + { + "epoch": 0.08613333333333334, + "grad_norm": 2.6701587968149108, + "learning_rate": 4.936267568446463e-06, + "loss": 0.5137, + "step": 323 + }, + { + "epoch": 0.0864, + "grad_norm": 3.1171642510530946, + "learning_rate": 4.935789542219788e-06, + "loss": 0.4956, + "step": 324 + }, + { + "epoch": 0.08666666666666667, + "grad_norm": 3.1611791458015803, + "learning_rate": 4.9353097532831226e-06, + "loss": 0.4873, + "step": 325 + }, + { + "epoch": 0.08693333333333333, + "grad_norm": 2.720638425878405, + "learning_rate": 4.9348282019836796e-06, + "loss": 0.4655, + "step": 326 + }, + { + "epoch": 0.0872, + "grad_norm": 3.004024325408925, + "learning_rate": 4.934344888669942e-06, + "loss": 0.4572, + "step": 327 + }, + { + "epoch": 0.08746666666666666, + "grad_norm": 3.0694214207986996, + "learning_rate": 4.9338598136916694e-06, + "loss": 0.4989, + "step": 328 + }, + { + "epoch": 0.08773333333333333, + "grad_norm": 2.739290030976085, + "learning_rate": 4.933372977399896e-06, + "loss": 0.4644, + "step": 329 + }, + { + "epoch": 0.088, + "grad_norm": 3.3151124369065887, + "learning_rate": 4.932884380146933e-06, + "loss": 0.5423, + "step": 330 + }, + { + "epoch": 0.08826666666666666, + "grad_norm": 3.0388416301956696, + "learning_rate": 4.9323940222863625e-06, + "loss": 0.511, + "step": 331 + }, + { + "epoch": 0.08853333333333334, + "grad_norm": 3.179707068073131, + "learning_rate": 4.931901904173042e-06, + "loss": 0.4713, + "step": 332 + }, + { + "epoch": 0.0888, + "grad_norm": 3.3132953078234064, + "learning_rate": 4.931408026163105e-06, + "loss": 0.5462, + "step": 333 + }, + { + "epoch": 0.08906666666666667, + "grad_norm": 2.919234805416029, + "learning_rate": 4.930912388613954e-06, + "loss": 0.5045, + "step": 334 + }, + { + "epoch": 0.08933333333333333, + "grad_norm": 2.9419114356605354, + "learning_rate": 4.9304149918842695e-06, + "loss": 0.4426, + "step": 335 + }, + { + "epoch": 0.0896, + "grad_norm": 3.16121644185501, + "learning_rate": 4.9299158363340015e-06, + "loss": 0.5156, + "step": 336 + }, + { + "epoch": 0.08986666666666666, + "grad_norm": 2.962139892680703, + "learning_rate": 4.929414922324376e-06, + "loss": 0.4817, + "step": 337 + }, + { + "epoch": 0.09013333333333333, + "grad_norm": 3.2256930354654845, + "learning_rate": 4.928912250217888e-06, + "loss": 0.5948, + "step": 338 + }, + { + "epoch": 0.0904, + "grad_norm": 3.1466216063370784, + "learning_rate": 4.928407820378308e-06, + "loss": 0.498, + "step": 339 + }, + { + "epoch": 0.09066666666666667, + "grad_norm": 3.108236615455063, + "learning_rate": 4.927901633170677e-06, + "loss": 0.4611, + "step": 340 + }, + { + "epoch": 0.09093333333333334, + "grad_norm": 3.262199070845579, + "learning_rate": 4.927393688961308e-06, + "loss": 0.5408, + "step": 341 + }, + { + "epoch": 0.0912, + "grad_norm": 3.0694839188686553, + "learning_rate": 4.926883988117785e-06, + "loss": 0.4861, + "step": 342 + }, + { + "epoch": 0.09146666666666667, + "grad_norm": 3.026280630386309, + "learning_rate": 4.926372531008964e-06, + "loss": 0.5218, + "step": 343 + }, + { + "epoch": 0.09173333333333333, + "grad_norm": 4.407937590329267, + "learning_rate": 4.925859318004972e-06, + "loss": 0.5192, + "step": 344 + }, + { + "epoch": 0.092, + "grad_norm": 2.818860842895589, + "learning_rate": 4.925344349477205e-06, + "loss": 0.4972, + "step": 345 + }, + { + "epoch": 0.09226666666666666, + "grad_norm": 3.0746595540089756, + "learning_rate": 4.9248276257983315e-06, + "loss": 0.5268, + "step": 346 + }, + { + "epoch": 0.09253333333333333, + "grad_norm": 3.3727169764530087, + "learning_rate": 4.92430914734229e-06, + "loss": 0.5312, + "step": 347 + }, + { + "epoch": 0.0928, + "grad_norm": 2.8550881543639877, + "learning_rate": 4.923788914484287e-06, + "loss": 0.4883, + "step": 348 + }, + { + "epoch": 0.09306666666666667, + "grad_norm": 3.262846403947202, + "learning_rate": 4.923266927600801e-06, + "loss": 0.53, + "step": 349 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 2.6311527715366316, + "learning_rate": 4.922743187069578e-06, + "loss": 0.472, + "step": 350 + }, + { + "epoch": 0.0936, + "grad_norm": 3.381033483040296, + "learning_rate": 4.922217693269635e-06, + "loss": 0.5478, + "step": 351 + }, + { + "epoch": 0.09386666666666667, + "grad_norm": 3.229569485797337, + "learning_rate": 4.921690446581255e-06, + "loss": 0.5589, + "step": 352 + }, + { + "epoch": 0.09413333333333333, + "grad_norm": 3.091201562934836, + "learning_rate": 4.921161447385992e-06, + "loss": 0.5212, + "step": 353 + }, + { + "epoch": 0.0944, + "grad_norm": 2.744790600218243, + "learning_rate": 4.920630696066667e-06, + "loss": 0.4702, + "step": 354 + }, + { + "epoch": 0.09466666666666666, + "grad_norm": 3.3246192960402188, + "learning_rate": 4.920098193007369e-06, + "loss": 0.459, + "step": 355 + }, + { + "epoch": 0.09493333333333333, + "grad_norm": 3.1339536987539836, + "learning_rate": 4.9195639385934556e-06, + "loss": 0.524, + "step": 356 + }, + { + "epoch": 0.0952, + "grad_norm": 2.999945509241653, + "learning_rate": 4.919027933211551e-06, + "loss": 0.5191, + "step": 357 + }, + { + "epoch": 0.09546666666666667, + "grad_norm": 3.3799388095862155, + "learning_rate": 4.918490177249547e-06, + "loss": 0.5298, + "step": 358 + }, + { + "epoch": 0.09573333333333334, + "grad_norm": 2.6138988906833274, + "learning_rate": 4.9179506710965995e-06, + "loss": 0.4565, + "step": 359 + }, + { + "epoch": 0.096, + "grad_norm": 2.853805176557546, + "learning_rate": 4.917409415143137e-06, + "loss": 0.5128, + "step": 360 + }, + { + "epoch": 0.09626666666666667, + "grad_norm": 3.1241848732598516, + "learning_rate": 4.916866409780849e-06, + "loss": 0.4799, + "step": 361 + }, + { + "epoch": 0.09653333333333333, + "grad_norm": 2.753093363628809, + "learning_rate": 4.916321655402692e-06, + "loss": 0.489, + "step": 362 + }, + { + "epoch": 0.0968, + "grad_norm": 3.2624091629715326, + "learning_rate": 4.9157751524028905e-06, + "loss": 0.5127, + "step": 363 + }, + { + "epoch": 0.09706666666666666, + "grad_norm": 2.9680696797231074, + "learning_rate": 4.915226901176932e-06, + "loss": 0.5124, + "step": 364 + }, + { + "epoch": 0.09733333333333333, + "grad_norm": 3.6357904904909057, + "learning_rate": 4.914676902121569e-06, + "loss": 0.6026, + "step": 365 + }, + { + "epoch": 0.0976, + "grad_norm": 3.3303267757356845, + "learning_rate": 4.9141251556348215e-06, + "loss": 0.5, + "step": 366 + }, + { + "epoch": 0.09786666666666667, + "grad_norm": 2.9653464942464614, + "learning_rate": 4.91357166211597e-06, + "loss": 0.4915, + "step": 367 + }, + { + "epoch": 0.09813333333333334, + "grad_norm": 3.1874251403385183, + "learning_rate": 4.9130164219655654e-06, + "loss": 0.5277, + "step": 368 + }, + { + "epoch": 0.0984, + "grad_norm": 3.2415875563776013, + "learning_rate": 4.912459435585415e-06, + "loss": 0.5092, + "step": 369 + }, + { + "epoch": 0.09866666666666667, + "grad_norm": 3.215381382489877, + "learning_rate": 4.911900703378597e-06, + "loss": 0.5038, + "step": 370 + }, + { + "epoch": 0.09893333333333333, + "grad_norm": 5.645158354591967, + "learning_rate": 4.911340225749447e-06, + "loss": 0.5293, + "step": 371 + }, + { + "epoch": 0.0992, + "grad_norm": 3.317542244190038, + "learning_rate": 4.910778003103566e-06, + "loss": 0.5025, + "step": 372 + }, + { + "epoch": 0.09946666666666666, + "grad_norm": 2.9171755124846164, + "learning_rate": 4.910214035847821e-06, + "loss": 0.461, + "step": 373 + }, + { + "epoch": 0.09973333333333333, + "grad_norm": 3.120656259634475, + "learning_rate": 4.9096483243903364e-06, + "loss": 0.5098, + "step": 374 + }, + { + "epoch": 0.1, + "grad_norm": 2.868997798033122, + "learning_rate": 4.9090808691405025e-06, + "loss": 0.4632, + "step": 375 + }, + { + "epoch": 0.10026666666666667, + "grad_norm": 3.1496937273277292, + "learning_rate": 4.908511670508968e-06, + "loss": 0.4767, + "step": 376 + }, + { + "epoch": 0.10053333333333334, + "grad_norm": 3.2283506733525917, + "learning_rate": 4.907940728907649e-06, + "loss": 0.4778, + "step": 377 + }, + { + "epoch": 0.1008, + "grad_norm": 2.7223287474444122, + "learning_rate": 4.907368044749716e-06, + "loss": 0.4867, + "step": 378 + }, + { + "epoch": 0.10106666666666667, + "grad_norm": 3.0145465900422375, + "learning_rate": 4.906793618449605e-06, + "loss": 0.5181, + "step": 379 + }, + { + "epoch": 0.10133333333333333, + "grad_norm": 2.6386563820011193, + "learning_rate": 4.906217450423012e-06, + "loss": 0.481, + "step": 380 + }, + { + "epoch": 0.1016, + "grad_norm": 2.970053166471675, + "learning_rate": 4.9056395410868915e-06, + "loss": 0.4693, + "step": 381 + }, + { + "epoch": 0.10186666666666666, + "grad_norm": 2.937980980134853, + "learning_rate": 4.905059890859462e-06, + "loss": 0.4862, + "step": 382 + }, + { + "epoch": 0.10213333333333334, + "grad_norm": 3.02505998233706, + "learning_rate": 4.904478500160198e-06, + "loss": 0.5399, + "step": 383 + }, + { + "epoch": 0.1024, + "grad_norm": 2.851713068287608, + "learning_rate": 4.903895369409835e-06, + "loss": 0.5111, + "step": 384 + }, + { + "epoch": 0.10266666666666667, + "grad_norm": 3.0963574903432427, + "learning_rate": 4.903310499030369e-06, + "loss": 0.511, + "step": 385 + }, + { + "epoch": 0.10293333333333334, + "grad_norm": 3.1597728872046575, + "learning_rate": 4.902723889445052e-06, + "loss": 0.5296, + "step": 386 + }, + { + "epoch": 0.1032, + "grad_norm": 2.7040156639951807, + "learning_rate": 4.902135541078396e-06, + "loss": 0.4639, + "step": 387 + }, + { + "epoch": 0.10346666666666667, + "grad_norm": 3.2042223336426825, + "learning_rate": 4.901545454356174e-06, + "loss": 0.497, + "step": 388 + }, + { + "epoch": 0.10373333333333333, + "grad_norm": 3.0731517510202275, + "learning_rate": 4.900953629705414e-06, + "loss": 0.5225, + "step": 389 + }, + { + "epoch": 0.104, + "grad_norm": 3.302447668329569, + "learning_rate": 4.9003600675544e-06, + "loss": 0.5074, + "step": 390 + }, + { + "epoch": 0.10426666666666666, + "grad_norm": 2.8779745871438247, + "learning_rate": 4.8997647683326775e-06, + "loss": 0.4754, + "step": 391 + }, + { + "epoch": 0.10453333333333334, + "grad_norm": 2.8775918623591044, + "learning_rate": 4.899167732471048e-06, + "loss": 0.4516, + "step": 392 + }, + { + "epoch": 0.1048, + "grad_norm": 2.9674452890990737, + "learning_rate": 4.898568960401566e-06, + "loss": 0.4844, + "step": 393 + }, + { + "epoch": 0.10506666666666667, + "grad_norm": 3.1036159456344743, + "learning_rate": 4.8979684525575474e-06, + "loss": 0.5022, + "step": 394 + }, + { + "epoch": 0.10533333333333333, + "grad_norm": 3.112109647330544, + "learning_rate": 4.897366209373563e-06, + "loss": 0.4981, + "step": 395 + }, + { + "epoch": 0.1056, + "grad_norm": 3.2249598263750605, + "learning_rate": 4.8967622312854376e-06, + "loss": 0.4996, + "step": 396 + }, + { + "epoch": 0.10586666666666666, + "grad_norm": 3.3112709628390156, + "learning_rate": 4.896156518730252e-06, + "loss": 0.5224, + "step": 397 + }, + { + "epoch": 0.10613333333333333, + "grad_norm": 3.04693312359589, + "learning_rate": 4.895549072146344e-06, + "loss": 0.4798, + "step": 398 + }, + { + "epoch": 0.1064, + "grad_norm": 2.8602550823466864, + "learning_rate": 4.894939891973305e-06, + "loss": 0.4771, + "step": 399 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 3.698321994728775, + "learning_rate": 4.89432897865198e-06, + "loss": 0.5793, + "step": 400 + }, + { + "epoch": 0.10693333333333334, + "grad_norm": 3.8333366585933897, + "learning_rate": 4.893716332624469e-06, + "loss": 0.5672, + "step": 401 + }, + { + "epoch": 0.1072, + "grad_norm": 2.9406293825751586, + "learning_rate": 4.893101954334127e-06, + "loss": 0.4901, + "step": 402 + }, + { + "epoch": 0.10746666666666667, + "grad_norm": 3.5203198736373524, + "learning_rate": 4.8924858442255615e-06, + "loss": 0.54, + "step": 403 + }, + { + "epoch": 0.10773333333333333, + "grad_norm": 3.1281616852956238, + "learning_rate": 4.891868002744633e-06, + "loss": 0.5225, + "step": 404 + }, + { + "epoch": 0.108, + "grad_norm": 3.297341251190933, + "learning_rate": 4.891248430338457e-06, + "loss": 0.4812, + "step": 405 + }, + { + "epoch": 0.10826666666666666, + "grad_norm": 3.353807330048863, + "learning_rate": 4.890627127455397e-06, + "loss": 0.522, + "step": 406 + }, + { + "epoch": 0.10853333333333333, + "grad_norm": 2.861726317426934, + "learning_rate": 4.890004094545075e-06, + "loss": 0.4689, + "step": 407 + }, + { + "epoch": 0.1088, + "grad_norm": 3.1495257938133623, + "learning_rate": 4.889379332058359e-06, + "loss": 0.5241, + "step": 408 + }, + { + "epoch": 0.10906666666666667, + "grad_norm": 2.915751370035489, + "learning_rate": 4.888752840447374e-06, + "loss": 0.4791, + "step": 409 + }, + { + "epoch": 0.10933333333333334, + "grad_norm": 2.8419388085523813, + "learning_rate": 4.888124620165492e-06, + "loss": 0.4942, + "step": 410 + }, + { + "epoch": 0.1096, + "grad_norm": 3.1284780825234932, + "learning_rate": 4.8874946716673375e-06, + "loss": 0.4982, + "step": 411 + }, + { + "epoch": 0.10986666666666667, + "grad_norm": 2.8405321673101778, + "learning_rate": 4.886862995408788e-06, + "loss": 0.4337, + "step": 412 + }, + { + "epoch": 0.11013333333333333, + "grad_norm": 2.990511864911168, + "learning_rate": 4.886229591846967e-06, + "loss": 0.5031, + "step": 413 + }, + { + "epoch": 0.1104, + "grad_norm": 2.7895715253648863, + "learning_rate": 4.885594461440252e-06, + "loss": 0.455, + "step": 414 + }, + { + "epoch": 0.11066666666666666, + "grad_norm": 2.931767974218236, + "learning_rate": 4.884957604648266e-06, + "loss": 0.4794, + "step": 415 + }, + { + "epoch": 0.11093333333333333, + "grad_norm": 3.4853683423753905, + "learning_rate": 4.884319021931886e-06, + "loss": 0.5029, + "step": 416 + }, + { + "epoch": 0.1112, + "grad_norm": 3.026136086183054, + "learning_rate": 4.883678713753235e-06, + "loss": 0.4805, + "step": 417 + }, + { + "epoch": 0.11146666666666667, + "grad_norm": 3.1530054046573763, + "learning_rate": 4.883036680575685e-06, + "loss": 0.4718, + "step": 418 + }, + { + "epoch": 0.11173333333333334, + "grad_norm": 3.3088832616025914, + "learning_rate": 4.882392922863856e-06, + "loss": 0.5216, + "step": 419 + }, + { + "epoch": 0.112, + "grad_norm": 2.772151400431416, + "learning_rate": 4.88174744108362e-06, + "loss": 0.4269, + "step": 420 + }, + { + "epoch": 0.11226666666666667, + "grad_norm": 3.1178777132043685, + "learning_rate": 4.88110023570209e-06, + "loss": 0.4698, + "step": 421 + }, + { + "epoch": 0.11253333333333333, + "grad_norm": 2.9903595379690646, + "learning_rate": 4.88045130718763e-06, + "loss": 0.4605, + "step": 422 + }, + { + "epoch": 0.1128, + "grad_norm": 2.994213064127848, + "learning_rate": 4.879800656009853e-06, + "loss": 0.4975, + "step": 423 + }, + { + "epoch": 0.11306666666666666, + "grad_norm": 3.091257013321392, + "learning_rate": 4.879148282639614e-06, + "loss": 0.4742, + "step": 424 + }, + { + "epoch": 0.11333333333333333, + "grad_norm": 2.946263723936702, + "learning_rate": 4.878494187549018e-06, + "loss": 0.5222, + "step": 425 + }, + { + "epoch": 0.1136, + "grad_norm": 3.276627977423596, + "learning_rate": 4.877838371211413e-06, + "loss": 0.5454, + "step": 426 + }, + { + "epoch": 0.11386666666666667, + "grad_norm": 3.3684209606408198, + "learning_rate": 4.877180834101395e-06, + "loss": 0.4871, + "step": 427 + }, + { + "epoch": 0.11413333333333334, + "grad_norm": 3.0094207121443413, + "learning_rate": 4.876521576694806e-06, + "loss": 0.523, + "step": 428 + }, + { + "epoch": 0.1144, + "grad_norm": 3.010244423729644, + "learning_rate": 4.8758605994687295e-06, + "loss": 0.4224, + "step": 429 + }, + { + "epoch": 0.11466666666666667, + "grad_norm": 2.8233277815663644, + "learning_rate": 4.875197902901495e-06, + "loss": 0.5128, + "step": 430 + }, + { + "epoch": 0.11493333333333333, + "grad_norm": 2.8578662613055386, + "learning_rate": 4.874533487472679e-06, + "loss": 0.466, + "step": 431 + }, + { + "epoch": 0.1152, + "grad_norm": 2.700480435740188, + "learning_rate": 4.873867353663098e-06, + "loss": 0.5196, + "step": 432 + }, + { + "epoch": 0.11546666666666666, + "grad_norm": 3.543781803939445, + "learning_rate": 4.873199501954814e-06, + "loss": 0.5362, + "step": 433 + }, + { + "epoch": 0.11573333333333333, + "grad_norm": 3.366677361819025, + "learning_rate": 4.872529932831132e-06, + "loss": 0.501, + "step": 434 + }, + { + "epoch": 0.116, + "grad_norm": 2.9384631271370965, + "learning_rate": 4.871858646776599e-06, + "loss": 0.5062, + "step": 435 + }, + { + "epoch": 0.11626666666666667, + "grad_norm": 2.9127267007328053, + "learning_rate": 4.871185644277005e-06, + "loss": 0.5178, + "step": 436 + }, + { + "epoch": 0.11653333333333334, + "grad_norm": 4.164019147639745, + "learning_rate": 4.870510925819385e-06, + "loss": 0.534, + "step": 437 + }, + { + "epoch": 0.1168, + "grad_norm": 2.961935028990143, + "learning_rate": 4.869834491892011e-06, + "loss": 0.4861, + "step": 438 + }, + { + "epoch": 0.11706666666666667, + "grad_norm": 2.869553874674874, + "learning_rate": 4.869156342984397e-06, + "loss": 0.4544, + "step": 439 + }, + { + "epoch": 0.11733333333333333, + "grad_norm": 2.7953075598866763, + "learning_rate": 4.868476479587302e-06, + "loss": 0.4621, + "step": 440 + }, + { + "epoch": 0.1176, + "grad_norm": 3.0374291638767414, + "learning_rate": 4.867794902192723e-06, + "loss": 0.4739, + "step": 441 + }, + { + "epoch": 0.11786666666666666, + "grad_norm": 3.1309202713688364, + "learning_rate": 4.867111611293896e-06, + "loss": 0.5111, + "step": 442 + }, + { + "epoch": 0.11813333333333334, + "grad_norm": 3.3019873740657117, + "learning_rate": 4.866426607385302e-06, + "loss": 0.4791, + "step": 443 + }, + { + "epoch": 0.1184, + "grad_norm": 2.794459562062388, + "learning_rate": 4.865739890962655e-06, + "loss": 0.4596, + "step": 444 + }, + { + "epoch": 0.11866666666666667, + "grad_norm": 3.3676912397128183, + "learning_rate": 4.865051462522914e-06, + "loss": 0.5333, + "step": 445 + }, + { + "epoch": 0.11893333333333334, + "grad_norm": 3.242571121578889, + "learning_rate": 4.8643613225642735e-06, + "loss": 0.515, + "step": 446 + }, + { + "epoch": 0.1192, + "grad_norm": 2.9453054804585057, + "learning_rate": 4.863669471586168e-06, + "loss": 0.4663, + "step": 447 + }, + { + "epoch": 0.11946666666666667, + "grad_norm": 3.046243043778784, + "learning_rate": 4.86297591008927e-06, + "loss": 0.5427, + "step": 448 + }, + { + "epoch": 0.11973333333333333, + "grad_norm": 2.9324637794254294, + "learning_rate": 4.86228063857549e-06, + "loss": 0.4452, + "step": 449 + }, + { + "epoch": 0.12, + "grad_norm": 3.077142989508375, + "learning_rate": 4.861583657547975e-06, + "loss": 0.4833, + "step": 450 + }, + { + "epoch": 0.12026666666666666, + "grad_norm": 2.9934574511072523, + "learning_rate": 4.86088496751111e-06, + "loss": 0.5141, + "step": 451 + }, + { + "epoch": 0.12053333333333334, + "grad_norm": 3.4490006663684585, + "learning_rate": 4.860184568970517e-06, + "loss": 0.5813, + "step": 452 + }, + { + "epoch": 0.1208, + "grad_norm": 3.102932813764256, + "learning_rate": 4.859482462433055e-06, + "loss": 0.5159, + "step": 453 + }, + { + "epoch": 0.12106666666666667, + "grad_norm": 2.913041580468247, + "learning_rate": 4.858778648406817e-06, + "loss": 0.5046, + "step": 454 + }, + { + "epoch": 0.12133333333333333, + "grad_norm": 2.9280260320596803, + "learning_rate": 4.858073127401132e-06, + "loss": 0.4595, + "step": 455 + }, + { + "epoch": 0.1216, + "grad_norm": 2.841200641573223, + "learning_rate": 4.857365899926565e-06, + "loss": 0.4623, + "step": 456 + }, + { + "epoch": 0.12186666666666666, + "grad_norm": 3.5421272971588285, + "learning_rate": 4.856656966494918e-06, + "loss": 0.5251, + "step": 457 + }, + { + "epoch": 0.12213333333333333, + "grad_norm": 3.2105323278592772, + "learning_rate": 4.855946327619224e-06, + "loss": 0.4988, + "step": 458 + }, + { + "epoch": 0.1224, + "grad_norm": 2.9787626073080973, + "learning_rate": 4.855233983813751e-06, + "loss": 0.4846, + "step": 459 + }, + { + "epoch": 0.12266666666666666, + "grad_norm": 2.7271018135217355, + "learning_rate": 4.854519935594003e-06, + "loss": 0.4805, + "step": 460 + }, + { + "epoch": 0.12293333333333334, + "grad_norm": 2.9586610640854216, + "learning_rate": 4.853804183476716e-06, + "loss": 0.495, + "step": 461 + }, + { + "epoch": 0.1232, + "grad_norm": 2.9914896761193575, + "learning_rate": 4.853086727979858e-06, + "loss": 0.4615, + "step": 462 + }, + { + "epoch": 0.12346666666666667, + "grad_norm": 3.9793633581380097, + "learning_rate": 4.85236756962263e-06, + "loss": 0.5133, + "step": 463 + }, + { + "epoch": 0.12373333333333333, + "grad_norm": 3.003933766630654, + "learning_rate": 4.851646708925467e-06, + "loss": 0.4841, + "step": 464 + }, + { + "epoch": 0.124, + "grad_norm": 2.8713620602486083, + "learning_rate": 4.850924146410036e-06, + "loss": 0.5103, + "step": 465 + }, + { + "epoch": 0.12426666666666666, + "grad_norm": 3.077982536219979, + "learning_rate": 4.850199882599232e-06, + "loss": 0.5045, + "step": 466 + }, + { + "epoch": 0.12453333333333333, + "grad_norm": 2.6789550931450483, + "learning_rate": 4.849473918017185e-06, + "loss": 0.454, + "step": 467 + }, + { + "epoch": 0.1248, + "grad_norm": 2.5529000884370627, + "learning_rate": 4.848746253189254e-06, + "loss": 0.407, + "step": 468 + }, + { + "epoch": 0.12506666666666666, + "grad_norm": 2.842696945301407, + "learning_rate": 4.84801688864203e-06, + "loss": 0.4926, + "step": 469 + }, + { + "epoch": 0.12533333333333332, + "grad_norm": 4.4065421506398845, + "learning_rate": 4.847285824903331e-06, + "loss": 0.4957, + "step": 470 + }, + { + "epoch": 0.1256, + "grad_norm": 3.1236179450990753, + "learning_rate": 4.846553062502209e-06, + "loss": 0.4563, + "step": 471 + }, + { + "epoch": 0.12586666666666665, + "grad_norm": 4.387292524303422, + "learning_rate": 4.84581860196894e-06, + "loss": 0.6, + "step": 472 + }, + { + "epoch": 0.12613333333333332, + "grad_norm": 3.042714896185467, + "learning_rate": 4.845082443835034e-06, + "loss": 0.4795, + "step": 473 + }, + { + "epoch": 0.1264, + "grad_norm": 3.219177308580339, + "learning_rate": 4.8443445886332265e-06, + "loss": 0.5622, + "step": 474 + }, + { + "epoch": 0.12666666666666668, + "grad_norm": 3.0445126299076093, + "learning_rate": 4.843605036897481e-06, + "loss": 0.5886, + "step": 475 + }, + { + "epoch": 0.12693333333333334, + "grad_norm": 2.915128321752097, + "learning_rate": 4.84286378916299e-06, + "loss": 0.4699, + "step": 476 + }, + { + "epoch": 0.1272, + "grad_norm": 3.121375031267845, + "learning_rate": 4.842120845966175e-06, + "loss": 0.4867, + "step": 477 + }, + { + "epoch": 0.12746666666666667, + "grad_norm": 2.8450052620297095, + "learning_rate": 4.841376207844679e-06, + "loss": 0.4945, + "step": 478 + }, + { + "epoch": 0.12773333333333334, + "grad_norm": 2.733081878814494, + "learning_rate": 4.840629875337376e-06, + "loss": 0.447, + "step": 479 + }, + { + "epoch": 0.128, + "grad_norm": 3.5635195253555327, + "learning_rate": 4.839881848984366e-06, + "loss": 0.591, + "step": 480 + }, + { + "epoch": 0.12826666666666667, + "grad_norm": 2.8282062040807947, + "learning_rate": 4.839132129326974e-06, + "loss": 0.4619, + "step": 481 + }, + { + "epoch": 0.12853333333333333, + "grad_norm": 2.779504488197032, + "learning_rate": 4.838380716907749e-06, + "loss": 0.5146, + "step": 482 + }, + { + "epoch": 0.1288, + "grad_norm": 3.206711490475913, + "learning_rate": 4.837627612270468e-06, + "loss": 0.4789, + "step": 483 + }, + { + "epoch": 0.12906666666666666, + "grad_norm": 2.60659808494029, + "learning_rate": 4.836872815960129e-06, + "loss": 0.4867, + "step": 484 + }, + { + "epoch": 0.12933333333333333, + "grad_norm": 2.8990093290058936, + "learning_rate": 4.836116328522957e-06, + "loss": 0.4636, + "step": 485 + }, + { + "epoch": 0.1296, + "grad_norm": 2.7791974737692127, + "learning_rate": 4.835358150506401e-06, + "loss": 0.4396, + "step": 486 + }, + { + "epoch": 0.12986666666666666, + "grad_norm": 3.020716350227551, + "learning_rate": 4.8345982824591306e-06, + "loss": 0.5134, + "step": 487 + }, + { + "epoch": 0.13013333333333332, + "grad_norm": 4.067729122217571, + "learning_rate": 4.833836724931042e-06, + "loss": 0.5604, + "step": 488 + }, + { + "epoch": 0.1304, + "grad_norm": 2.68694867969256, + "learning_rate": 4.833073478473249e-06, + "loss": 0.4769, + "step": 489 + }, + { + "epoch": 0.13066666666666665, + "grad_norm": 2.8366129632155963, + "learning_rate": 4.832308543638094e-06, + "loss": 0.477, + "step": 490 + }, + { + "epoch": 0.13093333333333335, + "grad_norm": 2.8153020458384272, + "learning_rate": 4.831541920979138e-06, + "loss": 0.4849, + "step": 491 + }, + { + "epoch": 0.1312, + "grad_norm": 2.697064488942593, + "learning_rate": 4.830773611051161e-06, + "loss": 0.4364, + "step": 492 + }, + { + "epoch": 0.13146666666666668, + "grad_norm": 2.694863802617797, + "learning_rate": 4.83000361441017e-06, + "loss": 0.4544, + "step": 493 + }, + { + "epoch": 0.13173333333333334, + "grad_norm": 2.7363259579535733, + "learning_rate": 4.829231931613386e-06, + "loss": 0.5321, + "step": 494 + }, + { + "epoch": 0.132, + "grad_norm": 3.0846169972643467, + "learning_rate": 4.828458563219255e-06, + "loss": 0.5339, + "step": 495 + }, + { + "epoch": 0.13226666666666667, + "grad_norm": 2.9947926390618584, + "learning_rate": 4.8276835097874405e-06, + "loss": 0.502, + "step": 496 + }, + { + "epoch": 0.13253333333333334, + "grad_norm": 2.950126944255218, + "learning_rate": 4.826906771878827e-06, + "loss": 0.4789, + "step": 497 + }, + { + "epoch": 0.1328, + "grad_norm": 3.287729732943887, + "learning_rate": 4.826128350055515e-06, + "loss": 0.4361, + "step": 498 + }, + { + "epoch": 0.13306666666666667, + "grad_norm": 2.794190326093881, + "learning_rate": 4.825348244880829e-06, + "loss": 0.4391, + "step": 499 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 2.9219657406179618, + "learning_rate": 4.824566456919306e-06, + "loss": 0.4932, + "step": 500 + }, + { + "epoch": 0.1336, + "grad_norm": 2.8223506072348883, + "learning_rate": 4.8237829867367046e-06, + "loss": 0.4538, + "step": 501 + }, + { + "epoch": 0.13386666666666666, + "grad_norm": 2.7025330931334173, + "learning_rate": 4.822997834899998e-06, + "loss": 0.4184, + "step": 502 + }, + { + "epoch": 0.13413333333333333, + "grad_norm": 2.7154415719176055, + "learning_rate": 4.822211001977378e-06, + "loss": 0.4762, + "step": 503 + }, + { + "epoch": 0.1344, + "grad_norm": 2.9277935919160547, + "learning_rate": 4.821422488538253e-06, + "loss": 0.5018, + "step": 504 + }, + { + "epoch": 0.13466666666666666, + "grad_norm": 2.7236833411327894, + "learning_rate": 4.820632295153249e-06, + "loss": 0.4869, + "step": 505 + }, + { + "epoch": 0.13493333333333332, + "grad_norm": 3.489833905672247, + "learning_rate": 4.819840422394203e-06, + "loss": 0.5962, + "step": 506 + }, + { + "epoch": 0.1352, + "grad_norm": 3.169017134699179, + "learning_rate": 4.819046870834171e-06, + "loss": 0.5544, + "step": 507 + }, + { + "epoch": 0.13546666666666668, + "grad_norm": 3.351419992666179, + "learning_rate": 4.818251641047424e-06, + "loss": 0.5155, + "step": 508 + }, + { + "epoch": 0.13573333333333334, + "grad_norm": 3.093953749437234, + "learning_rate": 4.817454733609446e-06, + "loss": 0.477, + "step": 509 + }, + { + "epoch": 0.136, + "grad_norm": 2.8650633998103374, + "learning_rate": 4.816656149096936e-06, + "loss": 0.5029, + "step": 510 + }, + { + "epoch": 0.13626666666666667, + "grad_norm": 3.2530281142273445, + "learning_rate": 4.815855888087807e-06, + "loss": 0.4721, + "step": 511 + }, + { + "epoch": 0.13653333333333334, + "grad_norm": 2.828230997007545, + "learning_rate": 4.815053951161184e-06, + "loss": 0.441, + "step": 512 + }, + { + "epoch": 0.1368, + "grad_norm": 2.5658332956400542, + "learning_rate": 4.814250338897405e-06, + "loss": 0.4484, + "step": 513 + }, + { + "epoch": 0.13706666666666667, + "grad_norm": 3.8650983004077037, + "learning_rate": 4.813445051878022e-06, + "loss": 0.4903, + "step": 514 + }, + { + "epoch": 0.13733333333333334, + "grad_norm": 2.8133398340743287, + "learning_rate": 4.812638090685796e-06, + "loss": 0.4633, + "step": 515 + }, + { + "epoch": 0.1376, + "grad_norm": 2.639251041070967, + "learning_rate": 4.811829455904702e-06, + "loss": 0.4933, + "step": 516 + }, + { + "epoch": 0.13786666666666667, + "grad_norm": 2.67910902376611, + "learning_rate": 4.811019148119926e-06, + "loss": 0.4624, + "step": 517 + }, + { + "epoch": 0.13813333333333333, + "grad_norm": 2.8917418810922375, + "learning_rate": 4.810207167917865e-06, + "loss": 0.5432, + "step": 518 + }, + { + "epoch": 0.1384, + "grad_norm": 2.740692908985976, + "learning_rate": 4.809393515886123e-06, + "loss": 0.4773, + "step": 519 + }, + { + "epoch": 0.13866666666666666, + "grad_norm": 3.0878024620417777, + "learning_rate": 4.808578192613519e-06, + "loss": 0.5082, + "step": 520 + }, + { + "epoch": 0.13893333333333333, + "grad_norm": 3.0659007515601986, + "learning_rate": 4.807761198690076e-06, + "loss": 0.5038, + "step": 521 + }, + { + "epoch": 0.1392, + "grad_norm": 2.8931619415953715, + "learning_rate": 4.806942534707031e-06, + "loss": 0.4804, + "step": 522 + }, + { + "epoch": 0.13946666666666666, + "grad_norm": 3.1212732015675644, + "learning_rate": 4.8061222012568255e-06, + "loss": 0.474, + "step": 523 + }, + { + "epoch": 0.13973333333333332, + "grad_norm": 2.949545983752779, + "learning_rate": 4.805300198933112e-06, + "loss": 0.4955, + "step": 524 + }, + { + "epoch": 0.14, + "grad_norm": 3.1031775535405473, + "learning_rate": 4.80447652833075e-06, + "loss": 0.5013, + "step": 525 + }, + { + "epoch": 0.14026666666666668, + "grad_norm": 2.8125379634839054, + "learning_rate": 4.803651190045805e-06, + "loss": 0.4801, + "step": 526 + }, + { + "epoch": 0.14053333333333334, + "grad_norm": 3.683521037227838, + "learning_rate": 4.802824184675551e-06, + "loss": 0.5399, + "step": 527 + }, + { + "epoch": 0.1408, + "grad_norm": 2.808580989487997, + "learning_rate": 4.801995512818467e-06, + "loss": 0.4793, + "step": 528 + }, + { + "epoch": 0.14106666666666667, + "grad_norm": 2.685595062474713, + "learning_rate": 4.8011651750742385e-06, + "loss": 0.4339, + "step": 529 + }, + { + "epoch": 0.14133333333333334, + "grad_norm": 2.943791476852844, + "learning_rate": 4.800333172043759e-06, + "loss": 0.4814, + "step": 530 + }, + { + "epoch": 0.1416, + "grad_norm": 2.793165756409829, + "learning_rate": 4.799499504329122e-06, + "loss": 0.478, + "step": 531 + }, + { + "epoch": 0.14186666666666667, + "grad_norm": 2.809708716923085, + "learning_rate": 4.7986641725336294e-06, + "loss": 0.4856, + "step": 532 + }, + { + "epoch": 0.14213333333333333, + "grad_norm": 2.9258032632517357, + "learning_rate": 4.797827177261788e-06, + "loss": 0.478, + "step": 533 + }, + { + "epoch": 0.1424, + "grad_norm": 2.720326872444766, + "learning_rate": 4.796988519119306e-06, + "loss": 0.459, + "step": 534 + }, + { + "epoch": 0.14266666666666666, + "grad_norm": 3.464499070072953, + "learning_rate": 4.7961481987130944e-06, + "loss": 0.5473, + "step": 535 + }, + { + "epoch": 0.14293333333333333, + "grad_norm": 3.2266190430851203, + "learning_rate": 4.79530621665127e-06, + "loss": 0.5311, + "step": 536 + }, + { + "epoch": 0.1432, + "grad_norm": 2.7771534179492834, + "learning_rate": 4.7944625735431515e-06, + "loss": 0.5042, + "step": 537 + }, + { + "epoch": 0.14346666666666666, + "grad_norm": 2.878809579367144, + "learning_rate": 4.7936172699992575e-06, + "loss": 0.4634, + "step": 538 + }, + { + "epoch": 0.14373333333333332, + "grad_norm": 2.4835425881958075, + "learning_rate": 4.79277030663131e-06, + "loss": 0.4221, + "step": 539 + }, + { + "epoch": 0.144, + "grad_norm": 2.935016058336967, + "learning_rate": 4.791921684052232e-06, + "loss": 0.4994, + "step": 540 + }, + { + "epoch": 0.14426666666666665, + "grad_norm": 2.5660059800674655, + "learning_rate": 4.791071402876147e-06, + "loss": 0.4166, + "step": 541 + }, + { + "epoch": 0.14453333333333335, + "grad_norm": 2.8501081561417156, + "learning_rate": 4.790219463718378e-06, + "loss": 0.5244, + "step": 542 + }, + { + "epoch": 0.1448, + "grad_norm": 2.633786742138543, + "learning_rate": 4.78936586719545e-06, + "loss": 0.4127, + "step": 543 + }, + { + "epoch": 0.14506666666666668, + "grad_norm": 2.754547531618363, + "learning_rate": 4.788510613925084e-06, + "loss": 0.4428, + "step": 544 + }, + { + "epoch": 0.14533333333333334, + "grad_norm": 4.6158219272896215, + "learning_rate": 4.787653704526203e-06, + "loss": 0.4934, + "step": 545 + }, + { + "epoch": 0.1456, + "grad_norm": 2.947212748646922, + "learning_rate": 4.786795139618927e-06, + "loss": 0.4485, + "step": 546 + }, + { + "epoch": 0.14586666666666667, + "grad_norm": 2.9471218418382854, + "learning_rate": 4.785934919824575e-06, + "loss": 0.4841, + "step": 547 + }, + { + "epoch": 0.14613333333333334, + "grad_norm": 2.754494286211294, + "learning_rate": 4.785073045765663e-06, + "loss": 0.4321, + "step": 548 + }, + { + "epoch": 0.1464, + "grad_norm": 2.779842985060256, + "learning_rate": 4.784209518065904e-06, + "loss": 0.4786, + "step": 549 + }, + { + "epoch": 0.14666666666666667, + "grad_norm": 2.4721598112888974, + "learning_rate": 4.783344337350207e-06, + "loss": 0.3851, + "step": 550 + }, + { + "epoch": 0.14693333333333333, + "grad_norm": 3.6800557596981722, + "learning_rate": 4.78247750424468e-06, + "loss": 0.4771, + "step": 551 + }, + { + "epoch": 0.1472, + "grad_norm": 2.9535411289859588, + "learning_rate": 4.781609019376623e-06, + "loss": 0.5079, + "step": 552 + }, + { + "epoch": 0.14746666666666666, + "grad_norm": 3.102195936035881, + "learning_rate": 4.780738883374534e-06, + "loss": 0.4896, + "step": 553 + }, + { + "epoch": 0.14773333333333333, + "grad_norm": 3.2804916847765218, + "learning_rate": 4.779867096868105e-06, + "loss": 0.4601, + "step": 554 + }, + { + "epoch": 0.148, + "grad_norm": 2.649588700063468, + "learning_rate": 4.778993660488223e-06, + "loss": 0.4154, + "step": 555 + }, + { + "epoch": 0.14826666666666666, + "grad_norm": 2.798467322198792, + "learning_rate": 4.778118574866968e-06, + "loss": 0.4615, + "step": 556 + }, + { + "epoch": 0.14853333333333332, + "grad_norm": 2.602766646801891, + "learning_rate": 4.777241840637613e-06, + "loss": 0.4542, + "step": 557 + }, + { + "epoch": 0.1488, + "grad_norm": 2.6575808480260847, + "learning_rate": 4.776363458434628e-06, + "loss": 0.4125, + "step": 558 + }, + { + "epoch": 0.14906666666666665, + "grad_norm": 2.6717726067289016, + "learning_rate": 4.775483428893669e-06, + "loss": 0.4474, + "step": 559 + }, + { + "epoch": 0.14933333333333335, + "grad_norm": 3.1771674669823717, + "learning_rate": 4.774601752651591e-06, + "loss": 0.5797, + "step": 560 + }, + { + "epoch": 0.1496, + "grad_norm": 2.986079257518793, + "learning_rate": 4.773718430346435e-06, + "loss": 0.4704, + "step": 561 + }, + { + "epoch": 0.14986666666666668, + "grad_norm": 3.161898380239523, + "learning_rate": 4.772833462617437e-06, + "loss": 0.5313, + "step": 562 + }, + { + "epoch": 0.15013333333333334, + "grad_norm": 3.348266286588783, + "learning_rate": 4.7719468501050206e-06, + "loss": 0.6035, + "step": 563 + }, + { + "epoch": 0.1504, + "grad_norm": 2.902878603291963, + "learning_rate": 4.7710585934508045e-06, + "loss": 0.4558, + "step": 564 + }, + { + "epoch": 0.15066666666666667, + "grad_norm": 3.426702010717282, + "learning_rate": 4.770168693297592e-06, + "loss": 0.4754, + "step": 565 + }, + { + "epoch": 0.15093333333333334, + "grad_norm": 2.9581289220400953, + "learning_rate": 4.7692771502893775e-06, + "loss": 0.501, + "step": 566 + }, + { + "epoch": 0.1512, + "grad_norm": 2.8115145744069507, + "learning_rate": 4.768383965071347e-06, + "loss": 0.4725, + "step": 567 + }, + { + "epoch": 0.15146666666666667, + "grad_norm": 2.9151061193279952, + "learning_rate": 4.767489138289871e-06, + "loss": 0.498, + "step": 568 + }, + { + "epoch": 0.15173333333333333, + "grad_norm": 2.857913165380838, + "learning_rate": 4.766592670592509e-06, + "loss": 0.4654, + "step": 569 + }, + { + "epoch": 0.152, + "grad_norm": 2.781957666451134, + "learning_rate": 4.76569456262801e-06, + "loss": 0.4651, + "step": 570 + }, + { + "epoch": 0.15226666666666666, + "grad_norm": 2.653221562572426, + "learning_rate": 4.764794815046308e-06, + "loss": 0.4589, + "step": 571 + }, + { + "epoch": 0.15253333333333333, + "grad_norm": 3.320217588893547, + "learning_rate": 4.763893428498525e-06, + "loss": 0.5345, + "step": 572 + }, + { + "epoch": 0.1528, + "grad_norm": 2.798526392123618, + "learning_rate": 4.762990403636967e-06, + "loss": 0.4811, + "step": 573 + }, + { + "epoch": 0.15306666666666666, + "grad_norm": 3.07236425270922, + "learning_rate": 4.7620857411151266e-06, + "loss": 0.5729, + "step": 574 + }, + { + "epoch": 0.15333333333333332, + "grad_norm": 2.8091000520283376, + "learning_rate": 4.761179441587683e-06, + "loss": 0.494, + "step": 575 + }, + { + "epoch": 0.1536, + "grad_norm": 2.600158049290435, + "learning_rate": 4.7602715057104974e-06, + "loss": 0.4614, + "step": 576 + }, + { + "epoch": 0.15386666666666668, + "grad_norm": 2.718795975980565, + "learning_rate": 4.759361934140618e-06, + "loss": 0.4216, + "step": 577 + }, + { + "epoch": 0.15413333333333334, + "grad_norm": 2.719043344466965, + "learning_rate": 4.758450727536274e-06, + "loss": 0.4477, + "step": 578 + }, + { + "epoch": 0.1544, + "grad_norm": 3.1374828562942683, + "learning_rate": 4.75753788655688e-06, + "loss": 0.4629, + "step": 579 + }, + { + "epoch": 0.15466666666666667, + "grad_norm": 2.732140832802711, + "learning_rate": 4.756623411863032e-06, + "loss": 0.4521, + "step": 580 + }, + { + "epoch": 0.15493333333333334, + "grad_norm": 2.717825155339731, + "learning_rate": 4.755707304116509e-06, + "loss": 0.4668, + "step": 581 + }, + { + "epoch": 0.1552, + "grad_norm": 2.9161446341938224, + "learning_rate": 4.754789563980271e-06, + "loss": 0.4701, + "step": 582 + }, + { + "epoch": 0.15546666666666667, + "grad_norm": 3.6064827974914158, + "learning_rate": 4.753870192118461e-06, + "loss": 0.4869, + "step": 583 + }, + { + "epoch": 0.15573333333333333, + "grad_norm": 3.4181226842184635, + "learning_rate": 4.7529491891964e-06, + "loss": 0.4961, + "step": 584 + }, + { + "epoch": 0.156, + "grad_norm": 2.9867910232044537, + "learning_rate": 4.752026555880592e-06, + "loss": 0.5387, + "step": 585 + }, + { + "epoch": 0.15626666666666666, + "grad_norm": 2.7959806016824142, + "learning_rate": 4.7511022928387206e-06, + "loss": 0.495, + "step": 586 + }, + { + "epoch": 0.15653333333333333, + "grad_norm": 2.387979483330469, + "learning_rate": 4.750176400739646e-06, + "loss": 0.4366, + "step": 587 + }, + { + "epoch": 0.1568, + "grad_norm": 2.6434313098183373, + "learning_rate": 4.749248880253411e-06, + "loss": 0.4271, + "step": 588 + }, + { + "epoch": 0.15706666666666666, + "grad_norm": 2.814053412581812, + "learning_rate": 4.748319732051234e-06, + "loss": 0.4483, + "step": 589 + }, + { + "epoch": 0.15733333333333333, + "grad_norm": 3.299045546630256, + "learning_rate": 4.747388956805513e-06, + "loss": 0.4879, + "step": 590 + }, + { + "epoch": 0.1576, + "grad_norm": 2.643560917815565, + "learning_rate": 4.746456555189825e-06, + "loss": 0.4684, + "step": 591 + }, + { + "epoch": 0.15786666666666666, + "grad_norm": 2.6577197215696438, + "learning_rate": 4.745522527878918e-06, + "loss": 0.459, + "step": 592 + }, + { + "epoch": 0.15813333333333332, + "grad_norm": 2.660368697294052, + "learning_rate": 4.744586875548723e-06, + "loss": 0.4458, + "step": 593 + }, + { + "epoch": 0.1584, + "grad_norm": 2.7166978824941914, + "learning_rate": 4.743649598876344e-06, + "loss": 0.4412, + "step": 594 + }, + { + "epoch": 0.15866666666666668, + "grad_norm": 2.7809540534352806, + "learning_rate": 4.742710698540061e-06, + "loss": 0.4546, + "step": 595 + }, + { + "epoch": 0.15893333333333334, + "grad_norm": 3.1014653285993337, + "learning_rate": 4.741770175219328e-06, + "loss": 0.5155, + "step": 596 + }, + { + "epoch": 0.1592, + "grad_norm": 3.0731445644976363, + "learning_rate": 4.740828029594775e-06, + "loss": 0.5073, + "step": 597 + }, + { + "epoch": 0.15946666666666667, + "grad_norm": 2.9098855952696456, + "learning_rate": 4.739884262348206e-06, + "loss": 0.506, + "step": 598 + }, + { + "epoch": 0.15973333333333334, + "grad_norm": 3.5885127601428306, + "learning_rate": 4.7389388741625954e-06, + "loss": 0.5344, + "step": 599 + }, + { + "epoch": 0.16, + "grad_norm": 3.209204691710474, + "learning_rate": 4.737991865722095e-06, + "loss": 0.4522, + "step": 600 + }, + { + "epoch": 0.16026666666666667, + "grad_norm": 2.8788923785987803, + "learning_rate": 4.737043237712028e-06, + "loss": 0.4841, + "step": 601 + }, + { + "epoch": 0.16053333333333333, + "grad_norm": 2.772274988332571, + "learning_rate": 4.736092990818888e-06, + "loss": 0.4786, + "step": 602 + }, + { + "epoch": 0.1608, + "grad_norm": 2.878645078885937, + "learning_rate": 4.73514112573034e-06, + "loss": 0.5128, + "step": 603 + }, + { + "epoch": 0.16106666666666666, + "grad_norm": 3.0101075879318313, + "learning_rate": 4.7341876431352226e-06, + "loss": 0.4626, + "step": 604 + }, + { + "epoch": 0.16133333333333333, + "grad_norm": 3.12106046591674, + "learning_rate": 4.733232543723543e-06, + "loss": 0.5082, + "step": 605 + }, + { + "epoch": 0.1616, + "grad_norm": 2.617228629509633, + "learning_rate": 4.732275828186478e-06, + "loss": 0.4421, + "step": 606 + }, + { + "epoch": 0.16186666666666666, + "grad_norm": 3.0959029762180705, + "learning_rate": 4.731317497216376e-06, + "loss": 0.4956, + "step": 607 + }, + { + "epoch": 0.16213333333333332, + "grad_norm": 2.9872092944839883, + "learning_rate": 4.730357551506751e-06, + "loss": 0.5003, + "step": 608 + }, + { + "epoch": 0.1624, + "grad_norm": 3.2699826215448753, + "learning_rate": 4.729395991752291e-06, + "loss": 0.5611, + "step": 609 + }, + { + "epoch": 0.16266666666666665, + "grad_norm": 2.893375322685153, + "learning_rate": 4.728432818648847e-06, + "loss": 0.4803, + "step": 610 + }, + { + "epoch": 0.16293333333333335, + "grad_norm": 3.119599509271226, + "learning_rate": 4.7274680328934395e-06, + "loss": 0.5539, + "step": 611 + }, + { + "epoch": 0.1632, + "grad_norm": 2.79883561963107, + "learning_rate": 4.726501635184256e-06, + "loss": 0.4409, + "step": 612 + }, + { + "epoch": 0.16346666666666668, + "grad_norm": 2.775807461120403, + "learning_rate": 4.72553362622065e-06, + "loss": 0.4748, + "step": 613 + }, + { + "epoch": 0.16373333333333334, + "grad_norm": 2.5606790966772106, + "learning_rate": 4.72456400670314e-06, + "loss": 0.4419, + "step": 614 + }, + { + "epoch": 0.164, + "grad_norm": 3.0488652197469324, + "learning_rate": 4.723592777333415e-06, + "loss": 0.5194, + "step": 615 + }, + { + "epoch": 0.16426666666666667, + "grad_norm": 2.621702716855715, + "learning_rate": 4.722619938814324e-06, + "loss": 0.4438, + "step": 616 + }, + { + "epoch": 0.16453333333333334, + "grad_norm": 2.571176626466772, + "learning_rate": 4.721645491849881e-06, + "loss": 0.4626, + "step": 617 + }, + { + "epoch": 0.1648, + "grad_norm": 2.3560948898929395, + "learning_rate": 4.720669437145266e-06, + "loss": 0.4101, + "step": 618 + }, + { + "epoch": 0.16506666666666667, + "grad_norm": 3.054640751007946, + "learning_rate": 4.719691775406819e-06, + "loss": 0.4996, + "step": 619 + }, + { + "epoch": 0.16533333333333333, + "grad_norm": 2.7991280484976757, + "learning_rate": 4.718712507342048e-06, + "loss": 0.4939, + "step": 620 + }, + { + "epoch": 0.1656, + "grad_norm": 2.809323328751179, + "learning_rate": 4.717731633659621e-06, + "loss": 0.5512, + "step": 621 + }, + { + "epoch": 0.16586666666666666, + "grad_norm": 2.418775909678158, + "learning_rate": 4.716749155069364e-06, + "loss": 0.4178, + "step": 622 + }, + { + "epoch": 0.16613333333333333, + "grad_norm": 2.533105736836975, + "learning_rate": 4.715765072282272e-06, + "loss": 0.4531, + "step": 623 + }, + { + "epoch": 0.1664, + "grad_norm": 2.9417436668716737, + "learning_rate": 4.714779386010497e-06, + "loss": 0.4661, + "step": 624 + }, + { + "epoch": 0.16666666666666666, + "grad_norm": 2.7927585196888716, + "learning_rate": 4.713792096967349e-06, + "loss": 0.4941, + "step": 625 + }, + { + "epoch": 0.16693333333333332, + "grad_norm": 2.90685924320954, + "learning_rate": 4.712803205867302e-06, + "loss": 0.4893, + "step": 626 + }, + { + "epoch": 0.1672, + "grad_norm": 3.4438772708700576, + "learning_rate": 4.7118127134259875e-06, + "loss": 0.4751, + "step": 627 + }, + { + "epoch": 0.16746666666666668, + "grad_norm": 3.3759410814928565, + "learning_rate": 4.710820620360196e-06, + "loss": 0.545, + "step": 628 + }, + { + "epoch": 0.16773333333333335, + "grad_norm": 2.9058841556873602, + "learning_rate": 4.709826927387875e-06, + "loss": 0.4995, + "step": 629 + }, + { + "epoch": 0.168, + "grad_norm": 2.6899578753879516, + "learning_rate": 4.708831635228134e-06, + "loss": 0.474, + "step": 630 + }, + { + "epoch": 0.16826666666666668, + "grad_norm": 2.69375920679913, + "learning_rate": 4.707834744601235e-06, + "loss": 0.4601, + "step": 631 + }, + { + "epoch": 0.16853333333333334, + "grad_norm": 2.299815605814072, + "learning_rate": 4.706836256228599e-06, + "loss": 0.4047, + "step": 632 + }, + { + "epoch": 0.1688, + "grad_norm": 2.7002560709819745, + "learning_rate": 4.705836170832802e-06, + "loss": 0.4501, + "step": 633 + }, + { + "epoch": 0.16906666666666667, + "grad_norm": 3.1529448591929152, + "learning_rate": 4.70483448913758e-06, + "loss": 0.4928, + "step": 634 + }, + { + "epoch": 0.16933333333333334, + "grad_norm": 2.6610166996956326, + "learning_rate": 4.703831211867818e-06, + "loss": 0.4951, + "step": 635 + }, + { + "epoch": 0.1696, + "grad_norm": 2.7721951698951224, + "learning_rate": 4.702826339749558e-06, + "loss": 0.5019, + "step": 636 + }, + { + "epoch": 0.16986666666666667, + "grad_norm": 2.707980733220256, + "learning_rate": 4.7018198735099986e-06, + "loss": 0.4387, + "step": 637 + }, + { + "epoch": 0.17013333333333333, + "grad_norm": 3.0449777088826213, + "learning_rate": 4.700811813877489e-06, + "loss": 0.4893, + "step": 638 + }, + { + "epoch": 0.1704, + "grad_norm": 2.9778773472517184, + "learning_rate": 4.699802161581535e-06, + "loss": 0.4957, + "step": 639 + }, + { + "epoch": 0.17066666666666666, + "grad_norm": 2.698007010653017, + "learning_rate": 4.698790917352789e-06, + "loss": 0.4798, + "step": 640 + }, + { + "epoch": 0.17093333333333333, + "grad_norm": 2.8564333180326886, + "learning_rate": 4.697778081923061e-06, + "loss": 0.4586, + "step": 641 + }, + { + "epoch": 0.1712, + "grad_norm": 2.6937879335482906, + "learning_rate": 4.696763656025309e-06, + "loss": 0.4459, + "step": 642 + }, + { + "epoch": 0.17146666666666666, + "grad_norm": 2.5880716730196505, + "learning_rate": 4.6957476403936465e-06, + "loss": 0.4432, + "step": 643 + }, + { + "epoch": 0.17173333333333332, + "grad_norm": 2.5485489527415264, + "learning_rate": 4.694730035763332e-06, + "loss": 0.4362, + "step": 644 + }, + { + "epoch": 0.172, + "grad_norm": 3.515622032854306, + "learning_rate": 4.693710842870777e-06, + "loss": 0.5066, + "step": 645 + }, + { + "epoch": 0.17226666666666668, + "grad_norm": 2.766807733010568, + "learning_rate": 4.692690062453541e-06, + "loss": 0.4542, + "step": 646 + }, + { + "epoch": 0.17253333333333334, + "grad_norm": 2.710663284341496, + "learning_rate": 4.691667695250335e-06, + "loss": 0.4466, + "step": 647 + }, + { + "epoch": 0.1728, + "grad_norm": 2.778692732846347, + "learning_rate": 4.690643742001014e-06, + "loss": 0.4635, + "step": 648 + }, + { + "epoch": 0.17306666666666667, + "grad_norm": 3.0935312850155814, + "learning_rate": 4.689618203446585e-06, + "loss": 0.4515, + "step": 649 + }, + { + "epoch": 0.17333333333333334, + "grad_norm": 2.9531053002602454, + "learning_rate": 4.688591080329199e-06, + "loss": 0.4895, + "step": 650 + }, + { + "epoch": 0.1736, + "grad_norm": 2.550236802610135, + "learning_rate": 4.687562373392156e-06, + "loss": 0.4294, + "step": 651 + }, + { + "epoch": 0.17386666666666667, + "grad_norm": 2.671321230365299, + "learning_rate": 4.6865320833799014e-06, + "loss": 0.4601, + "step": 652 + }, + { + "epoch": 0.17413333333333333, + "grad_norm": 2.6680553152834645, + "learning_rate": 4.685500211038025e-06, + "loss": 0.4418, + "step": 653 + }, + { + "epoch": 0.1744, + "grad_norm": 2.664622161012554, + "learning_rate": 4.6844667571132655e-06, + "loss": 0.4378, + "step": 654 + }, + { + "epoch": 0.17466666666666666, + "grad_norm": 2.815296017136993, + "learning_rate": 4.6834317223534995e-06, + "loss": 0.4931, + "step": 655 + }, + { + "epoch": 0.17493333333333333, + "grad_norm": 4.119111323292945, + "learning_rate": 4.682395107507754e-06, + "loss": 0.5343, + "step": 656 + }, + { + "epoch": 0.1752, + "grad_norm": 2.7124657619088546, + "learning_rate": 4.681356913326196e-06, + "loss": 0.4548, + "step": 657 + }, + { + "epoch": 0.17546666666666666, + "grad_norm": 2.622089386486628, + "learning_rate": 4.680317140560138e-06, + "loss": 0.4592, + "step": 658 + }, + { + "epoch": 0.17573333333333332, + "grad_norm": 2.9083439540434433, + "learning_rate": 4.679275789962032e-06, + "loss": 0.4838, + "step": 659 + }, + { + "epoch": 0.176, + "grad_norm": 2.5872279511601075, + "learning_rate": 4.6782328622854725e-06, + "loss": 0.5008, + "step": 660 + }, + { + "epoch": 0.17626666666666665, + "grad_norm": 3.104795646602563, + "learning_rate": 4.677188358285197e-06, + "loss": 0.5104, + "step": 661 + }, + { + "epoch": 0.17653333333333332, + "grad_norm": 3.1732430399587037, + "learning_rate": 4.676142278717083e-06, + "loss": 0.5439, + "step": 662 + }, + { + "epoch": 0.1768, + "grad_norm": 2.67397668954799, + "learning_rate": 4.675094624338146e-06, + "loss": 0.4549, + "step": 663 + }, + { + "epoch": 0.17706666666666668, + "grad_norm": 3.1670003626740306, + "learning_rate": 4.674045395906545e-06, + "loss": 0.5099, + "step": 664 + }, + { + "epoch": 0.17733333333333334, + "grad_norm": 2.633482303113452, + "learning_rate": 4.672994594181575e-06, + "loss": 0.4429, + "step": 665 + }, + { + "epoch": 0.1776, + "grad_norm": 2.913307019772029, + "learning_rate": 4.671942219923671e-06, + "loss": 0.5039, + "step": 666 + }, + { + "epoch": 0.17786666666666667, + "grad_norm": 2.464817239265905, + "learning_rate": 4.670888273894405e-06, + "loss": 0.413, + "step": 667 + }, + { + "epoch": 0.17813333333333334, + "grad_norm": 2.5485177089532685, + "learning_rate": 4.669832756856487e-06, + "loss": 0.4445, + "step": 668 + }, + { + "epoch": 0.1784, + "grad_norm": 3.1133244060598924, + "learning_rate": 4.6687756695737655e-06, + "loss": 0.5062, + "step": 669 + }, + { + "epoch": 0.17866666666666667, + "grad_norm": 2.898113137864932, + "learning_rate": 4.667717012811223e-06, + "loss": 0.4403, + "step": 670 + }, + { + "epoch": 0.17893333333333333, + "grad_norm": 2.6497770891065877, + "learning_rate": 4.666656787334978e-06, + "loss": 0.4571, + "step": 671 + }, + { + "epoch": 0.1792, + "grad_norm": 2.631663182840455, + "learning_rate": 4.665594993912285e-06, + "loss": 0.4353, + "step": 672 + }, + { + "epoch": 0.17946666666666666, + "grad_norm": 2.580227535181295, + "learning_rate": 4.664531633311532e-06, + "loss": 0.4175, + "step": 673 + }, + { + "epoch": 0.17973333333333333, + "grad_norm": 2.6393478267309325, + "learning_rate": 4.663466706302245e-06, + "loss": 0.4321, + "step": 674 + }, + { + "epoch": 0.18, + "grad_norm": 3.236050255275857, + "learning_rate": 4.662400213655078e-06, + "loss": 0.4824, + "step": 675 + }, + { + "epoch": 0.18026666666666666, + "grad_norm": 2.4305930708320274, + "learning_rate": 4.661332156141822e-06, + "loss": 0.4174, + "step": 676 + }, + { + "epoch": 0.18053333333333332, + "grad_norm": 2.906655233994836, + "learning_rate": 4.6602625345353984e-06, + "loss": 0.4704, + "step": 677 + }, + { + "epoch": 0.1808, + "grad_norm": 3.7701424984986094, + "learning_rate": 4.659191349609862e-06, + "loss": 0.4835, + "step": 678 + }, + { + "epoch": 0.18106666666666665, + "grad_norm": 2.64714649579891, + "learning_rate": 4.658118602140398e-06, + "loss": 0.4489, + "step": 679 + }, + { + "epoch": 0.18133333333333335, + "grad_norm": 3.1084853231800507, + "learning_rate": 4.6570442929033215e-06, + "loss": 0.5388, + "step": 680 + }, + { + "epoch": 0.1816, + "grad_norm": 2.75854773149316, + "learning_rate": 4.65596842267608e-06, + "loss": 0.455, + "step": 681 + }, + { + "epoch": 0.18186666666666668, + "grad_norm": 2.81897827569183, + "learning_rate": 4.6548909922372485e-06, + "loss": 0.4721, + "step": 682 + }, + { + "epoch": 0.18213333333333334, + "grad_norm": 3.0836513453033048, + "learning_rate": 4.6538120023665335e-06, + "loss": 0.4833, + "step": 683 + }, + { + "epoch": 0.1824, + "grad_norm": 2.7325903182132185, + "learning_rate": 4.652731453844766e-06, + "loss": 0.4706, + "step": 684 + }, + { + "epoch": 0.18266666666666667, + "grad_norm": 2.905053054240319, + "learning_rate": 4.651649347453911e-06, + "loss": 0.501, + "step": 685 + }, + { + "epoch": 0.18293333333333334, + "grad_norm": 2.7334950375649374, + "learning_rate": 4.650565683977055e-06, + "loss": 0.4768, + "step": 686 + }, + { + "epoch": 0.1832, + "grad_norm": 2.896957253126091, + "learning_rate": 4.649480464198414e-06, + "loss": 0.4628, + "step": 687 + }, + { + "epoch": 0.18346666666666667, + "grad_norm": 2.681116030083896, + "learning_rate": 4.6483936889033295e-06, + "loss": 0.4821, + "step": 688 + }, + { + "epoch": 0.18373333333333333, + "grad_norm": 2.7349660884891316, + "learning_rate": 4.647305358878271e-06, + "loss": 0.4666, + "step": 689 + }, + { + "epoch": 0.184, + "grad_norm": 2.5429351537472424, + "learning_rate": 4.64621547491083e-06, + "loss": 0.4537, + "step": 690 + }, + { + "epoch": 0.18426666666666666, + "grad_norm": 2.4205541165750515, + "learning_rate": 4.645124037789724e-06, + "loss": 0.4228, + "step": 691 + }, + { + "epoch": 0.18453333333333333, + "grad_norm": 2.6016326804148835, + "learning_rate": 4.644031048304794e-06, + "loss": 0.4222, + "step": 692 + }, + { + "epoch": 0.1848, + "grad_norm": 2.7979886365106306, + "learning_rate": 4.6429365072470046e-06, + "loss": 0.4991, + "step": 693 + }, + { + "epoch": 0.18506666666666666, + "grad_norm": 2.8275226790475325, + "learning_rate": 4.641840415408444e-06, + "loss": 0.4502, + "step": 694 + }, + { + "epoch": 0.18533333333333332, + "grad_norm": 2.6082284698446334, + "learning_rate": 4.640742773582321e-06, + "loss": 0.4588, + "step": 695 + }, + { + "epoch": 0.1856, + "grad_norm": 3.599583245740596, + "learning_rate": 4.639643582562968e-06, + "loss": 0.4984, + "step": 696 + }, + { + "epoch": 0.18586666666666668, + "grad_norm": 3.144261736360566, + "learning_rate": 4.638542843145837e-06, + "loss": 0.5379, + "step": 697 + }, + { + "epoch": 0.18613333333333335, + "grad_norm": 2.707964589958257, + "learning_rate": 4.637440556127501e-06, + "loss": 0.4635, + "step": 698 + }, + { + "epoch": 0.1864, + "grad_norm": 2.498149072444361, + "learning_rate": 4.636336722305654e-06, + "loss": 0.4217, + "step": 699 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 2.7559031948211894, + "learning_rate": 4.635231342479108e-06, + "loss": 0.48, + "step": 700 + }, + { + "epoch": 0.18693333333333334, + "grad_norm": 2.961670765545406, + "learning_rate": 4.634124417447793e-06, + "loss": 0.5147, + "step": 701 + }, + { + "epoch": 0.1872, + "grad_norm": 3.176348553599351, + "learning_rate": 4.633015948012758e-06, + "loss": 0.5588, + "step": 702 + }, + { + "epoch": 0.18746666666666667, + "grad_norm": 2.952543778616617, + "learning_rate": 4.631905934976173e-06, + "loss": 0.5025, + "step": 703 + }, + { + "epoch": 0.18773333333333334, + "grad_norm": 2.4483570050521117, + "learning_rate": 4.6307943791413205e-06, + "loss": 0.4458, + "step": 704 + }, + { + "epoch": 0.188, + "grad_norm": 2.5986118713757516, + "learning_rate": 4.6296812813126e-06, + "loss": 0.4224, + "step": 705 + }, + { + "epoch": 0.18826666666666667, + "grad_norm": 2.5704092738469004, + "learning_rate": 4.62856664229553e-06, + "loss": 0.4451, + "step": 706 + }, + { + "epoch": 0.18853333333333333, + "grad_norm": 2.6683056930045663, + "learning_rate": 4.627450462896741e-06, + "loss": 0.4368, + "step": 707 + }, + { + "epoch": 0.1888, + "grad_norm": 3.566170488478393, + "learning_rate": 4.626332743923979e-06, + "loss": 0.526, + "step": 708 + }, + { + "epoch": 0.18906666666666666, + "grad_norm": 2.624175061719108, + "learning_rate": 4.625213486186107e-06, + "loss": 0.4581, + "step": 709 + }, + { + "epoch": 0.18933333333333333, + "grad_norm": 3.0047138650301077, + "learning_rate": 4.6240926904930976e-06, + "loss": 0.4806, + "step": 710 + }, + { + "epoch": 0.1896, + "grad_norm": 2.6912156881573717, + "learning_rate": 4.622970357656038e-06, + "loss": 0.4991, + "step": 711 + }, + { + "epoch": 0.18986666666666666, + "grad_norm": 3.3044478059706814, + "learning_rate": 4.621846488487127e-06, + "loss": 0.5878, + "step": 712 + }, + { + "epoch": 0.19013333333333332, + "grad_norm": 2.917568512238252, + "learning_rate": 4.620721083799679e-06, + "loss": 0.4767, + "step": 713 + }, + { + "epoch": 0.1904, + "grad_norm": 2.6309844966485914, + "learning_rate": 4.619594144408113e-06, + "loss": 0.47, + "step": 714 + }, + { + "epoch": 0.19066666666666668, + "grad_norm": 3.0283918867808155, + "learning_rate": 4.618465671127964e-06, + "loss": 0.5388, + "step": 715 + }, + { + "epoch": 0.19093333333333334, + "grad_norm": 2.5402668029126607, + "learning_rate": 4.617335664775876e-06, + "loss": 0.4765, + "step": 716 + }, + { + "epoch": 0.1912, + "grad_norm": 2.8381300964708602, + "learning_rate": 4.616204126169601e-06, + "loss": 0.465, + "step": 717 + }, + { + "epoch": 0.19146666666666667, + "grad_norm": 2.849911234220085, + "learning_rate": 4.6150710561279995e-06, + "loss": 0.4765, + "step": 718 + }, + { + "epoch": 0.19173333333333334, + "grad_norm": 2.902668804832546, + "learning_rate": 4.613936455471043e-06, + "loss": 0.4725, + "step": 719 + }, + { + "epoch": 0.192, + "grad_norm": 2.793420432085734, + "learning_rate": 4.612800325019808e-06, + "loss": 0.4759, + "step": 720 + }, + { + "epoch": 0.19226666666666667, + "grad_norm": 2.563158064665681, + "learning_rate": 4.611662665596479e-06, + "loss": 0.441, + "step": 721 + }, + { + "epoch": 0.19253333333333333, + "grad_norm": 2.8527049234652813, + "learning_rate": 4.610523478024348e-06, + "loss": 0.4758, + "step": 722 + }, + { + "epoch": 0.1928, + "grad_norm": 2.736267092600494, + "learning_rate": 4.60938276312781e-06, + "loss": 0.4955, + "step": 723 + }, + { + "epoch": 0.19306666666666666, + "grad_norm": 2.903905517319012, + "learning_rate": 4.6082405217323685e-06, + "loss": 0.5463, + "step": 724 + }, + { + "epoch": 0.19333333333333333, + "grad_norm": 3.5787258914605666, + "learning_rate": 4.6070967546646305e-06, + "loss": 0.5487, + "step": 725 + }, + { + "epoch": 0.1936, + "grad_norm": 3.269632205884786, + "learning_rate": 4.6059514627523075e-06, + "loss": 0.5249, + "step": 726 + }, + { + "epoch": 0.19386666666666666, + "grad_norm": 3.563555112204305, + "learning_rate": 4.604804646824211e-06, + "loss": 0.5428, + "step": 727 + }, + { + "epoch": 0.19413333333333332, + "grad_norm": 2.829244370399035, + "learning_rate": 4.603656307710262e-06, + "loss": 0.5116, + "step": 728 + }, + { + "epoch": 0.1944, + "grad_norm": 2.6589773094396683, + "learning_rate": 4.602506446241477e-06, + "loss": 0.4661, + "step": 729 + }, + { + "epoch": 0.19466666666666665, + "grad_norm": 2.9046986065751392, + "learning_rate": 4.60135506324998e-06, + "loss": 0.4937, + "step": 730 + }, + { + "epoch": 0.19493333333333332, + "grad_norm": 2.9410346412177506, + "learning_rate": 4.600202159568991e-06, + "loss": 0.5056, + "step": 731 + }, + { + "epoch": 0.1952, + "grad_norm": 2.679702405480283, + "learning_rate": 4.599047736032834e-06, + "loss": 0.468, + "step": 732 + }, + { + "epoch": 0.19546666666666668, + "grad_norm": 2.7200053722953617, + "learning_rate": 4.597891793476932e-06, + "loss": 0.4414, + "step": 733 + }, + { + "epoch": 0.19573333333333334, + "grad_norm": 2.7419162081905255, + "learning_rate": 4.596734332737806e-06, + "loss": 0.4889, + "step": 734 + }, + { + "epoch": 0.196, + "grad_norm": 2.6481502849528717, + "learning_rate": 4.5955753546530775e-06, + "loss": 0.4903, + "step": 735 + }, + { + "epoch": 0.19626666666666667, + "grad_norm": 2.6372581500736687, + "learning_rate": 4.594414860061465e-06, + "loss": 0.462, + "step": 736 + }, + { + "epoch": 0.19653333333333334, + "grad_norm": 2.93497197530768, + "learning_rate": 4.593252849802784e-06, + "loss": 0.4934, + "step": 737 + }, + { + "epoch": 0.1968, + "grad_norm": 2.8265602627705584, + "learning_rate": 4.592089324717949e-06, + "loss": 0.4648, + "step": 738 + }, + { + "epoch": 0.19706666666666667, + "grad_norm": 2.5015474206189605, + "learning_rate": 4.590924285648968e-06, + "loss": 0.4468, + "step": 739 + }, + { + "epoch": 0.19733333333333333, + "grad_norm": 2.7700127372668923, + "learning_rate": 4.5897577334389456e-06, + "loss": 0.4419, + "step": 740 + }, + { + "epoch": 0.1976, + "grad_norm": 2.670980413377504, + "learning_rate": 4.588589668932082e-06, + "loss": 0.4255, + "step": 741 + }, + { + "epoch": 0.19786666666666666, + "grad_norm": 3.4619460944317306, + "learning_rate": 4.587420092973672e-06, + "loss": 0.5473, + "step": 742 + }, + { + "epoch": 0.19813333333333333, + "grad_norm": 2.8637172945060616, + "learning_rate": 4.586249006410104e-06, + "loss": 0.4436, + "step": 743 + }, + { + "epoch": 0.1984, + "grad_norm": 2.8580447494282066, + "learning_rate": 4.585076410088858e-06, + "loss": 0.4531, + "step": 744 + }, + { + "epoch": 0.19866666666666666, + "grad_norm": 2.741712683273896, + "learning_rate": 4.583902304858509e-06, + "loss": 0.4901, + "step": 745 + }, + { + "epoch": 0.19893333333333332, + "grad_norm": 3.1979221707306746, + "learning_rate": 4.5827266915687205e-06, + "loss": 0.5145, + "step": 746 + }, + { + "epoch": 0.1992, + "grad_norm": 2.396896084172301, + "learning_rate": 4.5815495710702525e-06, + "loss": 0.4211, + "step": 747 + }, + { + "epoch": 0.19946666666666665, + "grad_norm": 2.76531001693003, + "learning_rate": 4.580370944214952e-06, + "loss": 0.4678, + "step": 748 + }, + { + "epoch": 0.19973333333333335, + "grad_norm": 2.3165269057856586, + "learning_rate": 4.579190811855757e-06, + "loss": 0.3728, + "step": 749 + }, + { + "epoch": 0.2, + "grad_norm": 2.940856327035219, + "learning_rate": 4.578009174846694e-06, + "loss": 0.5165, + "step": 750 + }, + { + "epoch": 0.20026666666666668, + "grad_norm": 2.2582348736673095, + "learning_rate": 4.5768260340428795e-06, + "loss": 0.3798, + "step": 751 + }, + { + "epoch": 0.20053333333333334, + "grad_norm": 2.472377392973847, + "learning_rate": 4.575641390300519e-06, + "loss": 0.4611, + "step": 752 + }, + { + "epoch": 0.2008, + "grad_norm": 3.0423926510933734, + "learning_rate": 4.574455244476904e-06, + "loss": 0.5219, + "step": 753 + }, + { + "epoch": 0.20106666666666667, + "grad_norm": 2.7583772849745816, + "learning_rate": 4.573267597430414e-06, + "loss": 0.4921, + "step": 754 + }, + { + "epoch": 0.20133333333333334, + "grad_norm": 2.413161223973684, + "learning_rate": 4.572078450020514e-06, + "loss": 0.4162, + "step": 755 + }, + { + "epoch": 0.2016, + "grad_norm": 2.4318051218699535, + "learning_rate": 4.570887803107757e-06, + "loss": 0.4228, + "step": 756 + }, + { + "epoch": 0.20186666666666667, + "grad_norm": 2.8506559580971325, + "learning_rate": 4.569695657553777e-06, + "loss": 0.5009, + "step": 757 + }, + { + "epoch": 0.20213333333333333, + "grad_norm": 2.9605261051845315, + "learning_rate": 4.568502014221296e-06, + "loss": 0.5072, + "step": 758 + }, + { + "epoch": 0.2024, + "grad_norm": 2.704638125526413, + "learning_rate": 4.56730687397412e-06, + "loss": 0.4734, + "step": 759 + }, + { + "epoch": 0.20266666666666666, + "grad_norm": 2.4504591742898354, + "learning_rate": 4.566110237677136e-06, + "loss": 0.442, + "step": 760 + }, + { + "epoch": 0.20293333333333333, + "grad_norm": 2.4682862132472643, + "learning_rate": 4.564912106196317e-06, + "loss": 0.431, + "step": 761 + }, + { + "epoch": 0.2032, + "grad_norm": 2.793273797878234, + "learning_rate": 4.563712480398712e-06, + "loss": 0.4681, + "step": 762 + }, + { + "epoch": 0.20346666666666666, + "grad_norm": 2.453150762906319, + "learning_rate": 4.562511361152458e-06, + "loss": 0.4129, + "step": 763 + }, + { + "epoch": 0.20373333333333332, + "grad_norm": 2.607900075053996, + "learning_rate": 4.56130874932677e-06, + "loss": 0.4547, + "step": 764 + }, + { + "epoch": 0.204, + "grad_norm": 3.1694019617186697, + "learning_rate": 4.560104645791943e-06, + "loss": 0.4981, + "step": 765 + }, + { + "epoch": 0.20426666666666668, + "grad_norm": 3.119288203464753, + "learning_rate": 4.558899051419351e-06, + "loss": 0.5328, + "step": 766 + }, + { + "epoch": 0.20453333333333334, + "grad_norm": 2.6512993461985803, + "learning_rate": 4.557691967081448e-06, + "loss": 0.4614, + "step": 767 + }, + { + "epoch": 0.2048, + "grad_norm": 2.6660743574629207, + "learning_rate": 4.556483393651765e-06, + "loss": 0.4255, + "step": 768 + }, + { + "epoch": 0.20506666666666667, + "grad_norm": 2.894053793006528, + "learning_rate": 4.555273332004913e-06, + "loss": 0.4634, + "step": 769 + }, + { + "epoch": 0.20533333333333334, + "grad_norm": 3.6128177066789573, + "learning_rate": 4.554061783016578e-06, + "loss": 0.5835, + "step": 770 + }, + { + "epoch": 0.2056, + "grad_norm": 2.693024510953251, + "learning_rate": 4.552848747563521e-06, + "loss": 0.4565, + "step": 771 + }, + { + "epoch": 0.20586666666666667, + "grad_norm": 2.7055525117258457, + "learning_rate": 4.5516342265235824e-06, + "loss": 0.459, + "step": 772 + }, + { + "epoch": 0.20613333333333334, + "grad_norm": 2.8423291339617887, + "learning_rate": 4.550418220775676e-06, + "loss": 0.5206, + "step": 773 + }, + { + "epoch": 0.2064, + "grad_norm": 2.654567630081089, + "learning_rate": 4.549200731199787e-06, + "loss": 0.4515, + "step": 774 + }, + { + "epoch": 0.20666666666666667, + "grad_norm": 3.1388672852337027, + "learning_rate": 4.547981758676979e-06, + "loss": 0.4927, + "step": 775 + }, + { + "epoch": 0.20693333333333333, + "grad_norm": 2.7993005366824675, + "learning_rate": 4.546761304089388e-06, + "loss": 0.4592, + "step": 776 + }, + { + "epoch": 0.2072, + "grad_norm": 2.651832248245361, + "learning_rate": 4.5455393683202195e-06, + "loss": 0.4756, + "step": 777 + }, + { + "epoch": 0.20746666666666666, + "grad_norm": 3.0202612818582377, + "learning_rate": 4.544315952253754e-06, + "loss": 0.5027, + "step": 778 + }, + { + "epoch": 0.20773333333333333, + "grad_norm": 2.548947644761938, + "learning_rate": 4.543091056775341e-06, + "loss": 0.4504, + "step": 779 + }, + { + "epoch": 0.208, + "grad_norm": 2.5214320225611524, + "learning_rate": 4.541864682771404e-06, + "loss": 0.4463, + "step": 780 + }, + { + "epoch": 0.20826666666666666, + "grad_norm": 2.7522797523740152, + "learning_rate": 4.540636831129432e-06, + "loss": 0.4826, + "step": 781 + }, + { + "epoch": 0.20853333333333332, + "grad_norm": 2.53318385285558, + "learning_rate": 4.539407502737987e-06, + "loss": 0.4081, + "step": 782 + }, + { + "epoch": 0.2088, + "grad_norm": 2.7475292526336363, + "learning_rate": 4.538176698486696e-06, + "loss": 0.4561, + "step": 783 + }, + { + "epoch": 0.20906666666666668, + "grad_norm": 2.4625933602326477, + "learning_rate": 4.536944419266258e-06, + "loss": 0.4031, + "step": 784 + }, + { + "epoch": 0.20933333333333334, + "grad_norm": 2.515874940789969, + "learning_rate": 4.535710665968437e-06, + "loss": 0.4385, + "step": 785 + }, + { + "epoch": 0.2096, + "grad_norm": 2.5773365528459826, + "learning_rate": 4.534475439486065e-06, + "loss": 0.4692, + "step": 786 + }, + { + "epoch": 0.20986666666666667, + "grad_norm": 2.7594609625339306, + "learning_rate": 4.533238740713039e-06, + "loss": 0.4876, + "step": 787 + }, + { + "epoch": 0.21013333333333334, + "grad_norm": 2.6870294595549393, + "learning_rate": 4.532000570544321e-06, + "loss": 0.516, + "step": 788 + }, + { + "epoch": 0.2104, + "grad_norm": 2.672824089111284, + "learning_rate": 4.53076092987594e-06, + "loss": 0.4934, + "step": 789 + }, + { + "epoch": 0.21066666666666667, + "grad_norm": 2.695845987859465, + "learning_rate": 4.529519819604987e-06, + "loss": 0.4746, + "step": 790 + }, + { + "epoch": 0.21093333333333333, + "grad_norm": 3.1571137392984325, + "learning_rate": 4.528277240629618e-06, + "loss": 0.5357, + "step": 791 + }, + { + "epoch": 0.2112, + "grad_norm": 3.2517903763700464, + "learning_rate": 4.527033193849052e-06, + "loss": 0.5729, + "step": 792 + }, + { + "epoch": 0.21146666666666666, + "grad_norm": 2.545697554041401, + "learning_rate": 4.525787680163567e-06, + "loss": 0.4809, + "step": 793 + }, + { + "epoch": 0.21173333333333333, + "grad_norm": 2.9271031411954875, + "learning_rate": 4.524540700474507e-06, + "loss": 0.4806, + "step": 794 + }, + { + "epoch": 0.212, + "grad_norm": 2.842619480036809, + "learning_rate": 4.5232922556842755e-06, + "loss": 0.462, + "step": 795 + }, + { + "epoch": 0.21226666666666666, + "grad_norm": 2.4726610580867607, + "learning_rate": 4.522042346696332e-06, + "loss": 0.4093, + "step": 796 + }, + { + "epoch": 0.21253333333333332, + "grad_norm": 2.8907370962293966, + "learning_rate": 4.520790974415204e-06, + "loss": 0.471, + "step": 797 + }, + { + "epoch": 0.2128, + "grad_norm": 2.3589815338796973, + "learning_rate": 4.51953813974647e-06, + "loss": 0.4325, + "step": 798 + }, + { + "epoch": 0.21306666666666665, + "grad_norm": 3.1101505234115225, + "learning_rate": 4.5182838435967715e-06, + "loss": 0.5173, + "step": 799 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 2.3835354929760144, + "learning_rate": 4.517028086873805e-06, + "loss": 0.4291, + "step": 800 + }, + { + "epoch": 0.2136, + "grad_norm": 2.3578430334390013, + "learning_rate": 4.515770870486325e-06, + "loss": 0.4524, + "step": 801 + }, + { + "epoch": 0.21386666666666668, + "grad_norm": 2.6029355623232, + "learning_rate": 4.514512195344145e-06, + "loss": 0.425, + "step": 802 + }, + { + "epoch": 0.21413333333333334, + "grad_norm": 2.6235175534207493, + "learning_rate": 4.5132520623581285e-06, + "loss": 0.5181, + "step": 803 + }, + { + "epoch": 0.2144, + "grad_norm": 2.521633260186649, + "learning_rate": 4.511990472440198e-06, + "loss": 0.4354, + "step": 804 + }, + { + "epoch": 0.21466666666666667, + "grad_norm": 2.5420431080756076, + "learning_rate": 4.51072742650333e-06, + "loss": 0.4333, + "step": 805 + }, + { + "epoch": 0.21493333333333334, + "grad_norm": 2.723551190310324, + "learning_rate": 4.509462925461553e-06, + "loss": 0.4308, + "step": 806 + }, + { + "epoch": 0.2152, + "grad_norm": 3.554423428330265, + "learning_rate": 4.508196970229951e-06, + "loss": 0.5213, + "step": 807 + }, + { + "epoch": 0.21546666666666667, + "grad_norm": 2.5109141507404447, + "learning_rate": 4.506929561724658e-06, + "loss": 0.4523, + "step": 808 + }, + { + "epoch": 0.21573333333333333, + "grad_norm": 2.305440149517117, + "learning_rate": 4.505660700862861e-06, + "loss": 0.3981, + "step": 809 + }, + { + "epoch": 0.216, + "grad_norm": 2.5800393111571225, + "learning_rate": 4.5043903885627965e-06, + "loss": 0.475, + "step": 810 + }, + { + "epoch": 0.21626666666666666, + "grad_norm": 2.6342424915375253, + "learning_rate": 4.5031186257437545e-06, + "loss": 0.4625, + "step": 811 + }, + { + "epoch": 0.21653333333333333, + "grad_norm": 2.6615453825807034, + "learning_rate": 4.501845413326071e-06, + "loss": 0.4775, + "step": 812 + }, + { + "epoch": 0.2168, + "grad_norm": 2.589783497470515, + "learning_rate": 4.5005707522311345e-06, + "loss": 0.4328, + "step": 813 + }, + { + "epoch": 0.21706666666666666, + "grad_norm": 2.6129526205530076, + "learning_rate": 4.499294643381379e-06, + "loss": 0.4704, + "step": 814 + }, + { + "epoch": 0.21733333333333332, + "grad_norm": 2.9598985677149408, + "learning_rate": 4.498017087700287e-06, + "loss": 0.5159, + "step": 815 + }, + { + "epoch": 0.2176, + "grad_norm": 2.6503067845703536, + "learning_rate": 4.4967380861123885e-06, + "loss": 0.445, + "step": 816 + }, + { + "epoch": 0.21786666666666665, + "grad_norm": 2.3564211471744447, + "learning_rate": 4.495457639543261e-06, + "loss": 0.4133, + "step": 817 + }, + { + "epoch": 0.21813333333333335, + "grad_norm": 3.2293296805649643, + "learning_rate": 4.494175748919525e-06, + "loss": 0.5079, + "step": 818 + }, + { + "epoch": 0.2184, + "grad_norm": 2.979810592391472, + "learning_rate": 4.492892415168848e-06, + "loss": 0.5276, + "step": 819 + }, + { + "epoch": 0.21866666666666668, + "grad_norm": 2.459344082056493, + "learning_rate": 4.491607639219941e-06, + "loss": 0.4073, + "step": 820 + }, + { + "epoch": 0.21893333333333334, + "grad_norm": 2.880512716184811, + "learning_rate": 4.490321422002559e-06, + "loss": 0.431, + "step": 821 + }, + { + "epoch": 0.2192, + "grad_norm": 2.832415501114807, + "learning_rate": 4.489033764447501e-06, + "loss": 0.4787, + "step": 822 + }, + { + "epoch": 0.21946666666666667, + "grad_norm": 6.631908894350528, + "learning_rate": 4.487744667486606e-06, + "loss": 0.511, + "step": 823 + }, + { + "epoch": 0.21973333333333334, + "grad_norm": 2.6762104852364033, + "learning_rate": 4.486454132052756e-06, + "loss": 0.4658, + "step": 824 + }, + { + "epoch": 0.22, + "grad_norm": 2.675527037193902, + "learning_rate": 4.485162159079875e-06, + "loss": 0.5105, + "step": 825 + }, + { + "epoch": 0.22026666666666667, + "grad_norm": 2.5127694111438323, + "learning_rate": 4.4838687495029245e-06, + "loss": 0.4433, + "step": 826 + }, + { + "epoch": 0.22053333333333333, + "grad_norm": 2.6570766577680622, + "learning_rate": 4.482573904257908e-06, + "loss": 0.453, + "step": 827 + }, + { + "epoch": 0.2208, + "grad_norm": 4.462669607088079, + "learning_rate": 4.481277624281869e-06, + "loss": 0.4814, + "step": 828 + }, + { + "epoch": 0.22106666666666666, + "grad_norm": 2.499323374168046, + "learning_rate": 4.479979910512886e-06, + "loss": 0.4482, + "step": 829 + }, + { + "epoch": 0.22133333333333333, + "grad_norm": 2.6227678065193065, + "learning_rate": 4.478680763890077e-06, + "loss": 0.4125, + "step": 830 + }, + { + "epoch": 0.2216, + "grad_norm": 3.3567175397361257, + "learning_rate": 4.477380185353596e-06, + "loss": 0.5667, + "step": 831 + }, + { + "epoch": 0.22186666666666666, + "grad_norm": 2.849201610847363, + "learning_rate": 4.4760781758446345e-06, + "loss": 0.509, + "step": 832 + }, + { + "epoch": 0.22213333333333332, + "grad_norm": 3.330602703475536, + "learning_rate": 4.4747747363054195e-06, + "loss": 0.5615, + "step": 833 + }, + { + "epoch": 0.2224, + "grad_norm": 2.530040229167174, + "learning_rate": 4.473469867679211e-06, + "loss": 0.4261, + "step": 834 + }, + { + "epoch": 0.22266666666666668, + "grad_norm": 2.697831438416143, + "learning_rate": 4.472163570910304e-06, + "loss": 0.4376, + "step": 835 + }, + { + "epoch": 0.22293333333333334, + "grad_norm": 2.6797582430740623, + "learning_rate": 4.470855846944029e-06, + "loss": 0.4315, + "step": 836 + }, + { + "epoch": 0.2232, + "grad_norm": 2.6733167492278582, + "learning_rate": 4.469546696726748e-06, + "loss": 0.4417, + "step": 837 + }, + { + "epoch": 0.22346666666666667, + "grad_norm": 2.7623445500468815, + "learning_rate": 4.4682361212058535e-06, + "loss": 0.4814, + "step": 838 + }, + { + "epoch": 0.22373333333333334, + "grad_norm": 3.7849834784306347, + "learning_rate": 4.466924121329771e-06, + "loss": 0.4635, + "step": 839 + }, + { + "epoch": 0.224, + "grad_norm": 3.0534496567624045, + "learning_rate": 4.465610698047958e-06, + "loss": 0.5233, + "step": 840 + }, + { + "epoch": 0.22426666666666667, + "grad_norm": 2.7511252957585537, + "learning_rate": 4.464295852310898e-06, + "loss": 0.483, + "step": 841 + }, + { + "epoch": 0.22453333333333333, + "grad_norm": 2.8950872969519925, + "learning_rate": 4.46297958507011e-06, + "loss": 0.4927, + "step": 842 + }, + { + "epoch": 0.2248, + "grad_norm": 2.760804626301903, + "learning_rate": 4.461661897278135e-06, + "loss": 0.4575, + "step": 843 + }, + { + "epoch": 0.22506666666666666, + "grad_norm": 2.5397016019503966, + "learning_rate": 4.460342789888549e-06, + "loss": 0.4718, + "step": 844 + }, + { + "epoch": 0.22533333333333333, + "grad_norm": 2.8565058155175, + "learning_rate": 4.459022263855948e-06, + "loss": 0.4897, + "step": 845 + }, + { + "epoch": 0.2256, + "grad_norm": 2.5286944088850016, + "learning_rate": 4.457700320135961e-06, + "loss": 0.406, + "step": 846 + }, + { + "epoch": 0.22586666666666666, + "grad_norm": 2.7685862769924507, + "learning_rate": 4.456376959685237e-06, + "loss": 0.4687, + "step": 847 + }, + { + "epoch": 0.22613333333333333, + "grad_norm": 3.1155197266474364, + "learning_rate": 4.4550521834614566e-06, + "loss": 0.4772, + "step": 848 + }, + { + "epoch": 0.2264, + "grad_norm": 2.974163229499802, + "learning_rate": 4.453725992423321e-06, + "loss": 0.4821, + "step": 849 + }, + { + "epoch": 0.22666666666666666, + "grad_norm": 2.778491340184208, + "learning_rate": 4.4523983875305544e-06, + "loss": 0.5001, + "step": 850 + }, + { + "epoch": 0.22693333333333332, + "grad_norm": 2.56560373143486, + "learning_rate": 4.451069369743909e-06, + "loss": 0.4587, + "step": 851 + }, + { + "epoch": 0.2272, + "grad_norm": 2.8221370015885956, + "learning_rate": 4.449738940025153e-06, + "loss": 0.5022, + "step": 852 + }, + { + "epoch": 0.22746666666666668, + "grad_norm": 2.6324790903972213, + "learning_rate": 4.448407099337081e-06, + "loss": 0.4687, + "step": 853 + }, + { + "epoch": 0.22773333333333334, + "grad_norm": 3.3403945013975975, + "learning_rate": 4.447073848643507e-06, + "loss": 0.4525, + "step": 854 + }, + { + "epoch": 0.228, + "grad_norm": 2.7327664608445983, + "learning_rate": 4.445739188909267e-06, + "loss": 0.4846, + "step": 855 + }, + { + "epoch": 0.22826666666666667, + "grad_norm": 3.0539250629487484, + "learning_rate": 4.444403121100213e-06, + "loss": 0.4538, + "step": 856 + }, + { + "epoch": 0.22853333333333334, + "grad_norm": 2.8761640373407924, + "learning_rate": 4.4430656461832225e-06, + "loss": 0.4841, + "step": 857 + }, + { + "epoch": 0.2288, + "grad_norm": 2.5325853700356733, + "learning_rate": 4.441726765126182e-06, + "loss": 0.4435, + "step": 858 + }, + { + "epoch": 0.22906666666666667, + "grad_norm": 2.6277135639247473, + "learning_rate": 4.440386478898004e-06, + "loss": 0.4487, + "step": 859 + }, + { + "epoch": 0.22933333333333333, + "grad_norm": 2.6860775686708855, + "learning_rate": 4.439044788468614e-06, + "loss": 0.4616, + "step": 860 + }, + { + "epoch": 0.2296, + "grad_norm": 2.4522310395448823, + "learning_rate": 4.437701694808955e-06, + "loss": 0.4477, + "step": 861 + }, + { + "epoch": 0.22986666666666666, + "grad_norm": 2.5998020857016484, + "learning_rate": 4.4363571988909825e-06, + "loss": 0.4097, + "step": 862 + }, + { + "epoch": 0.23013333333333333, + "grad_norm": 2.5164384635992585, + "learning_rate": 4.4350113016876714e-06, + "loss": 0.4735, + "step": 863 + }, + { + "epoch": 0.2304, + "grad_norm": 2.7475765787212656, + "learning_rate": 4.433664004173006e-06, + "loss": 0.4632, + "step": 864 + }, + { + "epoch": 0.23066666666666666, + "grad_norm": 2.839546820057335, + "learning_rate": 4.43231530732199e-06, + "loss": 0.4537, + "step": 865 + }, + { + "epoch": 0.23093333333333332, + "grad_norm": 2.9759923279455096, + "learning_rate": 4.430965212110633e-06, + "loss": 0.467, + "step": 866 + }, + { + "epoch": 0.2312, + "grad_norm": 3.1545452114615062, + "learning_rate": 4.429613719515959e-06, + "loss": 0.5046, + "step": 867 + }, + { + "epoch": 0.23146666666666665, + "grad_norm": 2.805452692166308, + "learning_rate": 4.4282608305160066e-06, + "loss": 0.4439, + "step": 868 + }, + { + "epoch": 0.23173333333333335, + "grad_norm": 2.5921383910106353, + "learning_rate": 4.426906546089822e-06, + "loss": 0.4763, + "step": 869 + }, + { + "epoch": 0.232, + "grad_norm": 3.1442611681022443, + "learning_rate": 4.425550867217458e-06, + "loss": 0.5104, + "step": 870 + }, + { + "epoch": 0.23226666666666668, + "grad_norm": 2.616053915885445, + "learning_rate": 4.4241937948799834e-06, + "loss": 0.4739, + "step": 871 + }, + { + "epoch": 0.23253333333333334, + "grad_norm": 2.7378608068837873, + "learning_rate": 4.4228353300594705e-06, + "loss": 0.5219, + "step": 872 + }, + { + "epoch": 0.2328, + "grad_norm": 2.576585784629098, + "learning_rate": 4.421475473739001e-06, + "loss": 0.4251, + "step": 873 + }, + { + "epoch": 0.23306666666666667, + "grad_norm": 2.6863185335570217, + "learning_rate": 4.4201142269026635e-06, + "loss": 0.4318, + "step": 874 + }, + { + "epoch": 0.23333333333333334, + "grad_norm": 2.570186790566047, + "learning_rate": 4.4187515905355526e-06, + "loss": 0.4834, + "step": 875 + }, + { + "epoch": 0.2336, + "grad_norm": 2.705002372843143, + "learning_rate": 4.417387565623768e-06, + "loss": 0.466, + "step": 876 + }, + { + "epoch": 0.23386666666666667, + "grad_norm": 2.596673718743218, + "learning_rate": 4.416022153154416e-06, + "loss": 0.4227, + "step": 877 + }, + { + "epoch": 0.23413333333333333, + "grad_norm": 2.4868767409516677, + "learning_rate": 4.414655354115605e-06, + "loss": 0.4572, + "step": 878 + }, + { + "epoch": 0.2344, + "grad_norm": 2.550101200283714, + "learning_rate": 4.413287169496447e-06, + "loss": 0.4303, + "step": 879 + }, + { + "epoch": 0.23466666666666666, + "grad_norm": 2.535730745677696, + "learning_rate": 4.411917600287059e-06, + "loss": 0.4316, + "step": 880 + }, + { + "epoch": 0.23493333333333333, + "grad_norm": 2.9024115887510646, + "learning_rate": 4.410546647478557e-06, + "loss": 0.4744, + "step": 881 + }, + { + "epoch": 0.2352, + "grad_norm": 2.4755758053645156, + "learning_rate": 4.409174312063062e-06, + "loss": 0.4193, + "step": 882 + }, + { + "epoch": 0.23546666666666666, + "grad_norm": 2.7894466211657125, + "learning_rate": 4.40780059503369e-06, + "loss": 0.4558, + "step": 883 + }, + { + "epoch": 0.23573333333333332, + "grad_norm": 3.1312574362097787, + "learning_rate": 4.406425497384561e-06, + "loss": 0.5244, + "step": 884 + }, + { + "epoch": 0.236, + "grad_norm": 3.048499851655153, + "learning_rate": 4.405049020110795e-06, + "loss": 0.4953, + "step": 885 + }, + { + "epoch": 0.23626666666666668, + "grad_norm": 2.9977518005009003, + "learning_rate": 4.403671164208506e-06, + "loss": 0.5033, + "step": 886 + }, + { + "epoch": 0.23653333333333335, + "grad_norm": 2.6825708759199904, + "learning_rate": 4.40229193067481e-06, + "loss": 0.4253, + "step": 887 + }, + { + "epoch": 0.2368, + "grad_norm": 2.8546691119598764, + "learning_rate": 4.400911320507818e-06, + "loss": 0.4707, + "step": 888 + }, + { + "epoch": 0.23706666666666668, + "grad_norm": 2.9957963133640497, + "learning_rate": 4.399529334706636e-06, + "loss": 0.4979, + "step": 889 + }, + { + "epoch": 0.23733333333333334, + "grad_norm": 2.280496406616078, + "learning_rate": 4.398145974271369e-06, + "loss": 0.3861, + "step": 890 + }, + { + "epoch": 0.2376, + "grad_norm": 2.902077815836922, + "learning_rate": 4.3967612402031126e-06, + "loss": 0.5292, + "step": 891 + }, + { + "epoch": 0.23786666666666667, + "grad_norm": 2.4314115823424447, + "learning_rate": 4.395375133503959e-06, + "loss": 0.4312, + "step": 892 + }, + { + "epoch": 0.23813333333333334, + "grad_norm": 2.9816158463469087, + "learning_rate": 4.393987655176995e-06, + "loss": 0.4752, + "step": 893 + }, + { + "epoch": 0.2384, + "grad_norm": 2.7646354434195417, + "learning_rate": 4.392598806226296e-06, + "loss": 0.4484, + "step": 894 + }, + { + "epoch": 0.23866666666666667, + "grad_norm": 3.3036480196576368, + "learning_rate": 4.391208587656932e-06, + "loss": 0.4662, + "step": 895 + }, + { + "epoch": 0.23893333333333333, + "grad_norm": 2.499624087633258, + "learning_rate": 4.389817000474965e-06, + "loss": 0.4188, + "step": 896 + }, + { + "epoch": 0.2392, + "grad_norm": 3.0423480947528265, + "learning_rate": 4.388424045687446e-06, + "loss": 0.45, + "step": 897 + }, + { + "epoch": 0.23946666666666666, + "grad_norm": 2.574216475820042, + "learning_rate": 4.387029724302415e-06, + "loss": 0.4249, + "step": 898 + }, + { + "epoch": 0.23973333333333333, + "grad_norm": 2.773293366206489, + "learning_rate": 4.385634037328902e-06, + "loss": 0.485, + "step": 899 + }, + { + "epoch": 0.24, + "grad_norm": 3.233267327021568, + "learning_rate": 4.384236985776924e-06, + "loss": 0.5621, + "step": 900 + }, + { + "epoch": 0.24026666666666666, + "grad_norm": 2.4315153972273604, + "learning_rate": 4.382838570657489e-06, + "loss": 0.4607, + "step": 901 + }, + { + "epoch": 0.24053333333333332, + "grad_norm": 2.9588119938393316, + "learning_rate": 4.381438792982586e-06, + "loss": 0.502, + "step": 902 + }, + { + "epoch": 0.2408, + "grad_norm": 2.7822416906964067, + "learning_rate": 4.3800376537651965e-06, + "loss": 0.5037, + "step": 903 + }, + { + "epoch": 0.24106666666666668, + "grad_norm": 2.8515182195617483, + "learning_rate": 4.378635154019284e-06, + "loss": 0.4703, + "step": 904 + }, + { + "epoch": 0.24133333333333334, + "grad_norm": 2.7599524766929657, + "learning_rate": 4.377231294759794e-06, + "loss": 0.4769, + "step": 905 + }, + { + "epoch": 0.2416, + "grad_norm": 2.855631754231124, + "learning_rate": 4.375826077002661e-06, + "loss": 0.5373, + "step": 906 + }, + { + "epoch": 0.24186666666666667, + "grad_norm": 2.7063972997110852, + "learning_rate": 4.374419501764799e-06, + "loss": 0.4875, + "step": 907 + }, + { + "epoch": 0.24213333333333334, + "grad_norm": 2.2634018989409563, + "learning_rate": 4.3730115700641066e-06, + "loss": 0.3987, + "step": 908 + }, + { + "epoch": 0.2424, + "grad_norm": 2.4939091368392305, + "learning_rate": 4.371602282919461e-06, + "loss": 0.4488, + "step": 909 + }, + { + "epoch": 0.24266666666666667, + "grad_norm": 2.708585476411608, + "learning_rate": 4.370191641350726e-06, + "loss": 0.4596, + "step": 910 + }, + { + "epoch": 0.24293333333333333, + "grad_norm": 2.814934540974494, + "learning_rate": 4.368779646378738e-06, + "loss": 0.503, + "step": 911 + }, + { + "epoch": 0.2432, + "grad_norm": 2.7571135039230343, + "learning_rate": 4.367366299025318e-06, + "loss": 0.4253, + "step": 912 + }, + { + "epoch": 0.24346666666666666, + "grad_norm": 2.826375776139662, + "learning_rate": 4.365951600313265e-06, + "loss": 0.4673, + "step": 913 + }, + { + "epoch": 0.24373333333333333, + "grad_norm": 2.900697491608127, + "learning_rate": 4.364535551266355e-06, + "loss": 0.4754, + "step": 914 + }, + { + "epoch": 0.244, + "grad_norm": 2.7842790501227492, + "learning_rate": 4.363118152909341e-06, + "loss": 0.4383, + "step": 915 + }, + { + "epoch": 0.24426666666666666, + "grad_norm": 2.5693188534430864, + "learning_rate": 4.361699406267953e-06, + "loss": 0.4298, + "step": 916 + }, + { + "epoch": 0.24453333333333332, + "grad_norm": 2.6148417115849774, + "learning_rate": 4.360279312368897e-06, + "loss": 0.4398, + "step": 917 + }, + { + "epoch": 0.2448, + "grad_norm": 2.521328940790009, + "learning_rate": 4.358857872239853e-06, + "loss": 0.4648, + "step": 918 + }, + { + "epoch": 0.24506666666666665, + "grad_norm": 2.555968518133545, + "learning_rate": 4.3574350869094775e-06, + "loss": 0.4483, + "step": 919 + }, + { + "epoch": 0.24533333333333332, + "grad_norm": 2.6680018514587114, + "learning_rate": 4.356010957407397e-06, + "loss": 0.4745, + "step": 920 + }, + { + "epoch": 0.2456, + "grad_norm": 2.3383884110236277, + "learning_rate": 4.354585484764213e-06, + "loss": 0.4338, + "step": 921 + }, + { + "epoch": 0.24586666666666668, + "grad_norm": 2.634407901765549, + "learning_rate": 4.353158670011499e-06, + "loss": 0.4363, + "step": 922 + }, + { + "epoch": 0.24613333333333334, + "grad_norm": 3.0833844638865084, + "learning_rate": 4.351730514181798e-06, + "loss": 0.4545, + "step": 923 + }, + { + "epoch": 0.2464, + "grad_norm": 2.5524004012543338, + "learning_rate": 4.350301018308627e-06, + "loss": 0.4206, + "step": 924 + }, + { + "epoch": 0.24666666666666667, + "grad_norm": 2.555980182963663, + "learning_rate": 4.348870183426469e-06, + "loss": 0.4196, + "step": 925 + }, + { + "epoch": 0.24693333333333334, + "grad_norm": 3.1984782323772154, + "learning_rate": 4.347438010570778e-06, + "loss": 0.4729, + "step": 926 + }, + { + "epoch": 0.2472, + "grad_norm": 2.8600757392993996, + "learning_rate": 4.346004500777976e-06, + "loss": 0.5118, + "step": 927 + }, + { + "epoch": 0.24746666666666667, + "grad_norm": 2.637814641771247, + "learning_rate": 4.3445696550854525e-06, + "loss": 0.4388, + "step": 928 + }, + { + "epoch": 0.24773333333333333, + "grad_norm": 3.2482453019803716, + "learning_rate": 4.343133474531562e-06, + "loss": 0.5155, + "step": 929 + }, + { + "epoch": 0.248, + "grad_norm": 2.6638667086596466, + "learning_rate": 4.341695960155629e-06, + "loss": 0.4781, + "step": 930 + }, + { + "epoch": 0.24826666666666666, + "grad_norm": 2.4724557869388892, + "learning_rate": 4.340257112997939e-06, + "loss": 0.4451, + "step": 931 + }, + { + "epoch": 0.24853333333333333, + "grad_norm": 2.67066415133516, + "learning_rate": 4.338816934099744e-06, + "loss": 0.4289, + "step": 932 + }, + { + "epoch": 0.2488, + "grad_norm": 2.6486155924707506, + "learning_rate": 4.3373754245032595e-06, + "loss": 0.4575, + "step": 933 + }, + { + "epoch": 0.24906666666666666, + "grad_norm": 2.4722569741145315, + "learning_rate": 4.3359325852516656e-06, + "loss": 0.446, + "step": 934 + }, + { + "epoch": 0.24933333333333332, + "grad_norm": 2.577644463965564, + "learning_rate": 4.334488417389101e-06, + "loss": 0.4754, + "step": 935 + }, + { + "epoch": 0.2496, + "grad_norm": 2.912003675278579, + "learning_rate": 4.333042921960669e-06, + "loss": 0.5039, + "step": 936 + }, + { + "epoch": 0.24986666666666665, + "grad_norm": 2.511863165244405, + "learning_rate": 4.331596100012432e-06, + "loss": 0.4282, + "step": 937 + }, + { + "epoch": 0.2501333333333333, + "grad_norm": 2.7120817479772943, + "learning_rate": 4.330147952591413e-06, + "loss": 0.4874, + "step": 938 + }, + { + "epoch": 0.2504, + "grad_norm": 2.766695161049127, + "learning_rate": 4.328698480745596e-06, + "loss": 0.4746, + "step": 939 + }, + { + "epoch": 0.25066666666666665, + "grad_norm": 2.9656121147035335, + "learning_rate": 4.327247685523919e-06, + "loss": 0.4443, + "step": 940 + }, + { + "epoch": 0.25093333333333334, + "grad_norm": 2.576684394726762, + "learning_rate": 4.3257955679762816e-06, + "loss": 0.4284, + "step": 941 + }, + { + "epoch": 0.2512, + "grad_norm": 2.683691479759662, + "learning_rate": 4.324342129153538e-06, + "loss": 0.4628, + "step": 942 + }, + { + "epoch": 0.25146666666666667, + "grad_norm": 2.6041854181599664, + "learning_rate": 4.3228873701075015e-06, + "loss": 0.4371, + "step": 943 + }, + { + "epoch": 0.2517333333333333, + "grad_norm": 2.50865690227681, + "learning_rate": 4.321431291890936e-06, + "loss": 0.4357, + "step": 944 + }, + { + "epoch": 0.252, + "grad_norm": 2.761919833411054, + "learning_rate": 4.319973895557566e-06, + "loss": 0.4864, + "step": 945 + }, + { + "epoch": 0.25226666666666664, + "grad_norm": 2.963974359627524, + "learning_rate": 4.318515182162065e-06, + "loss": 0.4679, + "step": 946 + }, + { + "epoch": 0.25253333333333333, + "grad_norm": 2.5146241607710786, + "learning_rate": 4.317055152760061e-06, + "loss": 0.4381, + "step": 947 + }, + { + "epoch": 0.2528, + "grad_norm": 2.554120561332083, + "learning_rate": 4.315593808408136e-06, + "loss": 0.4209, + "step": 948 + }, + { + "epoch": 0.25306666666666666, + "grad_norm": 2.736426641291288, + "learning_rate": 4.3141311501638226e-06, + "loss": 0.4491, + "step": 949 + }, + { + "epoch": 0.25333333333333335, + "grad_norm": 2.5820370330955753, + "learning_rate": 4.312667179085603e-06, + "loss": 0.4477, + "step": 950 + }, + { + "epoch": 0.2536, + "grad_norm": 2.522202004360419, + "learning_rate": 4.31120189623291e-06, + "loss": 0.4429, + "step": 951 + }, + { + "epoch": 0.2538666666666667, + "grad_norm": 3.2374645480866655, + "learning_rate": 4.309735302666127e-06, + "loss": 0.5088, + "step": 952 + }, + { + "epoch": 0.2541333333333333, + "grad_norm": 2.4927266093760565, + "learning_rate": 4.308267399446586e-06, + "loss": 0.4574, + "step": 953 + }, + { + "epoch": 0.2544, + "grad_norm": 2.465602552750565, + "learning_rate": 4.306798187636564e-06, + "loss": 0.3814, + "step": 954 + }, + { + "epoch": 0.25466666666666665, + "grad_norm": 2.5074374512763025, + "learning_rate": 4.305327668299288e-06, + "loss": 0.4662, + "step": 955 + }, + { + "epoch": 0.25493333333333335, + "grad_norm": 2.596562459999772, + "learning_rate": 4.30385584249893e-06, + "loss": 0.4773, + "step": 956 + }, + { + "epoch": 0.2552, + "grad_norm": 2.6880431883405276, + "learning_rate": 4.302382711300607e-06, + "loss": 0.4524, + "step": 957 + }, + { + "epoch": 0.2554666666666667, + "grad_norm": 2.4932891920980813, + "learning_rate": 4.30090827577038e-06, + "loss": 0.4313, + "step": 958 + }, + { + "epoch": 0.2557333333333333, + "grad_norm": 2.7604833395358823, + "learning_rate": 4.299432536975258e-06, + "loss": 0.4741, + "step": 959 + }, + { + "epoch": 0.256, + "grad_norm": 2.787624379256729, + "learning_rate": 4.297955495983188e-06, + "loss": 0.4658, + "step": 960 + }, + { + "epoch": 0.25626666666666664, + "grad_norm": 2.448434470715401, + "learning_rate": 4.296477153863062e-06, + "loss": 0.4436, + "step": 961 + }, + { + "epoch": 0.25653333333333334, + "grad_norm": 2.776339696364792, + "learning_rate": 4.294997511684714e-06, + "loss": 0.4939, + "step": 962 + }, + { + "epoch": 0.2568, + "grad_norm": 2.733706457308447, + "learning_rate": 4.293516570518917e-06, + "loss": 0.4469, + "step": 963 + }, + { + "epoch": 0.25706666666666667, + "grad_norm": 3.301986830606188, + "learning_rate": 4.292034331437386e-06, + "loss": 0.5395, + "step": 964 + }, + { + "epoch": 0.25733333333333336, + "grad_norm": 3.016939637263675, + "learning_rate": 4.290550795512772e-06, + "loss": 0.4798, + "step": 965 + }, + { + "epoch": 0.2576, + "grad_norm": 3.0369796042757167, + "learning_rate": 4.28906596381867e-06, + "loss": 0.4741, + "step": 966 + }, + { + "epoch": 0.2578666666666667, + "grad_norm": 2.5982640736127562, + "learning_rate": 4.287579837429607e-06, + "loss": 0.4427, + "step": 967 + }, + { + "epoch": 0.2581333333333333, + "grad_norm": 2.332764436812814, + "learning_rate": 4.28609241742105e-06, + "loss": 0.3969, + "step": 968 + }, + { + "epoch": 0.2584, + "grad_norm": 2.655102694759896, + "learning_rate": 4.2846037048694026e-06, + "loss": 0.4435, + "step": 969 + }, + { + "epoch": 0.25866666666666666, + "grad_norm": 2.4714785882072428, + "learning_rate": 4.2831137008520015e-06, + "loss": 0.4414, + "step": 970 + }, + { + "epoch": 0.25893333333333335, + "grad_norm": 2.81174768757126, + "learning_rate": 4.28162240644712e-06, + "loss": 0.4815, + "step": 971 + }, + { + "epoch": 0.2592, + "grad_norm": 2.5400308326824783, + "learning_rate": 4.280129822733964e-06, + "loss": 0.4615, + "step": 972 + }, + { + "epoch": 0.2594666666666667, + "grad_norm": 2.5570883584042052, + "learning_rate": 4.278635950792673e-06, + "loss": 0.4574, + "step": 973 + }, + { + "epoch": 0.2597333333333333, + "grad_norm": 2.6528091937346043, + "learning_rate": 4.277140791704319e-06, + "loss": 0.447, + "step": 974 + }, + { + "epoch": 0.26, + "grad_norm": 2.593839434455517, + "learning_rate": 4.275644346550904e-06, + "loss": 0.4857, + "step": 975 + }, + { + "epoch": 0.26026666666666665, + "grad_norm": 2.7195563878874176, + "learning_rate": 4.274146616415363e-06, + "loss": 0.4787, + "step": 976 + }, + { + "epoch": 0.26053333333333334, + "grad_norm": 2.899615839026573, + "learning_rate": 4.27264760238156e-06, + "loss": 0.4931, + "step": 977 + }, + { + "epoch": 0.2608, + "grad_norm": 2.484873914066019, + "learning_rate": 4.271147305534287e-06, + "loss": 0.4277, + "step": 978 + }, + { + "epoch": 0.26106666666666667, + "grad_norm": 2.6623394771348945, + "learning_rate": 4.269645726959264e-06, + "loss": 0.4801, + "step": 979 + }, + { + "epoch": 0.2613333333333333, + "grad_norm": 2.45199276743744, + "learning_rate": 4.268142867743141e-06, + "loss": 0.4152, + "step": 980 + }, + { + "epoch": 0.2616, + "grad_norm": 3.0140623265825144, + "learning_rate": 4.266638728973495e-06, + "loss": 0.4584, + "step": 981 + }, + { + "epoch": 0.2618666666666667, + "grad_norm": 3.2567818639334067, + "learning_rate": 4.265133311738825e-06, + "loss": 0.544, + "step": 982 + }, + { + "epoch": 0.26213333333333333, + "grad_norm": 2.8077512798097612, + "learning_rate": 4.263626617128559e-06, + "loss": 0.465, + "step": 983 + }, + { + "epoch": 0.2624, + "grad_norm": 2.7378206114428174, + "learning_rate": 4.262118646233046e-06, + "loss": 0.497, + "step": 984 + }, + { + "epoch": 0.26266666666666666, + "grad_norm": 2.8604303643881197, + "learning_rate": 4.260609400143564e-06, + "loss": 0.4558, + "step": 985 + }, + { + "epoch": 0.26293333333333335, + "grad_norm": 2.6483700640820653, + "learning_rate": 4.259098879952308e-06, + "loss": 0.4697, + "step": 986 + }, + { + "epoch": 0.2632, + "grad_norm": 4.597634119338494, + "learning_rate": 4.257587086752398e-06, + "loss": 0.4996, + "step": 987 + }, + { + "epoch": 0.2634666666666667, + "grad_norm": 2.4917914620566264, + "learning_rate": 4.2560740216378746e-06, + "loss": 0.4606, + "step": 988 + }, + { + "epoch": 0.2637333333333333, + "grad_norm": 2.8104916605032515, + "learning_rate": 4.2545596857037e-06, + "loss": 0.447, + "step": 989 + }, + { + "epoch": 0.264, + "grad_norm": 3.4125527070624524, + "learning_rate": 4.253044080045754e-06, + "loss": 0.4471, + "step": 990 + }, + { + "epoch": 0.26426666666666665, + "grad_norm": 2.6414427340945075, + "learning_rate": 4.251527205760836e-06, + "loss": 0.4542, + "step": 991 + }, + { + "epoch": 0.26453333333333334, + "grad_norm": 2.478398439479302, + "learning_rate": 4.250009063946665e-06, + "loss": 0.448, + "step": 992 + }, + { + "epoch": 0.2648, + "grad_norm": 2.544320581744289, + "learning_rate": 4.248489655701875e-06, + "loss": 0.4126, + "step": 993 + }, + { + "epoch": 0.2650666666666667, + "grad_norm": 2.490400218673271, + "learning_rate": 4.246968982126017e-06, + "loss": 0.4601, + "step": 994 + }, + { + "epoch": 0.2653333333333333, + "grad_norm": 3.0857355931389936, + "learning_rate": 4.245447044319561e-06, + "loss": 0.4993, + "step": 995 + }, + { + "epoch": 0.2656, + "grad_norm": 2.6658910247064402, + "learning_rate": 4.243923843383887e-06, + "loss": 0.4725, + "step": 996 + }, + { + "epoch": 0.26586666666666664, + "grad_norm": 2.707792591427966, + "learning_rate": 4.24239938042129e-06, + "loss": 0.4922, + "step": 997 + }, + { + "epoch": 0.26613333333333333, + "grad_norm": 2.541931733131594, + "learning_rate": 4.240873656534981e-06, + "loss": 0.4111, + "step": 998 + }, + { + "epoch": 0.2664, + "grad_norm": 2.9661325343867473, + "learning_rate": 4.239346672829084e-06, + "loss": 0.5079, + "step": 999 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 2.9921883925824, + "learning_rate": 4.237818430408628e-06, + "loss": 0.5194, + "step": 1000 + }, + { + "epoch": 0.26693333333333336, + "grad_norm": 2.5535075005303502, + "learning_rate": 4.23628893037956e-06, + "loss": 0.409, + "step": 1001 + }, + { + "epoch": 0.2672, + "grad_norm": 2.6234039257655137, + "learning_rate": 4.234758173848737e-06, + "loss": 0.4454, + "step": 1002 + }, + { + "epoch": 0.2674666666666667, + "grad_norm": 2.532139190268349, + "learning_rate": 4.233226161923918e-06, + "loss": 0.4376, + "step": 1003 + }, + { + "epoch": 0.2677333333333333, + "grad_norm": 2.3832332141790653, + "learning_rate": 4.23169289571378e-06, + "loss": 0.3887, + "step": 1004 + }, + { + "epoch": 0.268, + "grad_norm": 2.408095404151001, + "learning_rate": 4.2301583763278995e-06, + "loss": 0.408, + "step": 1005 + }, + { + "epoch": 0.26826666666666665, + "grad_norm": 2.7264451806416266, + "learning_rate": 4.228622604876766e-06, + "loss": 0.5043, + "step": 1006 + }, + { + "epoch": 0.26853333333333335, + "grad_norm": 2.534770770387865, + "learning_rate": 4.227085582471772e-06, + "loss": 0.4222, + "step": 1007 + }, + { + "epoch": 0.2688, + "grad_norm": 2.538236534416539, + "learning_rate": 4.225547310225216e-06, + "loss": 0.3921, + "step": 1008 + }, + { + "epoch": 0.2690666666666667, + "grad_norm": 3.2383935055077546, + "learning_rate": 4.2240077892503e-06, + "loss": 0.5465, + "step": 1009 + }, + { + "epoch": 0.2693333333333333, + "grad_norm": 2.542661592248118, + "learning_rate": 4.22246702066113e-06, + "loss": 0.4295, + "step": 1010 + }, + { + "epoch": 0.2696, + "grad_norm": 2.712372034821119, + "learning_rate": 4.220925005572718e-06, + "loss": 0.4439, + "step": 1011 + }, + { + "epoch": 0.26986666666666664, + "grad_norm": 2.8979534505958533, + "learning_rate": 4.219381745100973e-06, + "loss": 0.4865, + "step": 1012 + }, + { + "epoch": 0.27013333333333334, + "grad_norm": 3.085869502916701, + "learning_rate": 4.217837240362709e-06, + "loss": 0.5633, + "step": 1013 + }, + { + "epoch": 0.2704, + "grad_norm": 2.616880990164082, + "learning_rate": 4.2162914924756385e-06, + "loss": 0.4672, + "step": 1014 + }, + { + "epoch": 0.27066666666666667, + "grad_norm": 2.982093809063547, + "learning_rate": 4.214744502558375e-06, + "loss": 0.4787, + "step": 1015 + }, + { + "epoch": 0.27093333333333336, + "grad_norm": 2.673706818779421, + "learning_rate": 4.213196271730427e-06, + "loss": 0.4651, + "step": 1016 + }, + { + "epoch": 0.2712, + "grad_norm": 2.9188899901200553, + "learning_rate": 4.211646801112209e-06, + "loss": 0.4586, + "step": 1017 + }, + { + "epoch": 0.2714666666666667, + "grad_norm": 3.029760233324134, + "learning_rate": 4.2100960918250245e-06, + "loss": 0.497, + "step": 1018 + }, + { + "epoch": 0.2717333333333333, + "grad_norm": 2.761546657910116, + "learning_rate": 4.208544144991078e-06, + "loss": 0.5013, + "step": 1019 + }, + { + "epoch": 0.272, + "grad_norm": 2.7404849553950172, + "learning_rate": 4.206990961733467e-06, + "loss": 0.4949, + "step": 1020 + }, + { + "epoch": 0.27226666666666666, + "grad_norm": 2.625339145426552, + "learning_rate": 4.205436543176186e-06, + "loss": 0.4722, + "step": 1021 + }, + { + "epoch": 0.27253333333333335, + "grad_norm": 2.6272866904568626, + "learning_rate": 4.203880890444122e-06, + "loss": 0.4233, + "step": 1022 + }, + { + "epoch": 0.2728, + "grad_norm": 2.4136476997261207, + "learning_rate": 4.2023240046630555e-06, + "loss": 0.3723, + "step": 1023 + }, + { + "epoch": 0.2730666666666667, + "grad_norm": 2.781585374758633, + "learning_rate": 4.200765886959661e-06, + "loss": 0.4971, + "step": 1024 + }, + { + "epoch": 0.2733333333333333, + "grad_norm": 2.3620007159069267, + "learning_rate": 4.1992065384615e-06, + "loss": 0.4297, + "step": 1025 + }, + { + "epoch": 0.2736, + "grad_norm": 2.5900817982990354, + "learning_rate": 4.197645960297031e-06, + "loss": 0.4391, + "step": 1026 + }, + { + "epoch": 0.27386666666666665, + "grad_norm": 2.773540499604345, + "learning_rate": 4.196084153595596e-06, + "loss": 0.4723, + "step": 1027 + }, + { + "epoch": 0.27413333333333334, + "grad_norm": 2.5010495250202083, + "learning_rate": 4.1945211194874305e-06, + "loss": 0.4339, + "step": 1028 + }, + { + "epoch": 0.2744, + "grad_norm": 2.7025982603054626, + "learning_rate": 4.192956859103657e-06, + "loss": 0.47, + "step": 1029 + }, + { + "epoch": 0.27466666666666667, + "grad_norm": 2.81842974640958, + "learning_rate": 4.191391373576285e-06, + "loss": 0.4479, + "step": 1030 + }, + { + "epoch": 0.2749333333333333, + "grad_norm": 2.68018384430451, + "learning_rate": 4.18982466403821e-06, + "loss": 0.4812, + "step": 1031 + }, + { + "epoch": 0.2752, + "grad_norm": 2.5664876543784834, + "learning_rate": 4.188256731623215e-06, + "loss": 0.4348, + "step": 1032 + }, + { + "epoch": 0.2754666666666667, + "grad_norm": 2.5688698875024376, + "learning_rate": 4.186687577465967e-06, + "loss": 0.4835, + "step": 1033 + }, + { + "epoch": 0.27573333333333333, + "grad_norm": 2.537019393208647, + "learning_rate": 4.185117202702016e-06, + "loss": 0.4064, + "step": 1034 + }, + { + "epoch": 0.276, + "grad_norm": 2.4976472287449956, + "learning_rate": 4.183545608467799e-06, + "loss": 0.4008, + "step": 1035 + }, + { + "epoch": 0.27626666666666666, + "grad_norm": 2.4648277176374753, + "learning_rate": 4.181972795900629e-06, + "loss": 0.3887, + "step": 1036 + }, + { + "epoch": 0.27653333333333335, + "grad_norm": 2.958634130988921, + "learning_rate": 4.180398766138709e-06, + "loss": 0.4986, + "step": 1037 + }, + { + "epoch": 0.2768, + "grad_norm": 2.501060294207987, + "learning_rate": 4.178823520321116e-06, + "loss": 0.4668, + "step": 1038 + }, + { + "epoch": 0.2770666666666667, + "grad_norm": 2.950366200433787, + "learning_rate": 4.1772470595878105e-06, + "loss": 0.5018, + "step": 1039 + }, + { + "epoch": 0.2773333333333333, + "grad_norm": 3.0764272916785185, + "learning_rate": 4.175669385079631e-06, + "loss": 0.549, + "step": 1040 + }, + { + "epoch": 0.2776, + "grad_norm": 2.4528096124056558, + "learning_rate": 4.174090497938294e-06, + "loss": 0.4175, + "step": 1041 + }, + { + "epoch": 0.27786666666666665, + "grad_norm": 3.2960793592692137, + "learning_rate": 4.172510399306395e-06, + "loss": 0.5016, + "step": 1042 + }, + { + "epoch": 0.27813333333333334, + "grad_norm": 2.8557503319953903, + "learning_rate": 4.170929090327405e-06, + "loss": 0.4911, + "step": 1043 + }, + { + "epoch": 0.2784, + "grad_norm": 2.849249813067205, + "learning_rate": 4.169346572145672e-06, + "loss": 0.4734, + "step": 1044 + }, + { + "epoch": 0.2786666666666667, + "grad_norm": 2.355969283243579, + "learning_rate": 4.167762845906417e-06, + "loss": 0.3868, + "step": 1045 + }, + { + "epoch": 0.2789333333333333, + "grad_norm": 2.657465641688893, + "learning_rate": 4.166177912755737e-06, + "loss": 0.4619, + "step": 1046 + }, + { + "epoch": 0.2792, + "grad_norm": 2.5868517235768795, + "learning_rate": 4.164591773840603e-06, + "loss": 0.4406, + "step": 1047 + }, + { + "epoch": 0.27946666666666664, + "grad_norm": 2.689210674630458, + "learning_rate": 4.163004430308856e-06, + "loss": 0.4794, + "step": 1048 + }, + { + "epoch": 0.27973333333333333, + "grad_norm": 2.5443452597264367, + "learning_rate": 4.1614158833092126e-06, + "loss": 0.3906, + "step": 1049 + }, + { + "epoch": 0.28, + "grad_norm": 2.8962859610375036, + "learning_rate": 4.159826133991255e-06, + "loss": 0.5033, + "step": 1050 + }, + { + "epoch": 0.28026666666666666, + "grad_norm": 2.654310114371327, + "learning_rate": 4.15823518350544e-06, + "loss": 0.445, + "step": 1051 + }, + { + "epoch": 0.28053333333333336, + "grad_norm": 3.028360589613728, + "learning_rate": 4.156643033003094e-06, + "loss": 0.4919, + "step": 1052 + }, + { + "epoch": 0.2808, + "grad_norm": 2.6411359371490146, + "learning_rate": 4.155049683636407e-06, + "loss": 0.4492, + "step": 1053 + }, + { + "epoch": 0.2810666666666667, + "grad_norm": 2.804624164461598, + "learning_rate": 4.15345513655844e-06, + "loss": 0.4645, + "step": 1054 + }, + { + "epoch": 0.2813333333333333, + "grad_norm": 2.614425358486825, + "learning_rate": 4.151859392923122e-06, + "loss": 0.4509, + "step": 1055 + }, + { + "epoch": 0.2816, + "grad_norm": 2.702483875723818, + "learning_rate": 4.150262453885245e-06, + "loss": 0.4598, + "step": 1056 + }, + { + "epoch": 0.28186666666666665, + "grad_norm": 2.567772090969052, + "learning_rate": 4.148664320600468e-06, + "loss": 0.4458, + "step": 1057 + }, + { + "epoch": 0.28213333333333335, + "grad_norm": 2.9457241215654157, + "learning_rate": 4.147064994225313e-06, + "loss": 0.4826, + "step": 1058 + }, + { + "epoch": 0.2824, + "grad_norm": 2.5201883322888654, + "learning_rate": 4.145464475917166e-06, + "loss": 0.4089, + "step": 1059 + }, + { + "epoch": 0.2826666666666667, + "grad_norm": 2.559702461781963, + "learning_rate": 4.143862766834275e-06, + "loss": 0.4121, + "step": 1060 + }, + { + "epoch": 0.2829333333333333, + "grad_norm": 2.62238306271315, + "learning_rate": 4.142259868135752e-06, + "loss": 0.4618, + "step": 1061 + }, + { + "epoch": 0.2832, + "grad_norm": 2.900395286374044, + "learning_rate": 4.140655780981565e-06, + "loss": 0.4832, + "step": 1062 + }, + { + "epoch": 0.28346666666666664, + "grad_norm": 2.525412594972813, + "learning_rate": 4.139050506532549e-06, + "loss": 0.492, + "step": 1063 + }, + { + "epoch": 0.28373333333333334, + "grad_norm": 2.63115791735385, + "learning_rate": 4.137444045950391e-06, + "loss": 0.4709, + "step": 1064 + }, + { + "epoch": 0.284, + "grad_norm": 2.652753189747838, + "learning_rate": 4.135836400397642e-06, + "loss": 0.4448, + "step": 1065 + }, + { + "epoch": 0.28426666666666667, + "grad_norm": 2.6452331044177417, + "learning_rate": 4.134227571037708e-06, + "loss": 0.4327, + "step": 1066 + }, + { + "epoch": 0.28453333333333336, + "grad_norm": 2.514371382005698, + "learning_rate": 4.132617559034851e-06, + "loss": 0.4552, + "step": 1067 + }, + { + "epoch": 0.2848, + "grad_norm": 2.8217428924630648, + "learning_rate": 4.131006365554191e-06, + "loss": 0.4863, + "step": 1068 + }, + { + "epoch": 0.2850666666666667, + "grad_norm": 2.6555523974338224, + "learning_rate": 4.1293939917617e-06, + "loss": 0.4583, + "step": 1069 + }, + { + "epoch": 0.2853333333333333, + "grad_norm": 2.736379203741528, + "learning_rate": 4.127780438824208e-06, + "loss": 0.4447, + "step": 1070 + }, + { + "epoch": 0.2856, + "grad_norm": 2.8861544593407795, + "learning_rate": 4.126165707909395e-06, + "loss": 0.4483, + "step": 1071 + }, + { + "epoch": 0.28586666666666666, + "grad_norm": 3.1474669832966446, + "learning_rate": 4.124549800185795e-06, + "loss": 0.4987, + "step": 1072 + }, + { + "epoch": 0.28613333333333335, + "grad_norm": 2.734767564495015, + "learning_rate": 4.122932716822794e-06, + "loss": 0.4586, + "step": 1073 + }, + { + "epoch": 0.2864, + "grad_norm": 2.5875711973643476, + "learning_rate": 4.1213144589906274e-06, + "loss": 0.4464, + "step": 1074 + }, + { + "epoch": 0.2866666666666667, + "grad_norm": 2.3229063407674233, + "learning_rate": 4.119695027860382e-06, + "loss": 0.4275, + "step": 1075 + }, + { + "epoch": 0.2869333333333333, + "grad_norm": 3.0132655058506455, + "learning_rate": 4.118074424603993e-06, + "loss": 0.55, + "step": 1076 + }, + { + "epoch": 0.2872, + "grad_norm": 2.7353900572424212, + "learning_rate": 4.1164526503942425e-06, + "loss": 0.4707, + "step": 1077 + }, + { + "epoch": 0.28746666666666665, + "grad_norm": 2.626098593778849, + "learning_rate": 4.114829706404762e-06, + "loss": 0.4696, + "step": 1078 + }, + { + "epoch": 0.28773333333333334, + "grad_norm": 2.57041140504189, + "learning_rate": 4.1132055938100304e-06, + "loss": 0.4486, + "step": 1079 + }, + { + "epoch": 0.288, + "grad_norm": 2.482122653870951, + "learning_rate": 4.111580313785368e-06, + "loss": 0.4299, + "step": 1080 + }, + { + "epoch": 0.28826666666666667, + "grad_norm": 2.3900329334175088, + "learning_rate": 4.109953867506945e-06, + "loss": 0.4331, + "step": 1081 + }, + { + "epoch": 0.2885333333333333, + "grad_norm": 2.597484512217419, + "learning_rate": 4.108326256151771e-06, + "loss": 0.4138, + "step": 1082 + }, + { + "epoch": 0.2888, + "grad_norm": 2.7614905200035333, + "learning_rate": 4.1066974808977035e-06, + "loss": 0.5127, + "step": 1083 + }, + { + "epoch": 0.2890666666666667, + "grad_norm": 2.698559651759748, + "learning_rate": 4.105067542923438e-06, + "loss": 0.4683, + "step": 1084 + }, + { + "epoch": 0.28933333333333333, + "grad_norm": 3.0547789174527913, + "learning_rate": 4.103436443408513e-06, + "loss": 0.4763, + "step": 1085 + }, + { + "epoch": 0.2896, + "grad_norm": 2.844467192312267, + "learning_rate": 4.101804183533308e-06, + "loss": 0.4508, + "step": 1086 + }, + { + "epoch": 0.28986666666666666, + "grad_norm": 2.840493361172846, + "learning_rate": 4.100170764479042e-06, + "loss": 0.457, + "step": 1087 + }, + { + "epoch": 0.29013333333333335, + "grad_norm": 2.5801113893738603, + "learning_rate": 4.098536187427775e-06, + "loss": 0.4586, + "step": 1088 + }, + { + "epoch": 0.2904, + "grad_norm": 2.542496567182907, + "learning_rate": 4.0969004535624e-06, + "loss": 0.4222, + "step": 1089 + }, + { + "epoch": 0.2906666666666667, + "grad_norm": 2.5257059143647718, + "learning_rate": 4.0952635640666504e-06, + "loss": 0.4309, + "step": 1090 + }, + { + "epoch": 0.2909333333333333, + "grad_norm": 2.881086447175208, + "learning_rate": 4.093625520125096e-06, + "loss": 0.5308, + "step": 1091 + }, + { + "epoch": 0.2912, + "grad_norm": 2.7873075184803247, + "learning_rate": 4.0919863229231415e-06, + "loss": 0.5115, + "step": 1092 + }, + { + "epoch": 0.29146666666666665, + "grad_norm": 2.834830438366524, + "learning_rate": 4.090345973647027e-06, + "loss": 0.46, + "step": 1093 + }, + { + "epoch": 0.29173333333333334, + "grad_norm": 2.9997129398212037, + "learning_rate": 4.0887044734838235e-06, + "loss": 0.4597, + "step": 1094 + }, + { + "epoch": 0.292, + "grad_norm": 2.766215326453682, + "learning_rate": 4.087061823621439e-06, + "loss": 0.4566, + "step": 1095 + }, + { + "epoch": 0.2922666666666667, + "grad_norm": 2.525024848805042, + "learning_rate": 4.08541802524861e-06, + "loss": 0.4149, + "step": 1096 + }, + { + "epoch": 0.2925333333333333, + "grad_norm": 2.382899826780873, + "learning_rate": 4.0837730795549066e-06, + "loss": 0.4444, + "step": 1097 + }, + { + "epoch": 0.2928, + "grad_norm": 2.3865213767496747, + "learning_rate": 4.082126987730727e-06, + "loss": 0.3975, + "step": 1098 + }, + { + "epoch": 0.29306666666666664, + "grad_norm": 2.9130788572215307, + "learning_rate": 4.0804797509673e-06, + "loss": 0.4858, + "step": 1099 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 2.531737550264712, + "learning_rate": 4.078831370456684e-06, + "loss": 0.4149, + "step": 1100 + }, + { + "epoch": 0.2936, + "grad_norm": 2.6244703941482173, + "learning_rate": 4.077181847391763e-06, + "loss": 0.4315, + "step": 1101 + }, + { + "epoch": 0.29386666666666666, + "grad_norm": 2.661530721251123, + "learning_rate": 4.07553118296625e-06, + "loss": 0.4788, + "step": 1102 + }, + { + "epoch": 0.29413333333333336, + "grad_norm": 2.9514338787842584, + "learning_rate": 4.073879378374681e-06, + "loss": 0.5163, + "step": 1103 + }, + { + "epoch": 0.2944, + "grad_norm": 2.772055498209595, + "learning_rate": 4.07222643481242e-06, + "loss": 0.5207, + "step": 1104 + }, + { + "epoch": 0.2946666666666667, + "grad_norm": 2.9162053626769966, + "learning_rate": 4.070572353475654e-06, + "loss": 0.4095, + "step": 1105 + }, + { + "epoch": 0.2949333333333333, + "grad_norm": 2.6833269070850516, + "learning_rate": 4.068917135561396e-06, + "loss": 0.4681, + "step": 1106 + }, + { + "epoch": 0.2952, + "grad_norm": 2.856178863915995, + "learning_rate": 4.067260782267474e-06, + "loss": 0.5442, + "step": 1107 + }, + { + "epoch": 0.29546666666666666, + "grad_norm": 3.233914555457523, + "learning_rate": 4.065603294792545e-06, + "loss": 0.4728, + "step": 1108 + }, + { + "epoch": 0.29573333333333335, + "grad_norm": 2.6028176056703685, + "learning_rate": 4.063944674336085e-06, + "loss": 0.4144, + "step": 1109 + }, + { + "epoch": 0.296, + "grad_norm": 2.852919645076854, + "learning_rate": 4.06228492209839e-06, + "loss": 0.4813, + "step": 1110 + }, + { + "epoch": 0.2962666666666667, + "grad_norm": 2.731292513301978, + "learning_rate": 4.060624039280573e-06, + "loss": 0.4618, + "step": 1111 + }, + { + "epoch": 0.2965333333333333, + "grad_norm": 2.5885990186384653, + "learning_rate": 4.058962027084566e-06, + "loss": 0.4547, + "step": 1112 + }, + { + "epoch": 0.2968, + "grad_norm": 2.813315039172952, + "learning_rate": 4.05729888671312e-06, + "loss": 0.4371, + "step": 1113 + }, + { + "epoch": 0.29706666666666665, + "grad_norm": 2.6732437151109183, + "learning_rate": 4.055634619369803e-06, + "loss": 0.4445, + "step": 1114 + }, + { + "epoch": 0.29733333333333334, + "grad_norm": 2.5087112929849544, + "learning_rate": 4.053969226258993e-06, + "loss": 0.4467, + "step": 1115 + }, + { + "epoch": 0.2976, + "grad_norm": 2.677811217044001, + "learning_rate": 4.052302708585889e-06, + "loss": 0.4779, + "step": 1116 + }, + { + "epoch": 0.29786666666666667, + "grad_norm": 2.96097879417431, + "learning_rate": 4.0506350675565e-06, + "loss": 0.48, + "step": 1117 + }, + { + "epoch": 0.2981333333333333, + "grad_norm": 2.486619976739928, + "learning_rate": 4.048966304377651e-06, + "loss": 0.4375, + "step": 1118 + }, + { + "epoch": 0.2984, + "grad_norm": 2.345614691465044, + "learning_rate": 4.047296420256976e-06, + "loss": 0.3946, + "step": 1119 + }, + { + "epoch": 0.2986666666666667, + "grad_norm": 3.083596774279666, + "learning_rate": 4.0456254164029214e-06, + "loss": 0.515, + "step": 1120 + }, + { + "epoch": 0.29893333333333333, + "grad_norm": 2.783824595720282, + "learning_rate": 4.043953294024744e-06, + "loss": 0.4451, + "step": 1121 + }, + { + "epoch": 0.2992, + "grad_norm": 4.5643812588439, + "learning_rate": 4.042280054332512e-06, + "loss": 0.5277, + "step": 1122 + }, + { + "epoch": 0.29946666666666666, + "grad_norm": 2.6903141634195373, + "learning_rate": 4.0406056985370985e-06, + "loss": 0.4336, + "step": 1123 + }, + { + "epoch": 0.29973333333333335, + "grad_norm": 2.739069465992542, + "learning_rate": 4.0389302278501865e-06, + "loss": 0.422, + "step": 1124 + }, + { + "epoch": 0.3, + "grad_norm": 2.8980317470949046, + "learning_rate": 4.037253643484265e-06, + "loss": 0.4794, + "step": 1125 + }, + { + "epoch": 0.3002666666666667, + "grad_norm": 2.978516668675477, + "learning_rate": 4.035575946652629e-06, + "loss": 0.4577, + "step": 1126 + }, + { + "epoch": 0.3005333333333333, + "grad_norm": 3.4486240626829985, + "learning_rate": 4.033897138569381e-06, + "loss": 0.4973, + "step": 1127 + }, + { + "epoch": 0.3008, + "grad_norm": 2.787732933484545, + "learning_rate": 4.0322172204494225e-06, + "loss": 0.4653, + "step": 1128 + }, + { + "epoch": 0.30106666666666665, + "grad_norm": 2.5367645669911174, + "learning_rate": 4.030536193508463e-06, + "loss": 0.4548, + "step": 1129 + }, + { + "epoch": 0.30133333333333334, + "grad_norm": 3.671637420451357, + "learning_rate": 4.0288540589630134e-06, + "loss": 0.4974, + "step": 1130 + }, + { + "epoch": 0.3016, + "grad_norm": 2.3290893091338716, + "learning_rate": 4.027170818030384e-06, + "loss": 0.3666, + "step": 1131 + }, + { + "epoch": 0.30186666666666667, + "grad_norm": 2.5886364142113356, + "learning_rate": 4.025486471928688e-06, + "loss": 0.4452, + "step": 1132 + }, + { + "epoch": 0.3021333333333333, + "grad_norm": 2.708029824328235, + "learning_rate": 4.023801021876838e-06, + "loss": 0.4576, + "step": 1133 + }, + { + "epoch": 0.3024, + "grad_norm": 2.4136817442579157, + "learning_rate": 4.022114469094545e-06, + "loss": 0.429, + "step": 1134 + }, + { + "epoch": 0.30266666666666664, + "grad_norm": 2.7282761075412725, + "learning_rate": 4.020426814802317e-06, + "loss": 0.4498, + "step": 1135 + }, + { + "epoch": 0.30293333333333333, + "grad_norm": 2.462286199652836, + "learning_rate": 4.018738060221462e-06, + "loss": 0.4323, + "step": 1136 + }, + { + "epoch": 0.3032, + "grad_norm": 2.557752440557729, + "learning_rate": 4.017048206574081e-06, + "loss": 0.425, + "step": 1137 + }, + { + "epoch": 0.30346666666666666, + "grad_norm": 2.6618726902572, + "learning_rate": 4.015357255083073e-06, + "loss": 0.4864, + "step": 1138 + }, + { + "epoch": 0.30373333333333336, + "grad_norm": 2.5605918587942407, + "learning_rate": 4.01366520697213e-06, + "loss": 0.4969, + "step": 1139 + }, + { + "epoch": 0.304, + "grad_norm": 2.384100714089552, + "learning_rate": 4.0119720634657375e-06, + "loss": 0.3887, + "step": 1140 + }, + { + "epoch": 0.3042666666666667, + "grad_norm": 2.3342669471092905, + "learning_rate": 4.010277825789176e-06, + "loss": 0.4094, + "step": 1141 + }, + { + "epoch": 0.3045333333333333, + "grad_norm": 2.7477799859648493, + "learning_rate": 4.0085824951685136e-06, + "loss": 0.4639, + "step": 1142 + }, + { + "epoch": 0.3048, + "grad_norm": 2.804993401647982, + "learning_rate": 4.006886072830612e-06, + "loss": 0.4758, + "step": 1143 + }, + { + "epoch": 0.30506666666666665, + "grad_norm": 2.5074123847581027, + "learning_rate": 4.005188560003125e-06, + "loss": 0.439, + "step": 1144 + }, + { + "epoch": 0.30533333333333335, + "grad_norm": 2.3207570625047627, + "learning_rate": 4.00348995791449e-06, + "loss": 0.4122, + "step": 1145 + }, + { + "epoch": 0.3056, + "grad_norm": 2.4345633533276914, + "learning_rate": 4.001790267793939e-06, + "loss": 0.4185, + "step": 1146 + }, + { + "epoch": 0.3058666666666667, + "grad_norm": 2.8482898916285233, + "learning_rate": 4.000089490871486e-06, + "loss": 0.4377, + "step": 1147 + }, + { + "epoch": 0.3061333333333333, + "grad_norm": 2.8159376116648156, + "learning_rate": 3.998387628377934e-06, + "loss": 0.5016, + "step": 1148 + }, + { + "epoch": 0.3064, + "grad_norm": 3.4094662347236806, + "learning_rate": 3.996684681544873e-06, + "loss": 0.456, + "step": 1149 + }, + { + "epoch": 0.30666666666666664, + "grad_norm": 3.0309789411286068, + "learning_rate": 3.994980651604674e-06, + "loss": 0.4824, + "step": 1150 + }, + { + "epoch": 0.30693333333333334, + "grad_norm": 2.742469040908456, + "learning_rate": 3.993275539790495e-06, + "loss": 0.3846, + "step": 1151 + }, + { + "epoch": 0.3072, + "grad_norm": 2.598947564598015, + "learning_rate": 3.991569347336276e-06, + "loss": 0.4627, + "step": 1152 + }, + { + "epoch": 0.30746666666666667, + "grad_norm": 2.6852759619825903, + "learning_rate": 3.989862075476738e-06, + "loss": 0.4298, + "step": 1153 + }, + { + "epoch": 0.30773333333333336, + "grad_norm": 2.5848026567412496, + "learning_rate": 3.988153725447385e-06, + "loss": 0.4346, + "step": 1154 + }, + { + "epoch": 0.308, + "grad_norm": 2.5961873957061607, + "learning_rate": 3.986444298484499e-06, + "loss": 0.4592, + "step": 1155 + }, + { + "epoch": 0.3082666666666667, + "grad_norm": 2.7945681469114274, + "learning_rate": 3.984733795825143e-06, + "loss": 0.458, + "step": 1156 + }, + { + "epoch": 0.3085333333333333, + "grad_norm": 2.944924882268542, + "learning_rate": 3.983022218707158e-06, + "loss": 0.5081, + "step": 1157 + }, + { + "epoch": 0.3088, + "grad_norm": 2.7309454864169025, + "learning_rate": 3.981309568369163e-06, + "loss": 0.4431, + "step": 1158 + }, + { + "epoch": 0.30906666666666666, + "grad_norm": 2.8929356443677854, + "learning_rate": 3.979595846050552e-06, + "loss": 0.477, + "step": 1159 + }, + { + "epoch": 0.30933333333333335, + "grad_norm": 2.4465128794440894, + "learning_rate": 3.977881052991497e-06, + "loss": 0.4163, + "step": 1160 + }, + { + "epoch": 0.3096, + "grad_norm": 2.4805333937676504, + "learning_rate": 3.976165190432944e-06, + "loss": 0.4095, + "step": 1161 + }, + { + "epoch": 0.3098666666666667, + "grad_norm": 2.361144549574443, + "learning_rate": 3.974448259616612e-06, + "loss": 0.4393, + "step": 1162 + }, + { + "epoch": 0.3101333333333333, + "grad_norm": 2.560034794195886, + "learning_rate": 3.972730261784994e-06, + "loss": 0.4521, + "step": 1163 + }, + { + "epoch": 0.3104, + "grad_norm": 2.5687456272035596, + "learning_rate": 3.971011198181356e-06, + "loss": 0.4474, + "step": 1164 + }, + { + "epoch": 0.31066666666666665, + "grad_norm": 2.8442602833335138, + "learning_rate": 3.969291070049732e-06, + "loss": 0.479, + "step": 1165 + }, + { + "epoch": 0.31093333333333334, + "grad_norm": 2.502671485928046, + "learning_rate": 3.967569878634932e-06, + "loss": 0.4206, + "step": 1166 + }, + { + "epoch": 0.3112, + "grad_norm": 2.6780388833224467, + "learning_rate": 3.965847625182529e-06, + "loss": 0.4707, + "step": 1167 + }, + { + "epoch": 0.31146666666666667, + "grad_norm": 3.2825110518407876, + "learning_rate": 3.964124310938869e-06, + "loss": 0.525, + "step": 1168 + }, + { + "epoch": 0.3117333333333333, + "grad_norm": 2.557609086203934, + "learning_rate": 3.962399937151065e-06, + "loss": 0.4573, + "step": 1169 + }, + { + "epoch": 0.312, + "grad_norm": 2.5900545868553286, + "learning_rate": 3.960674505066995e-06, + "loss": 0.4597, + "step": 1170 + }, + { + "epoch": 0.3122666666666667, + "grad_norm": 2.665621025610646, + "learning_rate": 3.9589480159353045e-06, + "loss": 0.4805, + "step": 1171 + }, + { + "epoch": 0.31253333333333333, + "grad_norm": 3.1297801813802004, + "learning_rate": 3.9572204710054035e-06, + "loss": 0.509, + "step": 1172 + }, + { + "epoch": 0.3128, + "grad_norm": 2.6550548027898473, + "learning_rate": 3.9554918715274655e-06, + "loss": 0.4822, + "step": 1173 + }, + { + "epoch": 0.31306666666666666, + "grad_norm": 2.9254511034526858, + "learning_rate": 3.953762218752428e-06, + "loss": 0.4961, + "step": 1174 + }, + { + "epoch": 0.31333333333333335, + "grad_norm": 2.4873172928121314, + "learning_rate": 3.952031513931991e-06, + "loss": 0.434, + "step": 1175 + }, + { + "epoch": 0.3136, + "grad_norm": 2.772265393750666, + "learning_rate": 3.950299758318614e-06, + "loss": 0.4563, + "step": 1176 + }, + { + "epoch": 0.3138666666666667, + "grad_norm": 2.5854665010373012, + "learning_rate": 3.948566953165518e-06, + "loss": 0.4611, + "step": 1177 + }, + { + "epoch": 0.3141333333333333, + "grad_norm": 2.522721363569325, + "learning_rate": 3.946833099726685e-06, + "loss": 0.4794, + "step": 1178 + }, + { + "epoch": 0.3144, + "grad_norm": 2.418426497978087, + "learning_rate": 3.945098199256854e-06, + "loss": 0.4325, + "step": 1179 + }, + { + "epoch": 0.31466666666666665, + "grad_norm": 3.588069256950728, + "learning_rate": 3.943362253011521e-06, + "loss": 0.5019, + "step": 1180 + }, + { + "epoch": 0.31493333333333334, + "grad_norm": 2.954484464124109, + "learning_rate": 3.94162526224694e-06, + "loss": 0.5256, + "step": 1181 + }, + { + "epoch": 0.3152, + "grad_norm": 2.8312129992436024, + "learning_rate": 3.939887228220121e-06, + "loss": 0.4585, + "step": 1182 + }, + { + "epoch": 0.3154666666666667, + "grad_norm": 2.6753140241182978, + "learning_rate": 3.938148152188829e-06, + "loss": 0.4535, + "step": 1183 + }, + { + "epoch": 0.3157333333333333, + "grad_norm": 3.1103300373856193, + "learning_rate": 3.9364080354115815e-06, + "loss": 0.461, + "step": 1184 + }, + { + "epoch": 0.316, + "grad_norm": 2.74427702231939, + "learning_rate": 3.934666879147652e-06, + "loss": 0.4832, + "step": 1185 + }, + { + "epoch": 0.31626666666666664, + "grad_norm": 2.722521323740283, + "learning_rate": 3.932924684657063e-06, + "loss": 0.4583, + "step": 1186 + }, + { + "epoch": 0.31653333333333333, + "grad_norm": 2.686931346590221, + "learning_rate": 3.931181453200592e-06, + "loss": 0.4638, + "step": 1187 + }, + { + "epoch": 0.3168, + "grad_norm": 2.7419203122823035, + "learning_rate": 3.9294371860397614e-06, + "loss": 0.4737, + "step": 1188 + }, + { + "epoch": 0.31706666666666666, + "grad_norm": 2.7586692326964237, + "learning_rate": 3.927691884436851e-06, + "loss": 0.5075, + "step": 1189 + }, + { + "epoch": 0.31733333333333336, + "grad_norm": 2.4173171671518725, + "learning_rate": 3.925945549654882e-06, + "loss": 0.44, + "step": 1190 + }, + { + "epoch": 0.3176, + "grad_norm": 2.2403677065557064, + "learning_rate": 3.924198182957625e-06, + "loss": 0.3417, + "step": 1191 + }, + { + "epoch": 0.3178666666666667, + "grad_norm": 2.4363205474123366, + "learning_rate": 3.922449785609601e-06, + "loss": 0.4067, + "step": 1192 + }, + { + "epoch": 0.3181333333333333, + "grad_norm": 2.4390236372307466, + "learning_rate": 3.920700358876073e-06, + "loss": 0.433, + "step": 1193 + }, + { + "epoch": 0.3184, + "grad_norm": 3.1689097793449337, + "learning_rate": 3.918949904023051e-06, + "loss": 0.4634, + "step": 1194 + }, + { + "epoch": 0.31866666666666665, + "grad_norm": 2.63485485992591, + "learning_rate": 3.917198422317287e-06, + "loss": 0.4182, + "step": 1195 + }, + { + "epoch": 0.31893333333333335, + "grad_norm": 2.7714866906280533, + "learning_rate": 3.915445915026278e-06, + "loss": 0.4391, + "step": 1196 + }, + { + "epoch": 0.3192, + "grad_norm": 2.4896836446030495, + "learning_rate": 3.913692383418262e-06, + "loss": 0.4446, + "step": 1197 + }, + { + "epoch": 0.3194666666666667, + "grad_norm": 3.0381735543487483, + "learning_rate": 3.91193782876222e-06, + "loss": 0.5168, + "step": 1198 + }, + { + "epoch": 0.3197333333333333, + "grad_norm": 2.8678654705704227, + "learning_rate": 3.910182252327871e-06, + "loss": 0.4235, + "step": 1199 + }, + { + "epoch": 0.32, + "grad_norm": 3.4717589625908345, + "learning_rate": 3.908425655385675e-06, + "loss": 0.4655, + "step": 1200 + }, + { + "epoch": 0.32026666666666664, + "grad_norm": 2.9451982917768027, + "learning_rate": 3.90666803920683e-06, + "loss": 0.4733, + "step": 1201 + }, + { + "epoch": 0.32053333333333334, + "grad_norm": 2.6013836089201563, + "learning_rate": 3.904909405063272e-06, + "loss": 0.4907, + "step": 1202 + }, + { + "epoch": 0.3208, + "grad_norm": 2.486327684775012, + "learning_rate": 3.903149754227673e-06, + "loss": 0.4486, + "step": 1203 + }, + { + "epoch": 0.32106666666666667, + "grad_norm": 2.392380092099488, + "learning_rate": 3.90138908797344e-06, + "loss": 0.4154, + "step": 1204 + }, + { + "epoch": 0.32133333333333336, + "grad_norm": 2.4935202944748616, + "learning_rate": 3.899627407574719e-06, + "loss": 0.4191, + "step": 1205 + }, + { + "epoch": 0.3216, + "grad_norm": 2.6988421905249456, + "learning_rate": 3.897864714306384e-06, + "loss": 0.4534, + "step": 1206 + }, + { + "epoch": 0.3218666666666667, + "grad_norm": 2.8900761812056217, + "learning_rate": 3.896101009444046e-06, + "loss": 0.4702, + "step": 1207 + }, + { + "epoch": 0.3221333333333333, + "grad_norm": 2.7532698471901784, + "learning_rate": 3.8943362942640454e-06, + "loss": 0.497, + "step": 1208 + }, + { + "epoch": 0.3224, + "grad_norm": 3.02122684205264, + "learning_rate": 3.892570570043457e-06, + "loss": 0.5253, + "step": 1209 + }, + { + "epoch": 0.32266666666666666, + "grad_norm": 2.477089100650419, + "learning_rate": 3.890803838060083e-06, + "loss": 0.4411, + "step": 1210 + }, + { + "epoch": 0.32293333333333335, + "grad_norm": 2.6081874679902532, + "learning_rate": 3.889036099592457e-06, + "loss": 0.4818, + "step": 1211 + }, + { + "epoch": 0.3232, + "grad_norm": 2.7885564408866275, + "learning_rate": 3.887267355919839e-06, + "loss": 0.4802, + "step": 1212 + }, + { + "epoch": 0.3234666666666667, + "grad_norm": 2.5031984939572327, + "learning_rate": 3.885497608322217e-06, + "loss": 0.4685, + "step": 1213 + }, + { + "epoch": 0.3237333333333333, + "grad_norm": 2.6433910033673427, + "learning_rate": 3.883726858080307e-06, + "loss": 0.5008, + "step": 1214 + }, + { + "epoch": 0.324, + "grad_norm": 2.5574782941812764, + "learning_rate": 3.881955106475548e-06, + "loss": 0.4696, + "step": 1215 + }, + { + "epoch": 0.32426666666666665, + "grad_norm": 3.161089821763151, + "learning_rate": 3.880182354790105e-06, + "loss": 0.5022, + "step": 1216 + }, + { + "epoch": 0.32453333333333334, + "grad_norm": 2.2387113027157075, + "learning_rate": 3.878408604306869e-06, + "loss": 0.4021, + "step": 1217 + }, + { + "epoch": 0.3248, + "grad_norm": 2.6519602570470986, + "learning_rate": 3.876633856309449e-06, + "loss": 0.4349, + "step": 1218 + }, + { + "epoch": 0.32506666666666667, + "grad_norm": 2.800537441549505, + "learning_rate": 3.8748581120821805e-06, + "loss": 0.4706, + "step": 1219 + }, + { + "epoch": 0.3253333333333333, + "grad_norm": 3.0981246361130936, + "learning_rate": 3.873081372910117e-06, + "loss": 0.5016, + "step": 1220 + }, + { + "epoch": 0.3256, + "grad_norm": 2.76988723454046, + "learning_rate": 3.871303640079032e-06, + "loss": 0.4936, + "step": 1221 + }, + { + "epoch": 0.3258666666666667, + "grad_norm": 2.5065937146362653, + "learning_rate": 3.869524914875421e-06, + "loss": 0.4738, + "step": 1222 + }, + { + "epoch": 0.32613333333333333, + "grad_norm": 3.223008946561927, + "learning_rate": 3.867745198586493e-06, + "loss": 0.5374, + "step": 1223 + }, + { + "epoch": 0.3264, + "grad_norm": 2.5359486463969048, + "learning_rate": 3.86596449250018e-06, + "loss": 0.4018, + "step": 1224 + }, + { + "epoch": 0.32666666666666666, + "grad_norm": 3.134010920312765, + "learning_rate": 3.864182797905125e-06, + "loss": 0.5277, + "step": 1225 + }, + { + "epoch": 0.32693333333333335, + "grad_norm": 2.514710174605789, + "learning_rate": 3.862400116090689e-06, + "loss": 0.4478, + "step": 1226 + }, + { + "epoch": 0.3272, + "grad_norm": 2.3758166283551643, + "learning_rate": 3.8606164483469475e-06, + "loss": 0.4266, + "step": 1227 + }, + { + "epoch": 0.3274666666666667, + "grad_norm": 2.60937008388543, + "learning_rate": 3.858831795964688e-06, + "loss": 0.4659, + "step": 1228 + }, + { + "epoch": 0.3277333333333333, + "grad_norm": 2.6262908542888583, + "learning_rate": 3.857046160235412e-06, + "loss": 0.4617, + "step": 1229 + }, + { + "epoch": 0.328, + "grad_norm": 2.7776713641975523, + "learning_rate": 3.855259542451332e-06, + "loss": 0.4549, + "step": 1230 + }, + { + "epoch": 0.32826666666666665, + "grad_norm": 2.601352933599678, + "learning_rate": 3.853471943905372e-06, + "loss": 0.492, + "step": 1231 + }, + { + "epoch": 0.32853333333333334, + "grad_norm": 2.524224885580513, + "learning_rate": 3.851683365891164e-06, + "loss": 0.4325, + "step": 1232 + }, + { + "epoch": 0.3288, + "grad_norm": 2.96769870592072, + "learning_rate": 3.84989380970305e-06, + "loss": 0.5131, + "step": 1233 + }, + { + "epoch": 0.3290666666666667, + "grad_norm": 2.580893693506842, + "learning_rate": 3.8481032766360795e-06, + "loss": 0.4553, + "step": 1234 + }, + { + "epoch": 0.3293333333333333, + "grad_norm": 2.61563146196663, + "learning_rate": 3.84631176798601e-06, + "loss": 0.489, + "step": 1235 + }, + { + "epoch": 0.3296, + "grad_norm": 3.289209838941543, + "learning_rate": 3.844519285049305e-06, + "loss": 0.4816, + "step": 1236 + }, + { + "epoch": 0.32986666666666664, + "grad_norm": 2.8827725451541313, + "learning_rate": 3.84272582912313e-06, + "loss": 0.4741, + "step": 1237 + }, + { + "epoch": 0.33013333333333333, + "grad_norm": 2.2967092975877343, + "learning_rate": 3.840931401505357e-06, + "loss": 0.3965, + "step": 1238 + }, + { + "epoch": 0.3304, + "grad_norm": 2.814976696786096, + "learning_rate": 3.839136003494563e-06, + "loss": 0.4652, + "step": 1239 + }, + { + "epoch": 0.33066666666666666, + "grad_norm": 3.066280322552876, + "learning_rate": 3.837339636390023e-06, + "loss": 0.4975, + "step": 1240 + }, + { + "epoch": 0.33093333333333336, + "grad_norm": 2.6178159484411423, + "learning_rate": 3.835542301491718e-06, + "loss": 0.4441, + "step": 1241 + }, + { + "epoch": 0.3312, + "grad_norm": 2.7247491881316206, + "learning_rate": 3.833744000100325e-06, + "loss": 0.4705, + "step": 1242 + }, + { + "epoch": 0.3314666666666667, + "grad_norm": 2.6024442487669868, + "learning_rate": 3.831944733517223e-06, + "loss": 0.4339, + "step": 1243 + }, + { + "epoch": 0.3317333333333333, + "grad_norm": 3.113047585871599, + "learning_rate": 3.83014450304449e-06, + "loss": 0.518, + "step": 1244 + }, + { + "epoch": 0.332, + "grad_norm": 3.1407286615164405, + "learning_rate": 3.8283433099848974e-06, + "loss": 0.5558, + "step": 1245 + }, + { + "epoch": 0.33226666666666665, + "grad_norm": 2.2701859368292703, + "learning_rate": 3.82654115564192e-06, + "loss": 0.3988, + "step": 1246 + }, + { + "epoch": 0.33253333333333335, + "grad_norm": 2.5071121885215364, + "learning_rate": 3.824738041319721e-06, + "loss": 0.4582, + "step": 1247 + }, + { + "epoch": 0.3328, + "grad_norm": 2.6678555787987492, + "learning_rate": 3.822933968323164e-06, + "loss": 0.4071, + "step": 1248 + }, + { + "epoch": 0.3330666666666667, + "grad_norm": 2.3175345331699, + "learning_rate": 3.821128937957803e-06, + "loss": 0.3834, + "step": 1249 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 2.305727698669204, + "learning_rate": 3.819322951529886e-06, + "loss": 0.3937, + "step": 1250 + }, + { + "epoch": 0.3336, + "grad_norm": 2.900829431348258, + "learning_rate": 3.817516010346354e-06, + "loss": 0.4758, + "step": 1251 + }, + { + "epoch": 0.33386666666666664, + "grad_norm": 2.823251164893761, + "learning_rate": 3.815708115714836e-06, + "loss": 0.4756, + "step": 1252 + }, + { + "epoch": 0.33413333333333334, + "grad_norm": 3.4883252684432438, + "learning_rate": 3.813899268943654e-06, + "loss": 0.4571, + "step": 1253 + }, + { + "epoch": 0.3344, + "grad_norm": 2.9449868016173975, + "learning_rate": 3.8120894713418175e-06, + "loss": 0.4652, + "step": 1254 + }, + { + "epoch": 0.33466666666666667, + "grad_norm": 2.5685712619779832, + "learning_rate": 3.810278724219024e-06, + "loss": 0.4149, + "step": 1255 + }, + { + "epoch": 0.33493333333333336, + "grad_norm": 2.513688978982561, + "learning_rate": 3.8084670288856584e-06, + "loss": 0.4835, + "step": 1256 + }, + { + "epoch": 0.3352, + "grad_norm": 2.56927435998098, + "learning_rate": 3.806654386652793e-06, + "loss": 0.4576, + "step": 1257 + }, + { + "epoch": 0.3354666666666667, + "grad_norm": 2.151884625100315, + "learning_rate": 3.8048407988321823e-06, + "loss": 0.3454, + "step": 1258 + }, + { + "epoch": 0.33573333333333333, + "grad_norm": 2.674721240605397, + "learning_rate": 3.803026266736268e-06, + "loss": 0.4597, + "step": 1259 + }, + { + "epoch": 0.336, + "grad_norm": 2.5262774124674023, + "learning_rate": 3.8012107916781752e-06, + "loss": 0.4377, + "step": 1260 + }, + { + "epoch": 0.33626666666666666, + "grad_norm": 2.518733155865678, + "learning_rate": 3.7993943749717087e-06, + "loss": 0.4203, + "step": 1261 + }, + { + "epoch": 0.33653333333333335, + "grad_norm": 2.1713586145202806, + "learning_rate": 3.7975770179313574e-06, + "loss": 0.3795, + "step": 1262 + }, + { + "epoch": 0.3368, + "grad_norm": 2.5264104404843923, + "learning_rate": 3.795758721872289e-06, + "loss": 0.4334, + "step": 1263 + }, + { + "epoch": 0.3370666666666667, + "grad_norm": 2.6473105767942373, + "learning_rate": 3.7939394881103518e-06, + "loss": 0.462, + "step": 1264 + }, + { + "epoch": 0.3373333333333333, + "grad_norm": 2.8547955610690323, + "learning_rate": 3.792119317962073e-06, + "loss": 0.5094, + "step": 1265 + }, + { + "epoch": 0.3376, + "grad_norm": 2.2604224016250876, + "learning_rate": 3.7902982127446553e-06, + "loss": 0.4216, + "step": 1266 + }, + { + "epoch": 0.33786666666666665, + "grad_norm": 2.691855940071959, + "learning_rate": 3.7884761737759805e-06, + "loss": 0.4603, + "step": 1267 + }, + { + "epoch": 0.33813333333333334, + "grad_norm": 3.00749154699383, + "learning_rate": 3.786653202374605e-06, + "loss": 0.4507, + "step": 1268 + }, + { + "epoch": 0.3384, + "grad_norm": 2.9792846908107937, + "learning_rate": 3.7848292998597603e-06, + "loss": 0.4349, + "step": 1269 + }, + { + "epoch": 0.33866666666666667, + "grad_norm": 2.5841352597652905, + "learning_rate": 3.783004467551351e-06, + "loss": 0.4955, + "step": 1270 + }, + { + "epoch": 0.3389333333333333, + "grad_norm": 2.3901569985363533, + "learning_rate": 3.781178706769955e-06, + "loss": 0.4371, + "step": 1271 + }, + { + "epoch": 0.3392, + "grad_norm": 2.7280236119929544, + "learning_rate": 3.7793520188368236e-06, + "loss": 0.4972, + "step": 1272 + }, + { + "epoch": 0.3394666666666667, + "grad_norm": 2.669647385896261, + "learning_rate": 3.7775244050738767e-06, + "loss": 0.4404, + "step": 1273 + }, + { + "epoch": 0.33973333333333333, + "grad_norm": 2.3939978743471015, + "learning_rate": 3.7756958668037053e-06, + "loss": 0.4254, + "step": 1274 + }, + { + "epoch": 0.34, + "grad_norm": 2.3126619143973963, + "learning_rate": 3.773866405349569e-06, + "loss": 0.4026, + "step": 1275 + }, + { + "epoch": 0.34026666666666666, + "grad_norm": 2.8124769307753485, + "learning_rate": 3.772036022035396e-06, + "loss": 0.5156, + "step": 1276 + }, + { + "epoch": 0.34053333333333335, + "grad_norm": 2.836654125365507, + "learning_rate": 3.7702047181857813e-06, + "loss": 0.4985, + "step": 1277 + }, + { + "epoch": 0.3408, + "grad_norm": 2.3446461425349923, + "learning_rate": 3.768372495125987e-06, + "loss": 0.3941, + "step": 1278 + }, + { + "epoch": 0.3410666666666667, + "grad_norm": 3.007221454384137, + "learning_rate": 3.7665393541819385e-06, + "loss": 0.4936, + "step": 1279 + }, + { + "epoch": 0.3413333333333333, + "grad_norm": 3.386531943611182, + "learning_rate": 3.764705296680228e-06, + "loss": 0.5132, + "step": 1280 + }, + { + "epoch": 0.3416, + "grad_norm": 2.7291212023920806, + "learning_rate": 3.762870323948107e-06, + "loss": 0.4703, + "step": 1281 + }, + { + "epoch": 0.34186666666666665, + "grad_norm": 2.746718991198012, + "learning_rate": 3.7610344373134945e-06, + "loss": 0.4713, + "step": 1282 + }, + { + "epoch": 0.34213333333333334, + "grad_norm": 2.57434956120139, + "learning_rate": 3.7591976381049665e-06, + "loss": 0.4887, + "step": 1283 + }, + { + "epoch": 0.3424, + "grad_norm": 2.4334915494465794, + "learning_rate": 3.7573599276517624e-06, + "loss": 0.4408, + "step": 1284 + }, + { + "epoch": 0.3426666666666667, + "grad_norm": 2.7726592153623915, + "learning_rate": 3.755521307283779e-06, + "loss": 0.4787, + "step": 1285 + }, + { + "epoch": 0.3429333333333333, + "grad_norm": 2.552905592366556, + "learning_rate": 3.7536817783315727e-06, + "loss": 0.4276, + "step": 1286 + }, + { + "epoch": 0.3432, + "grad_norm": 2.324833202289769, + "learning_rate": 3.751841342126356e-06, + "loss": 0.3655, + "step": 1287 + }, + { + "epoch": 0.34346666666666664, + "grad_norm": 3.166201718356058, + "learning_rate": 3.7500000000000005e-06, + "loss": 0.4267, + "step": 1288 + }, + { + "epoch": 0.34373333333333334, + "grad_norm": 2.5210575899116603, + "learning_rate": 3.7481577532850303e-06, + "loss": 0.465, + "step": 1289 + }, + { + "epoch": 0.344, + "grad_norm": 2.846659643929934, + "learning_rate": 3.746314603314628e-06, + "loss": 0.4805, + "step": 1290 + }, + { + "epoch": 0.34426666666666667, + "grad_norm": 2.8461721574290797, + "learning_rate": 3.7444705514226253e-06, + "loss": 0.4555, + "step": 1291 + }, + { + "epoch": 0.34453333333333336, + "grad_norm": 2.5348130840711356, + "learning_rate": 3.7426255989435103e-06, + "loss": 0.4958, + "step": 1292 + }, + { + "epoch": 0.3448, + "grad_norm": 2.414197733333315, + "learning_rate": 3.7407797472124204e-06, + "loss": 0.4234, + "step": 1293 + }, + { + "epoch": 0.3450666666666667, + "grad_norm": 3.324893711919072, + "learning_rate": 3.7389329975651455e-06, + "loss": 0.5236, + "step": 1294 + }, + { + "epoch": 0.3453333333333333, + "grad_norm": 2.424283664165533, + "learning_rate": 3.7370853513381246e-06, + "loss": 0.4283, + "step": 1295 + }, + { + "epoch": 0.3456, + "grad_norm": 2.5147735799372657, + "learning_rate": 3.735236809868445e-06, + "loss": 0.4568, + "step": 1296 + }, + { + "epoch": 0.34586666666666666, + "grad_norm": 2.798721721549117, + "learning_rate": 3.733387374493842e-06, + "loss": 0.4535, + "step": 1297 + }, + { + "epoch": 0.34613333333333335, + "grad_norm": 2.85537599871832, + "learning_rate": 3.731537046552699e-06, + "loss": 0.4755, + "step": 1298 + }, + { + "epoch": 0.3464, + "grad_norm": 2.702212461572441, + "learning_rate": 3.7296858273840443e-06, + "loss": 0.4308, + "step": 1299 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 2.8304005829892, + "learning_rate": 3.7278337183275513e-06, + "loss": 0.485, + "step": 1300 + }, + { + "epoch": 0.3469333333333333, + "grad_norm": 2.415216246040708, + "learning_rate": 3.7259807207235376e-06, + "loss": 0.4018, + "step": 1301 + }, + { + "epoch": 0.3472, + "grad_norm": 2.989675914465056, + "learning_rate": 3.7241268359129635e-06, + "loss": 0.5112, + "step": 1302 + }, + { + "epoch": 0.34746666666666665, + "grad_norm": 2.8362235350561793, + "learning_rate": 3.722272065237431e-06, + "loss": 0.5054, + "step": 1303 + }, + { + "epoch": 0.34773333333333334, + "grad_norm": 2.827496742797946, + "learning_rate": 3.7204164100391833e-06, + "loss": 0.4761, + "step": 1304 + }, + { + "epoch": 0.348, + "grad_norm": 2.6630681888420207, + "learning_rate": 3.7185598716611055e-06, + "loss": 0.4431, + "step": 1305 + }, + { + "epoch": 0.34826666666666667, + "grad_norm": 2.533885772857151, + "learning_rate": 3.7167024514467197e-06, + "loss": 0.4605, + "step": 1306 + }, + { + "epoch": 0.3485333333333333, + "grad_norm": 2.5033062535244985, + "learning_rate": 3.7148441507401855e-06, + "loss": 0.4426, + "step": 1307 + }, + { + "epoch": 0.3488, + "grad_norm": 2.529746370577165, + "learning_rate": 3.7129849708863037e-06, + "loss": 0.4376, + "step": 1308 + }, + { + "epoch": 0.3490666666666667, + "grad_norm": 2.5288408279089682, + "learning_rate": 3.7111249132305073e-06, + "loss": 0.4165, + "step": 1309 + }, + { + "epoch": 0.34933333333333333, + "grad_norm": 2.3921042143991897, + "learning_rate": 3.7092639791188647e-06, + "loss": 0.4165, + "step": 1310 + }, + { + "epoch": 0.3496, + "grad_norm": 2.595165484597625, + "learning_rate": 3.707402169898081e-06, + "loss": 0.4669, + "step": 1311 + }, + { + "epoch": 0.34986666666666666, + "grad_norm": 2.5430128684155116, + "learning_rate": 3.7055394869154938e-06, + "loss": 0.4871, + "step": 1312 + }, + { + "epoch": 0.35013333333333335, + "grad_norm": 2.5786483594918144, + "learning_rate": 3.7036759315190718e-06, + "loss": 0.433, + "step": 1313 + }, + { + "epoch": 0.3504, + "grad_norm": 2.8043229125960556, + "learning_rate": 3.701811505057416e-06, + "loss": 0.484, + "step": 1314 + }, + { + "epoch": 0.3506666666666667, + "grad_norm": 2.82633281378623, + "learning_rate": 3.699946208879757e-06, + "loss": 0.4498, + "step": 1315 + }, + { + "epoch": 0.3509333333333333, + "grad_norm": 2.4481778209385356, + "learning_rate": 3.6980800443359564e-06, + "loss": 0.3857, + "step": 1316 + }, + { + "epoch": 0.3512, + "grad_norm": 2.4234715628425505, + "learning_rate": 3.696213012776502e-06, + "loss": 0.4306, + "step": 1317 + }, + { + "epoch": 0.35146666666666665, + "grad_norm": 2.362637854812359, + "learning_rate": 3.6943451155525113e-06, + "loss": 0.3891, + "step": 1318 + }, + { + "epoch": 0.35173333333333334, + "grad_norm": 3.137146525033618, + "learning_rate": 3.6924763540157266e-06, + "loss": 0.4532, + "step": 1319 + }, + { + "epoch": 0.352, + "grad_norm": 2.5366292556954035, + "learning_rate": 3.6906067295185155e-06, + "loss": 0.4442, + "step": 1320 + }, + { + "epoch": 0.3522666666666667, + "grad_norm": 3.0753720535818405, + "learning_rate": 3.6887362434138724e-06, + "loss": 0.4866, + "step": 1321 + }, + { + "epoch": 0.3525333333333333, + "grad_norm": 2.914171436792103, + "learning_rate": 3.6868648970554127e-06, + "loss": 0.4793, + "step": 1322 + }, + { + "epoch": 0.3528, + "grad_norm": 3.0351136838326163, + "learning_rate": 3.6849926917973754e-06, + "loss": 0.4825, + "step": 1323 + }, + { + "epoch": 0.35306666666666664, + "grad_norm": 2.739305134377012, + "learning_rate": 3.6831196289946212e-06, + "loss": 0.4921, + "step": 1324 + }, + { + "epoch": 0.35333333333333333, + "grad_norm": 2.6980272851107356, + "learning_rate": 3.68124571000263e-06, + "loss": 0.4105, + "step": 1325 + }, + { + "epoch": 0.3536, + "grad_norm": 2.699953372836833, + "learning_rate": 3.679370936177504e-06, + "loss": 0.5074, + "step": 1326 + }, + { + "epoch": 0.35386666666666666, + "grad_norm": 2.5202375595655573, + "learning_rate": 3.6774953088759624e-06, + "loss": 0.4227, + "step": 1327 + }, + { + "epoch": 0.35413333333333336, + "grad_norm": 2.7255142089521422, + "learning_rate": 3.6756188294553404e-06, + "loss": 0.4726, + "step": 1328 + }, + { + "epoch": 0.3544, + "grad_norm": 2.526831073668837, + "learning_rate": 3.6737414992735924e-06, + "loss": 0.4475, + "step": 1329 + }, + { + "epoch": 0.3546666666666667, + "grad_norm": 2.603453740629562, + "learning_rate": 3.6718633196892883e-06, + "loss": 0.443, + "step": 1330 + }, + { + "epoch": 0.3549333333333333, + "grad_norm": 2.4738057933363526, + "learning_rate": 3.6699842920616117e-06, + "loss": 0.4451, + "step": 1331 + }, + { + "epoch": 0.3552, + "grad_norm": 2.9269130482065133, + "learning_rate": 3.66810441775036e-06, + "loss": 0.5119, + "step": 1332 + }, + { + "epoch": 0.35546666666666665, + "grad_norm": 2.8968269291093636, + "learning_rate": 3.666223698115943e-06, + "loss": 0.4737, + "step": 1333 + }, + { + "epoch": 0.35573333333333335, + "grad_norm": 2.734389322751563, + "learning_rate": 3.6643421345193836e-06, + "loss": 0.4458, + "step": 1334 + }, + { + "epoch": 0.356, + "grad_norm": 2.4521875852057784, + "learning_rate": 3.662459728322314e-06, + "loss": 0.4288, + "step": 1335 + }, + { + "epoch": 0.3562666666666667, + "grad_norm": 2.575727013454095, + "learning_rate": 3.660576480886977e-06, + "loss": 0.4215, + "step": 1336 + }, + { + "epoch": 0.3565333333333333, + "grad_norm": 2.2707872441375923, + "learning_rate": 3.6586923935762243e-06, + "loss": 0.3933, + "step": 1337 + }, + { + "epoch": 0.3568, + "grad_norm": 2.4269161864205357, + "learning_rate": 3.656807467753514e-06, + "loss": 0.44, + "step": 1338 + }, + { + "epoch": 0.35706666666666664, + "grad_norm": 2.654030769526947, + "learning_rate": 3.6549217047829137e-06, + "loss": 0.4515, + "step": 1339 + }, + { + "epoch": 0.35733333333333334, + "grad_norm": 2.784954502544535, + "learning_rate": 3.653035106029094e-06, + "loss": 0.4379, + "step": 1340 + }, + { + "epoch": 0.3576, + "grad_norm": 2.2559100441757347, + "learning_rate": 3.6511476728573314e-06, + "loss": 0.3824, + "step": 1341 + }, + { + "epoch": 0.35786666666666667, + "grad_norm": 2.822293708362892, + "learning_rate": 3.6492594066335072e-06, + "loss": 0.4617, + "step": 1342 + }, + { + "epoch": 0.35813333333333336, + "grad_norm": 2.629538282902379, + "learning_rate": 3.6473703087241038e-06, + "loss": 0.4661, + "step": 1343 + }, + { + "epoch": 0.3584, + "grad_norm": 2.6308398264009996, + "learning_rate": 3.6454803804962068e-06, + "loss": 0.4488, + "step": 1344 + }, + { + "epoch": 0.3586666666666667, + "grad_norm": 2.329878977582911, + "learning_rate": 3.643589623317502e-06, + "loss": 0.3998, + "step": 1345 + }, + { + "epoch": 0.3589333333333333, + "grad_norm": 2.8680513699154364, + "learning_rate": 3.6416980385562754e-06, + "loss": 0.4682, + "step": 1346 + }, + { + "epoch": 0.3592, + "grad_norm": 2.6021141573800772, + "learning_rate": 3.6398056275814124e-06, + "loss": 0.4237, + "step": 1347 + }, + { + "epoch": 0.35946666666666666, + "grad_norm": 2.5449681649562503, + "learning_rate": 3.637912391762395e-06, + "loss": 0.4244, + "step": 1348 + }, + { + "epoch": 0.35973333333333335, + "grad_norm": 3.293008309732721, + "learning_rate": 3.6360183324693033e-06, + "loss": 0.5024, + "step": 1349 + }, + { + "epoch": 0.36, + "grad_norm": 2.3564889834534655, + "learning_rate": 3.6341234510728128e-06, + "loss": 0.4254, + "step": 1350 + }, + { + "epoch": 0.3602666666666667, + "grad_norm": 2.2332581734411767, + "learning_rate": 3.6322277489441936e-06, + "loss": 0.3695, + "step": 1351 + }, + { + "epoch": 0.3605333333333333, + "grad_norm": 2.7734649688774446, + "learning_rate": 3.630331227455311e-06, + "loss": 0.4819, + "step": 1352 + }, + { + "epoch": 0.3608, + "grad_norm": 2.327261979447778, + "learning_rate": 3.6284338879786217e-06, + "loss": 0.3976, + "step": 1353 + }, + { + "epoch": 0.36106666666666665, + "grad_norm": 2.479406734303413, + "learning_rate": 3.6265357318871747e-06, + "loss": 0.3994, + "step": 1354 + }, + { + "epoch": 0.36133333333333334, + "grad_norm": 2.8467281924966175, + "learning_rate": 3.6246367605546113e-06, + "loss": 0.4416, + "step": 1355 + }, + { + "epoch": 0.3616, + "grad_norm": 2.9331466676214797, + "learning_rate": 3.622736975355161e-06, + "loss": 0.5071, + "step": 1356 + }, + { + "epoch": 0.36186666666666667, + "grad_norm": 2.8241228698788947, + "learning_rate": 3.6208363776636434e-06, + "loss": 0.5071, + "step": 1357 + }, + { + "epoch": 0.3621333333333333, + "grad_norm": 2.7284629970403325, + "learning_rate": 3.6189349688554664e-06, + "loss": 0.4752, + "step": 1358 + }, + { + "epoch": 0.3624, + "grad_norm": 2.596230316641941, + "learning_rate": 3.617032750306623e-06, + "loss": 0.4488, + "step": 1359 + }, + { + "epoch": 0.3626666666666667, + "grad_norm": 2.380485651451292, + "learning_rate": 3.615129723393694e-06, + "loss": 0.4089, + "step": 1360 + }, + { + "epoch": 0.36293333333333333, + "grad_norm": 2.5405841092284525, + "learning_rate": 3.6132258894938437e-06, + "loss": 0.4176, + "step": 1361 + }, + { + "epoch": 0.3632, + "grad_norm": 2.502241160995714, + "learning_rate": 3.6113212499848227e-06, + "loss": 0.4436, + "step": 1362 + }, + { + "epoch": 0.36346666666666666, + "grad_norm": 2.491618238134783, + "learning_rate": 3.6094158062449624e-06, + "loss": 0.4208, + "step": 1363 + }, + { + "epoch": 0.36373333333333335, + "grad_norm": 2.6396404422706112, + "learning_rate": 3.6075095596531774e-06, + "loss": 0.496, + "step": 1364 + }, + { + "epoch": 0.364, + "grad_norm": 2.7312132338914448, + "learning_rate": 3.605602511588962e-06, + "loss": 0.4891, + "step": 1365 + }, + { + "epoch": 0.3642666666666667, + "grad_norm": 2.3546888333403304, + "learning_rate": 3.603694663432392e-06, + "loss": 0.4256, + "step": 1366 + }, + { + "epoch": 0.3645333333333333, + "grad_norm": 2.47871889161767, + "learning_rate": 3.6017860165641215e-06, + "loss": 0.4287, + "step": 1367 + }, + { + "epoch": 0.3648, + "grad_norm": 2.829922729179905, + "learning_rate": 3.5998765723653827e-06, + "loss": 0.4748, + "step": 1368 + }, + { + "epoch": 0.36506666666666665, + "grad_norm": 2.6065761399910885, + "learning_rate": 3.597966332217985e-06, + "loss": 0.4462, + "step": 1369 + }, + { + "epoch": 0.36533333333333334, + "grad_norm": 3.4137302540533176, + "learning_rate": 3.5960552975043134e-06, + "loss": 0.4908, + "step": 1370 + }, + { + "epoch": 0.3656, + "grad_norm": 3.2027639001147263, + "learning_rate": 3.5941434696073278e-06, + "loss": 0.4594, + "step": 1371 + }, + { + "epoch": 0.3658666666666667, + "grad_norm": 2.6665666235862497, + "learning_rate": 3.592230849910563e-06, + "loss": 0.4327, + "step": 1372 + }, + { + "epoch": 0.3661333333333333, + "grad_norm": 2.6010543999286058, + "learning_rate": 3.5903174397981257e-06, + "loss": 0.4814, + "step": 1373 + }, + { + "epoch": 0.3664, + "grad_norm": 3.271661404537188, + "learning_rate": 3.5884032406546943e-06, + "loss": 0.5119, + "step": 1374 + }, + { + "epoch": 0.36666666666666664, + "grad_norm": 3.075985973127879, + "learning_rate": 3.586488253865521e-06, + "loss": 0.4628, + "step": 1375 + }, + { + "epoch": 0.36693333333333333, + "grad_norm": 2.6976575792211595, + "learning_rate": 3.5845724808164246e-06, + "loss": 0.5272, + "step": 1376 + }, + { + "epoch": 0.3672, + "grad_norm": 2.5671716885494167, + "learning_rate": 3.5826559228937943e-06, + "loss": 0.4163, + "step": 1377 + }, + { + "epoch": 0.36746666666666666, + "grad_norm": 2.3978250892659316, + "learning_rate": 3.580738581484588e-06, + "loss": 0.3949, + "step": 1378 + }, + { + "epoch": 0.36773333333333336, + "grad_norm": 2.5739702428591675, + "learning_rate": 3.57882045797633e-06, + "loss": 0.4332, + "step": 1379 + }, + { + "epoch": 0.368, + "grad_norm": 2.5048703861654404, + "learning_rate": 3.576901553757109e-06, + "loss": 0.402, + "step": 1380 + }, + { + "epoch": 0.3682666666666667, + "grad_norm": 2.361856121063737, + "learning_rate": 3.5749818702155815e-06, + "loss": 0.3908, + "step": 1381 + }, + { + "epoch": 0.3685333333333333, + "grad_norm": 2.83016236644003, + "learning_rate": 3.5730614087409653e-06, + "loss": 0.4703, + "step": 1382 + }, + { + "epoch": 0.3688, + "grad_norm": 2.367249606717703, + "learning_rate": 3.571140170723045e-06, + "loss": 0.3933, + "step": 1383 + }, + { + "epoch": 0.36906666666666665, + "grad_norm": 2.7031549731453524, + "learning_rate": 3.569218157552162e-06, + "loss": 0.4707, + "step": 1384 + }, + { + "epoch": 0.36933333333333335, + "grad_norm": 3.146865966938581, + "learning_rate": 3.5672953706192214e-06, + "loss": 0.471, + "step": 1385 + }, + { + "epoch": 0.3696, + "grad_norm": 2.7585827299640404, + "learning_rate": 3.5653718113156897e-06, + "loss": 0.4564, + "step": 1386 + }, + { + "epoch": 0.3698666666666667, + "grad_norm": 2.6383828411024717, + "learning_rate": 3.56344748103359e-06, + "loss": 0.4901, + "step": 1387 + }, + { + "epoch": 0.3701333333333333, + "grad_norm": 3.0281314413426617, + "learning_rate": 3.561522381165504e-06, + "loss": 0.4909, + "step": 1388 + }, + { + "epoch": 0.3704, + "grad_norm": 2.9197490431100985, + "learning_rate": 3.559596513104571e-06, + "loss": 0.4777, + "step": 1389 + }, + { + "epoch": 0.37066666666666664, + "grad_norm": 3.012437268040904, + "learning_rate": 3.557669878244485e-06, + "loss": 0.494, + "step": 1390 + }, + { + "epoch": 0.37093333333333334, + "grad_norm": 2.7161208882347556, + "learning_rate": 3.5557424779794965e-06, + "loss": 0.4527, + "step": 1391 + }, + { + "epoch": 0.3712, + "grad_norm": 2.4736041146363035, + "learning_rate": 3.553814313704407e-06, + "loss": 0.4215, + "step": 1392 + }, + { + "epoch": 0.37146666666666667, + "grad_norm": 2.608956964709874, + "learning_rate": 3.5518853868145746e-06, + "loss": 0.4283, + "step": 1393 + }, + { + "epoch": 0.37173333333333336, + "grad_norm": 2.4754402082307005, + "learning_rate": 3.5499556987059074e-06, + "loss": 0.4395, + "step": 1394 + }, + { + "epoch": 0.372, + "grad_norm": 2.4631870738840225, + "learning_rate": 3.5480252507748637e-06, + "loss": 0.4571, + "step": 1395 + }, + { + "epoch": 0.3722666666666667, + "grad_norm": 2.411205657714835, + "learning_rate": 3.546094044418453e-06, + "loss": 0.3872, + "step": 1396 + }, + { + "epoch": 0.3725333333333333, + "grad_norm": 2.5245177969415176, + "learning_rate": 3.5441620810342335e-06, + "loss": 0.4083, + "step": 1397 + }, + { + "epoch": 0.3728, + "grad_norm": 2.758354713212143, + "learning_rate": 3.5422293620203107e-06, + "loss": 0.4324, + "step": 1398 + }, + { + "epoch": 0.37306666666666666, + "grad_norm": 2.513953225354811, + "learning_rate": 3.5402958887753364e-06, + "loss": 0.4203, + "step": 1399 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 2.641106857703644, + "learning_rate": 3.538361662698509e-06, + "loss": 0.4461, + "step": 1400 + }, + { + "epoch": 0.3736, + "grad_norm": 2.4599537258682482, + "learning_rate": 3.536426685189572e-06, + "loss": 0.474, + "step": 1401 + }, + { + "epoch": 0.3738666666666667, + "grad_norm": 2.637674235326629, + "learning_rate": 3.5344909576488127e-06, + "loss": 0.481, + "step": 1402 + }, + { + "epoch": 0.3741333333333333, + "grad_norm": 2.493112204231424, + "learning_rate": 3.5325544814770598e-06, + "loss": 0.4053, + "step": 1403 + }, + { + "epoch": 0.3744, + "grad_norm": 2.7798286019864396, + "learning_rate": 3.530617258075686e-06, + "loss": 0.5397, + "step": 1404 + }, + { + "epoch": 0.37466666666666665, + "grad_norm": 2.6118017684059036, + "learning_rate": 3.5286792888466014e-06, + "loss": 0.4347, + "step": 1405 + }, + { + "epoch": 0.37493333333333334, + "grad_norm": 2.737261213886995, + "learning_rate": 3.5267405751922608e-06, + "loss": 0.4774, + "step": 1406 + }, + { + "epoch": 0.3752, + "grad_norm": 2.7056123293888397, + "learning_rate": 3.5248011185156526e-06, + "loss": 0.4553, + "step": 1407 + }, + { + "epoch": 0.37546666666666667, + "grad_norm": 2.5660360105677444, + "learning_rate": 3.5228609202203055e-06, + "loss": 0.4057, + "step": 1408 + }, + { + "epoch": 0.3757333333333333, + "grad_norm": 2.579921417361547, + "learning_rate": 3.520919981710286e-06, + "loss": 0.5002, + "step": 1409 + }, + { + "epoch": 0.376, + "grad_norm": 2.720008907915331, + "learning_rate": 3.5189783043901927e-06, + "loss": 0.3989, + "step": 1410 + }, + { + "epoch": 0.3762666666666667, + "grad_norm": 2.66892099093688, + "learning_rate": 3.517035889665162e-06, + "loss": 0.4197, + "step": 1411 + }, + { + "epoch": 0.37653333333333333, + "grad_norm": 2.335407593120922, + "learning_rate": 3.5150927389408627e-06, + "loss": 0.4152, + "step": 1412 + }, + { + "epoch": 0.3768, + "grad_norm": 2.3719364859367276, + "learning_rate": 3.513148853623497e-06, + "loss": 0.41, + "step": 1413 + }, + { + "epoch": 0.37706666666666666, + "grad_norm": 2.627667507083967, + "learning_rate": 3.5112042351197973e-06, + "loss": 0.386, + "step": 1414 + }, + { + "epoch": 0.37733333333333335, + "grad_norm": 2.5224231455335837, + "learning_rate": 3.5092588848370277e-06, + "loss": 0.4296, + "step": 1415 + }, + { + "epoch": 0.3776, + "grad_norm": 2.6528558017836628, + "learning_rate": 3.5073128041829817e-06, + "loss": 0.4602, + "step": 1416 + }, + { + "epoch": 0.3778666666666667, + "grad_norm": 2.587804860443273, + "learning_rate": 3.505365994565981e-06, + "loss": 0.435, + "step": 1417 + }, + { + "epoch": 0.3781333333333333, + "grad_norm": 2.6329772702885363, + "learning_rate": 3.503418457394876e-06, + "loss": 0.4452, + "step": 1418 + }, + { + "epoch": 0.3784, + "grad_norm": 2.6181222143780785, + "learning_rate": 3.5014701940790417e-06, + "loss": 0.5244, + "step": 1419 + }, + { + "epoch": 0.37866666666666665, + "grad_norm": 2.7357700593067, + "learning_rate": 3.4995212060283796e-06, + "loss": 0.4368, + "step": 1420 + }, + { + "epoch": 0.37893333333333334, + "grad_norm": 2.5195471470700217, + "learning_rate": 3.4975714946533147e-06, + "loss": 0.4576, + "step": 1421 + }, + { + "epoch": 0.3792, + "grad_norm": 2.6974037839256035, + "learning_rate": 3.4956210613647986e-06, + "loss": 0.4547, + "step": 1422 + }, + { + "epoch": 0.3794666666666667, + "grad_norm": 2.6669381288434773, + "learning_rate": 3.493669907574301e-06, + "loss": 0.4611, + "step": 1423 + }, + { + "epoch": 0.3797333333333333, + "grad_norm": 2.9844836197853715, + "learning_rate": 3.491718034693817e-06, + "loss": 0.5497, + "step": 1424 + }, + { + "epoch": 0.38, + "grad_norm": 2.7296433016769717, + "learning_rate": 3.4897654441358586e-06, + "loss": 0.4666, + "step": 1425 + }, + { + "epoch": 0.38026666666666664, + "grad_norm": 2.3678962202433294, + "learning_rate": 3.4878121373134595e-06, + "loss": 0.4617, + "step": 1426 + }, + { + "epoch": 0.38053333333333333, + "grad_norm": 2.76578748300155, + "learning_rate": 3.4858581156401707e-06, + "loss": 0.4863, + "step": 1427 + }, + { + "epoch": 0.3808, + "grad_norm": 2.289833144294391, + "learning_rate": 3.4839033805300603e-06, + "loss": 0.3969, + "step": 1428 + }, + { + "epoch": 0.38106666666666666, + "grad_norm": 2.387922921721708, + "learning_rate": 3.4819479333977148e-06, + "loss": 0.4095, + "step": 1429 + }, + { + "epoch": 0.38133333333333336, + "grad_norm": 2.6577426224871403, + "learning_rate": 3.4799917756582336e-06, + "loss": 0.4295, + "step": 1430 + }, + { + "epoch": 0.3816, + "grad_norm": 2.367770871957336, + "learning_rate": 3.47803490872723e-06, + "loss": 0.4041, + "step": 1431 + }, + { + "epoch": 0.3818666666666667, + "grad_norm": 2.8884011922996784, + "learning_rate": 3.476077334020833e-06, + "loss": 0.4008, + "step": 1432 + }, + { + "epoch": 0.3821333333333333, + "grad_norm": 2.2935558422306555, + "learning_rate": 3.474119052955682e-06, + "loss": 0.4373, + "step": 1433 + }, + { + "epoch": 0.3824, + "grad_norm": 2.4821510919732432, + "learning_rate": 3.4721600669489274e-06, + "loss": 0.4052, + "step": 1434 + }, + { + "epoch": 0.38266666666666665, + "grad_norm": 2.3178164697426618, + "learning_rate": 3.4702003774182312e-06, + "loss": 0.4255, + "step": 1435 + }, + { + "epoch": 0.38293333333333335, + "grad_norm": 2.5225599521661666, + "learning_rate": 3.4682399857817637e-06, + "loss": 0.4466, + "step": 1436 + }, + { + "epoch": 0.3832, + "grad_norm": 2.754800982816514, + "learning_rate": 3.4662788934582035e-06, + "loss": 0.4334, + "step": 1437 + }, + { + "epoch": 0.3834666666666667, + "grad_norm": 2.4911201615005347, + "learning_rate": 3.464317101866735e-06, + "loss": 0.455, + "step": 1438 + }, + { + "epoch": 0.3837333333333333, + "grad_norm": 2.381913509357003, + "learning_rate": 3.4623546124270496e-06, + "loss": 0.4219, + "step": 1439 + }, + { + "epoch": 0.384, + "grad_norm": 2.298335632634612, + "learning_rate": 3.4603914265593445e-06, + "loss": 0.3851, + "step": 1440 + }, + { + "epoch": 0.38426666666666665, + "grad_norm": 2.6237387208179856, + "learning_rate": 3.45842754568432e-06, + "loss": 0.4122, + "step": 1441 + }, + { + "epoch": 0.38453333333333334, + "grad_norm": 2.8098147506934286, + "learning_rate": 3.45646297122318e-06, + "loss": 0.4883, + "step": 1442 + }, + { + "epoch": 0.3848, + "grad_norm": 3.1109861995674954, + "learning_rate": 3.454497704597629e-06, + "loss": 0.4784, + "step": 1443 + }, + { + "epoch": 0.38506666666666667, + "grad_norm": 2.7815164716432896, + "learning_rate": 3.4525317472298738e-06, + "loss": 0.4777, + "step": 1444 + }, + { + "epoch": 0.38533333333333336, + "grad_norm": 2.619765582259379, + "learning_rate": 3.4505651005426204e-06, + "loss": 0.4076, + "step": 1445 + }, + { + "epoch": 0.3856, + "grad_norm": 2.8768616090001116, + "learning_rate": 3.448597765959074e-06, + "loss": 0.4868, + "step": 1446 + }, + { + "epoch": 0.3858666666666667, + "grad_norm": 2.3793478763195246, + "learning_rate": 3.4466297449029368e-06, + "loss": 0.4097, + "step": 1447 + }, + { + "epoch": 0.38613333333333333, + "grad_norm": 2.469002068743136, + "learning_rate": 3.4446610387984087e-06, + "loss": 0.4216, + "step": 1448 + }, + { + "epoch": 0.3864, + "grad_norm": 2.8681714206864584, + "learning_rate": 3.4426916490701845e-06, + "loss": 0.4494, + "step": 1449 + }, + { + "epoch": 0.38666666666666666, + "grad_norm": 2.5190911077800737, + "learning_rate": 3.440721577143455e-06, + "loss": 0.4194, + "step": 1450 + }, + { + "epoch": 0.38693333333333335, + "grad_norm": 2.5715251603324933, + "learning_rate": 3.438750824443904e-06, + "loss": 0.4629, + "step": 1451 + }, + { + "epoch": 0.3872, + "grad_norm": 2.4291107496349102, + "learning_rate": 3.436779392397706e-06, + "loss": 0.3941, + "step": 1452 + }, + { + "epoch": 0.3874666666666667, + "grad_norm": 2.3638360503714013, + "learning_rate": 3.4348072824315316e-06, + "loss": 0.4433, + "step": 1453 + }, + { + "epoch": 0.3877333333333333, + "grad_norm": 2.607175827947854, + "learning_rate": 3.432834495972538e-06, + "loss": 0.4405, + "step": 1454 + }, + { + "epoch": 0.388, + "grad_norm": 2.583302610693969, + "learning_rate": 3.430861034448374e-06, + "loss": 0.4135, + "step": 1455 + }, + { + "epoch": 0.38826666666666665, + "grad_norm": 2.844043161063342, + "learning_rate": 3.428886899287175e-06, + "loss": 0.4371, + "step": 1456 + }, + { + "epoch": 0.38853333333333334, + "grad_norm": 2.5290887671276705, + "learning_rate": 3.426912091917566e-06, + "loss": 0.4289, + "step": 1457 + }, + { + "epoch": 0.3888, + "grad_norm": 2.519225582877022, + "learning_rate": 3.424936613768658e-06, + "loss": 0.4072, + "step": 1458 + }, + { + "epoch": 0.38906666666666667, + "grad_norm": 2.8834924087293663, + "learning_rate": 3.4229604662700456e-06, + "loss": 0.4867, + "step": 1459 + }, + { + "epoch": 0.3893333333333333, + "grad_norm": 2.678591249421516, + "learning_rate": 3.420983650851811e-06, + "loss": 0.4669, + "step": 1460 + }, + { + "epoch": 0.3896, + "grad_norm": 2.6811789402124977, + "learning_rate": 3.419006168944517e-06, + "loss": 0.4498, + "step": 1461 + }, + { + "epoch": 0.38986666666666664, + "grad_norm": 2.6086324564901973, + "learning_rate": 3.4170280219792094e-06, + "loss": 0.4241, + "step": 1462 + }, + { + "epoch": 0.39013333333333333, + "grad_norm": 2.618472614061367, + "learning_rate": 3.4150492113874166e-06, + "loss": 0.4371, + "step": 1463 + }, + { + "epoch": 0.3904, + "grad_norm": 2.4442726383633278, + "learning_rate": 3.4130697386011457e-06, + "loss": 0.4462, + "step": 1464 + }, + { + "epoch": 0.39066666666666666, + "grad_norm": 2.7516670314622345, + "learning_rate": 3.4110896050528842e-06, + "loss": 0.4387, + "step": 1465 + }, + { + "epoch": 0.39093333333333335, + "grad_norm": 2.6517998196771715, + "learning_rate": 3.4091088121755953e-06, + "loss": 0.4872, + "step": 1466 + }, + { + "epoch": 0.3912, + "grad_norm": 2.723431255743995, + "learning_rate": 3.4071273614027222e-06, + "loss": 0.4882, + "step": 1467 + }, + { + "epoch": 0.3914666666666667, + "grad_norm": 2.4699856635323005, + "learning_rate": 3.405145254168184e-06, + "loss": 0.4161, + "step": 1468 + }, + { + "epoch": 0.3917333333333333, + "grad_norm": 3.24154824978469, + "learning_rate": 3.4031624919063726e-06, + "loss": 0.4374, + "step": 1469 + }, + { + "epoch": 0.392, + "grad_norm": 2.712849424875945, + "learning_rate": 3.4011790760521557e-06, + "loss": 0.4478, + "step": 1470 + }, + { + "epoch": 0.39226666666666665, + "grad_norm": 2.641327352826032, + "learning_rate": 3.399195008040874e-06, + "loss": 0.4814, + "step": 1471 + }, + { + "epoch": 0.39253333333333335, + "grad_norm": 2.8225048728846116, + "learning_rate": 3.3972102893083397e-06, + "loss": 0.5042, + "step": 1472 + }, + { + "epoch": 0.3928, + "grad_norm": 2.7595867188998566, + "learning_rate": 3.395224921290836e-06, + "loss": 0.4171, + "step": 1473 + }, + { + "epoch": 0.3930666666666667, + "grad_norm": 2.674327982685374, + "learning_rate": 3.3932389054251165e-06, + "loss": 0.4611, + "step": 1474 + }, + { + "epoch": 0.3933333333333333, + "grad_norm": 3.0091727124772665, + "learning_rate": 3.391252243148402e-06, + "loss": 0.5041, + "step": 1475 + }, + { + "epoch": 0.3936, + "grad_norm": 2.402360740401708, + "learning_rate": 3.389264935898382e-06, + "loss": 0.4024, + "step": 1476 + }, + { + "epoch": 0.39386666666666664, + "grad_norm": 2.427641778099154, + "learning_rate": 3.3872769851132144e-06, + "loss": 0.4046, + "step": 1477 + }, + { + "epoch": 0.39413333333333334, + "grad_norm": 2.666903270223506, + "learning_rate": 3.3852883922315193e-06, + "loss": 0.4633, + "step": 1478 + }, + { + "epoch": 0.3944, + "grad_norm": 2.606960071500337, + "learning_rate": 3.383299158692385e-06, + "loss": 0.3915, + "step": 1479 + }, + { + "epoch": 0.39466666666666667, + "grad_norm": 2.572035383146906, + "learning_rate": 3.3813092859353614e-06, + "loss": 0.5025, + "step": 1480 + }, + { + "epoch": 0.39493333333333336, + "grad_norm": 3.297652867215331, + "learning_rate": 3.379318775400462e-06, + "loss": 0.4737, + "step": 1481 + }, + { + "epoch": 0.3952, + "grad_norm": 2.6672749109813263, + "learning_rate": 3.3773276285281607e-06, + "loss": 0.4284, + "step": 1482 + }, + { + "epoch": 0.3954666666666667, + "grad_norm": 2.6489767551364225, + "learning_rate": 3.375335846759392e-06, + "loss": 0.5081, + "step": 1483 + }, + { + "epoch": 0.3957333333333333, + "grad_norm": 3.272056252068883, + "learning_rate": 3.3733434315355527e-06, + "loss": 0.475, + "step": 1484 + }, + { + "epoch": 0.396, + "grad_norm": 2.6048366041127524, + "learning_rate": 3.3713503842984928e-06, + "loss": 0.4365, + "step": 1485 + }, + { + "epoch": 0.39626666666666666, + "grad_norm": 2.93112236359776, + "learning_rate": 3.3693567064905246e-06, + "loss": 0.4633, + "step": 1486 + }, + { + "epoch": 0.39653333333333335, + "grad_norm": 2.512701477864529, + "learning_rate": 3.367362399554414e-06, + "loss": 0.4011, + "step": 1487 + }, + { + "epoch": 0.3968, + "grad_norm": 2.3418046133106873, + "learning_rate": 3.365367464933382e-06, + "loss": 0.3985, + "step": 1488 + }, + { + "epoch": 0.3970666666666667, + "grad_norm": 2.7802217163731355, + "learning_rate": 3.3633719040711067e-06, + "loss": 0.4278, + "step": 1489 + }, + { + "epoch": 0.3973333333333333, + "grad_norm": 2.4726265886867242, + "learning_rate": 3.3613757184117155e-06, + "loss": 0.392, + "step": 1490 + }, + { + "epoch": 0.3976, + "grad_norm": 3.0282352765593155, + "learning_rate": 3.3593789093997907e-06, + "loss": 0.4806, + "step": 1491 + }, + { + "epoch": 0.39786666666666665, + "grad_norm": 2.372576617203466, + "learning_rate": 3.3573814784803653e-06, + "loss": 0.3904, + "step": 1492 + }, + { + "epoch": 0.39813333333333334, + "grad_norm": 2.582586047245702, + "learning_rate": 3.355383427098922e-06, + "loss": 0.4253, + "step": 1493 + }, + { + "epoch": 0.3984, + "grad_norm": 2.688676580579434, + "learning_rate": 3.3533847567013904e-06, + "loss": 0.4568, + "step": 1494 + }, + { + "epoch": 0.39866666666666667, + "grad_norm": 2.660509697347236, + "learning_rate": 3.3513854687341523e-06, + "loss": 0.4554, + "step": 1495 + }, + { + "epoch": 0.3989333333333333, + "grad_norm": 2.8944873252260317, + "learning_rate": 3.3493855646440332e-06, + "loss": 0.4858, + "step": 1496 + }, + { + "epoch": 0.3992, + "grad_norm": 2.5866637032672037, + "learning_rate": 3.347385045878306e-06, + "loss": 0.4667, + "step": 1497 + }, + { + "epoch": 0.3994666666666667, + "grad_norm": 2.614082943966185, + "learning_rate": 3.3453839138846867e-06, + "loss": 0.4225, + "step": 1498 + }, + { + "epoch": 0.39973333333333333, + "grad_norm": 2.8852771304979714, + "learning_rate": 3.343382170111338e-06, + "loss": 0.4759, + "step": 1499 + }, + { + "epoch": 0.4, + "grad_norm": 2.36045671160398, + "learning_rate": 3.3413798160068634e-06, + "loss": 0.4038, + "step": 1500 + }, + { + "epoch": 0.40026666666666666, + "grad_norm": 2.667771245012628, + "learning_rate": 3.3393768530203063e-06, + "loss": 0.4423, + "step": 1501 + }, + { + "epoch": 0.40053333333333335, + "grad_norm": 3.8573288696663646, + "learning_rate": 3.3373732826011544e-06, + "loss": 0.5436, + "step": 1502 + }, + { + "epoch": 0.4008, + "grad_norm": 2.72737264729065, + "learning_rate": 3.3353691061993338e-06, + "loss": 0.4714, + "step": 1503 + }, + { + "epoch": 0.4010666666666667, + "grad_norm": 2.5707329083972352, + "learning_rate": 3.333364325265207e-06, + "loss": 0.4093, + "step": 1504 + }, + { + "epoch": 0.4013333333333333, + "grad_norm": 2.454749032334057, + "learning_rate": 3.3313589412495766e-06, + "loss": 0.4057, + "step": 1505 + }, + { + "epoch": 0.4016, + "grad_norm": 2.84556535822889, + "learning_rate": 3.3293529556036803e-06, + "loss": 0.4744, + "step": 1506 + }, + { + "epoch": 0.40186666666666665, + "grad_norm": 2.6236790295459884, + "learning_rate": 3.327346369779192e-06, + "loss": 0.4333, + "step": 1507 + }, + { + "epoch": 0.40213333333333334, + "grad_norm": 2.5013210027952626, + "learning_rate": 3.325339185228219e-06, + "loss": 0.4101, + "step": 1508 + }, + { + "epoch": 0.4024, + "grad_norm": 2.400135544659051, + "learning_rate": 3.3233314034033017e-06, + "loss": 0.3816, + "step": 1509 + }, + { + "epoch": 0.4026666666666667, + "grad_norm": 2.677002493062623, + "learning_rate": 3.3213230257574146e-06, + "loss": 0.453, + "step": 1510 + }, + { + "epoch": 0.4029333333333333, + "grad_norm": 2.5654451996980803, + "learning_rate": 3.3193140537439615e-06, + "loss": 0.43, + "step": 1511 + }, + { + "epoch": 0.4032, + "grad_norm": 2.4553435781275343, + "learning_rate": 3.3173044888167775e-06, + "loss": 0.3867, + "step": 1512 + }, + { + "epoch": 0.40346666666666664, + "grad_norm": 2.441248167090679, + "learning_rate": 3.3152943324301255e-06, + "loss": 0.4411, + "step": 1513 + }, + { + "epoch": 0.40373333333333333, + "grad_norm": 2.4609788032909665, + "learning_rate": 3.313283586038698e-06, + "loss": 0.3801, + "step": 1514 + }, + { + "epoch": 0.404, + "grad_norm": 2.607838070843609, + "learning_rate": 3.311272251097613e-06, + "loss": 0.448, + "step": 1515 + }, + { + "epoch": 0.40426666666666666, + "grad_norm": 2.6163700467025133, + "learning_rate": 3.3092603290624147e-06, + "loss": 0.3686, + "step": 1516 + }, + { + "epoch": 0.40453333333333336, + "grad_norm": 2.6828111127031327, + "learning_rate": 3.3072478213890736e-06, + "loss": 0.4511, + "step": 1517 + }, + { + "epoch": 0.4048, + "grad_norm": 2.958033044789719, + "learning_rate": 3.3052347295339817e-06, + "loss": 0.4371, + "step": 1518 + }, + { + "epoch": 0.4050666666666667, + "grad_norm": 2.8483418234776927, + "learning_rate": 3.3032210549539555e-06, + "loss": 0.4131, + "step": 1519 + }, + { + "epoch": 0.4053333333333333, + "grad_norm": 2.863951486088617, + "learning_rate": 3.3012067991062336e-06, + "loss": 0.4709, + "step": 1520 + }, + { + "epoch": 0.4056, + "grad_norm": 2.5270112303994647, + "learning_rate": 3.2991919634484725e-06, + "loss": 0.4384, + "step": 1521 + }, + { + "epoch": 0.40586666666666665, + "grad_norm": 2.5692854637391873, + "learning_rate": 3.297176549438752e-06, + "loss": 0.449, + "step": 1522 + }, + { + "epoch": 0.40613333333333335, + "grad_norm": 2.564949546572077, + "learning_rate": 3.295160558535567e-06, + "loss": 0.4175, + "step": 1523 + }, + { + "epoch": 0.4064, + "grad_norm": 2.7772282464518585, + "learning_rate": 3.2931439921978324e-06, + "loss": 0.4721, + "step": 1524 + }, + { + "epoch": 0.4066666666666667, + "grad_norm": 2.4094813834392728, + "learning_rate": 3.291126851884878e-06, + "loss": 0.4534, + "step": 1525 + }, + { + "epoch": 0.4069333333333333, + "grad_norm": 2.6919205031232925, + "learning_rate": 3.2891091390564507e-06, + "loss": 0.4273, + "step": 1526 + }, + { + "epoch": 0.4072, + "grad_norm": 2.426929966253551, + "learning_rate": 3.287090855172708e-06, + "loss": 0.3917, + "step": 1527 + }, + { + "epoch": 0.40746666666666664, + "grad_norm": 2.983143489549833, + "learning_rate": 3.285072001694226e-06, + "loss": 0.5514, + "step": 1528 + }, + { + "epoch": 0.40773333333333334, + "grad_norm": 2.521632409773071, + "learning_rate": 3.2830525800819884e-06, + "loss": 0.4437, + "step": 1529 + }, + { + "epoch": 0.408, + "grad_norm": 2.592347350972955, + "learning_rate": 3.2810325917973928e-06, + "loss": 0.4467, + "step": 1530 + }, + { + "epoch": 0.40826666666666667, + "grad_norm": 2.8649431237635015, + "learning_rate": 3.279012038302246e-06, + "loss": 0.453, + "step": 1531 + }, + { + "epoch": 0.40853333333333336, + "grad_norm": 2.7835098863474066, + "learning_rate": 3.276990921058763e-06, + "loss": 0.4704, + "step": 1532 + }, + { + "epoch": 0.4088, + "grad_norm": 2.5275891035872964, + "learning_rate": 3.274969241529568e-06, + "loss": 0.4421, + "step": 1533 + }, + { + "epoch": 0.4090666666666667, + "grad_norm": 2.9063186820262263, + "learning_rate": 3.2729470011776907e-06, + "loss": 0.5049, + "step": 1534 + }, + { + "epoch": 0.4093333333333333, + "grad_norm": 2.6084021383235854, + "learning_rate": 3.270924201466569e-06, + "loss": 0.4365, + "step": 1535 + }, + { + "epoch": 0.4096, + "grad_norm": 2.525845265864839, + "learning_rate": 3.2689008438600433e-06, + "loss": 0.48, + "step": 1536 + }, + { + "epoch": 0.40986666666666666, + "grad_norm": 2.590156878337708, + "learning_rate": 3.2668769298223585e-06, + "loss": 0.4986, + "step": 1537 + }, + { + "epoch": 0.41013333333333335, + "grad_norm": 2.4615003666776234, + "learning_rate": 3.2648524608181633e-06, + "loss": 0.451, + "step": 1538 + }, + { + "epoch": 0.4104, + "grad_norm": 2.463463189421485, + "learning_rate": 3.2628274383125057e-06, + "loss": 0.4176, + "step": 1539 + }, + { + "epoch": 0.4106666666666667, + "grad_norm": 2.820557989070664, + "learning_rate": 3.2608018637708363e-06, + "loss": 0.451, + "step": 1540 + }, + { + "epoch": 0.4109333333333333, + "grad_norm": 2.518378516209259, + "learning_rate": 3.2587757386590042e-06, + "loss": 0.4415, + "step": 1541 + }, + { + "epoch": 0.4112, + "grad_norm": 2.8009063119730144, + "learning_rate": 3.2567490644432576e-06, + "loss": 0.47, + "step": 1542 + }, + { + "epoch": 0.41146666666666665, + "grad_norm": 2.512257185031241, + "learning_rate": 3.254721842590241e-06, + "loss": 0.4315, + "step": 1543 + }, + { + "epoch": 0.41173333333333334, + "grad_norm": 2.249945411777092, + "learning_rate": 3.252694074566996e-06, + "loss": 0.3915, + "step": 1544 + }, + { + "epoch": 0.412, + "grad_norm": 2.4203770145385457, + "learning_rate": 3.250665761840959e-06, + "loss": 0.4428, + "step": 1545 + }, + { + "epoch": 0.41226666666666667, + "grad_norm": 2.8843020460660322, + "learning_rate": 3.2486369058799623e-06, + "loss": 0.4633, + "step": 1546 + }, + { + "epoch": 0.4125333333333333, + "grad_norm": 2.4655544022043245, + "learning_rate": 3.2466075081522276e-06, + "loss": 0.4116, + "step": 1547 + }, + { + "epoch": 0.4128, + "grad_norm": 2.629343699586044, + "learning_rate": 3.244577570126373e-06, + "loss": 0.4361, + "step": 1548 + }, + { + "epoch": 0.4130666666666667, + "grad_norm": 2.516602544116514, + "learning_rate": 3.242547093271405e-06, + "loss": 0.4088, + "step": 1549 + }, + { + "epoch": 0.41333333333333333, + "grad_norm": 2.443714252706866, + "learning_rate": 3.2405160790567204e-06, + "loss": 0.3823, + "step": 1550 + }, + { + "epoch": 0.4136, + "grad_norm": 3.0201858070488106, + "learning_rate": 3.2384845289521046e-06, + "loss": 0.5342, + "step": 1551 + }, + { + "epoch": 0.41386666666666666, + "grad_norm": 2.8841587377264606, + "learning_rate": 3.236452444427732e-06, + "loss": 0.4601, + "step": 1552 + }, + { + "epoch": 0.41413333333333335, + "grad_norm": 2.3364020008283743, + "learning_rate": 3.2344198269541623e-06, + "loss": 0.4308, + "step": 1553 + }, + { + "epoch": 0.4144, + "grad_norm": 2.809443858787667, + "learning_rate": 3.2323866780023424e-06, + "loss": 0.4537, + "step": 1554 + }, + { + "epoch": 0.4146666666666667, + "grad_norm": 2.5113685702066855, + "learning_rate": 3.2303529990436018e-06, + "loss": 0.4754, + "step": 1555 + }, + { + "epoch": 0.4149333333333333, + "grad_norm": 2.87332264326654, + "learning_rate": 3.2283187915496568e-06, + "loss": 0.4363, + "step": 1556 + }, + { + "epoch": 0.4152, + "grad_norm": 2.50193078904685, + "learning_rate": 3.2262840569926024e-06, + "loss": 0.4164, + "step": 1557 + }, + { + "epoch": 0.41546666666666665, + "grad_norm": 2.63866599395595, + "learning_rate": 3.224248796844917e-06, + "loss": 0.4479, + "step": 1558 + }, + { + "epoch": 0.41573333333333334, + "grad_norm": 2.5974182947285023, + "learning_rate": 3.2222130125794603e-06, + "loss": 0.4185, + "step": 1559 + }, + { + "epoch": 0.416, + "grad_norm": 2.6183772247016885, + "learning_rate": 3.2201767056694688e-06, + "loss": 0.467, + "step": 1560 + }, + { + "epoch": 0.4162666666666667, + "grad_norm": 2.4649367375123323, + "learning_rate": 3.21813987758856e-06, + "loss": 0.4409, + "step": 1561 + }, + { + "epoch": 0.4165333333333333, + "grad_norm": 2.420171380940966, + "learning_rate": 3.2161025298107246e-06, + "loss": 0.4022, + "step": 1562 + }, + { + "epoch": 0.4168, + "grad_norm": 2.362888889446213, + "learning_rate": 3.2140646638103332e-06, + "loss": 0.3935, + "step": 1563 + }, + { + "epoch": 0.41706666666666664, + "grad_norm": 2.395372097528393, + "learning_rate": 3.212026281062132e-06, + "loss": 0.3868, + "step": 1564 + }, + { + "epoch": 0.41733333333333333, + "grad_norm": 2.6941424574267017, + "learning_rate": 3.209987383041236e-06, + "loss": 0.4712, + "step": 1565 + }, + { + "epoch": 0.4176, + "grad_norm": 3.3346715524180865, + "learning_rate": 3.207947971223139e-06, + "loss": 0.5545, + "step": 1566 + }, + { + "epoch": 0.41786666666666666, + "grad_norm": 2.375873836156285, + "learning_rate": 3.2059080470837023e-06, + "loss": 0.4221, + "step": 1567 + }, + { + "epoch": 0.41813333333333336, + "grad_norm": 2.7371430296733723, + "learning_rate": 3.20386761209916e-06, + "loss": 0.4641, + "step": 1568 + }, + { + "epoch": 0.4184, + "grad_norm": 2.2218843830046717, + "learning_rate": 3.2018266677461164e-06, + "loss": 0.3358, + "step": 1569 + }, + { + "epoch": 0.4186666666666667, + "grad_norm": 2.5446493069207214, + "learning_rate": 3.199785215501542e-06, + "loss": 0.4423, + "step": 1570 + }, + { + "epoch": 0.4189333333333333, + "grad_norm": 2.7423760993707065, + "learning_rate": 3.197743256842778e-06, + "loss": 0.4795, + "step": 1571 + }, + { + "epoch": 0.4192, + "grad_norm": 3.0994336007685317, + "learning_rate": 3.1957007932475293e-06, + "loss": 0.5246, + "step": 1572 + }, + { + "epoch": 0.41946666666666665, + "grad_norm": 2.734553825671725, + "learning_rate": 3.1936578261938665e-06, + "loss": 0.4517, + "step": 1573 + }, + { + "epoch": 0.41973333333333335, + "grad_norm": 3.2893698456562253, + "learning_rate": 3.191614357160228e-06, + "loss": 0.4537, + "step": 1574 + }, + { + "epoch": 0.42, + "grad_norm": 2.685601937316998, + "learning_rate": 3.189570387625411e-06, + "loss": 0.4886, + "step": 1575 + }, + { + "epoch": 0.4202666666666667, + "grad_norm": 2.790278530948529, + "learning_rate": 3.187525919068577e-06, + "loss": 0.4559, + "step": 1576 + }, + { + "epoch": 0.4205333333333333, + "grad_norm": 2.891069927515054, + "learning_rate": 3.1854809529692486e-06, + "loss": 0.4782, + "step": 1577 + }, + { + "epoch": 0.4208, + "grad_norm": 2.2871190063235436, + "learning_rate": 3.1834354908073085e-06, + "loss": 0.3547, + "step": 1578 + }, + { + "epoch": 0.42106666666666664, + "grad_norm": 2.8936132984793828, + "learning_rate": 3.181389534062998e-06, + "loss": 0.4548, + "step": 1579 + }, + { + "epoch": 0.42133333333333334, + "grad_norm": 2.393948337972968, + "learning_rate": 3.179343084216916e-06, + "loss": 0.4196, + "step": 1580 + }, + { + "epoch": 0.4216, + "grad_norm": 2.712869705673922, + "learning_rate": 3.1772961427500183e-06, + "loss": 0.496, + "step": 1581 + }, + { + "epoch": 0.42186666666666667, + "grad_norm": 2.5746855948188263, + "learning_rate": 3.175248711143618e-06, + "loss": 0.394, + "step": 1582 + }, + { + "epoch": 0.42213333333333336, + "grad_norm": 2.740211793625849, + "learning_rate": 3.173200790879381e-06, + "loss": 0.4902, + "step": 1583 + }, + { + "epoch": 0.4224, + "grad_norm": 2.950087231040804, + "learning_rate": 3.1711523834393276e-06, + "loss": 0.4702, + "step": 1584 + }, + { + "epoch": 0.4226666666666667, + "grad_norm": 2.891695194786044, + "learning_rate": 3.1691034903058314e-06, + "loss": 0.4859, + "step": 1585 + }, + { + "epoch": 0.42293333333333333, + "grad_norm": 2.3972819843706334, + "learning_rate": 3.1670541129616163e-06, + "loss": 0.4301, + "step": 1586 + }, + { + "epoch": 0.4232, + "grad_norm": 3.1358619522109787, + "learning_rate": 3.1650042528897564e-06, + "loss": 0.4927, + "step": 1587 + }, + { + "epoch": 0.42346666666666666, + "grad_norm": 2.305509323837255, + "learning_rate": 3.162953911573676e-06, + "loss": 0.3839, + "step": 1588 + }, + { + "epoch": 0.42373333333333335, + "grad_norm": 3.425694621780153, + "learning_rate": 3.1609030904971487e-06, + "loss": 0.4813, + "step": 1589 + }, + { + "epoch": 0.424, + "grad_norm": 2.3313755211087286, + "learning_rate": 3.158851791144293e-06, + "loss": 0.4253, + "step": 1590 + }, + { + "epoch": 0.4242666666666667, + "grad_norm": 3.100170653811682, + "learning_rate": 3.1568000149995737e-06, + "loss": 0.5216, + "step": 1591 + }, + { + "epoch": 0.4245333333333333, + "grad_norm": 2.652633022094291, + "learning_rate": 3.154747763547803e-06, + "loss": 0.4717, + "step": 1592 + }, + { + "epoch": 0.4248, + "grad_norm": 2.881384192458609, + "learning_rate": 3.1526950382741345e-06, + "loss": 0.5493, + "step": 1593 + }, + { + "epoch": 0.42506666666666665, + "grad_norm": 2.201205937175797, + "learning_rate": 3.150641840664066e-06, + "loss": 0.3827, + "step": 1594 + }, + { + "epoch": 0.42533333333333334, + "grad_norm": 2.4924710057375563, + "learning_rate": 3.148588172203437e-06, + "loss": 0.3909, + "step": 1595 + }, + { + "epoch": 0.4256, + "grad_norm": 3.0987117117546052, + "learning_rate": 3.1465340343784275e-06, + "loss": 0.5219, + "step": 1596 + }, + { + "epoch": 0.42586666666666667, + "grad_norm": 2.3314244387618492, + "learning_rate": 3.144479428675557e-06, + "loss": 0.4198, + "step": 1597 + }, + { + "epoch": 0.4261333333333333, + "grad_norm": 3.7156704060970855, + "learning_rate": 3.1424243565816847e-06, + "loss": 0.5017, + "step": 1598 + }, + { + "epoch": 0.4264, + "grad_norm": 2.8190922960799, + "learning_rate": 3.1403688195840056e-06, + "loss": 0.5048, + "step": 1599 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 2.719866691699626, + "learning_rate": 3.1383128191700526e-06, + "loss": 0.4635, + "step": 1600 + }, + { + "epoch": 0.42693333333333333, + "grad_norm": 2.906248072893686, + "learning_rate": 3.1362563568276927e-06, + "loss": 0.4776, + "step": 1601 + }, + { + "epoch": 0.4272, + "grad_norm": 2.879071869233879, + "learning_rate": 3.1341994340451276e-06, + "loss": 0.4797, + "step": 1602 + }, + { + "epoch": 0.42746666666666666, + "grad_norm": 3.1262337219212846, + "learning_rate": 3.132142052310894e-06, + "loss": 0.4837, + "step": 1603 + }, + { + "epoch": 0.42773333333333335, + "grad_norm": 2.489230288694076, + "learning_rate": 3.1300842131138566e-06, + "loss": 0.3991, + "step": 1604 + }, + { + "epoch": 0.428, + "grad_norm": 2.6273135343724077, + "learning_rate": 3.1280259179432163e-06, + "loss": 0.4215, + "step": 1605 + }, + { + "epoch": 0.4282666666666667, + "grad_norm": 2.8301665188264606, + "learning_rate": 3.125967168288501e-06, + "loss": 0.4986, + "step": 1606 + }, + { + "epoch": 0.4285333333333333, + "grad_norm": 2.7722004340219857, + "learning_rate": 3.123907965639566e-06, + "loss": 0.4856, + "step": 1607 + }, + { + "epoch": 0.4288, + "grad_norm": 2.8737394957433717, + "learning_rate": 3.1218483114865988e-06, + "loss": 0.4499, + "step": 1608 + }, + { + "epoch": 0.42906666666666665, + "grad_norm": 2.4927164983975216, + "learning_rate": 3.1197882073201093e-06, + "loss": 0.4606, + "step": 1609 + }, + { + "epoch": 0.42933333333333334, + "grad_norm": 2.399714189683621, + "learning_rate": 3.1177276546309353e-06, + "loss": 0.4052, + "step": 1610 + }, + { + "epoch": 0.4296, + "grad_norm": 2.7078905504784285, + "learning_rate": 3.11566665491024e-06, + "loss": 0.4645, + "step": 1611 + }, + { + "epoch": 0.4298666666666667, + "grad_norm": 2.3698539247646466, + "learning_rate": 3.113605209649507e-06, + "loss": 0.4261, + "step": 1612 + }, + { + "epoch": 0.4301333333333333, + "grad_norm": 2.6989323085981463, + "learning_rate": 3.1115433203405456e-06, + "loss": 0.4782, + "step": 1613 + }, + { + "epoch": 0.4304, + "grad_norm": 2.4296766085651527, + "learning_rate": 3.1094809884754846e-06, + "loss": 0.4116, + "step": 1614 + }, + { + "epoch": 0.43066666666666664, + "grad_norm": 2.7335399015214357, + "learning_rate": 3.107418215546773e-06, + "loss": 0.4509, + "step": 1615 + }, + { + "epoch": 0.43093333333333333, + "grad_norm": 2.5629885063102473, + "learning_rate": 3.105355003047181e-06, + "loss": 0.456, + "step": 1616 + }, + { + "epoch": 0.4312, + "grad_norm": 2.6732468324214262, + "learning_rate": 3.1032913524697945e-06, + "loss": 0.4519, + "step": 1617 + }, + { + "epoch": 0.43146666666666667, + "grad_norm": 2.7424975420369604, + "learning_rate": 3.1012272653080174e-06, + "loss": 0.5012, + "step": 1618 + }, + { + "epoch": 0.43173333333333336, + "grad_norm": 2.726178195982187, + "learning_rate": 3.099162743055569e-06, + "loss": 0.4954, + "step": 1619 + }, + { + "epoch": 0.432, + "grad_norm": 2.67832818551205, + "learning_rate": 3.0970977872064843e-06, + "loss": 0.4497, + "step": 1620 + }, + { + "epoch": 0.4322666666666667, + "grad_norm": 3.1975664945565847, + "learning_rate": 3.0950323992551123e-06, + "loss": 0.5184, + "step": 1621 + }, + { + "epoch": 0.4325333333333333, + "grad_norm": 2.5629811870108727, + "learning_rate": 3.092966580696114e-06, + "loss": 0.4456, + "step": 1622 + }, + { + "epoch": 0.4328, + "grad_norm": 2.439700378045231, + "learning_rate": 3.0909003330244612e-06, + "loss": 0.443, + "step": 1623 + }, + { + "epoch": 0.43306666666666666, + "grad_norm": 2.44004138836234, + "learning_rate": 3.088833657735439e-06, + "loss": 0.4281, + "step": 1624 + }, + { + "epoch": 0.43333333333333335, + "grad_norm": 2.806740143520779, + "learning_rate": 3.086766556324638e-06, + "loss": 0.4746, + "step": 1625 + }, + { + "epoch": 0.4336, + "grad_norm": 2.5956415086336833, + "learning_rate": 3.084699030287961e-06, + "loss": 0.4367, + "step": 1626 + }, + { + "epoch": 0.4338666666666667, + "grad_norm": 2.2540343167609516, + "learning_rate": 3.082631081121615e-06, + "loss": 0.3464, + "step": 1627 + }, + { + "epoch": 0.4341333333333333, + "grad_norm": 3.1290815412464226, + "learning_rate": 3.0805627103221163e-06, + "loss": 0.49, + "step": 1628 + }, + { + "epoch": 0.4344, + "grad_norm": 3.3536192549737422, + "learning_rate": 3.0784939193862838e-06, + "loss": 0.5032, + "step": 1629 + }, + { + "epoch": 0.43466666666666665, + "grad_norm": 2.8498109700415593, + "learning_rate": 3.0764247098112404e-06, + "loss": 0.4789, + "step": 1630 + }, + { + "epoch": 0.43493333333333334, + "grad_norm": 2.3471646720675094, + "learning_rate": 3.074355083094414e-06, + "loss": 0.4176, + "step": 1631 + }, + { + "epoch": 0.4352, + "grad_norm": 2.6493793847861307, + "learning_rate": 3.0722850407335332e-06, + "loss": 0.456, + "step": 1632 + }, + { + "epoch": 0.43546666666666667, + "grad_norm": 2.7768717402354506, + "learning_rate": 3.070214584226626e-06, + "loss": 0.4484, + "step": 1633 + }, + { + "epoch": 0.4357333333333333, + "grad_norm": 2.335769098356166, + "learning_rate": 3.0681437150720234e-06, + "loss": 0.4104, + "step": 1634 + }, + { + "epoch": 0.436, + "grad_norm": 2.4148609026659873, + "learning_rate": 3.066072434768352e-06, + "loss": 0.4457, + "step": 1635 + }, + { + "epoch": 0.4362666666666667, + "grad_norm": 2.7243353487230957, + "learning_rate": 3.0640007448145378e-06, + "loss": 0.4616, + "step": 1636 + }, + { + "epoch": 0.43653333333333333, + "grad_norm": 2.2797493934997988, + "learning_rate": 3.0619286467098015e-06, + "loss": 0.412, + "step": 1637 + }, + { + "epoch": 0.4368, + "grad_norm": 2.657676666597933, + "learning_rate": 3.059856141953661e-06, + "loss": 0.5407, + "step": 1638 + }, + { + "epoch": 0.43706666666666666, + "grad_norm": 2.3943799978012623, + "learning_rate": 3.0577832320459277e-06, + "loss": 0.4147, + "step": 1639 + }, + { + "epoch": 0.43733333333333335, + "grad_norm": 2.3966069965266796, + "learning_rate": 3.055709918486705e-06, + "loss": 0.4004, + "step": 1640 + }, + { + "epoch": 0.4376, + "grad_norm": 2.5676001605510725, + "learning_rate": 3.053636202776391e-06, + "loss": 0.4597, + "step": 1641 + }, + { + "epoch": 0.4378666666666667, + "grad_norm": 2.577515417417845, + "learning_rate": 3.051562086415673e-06, + "loss": 0.4853, + "step": 1642 + }, + { + "epoch": 0.4381333333333333, + "grad_norm": 2.419324633889002, + "learning_rate": 3.0494875709055284e-06, + "loss": 0.4163, + "step": 1643 + }, + { + "epoch": 0.4384, + "grad_norm": 2.6392363612168372, + "learning_rate": 3.0474126577472236e-06, + "loss": 0.4508, + "step": 1644 + }, + { + "epoch": 0.43866666666666665, + "grad_norm": 2.564661311731202, + "learning_rate": 3.0453373484423132e-06, + "loss": 0.4229, + "step": 1645 + }, + { + "epoch": 0.43893333333333334, + "grad_norm": 2.4052035756489536, + "learning_rate": 3.0432616444926377e-06, + "loss": 0.4333, + "step": 1646 + }, + { + "epoch": 0.4392, + "grad_norm": 2.227616507434875, + "learning_rate": 3.0411855474003243e-06, + "loss": 0.4004, + "step": 1647 + }, + { + "epoch": 0.43946666666666667, + "grad_norm": 2.897580612393445, + "learning_rate": 3.039109058667783e-06, + "loss": 0.4812, + "step": 1648 + }, + { + "epoch": 0.4397333333333333, + "grad_norm": 2.3895040251837547, + "learning_rate": 3.0370321797977088e-06, + "loss": 0.3761, + "step": 1649 + }, + { + "epoch": 0.44, + "grad_norm": 2.3487236489824386, + "learning_rate": 3.0349549122930794e-06, + "loss": 0.4123, + "step": 1650 + }, + { + "epoch": 0.44026666666666664, + "grad_norm": 2.886936174809484, + "learning_rate": 3.032877257657151e-06, + "loss": 0.434, + "step": 1651 + }, + { + "epoch": 0.44053333333333333, + "grad_norm": 2.363835819844156, + "learning_rate": 3.030799217393463e-06, + "loss": 0.4214, + "step": 1652 + }, + { + "epoch": 0.4408, + "grad_norm": 2.8026349894416334, + "learning_rate": 3.028720793005832e-06, + "loss": 0.4531, + "step": 1653 + }, + { + "epoch": 0.44106666666666666, + "grad_norm": 2.817955710946477, + "learning_rate": 3.0266419859983542e-06, + "loss": 0.4719, + "step": 1654 + }, + { + "epoch": 0.44133333333333336, + "grad_norm": 2.9830226632174224, + "learning_rate": 3.0245627978754016e-06, + "loss": 0.4476, + "step": 1655 + }, + { + "epoch": 0.4416, + "grad_norm": 2.549993881350562, + "learning_rate": 3.022483230141621e-06, + "loss": 0.4394, + "step": 1656 + }, + { + "epoch": 0.4418666666666667, + "grad_norm": 2.6089327520193017, + "learning_rate": 3.020403284301936e-06, + "loss": 0.4377, + "step": 1657 + }, + { + "epoch": 0.4421333333333333, + "grad_norm": 2.7537190819371964, + "learning_rate": 3.0183229618615423e-06, + "loss": 0.4698, + "step": 1658 + }, + { + "epoch": 0.4424, + "grad_norm": 2.180515068907873, + "learning_rate": 3.016242264325909e-06, + "loss": 0.3522, + "step": 1659 + }, + { + "epoch": 0.44266666666666665, + "grad_norm": 3.0664140471292325, + "learning_rate": 3.0141611932007765e-06, + "loss": 0.4412, + "step": 1660 + }, + { + "epoch": 0.44293333333333335, + "grad_norm": 2.8144953383641935, + "learning_rate": 3.012079749992155e-06, + "loss": 0.474, + "step": 1661 + }, + { + "epoch": 0.4432, + "grad_norm": 2.319736247587924, + "learning_rate": 3.0099979362063246e-06, + "loss": 0.4034, + "step": 1662 + }, + { + "epoch": 0.4434666666666667, + "grad_norm": 2.7792794950068895, + "learning_rate": 3.0079157533498334e-06, + "loss": 0.4202, + "step": 1663 + }, + { + "epoch": 0.4437333333333333, + "grad_norm": 2.388045818768515, + "learning_rate": 3.0058332029294955e-06, + "loss": 0.4235, + "step": 1664 + }, + { + "epoch": 0.444, + "grad_norm": 3.255811875199419, + "learning_rate": 3.003750286452394e-06, + "loss": 0.5201, + "step": 1665 + }, + { + "epoch": 0.44426666666666664, + "grad_norm": 2.4692448056210257, + "learning_rate": 3.001667005425874e-06, + "loss": 0.4146, + "step": 1666 + }, + { + "epoch": 0.44453333333333334, + "grad_norm": 2.771296312404507, + "learning_rate": 2.9995833613575446e-06, + "loss": 0.4696, + "step": 1667 + }, + { + "epoch": 0.4448, + "grad_norm": 3.1193140026045283, + "learning_rate": 2.997499355755279e-06, + "loss": 0.4815, + "step": 1668 + }, + { + "epoch": 0.44506666666666667, + "grad_norm": 2.7305493554175735, + "learning_rate": 2.9954149901272113e-06, + "loss": 0.4416, + "step": 1669 + }, + { + "epoch": 0.44533333333333336, + "grad_norm": 2.5043354378869167, + "learning_rate": 2.9933302659817364e-06, + "loss": 0.4164, + "step": 1670 + }, + { + "epoch": 0.4456, + "grad_norm": 2.3222462584138093, + "learning_rate": 2.9912451848275083e-06, + "loss": 0.3726, + "step": 1671 + }, + { + "epoch": 0.4458666666666667, + "grad_norm": 2.6998237258900386, + "learning_rate": 2.989159748173439e-06, + "loss": 0.452, + "step": 1672 + }, + { + "epoch": 0.4461333333333333, + "grad_norm": 2.7623808867432396, + "learning_rate": 2.9870739575286998e-06, + "loss": 0.4943, + "step": 1673 + }, + { + "epoch": 0.4464, + "grad_norm": 2.7987546399033083, + "learning_rate": 2.9849878144027157e-06, + "loss": 0.4553, + "step": 1674 + }, + { + "epoch": 0.44666666666666666, + "grad_norm": 2.341991916350012, + "learning_rate": 2.9829013203051677e-06, + "loss": 0.4113, + "step": 1675 + }, + { + "epoch": 0.44693333333333335, + "grad_norm": 2.6778356580865754, + "learning_rate": 2.980814476745991e-06, + "loss": 0.4582, + "step": 1676 + }, + { + "epoch": 0.4472, + "grad_norm": 2.632276423615295, + "learning_rate": 2.9787272852353732e-06, + "loss": 0.4568, + "step": 1677 + }, + { + "epoch": 0.4474666666666667, + "grad_norm": 2.385662955926274, + "learning_rate": 2.9766397472837542e-06, + "loss": 0.3811, + "step": 1678 + }, + { + "epoch": 0.4477333333333333, + "grad_norm": 2.610810394687984, + "learning_rate": 2.9745518644018245e-06, + "loss": 0.4797, + "step": 1679 + }, + { + "epoch": 0.448, + "grad_norm": 2.785955457864088, + "learning_rate": 2.9724636381005245e-06, + "loss": 0.4721, + "step": 1680 + }, + { + "epoch": 0.44826666666666665, + "grad_norm": 3.0521397991600456, + "learning_rate": 2.9703750698910427e-06, + "loss": 0.4874, + "step": 1681 + }, + { + "epoch": 0.44853333333333334, + "grad_norm": 2.9724506893313976, + "learning_rate": 2.9682861612848145e-06, + "loss": 0.5291, + "step": 1682 + }, + { + "epoch": 0.4488, + "grad_norm": 3.31001184849609, + "learning_rate": 2.9661969137935235e-06, + "loss": 0.5126, + "step": 1683 + }, + { + "epoch": 0.44906666666666667, + "grad_norm": 3.33057349246945, + "learning_rate": 2.964107328929096e-06, + "loss": 0.4827, + "step": 1684 + }, + { + "epoch": 0.4493333333333333, + "grad_norm": 2.5671882330013944, + "learning_rate": 2.9620174082037045e-06, + "loss": 0.4178, + "step": 1685 + }, + { + "epoch": 0.4496, + "grad_norm": 2.756290383345154, + "learning_rate": 2.9599271531297637e-06, + "loss": 0.4577, + "step": 1686 + }, + { + "epoch": 0.4498666666666667, + "grad_norm": 2.6194118187887416, + "learning_rate": 2.9578365652199294e-06, + "loss": 0.4821, + "step": 1687 + }, + { + "epoch": 0.45013333333333333, + "grad_norm": 2.7934973828084773, + "learning_rate": 2.9557456459871002e-06, + "loss": 0.4359, + "step": 1688 + }, + { + "epoch": 0.4504, + "grad_norm": 2.716745201973649, + "learning_rate": 2.953654396944414e-06, + "loss": 0.443, + "step": 1689 + }, + { + "epoch": 0.45066666666666666, + "grad_norm": 2.600417673325568, + "learning_rate": 2.9515628196052454e-06, + "loss": 0.4185, + "step": 1690 + }, + { + "epoch": 0.45093333333333335, + "grad_norm": 2.3947029370116786, + "learning_rate": 2.949470915483209e-06, + "loss": 0.3628, + "step": 1691 + }, + { + "epoch": 0.4512, + "grad_norm": 2.6785548225181217, + "learning_rate": 2.9473786860921546e-06, + "loss": 0.4295, + "step": 1692 + }, + { + "epoch": 0.4514666666666667, + "grad_norm": 2.9650683773878206, + "learning_rate": 2.945286132946168e-06, + "loss": 0.4953, + "step": 1693 + }, + { + "epoch": 0.4517333333333333, + "grad_norm": 2.459730826947619, + "learning_rate": 2.943193257559569e-06, + "loss": 0.4226, + "step": 1694 + }, + { + "epoch": 0.452, + "grad_norm": 2.33010595093458, + "learning_rate": 2.94110006144691e-06, + "loss": 0.4152, + "step": 1695 + }, + { + "epoch": 0.45226666666666665, + "grad_norm": 2.8114620027035198, + "learning_rate": 2.9390065461229764e-06, + "loss": 0.4906, + "step": 1696 + }, + { + "epoch": 0.45253333333333334, + "grad_norm": 2.9605946908755194, + "learning_rate": 2.9369127131027845e-06, + "loss": 0.4928, + "step": 1697 + }, + { + "epoch": 0.4528, + "grad_norm": 2.2774952273407645, + "learning_rate": 2.934818563901581e-06, + "loss": 0.3529, + "step": 1698 + }, + { + "epoch": 0.4530666666666667, + "grad_norm": 2.50497222154947, + "learning_rate": 2.9327241000348394e-06, + "loss": 0.4721, + "step": 1699 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 2.6009315137902353, + "learning_rate": 2.930629323018262e-06, + "loss": 0.484, + "step": 1700 + }, + { + "epoch": 0.4536, + "grad_norm": 2.5540273304991357, + "learning_rate": 2.92853423436778e-06, + "loss": 0.4767, + "step": 1701 + }, + { + "epoch": 0.45386666666666664, + "grad_norm": 2.512684846111732, + "learning_rate": 2.9264388355995456e-06, + "loss": 0.4668, + "step": 1702 + }, + { + "epoch": 0.45413333333333333, + "grad_norm": 2.5132316051228725, + "learning_rate": 2.92434312822994e-06, + "loss": 0.4385, + "step": 1703 + }, + { + "epoch": 0.4544, + "grad_norm": 2.5171214952931935, + "learning_rate": 2.922247113775565e-06, + "loss": 0.4038, + "step": 1704 + }, + { + "epoch": 0.45466666666666666, + "grad_norm": 2.5482880716510543, + "learning_rate": 2.9201507937532437e-06, + "loss": 0.4654, + "step": 1705 + }, + { + "epoch": 0.45493333333333336, + "grad_norm": 2.626233425153464, + "learning_rate": 2.9180541696800236e-06, + "loss": 0.4179, + "step": 1706 + }, + { + "epoch": 0.4552, + "grad_norm": 3.025883677312781, + "learning_rate": 2.9159572430731702e-06, + "loss": 0.4887, + "step": 1707 + }, + { + "epoch": 0.4554666666666667, + "grad_norm": 2.300630560713334, + "learning_rate": 2.913860015450167e-06, + "loss": 0.3543, + "step": 1708 + }, + { + "epoch": 0.4557333333333333, + "grad_norm": 2.4144910033533473, + "learning_rate": 2.911762488328719e-06, + "loss": 0.3943, + "step": 1709 + }, + { + "epoch": 0.456, + "grad_norm": 3.1027329250627633, + "learning_rate": 2.909664663226744e-06, + "loss": 0.4539, + "step": 1710 + }, + { + "epoch": 0.45626666666666665, + "grad_norm": 2.580587972279326, + "learning_rate": 2.9075665416623768e-06, + "loss": 0.4165, + "step": 1711 + }, + { + "epoch": 0.45653333333333335, + "grad_norm": 2.2171624299673063, + "learning_rate": 2.9054681251539676e-06, + "loss": 0.4076, + "step": 1712 + }, + { + "epoch": 0.4568, + "grad_norm": 2.601185165737922, + "learning_rate": 2.9033694152200788e-06, + "loss": 0.4427, + "step": 1713 + }, + { + "epoch": 0.4570666666666667, + "grad_norm": 2.4969546862195062, + "learning_rate": 2.9012704133794862e-06, + "loss": 0.441, + "step": 1714 + }, + { + "epoch": 0.4573333333333333, + "grad_norm": 3.0533677005116773, + "learning_rate": 2.8991711211511753e-06, + "loss": 0.4584, + "step": 1715 + }, + { + "epoch": 0.4576, + "grad_norm": 2.7615448695292284, + "learning_rate": 2.897071540054344e-06, + "loss": 0.4848, + "step": 1716 + }, + { + "epoch": 0.45786666666666664, + "grad_norm": 2.4517773933895857, + "learning_rate": 2.8949716716083976e-06, + "loss": 0.4191, + "step": 1717 + }, + { + "epoch": 0.45813333333333334, + "grad_norm": 2.780999790782132, + "learning_rate": 2.8928715173329485e-06, + "loss": 0.4739, + "step": 1718 + }, + { + "epoch": 0.4584, + "grad_norm": 2.523550636840081, + "learning_rate": 2.89077107874782e-06, + "loss": 0.4221, + "step": 1719 + }, + { + "epoch": 0.45866666666666667, + "grad_norm": 2.561754511099227, + "learning_rate": 2.8886703573730358e-06, + "loss": 0.4696, + "step": 1720 + }, + { + "epoch": 0.45893333333333336, + "grad_norm": 2.7086424964434275, + "learning_rate": 2.8865693547288274e-06, + "loss": 0.4491, + "step": 1721 + }, + { + "epoch": 0.4592, + "grad_norm": 2.6038286963409196, + "learning_rate": 2.8844680723356303e-06, + "loss": 0.4361, + "step": 1722 + }, + { + "epoch": 0.4594666666666667, + "grad_norm": 2.3914975461763737, + "learning_rate": 2.8823665117140813e-06, + "loss": 0.4133, + "step": 1723 + }, + { + "epoch": 0.4597333333333333, + "grad_norm": 2.502917588975964, + "learning_rate": 2.8802646743850177e-06, + "loss": 0.4159, + "step": 1724 + }, + { + "epoch": 0.46, + "grad_norm": 2.4068602704250055, + "learning_rate": 2.878162561869478e-06, + "loss": 0.4357, + "step": 1725 + }, + { + "epoch": 0.46026666666666666, + "grad_norm": 2.4587715382878983, + "learning_rate": 2.8760601756887004e-06, + "loss": 0.4099, + "step": 1726 + }, + { + "epoch": 0.46053333333333335, + "grad_norm": 2.9046063010001957, + "learning_rate": 2.87395751736412e-06, + "loss": 0.4801, + "step": 1727 + }, + { + "epoch": 0.4608, + "grad_norm": 2.7363800214251253, + "learning_rate": 2.87185458841737e-06, + "loss": 0.409, + "step": 1728 + }, + { + "epoch": 0.4610666666666667, + "grad_norm": 2.419028567902101, + "learning_rate": 2.8697513903702784e-06, + "loss": 0.3933, + "step": 1729 + }, + { + "epoch": 0.4613333333333333, + "grad_norm": 2.285034094213855, + "learning_rate": 2.86764792474487e-06, + "loss": 0.4157, + "step": 1730 + }, + { + "epoch": 0.4616, + "grad_norm": 2.5207895899798447, + "learning_rate": 2.865544193063358e-06, + "loss": 0.4199, + "step": 1731 + }, + { + "epoch": 0.46186666666666665, + "grad_norm": 2.9061270890963304, + "learning_rate": 2.8634401968481562e-06, + "loss": 0.4745, + "step": 1732 + }, + { + "epoch": 0.46213333333333334, + "grad_norm": 2.85138259690995, + "learning_rate": 2.8613359376218626e-06, + "loss": 0.4961, + "step": 1733 + }, + { + "epoch": 0.4624, + "grad_norm": 2.435399163935538, + "learning_rate": 2.859231416907269e-06, + "loss": 0.4486, + "step": 1734 + }, + { + "epoch": 0.46266666666666667, + "grad_norm": 2.637808425594735, + "learning_rate": 2.8571266362273557e-06, + "loss": 0.5184, + "step": 1735 + }, + { + "epoch": 0.4629333333333333, + "grad_norm": 4.401130076982336, + "learning_rate": 2.8550215971052914e-06, + "loss": 0.4793, + "step": 1736 + }, + { + "epoch": 0.4632, + "grad_norm": 2.429119141627044, + "learning_rate": 2.8529163010644317e-06, + "loss": 0.3661, + "step": 1737 + }, + { + "epoch": 0.4634666666666667, + "grad_norm": 2.761829930637728, + "learning_rate": 2.8508107496283183e-06, + "loss": 0.475, + "step": 1738 + }, + { + "epoch": 0.46373333333333333, + "grad_norm": 2.6167353313047355, + "learning_rate": 2.848704944320676e-06, + "loss": 0.4377, + "step": 1739 + }, + { + "epoch": 0.464, + "grad_norm": 2.395937205365156, + "learning_rate": 2.846598886665417e-06, + "loss": 0.366, + "step": 1740 + }, + { + "epoch": 0.46426666666666666, + "grad_norm": 2.7016166300412103, + "learning_rate": 2.8444925781866327e-06, + "loss": 0.4669, + "step": 1741 + }, + { + "epoch": 0.46453333333333335, + "grad_norm": 2.4892791822345326, + "learning_rate": 2.8423860204085975e-06, + "loss": 0.369, + "step": 1742 + }, + { + "epoch": 0.4648, + "grad_norm": 2.5450483792933314, + "learning_rate": 2.8402792148557658e-06, + "loss": 0.4363, + "step": 1743 + }, + { + "epoch": 0.4650666666666667, + "grad_norm": 2.5905359493279234, + "learning_rate": 2.8381721630527707e-06, + "loss": 0.4436, + "step": 1744 + }, + { + "epoch": 0.4653333333333333, + "grad_norm": 2.9710311924642734, + "learning_rate": 2.836064866524426e-06, + "loss": 0.4663, + "step": 1745 + }, + { + "epoch": 0.4656, + "grad_norm": 2.4771648712494665, + "learning_rate": 2.8339573267957187e-06, + "loss": 0.39, + "step": 1746 + }, + { + "epoch": 0.46586666666666665, + "grad_norm": 3.1015004731815923, + "learning_rate": 2.8318495453918165e-06, + "loss": 0.3992, + "step": 1747 + }, + { + "epoch": 0.46613333333333334, + "grad_norm": 3.1650767106369626, + "learning_rate": 2.8297415238380575e-06, + "loss": 0.4916, + "step": 1748 + }, + { + "epoch": 0.4664, + "grad_norm": 2.359760252215045, + "learning_rate": 2.827633263659956e-06, + "loss": 0.3808, + "step": 1749 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 2.5173852142363837, + "learning_rate": 2.825524766383199e-06, + "loss": 0.4123, + "step": 1750 + }, + { + "epoch": 0.4669333333333333, + "grad_norm": 2.8090319373546424, + "learning_rate": 2.8234160335336443e-06, + "loss": 0.4198, + "step": 1751 + }, + { + "epoch": 0.4672, + "grad_norm": 2.650962885557305, + "learning_rate": 2.8213070666373203e-06, + "loss": 0.4151, + "step": 1752 + }, + { + "epoch": 0.46746666666666664, + "grad_norm": 2.551863821385928, + "learning_rate": 2.819197867220425e-06, + "loss": 0.3982, + "step": 1753 + }, + { + "epoch": 0.46773333333333333, + "grad_norm": 2.7478327694615836, + "learning_rate": 2.817088436809325e-06, + "loss": 0.4884, + "step": 1754 + }, + { + "epoch": 0.468, + "grad_norm": 2.652226215989342, + "learning_rate": 2.814978776930553e-06, + "loss": 0.4468, + "step": 1755 + }, + { + "epoch": 0.46826666666666666, + "grad_norm": 2.510881694896791, + "learning_rate": 2.812868889110809e-06, + "loss": 0.4253, + "step": 1756 + }, + { + "epoch": 0.46853333333333336, + "grad_norm": 2.443472534155051, + "learning_rate": 2.810758774876957e-06, + "loss": 0.4342, + "step": 1757 + }, + { + "epoch": 0.4688, + "grad_norm": 2.36294921305221, + "learning_rate": 2.808648435756026e-06, + "loss": 0.3988, + "step": 1758 + }, + { + "epoch": 0.4690666666666667, + "grad_norm": 2.7039247742602814, + "learning_rate": 2.806537873275206e-06, + "loss": 0.4443, + "step": 1759 + }, + { + "epoch": 0.4693333333333333, + "grad_norm": 2.2936272752959876, + "learning_rate": 2.80442708896185e-06, + "loss": 0.3556, + "step": 1760 + }, + { + "epoch": 0.4696, + "grad_norm": 2.614726854139654, + "learning_rate": 2.802316084343472e-06, + "loss": 0.4871, + "step": 1761 + }, + { + "epoch": 0.46986666666666665, + "grad_norm": 2.3555001166923173, + "learning_rate": 2.800204860947744e-06, + "loss": 0.3854, + "step": 1762 + }, + { + "epoch": 0.47013333333333335, + "grad_norm": 2.440343879443253, + "learning_rate": 2.798093420302496e-06, + "loss": 0.4385, + "step": 1763 + }, + { + "epoch": 0.4704, + "grad_norm": 2.5412635425464463, + "learning_rate": 2.795981763935717e-06, + "loss": 0.4154, + "step": 1764 + }, + { + "epoch": 0.4706666666666667, + "grad_norm": 2.579276969406627, + "learning_rate": 2.7938698933755515e-06, + "loss": 0.4421, + "step": 1765 + }, + { + "epoch": 0.4709333333333333, + "grad_norm": 2.619475659754512, + "learning_rate": 2.7917578101502985e-06, + "loss": 0.4335, + "step": 1766 + }, + { + "epoch": 0.4712, + "grad_norm": 2.5351729183788643, + "learning_rate": 2.78964551578841e-06, + "loss": 0.4455, + "step": 1767 + }, + { + "epoch": 0.47146666666666665, + "grad_norm": 2.9128634728391947, + "learning_rate": 2.787533011818494e-06, + "loss": 0.4319, + "step": 1768 + }, + { + "epoch": 0.47173333333333334, + "grad_norm": 2.507216332508662, + "learning_rate": 2.7854202997693076e-06, + "loss": 0.4295, + "step": 1769 + }, + { + "epoch": 0.472, + "grad_norm": 2.5312779732089563, + "learning_rate": 2.783307381169758e-06, + "loss": 0.4841, + "step": 1770 + }, + { + "epoch": 0.47226666666666667, + "grad_norm": 2.491710157783924, + "learning_rate": 2.781194257548903e-06, + "loss": 0.4485, + "step": 1771 + }, + { + "epoch": 0.47253333333333336, + "grad_norm": 2.5835622820134065, + "learning_rate": 2.7790809304359495e-06, + "loss": 0.466, + "step": 1772 + }, + { + "epoch": 0.4728, + "grad_norm": 2.7388204173569357, + "learning_rate": 2.7769674013602504e-06, + "loss": 0.4674, + "step": 1773 + }, + { + "epoch": 0.4730666666666667, + "grad_norm": 2.726280198226716, + "learning_rate": 2.7748536718513055e-06, + "loss": 0.4293, + "step": 1774 + }, + { + "epoch": 0.47333333333333333, + "grad_norm": 2.723585988333798, + "learning_rate": 2.772739743438758e-06, + "loss": 0.4054, + "step": 1775 + }, + { + "epoch": 0.4736, + "grad_norm": 2.5690449518704233, + "learning_rate": 2.770625617652398e-06, + "loss": 0.4341, + "step": 1776 + }, + { + "epoch": 0.47386666666666666, + "grad_norm": 2.415298443106328, + "learning_rate": 2.768511296022156e-06, + "loss": 0.3938, + "step": 1777 + }, + { + "epoch": 0.47413333333333335, + "grad_norm": 2.306520103419775, + "learning_rate": 2.7663967800781054e-06, + "loss": 0.4051, + "step": 1778 + }, + { + "epoch": 0.4744, + "grad_norm": 2.6216835423032263, + "learning_rate": 2.7642820713504593e-06, + "loss": 0.4241, + "step": 1779 + }, + { + "epoch": 0.4746666666666667, + "grad_norm": 2.3662913894684166, + "learning_rate": 2.762167171369572e-06, + "loss": 0.3898, + "step": 1780 + }, + { + "epoch": 0.4749333333333333, + "grad_norm": 2.689126815598693, + "learning_rate": 2.7600520816659333e-06, + "loss": 0.4581, + "step": 1781 + }, + { + "epoch": 0.4752, + "grad_norm": 2.6107508695549613, + "learning_rate": 2.7579368037701733e-06, + "loss": 0.4578, + "step": 1782 + }, + { + "epoch": 0.47546666666666665, + "grad_norm": 2.837559247629427, + "learning_rate": 2.7558213392130563e-06, + "loss": 0.5039, + "step": 1783 + }, + { + "epoch": 0.47573333333333334, + "grad_norm": 3.0382958383653453, + "learning_rate": 2.7537056895254833e-06, + "loss": 0.5211, + "step": 1784 + }, + { + "epoch": 0.476, + "grad_norm": 2.8428392998024843, + "learning_rate": 2.751589856238487e-06, + "loss": 0.4805, + "step": 1785 + }, + { + "epoch": 0.47626666666666667, + "grad_norm": 2.5250149896511522, + "learning_rate": 2.749473840883236e-06, + "loss": 0.4076, + "step": 1786 + }, + { + "epoch": 0.4765333333333333, + "grad_norm": 2.5555551420225004, + "learning_rate": 2.7473576449910284e-06, + "loss": 0.4364, + "step": 1787 + }, + { + "epoch": 0.4768, + "grad_norm": 2.4008368047815485, + "learning_rate": 2.745241270093293e-06, + "loss": 0.4405, + "step": 1788 + }, + { + "epoch": 0.4770666666666667, + "grad_norm": 2.447571251062769, + "learning_rate": 2.7431247177215893e-06, + "loss": 0.4238, + "step": 1789 + }, + { + "epoch": 0.47733333333333333, + "grad_norm": 2.7094051331203715, + "learning_rate": 2.7410079894076047e-06, + "loss": 0.427, + "step": 1790 + }, + { + "epoch": 0.4776, + "grad_norm": 2.591724951532279, + "learning_rate": 2.7388910866831535e-06, + "loss": 0.4595, + "step": 1791 + }, + { + "epoch": 0.47786666666666666, + "grad_norm": 3.0960735748281585, + "learning_rate": 2.7367740110801772e-06, + "loss": 0.485, + "step": 1792 + }, + { + "epoch": 0.47813333333333335, + "grad_norm": 2.32645674090283, + "learning_rate": 2.7346567641307405e-06, + "loss": 0.4008, + "step": 1793 + }, + { + "epoch": 0.4784, + "grad_norm": 2.2402561690812792, + "learning_rate": 2.732539347367035e-06, + "loss": 0.408, + "step": 1794 + }, + { + "epoch": 0.4786666666666667, + "grad_norm": 2.4352358715790827, + "learning_rate": 2.730421762321372e-06, + "loss": 0.4356, + "step": 1795 + }, + { + "epoch": 0.4789333333333333, + "grad_norm": 2.4906252940405342, + "learning_rate": 2.728304010526187e-06, + "loss": 0.3981, + "step": 1796 + }, + { + "epoch": 0.4792, + "grad_norm": 3.657274173613086, + "learning_rate": 2.726186093514036e-06, + "loss": 0.5146, + "step": 1797 + }, + { + "epoch": 0.47946666666666665, + "grad_norm": 2.5027203221166463, + "learning_rate": 2.724068012817593e-06, + "loss": 0.4473, + "step": 1798 + }, + { + "epoch": 0.47973333333333334, + "grad_norm": 2.4721829117223884, + "learning_rate": 2.7219497699696513e-06, + "loss": 0.4218, + "step": 1799 + }, + { + "epoch": 0.48, + "grad_norm": 2.8551956779952934, + "learning_rate": 2.719831366503122e-06, + "loss": 0.4516, + "step": 1800 + }, + { + "epoch": 0.4802666666666667, + "grad_norm": 2.431566088927174, + "learning_rate": 2.7177128039510314e-06, + "loss": 0.3818, + "step": 1801 + }, + { + "epoch": 0.4805333333333333, + "grad_norm": 2.5710468071629413, + "learning_rate": 2.7155940838465223e-06, + "loss": 0.427, + "step": 1802 + }, + { + "epoch": 0.4808, + "grad_norm": 3.5558014768926443, + "learning_rate": 2.7134752077228498e-06, + "loss": 0.4519, + "step": 1803 + }, + { + "epoch": 0.48106666666666664, + "grad_norm": 2.3600607520317203, + "learning_rate": 2.7113561771133844e-06, + "loss": 0.4091, + "step": 1804 + }, + { + "epoch": 0.48133333333333334, + "grad_norm": 2.4242684573872393, + "learning_rate": 2.709236993551606e-06, + "loss": 0.413, + "step": 1805 + }, + { + "epoch": 0.4816, + "grad_norm": 2.3865056977923182, + "learning_rate": 2.707117658571105e-06, + "loss": 0.3739, + "step": 1806 + }, + { + "epoch": 0.48186666666666667, + "grad_norm": 2.719847452078654, + "learning_rate": 2.7049981737055848e-06, + "loss": 0.4894, + "step": 1807 + }, + { + "epoch": 0.48213333333333336, + "grad_norm": 2.730910285665421, + "learning_rate": 2.702878540488853e-06, + "loss": 0.4635, + "step": 1808 + }, + { + "epoch": 0.4824, + "grad_norm": 2.5675767658722055, + "learning_rate": 2.700758760454827e-06, + "loss": 0.4122, + "step": 1809 + }, + { + "epoch": 0.4826666666666667, + "grad_norm": 2.3704899778129507, + "learning_rate": 2.6986388351375304e-06, + "loss": 0.3986, + "step": 1810 + }, + { + "epoch": 0.4829333333333333, + "grad_norm": 2.479191575110943, + "learning_rate": 2.6965187660710894e-06, + "loss": 0.4306, + "step": 1811 + }, + { + "epoch": 0.4832, + "grad_norm": 2.6213963028775034, + "learning_rate": 2.6943985547897393e-06, + "loss": 0.472, + "step": 1812 + }, + { + "epoch": 0.48346666666666666, + "grad_norm": 2.4597822024101914, + "learning_rate": 2.6922782028278137e-06, + "loss": 0.3918, + "step": 1813 + }, + { + "epoch": 0.48373333333333335, + "grad_norm": 3.0275044084859277, + "learning_rate": 2.690157711719749e-06, + "loss": 0.4478, + "step": 1814 + }, + { + "epoch": 0.484, + "grad_norm": 3.2838974511023937, + "learning_rate": 2.6880370830000846e-06, + "loss": 0.4538, + "step": 1815 + }, + { + "epoch": 0.4842666666666667, + "grad_norm": 2.5385777492272905, + "learning_rate": 2.6859163182034557e-06, + "loss": 0.4528, + "step": 1816 + }, + { + "epoch": 0.4845333333333333, + "grad_norm": 2.9997269834940523, + "learning_rate": 2.6837954188646006e-06, + "loss": 0.4751, + "step": 1817 + }, + { + "epoch": 0.4848, + "grad_norm": 2.249873583393389, + "learning_rate": 2.6816743865183496e-06, + "loss": 0.4063, + "step": 1818 + }, + { + "epoch": 0.48506666666666665, + "grad_norm": 2.6961867918362477, + "learning_rate": 2.6795532226996345e-06, + "loss": 0.4531, + "step": 1819 + }, + { + "epoch": 0.48533333333333334, + "grad_norm": 2.714595059395724, + "learning_rate": 2.6774319289434784e-06, + "loss": 0.4145, + "step": 1820 + }, + { + "epoch": 0.4856, + "grad_norm": 2.952248847398262, + "learning_rate": 2.675310506785e-06, + "loss": 0.4405, + "step": 1821 + }, + { + "epoch": 0.48586666666666667, + "grad_norm": 2.627221460342684, + "learning_rate": 2.6731889577594105e-06, + "loss": 0.4185, + "step": 1822 + }, + { + "epoch": 0.4861333333333333, + "grad_norm": 2.4798611150606535, + "learning_rate": 2.6710672834020147e-06, + "loss": 0.4532, + "step": 1823 + }, + { + "epoch": 0.4864, + "grad_norm": 2.4913862545029075, + "learning_rate": 2.6689454852482045e-06, + "loss": 0.3751, + "step": 1824 + }, + { + "epoch": 0.4866666666666667, + "grad_norm": 3.048352264678549, + "learning_rate": 2.666823564833465e-06, + "loss": 0.4569, + "step": 1825 + }, + { + "epoch": 0.48693333333333333, + "grad_norm": 2.5782097725199686, + "learning_rate": 2.664701523693367e-06, + "loss": 0.4275, + "step": 1826 + }, + { + "epoch": 0.4872, + "grad_norm": 2.8091034091912346, + "learning_rate": 2.6625793633635723e-06, + "loss": 0.4685, + "step": 1827 + }, + { + "epoch": 0.48746666666666666, + "grad_norm": 2.2857027319721355, + "learning_rate": 2.6604570853798234e-06, + "loss": 0.3771, + "step": 1828 + }, + { + "epoch": 0.48773333333333335, + "grad_norm": 2.2956668852188464, + "learning_rate": 2.6583346912779524e-06, + "loss": 0.3917, + "step": 1829 + }, + { + "epoch": 0.488, + "grad_norm": 2.3334706569658774, + "learning_rate": 2.6562121825938747e-06, + "loss": 0.3672, + "step": 1830 + }, + { + "epoch": 0.4882666666666667, + "grad_norm": 2.2429680248538615, + "learning_rate": 2.654089560863588e-06, + "loss": 0.3467, + "step": 1831 + }, + { + "epoch": 0.4885333333333333, + "grad_norm": 3.128438407597136, + "learning_rate": 2.651966827623171e-06, + "loss": 0.4672, + "step": 1832 + }, + { + "epoch": 0.4888, + "grad_norm": 2.600008008471216, + "learning_rate": 2.6498439844087848e-06, + "loss": 0.4137, + "step": 1833 + }, + { + "epoch": 0.48906666666666665, + "grad_norm": 2.310595998416151, + "learning_rate": 2.6477210327566682e-06, + "loss": 0.3922, + "step": 1834 + }, + { + "epoch": 0.48933333333333334, + "grad_norm": 2.438576406214493, + "learning_rate": 2.6455979742031407e-06, + "loss": 0.4192, + "step": 1835 + }, + { + "epoch": 0.4896, + "grad_norm": 4.549078911697079, + "learning_rate": 2.6434748102845976e-06, + "loss": 0.4503, + "step": 1836 + }, + { + "epoch": 0.4898666666666667, + "grad_norm": 2.739250061291825, + "learning_rate": 2.6413515425375106e-06, + "loss": 0.4933, + "step": 1837 + }, + { + "epoch": 0.4901333333333333, + "grad_norm": 2.878089737658472, + "learning_rate": 2.639228172498427e-06, + "loss": 0.4616, + "step": 1838 + }, + { + "epoch": 0.4904, + "grad_norm": 2.617348467439125, + "learning_rate": 2.6371047017039675e-06, + "loss": 0.4547, + "step": 1839 + }, + { + "epoch": 0.49066666666666664, + "grad_norm": 2.74240927562436, + "learning_rate": 2.6349811316908265e-06, + "loss": 0.433, + "step": 1840 + }, + { + "epoch": 0.49093333333333333, + "grad_norm": 3.700380940057675, + "learning_rate": 2.63285746399577e-06, + "loss": 0.4763, + "step": 1841 + }, + { + "epoch": 0.4912, + "grad_norm": 2.975307094630479, + "learning_rate": 2.6307337001556333e-06, + "loss": 0.4574, + "step": 1842 + }, + { + "epoch": 0.49146666666666666, + "grad_norm": 3.4391967545509603, + "learning_rate": 2.6286098417073235e-06, + "loss": 0.4693, + "step": 1843 + }, + { + "epoch": 0.49173333333333336, + "grad_norm": 2.604432555429772, + "learning_rate": 2.6264858901878156e-06, + "loss": 0.4274, + "step": 1844 + }, + { + "epoch": 0.492, + "grad_norm": 2.8065950544970977, + "learning_rate": 2.6243618471341497e-06, + "loss": 0.5153, + "step": 1845 + }, + { + "epoch": 0.4922666666666667, + "grad_norm": 3.1940320098690784, + "learning_rate": 2.6222377140834364e-06, + "loss": 0.4338, + "step": 1846 + }, + { + "epoch": 0.4925333333333333, + "grad_norm": 2.7820701348862675, + "learning_rate": 2.620113492572847e-06, + "loss": 0.4638, + "step": 1847 + }, + { + "epoch": 0.4928, + "grad_norm": 2.4949598519678604, + "learning_rate": 2.6179891841396197e-06, + "loss": 0.4383, + "step": 1848 + }, + { + "epoch": 0.49306666666666665, + "grad_norm": 2.5137486926083916, + "learning_rate": 2.6158647903210545e-06, + "loss": 0.416, + "step": 1849 + }, + { + "epoch": 0.49333333333333335, + "grad_norm": 2.900334206366739, + "learning_rate": 2.6137403126545123e-06, + "loss": 0.4365, + "step": 1850 + }, + { + "epoch": 0.4936, + "grad_norm": 3.4539742261190485, + "learning_rate": 2.6116157526774176e-06, + "loss": 0.4773, + "step": 1851 + }, + { + "epoch": 0.4938666666666667, + "grad_norm": 2.5611039332439898, + "learning_rate": 2.609491111927251e-06, + "loss": 0.4204, + "step": 1852 + }, + { + "epoch": 0.4941333333333333, + "grad_norm": 2.54914501638022, + "learning_rate": 2.607366391941554e-06, + "loss": 0.3741, + "step": 1853 + }, + { + "epoch": 0.4944, + "grad_norm": 2.762903141693212, + "learning_rate": 2.6052415942579253e-06, + "loss": 0.4647, + "step": 1854 + }, + { + "epoch": 0.49466666666666664, + "grad_norm": 2.871535138712915, + "learning_rate": 2.603116720414017e-06, + "loss": 0.4858, + "step": 1855 + }, + { + "epoch": 0.49493333333333334, + "grad_norm": 2.421535259002775, + "learning_rate": 2.6009917719475407e-06, + "loss": 0.4662, + "step": 1856 + }, + { + "epoch": 0.4952, + "grad_norm": 2.6525147458342246, + "learning_rate": 2.598866750396259e-06, + "loss": 0.4523, + "step": 1857 + }, + { + "epoch": 0.49546666666666667, + "grad_norm": 2.3052045396532144, + "learning_rate": 2.596741657297988e-06, + "loss": 0.3974, + "step": 1858 + }, + { + "epoch": 0.49573333333333336, + "grad_norm": 2.5394733260195546, + "learning_rate": 2.5946164941905956e-06, + "loss": 0.4444, + "step": 1859 + }, + { + "epoch": 0.496, + "grad_norm": 2.4894230619644646, + "learning_rate": 2.5924912626119995e-06, + "loss": 0.4171, + "step": 1860 + }, + { + "epoch": 0.4962666666666667, + "grad_norm": 2.486572819537827, + "learning_rate": 2.59036596410017e-06, + "loss": 0.4321, + "step": 1861 + }, + { + "epoch": 0.4965333333333333, + "grad_norm": 2.461913205835538, + "learning_rate": 2.5882406001931226e-06, + "loss": 0.4057, + "step": 1862 + }, + { + "epoch": 0.4968, + "grad_norm": 2.232099230068128, + "learning_rate": 2.5861151724289206e-06, + "loss": 0.4034, + "step": 1863 + }, + { + "epoch": 0.49706666666666666, + "grad_norm": 2.3399776902294334, + "learning_rate": 2.5839896823456756e-06, + "loss": 0.4107, + "step": 1864 + }, + { + "epoch": 0.49733333333333335, + "grad_norm": 2.7350465143411875, + "learning_rate": 2.581864131481543e-06, + "loss": 0.461, + "step": 1865 + }, + { + "epoch": 0.4976, + "grad_norm": 2.8532776110344433, + "learning_rate": 2.5797385213747205e-06, + "loss": 0.4409, + "step": 1866 + }, + { + "epoch": 0.4978666666666667, + "grad_norm": 2.4879180967985937, + "learning_rate": 2.577612853563452e-06, + "loss": 0.3876, + "step": 1867 + }, + { + "epoch": 0.4981333333333333, + "grad_norm": 2.257717245567488, + "learning_rate": 2.5754871295860197e-06, + "loss": 0.3662, + "step": 1868 + }, + { + "epoch": 0.4984, + "grad_norm": 2.8358322240768454, + "learning_rate": 2.5733613509807498e-06, + "loss": 0.453, + "step": 1869 + }, + { + "epoch": 0.49866666666666665, + "grad_norm": 2.4856640832967023, + "learning_rate": 2.571235519286005e-06, + "loss": 0.4142, + "step": 1870 + }, + { + "epoch": 0.49893333333333334, + "grad_norm": 3.009399174350278, + "learning_rate": 2.569109636040189e-06, + "loss": 0.4777, + "step": 1871 + }, + { + "epoch": 0.4992, + "grad_norm": 2.815079045946361, + "learning_rate": 2.5669837027817412e-06, + "loss": 0.4219, + "step": 1872 + }, + { + "epoch": 0.49946666666666667, + "grad_norm": 2.49222222983196, + "learning_rate": 2.5648577210491364e-06, + "loss": 0.3701, + "step": 1873 + }, + { + "epoch": 0.4997333333333333, + "grad_norm": 2.4358170662767122, + "learning_rate": 2.562731692380888e-06, + "loss": 0.4033, + "step": 1874 + }, + { + "epoch": 0.5, + "grad_norm": 2.682375262827003, + "learning_rate": 2.5606056183155396e-06, + "loss": 0.4551, + "step": 1875 + }, + { + "epoch": 0.5002666666666666, + "grad_norm": 2.672503169729624, + "learning_rate": 2.55847950039167e-06, + "loss": 0.458, + "step": 1876 + }, + { + "epoch": 0.5005333333333334, + "grad_norm": 2.6333823277646258, + "learning_rate": 2.556353340147888e-06, + "loss": 0.4424, + "step": 1877 + }, + { + "epoch": 0.5008, + "grad_norm": 2.494019990342067, + "learning_rate": 2.554227139122833e-06, + "loss": 0.3926, + "step": 1878 + }, + { + "epoch": 0.5010666666666667, + "grad_norm": 2.71179036620958, + "learning_rate": 2.552100898855177e-06, + "loss": 0.4892, + "step": 1879 + }, + { + "epoch": 0.5013333333333333, + "grad_norm": 2.4398831287017066, + "learning_rate": 2.5499746208836167e-06, + "loss": 0.4175, + "step": 1880 + }, + { + "epoch": 0.5016, + "grad_norm": 2.8802673569036443, + "learning_rate": 2.5478483067468777e-06, + "loss": 0.451, + "step": 1881 + }, + { + "epoch": 0.5018666666666667, + "grad_norm": 2.5109840517637254, + "learning_rate": 2.5457219579837123e-06, + "loss": 0.4508, + "step": 1882 + }, + { + "epoch": 0.5021333333333333, + "grad_norm": 2.5057422700871643, + "learning_rate": 2.5435955761328966e-06, + "loss": 0.3922, + "step": 1883 + }, + { + "epoch": 0.5024, + "grad_norm": 2.5718477121748666, + "learning_rate": 2.541469162733232e-06, + "loss": 0.4772, + "step": 1884 + }, + { + "epoch": 0.5026666666666667, + "grad_norm": 2.6665819315394304, + "learning_rate": 2.539342719323541e-06, + "loss": 0.4909, + "step": 1885 + }, + { + "epoch": 0.5029333333333333, + "grad_norm": 2.199567738408182, + "learning_rate": 2.53721624744267e-06, + "loss": 0.347, + "step": 1886 + }, + { + "epoch": 0.5032, + "grad_norm": 2.533701028409993, + "learning_rate": 2.535089748629483e-06, + "loss": 0.4255, + "step": 1887 + }, + { + "epoch": 0.5034666666666666, + "grad_norm": 2.511977086253639, + "learning_rate": 2.5329632244228665e-06, + "loss": 0.4204, + "step": 1888 + }, + { + "epoch": 0.5037333333333334, + "grad_norm": 2.4070922833093897, + "learning_rate": 2.530836676361724e-06, + "loss": 0.3746, + "step": 1889 + }, + { + "epoch": 0.504, + "grad_norm": 2.898934521076809, + "learning_rate": 2.528710105984977e-06, + "loss": 0.5087, + "step": 1890 + }, + { + "epoch": 0.5042666666666666, + "grad_norm": 2.302111251876147, + "learning_rate": 2.5265835148315617e-06, + "loss": 0.3654, + "step": 1891 + }, + { + "epoch": 0.5045333333333333, + "grad_norm": 3.1911651672270263, + "learning_rate": 2.5244569044404305e-06, + "loss": 0.4757, + "step": 1892 + }, + { + "epoch": 0.5048, + "grad_norm": 2.334166503871617, + "learning_rate": 2.5223302763505498e-06, + "loss": 0.3713, + "step": 1893 + }, + { + "epoch": 0.5050666666666667, + "grad_norm": 3.167979953949706, + "learning_rate": 2.5202036321008982e-06, + "loss": 0.4972, + "step": 1894 + }, + { + "epoch": 0.5053333333333333, + "grad_norm": 2.869395891107262, + "learning_rate": 2.518076973230466e-06, + "loss": 0.4717, + "step": 1895 + }, + { + "epoch": 0.5056, + "grad_norm": 2.549507412706508, + "learning_rate": 2.515950301278254e-06, + "loss": 0.43, + "step": 1896 + }, + { + "epoch": 0.5058666666666667, + "grad_norm": 2.810614605745093, + "learning_rate": 2.513823617783274e-06, + "loss": 0.4804, + "step": 1897 + }, + { + "epoch": 0.5061333333333333, + "grad_norm": 2.5686536592024725, + "learning_rate": 2.5116969242845437e-06, + "loss": 0.4242, + "step": 1898 + }, + { + "epoch": 0.5064, + "grad_norm": 2.8306950679268956, + "learning_rate": 2.5095702223210893e-06, + "loss": 0.4246, + "step": 1899 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 2.4465008794018672, + "learning_rate": 2.507443513431944e-06, + "loss": 0.3697, + "step": 1900 + }, + { + "epoch": 0.5069333333333333, + "grad_norm": 2.673332486428302, + "learning_rate": 2.5053167991561446e-06, + "loss": 0.4048, + "step": 1901 + }, + { + "epoch": 0.5072, + "grad_norm": 2.6227680632808417, + "learning_rate": 2.5031900810327327e-06, + "loss": 0.4069, + "step": 1902 + }, + { + "epoch": 0.5074666666666666, + "grad_norm": 2.4814318352186753, + "learning_rate": 2.5010633606007523e-06, + "loss": 0.4009, + "step": 1903 + }, + { + "epoch": 0.5077333333333334, + "grad_norm": 2.25391196531822, + "learning_rate": 2.4989366393992485e-06, + "loss": 0.3538, + "step": 1904 + }, + { + "epoch": 0.508, + "grad_norm": 2.97274296469982, + "learning_rate": 2.4968099189672673e-06, + "loss": 0.4819, + "step": 1905 + }, + { + "epoch": 0.5082666666666666, + "grad_norm": 2.3917261846567763, + "learning_rate": 2.4946832008438562e-06, + "loss": 0.4003, + "step": 1906 + }, + { + "epoch": 0.5085333333333333, + "grad_norm": 2.443536192396655, + "learning_rate": 2.4925564865680567e-06, + "loss": 0.4269, + "step": 1907 + }, + { + "epoch": 0.5088, + "grad_norm": 2.279936795156224, + "learning_rate": 2.490429777678911e-06, + "loss": 0.3629, + "step": 1908 + }, + { + "epoch": 0.5090666666666667, + "grad_norm": 2.8400741759508703, + "learning_rate": 2.4883030757154576e-06, + "loss": 0.478, + "step": 1909 + }, + { + "epoch": 0.5093333333333333, + "grad_norm": 2.7770953885378837, + "learning_rate": 2.4861763822167275e-06, + "loss": 0.4777, + "step": 1910 + }, + { + "epoch": 0.5096, + "grad_norm": 2.477228012921943, + "learning_rate": 2.4840496987217465e-06, + "loss": 0.392, + "step": 1911 + }, + { + "epoch": 0.5098666666666667, + "grad_norm": 2.646739650866154, + "learning_rate": 2.4819230267695356e-06, + "loss": 0.475, + "step": 1912 + }, + { + "epoch": 0.5101333333333333, + "grad_norm": 2.6962370992533664, + "learning_rate": 2.4797963678991026e-06, + "loss": 0.4702, + "step": 1913 + }, + { + "epoch": 0.5104, + "grad_norm": 2.3964409830123325, + "learning_rate": 2.4776697236494506e-06, + "loss": 0.4248, + "step": 1914 + }, + { + "epoch": 0.5106666666666667, + "grad_norm": 2.851579927553991, + "learning_rate": 2.4755430955595707e-06, + "loss": 0.4182, + "step": 1915 + }, + { + "epoch": 0.5109333333333334, + "grad_norm": 2.5814428433326913, + "learning_rate": 2.4734164851684387e-06, + "loss": 0.4293, + "step": 1916 + }, + { + "epoch": 0.5112, + "grad_norm": 3.2331085312802292, + "learning_rate": 2.4712898940150233e-06, + "loss": 0.5273, + "step": 1917 + }, + { + "epoch": 0.5114666666666666, + "grad_norm": 2.2850645704967327, + "learning_rate": 2.469163323638276e-06, + "loss": 0.3811, + "step": 1918 + }, + { + "epoch": 0.5117333333333334, + "grad_norm": 2.6874119636169533, + "learning_rate": 2.4670367755771343e-06, + "loss": 0.4172, + "step": 1919 + }, + { + "epoch": 0.512, + "grad_norm": 2.8378234790849137, + "learning_rate": 2.4649102513705175e-06, + "loss": 0.4482, + "step": 1920 + }, + { + "epoch": 0.5122666666666666, + "grad_norm": 2.775833377887015, + "learning_rate": 2.4627837525573306e-06, + "loss": 0.4462, + "step": 1921 + }, + { + "epoch": 0.5125333333333333, + "grad_norm": 3.0191482696230487, + "learning_rate": 2.4606572806764596e-06, + "loss": 0.5538, + "step": 1922 + }, + { + "epoch": 0.5128, + "grad_norm": 2.365948142487899, + "learning_rate": 2.458530837266769e-06, + "loss": 0.4256, + "step": 1923 + }, + { + "epoch": 0.5130666666666667, + "grad_norm": 2.513942869632753, + "learning_rate": 2.4564044238671038e-06, + "loss": 0.3916, + "step": 1924 + }, + { + "epoch": 0.5133333333333333, + "grad_norm": 2.771977120678539, + "learning_rate": 2.4542780420162886e-06, + "loss": 0.4794, + "step": 1925 + }, + { + "epoch": 0.5136, + "grad_norm": 2.907463729138005, + "learning_rate": 2.452151693253123e-06, + "loss": 0.4475, + "step": 1926 + }, + { + "epoch": 0.5138666666666667, + "grad_norm": 2.644519104884349, + "learning_rate": 2.4500253791163837e-06, + "loss": 0.4203, + "step": 1927 + }, + { + "epoch": 0.5141333333333333, + "grad_norm": 2.6481502595575677, + "learning_rate": 2.4478991011448243e-06, + "loss": 0.4394, + "step": 1928 + }, + { + "epoch": 0.5144, + "grad_norm": 2.4901492246994055, + "learning_rate": 2.4457728608771676e-06, + "loss": 0.4354, + "step": 1929 + }, + { + "epoch": 0.5146666666666667, + "grad_norm": 2.6133791195298777, + "learning_rate": 2.443646659852113e-06, + "loss": 0.4175, + "step": 1930 + }, + { + "epoch": 0.5149333333333334, + "grad_norm": 2.8459328076255996, + "learning_rate": 2.4415204996083308e-06, + "loss": 0.437, + "step": 1931 + }, + { + "epoch": 0.5152, + "grad_norm": 3.0478893546460517, + "learning_rate": 2.439394381684461e-06, + "loss": 0.4707, + "step": 1932 + }, + { + "epoch": 0.5154666666666666, + "grad_norm": 2.439043378752514, + "learning_rate": 2.4372683076191123e-06, + "loss": 0.4462, + "step": 1933 + }, + { + "epoch": 0.5157333333333334, + "grad_norm": 2.7596786882994757, + "learning_rate": 2.435142278950863e-06, + "loss": 0.4533, + "step": 1934 + }, + { + "epoch": 0.516, + "grad_norm": 2.3553212865123183, + "learning_rate": 2.4330162972182605e-06, + "loss": 0.4116, + "step": 1935 + }, + { + "epoch": 0.5162666666666667, + "grad_norm": 2.4619441698449536, + "learning_rate": 2.4308903639598118e-06, + "loss": 0.3975, + "step": 1936 + }, + { + "epoch": 0.5165333333333333, + "grad_norm": 2.8508561252686255, + "learning_rate": 2.4287644807139952e-06, + "loss": 0.4177, + "step": 1937 + }, + { + "epoch": 0.5168, + "grad_norm": 2.470165381527184, + "learning_rate": 2.4266386490192515e-06, + "loss": 0.4496, + "step": 1938 + }, + { + "epoch": 0.5170666666666667, + "grad_norm": 2.689767938635777, + "learning_rate": 2.4245128704139807e-06, + "loss": 0.5167, + "step": 1939 + }, + { + "epoch": 0.5173333333333333, + "grad_norm": 2.6013873491945625, + "learning_rate": 2.4223871464365486e-06, + "loss": 0.4785, + "step": 1940 + }, + { + "epoch": 0.5176, + "grad_norm": 2.6173916160187574, + "learning_rate": 2.42026147862528e-06, + "loss": 0.4428, + "step": 1941 + }, + { + "epoch": 0.5178666666666667, + "grad_norm": 3.626912819835529, + "learning_rate": 2.418135868518458e-06, + "loss": 0.4452, + "step": 1942 + }, + { + "epoch": 0.5181333333333333, + "grad_norm": 2.5830718188617943, + "learning_rate": 2.4160103176543248e-06, + "loss": 0.4126, + "step": 1943 + }, + { + "epoch": 0.5184, + "grad_norm": 2.6308681499768136, + "learning_rate": 2.4138848275710798e-06, + "loss": 0.4921, + "step": 1944 + }, + { + "epoch": 0.5186666666666667, + "grad_norm": 2.4718996178791444, + "learning_rate": 2.411759399806879e-06, + "loss": 0.388, + "step": 1945 + }, + { + "epoch": 0.5189333333333334, + "grad_norm": 2.8730402609687804, + "learning_rate": 2.409634035899831e-06, + "loss": 0.4917, + "step": 1946 + }, + { + "epoch": 0.5192, + "grad_norm": 2.6834975502948586, + "learning_rate": 2.407508737388001e-06, + "loss": 0.4518, + "step": 1947 + }, + { + "epoch": 0.5194666666666666, + "grad_norm": 2.3487491912137375, + "learning_rate": 2.405383505809406e-06, + "loss": 0.4036, + "step": 1948 + }, + { + "epoch": 0.5197333333333334, + "grad_norm": 2.5010853721954143, + "learning_rate": 2.4032583427020127e-06, + "loss": 0.4171, + "step": 1949 + }, + { + "epoch": 0.52, + "grad_norm": 2.5504325422521275, + "learning_rate": 2.401133249603741e-06, + "loss": 0.4338, + "step": 1950 + }, + { + "epoch": 0.5202666666666667, + "grad_norm": 2.2683953219844035, + "learning_rate": 2.3990082280524597e-06, + "loss": 0.4061, + "step": 1951 + }, + { + "epoch": 0.5205333333333333, + "grad_norm": 2.7505244414342602, + "learning_rate": 2.396883279585983e-06, + "loss": 0.4162, + "step": 1952 + }, + { + "epoch": 0.5208, + "grad_norm": 2.6358219942376606, + "learning_rate": 2.394758405742075e-06, + "loss": 0.4383, + "step": 1953 + }, + { + "epoch": 0.5210666666666667, + "grad_norm": 2.595918291519641, + "learning_rate": 2.392633608058446e-06, + "loss": 0.4275, + "step": 1954 + }, + { + "epoch": 0.5213333333333333, + "grad_norm": 2.3327108621094372, + "learning_rate": 2.39050888807275e-06, + "loss": 0.3893, + "step": 1955 + }, + { + "epoch": 0.5216, + "grad_norm": 2.4752905092664492, + "learning_rate": 2.388384247322583e-06, + "loss": 0.4135, + "step": 1956 + }, + { + "epoch": 0.5218666666666667, + "grad_norm": 2.6335340133490055, + "learning_rate": 2.3862596873454877e-06, + "loss": 0.4385, + "step": 1957 + }, + { + "epoch": 0.5221333333333333, + "grad_norm": 2.424012168008536, + "learning_rate": 2.3841352096789468e-06, + "loss": 0.4182, + "step": 1958 + }, + { + "epoch": 0.5224, + "grad_norm": 2.627656993498855, + "learning_rate": 2.382010815860381e-06, + "loss": 0.4578, + "step": 1959 + }, + { + "epoch": 0.5226666666666666, + "grad_norm": 3.4623528024628394, + "learning_rate": 2.3798865074271534e-06, + "loss": 0.4102, + "step": 1960 + }, + { + "epoch": 0.5229333333333334, + "grad_norm": 2.58340380801307, + "learning_rate": 2.3777622859165644e-06, + "loss": 0.4504, + "step": 1961 + }, + { + "epoch": 0.5232, + "grad_norm": 2.517340495049269, + "learning_rate": 2.3756381528658507e-06, + "loss": 0.3902, + "step": 1962 + }, + { + "epoch": 0.5234666666666666, + "grad_norm": 2.4786381975304743, + "learning_rate": 2.3735141098121852e-06, + "loss": 0.4254, + "step": 1963 + }, + { + "epoch": 0.5237333333333334, + "grad_norm": 2.396190603019416, + "learning_rate": 2.3713901582926778e-06, + "loss": 0.3879, + "step": 1964 + }, + { + "epoch": 0.524, + "grad_norm": 2.7439405548197207, + "learning_rate": 2.369266299844368e-06, + "loss": 0.4074, + "step": 1965 + }, + { + "epoch": 0.5242666666666667, + "grad_norm": 2.433148884723189, + "learning_rate": 2.3671425360042312e-06, + "loss": 0.3703, + "step": 1966 + }, + { + "epoch": 0.5245333333333333, + "grad_norm": 2.8900231399107588, + "learning_rate": 2.365018868309174e-06, + "loss": 0.5241, + "step": 1967 + }, + { + "epoch": 0.5248, + "grad_norm": 2.3101178157503317, + "learning_rate": 2.3628952982960333e-06, + "loss": 0.3875, + "step": 1968 + }, + { + "epoch": 0.5250666666666667, + "grad_norm": 2.607947244069992, + "learning_rate": 2.360771827501574e-06, + "loss": 0.4254, + "step": 1969 + }, + { + "epoch": 0.5253333333333333, + "grad_norm": 2.5332761769299674, + "learning_rate": 2.35864845746249e-06, + "loss": 0.4082, + "step": 1970 + }, + { + "epoch": 0.5256, + "grad_norm": 2.50046402329097, + "learning_rate": 2.356525189715403e-06, + "loss": 0.4203, + "step": 1971 + }, + { + "epoch": 0.5258666666666667, + "grad_norm": 2.562748620505292, + "learning_rate": 2.35440202579686e-06, + "loss": 0.4087, + "step": 1972 + }, + { + "epoch": 0.5261333333333333, + "grad_norm": 2.5284396787337498, + "learning_rate": 2.352278967243332e-06, + "loss": 0.4086, + "step": 1973 + }, + { + "epoch": 0.5264, + "grad_norm": 4.6031488953662585, + "learning_rate": 2.350156015591217e-06, + "loss": 0.4566, + "step": 1974 + }, + { + "epoch": 0.5266666666666666, + "grad_norm": 2.426977349146465, + "learning_rate": 2.34803317237683e-06, + "loss": 0.3891, + "step": 1975 + }, + { + "epoch": 0.5269333333333334, + "grad_norm": 2.6951894660105835, + "learning_rate": 2.3459104391364127e-06, + "loss": 0.4558, + "step": 1976 + }, + { + "epoch": 0.5272, + "grad_norm": 2.479020113964753, + "learning_rate": 2.343787817406126e-06, + "loss": 0.4181, + "step": 1977 + }, + { + "epoch": 0.5274666666666666, + "grad_norm": 2.6001886465089603, + "learning_rate": 2.341665308722048e-06, + "loss": 0.4304, + "step": 1978 + }, + { + "epoch": 0.5277333333333334, + "grad_norm": 2.689729018558113, + "learning_rate": 2.3395429146201774e-06, + "loss": 0.44, + "step": 1979 + }, + { + "epoch": 0.528, + "grad_norm": 2.4534303777180324, + "learning_rate": 2.337420636636429e-06, + "loss": 0.3596, + "step": 1980 + }, + { + "epoch": 0.5282666666666667, + "grad_norm": 2.500214822910843, + "learning_rate": 2.3352984763066334e-06, + "loss": 0.4151, + "step": 1981 + }, + { + "epoch": 0.5285333333333333, + "grad_norm": 2.6657082447073095, + "learning_rate": 2.333176435166536e-06, + "loss": 0.4421, + "step": 1982 + }, + { + "epoch": 0.5288, + "grad_norm": 2.70554896625339, + "learning_rate": 2.331054514751796e-06, + "loss": 0.4697, + "step": 1983 + }, + { + "epoch": 0.5290666666666667, + "grad_norm": 2.392354980960584, + "learning_rate": 2.3289327165979866e-06, + "loss": 0.3946, + "step": 1984 + }, + { + "epoch": 0.5293333333333333, + "grad_norm": 2.828468793928897, + "learning_rate": 2.32681104224059e-06, + "loss": 0.4486, + "step": 1985 + }, + { + "epoch": 0.5296, + "grad_norm": 2.4400224772683696, + "learning_rate": 2.3246894932150005e-06, + "loss": 0.4281, + "step": 1986 + }, + { + "epoch": 0.5298666666666667, + "grad_norm": 2.6532647992289062, + "learning_rate": 2.322568071056523e-06, + "loss": 0.4356, + "step": 1987 + }, + { + "epoch": 0.5301333333333333, + "grad_norm": 2.5250457708354728, + "learning_rate": 2.320446777300366e-06, + "loss": 0.4188, + "step": 1988 + }, + { + "epoch": 0.5304, + "grad_norm": 2.5424292928129275, + "learning_rate": 2.318325613481651e-06, + "loss": 0.4219, + "step": 1989 + }, + { + "epoch": 0.5306666666666666, + "grad_norm": 2.435983413542953, + "learning_rate": 2.3162045811354007e-06, + "loss": 0.3974, + "step": 1990 + }, + { + "epoch": 0.5309333333333334, + "grad_norm": 2.400572034255987, + "learning_rate": 2.3140836817965447e-06, + "loss": 0.413, + "step": 1991 + }, + { + "epoch": 0.5312, + "grad_norm": 2.5507753018440695, + "learning_rate": 2.3119629169999163e-06, + "loss": 0.4307, + "step": 1992 + }, + { + "epoch": 0.5314666666666666, + "grad_norm": 2.5965107215893823, + "learning_rate": 2.309842288280251e-06, + "loss": 0.4258, + "step": 1993 + }, + { + "epoch": 0.5317333333333333, + "grad_norm": 2.9663078397801312, + "learning_rate": 2.3077217971721875e-06, + "loss": 0.4795, + "step": 1994 + }, + { + "epoch": 0.532, + "grad_norm": 2.6996014545433233, + "learning_rate": 2.305601445210261e-06, + "loss": 0.4025, + "step": 1995 + }, + { + "epoch": 0.5322666666666667, + "grad_norm": 2.5249532023765697, + "learning_rate": 2.30348123392891e-06, + "loss": 0.4345, + "step": 1996 + }, + { + "epoch": 0.5325333333333333, + "grad_norm": 3.5571836111093083, + "learning_rate": 2.3013611648624712e-06, + "loss": 0.4846, + "step": 1997 + }, + { + "epoch": 0.5328, + "grad_norm": 2.3402421729711724, + "learning_rate": 2.299241239545174e-06, + "loss": 0.3787, + "step": 1998 + }, + { + "epoch": 0.5330666666666667, + "grad_norm": 2.757137861815277, + "learning_rate": 2.297121459511148e-06, + "loss": 0.4576, + "step": 1999 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 2.6841950227137783, + "learning_rate": 2.295001826294416e-06, + "loss": 0.4681, + "step": 2000 + }, + { + "epoch": 0.5336, + "grad_norm": 2.5628708063115853, + "learning_rate": 2.2928823414288954e-06, + "loss": 0.3819, + "step": 2001 + }, + { + "epoch": 0.5338666666666667, + "grad_norm": 2.698572596545802, + "learning_rate": 2.2907630064483947e-06, + "loss": 0.4432, + "step": 2002 + }, + { + "epoch": 0.5341333333333333, + "grad_norm": 3.309250702095396, + "learning_rate": 2.2886438228866156e-06, + "loss": 0.5014, + "step": 2003 + }, + { + "epoch": 0.5344, + "grad_norm": 3.039104353636787, + "learning_rate": 2.2865247922771506e-06, + "loss": 0.532, + "step": 2004 + }, + { + "epoch": 0.5346666666666666, + "grad_norm": 2.5645573832713975, + "learning_rate": 2.2844059161534785e-06, + "loss": 0.4036, + "step": 2005 + }, + { + "epoch": 0.5349333333333334, + "grad_norm": 2.4940162434387054, + "learning_rate": 2.2822871960489685e-06, + "loss": 0.4527, + "step": 2006 + }, + { + "epoch": 0.5352, + "grad_norm": 2.447957628080551, + "learning_rate": 2.280168633496879e-06, + "loss": 0.4107, + "step": 2007 + }, + { + "epoch": 0.5354666666666666, + "grad_norm": 2.3240347660843494, + "learning_rate": 2.278050230030349e-06, + "loss": 0.402, + "step": 2008 + }, + { + "epoch": 0.5357333333333333, + "grad_norm": 2.6702978610493453, + "learning_rate": 2.275931987182408e-06, + "loss": 0.4314, + "step": 2009 + }, + { + "epoch": 0.536, + "grad_norm": 2.749234626357234, + "learning_rate": 2.2738139064859652e-06, + "loss": 0.4149, + "step": 2010 + }, + { + "epoch": 0.5362666666666667, + "grad_norm": 2.755437987029103, + "learning_rate": 2.2716959894738137e-06, + "loss": 0.4791, + "step": 2011 + }, + { + "epoch": 0.5365333333333333, + "grad_norm": 2.5552227834262338, + "learning_rate": 2.2695782376786284e-06, + "loss": 0.4839, + "step": 2012 + }, + { + "epoch": 0.5368, + "grad_norm": 2.5907948137081336, + "learning_rate": 2.2674606526329664e-06, + "loss": 0.4249, + "step": 2013 + }, + { + "epoch": 0.5370666666666667, + "grad_norm": 2.334174601172514, + "learning_rate": 2.2653432358692603e-06, + "loss": 0.3547, + "step": 2014 + }, + { + "epoch": 0.5373333333333333, + "grad_norm": 2.618661204267193, + "learning_rate": 2.2632259889198236e-06, + "loss": 0.4211, + "step": 2015 + }, + { + "epoch": 0.5376, + "grad_norm": 2.5711921262850552, + "learning_rate": 2.2611089133168465e-06, + "loss": 0.4554, + "step": 2016 + }, + { + "epoch": 0.5378666666666667, + "grad_norm": 2.390000779393162, + "learning_rate": 2.258992010592396e-06, + "loss": 0.3972, + "step": 2017 + }, + { + "epoch": 0.5381333333333334, + "grad_norm": 2.547044137539703, + "learning_rate": 2.2568752822784115e-06, + "loss": 0.4193, + "step": 2018 + }, + { + "epoch": 0.5384, + "grad_norm": 2.86739564579193, + "learning_rate": 2.2547587299067074e-06, + "loss": 0.4812, + "step": 2019 + }, + { + "epoch": 0.5386666666666666, + "grad_norm": 2.6952085120372034, + "learning_rate": 2.252642355008973e-06, + "loss": 0.434, + "step": 2020 + }, + { + "epoch": 0.5389333333333334, + "grad_norm": 2.876634276851004, + "learning_rate": 2.2505261591167648e-06, + "loss": 0.4347, + "step": 2021 + }, + { + "epoch": 0.5392, + "grad_norm": 2.472742893885433, + "learning_rate": 2.248410143761513e-06, + "loss": 0.3802, + "step": 2022 + }, + { + "epoch": 0.5394666666666666, + "grad_norm": 3.7451322035109564, + "learning_rate": 2.2462943104745183e-06, + "loss": 0.428, + "step": 2023 + }, + { + "epoch": 0.5397333333333333, + "grad_norm": 2.596560387788704, + "learning_rate": 2.2441786607869446e-06, + "loss": 0.3937, + "step": 2024 + }, + { + "epoch": 0.54, + "grad_norm": 2.553733170881301, + "learning_rate": 2.2420631962298276e-06, + "loss": 0.475, + "step": 2025 + }, + { + "epoch": 0.5402666666666667, + "grad_norm": 3.244427604384635, + "learning_rate": 2.239947918334068e-06, + "loss": 0.454, + "step": 2026 + }, + { + "epoch": 0.5405333333333333, + "grad_norm": 2.369605830091367, + "learning_rate": 2.237832828630429e-06, + "loss": 0.4092, + "step": 2027 + }, + { + "epoch": 0.5408, + "grad_norm": 2.74401716865118, + "learning_rate": 2.235717928649541e-06, + "loss": 0.4226, + "step": 2028 + }, + { + "epoch": 0.5410666666666667, + "grad_norm": 2.617327215716713, + "learning_rate": 2.233603219921895e-06, + "loss": 0.418, + "step": 2029 + }, + { + "epoch": 0.5413333333333333, + "grad_norm": 2.564733870648377, + "learning_rate": 2.231488703977845e-06, + "loss": 0.3917, + "step": 2030 + }, + { + "epoch": 0.5416, + "grad_norm": 2.7397304305170045, + "learning_rate": 2.2293743823476027e-06, + "loss": 0.4544, + "step": 2031 + }, + { + "epoch": 0.5418666666666667, + "grad_norm": 2.8059798243318737, + "learning_rate": 2.2272602565612424e-06, + "loss": 0.4694, + "step": 2032 + }, + { + "epoch": 0.5421333333333334, + "grad_norm": 2.539786660303617, + "learning_rate": 2.225146328148696e-06, + "loss": 0.4076, + "step": 2033 + }, + { + "epoch": 0.5424, + "grad_norm": 2.5921565493660204, + "learning_rate": 2.22303259863975e-06, + "loss": 0.3823, + "step": 2034 + }, + { + "epoch": 0.5426666666666666, + "grad_norm": 2.336974309457325, + "learning_rate": 2.2209190695640505e-06, + "loss": 0.3938, + "step": 2035 + }, + { + "epoch": 0.5429333333333334, + "grad_norm": 2.476270058118478, + "learning_rate": 2.2188057424510977e-06, + "loss": 0.3993, + "step": 2036 + }, + { + "epoch": 0.5432, + "grad_norm": 2.5554749580589253, + "learning_rate": 2.216692618830243e-06, + "loss": 0.4262, + "step": 2037 + }, + { + "epoch": 0.5434666666666667, + "grad_norm": 2.7685632968174834, + "learning_rate": 2.2145797002306937e-06, + "loss": 0.4471, + "step": 2038 + }, + { + "epoch": 0.5437333333333333, + "grad_norm": 2.551800688848467, + "learning_rate": 2.2124669881815066e-06, + "loss": 0.4245, + "step": 2039 + }, + { + "epoch": 0.544, + "grad_norm": 2.617606674878853, + "learning_rate": 2.21035448421159e-06, + "loss": 0.3814, + "step": 2040 + }, + { + "epoch": 0.5442666666666667, + "grad_norm": 3.2251050990579078, + "learning_rate": 2.2082421898497027e-06, + "loss": 0.4363, + "step": 2041 + }, + { + "epoch": 0.5445333333333333, + "grad_norm": 2.4175315870390657, + "learning_rate": 2.206130106624449e-06, + "loss": 0.4173, + "step": 2042 + }, + { + "epoch": 0.5448, + "grad_norm": 2.5979243451574208, + "learning_rate": 2.204018236064284e-06, + "loss": 0.4018, + "step": 2043 + }, + { + "epoch": 0.5450666666666667, + "grad_norm": 2.668384601516308, + "learning_rate": 2.201906579697505e-06, + "loss": 0.419, + "step": 2044 + }, + { + "epoch": 0.5453333333333333, + "grad_norm": 2.474052558821411, + "learning_rate": 2.1997951390522564e-06, + "loss": 0.412, + "step": 2045 + }, + { + "epoch": 0.5456, + "grad_norm": 2.6498272390110613, + "learning_rate": 2.197683915656529e-06, + "loss": 0.4402, + "step": 2046 + }, + { + "epoch": 0.5458666666666666, + "grad_norm": 2.7533289615262384, + "learning_rate": 2.1955729110381507e-06, + "loss": 0.4482, + "step": 2047 + }, + { + "epoch": 0.5461333333333334, + "grad_norm": 2.6140638040640964, + "learning_rate": 2.1934621267247945e-06, + "loss": 0.4506, + "step": 2048 + }, + { + "epoch": 0.5464, + "grad_norm": 2.498825161542844, + "learning_rate": 2.1913515642439755e-06, + "loss": 0.4342, + "step": 2049 + }, + { + "epoch": 0.5466666666666666, + "grad_norm": 3.1244013309238787, + "learning_rate": 2.189241225123044e-06, + "loss": 0.4001, + "step": 2050 + }, + { + "epoch": 0.5469333333333334, + "grad_norm": 2.4100499490527567, + "learning_rate": 2.1871311108891917e-06, + "loss": 0.3625, + "step": 2051 + }, + { + "epoch": 0.5472, + "grad_norm": 2.5369405392063467, + "learning_rate": 2.1850212230694485e-06, + "loss": 0.438, + "step": 2052 + }, + { + "epoch": 0.5474666666666667, + "grad_norm": 2.595697601187948, + "learning_rate": 2.182911563190676e-06, + "loss": 0.4134, + "step": 2053 + }, + { + "epoch": 0.5477333333333333, + "grad_norm": 2.6771102184268445, + "learning_rate": 2.1808021327795753e-06, + "loss": 0.4202, + "step": 2054 + }, + { + "epoch": 0.548, + "grad_norm": 2.5251701418397454, + "learning_rate": 2.17869293336268e-06, + "loss": 0.4072, + "step": 2055 + }, + { + "epoch": 0.5482666666666667, + "grad_norm": 2.3628931210234447, + "learning_rate": 2.176583966466356e-06, + "loss": 0.3914, + "step": 2056 + }, + { + "epoch": 0.5485333333333333, + "grad_norm": 2.504142254132756, + "learning_rate": 2.1744752336168017e-06, + "loss": 0.4265, + "step": 2057 + }, + { + "epoch": 0.5488, + "grad_norm": 2.309791359916138, + "learning_rate": 2.172366736340044e-06, + "loss": 0.401, + "step": 2058 + }, + { + "epoch": 0.5490666666666667, + "grad_norm": 2.4071456759194567, + "learning_rate": 2.1702584761619437e-06, + "loss": 0.3906, + "step": 2059 + }, + { + "epoch": 0.5493333333333333, + "grad_norm": 2.7386479953130825, + "learning_rate": 2.1681504546081844e-06, + "loss": 0.4134, + "step": 2060 + }, + { + "epoch": 0.5496, + "grad_norm": 2.361437649794465, + "learning_rate": 2.1660426732042813e-06, + "loss": 0.4016, + "step": 2061 + }, + { + "epoch": 0.5498666666666666, + "grad_norm": 2.64890806665946, + "learning_rate": 2.1639351334755756e-06, + "loss": 0.435, + "step": 2062 + }, + { + "epoch": 0.5501333333333334, + "grad_norm": 2.4354798430314655, + "learning_rate": 2.1618278369472297e-06, + "loss": 0.3641, + "step": 2063 + }, + { + "epoch": 0.5504, + "grad_norm": 2.698690664886776, + "learning_rate": 2.1597207851442346e-06, + "loss": 0.4553, + "step": 2064 + }, + { + "epoch": 0.5506666666666666, + "grad_norm": 2.5077633660326883, + "learning_rate": 2.157613979591404e-06, + "loss": 0.3996, + "step": 2065 + }, + { + "epoch": 0.5509333333333334, + "grad_norm": 2.4561472969893794, + "learning_rate": 2.1555074218133677e-06, + "loss": 0.3757, + "step": 2066 + }, + { + "epoch": 0.5512, + "grad_norm": 2.6927414463319637, + "learning_rate": 2.1534011133345836e-06, + "loss": 0.4589, + "step": 2067 + }, + { + "epoch": 0.5514666666666667, + "grad_norm": 2.6630625266161996, + "learning_rate": 2.151295055679324e-06, + "loss": 0.4503, + "step": 2068 + }, + { + "epoch": 0.5517333333333333, + "grad_norm": 2.540902131974641, + "learning_rate": 2.1491892503716834e-06, + "loss": 0.4221, + "step": 2069 + }, + { + "epoch": 0.552, + "grad_norm": 2.6300618853878084, + "learning_rate": 2.1470836989355687e-06, + "loss": 0.4426, + "step": 2070 + }, + { + "epoch": 0.5522666666666667, + "grad_norm": 2.532209355005413, + "learning_rate": 2.1449784028947086e-06, + "loss": 0.4534, + "step": 2071 + }, + { + "epoch": 0.5525333333333333, + "grad_norm": 2.752941969394289, + "learning_rate": 2.1428733637726456e-06, + "loss": 0.4182, + "step": 2072 + }, + { + "epoch": 0.5528, + "grad_norm": 2.4144610650068996, + "learning_rate": 2.1407685830927314e-06, + "loss": 0.3679, + "step": 2073 + }, + { + "epoch": 0.5530666666666667, + "grad_norm": 2.854534990621284, + "learning_rate": 2.1386640623781378e-06, + "loss": 0.4792, + "step": 2074 + }, + { + "epoch": 0.5533333333333333, + "grad_norm": 2.563077481835282, + "learning_rate": 2.1365598031518446e-06, + "loss": 0.4166, + "step": 2075 + }, + { + "epoch": 0.5536, + "grad_norm": 2.868661834153667, + "learning_rate": 2.1344558069366423e-06, + "loss": 0.4757, + "step": 2076 + }, + { + "epoch": 0.5538666666666666, + "grad_norm": 3.1177293585766286, + "learning_rate": 2.1323520752551314e-06, + "loss": 0.4592, + "step": 2077 + }, + { + "epoch": 0.5541333333333334, + "grad_norm": 2.641953973474128, + "learning_rate": 2.1302486096297216e-06, + "loss": 0.4641, + "step": 2078 + }, + { + "epoch": 0.5544, + "grad_norm": 2.354696830226298, + "learning_rate": 2.1281454115826313e-06, + "loss": 0.376, + "step": 2079 + }, + { + "epoch": 0.5546666666666666, + "grad_norm": 2.5368451612531193, + "learning_rate": 2.1260424826358806e-06, + "loss": 0.4329, + "step": 2080 + }, + { + "epoch": 0.5549333333333333, + "grad_norm": 2.6845428191469938, + "learning_rate": 2.1239398243113e-06, + "loss": 0.4412, + "step": 2081 + }, + { + "epoch": 0.5552, + "grad_norm": 2.828879350159909, + "learning_rate": 2.1218374381305234e-06, + "loss": 0.4792, + "step": 2082 + }, + { + "epoch": 0.5554666666666667, + "grad_norm": 2.982013905954617, + "learning_rate": 2.119735325614983e-06, + "loss": 0.4324, + "step": 2083 + }, + { + "epoch": 0.5557333333333333, + "grad_norm": 2.2055220978178567, + "learning_rate": 2.1176334882859196e-06, + "loss": 0.3929, + "step": 2084 + }, + { + "epoch": 0.556, + "grad_norm": 2.8430059233313556, + "learning_rate": 2.11553192766437e-06, + "loss": 0.4897, + "step": 2085 + }, + { + "epoch": 0.5562666666666667, + "grad_norm": 2.400789004324637, + "learning_rate": 2.113430645271173e-06, + "loss": 0.3993, + "step": 2086 + }, + { + "epoch": 0.5565333333333333, + "grad_norm": 2.5477300582419216, + "learning_rate": 2.1113296426269646e-06, + "loss": 0.4224, + "step": 2087 + }, + { + "epoch": 0.5568, + "grad_norm": 2.5838047375773523, + "learning_rate": 2.1092289212521815e-06, + "loss": 0.4214, + "step": 2088 + }, + { + "epoch": 0.5570666666666667, + "grad_norm": 2.46008086917865, + "learning_rate": 2.107128482667052e-06, + "loss": 0.4177, + "step": 2089 + }, + { + "epoch": 0.5573333333333333, + "grad_norm": 2.291151703225371, + "learning_rate": 2.1050283283916033e-06, + "loss": 0.3712, + "step": 2090 + }, + { + "epoch": 0.5576, + "grad_norm": 2.6245027685624263, + "learning_rate": 2.102928459945656e-06, + "loss": 0.4623, + "step": 2091 + }, + { + "epoch": 0.5578666666666666, + "grad_norm": 3.074202823876614, + "learning_rate": 2.1008288788488255e-06, + "loss": 0.5044, + "step": 2092 + }, + { + "epoch": 0.5581333333333334, + "grad_norm": 2.556049679350258, + "learning_rate": 2.0987295866205146e-06, + "loss": 0.4096, + "step": 2093 + }, + { + "epoch": 0.5584, + "grad_norm": 2.542208187685236, + "learning_rate": 2.0966305847799216e-06, + "loss": 0.4253, + "step": 2094 + }, + { + "epoch": 0.5586666666666666, + "grad_norm": 2.530543872231399, + "learning_rate": 2.094531874846033e-06, + "loss": 0.4129, + "step": 2095 + }, + { + "epoch": 0.5589333333333333, + "grad_norm": 2.4159945451912783, + "learning_rate": 2.0924334583376236e-06, + "loss": 0.4023, + "step": 2096 + }, + { + "epoch": 0.5592, + "grad_norm": 2.41804106768776, + "learning_rate": 2.0903353367732564e-06, + "loss": 0.3709, + "step": 2097 + }, + { + "epoch": 0.5594666666666667, + "grad_norm": 2.35494382283674, + "learning_rate": 2.088237511671282e-06, + "loss": 0.3932, + "step": 2098 + }, + { + "epoch": 0.5597333333333333, + "grad_norm": 2.36401076755346, + "learning_rate": 2.0861399845498332e-06, + "loss": 0.3708, + "step": 2099 + }, + { + "epoch": 0.56, + "grad_norm": 2.4981968872579885, + "learning_rate": 2.0840427569268306e-06, + "loss": 0.4479, + "step": 2100 + }, + { + "epoch": 0.5602666666666667, + "grad_norm": 2.646838338283215, + "learning_rate": 2.0819458303199776e-06, + "loss": 0.456, + "step": 2101 + }, + { + "epoch": 0.5605333333333333, + "grad_norm": 2.669602803088497, + "learning_rate": 2.079849206246757e-06, + "loss": 0.4887, + "step": 2102 + }, + { + "epoch": 0.5608, + "grad_norm": 2.595579652286932, + "learning_rate": 2.077752886224436e-06, + "loss": 0.4508, + "step": 2103 + }, + { + "epoch": 0.5610666666666667, + "grad_norm": 2.635416015531328, + "learning_rate": 2.0756568717700608e-06, + "loss": 0.4142, + "step": 2104 + }, + { + "epoch": 0.5613333333333334, + "grad_norm": 2.2711810678795987, + "learning_rate": 2.0735611644004552e-06, + "loss": 0.3642, + "step": 2105 + }, + { + "epoch": 0.5616, + "grad_norm": 2.357177015145926, + "learning_rate": 2.0714657656322214e-06, + "loss": 0.3959, + "step": 2106 + }, + { + "epoch": 0.5618666666666666, + "grad_norm": 2.8560283367403656, + "learning_rate": 2.069370676981738e-06, + "loss": 0.448, + "step": 2107 + }, + { + "epoch": 0.5621333333333334, + "grad_norm": 2.589055054787894, + "learning_rate": 2.0672758999651623e-06, + "loss": 0.431, + "step": 2108 + }, + { + "epoch": 0.5624, + "grad_norm": 4.153691484731323, + "learning_rate": 2.06518143609842e-06, + "loss": 0.3958, + "step": 2109 + }, + { + "epoch": 0.5626666666666666, + "grad_norm": 2.4535210040906223, + "learning_rate": 2.0630872868972154e-06, + "loss": 0.3762, + "step": 2110 + }, + { + "epoch": 0.5629333333333333, + "grad_norm": 2.542497613427436, + "learning_rate": 2.0609934538770244e-06, + "loss": 0.4491, + "step": 2111 + }, + { + "epoch": 0.5632, + "grad_norm": 2.3050962606755956, + "learning_rate": 2.0588999385530904e-06, + "loss": 0.3886, + "step": 2112 + }, + { + "epoch": 0.5634666666666667, + "grad_norm": 2.3875548612713184, + "learning_rate": 2.056806742440432e-06, + "loss": 0.4065, + "step": 2113 + }, + { + "epoch": 0.5637333333333333, + "grad_norm": 2.506354402515714, + "learning_rate": 2.0547138670538328e-06, + "loss": 0.4112, + "step": 2114 + }, + { + "epoch": 0.564, + "grad_norm": 2.3855121170676257, + "learning_rate": 2.0526213139078463e-06, + "loss": 0.4133, + "step": 2115 + }, + { + "epoch": 0.5642666666666667, + "grad_norm": 2.7878865028480027, + "learning_rate": 2.0505290845167915e-06, + "loss": 0.4377, + "step": 2116 + }, + { + "epoch": 0.5645333333333333, + "grad_norm": 2.5407021601457105, + "learning_rate": 2.048437180394755e-06, + "loss": 0.3892, + "step": 2117 + }, + { + "epoch": 0.5648, + "grad_norm": 2.549435173375906, + "learning_rate": 2.046345603055587e-06, + "loss": 0.4231, + "step": 2118 + }, + { + "epoch": 0.5650666666666667, + "grad_norm": 2.3896774720617344, + "learning_rate": 2.0442543540129e-06, + "loss": 0.39, + "step": 2119 + }, + { + "epoch": 0.5653333333333334, + "grad_norm": 2.681401203412108, + "learning_rate": 2.0421634347800706e-06, + "loss": 0.4413, + "step": 2120 + }, + { + "epoch": 0.5656, + "grad_norm": 2.7286025880978717, + "learning_rate": 2.0400728468702376e-06, + "loss": 0.4063, + "step": 2121 + }, + { + "epoch": 0.5658666666666666, + "grad_norm": 2.8464770457959827, + "learning_rate": 2.037982591796296e-06, + "loss": 0.4674, + "step": 2122 + }, + { + "epoch": 0.5661333333333334, + "grad_norm": 2.666839859528723, + "learning_rate": 2.0358926710709043e-06, + "loss": 0.4242, + "step": 2123 + }, + { + "epoch": 0.5664, + "grad_norm": 2.4640650311900982, + "learning_rate": 2.0338030862064773e-06, + "loss": 0.4256, + "step": 2124 + }, + { + "epoch": 0.5666666666666667, + "grad_norm": 2.979253986283452, + "learning_rate": 2.031713838715186e-06, + "loss": 0.5119, + "step": 2125 + }, + { + "epoch": 0.5669333333333333, + "grad_norm": 2.682750007767583, + "learning_rate": 2.0296249301089577e-06, + "loss": 0.3871, + "step": 2126 + }, + { + "epoch": 0.5672, + "grad_norm": 2.6388838087643256, + "learning_rate": 2.0275363618994763e-06, + "loss": 0.428, + "step": 2127 + }, + { + "epoch": 0.5674666666666667, + "grad_norm": 3.4575179806241767, + "learning_rate": 2.0254481355981763e-06, + "loss": 0.4045, + "step": 2128 + }, + { + "epoch": 0.5677333333333333, + "grad_norm": 2.397037064408643, + "learning_rate": 2.023360252716246e-06, + "loss": 0.398, + "step": 2129 + }, + { + "epoch": 0.568, + "grad_norm": 2.1910596931901734, + "learning_rate": 2.021272714764627e-06, + "loss": 0.3559, + "step": 2130 + }, + { + "epoch": 0.5682666666666667, + "grad_norm": 2.6830821955609756, + "learning_rate": 2.01918552325401e-06, + "loss": 0.4426, + "step": 2131 + }, + { + "epoch": 0.5685333333333333, + "grad_norm": 2.847826357087816, + "learning_rate": 2.0170986796948327e-06, + "loss": 0.4632, + "step": 2132 + }, + { + "epoch": 0.5688, + "grad_norm": 2.760298286215174, + "learning_rate": 2.0150121855972847e-06, + "loss": 0.4596, + "step": 2133 + }, + { + "epoch": 0.5690666666666667, + "grad_norm": 2.4740994333305313, + "learning_rate": 2.012926042471301e-06, + "loss": 0.3724, + "step": 2134 + }, + { + "epoch": 0.5693333333333334, + "grad_norm": 2.4655471164166447, + "learning_rate": 2.0108402518265613e-06, + "loss": 0.4112, + "step": 2135 + }, + { + "epoch": 0.5696, + "grad_norm": 2.5271680091662, + "learning_rate": 2.008754815172492e-06, + "loss": 0.4287, + "step": 2136 + }, + { + "epoch": 0.5698666666666666, + "grad_norm": 2.401153177011846, + "learning_rate": 2.006669734018265e-06, + "loss": 0.3958, + "step": 2137 + }, + { + "epoch": 0.5701333333333334, + "grad_norm": 2.5886816188993023, + "learning_rate": 2.0045850098727895e-06, + "loss": 0.3931, + "step": 2138 + }, + { + "epoch": 0.5704, + "grad_norm": 2.6134644067197046, + "learning_rate": 2.0025006442447215e-06, + "loss": 0.4447, + "step": 2139 + }, + { + "epoch": 0.5706666666666667, + "grad_norm": 2.805231945332643, + "learning_rate": 2.000416638642456e-06, + "loss": 0.3889, + "step": 2140 + }, + { + "epoch": 0.5709333333333333, + "grad_norm": 2.611848921445149, + "learning_rate": 1.998332994574127e-06, + "loss": 0.4456, + "step": 2141 + }, + { + "epoch": 0.5712, + "grad_norm": 2.5789366691769207, + "learning_rate": 1.9962497135476067e-06, + "loss": 0.3919, + "step": 2142 + }, + { + "epoch": 0.5714666666666667, + "grad_norm": 3.1001220614560885, + "learning_rate": 1.9941667970705045e-06, + "loss": 0.4786, + "step": 2143 + }, + { + "epoch": 0.5717333333333333, + "grad_norm": 2.585821004717584, + "learning_rate": 1.992084246650168e-06, + "loss": 0.4436, + "step": 2144 + }, + { + "epoch": 0.572, + "grad_norm": 2.468054491532933, + "learning_rate": 1.990002063793676e-06, + "loss": 0.4159, + "step": 2145 + }, + { + "epoch": 0.5722666666666667, + "grad_norm": 2.314719595577697, + "learning_rate": 1.9879202500078453e-06, + "loss": 0.3807, + "step": 2146 + }, + { + "epoch": 0.5725333333333333, + "grad_norm": 2.448622896436422, + "learning_rate": 1.9858388067992248e-06, + "loss": 0.397, + "step": 2147 + }, + { + "epoch": 0.5728, + "grad_norm": 2.4525450001501867, + "learning_rate": 1.9837577356740918e-06, + "loss": 0.4102, + "step": 2148 + }, + { + "epoch": 0.5730666666666666, + "grad_norm": 7.073462706661511, + "learning_rate": 1.9816770381384576e-06, + "loss": 0.4258, + "step": 2149 + }, + { + "epoch": 0.5733333333333334, + "grad_norm": 2.4005956162137165, + "learning_rate": 1.979596715698065e-06, + "loss": 0.4077, + "step": 2150 + }, + { + "epoch": 0.5736, + "grad_norm": 3.1835294402248873, + "learning_rate": 1.9775167698583792e-06, + "loss": 0.4887, + "step": 2151 + }, + { + "epoch": 0.5738666666666666, + "grad_norm": 2.51787177472062, + "learning_rate": 1.975437202124599e-06, + "loss": 0.417, + "step": 2152 + }, + { + "epoch": 0.5741333333333334, + "grad_norm": 2.9346397878249633, + "learning_rate": 1.9733580140016458e-06, + "loss": 0.4655, + "step": 2153 + }, + { + "epoch": 0.5744, + "grad_norm": 2.3863546963809967, + "learning_rate": 1.9712792069941687e-06, + "loss": 0.4126, + "step": 2154 + }, + { + "epoch": 0.5746666666666667, + "grad_norm": 2.261617331916262, + "learning_rate": 1.9692007826065376e-06, + "loss": 0.362, + "step": 2155 + }, + { + "epoch": 0.5749333333333333, + "grad_norm": 3.0883046237105933, + "learning_rate": 1.967122742342849e-06, + "loss": 0.4041, + "step": 2156 + }, + { + "epoch": 0.5752, + "grad_norm": 2.5100035764987636, + "learning_rate": 1.9650450877069223e-06, + "loss": 0.393, + "step": 2157 + }, + { + "epoch": 0.5754666666666667, + "grad_norm": 2.4577561164341244, + "learning_rate": 1.9629678202022916e-06, + "loss": 0.3812, + "step": 2158 + }, + { + "epoch": 0.5757333333333333, + "grad_norm": 2.734856150109731, + "learning_rate": 1.9608909413322175e-06, + "loss": 0.4346, + "step": 2159 + }, + { + "epoch": 0.576, + "grad_norm": 2.312230722634441, + "learning_rate": 1.958814452599677e-06, + "loss": 0.4084, + "step": 2160 + }, + { + "epoch": 0.5762666666666667, + "grad_norm": 2.367076194543778, + "learning_rate": 1.956738355507363e-06, + "loss": 0.3603, + "step": 2161 + }, + { + "epoch": 0.5765333333333333, + "grad_norm": 2.632711588077396, + "learning_rate": 1.9546626515576876e-06, + "loss": 0.443, + "step": 2162 + }, + { + "epoch": 0.5768, + "grad_norm": 2.44296094790109, + "learning_rate": 1.9525873422527773e-06, + "loss": 0.3771, + "step": 2163 + }, + { + "epoch": 0.5770666666666666, + "grad_norm": 2.3119911807757405, + "learning_rate": 1.950512429094473e-06, + "loss": 0.3735, + "step": 2164 + }, + { + "epoch": 0.5773333333333334, + "grad_norm": 2.5600898190666994, + "learning_rate": 1.9484379135843274e-06, + "loss": 0.3904, + "step": 2165 + }, + { + "epoch": 0.5776, + "grad_norm": 2.343823362022501, + "learning_rate": 1.9463637972236086e-06, + "loss": 0.4373, + "step": 2166 + }, + { + "epoch": 0.5778666666666666, + "grad_norm": 2.632929928391545, + "learning_rate": 1.9442900815132957e-06, + "loss": 0.4121, + "step": 2167 + }, + { + "epoch": 0.5781333333333334, + "grad_norm": 2.9229852029793237, + "learning_rate": 1.942216767954073e-06, + "loss": 0.443, + "step": 2168 + }, + { + "epoch": 0.5784, + "grad_norm": 2.7953985903527045, + "learning_rate": 1.940143858046339e-06, + "loss": 0.4069, + "step": 2169 + }, + { + "epoch": 0.5786666666666667, + "grad_norm": 2.4956999909471667, + "learning_rate": 1.938071353290199e-06, + "loss": 0.4052, + "step": 2170 + }, + { + "epoch": 0.5789333333333333, + "grad_norm": 2.476189816770219, + "learning_rate": 1.9359992551854635e-06, + "loss": 0.384, + "step": 2171 + }, + { + "epoch": 0.5792, + "grad_norm": 2.678757593866926, + "learning_rate": 1.9339275652316484e-06, + "loss": 0.4322, + "step": 2172 + }, + { + "epoch": 0.5794666666666667, + "grad_norm": 2.8384347428835515, + "learning_rate": 1.9318562849279774e-06, + "loss": 0.4139, + "step": 2173 + }, + { + "epoch": 0.5797333333333333, + "grad_norm": 2.504810094028792, + "learning_rate": 1.929785415773375e-06, + "loss": 0.4188, + "step": 2174 + }, + { + "epoch": 0.58, + "grad_norm": 2.3929041941480196, + "learning_rate": 1.9277149592664676e-06, + "loss": 0.4078, + "step": 2175 + }, + { + "epoch": 0.5802666666666667, + "grad_norm": 2.6468383059018605, + "learning_rate": 1.925644916905587e-06, + "loss": 0.4314, + "step": 2176 + }, + { + "epoch": 0.5805333333333333, + "grad_norm": 2.5241598056544263, + "learning_rate": 1.9235752901887605e-06, + "loss": 0.3649, + "step": 2177 + }, + { + "epoch": 0.5808, + "grad_norm": 2.2465589135148556, + "learning_rate": 1.921506080613717e-06, + "loss": 0.4171, + "step": 2178 + }, + { + "epoch": 0.5810666666666666, + "grad_norm": 2.416159097243735, + "learning_rate": 1.919437289677884e-06, + "loss": 0.4125, + "step": 2179 + }, + { + "epoch": 0.5813333333333334, + "grad_norm": 2.956394831930318, + "learning_rate": 1.917368918878385e-06, + "loss": 0.4498, + "step": 2180 + }, + { + "epoch": 0.5816, + "grad_norm": 2.548874320078301, + "learning_rate": 1.91530096971204e-06, + "loss": 0.4499, + "step": 2181 + }, + { + "epoch": 0.5818666666666666, + "grad_norm": 2.4730123614040482, + "learning_rate": 1.9132334436753623e-06, + "loss": 0.4367, + "step": 2182 + }, + { + "epoch": 0.5821333333333333, + "grad_norm": 2.8163115450660903, + "learning_rate": 1.9111663422645624e-06, + "loss": 0.4347, + "step": 2183 + }, + { + "epoch": 0.5824, + "grad_norm": 2.700810223835112, + "learning_rate": 1.909099666975539e-06, + "loss": 0.4564, + "step": 2184 + }, + { + "epoch": 0.5826666666666667, + "grad_norm": 2.5360358972604096, + "learning_rate": 1.9070334193038863e-06, + "loss": 0.437, + "step": 2185 + }, + { + "epoch": 0.5829333333333333, + "grad_norm": 2.5004785866392822, + "learning_rate": 1.9049676007448886e-06, + "loss": 0.4158, + "step": 2186 + }, + { + "epoch": 0.5832, + "grad_norm": 2.6146169232929632, + "learning_rate": 1.9029022127935161e-06, + "loss": 0.4301, + "step": 2187 + }, + { + "epoch": 0.5834666666666667, + "grad_norm": 2.4796905474820474, + "learning_rate": 1.9008372569444317e-06, + "loss": 0.4457, + "step": 2188 + }, + { + "epoch": 0.5837333333333333, + "grad_norm": 2.45341413976034, + "learning_rate": 1.8987727346919843e-06, + "loss": 0.4098, + "step": 2189 + }, + { + "epoch": 0.584, + "grad_norm": 2.4420885018122607, + "learning_rate": 1.8967086475302065e-06, + "loss": 0.3763, + "step": 2190 + }, + { + "epoch": 0.5842666666666667, + "grad_norm": 2.1700394586214227, + "learning_rate": 1.89464499695282e-06, + "loss": 0.3489, + "step": 2191 + }, + { + "epoch": 0.5845333333333333, + "grad_norm": 2.292494304950524, + "learning_rate": 1.8925817844532273e-06, + "loss": 0.3773, + "step": 2192 + }, + { + "epoch": 0.5848, + "grad_norm": 2.306842124473414, + "learning_rate": 1.890519011524517e-06, + "loss": 0.3771, + "step": 2193 + }, + { + "epoch": 0.5850666666666666, + "grad_norm": 2.237639057913189, + "learning_rate": 1.8884566796594555e-06, + "loss": 0.3407, + "step": 2194 + }, + { + "epoch": 0.5853333333333334, + "grad_norm": 2.628660933246142, + "learning_rate": 1.8863947903504938e-06, + "loss": 0.4291, + "step": 2195 + }, + { + "epoch": 0.5856, + "grad_norm": 2.657024523023687, + "learning_rate": 1.8843333450897616e-06, + "loss": 0.3985, + "step": 2196 + }, + { + "epoch": 0.5858666666666666, + "grad_norm": 2.384177250230262, + "learning_rate": 1.8822723453690653e-06, + "loss": 0.416, + "step": 2197 + }, + { + "epoch": 0.5861333333333333, + "grad_norm": 2.41275143736667, + "learning_rate": 1.8802117926798913e-06, + "loss": 0.3994, + "step": 2198 + }, + { + "epoch": 0.5864, + "grad_norm": 2.2560684741506365, + "learning_rate": 1.8781516885134025e-06, + "loss": 0.364, + "step": 2199 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 2.377927642785843, + "learning_rate": 1.8760920343604348e-06, + "loss": 0.3779, + "step": 2200 + }, + { + "epoch": 0.5869333333333333, + "grad_norm": 2.8694422409442453, + "learning_rate": 1.8740328317114998e-06, + "loss": 0.4792, + "step": 2201 + }, + { + "epoch": 0.5872, + "grad_norm": 2.599317509196582, + "learning_rate": 1.8719740820567836e-06, + "loss": 0.3977, + "step": 2202 + }, + { + "epoch": 0.5874666666666667, + "grad_norm": 2.570958220592438, + "learning_rate": 1.869915786886144e-06, + "loss": 0.4031, + "step": 2203 + }, + { + "epoch": 0.5877333333333333, + "grad_norm": 3.26482501082063, + "learning_rate": 1.867857947689107e-06, + "loss": 0.4191, + "step": 2204 + }, + { + "epoch": 0.588, + "grad_norm": 2.8736810518649296, + "learning_rate": 1.8658005659548726e-06, + "loss": 0.456, + "step": 2205 + }, + { + "epoch": 0.5882666666666667, + "grad_norm": 2.706545802011538, + "learning_rate": 1.8637436431723086e-06, + "loss": 0.3836, + "step": 2206 + }, + { + "epoch": 0.5885333333333334, + "grad_norm": 2.652578609129696, + "learning_rate": 1.861687180829948e-06, + "loss": 0.4366, + "step": 2207 + }, + { + "epoch": 0.5888, + "grad_norm": 2.7684914219009102, + "learning_rate": 1.859631180415995e-06, + "loss": 0.4586, + "step": 2208 + }, + { + "epoch": 0.5890666666666666, + "grad_norm": 2.237339767131411, + "learning_rate": 1.8575756434183162e-06, + "loss": 0.3926, + "step": 2209 + }, + { + "epoch": 0.5893333333333334, + "grad_norm": 2.4338742153041477, + "learning_rate": 1.8555205713244437e-06, + "loss": 0.4022, + "step": 2210 + }, + { + "epoch": 0.5896, + "grad_norm": 2.829118136020922, + "learning_rate": 1.8534659656215731e-06, + "loss": 0.4288, + "step": 2211 + }, + { + "epoch": 0.5898666666666667, + "grad_norm": 2.5639594617382593, + "learning_rate": 1.8514118277965642e-06, + "loss": 0.4014, + "step": 2212 + }, + { + "epoch": 0.5901333333333333, + "grad_norm": 3.41546868690827, + "learning_rate": 1.849358159335935e-06, + "loss": 0.44, + "step": 2213 + }, + { + "epoch": 0.5904, + "grad_norm": 2.457889807505658, + "learning_rate": 1.8473049617258661e-06, + "loss": 0.3972, + "step": 2214 + }, + { + "epoch": 0.5906666666666667, + "grad_norm": 2.610666097836363, + "learning_rate": 1.8452522364521973e-06, + "loss": 0.4228, + "step": 2215 + }, + { + "epoch": 0.5909333333333333, + "grad_norm": 2.4220253317123976, + "learning_rate": 1.843199985000427e-06, + "loss": 0.3818, + "step": 2216 + }, + { + "epoch": 0.5912, + "grad_norm": 2.3878709917073424, + "learning_rate": 1.8411482088557078e-06, + "loss": 0.3834, + "step": 2217 + }, + { + "epoch": 0.5914666666666667, + "grad_norm": 2.6355018778835477, + "learning_rate": 1.8390969095028515e-06, + "loss": 0.4113, + "step": 2218 + }, + { + "epoch": 0.5917333333333333, + "grad_norm": 2.5597735575758622, + "learning_rate": 1.8370460884263242e-06, + "loss": 0.3847, + "step": 2219 + }, + { + "epoch": 0.592, + "grad_norm": 2.3696618161883767, + "learning_rate": 1.8349957471102442e-06, + "loss": 0.3828, + "step": 2220 + }, + { + "epoch": 0.5922666666666667, + "grad_norm": 2.582453395594233, + "learning_rate": 1.8329458870383843e-06, + "loss": 0.4869, + "step": 2221 + }, + { + "epoch": 0.5925333333333334, + "grad_norm": 2.704482788230297, + "learning_rate": 1.8308965096941694e-06, + "loss": 0.4696, + "step": 2222 + }, + { + "epoch": 0.5928, + "grad_norm": 2.331241049039064, + "learning_rate": 1.8288476165606728e-06, + "loss": 0.4096, + "step": 2223 + }, + { + "epoch": 0.5930666666666666, + "grad_norm": 2.6887360921859633, + "learning_rate": 1.8267992091206194e-06, + "loss": 0.422, + "step": 2224 + }, + { + "epoch": 0.5933333333333334, + "grad_norm": 2.7932561233709583, + "learning_rate": 1.8247512888563833e-06, + "loss": 0.492, + "step": 2225 + }, + { + "epoch": 0.5936, + "grad_norm": 3.0754091895603737, + "learning_rate": 1.8227038572499828e-06, + "loss": 0.4009, + "step": 2226 + }, + { + "epoch": 0.5938666666666667, + "grad_norm": 2.6934353512784757, + "learning_rate": 1.820656915783085e-06, + "loss": 0.4613, + "step": 2227 + }, + { + "epoch": 0.5941333333333333, + "grad_norm": 2.3098382682138805, + "learning_rate": 1.8186104659370029e-06, + "loss": 0.4051, + "step": 2228 + }, + { + "epoch": 0.5944, + "grad_norm": 2.731144900758593, + "learning_rate": 1.8165645091926926e-06, + "loss": 0.4753, + "step": 2229 + }, + { + "epoch": 0.5946666666666667, + "grad_norm": 2.435593690763075, + "learning_rate": 1.8145190470307519e-06, + "loss": 0.3666, + "step": 2230 + }, + { + "epoch": 0.5949333333333333, + "grad_norm": 2.7739601890721945, + "learning_rate": 1.812474080931423e-06, + "loss": 0.4299, + "step": 2231 + }, + { + "epoch": 0.5952, + "grad_norm": 2.438691990591715, + "learning_rate": 1.81042961237459e-06, + "loss": 0.3785, + "step": 2232 + }, + { + "epoch": 0.5954666666666667, + "grad_norm": 4.817706962055195, + "learning_rate": 1.8083856428397725e-06, + "loss": 0.4476, + "step": 2233 + }, + { + "epoch": 0.5957333333333333, + "grad_norm": 2.7634268305140877, + "learning_rate": 1.8063421738061333e-06, + "loss": 0.4469, + "step": 2234 + }, + { + "epoch": 0.596, + "grad_norm": 2.2704756537625435, + "learning_rate": 1.8042992067524722e-06, + "loss": 0.3968, + "step": 2235 + }, + { + "epoch": 0.5962666666666666, + "grad_norm": 2.5546922827147998, + "learning_rate": 1.802256743157223e-06, + "loss": 0.4194, + "step": 2236 + }, + { + "epoch": 0.5965333333333334, + "grad_norm": 2.293215124418464, + "learning_rate": 1.8002147844984585e-06, + "loss": 0.3951, + "step": 2237 + }, + { + "epoch": 0.5968, + "grad_norm": 2.617920445453991, + "learning_rate": 1.7981733322538846e-06, + "loss": 0.4369, + "step": 2238 + }, + { + "epoch": 0.5970666666666666, + "grad_norm": 2.6012353342613244, + "learning_rate": 1.7961323879008408e-06, + "loss": 0.4167, + "step": 2239 + }, + { + "epoch": 0.5973333333333334, + "grad_norm": 3.1934173199236664, + "learning_rate": 1.7940919529162984e-06, + "loss": 0.4634, + "step": 2240 + }, + { + "epoch": 0.5976, + "grad_norm": 2.8359411342090497, + "learning_rate": 1.7920520287768614e-06, + "loss": 0.4096, + "step": 2241 + }, + { + "epoch": 0.5978666666666667, + "grad_norm": 5.004576370318079, + "learning_rate": 1.7900126169587645e-06, + "loss": 0.4571, + "step": 2242 + }, + { + "epoch": 0.5981333333333333, + "grad_norm": 2.4581417879441863, + "learning_rate": 1.7879737189378688e-06, + "loss": 0.3864, + "step": 2243 + }, + { + "epoch": 0.5984, + "grad_norm": 2.6502554049639455, + "learning_rate": 1.7859353361896663e-06, + "loss": 0.3645, + "step": 2244 + }, + { + "epoch": 0.5986666666666667, + "grad_norm": 2.679693428401703, + "learning_rate": 1.7838974701892764e-06, + "loss": 0.4435, + "step": 2245 + }, + { + "epoch": 0.5989333333333333, + "grad_norm": 2.8029459919779023, + "learning_rate": 1.7818601224114412e-06, + "loss": 0.4655, + "step": 2246 + }, + { + "epoch": 0.5992, + "grad_norm": 2.7652230621992495, + "learning_rate": 1.7798232943305316e-06, + "loss": 0.4467, + "step": 2247 + }, + { + "epoch": 0.5994666666666667, + "grad_norm": 2.5067313539752627, + "learning_rate": 1.7777869874205405e-06, + "loss": 0.4265, + "step": 2248 + }, + { + "epoch": 0.5997333333333333, + "grad_norm": 2.5302088460425067, + "learning_rate": 1.7757512031550836e-06, + "loss": 0.4909, + "step": 2249 + }, + { + "epoch": 0.6, + "grad_norm": 2.518229107443017, + "learning_rate": 1.7737159430073984e-06, + "loss": 0.397, + "step": 2250 + }, + { + "epoch": 0.6002666666666666, + "grad_norm": 2.8677844342185725, + "learning_rate": 1.771681208450345e-06, + "loss": 0.4183, + "step": 2251 + }, + { + "epoch": 0.6005333333333334, + "grad_norm": 2.5352600978580027, + "learning_rate": 1.7696470009563987e-06, + "loss": 0.4262, + "step": 2252 + }, + { + "epoch": 0.6008, + "grad_norm": 2.3874739809231507, + "learning_rate": 1.7676133219976589e-06, + "loss": 0.414, + "step": 2253 + }, + { + "epoch": 0.6010666666666666, + "grad_norm": 3.8394332628689374, + "learning_rate": 1.7655801730458383e-06, + "loss": 0.4291, + "step": 2254 + }, + { + "epoch": 0.6013333333333334, + "grad_norm": 2.590257584760151, + "learning_rate": 1.7635475555722694e-06, + "loss": 0.4145, + "step": 2255 + }, + { + "epoch": 0.6016, + "grad_norm": 2.537199016953401, + "learning_rate": 1.7615154710478962e-06, + "loss": 0.3904, + "step": 2256 + }, + { + "epoch": 0.6018666666666667, + "grad_norm": 2.428563208541275, + "learning_rate": 1.7594839209432806e-06, + "loss": 0.3963, + "step": 2257 + }, + { + "epoch": 0.6021333333333333, + "grad_norm": 2.4663006973356594, + "learning_rate": 1.7574529067285965e-06, + "loss": 0.4042, + "step": 2258 + }, + { + "epoch": 0.6024, + "grad_norm": 2.511733735947999, + "learning_rate": 1.7554224298736278e-06, + "loss": 0.4099, + "step": 2259 + }, + { + "epoch": 0.6026666666666667, + "grad_norm": 2.506445932855136, + "learning_rate": 1.7533924918477724e-06, + "loss": 0.444, + "step": 2260 + }, + { + "epoch": 0.6029333333333333, + "grad_norm": 2.5323832075474826, + "learning_rate": 1.7513630941200394e-06, + "loss": 0.3816, + "step": 2261 + }, + { + "epoch": 0.6032, + "grad_norm": 2.5170030787335764, + "learning_rate": 1.7493342381590417e-06, + "loss": 0.4222, + "step": 2262 + }, + { + "epoch": 0.6034666666666667, + "grad_norm": 2.4429413248349623, + "learning_rate": 1.7473059254330043e-06, + "loss": 0.3877, + "step": 2263 + }, + { + "epoch": 0.6037333333333333, + "grad_norm": 2.575475657598042, + "learning_rate": 1.7452781574097601e-06, + "loss": 0.3969, + "step": 2264 + }, + { + "epoch": 0.604, + "grad_norm": 2.5246936710188064, + "learning_rate": 1.7432509355567432e-06, + "loss": 0.3966, + "step": 2265 + }, + { + "epoch": 0.6042666666666666, + "grad_norm": 2.480968692821019, + "learning_rate": 1.7412242613409964e-06, + "loss": 0.3885, + "step": 2266 + }, + { + "epoch": 0.6045333333333334, + "grad_norm": 2.3475667175110235, + "learning_rate": 1.7391981362291642e-06, + "loss": 0.3845, + "step": 2267 + }, + { + "epoch": 0.6048, + "grad_norm": 2.4982938116530335, + "learning_rate": 1.737172561687495e-06, + "loss": 0.3851, + "step": 2268 + }, + { + "epoch": 0.6050666666666666, + "grad_norm": 2.888039834764701, + "learning_rate": 1.7351475391818375e-06, + "loss": 0.4571, + "step": 2269 + }, + { + "epoch": 0.6053333333333333, + "grad_norm": 2.4777615403434914, + "learning_rate": 1.7331230701776417e-06, + "loss": 0.419, + "step": 2270 + }, + { + "epoch": 0.6056, + "grad_norm": 2.54376536627171, + "learning_rate": 1.7310991561399575e-06, + "loss": 0.4055, + "step": 2271 + }, + { + "epoch": 0.6058666666666667, + "grad_norm": 2.846980479784488, + "learning_rate": 1.7290757985334317e-06, + "loss": 0.3755, + "step": 2272 + }, + { + "epoch": 0.6061333333333333, + "grad_norm": 2.180822215786785, + "learning_rate": 1.7270529988223095e-06, + "loss": 0.3408, + "step": 2273 + }, + { + "epoch": 0.6064, + "grad_norm": 2.619358656821222, + "learning_rate": 1.7250307584704334e-06, + "loss": 0.412, + "step": 2274 + }, + { + "epoch": 0.6066666666666667, + "grad_norm": 2.3835256832447658, + "learning_rate": 1.7230090789412376e-06, + "loss": 0.3795, + "step": 2275 + }, + { + "epoch": 0.6069333333333333, + "grad_norm": 2.5103655745865843, + "learning_rate": 1.7209879616977548e-06, + "loss": 0.376, + "step": 2276 + }, + { + "epoch": 0.6072, + "grad_norm": 2.912393219905919, + "learning_rate": 1.718967408202607e-06, + "loss": 0.4556, + "step": 2277 + }, + { + "epoch": 0.6074666666666667, + "grad_norm": 2.6416917732125462, + "learning_rate": 1.7169474199180122e-06, + "loss": 0.4325, + "step": 2278 + }, + { + "epoch": 0.6077333333333333, + "grad_norm": 2.54764535412384, + "learning_rate": 1.7149279983057745e-06, + "loss": 0.4044, + "step": 2279 + }, + { + "epoch": 0.608, + "grad_norm": 2.5421769066856674, + "learning_rate": 1.7129091448272919e-06, + "loss": 0.4205, + "step": 2280 + }, + { + "epoch": 0.6082666666666666, + "grad_norm": 2.5653282993344053, + "learning_rate": 1.710890860943551e-06, + "loss": 0.3884, + "step": 2281 + }, + { + "epoch": 0.6085333333333334, + "grad_norm": 2.885638714753462, + "learning_rate": 1.7088731481151222e-06, + "loss": 0.4492, + "step": 2282 + }, + { + "epoch": 0.6088, + "grad_norm": 2.40571866427801, + "learning_rate": 1.7068560078021678e-06, + "loss": 0.3912, + "step": 2283 + }, + { + "epoch": 0.6090666666666666, + "grad_norm": 2.7930752521079247, + "learning_rate": 1.7048394414644337e-06, + "loss": 0.3615, + "step": 2284 + }, + { + "epoch": 0.6093333333333333, + "grad_norm": 3.0372917564182593, + "learning_rate": 1.7028234505612487e-06, + "loss": 0.492, + "step": 2285 + }, + { + "epoch": 0.6096, + "grad_norm": 2.548366310374322, + "learning_rate": 1.7008080365515277e-06, + "loss": 0.3779, + "step": 2286 + }, + { + "epoch": 0.6098666666666667, + "grad_norm": 2.61878251380193, + "learning_rate": 1.6987932008937674e-06, + "loss": 0.3862, + "step": 2287 + }, + { + "epoch": 0.6101333333333333, + "grad_norm": 2.5785500562286976, + "learning_rate": 1.6967789450460453e-06, + "loss": 0.4193, + "step": 2288 + }, + { + "epoch": 0.6104, + "grad_norm": 2.9321124735706467, + "learning_rate": 1.694765270466019e-06, + "loss": 0.4674, + "step": 2289 + }, + { + "epoch": 0.6106666666666667, + "grad_norm": 2.5365545879625366, + "learning_rate": 1.6927521786109268e-06, + "loss": 0.3999, + "step": 2290 + }, + { + "epoch": 0.6109333333333333, + "grad_norm": 2.6801523099179025, + "learning_rate": 1.6907396709375861e-06, + "loss": 0.4477, + "step": 2291 + }, + { + "epoch": 0.6112, + "grad_norm": 2.8632695699961843, + "learning_rate": 1.688727748902388e-06, + "loss": 0.4446, + "step": 2292 + }, + { + "epoch": 0.6114666666666667, + "grad_norm": 2.587489033144078, + "learning_rate": 1.6867164139613022e-06, + "loss": 0.3953, + "step": 2293 + }, + { + "epoch": 0.6117333333333334, + "grad_norm": 2.3505767771726944, + "learning_rate": 1.6847056675698747e-06, + "loss": 0.3699, + "step": 2294 + }, + { + "epoch": 0.612, + "grad_norm": 2.396306971708491, + "learning_rate": 1.6826955111832233e-06, + "loss": 0.4021, + "step": 2295 + }, + { + "epoch": 0.6122666666666666, + "grad_norm": 2.743364767007316, + "learning_rate": 1.6806859462560385e-06, + "loss": 0.431, + "step": 2296 + }, + { + "epoch": 0.6125333333333334, + "grad_norm": 2.4737719192911065, + "learning_rate": 1.6786769742425862e-06, + "loss": 0.4063, + "step": 2297 + }, + { + "epoch": 0.6128, + "grad_norm": 3.3372784521142203, + "learning_rate": 1.676668596596699e-06, + "loss": 0.4571, + "step": 2298 + }, + { + "epoch": 0.6130666666666666, + "grad_norm": 2.6345368236058326, + "learning_rate": 1.6746608147717819e-06, + "loss": 0.4046, + "step": 2299 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 2.4082922519215995, + "learning_rate": 1.6726536302208094e-06, + "loss": 0.3798, + "step": 2300 + }, + { + "epoch": 0.6136, + "grad_norm": 2.613832563332468, + "learning_rate": 1.6706470443963203e-06, + "loss": 0.4072, + "step": 2301 + }, + { + "epoch": 0.6138666666666667, + "grad_norm": 2.3650000180671107, + "learning_rate": 1.6686410587504236e-06, + "loss": 0.3891, + "step": 2302 + }, + { + "epoch": 0.6141333333333333, + "grad_norm": 2.5483097701899013, + "learning_rate": 1.6666356747347933e-06, + "loss": 0.4129, + "step": 2303 + }, + { + "epoch": 0.6144, + "grad_norm": 2.560499844973197, + "learning_rate": 1.6646308938006673e-06, + "loss": 0.3822, + "step": 2304 + }, + { + "epoch": 0.6146666666666667, + "grad_norm": 2.6575973410918072, + "learning_rate": 1.6626267173988458e-06, + "loss": 0.4402, + "step": 2305 + }, + { + "epoch": 0.6149333333333333, + "grad_norm": 2.4162951146338556, + "learning_rate": 1.6606231469796941e-06, + "loss": 0.3947, + "step": 2306 + }, + { + "epoch": 0.6152, + "grad_norm": 2.659871090005092, + "learning_rate": 1.6586201839931382e-06, + "loss": 0.453, + "step": 2307 + }, + { + "epoch": 0.6154666666666667, + "grad_norm": 2.656791858294859, + "learning_rate": 1.6566178298886626e-06, + "loss": 0.3895, + "step": 2308 + }, + { + "epoch": 0.6157333333333334, + "grad_norm": 2.6397914832804066, + "learning_rate": 1.6546160861153133e-06, + "loss": 0.4595, + "step": 2309 + }, + { + "epoch": 0.616, + "grad_norm": 2.6667552564721086, + "learning_rate": 1.6526149541216952e-06, + "loss": 0.4125, + "step": 2310 + }, + { + "epoch": 0.6162666666666666, + "grad_norm": 2.3781485690702198, + "learning_rate": 1.6506144353559676e-06, + "loss": 0.4026, + "step": 2311 + }, + { + "epoch": 0.6165333333333334, + "grad_norm": 2.4524512445864275, + "learning_rate": 1.648614531265848e-06, + "loss": 0.3937, + "step": 2312 + }, + { + "epoch": 0.6168, + "grad_norm": 3.5264005038931048, + "learning_rate": 1.6466152432986104e-06, + "loss": 0.4259, + "step": 2313 + }, + { + "epoch": 0.6170666666666667, + "grad_norm": 2.8654304742147865, + "learning_rate": 1.6446165729010794e-06, + "loss": 0.4039, + "step": 2314 + }, + { + "epoch": 0.6173333333333333, + "grad_norm": 2.5093277829415244, + "learning_rate": 1.6426185215196353e-06, + "loss": 0.4505, + "step": 2315 + }, + { + "epoch": 0.6176, + "grad_norm": 2.621180929074998, + "learning_rate": 1.640621090600209e-06, + "loss": 0.4238, + "step": 2316 + }, + { + "epoch": 0.6178666666666667, + "grad_norm": 2.7831905001574024, + "learning_rate": 1.6386242815882853e-06, + "loss": 0.4313, + "step": 2317 + }, + { + "epoch": 0.6181333333333333, + "grad_norm": 2.5345461854148077, + "learning_rate": 1.636628095928894e-06, + "loss": 0.4085, + "step": 2318 + }, + { + "epoch": 0.6184, + "grad_norm": 2.5697403537331076, + "learning_rate": 1.6346325350666178e-06, + "loss": 0.4155, + "step": 2319 + }, + { + "epoch": 0.6186666666666667, + "grad_norm": 2.7662716396445846, + "learning_rate": 1.632637600445587e-06, + "loss": 0.4212, + "step": 2320 + }, + { + "epoch": 0.6189333333333333, + "grad_norm": 2.7104080343786756, + "learning_rate": 1.630643293509476e-06, + "loss": 0.4485, + "step": 2321 + }, + { + "epoch": 0.6192, + "grad_norm": 2.397942002291914, + "learning_rate": 1.628649615701507e-06, + "loss": 0.4239, + "step": 2322 + }, + { + "epoch": 0.6194666666666667, + "grad_norm": 2.9547772807910633, + "learning_rate": 1.6266565684644483e-06, + "loss": 0.4397, + "step": 2323 + }, + { + "epoch": 0.6197333333333334, + "grad_norm": 2.572451045083528, + "learning_rate": 1.6246641532406081e-06, + "loss": 0.446, + "step": 2324 + }, + { + "epoch": 0.62, + "grad_norm": 2.5206712097593367, + "learning_rate": 1.6226723714718401e-06, + "loss": 0.3975, + "step": 2325 + }, + { + "epoch": 0.6202666666666666, + "grad_norm": 2.5102932278771806, + "learning_rate": 1.6206812245995393e-06, + "loss": 0.3813, + "step": 2326 + }, + { + "epoch": 0.6205333333333334, + "grad_norm": 2.828515165976786, + "learning_rate": 1.6186907140646392e-06, + "loss": 0.3952, + "step": 2327 + }, + { + "epoch": 0.6208, + "grad_norm": 3.098518837213252, + "learning_rate": 1.6167008413076158e-06, + "loss": 0.4207, + "step": 2328 + }, + { + "epoch": 0.6210666666666667, + "grad_norm": 5.467335797028458, + "learning_rate": 1.614711607768481e-06, + "loss": 0.4907, + "step": 2329 + }, + { + "epoch": 0.6213333333333333, + "grad_norm": 3.181757406219305, + "learning_rate": 1.612723014886787e-06, + "loss": 0.5205, + "step": 2330 + }, + { + "epoch": 0.6216, + "grad_norm": 2.5477174005311523, + "learning_rate": 1.6107350641016184e-06, + "loss": 0.4031, + "step": 2331 + }, + { + "epoch": 0.6218666666666667, + "grad_norm": 2.4199470816225674, + "learning_rate": 1.608747756851599e-06, + "loss": 0.3772, + "step": 2332 + }, + { + "epoch": 0.6221333333333333, + "grad_norm": 3.6967079813068273, + "learning_rate": 1.6067610945748846e-06, + "loss": 0.5491, + "step": 2333 + }, + { + "epoch": 0.6224, + "grad_norm": 2.345720983372248, + "learning_rate": 1.6047750787091642e-06, + "loss": 0.3763, + "step": 2334 + }, + { + "epoch": 0.6226666666666667, + "grad_norm": 2.63764927914958, + "learning_rate": 1.6027897106916603e-06, + "loss": 0.415, + "step": 2335 + }, + { + "epoch": 0.6229333333333333, + "grad_norm": 2.2663435121437123, + "learning_rate": 1.6008049919591267e-06, + "loss": 0.3591, + "step": 2336 + }, + { + "epoch": 0.6232, + "grad_norm": 2.341905459595337, + "learning_rate": 1.5988209239478454e-06, + "loss": 0.3653, + "step": 2337 + }, + { + "epoch": 0.6234666666666666, + "grad_norm": 2.1699184843845205, + "learning_rate": 1.5968375080936283e-06, + "loss": 0.3556, + "step": 2338 + }, + { + "epoch": 0.6237333333333334, + "grad_norm": 2.311568213157791, + "learning_rate": 1.5948547458318164e-06, + "loss": 0.3909, + "step": 2339 + }, + { + "epoch": 0.624, + "grad_norm": 3.0913080983091454, + "learning_rate": 1.5928726385972786e-06, + "loss": 0.4231, + "step": 2340 + }, + { + "epoch": 0.6242666666666666, + "grad_norm": 2.6218488463073033, + "learning_rate": 1.5908911878244055e-06, + "loss": 0.4119, + "step": 2341 + }, + { + "epoch": 0.6245333333333334, + "grad_norm": 2.8085309399022345, + "learning_rate": 1.5889103949471168e-06, + "loss": 0.4477, + "step": 2342 + }, + { + "epoch": 0.6248, + "grad_norm": 2.522416752341973, + "learning_rate": 1.5869302613988547e-06, + "loss": 0.3964, + "step": 2343 + }, + { + "epoch": 0.6250666666666667, + "grad_norm": 2.4441909233445296, + "learning_rate": 1.5849507886125836e-06, + "loss": 0.3608, + "step": 2344 + }, + { + "epoch": 0.6253333333333333, + "grad_norm": 2.8074914720227886, + "learning_rate": 1.5829719780207906e-06, + "loss": 0.4135, + "step": 2345 + }, + { + "epoch": 0.6256, + "grad_norm": 2.826081528546796, + "learning_rate": 1.580993831055484e-06, + "loss": 0.4484, + "step": 2346 + }, + { + "epoch": 0.6258666666666667, + "grad_norm": 2.4294909402239497, + "learning_rate": 1.5790163491481896e-06, + "loss": 0.3633, + "step": 2347 + }, + { + "epoch": 0.6261333333333333, + "grad_norm": 2.6434850637100653, + "learning_rate": 1.5770395337299546e-06, + "loss": 0.4151, + "step": 2348 + }, + { + "epoch": 0.6264, + "grad_norm": 2.4715488212891255, + "learning_rate": 1.5750633862313437e-06, + "loss": 0.4133, + "step": 2349 + }, + { + "epoch": 0.6266666666666667, + "grad_norm": 2.8448108165793236, + "learning_rate": 1.5730879080824345e-06, + "loss": 0.4473, + "step": 2350 + }, + { + "epoch": 0.6269333333333333, + "grad_norm": 2.3236610181855055, + "learning_rate": 1.5711131007128256e-06, + "loss": 0.3451, + "step": 2351 + }, + { + "epoch": 0.6272, + "grad_norm": 2.3579664539338507, + "learning_rate": 1.569138965551627e-06, + "loss": 0.3738, + "step": 2352 + }, + { + "epoch": 0.6274666666666666, + "grad_norm": 2.180533129114716, + "learning_rate": 1.567165504027463e-06, + "loss": 0.3688, + "step": 2353 + }, + { + "epoch": 0.6277333333333334, + "grad_norm": 2.468356242794101, + "learning_rate": 1.5651927175684688e-06, + "loss": 0.3659, + "step": 2354 + }, + { + "epoch": 0.628, + "grad_norm": 2.538879812875634, + "learning_rate": 1.5632206076022938e-06, + "loss": 0.378, + "step": 2355 + }, + { + "epoch": 0.6282666666666666, + "grad_norm": 2.607969657321393, + "learning_rate": 1.5612491755560976e-06, + "loss": 0.4313, + "step": 2356 + }, + { + "epoch": 0.6285333333333334, + "grad_norm": 2.7799072428526364, + "learning_rate": 1.5592784228565455e-06, + "loss": 0.4189, + "step": 2357 + }, + { + "epoch": 0.6288, + "grad_norm": 3.097651354873283, + "learning_rate": 1.557308350929816e-06, + "loss": 0.445, + "step": 2358 + }, + { + "epoch": 0.6290666666666667, + "grad_norm": 2.356728558790544, + "learning_rate": 1.5553389612015923e-06, + "loss": 0.3423, + "step": 2359 + }, + { + "epoch": 0.6293333333333333, + "grad_norm": 2.3881672160275937, + "learning_rate": 1.5533702550970639e-06, + "loss": 0.3803, + "step": 2360 + }, + { + "epoch": 0.6296, + "grad_norm": 2.5266825462787272, + "learning_rate": 1.5514022340409269e-06, + "loss": 0.3898, + "step": 2361 + }, + { + "epoch": 0.6298666666666667, + "grad_norm": 2.4738881946798403, + "learning_rate": 1.5494348994573802e-06, + "loss": 0.4473, + "step": 2362 + }, + { + "epoch": 0.6301333333333333, + "grad_norm": 2.8264599732364055, + "learning_rate": 1.5474682527701268e-06, + "loss": 0.4286, + "step": 2363 + }, + { + "epoch": 0.6304, + "grad_norm": 2.993099201965793, + "learning_rate": 1.5455022954023714e-06, + "loss": 0.4643, + "step": 2364 + }, + { + "epoch": 0.6306666666666667, + "grad_norm": 2.723399561494605, + "learning_rate": 1.54353702877682e-06, + "loss": 0.4385, + "step": 2365 + }, + { + "epoch": 0.6309333333333333, + "grad_norm": 2.9616857825321015, + "learning_rate": 1.5415724543156807e-06, + "loss": 0.4335, + "step": 2366 + }, + { + "epoch": 0.6312, + "grad_norm": 2.8984770419183605, + "learning_rate": 1.5396085734406557e-06, + "loss": 0.4385, + "step": 2367 + }, + { + "epoch": 0.6314666666666666, + "grad_norm": 2.7055356283539984, + "learning_rate": 1.5376453875729508e-06, + "loss": 0.4378, + "step": 2368 + }, + { + "epoch": 0.6317333333333334, + "grad_norm": 2.985840301722521, + "learning_rate": 1.5356828981332664e-06, + "loss": 0.4467, + "step": 2369 + }, + { + "epoch": 0.632, + "grad_norm": 2.8193604652593285, + "learning_rate": 1.5337211065417974e-06, + "loss": 0.4576, + "step": 2370 + }, + { + "epoch": 0.6322666666666666, + "grad_norm": 2.5192948998367672, + "learning_rate": 1.5317600142182364e-06, + "loss": 0.3957, + "step": 2371 + }, + { + "epoch": 0.6325333333333333, + "grad_norm": 2.412040267544466, + "learning_rate": 1.529799622581769e-06, + "loss": 0.3874, + "step": 2372 + }, + { + "epoch": 0.6328, + "grad_norm": 4.410900915652979, + "learning_rate": 1.5278399330510735e-06, + "loss": 0.4776, + "step": 2373 + }, + { + "epoch": 0.6330666666666667, + "grad_norm": 2.656350712802564, + "learning_rate": 1.5258809470443186e-06, + "loss": 0.4307, + "step": 2374 + }, + { + "epoch": 0.6333333333333333, + "grad_norm": 2.4184625913801048, + "learning_rate": 1.5239226659791685e-06, + "loss": 0.377, + "step": 2375 + }, + { + "epoch": 0.6336, + "grad_norm": 4.0092384709030044, + "learning_rate": 1.521965091272771e-06, + "loss": 0.4443, + "step": 2376 + }, + { + "epoch": 0.6338666666666667, + "grad_norm": 3.0125405863718404, + "learning_rate": 1.5200082243417675e-06, + "loss": 0.46, + "step": 2377 + }, + { + "epoch": 0.6341333333333333, + "grad_norm": 2.4559572506929053, + "learning_rate": 1.5180520666022852e-06, + "loss": 0.3912, + "step": 2378 + }, + { + "epoch": 0.6344, + "grad_norm": 2.9241371364264377, + "learning_rate": 1.5160966194699401e-06, + "loss": 0.4609, + "step": 2379 + }, + { + "epoch": 0.6346666666666667, + "grad_norm": 2.3768145203766444, + "learning_rate": 1.51414188435983e-06, + "loss": 0.3533, + "step": 2380 + }, + { + "epoch": 0.6349333333333333, + "grad_norm": 2.3570311712473835, + "learning_rate": 1.5121878626865413e-06, + "loss": 0.3638, + "step": 2381 + }, + { + "epoch": 0.6352, + "grad_norm": 2.849803772781318, + "learning_rate": 1.5102345558641429e-06, + "loss": 0.43, + "step": 2382 + }, + { + "epoch": 0.6354666666666666, + "grad_norm": 2.5649973367277874, + "learning_rate": 1.5082819653061841e-06, + "loss": 0.4079, + "step": 2383 + }, + { + "epoch": 0.6357333333333334, + "grad_norm": 2.4469776396352825, + "learning_rate": 1.506330092425699e-06, + "loss": 0.3954, + "step": 2384 + }, + { + "epoch": 0.636, + "grad_norm": 2.7672848978587323, + "learning_rate": 1.5043789386352025e-06, + "loss": 0.4344, + "step": 2385 + }, + { + "epoch": 0.6362666666666666, + "grad_norm": 2.9797224424925672, + "learning_rate": 1.5024285053466859e-06, + "loss": 0.4404, + "step": 2386 + }, + { + "epoch": 0.6365333333333333, + "grad_norm": 2.609602146732846, + "learning_rate": 1.5004787939716215e-06, + "loss": 0.4447, + "step": 2387 + }, + { + "epoch": 0.6368, + "grad_norm": 2.7068356809684357, + "learning_rate": 1.4985298059209596e-06, + "loss": 0.4522, + "step": 2388 + }, + { + "epoch": 0.6370666666666667, + "grad_norm": 2.652476754165673, + "learning_rate": 1.4965815426051245e-06, + "loss": 0.441, + "step": 2389 + }, + { + "epoch": 0.6373333333333333, + "grad_norm": 3.0079055441216935, + "learning_rate": 1.4946340054340191e-06, + "loss": 0.4195, + "step": 2390 + }, + { + "epoch": 0.6376, + "grad_norm": 3.3814705936920184, + "learning_rate": 1.4926871958170187e-06, + "loss": 0.4749, + "step": 2391 + }, + { + "epoch": 0.6378666666666667, + "grad_norm": 2.2884057485517153, + "learning_rate": 1.490741115162973e-06, + "loss": 0.3359, + "step": 2392 + }, + { + "epoch": 0.6381333333333333, + "grad_norm": 2.8072953359571016, + "learning_rate": 1.4887957648802035e-06, + "loss": 0.4513, + "step": 2393 + }, + { + "epoch": 0.6384, + "grad_norm": 2.518986598254198, + "learning_rate": 1.4868511463765033e-06, + "loss": 0.4219, + "step": 2394 + }, + { + "epoch": 0.6386666666666667, + "grad_norm": 3.138131725548987, + "learning_rate": 1.484907261059138e-06, + "loss": 0.4719, + "step": 2395 + }, + { + "epoch": 0.6389333333333334, + "grad_norm": 3.074198103727027, + "learning_rate": 1.4829641103348388e-06, + "loss": 0.4548, + "step": 2396 + }, + { + "epoch": 0.6392, + "grad_norm": 2.697994722512155, + "learning_rate": 1.4810216956098077e-06, + "loss": 0.4453, + "step": 2397 + }, + { + "epoch": 0.6394666666666666, + "grad_norm": 3.1249389811686634, + "learning_rate": 1.4790800182897152e-06, + "loss": 0.437, + "step": 2398 + }, + { + "epoch": 0.6397333333333334, + "grad_norm": 2.7341928333224956, + "learning_rate": 1.4771390797796947e-06, + "loss": 0.4053, + "step": 2399 + }, + { + "epoch": 0.64, + "grad_norm": 2.3246811007757766, + "learning_rate": 1.4751988814843482e-06, + "loss": 0.3665, + "step": 2400 + }, + { + "epoch": 0.6402666666666667, + "grad_norm": 2.6693383157444917, + "learning_rate": 1.4732594248077399e-06, + "loss": 0.4124, + "step": 2401 + }, + { + "epoch": 0.6405333333333333, + "grad_norm": 2.7060481532406784, + "learning_rate": 1.471320711153399e-06, + "loss": 0.4163, + "step": 2402 + }, + { + "epoch": 0.6408, + "grad_norm": 2.516061700495182, + "learning_rate": 1.469382741924315e-06, + "loss": 0.4145, + "step": 2403 + }, + { + "epoch": 0.6410666666666667, + "grad_norm": 3.2721471547769365, + "learning_rate": 1.4674455185229402e-06, + "loss": 0.4339, + "step": 2404 + }, + { + "epoch": 0.6413333333333333, + "grad_norm": 3.202075307789475, + "learning_rate": 1.4655090423511883e-06, + "loss": 0.4889, + "step": 2405 + }, + { + "epoch": 0.6416, + "grad_norm": 2.5997505169294337, + "learning_rate": 1.4635733148104284e-06, + "loss": 0.4124, + "step": 2406 + }, + { + "epoch": 0.6418666666666667, + "grad_norm": 2.7575151252502463, + "learning_rate": 1.4616383373014914e-06, + "loss": 0.3997, + "step": 2407 + }, + { + "epoch": 0.6421333333333333, + "grad_norm": 2.2100730342481016, + "learning_rate": 1.4597041112246646e-06, + "loss": 0.3464, + "step": 2408 + }, + { + "epoch": 0.6424, + "grad_norm": 2.7253143149065213, + "learning_rate": 1.45777063797969e-06, + "loss": 0.4847, + "step": 2409 + }, + { + "epoch": 0.6426666666666667, + "grad_norm": 2.94478194651154, + "learning_rate": 1.4558379189657669e-06, + "loss": 0.454, + "step": 2410 + }, + { + "epoch": 0.6429333333333334, + "grad_norm": 2.3836452047508647, + "learning_rate": 1.453905955581547e-06, + "loss": 0.3705, + "step": 2411 + }, + { + "epoch": 0.6432, + "grad_norm": 2.5369908302182065, + "learning_rate": 1.4519747492251367e-06, + "loss": 0.3969, + "step": 2412 + }, + { + "epoch": 0.6434666666666666, + "grad_norm": 2.72548618117417, + "learning_rate": 1.4500443012940926e-06, + "loss": 0.3472, + "step": 2413 + }, + { + "epoch": 0.6437333333333334, + "grad_norm": 2.2986304621321576, + "learning_rate": 1.4481146131854252e-06, + "loss": 0.3743, + "step": 2414 + }, + { + "epoch": 0.644, + "grad_norm": 2.5457919175785078, + "learning_rate": 1.4461856862955941e-06, + "loss": 0.431, + "step": 2415 + }, + { + "epoch": 0.6442666666666667, + "grad_norm": 2.448643350047984, + "learning_rate": 1.4442575220205043e-06, + "loss": 0.3784, + "step": 2416 + }, + { + "epoch": 0.6445333333333333, + "grad_norm": 2.6979780018995516, + "learning_rate": 1.4423301217555153e-06, + "loss": 0.4899, + "step": 2417 + }, + { + "epoch": 0.6448, + "grad_norm": 2.4534258516151146, + "learning_rate": 1.4404034868954294e-06, + "loss": 0.4026, + "step": 2418 + }, + { + "epoch": 0.6450666666666667, + "grad_norm": 2.7350661254372524, + "learning_rate": 1.4384776188344962e-06, + "loss": 0.413, + "step": 2419 + }, + { + "epoch": 0.6453333333333333, + "grad_norm": 2.676618675094737, + "learning_rate": 1.4365525189664098e-06, + "loss": 0.4246, + "step": 2420 + }, + { + "epoch": 0.6456, + "grad_norm": 2.3883903456614375, + "learning_rate": 1.4346281886843111e-06, + "loss": 0.3581, + "step": 2421 + }, + { + "epoch": 0.6458666666666667, + "grad_norm": 2.4751276730084784, + "learning_rate": 1.4327046293807786e-06, + "loss": 0.4412, + "step": 2422 + }, + { + "epoch": 0.6461333333333333, + "grad_norm": 2.689956778046366, + "learning_rate": 1.430781842447839e-06, + "loss": 0.4045, + "step": 2423 + }, + { + "epoch": 0.6464, + "grad_norm": 2.719274770137512, + "learning_rate": 1.4288598292769561e-06, + "loss": 0.4128, + "step": 2424 + }, + { + "epoch": 0.6466666666666666, + "grad_norm": 3.1563077918329143, + "learning_rate": 1.426938591259035e-06, + "loss": 0.5018, + "step": 2425 + }, + { + "epoch": 0.6469333333333334, + "grad_norm": 2.4105085173212184, + "learning_rate": 1.4250181297844196e-06, + "loss": 0.3937, + "step": 2426 + }, + { + "epoch": 0.6472, + "grad_norm": 2.3331272766381597, + "learning_rate": 1.423098446242891e-06, + "loss": 0.3697, + "step": 2427 + }, + { + "epoch": 0.6474666666666666, + "grad_norm": 2.509038786047456, + "learning_rate": 1.4211795420236716e-06, + "loss": 0.3888, + "step": 2428 + }, + { + "epoch": 0.6477333333333334, + "grad_norm": 2.623821591952937, + "learning_rate": 1.419261418515412e-06, + "loss": 0.4439, + "step": 2429 + }, + { + "epoch": 0.648, + "grad_norm": 2.339824766086487, + "learning_rate": 1.4173440771062057e-06, + "loss": 0.3516, + "step": 2430 + }, + { + "epoch": 0.6482666666666667, + "grad_norm": 2.4321906682561547, + "learning_rate": 1.4154275191835762e-06, + "loss": 0.3845, + "step": 2431 + }, + { + "epoch": 0.6485333333333333, + "grad_norm": 2.6017601929288756, + "learning_rate": 1.41351174613448e-06, + "loss": 0.4005, + "step": 2432 + }, + { + "epoch": 0.6488, + "grad_norm": 2.5402743307977036, + "learning_rate": 1.4115967593453065e-06, + "loss": 0.4067, + "step": 2433 + }, + { + "epoch": 0.6490666666666667, + "grad_norm": 2.4911124449217272, + "learning_rate": 1.409682560201876e-06, + "loss": 0.4102, + "step": 2434 + }, + { + "epoch": 0.6493333333333333, + "grad_norm": 2.798019919841236, + "learning_rate": 1.4077691500894386e-06, + "loss": 0.4871, + "step": 2435 + }, + { + "epoch": 0.6496, + "grad_norm": 2.472431569269953, + "learning_rate": 1.4058565303926724e-06, + "loss": 0.4053, + "step": 2436 + }, + { + "epoch": 0.6498666666666667, + "grad_norm": 2.803756363544423, + "learning_rate": 1.403944702495688e-06, + "loss": 0.4588, + "step": 2437 + }, + { + "epoch": 0.6501333333333333, + "grad_norm": 2.803395635161473, + "learning_rate": 1.4020336677820157e-06, + "loss": 0.3878, + "step": 2438 + }, + { + "epoch": 0.6504, + "grad_norm": 2.5845555090976564, + "learning_rate": 1.4001234276346175e-06, + "loss": 0.3763, + "step": 2439 + }, + { + "epoch": 0.6506666666666666, + "grad_norm": 2.465824786492147, + "learning_rate": 1.3982139834358783e-06, + "loss": 0.3598, + "step": 2440 + }, + { + "epoch": 0.6509333333333334, + "grad_norm": 2.7330017001808606, + "learning_rate": 1.3963053365676088e-06, + "loss": 0.4201, + "step": 2441 + }, + { + "epoch": 0.6512, + "grad_norm": 2.6638940483817217, + "learning_rate": 1.3943974884110383e-06, + "loss": 0.4331, + "step": 2442 + }, + { + "epoch": 0.6514666666666666, + "grad_norm": 2.894307963668618, + "learning_rate": 1.3924904403468232e-06, + "loss": 0.4728, + "step": 2443 + }, + { + "epoch": 0.6517333333333334, + "grad_norm": 3.3533323944221722, + "learning_rate": 1.390584193755039e-06, + "loss": 0.4276, + "step": 2444 + }, + { + "epoch": 0.652, + "grad_norm": 2.7219146678369706, + "learning_rate": 1.3886787500151777e-06, + "loss": 0.437, + "step": 2445 + }, + { + "epoch": 0.6522666666666667, + "grad_norm": 2.223321322525736, + "learning_rate": 1.386774110506157e-06, + "loss": 0.3579, + "step": 2446 + }, + { + "epoch": 0.6525333333333333, + "grad_norm": 2.4413181447194243, + "learning_rate": 1.384870276606307e-06, + "loss": 0.4196, + "step": 2447 + }, + { + "epoch": 0.6528, + "grad_norm": 2.3180640614847934, + "learning_rate": 1.3829672496933782e-06, + "loss": 0.3704, + "step": 2448 + }, + { + "epoch": 0.6530666666666667, + "grad_norm": 2.6212411797240587, + "learning_rate": 1.381065031144534e-06, + "loss": 0.4215, + "step": 2449 + }, + { + "epoch": 0.6533333333333333, + "grad_norm": 2.6750023958007247, + "learning_rate": 1.3791636223363575e-06, + "loss": 0.4177, + "step": 2450 + }, + { + "epoch": 0.6536, + "grad_norm": 2.4207320982647467, + "learning_rate": 1.3772630246448392e-06, + "loss": 0.37, + "step": 2451 + }, + { + "epoch": 0.6538666666666667, + "grad_norm": 2.2746856172213574, + "learning_rate": 1.3753632394453891e-06, + "loss": 0.3551, + "step": 2452 + }, + { + "epoch": 0.6541333333333333, + "grad_norm": 2.73978550773163, + "learning_rate": 1.3734642681128257e-06, + "loss": 0.4063, + "step": 2453 + }, + { + "epoch": 0.6544, + "grad_norm": 2.6696537988698488, + "learning_rate": 1.3715661120213793e-06, + "loss": 0.4081, + "step": 2454 + }, + { + "epoch": 0.6546666666666666, + "grad_norm": 2.406896624904754, + "learning_rate": 1.36966877254469e-06, + "loss": 0.3652, + "step": 2455 + }, + { + "epoch": 0.6549333333333334, + "grad_norm": 2.8644095751706447, + "learning_rate": 1.3677722510558062e-06, + "loss": 0.3895, + "step": 2456 + }, + { + "epoch": 0.6552, + "grad_norm": 2.7220053067532173, + "learning_rate": 1.3658765489271885e-06, + "loss": 0.4258, + "step": 2457 + }, + { + "epoch": 0.6554666666666666, + "grad_norm": 2.381468957817491, + "learning_rate": 1.3639816675306971e-06, + "loss": 0.4046, + "step": 2458 + }, + { + "epoch": 0.6557333333333333, + "grad_norm": 3.161149147100165, + "learning_rate": 1.3620876082376057e-06, + "loss": 0.4416, + "step": 2459 + }, + { + "epoch": 0.656, + "grad_norm": 2.6114831764942523, + "learning_rate": 1.3601943724185885e-06, + "loss": 0.4019, + "step": 2460 + }, + { + "epoch": 0.6562666666666667, + "grad_norm": 2.375644773119719, + "learning_rate": 1.3583019614437254e-06, + "loss": 0.3572, + "step": 2461 + }, + { + "epoch": 0.6565333333333333, + "grad_norm": 2.6304700936969545, + "learning_rate": 1.3564103766824991e-06, + "loss": 0.389, + "step": 2462 + }, + { + "epoch": 0.6568, + "grad_norm": 2.642416705673288, + "learning_rate": 1.3545196195037947e-06, + "loss": 0.3912, + "step": 2463 + }, + { + "epoch": 0.6570666666666667, + "grad_norm": 2.5758768874644833, + "learning_rate": 1.3526296912758977e-06, + "loss": 0.3781, + "step": 2464 + }, + { + "epoch": 0.6573333333333333, + "grad_norm": 2.3434895266296456, + "learning_rate": 1.3507405933664936e-06, + "loss": 0.3953, + "step": 2465 + }, + { + "epoch": 0.6576, + "grad_norm": 2.9107759310767585, + "learning_rate": 1.348852327142669e-06, + "loss": 0.4231, + "step": 2466 + }, + { + "epoch": 0.6578666666666667, + "grad_norm": 2.5072447603821035, + "learning_rate": 1.3469648939709069e-06, + "loss": 0.3871, + "step": 2467 + }, + { + "epoch": 0.6581333333333333, + "grad_norm": 2.5155063223163903, + "learning_rate": 1.3450782952170871e-06, + "loss": 0.4049, + "step": 2468 + }, + { + "epoch": 0.6584, + "grad_norm": 2.7027170398781566, + "learning_rate": 1.3431925322464852e-06, + "loss": 0.4084, + "step": 2469 + }, + { + "epoch": 0.6586666666666666, + "grad_norm": 2.998752822675095, + "learning_rate": 1.3413076064237768e-06, + "loss": 0.4142, + "step": 2470 + }, + { + "epoch": 0.6589333333333334, + "grad_norm": 2.6589560078891954, + "learning_rate": 1.339423519113023e-06, + "loss": 0.3976, + "step": 2471 + }, + { + "epoch": 0.6592, + "grad_norm": 2.5532309681328593, + "learning_rate": 1.3375402716776865e-06, + "loss": 0.4121, + "step": 2472 + }, + { + "epoch": 0.6594666666666666, + "grad_norm": 4.3707559663931175, + "learning_rate": 1.3356578654806168e-06, + "loss": 0.4853, + "step": 2473 + }, + { + "epoch": 0.6597333333333333, + "grad_norm": 2.984914678641659, + "learning_rate": 1.3337763018840578e-06, + "loss": 0.4076, + "step": 2474 + }, + { + "epoch": 0.66, + "grad_norm": 2.4417826627598793, + "learning_rate": 1.331895582249641e-06, + "loss": 0.3846, + "step": 2475 + }, + { + "epoch": 0.6602666666666667, + "grad_norm": 2.4643088926316676, + "learning_rate": 1.3300157079383879e-06, + "loss": 0.4041, + "step": 2476 + }, + { + "epoch": 0.6605333333333333, + "grad_norm": 3.1562645891090586, + "learning_rate": 1.3281366803107123e-06, + "loss": 0.454, + "step": 2477 + }, + { + "epoch": 0.6608, + "grad_norm": 2.6176774801300655, + "learning_rate": 1.3262585007264073e-06, + "loss": 0.3923, + "step": 2478 + }, + { + "epoch": 0.6610666666666667, + "grad_norm": 2.2301505590129693, + "learning_rate": 1.3243811705446603e-06, + "loss": 0.3436, + "step": 2479 + }, + { + "epoch": 0.6613333333333333, + "grad_norm": 2.6654116076493173, + "learning_rate": 1.3225046911240385e-06, + "loss": 0.3886, + "step": 2480 + }, + { + "epoch": 0.6616, + "grad_norm": 2.403990280977982, + "learning_rate": 1.3206290638224965e-06, + "loss": 0.4287, + "step": 2481 + }, + { + "epoch": 0.6618666666666667, + "grad_norm": 2.601006758023964, + "learning_rate": 1.3187542899973704e-06, + "loss": 0.4177, + "step": 2482 + }, + { + "epoch": 0.6621333333333334, + "grad_norm": 2.604236917587375, + "learning_rate": 1.31688037100538e-06, + "loss": 0.4378, + "step": 2483 + }, + { + "epoch": 0.6624, + "grad_norm": 2.3951957557664643, + "learning_rate": 1.3150073082026255e-06, + "loss": 0.3942, + "step": 2484 + }, + { + "epoch": 0.6626666666666666, + "grad_norm": 2.5955822317200856, + "learning_rate": 1.3131351029445875e-06, + "loss": 0.4182, + "step": 2485 + }, + { + "epoch": 0.6629333333333334, + "grad_norm": 2.5143449841622103, + "learning_rate": 1.3112637565861287e-06, + "loss": 0.4163, + "step": 2486 + }, + { + "epoch": 0.6632, + "grad_norm": 2.343677560322538, + "learning_rate": 1.3093932704814847e-06, + "loss": 0.3806, + "step": 2487 + }, + { + "epoch": 0.6634666666666666, + "grad_norm": 2.558537720626036, + "learning_rate": 1.3075236459842744e-06, + "loss": 0.407, + "step": 2488 + }, + { + "epoch": 0.6637333333333333, + "grad_norm": 2.6161272537210154, + "learning_rate": 1.3056548844474895e-06, + "loss": 0.4279, + "step": 2489 + }, + { + "epoch": 0.664, + "grad_norm": 2.3814303980597056, + "learning_rate": 1.3037869872234988e-06, + "loss": 0.3552, + "step": 2490 + }, + { + "epoch": 0.6642666666666667, + "grad_norm": 2.508096472595113, + "learning_rate": 1.3019199556640449e-06, + "loss": 0.3732, + "step": 2491 + }, + { + "epoch": 0.6645333333333333, + "grad_norm": 2.747613548696349, + "learning_rate": 1.3000537911202431e-06, + "loss": 0.4587, + "step": 2492 + }, + { + "epoch": 0.6648, + "grad_norm": 2.732504713546252, + "learning_rate": 1.2981884949425856e-06, + "loss": 0.4387, + "step": 2493 + }, + { + "epoch": 0.6650666666666667, + "grad_norm": 2.428172228049998, + "learning_rate": 1.2963240684809286e-06, + "loss": 0.3916, + "step": 2494 + }, + { + "epoch": 0.6653333333333333, + "grad_norm": 2.873511867829842, + "learning_rate": 1.2944605130845066e-06, + "loss": 0.4145, + "step": 2495 + }, + { + "epoch": 0.6656, + "grad_norm": 2.8324303906646593, + "learning_rate": 1.2925978301019193e-06, + "loss": 0.4377, + "step": 2496 + }, + { + "epoch": 0.6658666666666667, + "grad_norm": 2.5377830506749186, + "learning_rate": 1.2907360208811362e-06, + "loss": 0.3796, + "step": 2497 + }, + { + "epoch": 0.6661333333333334, + "grad_norm": 2.9246442235305925, + "learning_rate": 1.2888750867694933e-06, + "loss": 0.4732, + "step": 2498 + }, + { + "epoch": 0.6664, + "grad_norm": 2.6693253509620205, + "learning_rate": 1.2870150291136974e-06, + "loss": 0.4336, + "step": 2499 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 2.2320358392391015, + "learning_rate": 1.2851558492598143e-06, + "loss": 0.363, + "step": 2500 + }, + { + "epoch": 0.6669333333333334, + "grad_norm": 2.350472165455904, + "learning_rate": 1.2832975485532811e-06, + "loss": 0.3814, + "step": 2501 + }, + { + "epoch": 0.6672, + "grad_norm": 2.6094880733460615, + "learning_rate": 1.2814401283388953e-06, + "loss": 0.4269, + "step": 2502 + }, + { + "epoch": 0.6674666666666667, + "grad_norm": 2.817975911472412, + "learning_rate": 1.2795835899608173e-06, + "loss": 0.4084, + "step": 2503 + }, + { + "epoch": 0.6677333333333333, + "grad_norm": 2.4308343371647014, + "learning_rate": 1.2777279347625704e-06, + "loss": 0.3758, + "step": 2504 + }, + { + "epoch": 0.668, + "grad_norm": 2.3993714552758463, + "learning_rate": 1.275873164087037e-06, + "loss": 0.3722, + "step": 2505 + }, + { + "epoch": 0.6682666666666667, + "grad_norm": 2.7114139574750737, + "learning_rate": 1.2740192792764637e-06, + "loss": 0.4058, + "step": 2506 + }, + { + "epoch": 0.6685333333333333, + "grad_norm": 2.475967001525161, + "learning_rate": 1.2721662816724487e-06, + "loss": 0.4074, + "step": 2507 + }, + { + "epoch": 0.6688, + "grad_norm": 2.6849059857272155, + "learning_rate": 1.2703141726159557e-06, + "loss": 0.4292, + "step": 2508 + }, + { + "epoch": 0.6690666666666667, + "grad_norm": 2.789423621872969, + "learning_rate": 1.2684629534473014e-06, + "loss": 0.4471, + "step": 2509 + }, + { + "epoch": 0.6693333333333333, + "grad_norm": 2.7902747820633516, + "learning_rate": 1.2666126255061588e-06, + "loss": 0.437, + "step": 2510 + }, + { + "epoch": 0.6696, + "grad_norm": 3.96815769384453, + "learning_rate": 1.2647631901315563e-06, + "loss": 0.4679, + "step": 2511 + }, + { + "epoch": 0.6698666666666667, + "grad_norm": 2.595647454100375, + "learning_rate": 1.2629146486618768e-06, + "loss": 0.3684, + "step": 2512 + }, + { + "epoch": 0.6701333333333334, + "grad_norm": 2.7336344425918635, + "learning_rate": 1.261067002434856e-06, + "loss": 0.3944, + "step": 2513 + }, + { + "epoch": 0.6704, + "grad_norm": 2.8388196014637574, + "learning_rate": 1.2592202527875798e-06, + "loss": 0.405, + "step": 2514 + }, + { + "epoch": 0.6706666666666666, + "grad_norm": 2.4857077652772035, + "learning_rate": 1.2573744010564903e-06, + "loss": 0.3984, + "step": 2515 + }, + { + "epoch": 0.6709333333333334, + "grad_norm": 2.7017110740739154, + "learning_rate": 1.2555294485773753e-06, + "loss": 0.4067, + "step": 2516 + }, + { + "epoch": 0.6712, + "grad_norm": 2.854706789315105, + "learning_rate": 1.253685396685373e-06, + "loss": 0.4311, + "step": 2517 + }, + { + "epoch": 0.6714666666666667, + "grad_norm": 2.997063246194408, + "learning_rate": 1.2518422467149699e-06, + "loss": 0.4493, + "step": 2518 + }, + { + "epoch": 0.6717333333333333, + "grad_norm": 2.577918632812764, + "learning_rate": 1.2500000000000007e-06, + "loss": 0.4416, + "step": 2519 + }, + { + "epoch": 0.672, + "grad_norm": 2.662733966181954, + "learning_rate": 1.2481586578736448e-06, + "loss": 0.4327, + "step": 2520 + }, + { + "epoch": 0.6722666666666667, + "grad_norm": 2.713048455673159, + "learning_rate": 1.2463182216684277e-06, + "loss": 0.4115, + "step": 2521 + }, + { + "epoch": 0.6725333333333333, + "grad_norm": 2.562335983508874, + "learning_rate": 1.2444786927162222e-06, + "loss": 0.3874, + "step": 2522 + }, + { + "epoch": 0.6728, + "grad_norm": 2.8043460316759705, + "learning_rate": 1.242640072348238e-06, + "loss": 0.4697, + "step": 2523 + }, + { + "epoch": 0.6730666666666667, + "grad_norm": 2.578561103791658, + "learning_rate": 1.2408023618950337e-06, + "loss": 0.381, + "step": 2524 + }, + { + "epoch": 0.6733333333333333, + "grad_norm": 3.3019319135363476, + "learning_rate": 1.2389655626865064e-06, + "loss": 0.4962, + "step": 2525 + }, + { + "epoch": 0.6736, + "grad_norm": 3.0710653067217004, + "learning_rate": 1.2371296760518935e-06, + "loss": 0.4562, + "step": 2526 + }, + { + "epoch": 0.6738666666666666, + "grad_norm": 2.630908371741785, + "learning_rate": 1.2352947033197727e-06, + "loss": 0.3999, + "step": 2527 + }, + { + "epoch": 0.6741333333333334, + "grad_norm": 3.0396277885009324, + "learning_rate": 1.2334606458180614e-06, + "loss": 0.4649, + "step": 2528 + }, + { + "epoch": 0.6744, + "grad_norm": 2.627301661901626, + "learning_rate": 1.2316275048740133e-06, + "loss": 0.4433, + "step": 2529 + }, + { + "epoch": 0.6746666666666666, + "grad_norm": 2.800786756674229, + "learning_rate": 1.2297952818142189e-06, + "loss": 0.4399, + "step": 2530 + }, + { + "epoch": 0.6749333333333334, + "grad_norm": 2.6159759553849455, + "learning_rate": 1.227963977964605e-06, + "loss": 0.4225, + "step": 2531 + }, + { + "epoch": 0.6752, + "grad_norm": 2.607686639559331, + "learning_rate": 1.226133594650432e-06, + "loss": 0.4091, + "step": 2532 + }, + { + "epoch": 0.6754666666666667, + "grad_norm": 3.0570439010475146, + "learning_rate": 1.224304133196296e-06, + "loss": 0.4562, + "step": 2533 + }, + { + "epoch": 0.6757333333333333, + "grad_norm": 2.685125182843672, + "learning_rate": 1.2224755949261235e-06, + "loss": 0.3903, + "step": 2534 + }, + { + "epoch": 0.676, + "grad_norm": 3.2880039106894965, + "learning_rate": 1.2206479811631774e-06, + "loss": 0.4378, + "step": 2535 + }, + { + "epoch": 0.6762666666666667, + "grad_norm": 2.48134573985429, + "learning_rate": 1.218821293230045e-06, + "loss": 0.4417, + "step": 2536 + }, + { + "epoch": 0.6765333333333333, + "grad_norm": 2.94768746182571, + "learning_rate": 1.2169955324486497e-06, + "loss": 0.4732, + "step": 2537 + }, + { + "epoch": 0.6768, + "grad_norm": 2.5918749841040465, + "learning_rate": 1.2151707001402407e-06, + "loss": 0.4524, + "step": 2538 + }, + { + "epoch": 0.6770666666666667, + "grad_norm": 2.6193616032627856, + "learning_rate": 1.213346797625396e-06, + "loss": 0.4025, + "step": 2539 + }, + { + "epoch": 0.6773333333333333, + "grad_norm": 2.469113469912836, + "learning_rate": 1.2115238262240205e-06, + "loss": 0.3851, + "step": 2540 + }, + { + "epoch": 0.6776, + "grad_norm": 2.9265869543466225, + "learning_rate": 1.209701787255345e-06, + "loss": 0.4971, + "step": 2541 + }, + { + "epoch": 0.6778666666666666, + "grad_norm": 2.7367108849981023, + "learning_rate": 1.2078806820379286e-06, + "loss": 0.4156, + "step": 2542 + }, + { + "epoch": 0.6781333333333334, + "grad_norm": 2.744616921001055, + "learning_rate": 1.2060605118896484e-06, + "loss": 0.4706, + "step": 2543 + }, + { + "epoch": 0.6784, + "grad_norm": 2.435449471007328, + "learning_rate": 1.2042412781277113e-06, + "loss": 0.3753, + "step": 2544 + }, + { + "epoch": 0.6786666666666666, + "grad_norm": 2.64906541118817, + "learning_rate": 1.2024229820686434e-06, + "loss": 0.4024, + "step": 2545 + }, + { + "epoch": 0.6789333333333334, + "grad_norm": 2.4080359482396343, + "learning_rate": 1.2006056250282921e-06, + "loss": 0.4217, + "step": 2546 + }, + { + "epoch": 0.6792, + "grad_norm": 3.240238449787834, + "learning_rate": 1.1987892083218258e-06, + "loss": 0.5739, + "step": 2547 + }, + { + "epoch": 0.6794666666666667, + "grad_norm": 2.792879408925663, + "learning_rate": 1.1969737332637326e-06, + "loss": 0.4561, + "step": 2548 + }, + { + "epoch": 0.6797333333333333, + "grad_norm": 2.9988051311487296, + "learning_rate": 1.195159201167819e-06, + "loss": 0.4817, + "step": 2549 + }, + { + "epoch": 0.68, + "grad_norm": 2.833191420992992, + "learning_rate": 1.193345613347208e-06, + "loss": 0.4161, + "step": 2550 + }, + { + "epoch": 0.6802666666666667, + "grad_norm": 2.391508251747325, + "learning_rate": 1.191532971114342e-06, + "loss": 0.4079, + "step": 2551 + }, + { + "epoch": 0.6805333333333333, + "grad_norm": 2.631308968047709, + "learning_rate": 1.1897212757809767e-06, + "loss": 0.4105, + "step": 2552 + }, + { + "epoch": 0.6808, + "grad_norm": 2.9259979130959355, + "learning_rate": 1.1879105286581833e-06, + "loss": 0.5033, + "step": 2553 + }, + { + "epoch": 0.6810666666666667, + "grad_norm": 2.939265118920854, + "learning_rate": 1.1861007310563459e-06, + "loss": 0.4107, + "step": 2554 + }, + { + "epoch": 0.6813333333333333, + "grad_norm": 2.683091807972439, + "learning_rate": 1.1842918842851651e-06, + "loss": 0.4135, + "step": 2555 + }, + { + "epoch": 0.6816, + "grad_norm": 2.4505082284844897, + "learning_rate": 1.1824839896536466e-06, + "loss": 0.3663, + "step": 2556 + }, + { + "epoch": 0.6818666666666666, + "grad_norm": 2.490245425637884, + "learning_rate": 1.1806770484701144e-06, + "loss": 0.3895, + "step": 2557 + }, + { + "epoch": 0.6821333333333334, + "grad_norm": 3.0920897702424748, + "learning_rate": 1.1788710620421978e-06, + "loss": 0.4187, + "step": 2558 + }, + { + "epoch": 0.6824, + "grad_norm": 2.202816456921587, + "learning_rate": 1.1770660316768374e-06, + "loss": 0.3697, + "step": 2559 + }, + { + "epoch": 0.6826666666666666, + "grad_norm": 3.015703409432662, + "learning_rate": 1.1752619586802802e-06, + "loss": 0.4526, + "step": 2560 + }, + { + "epoch": 0.6829333333333333, + "grad_norm": 2.4677795641013307, + "learning_rate": 1.173458844358082e-06, + "loss": 0.4047, + "step": 2561 + }, + { + "epoch": 0.6832, + "grad_norm": 2.6728415767150686, + "learning_rate": 1.1716566900151036e-06, + "loss": 0.3476, + "step": 2562 + }, + { + "epoch": 0.6834666666666667, + "grad_norm": 2.588180630776306, + "learning_rate": 1.1698554969555111e-06, + "loss": 0.4142, + "step": 2563 + }, + { + "epoch": 0.6837333333333333, + "grad_norm": 2.619089723490257, + "learning_rate": 1.1680552664827775e-06, + "loss": 0.4278, + "step": 2564 + }, + { + "epoch": 0.684, + "grad_norm": 2.342095975158257, + "learning_rate": 1.1662559998996755e-06, + "loss": 0.3806, + "step": 2565 + }, + { + "epoch": 0.6842666666666667, + "grad_norm": 2.623861475446881, + "learning_rate": 1.1644576985082828e-06, + "loss": 0.464, + "step": 2566 + }, + { + "epoch": 0.6845333333333333, + "grad_norm": 2.5477427409046958, + "learning_rate": 1.1626603636099777e-06, + "loss": 0.378, + "step": 2567 + }, + { + "epoch": 0.6848, + "grad_norm": 2.569817556360192, + "learning_rate": 1.1608639965054383e-06, + "loss": 0.4436, + "step": 2568 + }, + { + "epoch": 0.6850666666666667, + "grad_norm": 2.9183388176226375, + "learning_rate": 1.159068598494644e-06, + "loss": 0.4766, + "step": 2569 + }, + { + "epoch": 0.6853333333333333, + "grad_norm": 2.8827556431155696, + "learning_rate": 1.157274170876871e-06, + "loss": 0.4184, + "step": 2570 + }, + { + "epoch": 0.6856, + "grad_norm": 2.7776315957575726, + "learning_rate": 1.155480714950697e-06, + "loss": 0.4469, + "step": 2571 + }, + { + "epoch": 0.6858666666666666, + "grad_norm": 2.6784943917908985, + "learning_rate": 1.15368823201399e-06, + "loss": 0.4285, + "step": 2572 + }, + { + "epoch": 0.6861333333333334, + "grad_norm": 2.4117005408674155, + "learning_rate": 1.1518967233639207e-06, + "loss": 0.3508, + "step": 2573 + }, + { + "epoch": 0.6864, + "grad_norm": 2.5713113851277565, + "learning_rate": 1.150106190296951e-06, + "loss": 0.4037, + "step": 2574 + }, + { + "epoch": 0.6866666666666666, + "grad_norm": 2.6612922097985976, + "learning_rate": 1.1483166341088372e-06, + "loss": 0.4051, + "step": 2575 + }, + { + "epoch": 0.6869333333333333, + "grad_norm": 2.4135111737670325, + "learning_rate": 1.1465280560946293e-06, + "loss": 0.3849, + "step": 2576 + }, + { + "epoch": 0.6872, + "grad_norm": 2.382718366250647, + "learning_rate": 1.1447404575486679e-06, + "loss": 0.3863, + "step": 2577 + }, + { + "epoch": 0.6874666666666667, + "grad_norm": 2.947111685927436, + "learning_rate": 1.1429538397645892e-06, + "loss": 0.4407, + "step": 2578 + }, + { + "epoch": 0.6877333333333333, + "grad_norm": 2.353261915560784, + "learning_rate": 1.1411682040353126e-06, + "loss": 0.3299, + "step": 2579 + }, + { + "epoch": 0.688, + "grad_norm": 2.7126912272598425, + "learning_rate": 1.1393835516530533e-06, + "loss": 0.4566, + "step": 2580 + }, + { + "epoch": 0.6882666666666667, + "grad_norm": 3.3127853302725088, + "learning_rate": 1.1375998839093117e-06, + "loss": 0.4971, + "step": 2581 + }, + { + "epoch": 0.6885333333333333, + "grad_norm": 3.1136919341672544, + "learning_rate": 1.135817202094876e-06, + "loss": 0.4627, + "step": 2582 + }, + { + "epoch": 0.6888, + "grad_norm": 2.32156441836775, + "learning_rate": 1.1340355074998202e-06, + "loss": 0.3612, + "step": 2583 + }, + { + "epoch": 0.6890666666666667, + "grad_norm": 2.67853777652721, + "learning_rate": 1.1322548014135077e-06, + "loss": 0.3814, + "step": 2584 + }, + { + "epoch": 0.6893333333333334, + "grad_norm": 2.685710250939222, + "learning_rate": 1.1304750851245799e-06, + "loss": 0.4122, + "step": 2585 + }, + { + "epoch": 0.6896, + "grad_norm": 2.4846694233212143, + "learning_rate": 1.1286963599209682e-06, + "loss": 0.3923, + "step": 2586 + }, + { + "epoch": 0.6898666666666666, + "grad_norm": 2.703934931449221, + "learning_rate": 1.126918627089884e-06, + "loss": 0.4555, + "step": 2587 + }, + { + "epoch": 0.6901333333333334, + "grad_norm": 2.7237874391614176, + "learning_rate": 1.1251418879178202e-06, + "loss": 0.4393, + "step": 2588 + }, + { + "epoch": 0.6904, + "grad_norm": 2.4250399690788313, + "learning_rate": 1.1233661436905517e-06, + "loss": 0.3646, + "step": 2589 + }, + { + "epoch": 0.6906666666666667, + "grad_norm": 2.456613311674016, + "learning_rate": 1.1215913956931313e-06, + "loss": 0.3692, + "step": 2590 + }, + { + "epoch": 0.6909333333333333, + "grad_norm": 2.6184306346282944, + "learning_rate": 1.1198176452098958e-06, + "loss": 0.4404, + "step": 2591 + }, + { + "epoch": 0.6912, + "grad_norm": 2.935115884120423, + "learning_rate": 1.1180448935244528e-06, + "loss": 0.4355, + "step": 2592 + }, + { + "epoch": 0.6914666666666667, + "grad_norm": 2.262993137751863, + "learning_rate": 1.116273141919694e-06, + "loss": 0.3498, + "step": 2593 + }, + { + "epoch": 0.6917333333333333, + "grad_norm": 2.629489284447616, + "learning_rate": 1.1145023916777837e-06, + "loss": 0.4321, + "step": 2594 + }, + { + "epoch": 0.692, + "grad_norm": 2.558461887562185, + "learning_rate": 1.112732644080162e-06, + "loss": 0.4029, + "step": 2595 + }, + { + "epoch": 0.6922666666666667, + "grad_norm": 3.1959459537558326, + "learning_rate": 1.1109639004075437e-06, + "loss": 0.4351, + "step": 2596 + }, + { + "epoch": 0.6925333333333333, + "grad_norm": 3.0184293102797493, + "learning_rate": 1.1091961619399174e-06, + "loss": 0.479, + "step": 2597 + }, + { + "epoch": 0.6928, + "grad_norm": 2.3136686367482913, + "learning_rate": 1.1074294299565438e-06, + "loss": 0.3607, + "step": 2598 + }, + { + "epoch": 0.6930666666666667, + "grad_norm": 2.513047086849379, + "learning_rate": 1.1056637057359547e-06, + "loss": 0.3982, + "step": 2599 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 2.6277662010187464, + "learning_rate": 1.103898990555955e-06, + "loss": 0.4225, + "step": 2600 + }, + { + "epoch": 0.6936, + "grad_norm": 2.3721807904127106, + "learning_rate": 1.1021352856936166e-06, + "loss": 0.3686, + "step": 2601 + }, + { + "epoch": 0.6938666666666666, + "grad_norm": 2.6294235724784714, + "learning_rate": 1.1003725924252815e-06, + "loss": 0.3932, + "step": 2602 + }, + { + "epoch": 0.6941333333333334, + "grad_norm": 2.824612825578296, + "learning_rate": 1.0986109120265587e-06, + "loss": 0.4206, + "step": 2603 + }, + { + "epoch": 0.6944, + "grad_norm": 2.5996795574128857, + "learning_rate": 1.0968502457723279e-06, + "loss": 0.4115, + "step": 2604 + }, + { + "epoch": 0.6946666666666667, + "grad_norm": 2.7190550121900445, + "learning_rate": 1.0950905949367287e-06, + "loss": 0.4369, + "step": 2605 + }, + { + "epoch": 0.6949333333333333, + "grad_norm": 2.536916857613743, + "learning_rate": 1.0933319607931698e-06, + "loss": 0.4171, + "step": 2606 + }, + { + "epoch": 0.6952, + "grad_norm": 2.4639094034858613, + "learning_rate": 1.0915743446143258e-06, + "loss": 0.3835, + "step": 2607 + }, + { + "epoch": 0.6954666666666667, + "grad_norm": 2.5498938398878455, + "learning_rate": 1.0898177476721294e-06, + "loss": 0.3906, + "step": 2608 + }, + { + "epoch": 0.6957333333333333, + "grad_norm": 2.6351833454169493, + "learning_rate": 1.0880621712377807e-06, + "loss": 0.4452, + "step": 2609 + }, + { + "epoch": 0.696, + "grad_norm": 2.621174652795197, + "learning_rate": 1.0863076165817386e-06, + "loss": 0.4133, + "step": 2610 + }, + { + "epoch": 0.6962666666666667, + "grad_norm": 2.480684604230722, + "learning_rate": 1.0845540849737233e-06, + "loss": 0.3782, + "step": 2611 + }, + { + "epoch": 0.6965333333333333, + "grad_norm": 2.7916036484852023, + "learning_rate": 1.0828015776827136e-06, + "loss": 0.4412, + "step": 2612 + }, + { + "epoch": 0.6968, + "grad_norm": 2.5897954001413948, + "learning_rate": 1.0810500959769498e-06, + "loss": 0.4344, + "step": 2613 + }, + { + "epoch": 0.6970666666666666, + "grad_norm": 3.095327093991467, + "learning_rate": 1.0792996411239273e-06, + "loss": 0.4102, + "step": 2614 + }, + { + "epoch": 0.6973333333333334, + "grad_norm": 2.7183806006766846, + "learning_rate": 1.0775502143903995e-06, + "loss": 0.4379, + "step": 2615 + }, + { + "epoch": 0.6976, + "grad_norm": 2.5858177997674066, + "learning_rate": 1.0758018170423756e-06, + "loss": 0.3412, + "step": 2616 + }, + { + "epoch": 0.6978666666666666, + "grad_norm": 2.788960113953806, + "learning_rate": 1.0740544503451197e-06, + "loss": 0.4226, + "step": 2617 + }, + { + "epoch": 0.6981333333333334, + "grad_norm": 2.3176036164190563, + "learning_rate": 1.07230811556315e-06, + "loss": 0.3714, + "step": 2618 + }, + { + "epoch": 0.6984, + "grad_norm": 2.497917772503619, + "learning_rate": 1.0705628139602381e-06, + "loss": 0.4149, + "step": 2619 + }, + { + "epoch": 0.6986666666666667, + "grad_norm": 2.6198772312313037, + "learning_rate": 1.0688185467994098e-06, + "loss": 0.3964, + "step": 2620 + }, + { + "epoch": 0.6989333333333333, + "grad_norm": 2.4853006158318314, + "learning_rate": 1.067075315342937e-06, + "loss": 0.4214, + "step": 2621 + }, + { + "epoch": 0.6992, + "grad_norm": 3.584710129877199, + "learning_rate": 1.0653331208523486e-06, + "loss": 0.4429, + "step": 2622 + }, + { + "epoch": 0.6994666666666667, + "grad_norm": 2.834956861126338, + "learning_rate": 1.0635919645884187e-06, + "loss": 0.4522, + "step": 2623 + }, + { + "epoch": 0.6997333333333333, + "grad_norm": 2.592269279648097, + "learning_rate": 1.061851847811172e-06, + "loss": 0.4416, + "step": 2624 + }, + { + "epoch": 0.7, + "grad_norm": 2.520645361398444, + "learning_rate": 1.0601127717798798e-06, + "loss": 0.4001, + "step": 2625 + }, + { + "epoch": 0.7002666666666667, + "grad_norm": 2.710222355230466, + "learning_rate": 1.0583747377530604e-06, + "loss": 0.4337, + "step": 2626 + }, + { + "epoch": 0.7005333333333333, + "grad_norm": 3.6963874344519, + "learning_rate": 1.0566377469884806e-06, + "loss": 0.5179, + "step": 2627 + }, + { + "epoch": 0.7008, + "grad_norm": 2.322106791211418, + "learning_rate": 1.0549018007431467e-06, + "loss": 0.3758, + "step": 2628 + }, + { + "epoch": 0.7010666666666666, + "grad_norm": 3.2978843466056293, + "learning_rate": 1.0531669002733152e-06, + "loss": 0.4559, + "step": 2629 + }, + { + "epoch": 0.7013333333333334, + "grad_norm": 2.6057048812147245, + "learning_rate": 1.0514330468344825e-06, + "loss": 0.3989, + "step": 2630 + }, + { + "epoch": 0.7016, + "grad_norm": 2.612275331409089, + "learning_rate": 1.049700241681387e-06, + "loss": 0.4282, + "step": 2631 + }, + { + "epoch": 0.7018666666666666, + "grad_norm": 2.3197415027051407, + "learning_rate": 1.0479684860680091e-06, + "loss": 0.386, + "step": 2632 + }, + { + "epoch": 0.7021333333333334, + "grad_norm": 2.230297514789596, + "learning_rate": 1.0462377812475727e-06, + "loss": 0.36, + "step": 2633 + }, + { + "epoch": 0.7024, + "grad_norm": 2.6575545696977807, + "learning_rate": 1.0445081284725355e-06, + "loss": 0.4113, + "step": 2634 + }, + { + "epoch": 0.7026666666666667, + "grad_norm": 2.328726260272141, + "learning_rate": 1.042779528994597e-06, + "loss": 0.3546, + "step": 2635 + }, + { + "epoch": 0.7029333333333333, + "grad_norm": 2.634534204398383, + "learning_rate": 1.0410519840646968e-06, + "loss": 0.4362, + "step": 2636 + }, + { + "epoch": 0.7032, + "grad_norm": 2.812697241351484, + "learning_rate": 1.0393254949330056e-06, + "loss": 0.4291, + "step": 2637 + }, + { + "epoch": 0.7034666666666667, + "grad_norm": 2.411825242784883, + "learning_rate": 1.0376000628489358e-06, + "loss": 0.3965, + "step": 2638 + }, + { + "epoch": 0.7037333333333333, + "grad_norm": 3.0110060010980138, + "learning_rate": 1.0358756890611307e-06, + "loss": 0.4557, + "step": 2639 + }, + { + "epoch": 0.704, + "grad_norm": 2.556046403902193, + "learning_rate": 1.034152374817472e-06, + "loss": 0.397, + "step": 2640 + }, + { + "epoch": 0.7042666666666667, + "grad_norm": 2.8024906660225133, + "learning_rate": 1.0324301213650686e-06, + "loss": 0.4377, + "step": 2641 + }, + { + "epoch": 0.7045333333333333, + "grad_norm": 2.8188139122445244, + "learning_rate": 1.0307089299502679e-06, + "loss": 0.4418, + "step": 2642 + }, + { + "epoch": 0.7048, + "grad_norm": 2.585764764909626, + "learning_rate": 1.0289888018186448e-06, + "loss": 0.4109, + "step": 2643 + }, + { + "epoch": 0.7050666666666666, + "grad_norm": 2.6632264310376588, + "learning_rate": 1.0272697382150066e-06, + "loss": 0.4288, + "step": 2644 + }, + { + "epoch": 0.7053333333333334, + "grad_norm": 2.6746614674436584, + "learning_rate": 1.0255517403833887e-06, + "loss": 0.3675, + "step": 2645 + }, + { + "epoch": 0.7056, + "grad_norm": 2.6034926959796607, + "learning_rate": 1.023834809567057e-06, + "loss": 0.3753, + "step": 2646 + }, + { + "epoch": 0.7058666666666666, + "grad_norm": 2.5601701149524416, + "learning_rate": 1.022118947008504e-06, + "loss": 0.4258, + "step": 2647 + }, + { + "epoch": 0.7061333333333333, + "grad_norm": 2.346633346778921, + "learning_rate": 1.020404153949448e-06, + "loss": 0.3621, + "step": 2648 + }, + { + "epoch": 0.7064, + "grad_norm": 2.3887376267360323, + "learning_rate": 1.0186904316308386e-06, + "loss": 0.3752, + "step": 2649 + }, + { + "epoch": 0.7066666666666667, + "grad_norm": 2.598062021598147, + "learning_rate": 1.0169777812928425e-06, + "loss": 0.4145, + "step": 2650 + }, + { + "epoch": 0.7069333333333333, + "grad_norm": 2.389001442670961, + "learning_rate": 1.0152662041748575e-06, + "loss": 0.358, + "step": 2651 + }, + { + "epoch": 0.7072, + "grad_norm": 2.725601802803552, + "learning_rate": 1.0135557015155018e-06, + "loss": 0.3993, + "step": 2652 + }, + { + "epoch": 0.7074666666666667, + "grad_norm": 2.7085217490062687, + "learning_rate": 1.0118462745526159e-06, + "loss": 0.416, + "step": 2653 + }, + { + "epoch": 0.7077333333333333, + "grad_norm": 2.3890790109150406, + "learning_rate": 1.0101379245232627e-06, + "loss": 0.3562, + "step": 2654 + }, + { + "epoch": 0.708, + "grad_norm": 2.1808688071920623, + "learning_rate": 1.0084306526637238e-06, + "loss": 0.3226, + "step": 2655 + }, + { + "epoch": 0.7082666666666667, + "grad_norm": 2.503277763087085, + "learning_rate": 1.0067244602095056e-06, + "loss": 0.3951, + "step": 2656 + }, + { + "epoch": 0.7085333333333333, + "grad_norm": 2.6516025963164482, + "learning_rate": 1.0050193483953262e-06, + "loss": 0.4042, + "step": 2657 + }, + { + "epoch": 0.7088, + "grad_norm": 2.702021750226041, + "learning_rate": 1.0033153184551276e-06, + "loss": 0.3856, + "step": 2658 + }, + { + "epoch": 0.7090666666666666, + "grad_norm": 2.4574472560775327, + "learning_rate": 1.001612371622066e-06, + "loss": 0.3772, + "step": 2659 + }, + { + "epoch": 0.7093333333333334, + "grad_norm": 2.3212526681794095, + "learning_rate": 9.999105091285149e-07, + "loss": 0.3925, + "step": 2660 + }, + { + "epoch": 0.7096, + "grad_norm": 2.7374882012284427, + "learning_rate": 9.982097322060613e-07, + "loss": 0.4821, + "step": 2661 + }, + { + "epoch": 0.7098666666666666, + "grad_norm": 2.6862728529914124, + "learning_rate": 9.965100420855098e-07, + "loss": 0.4375, + "step": 2662 + }, + { + "epoch": 0.7101333333333333, + "grad_norm": 2.8495614153240885, + "learning_rate": 9.948114399968763e-07, + "loss": 0.4358, + "step": 2663 + }, + { + "epoch": 0.7104, + "grad_norm": 2.485465720808246, + "learning_rate": 9.931139271693878e-07, + "loss": 0.4207, + "step": 2664 + }, + { + "epoch": 0.7106666666666667, + "grad_norm": 2.3908598584259626, + "learning_rate": 9.914175048314873e-07, + "loss": 0.4015, + "step": 2665 + }, + { + "epoch": 0.7109333333333333, + "grad_norm": 2.5257271629469638, + "learning_rate": 9.89722174210825e-07, + "loss": 0.3915, + "step": 2666 + }, + { + "epoch": 0.7112, + "grad_norm": 3.1194273614733987, + "learning_rate": 9.880279365342627e-07, + "loss": 0.4917, + "step": 2667 + }, + { + "epoch": 0.7114666666666667, + "grad_norm": 2.52045364344029, + "learning_rate": 9.8633479302787e-07, + "loss": 0.3891, + "step": 2668 + }, + { + "epoch": 0.7117333333333333, + "grad_norm": 2.3882431690675268, + "learning_rate": 9.846427449169279e-07, + "loss": 0.4083, + "step": 2669 + }, + { + "epoch": 0.712, + "grad_norm": 2.522192773535552, + "learning_rate": 9.829517934259192e-07, + "loss": 0.3931, + "step": 2670 + }, + { + "epoch": 0.7122666666666667, + "grad_norm": 2.835009290074308, + "learning_rate": 9.812619397785386e-07, + "loss": 0.4358, + "step": 2671 + }, + { + "epoch": 0.7125333333333334, + "grad_norm": 2.51745590754622, + "learning_rate": 9.795731851976837e-07, + "loss": 0.4051, + "step": 2672 + }, + { + "epoch": 0.7128, + "grad_norm": 2.415444199702727, + "learning_rate": 9.77885530905456e-07, + "loss": 0.4205, + "step": 2673 + }, + { + "epoch": 0.7130666666666666, + "grad_norm": 2.8074907383088075, + "learning_rate": 9.761989781231628e-07, + "loss": 0.4299, + "step": 2674 + }, + { + "epoch": 0.7133333333333334, + "grad_norm": 2.5746749115166447, + "learning_rate": 9.74513528071312e-07, + "loss": 0.4174, + "step": 2675 + }, + { + "epoch": 0.7136, + "grad_norm": 2.453789428481077, + "learning_rate": 9.72829181969617e-07, + "loss": 0.3773, + "step": 2676 + }, + { + "epoch": 0.7138666666666666, + "grad_norm": 2.5535133029771924, + "learning_rate": 9.711459410369872e-07, + "loss": 0.3903, + "step": 2677 + }, + { + "epoch": 0.7141333333333333, + "grad_norm": 2.4162505266237897, + "learning_rate": 9.694638064915374e-07, + "loss": 0.3702, + "step": 2678 + }, + { + "epoch": 0.7144, + "grad_norm": 2.8646642421309925, + "learning_rate": 9.677827795505784e-07, + "loss": 0.4219, + "step": 2679 + }, + { + "epoch": 0.7146666666666667, + "grad_norm": 2.658121225569227, + "learning_rate": 9.661028614306204e-07, + "loss": 0.4024, + "step": 2680 + }, + { + "epoch": 0.7149333333333333, + "grad_norm": 2.771105167715981, + "learning_rate": 9.644240533473717e-07, + "loss": 0.5193, + "step": 2681 + }, + { + "epoch": 0.7152, + "grad_norm": 2.7775866146622548, + "learning_rate": 9.627463565157363e-07, + "loss": 0.4391, + "step": 2682 + }, + { + "epoch": 0.7154666666666667, + "grad_norm": 2.81009541465566, + "learning_rate": 9.61069772149815e-07, + "loss": 0.4093, + "step": 2683 + }, + { + "epoch": 0.7157333333333333, + "grad_norm": 2.6811427306242672, + "learning_rate": 9.59394301462902e-07, + "loss": 0.4523, + "step": 2684 + }, + { + "epoch": 0.716, + "grad_norm": 2.7103686818269845, + "learning_rate": 9.577199456674893e-07, + "loss": 0.466, + "step": 2685 + }, + { + "epoch": 0.7162666666666667, + "grad_norm": 2.814427773107922, + "learning_rate": 9.56046705975256e-07, + "loss": 0.4374, + "step": 2686 + }, + { + "epoch": 0.7165333333333334, + "grad_norm": 2.5218769810994854, + "learning_rate": 9.543745835970796e-07, + "loss": 0.3417, + "step": 2687 + }, + { + "epoch": 0.7168, + "grad_norm": 2.508127840502462, + "learning_rate": 9.527035797430246e-07, + "loss": 0.3915, + "step": 2688 + }, + { + "epoch": 0.7170666666666666, + "grad_norm": 2.335821859733295, + "learning_rate": 9.510336956223504e-07, + "loss": 0.3578, + "step": 2689 + }, + { + "epoch": 0.7173333333333334, + "grad_norm": 2.950315918441435, + "learning_rate": 9.493649324435003e-07, + "loss": 0.4467, + "step": 2690 + }, + { + "epoch": 0.7176, + "grad_norm": 2.4832762039226286, + "learning_rate": 9.476972914141119e-07, + "loss": 0.4133, + "step": 2691 + }, + { + "epoch": 0.7178666666666667, + "grad_norm": 2.8297953030206626, + "learning_rate": 9.460307737410077e-07, + "loss": 0.4549, + "step": 2692 + }, + { + "epoch": 0.7181333333333333, + "grad_norm": 2.7857701083667274, + "learning_rate": 9.443653806301983e-07, + "loss": 0.4349, + "step": 2693 + }, + { + "epoch": 0.7184, + "grad_norm": 2.5104973921127423, + "learning_rate": 9.427011132868799e-07, + "loss": 0.4219, + "step": 2694 + }, + { + "epoch": 0.7186666666666667, + "grad_norm": 2.887037396897826, + "learning_rate": 9.410379729154345e-07, + "loss": 0.3438, + "step": 2695 + }, + { + "epoch": 0.7189333333333333, + "grad_norm": 2.7693553043568984, + "learning_rate": 9.393759607194283e-07, + "loss": 0.4553, + "step": 2696 + }, + { + "epoch": 0.7192, + "grad_norm": 2.4777987952032525, + "learning_rate": 9.377150779016103e-07, + "loss": 0.3571, + "step": 2697 + }, + { + "epoch": 0.7194666666666667, + "grad_norm": 2.272017808221227, + "learning_rate": 9.360553256639157e-07, + "loss": 0.333, + "step": 2698 + }, + { + "epoch": 0.7197333333333333, + "grad_norm": 2.6542782728840195, + "learning_rate": 9.343967052074551e-07, + "loss": 0.3722, + "step": 2699 + }, + { + "epoch": 0.72, + "grad_norm": 2.4746262337067453, + "learning_rate": 9.327392177325271e-07, + "loss": 0.3981, + "step": 2700 + }, + { + "epoch": 0.7202666666666667, + "grad_norm": 2.5535113738596196, + "learning_rate": 9.310828644386055e-07, + "loss": 0.3783, + "step": 2701 + }, + { + "epoch": 0.7205333333333334, + "grad_norm": 2.2487246935182923, + "learning_rate": 9.294276465243457e-07, + "loss": 0.3555, + "step": 2702 + }, + { + "epoch": 0.7208, + "grad_norm": 2.4113413079331854, + "learning_rate": 9.277735651875802e-07, + "loss": 0.3662, + "step": 2703 + }, + { + "epoch": 0.7210666666666666, + "grad_norm": 2.746898877963143, + "learning_rate": 9.261206216253188e-07, + "loss": 0.4673, + "step": 2704 + }, + { + "epoch": 0.7213333333333334, + "grad_norm": 2.6779362134163236, + "learning_rate": 9.244688170337513e-07, + "loss": 0.4045, + "step": 2705 + }, + { + "epoch": 0.7216, + "grad_norm": 2.3079488808666087, + "learning_rate": 9.22818152608237e-07, + "loss": 0.38, + "step": 2706 + }, + { + "epoch": 0.7218666666666667, + "grad_norm": 3.0738814771877205, + "learning_rate": 9.211686295433165e-07, + "loss": 0.4619, + "step": 2707 + }, + { + "epoch": 0.7221333333333333, + "grad_norm": 2.4648051688285384, + "learning_rate": 9.195202490327005e-07, + "loss": 0.4014, + "step": 2708 + }, + { + "epoch": 0.7224, + "grad_norm": 2.8023987883947177, + "learning_rate": 9.178730122692742e-07, + "loss": 0.3968, + "step": 2709 + }, + { + "epoch": 0.7226666666666667, + "grad_norm": 2.6662788312971344, + "learning_rate": 9.162269204450947e-07, + "loss": 0.42, + "step": 2710 + }, + { + "epoch": 0.7229333333333333, + "grad_norm": 2.2757717577915026, + "learning_rate": 9.145819747513909e-07, + "loss": 0.3445, + "step": 2711 + }, + { + "epoch": 0.7232, + "grad_norm": 2.8958233549832055, + "learning_rate": 9.129381763785622e-07, + "loss": 0.4428, + "step": 2712 + }, + { + "epoch": 0.7234666666666667, + "grad_norm": 2.864598810046732, + "learning_rate": 9.112955265161766e-07, + "loss": 0.4365, + "step": 2713 + }, + { + "epoch": 0.7237333333333333, + "grad_norm": 2.459637846248904, + "learning_rate": 9.096540263529738e-07, + "loss": 0.4103, + "step": 2714 + }, + { + "epoch": 0.724, + "grad_norm": 2.3666230475731047, + "learning_rate": 9.080136770768588e-07, + "loss": 0.3953, + "step": 2715 + }, + { + "epoch": 0.7242666666666666, + "grad_norm": 2.674927147756033, + "learning_rate": 9.063744798749046e-07, + "loss": 0.421, + "step": 2716 + }, + { + "epoch": 0.7245333333333334, + "grad_norm": 2.691944997901286, + "learning_rate": 9.047364359333497e-07, + "loss": 0.4244, + "step": 2717 + }, + { + "epoch": 0.7248, + "grad_norm": 2.27665428067493, + "learning_rate": 9.030995464376014e-07, + "loss": 0.3456, + "step": 2718 + }, + { + "epoch": 0.7250666666666666, + "grad_norm": 3.4293704177520317, + "learning_rate": 9.014638125722253e-07, + "loss": 0.4713, + "step": 2719 + }, + { + "epoch": 0.7253333333333334, + "grad_norm": 2.4044741176219793, + "learning_rate": 8.998292355209574e-07, + "loss": 0.3768, + "step": 2720 + }, + { + "epoch": 0.7256, + "grad_norm": 2.7111171524612487, + "learning_rate": 8.981958164666924e-07, + "loss": 0.4309, + "step": 2721 + }, + { + "epoch": 0.7258666666666667, + "grad_norm": 2.2959711943543835, + "learning_rate": 8.965635565914879e-07, + "loss": 0.359, + "step": 2722 + }, + { + "epoch": 0.7261333333333333, + "grad_norm": 2.494765106873342, + "learning_rate": 8.949324570765633e-07, + "loss": 0.3608, + "step": 2723 + }, + { + "epoch": 0.7264, + "grad_norm": 2.9902046354311134, + "learning_rate": 8.933025191022976e-07, + "loss": 0.4354, + "step": 2724 + }, + { + "epoch": 0.7266666666666667, + "grad_norm": 2.743727203258282, + "learning_rate": 8.916737438482295e-07, + "loss": 0.4114, + "step": 2725 + }, + { + "epoch": 0.7269333333333333, + "grad_norm": 2.604728633564847, + "learning_rate": 8.900461324930553e-07, + "loss": 0.4383, + "step": 2726 + }, + { + "epoch": 0.7272, + "grad_norm": 2.611839174631844, + "learning_rate": 8.884196862146319e-07, + "loss": 0.4093, + "step": 2727 + }, + { + "epoch": 0.7274666666666667, + "grad_norm": 2.632831075070098, + "learning_rate": 8.867944061899703e-07, + "loss": 0.4728, + "step": 2728 + }, + { + "epoch": 0.7277333333333333, + "grad_norm": 2.4865194380847653, + "learning_rate": 8.851702935952377e-07, + "loss": 0.4212, + "step": 2729 + }, + { + "epoch": 0.728, + "grad_norm": 2.4976847986576627, + "learning_rate": 8.835473496057581e-07, + "loss": 0.4164, + "step": 2730 + }, + { + "epoch": 0.7282666666666666, + "grad_norm": 2.695638131792631, + "learning_rate": 8.819255753960079e-07, + "loss": 0.4231, + "step": 2731 + }, + { + "epoch": 0.7285333333333334, + "grad_norm": 2.260435248012946, + "learning_rate": 8.803049721396187e-07, + "loss": 0.3791, + "step": 2732 + }, + { + "epoch": 0.7288, + "grad_norm": 2.366128156267025, + "learning_rate": 8.786855410093725e-07, + "loss": 0.3851, + "step": 2733 + }, + { + "epoch": 0.7290666666666666, + "grad_norm": 2.4487026149605375, + "learning_rate": 8.770672831772071e-07, + "loss": 0.3838, + "step": 2734 + }, + { + "epoch": 0.7293333333333333, + "grad_norm": 2.9390751907384316, + "learning_rate": 8.754501998142053e-07, + "loss": 0.4566, + "step": 2735 + }, + { + "epoch": 0.7296, + "grad_norm": 2.5083174446171133, + "learning_rate": 8.738342920906056e-07, + "loss": 0.3726, + "step": 2736 + }, + { + "epoch": 0.7298666666666667, + "grad_norm": 2.9352907682913805, + "learning_rate": 8.72219561175793e-07, + "loss": 0.4467, + "step": 2737 + }, + { + "epoch": 0.7301333333333333, + "grad_norm": 2.8768063715705887, + "learning_rate": 8.706060082383008e-07, + "loss": 0.446, + "step": 2738 + }, + { + "epoch": 0.7304, + "grad_norm": 2.6347340848687137, + "learning_rate": 8.689936344458105e-07, + "loss": 0.4302, + "step": 2739 + }, + { + "epoch": 0.7306666666666667, + "grad_norm": 2.434607110166239, + "learning_rate": 8.673824409651493e-07, + "loss": 0.3756, + "step": 2740 + }, + { + "epoch": 0.7309333333333333, + "grad_norm": 2.7811351198713856, + "learning_rate": 8.657724289622931e-07, + "loss": 0.4357, + "step": 2741 + }, + { + "epoch": 0.7312, + "grad_norm": 2.5290377700339532, + "learning_rate": 8.641635996023582e-07, + "loss": 0.4052, + "step": 2742 + }, + { + "epoch": 0.7314666666666667, + "grad_norm": 2.4501308584671424, + "learning_rate": 8.625559540496092e-07, + "loss": 0.388, + "step": 2743 + }, + { + "epoch": 0.7317333333333333, + "grad_norm": 2.9552201674020746, + "learning_rate": 8.60949493467452e-07, + "loss": 0.4309, + "step": 2744 + }, + { + "epoch": 0.732, + "grad_norm": 3.1943664810129975, + "learning_rate": 8.593442190184353e-07, + "loss": 0.4381, + "step": 2745 + }, + { + "epoch": 0.7322666666666666, + "grad_norm": 2.3941992151378533, + "learning_rate": 8.577401318642489e-07, + "loss": 0.4197, + "step": 2746 + }, + { + "epoch": 0.7325333333333334, + "grad_norm": 3.104604203225406, + "learning_rate": 8.561372331657261e-07, + "loss": 0.4389, + "step": 2747 + }, + { + "epoch": 0.7328, + "grad_norm": 2.486915803312621, + "learning_rate": 8.545355240828346e-07, + "loss": 0.3796, + "step": 2748 + }, + { + "epoch": 0.7330666666666666, + "grad_norm": 2.6777610299670447, + "learning_rate": 8.529350057746877e-07, + "loss": 0.4581, + "step": 2749 + }, + { + "epoch": 0.7333333333333333, + "grad_norm": 2.667236842807598, + "learning_rate": 8.513356793995326e-07, + "loss": 0.3901, + "step": 2750 + }, + { + "epoch": 0.7336, + "grad_norm": 2.7636554039360344, + "learning_rate": 8.497375461147553e-07, + "loss": 0.4405, + "step": 2751 + }, + { + "epoch": 0.7338666666666667, + "grad_norm": 2.5732739762225036, + "learning_rate": 8.481406070768785e-07, + "loss": 0.4161, + "step": 2752 + }, + { + "epoch": 0.7341333333333333, + "grad_norm": 2.3564324814576927, + "learning_rate": 8.465448634415596e-07, + "loss": 0.3683, + "step": 2753 + }, + { + "epoch": 0.7344, + "grad_norm": 2.5812432250275372, + "learning_rate": 8.449503163635944e-07, + "loss": 0.4148, + "step": 2754 + }, + { + "epoch": 0.7346666666666667, + "grad_norm": 2.6363076611183787, + "learning_rate": 8.433569669969069e-07, + "loss": 0.3984, + "step": 2755 + }, + { + "epoch": 0.7349333333333333, + "grad_norm": 2.5327700964494846, + "learning_rate": 8.4176481649456e-07, + "loss": 0.4129, + "step": 2756 + }, + { + "epoch": 0.7352, + "grad_norm": 2.6440255465051163, + "learning_rate": 8.401738660087455e-07, + "loss": 0.4742, + "step": 2757 + }, + { + "epoch": 0.7354666666666667, + "grad_norm": 2.4849178661420774, + "learning_rate": 8.385841166907888e-07, + "loss": 0.402, + "step": 2758 + }, + { + "epoch": 0.7357333333333334, + "grad_norm": 2.4586490252234867, + "learning_rate": 8.369955696911444e-07, + "loss": 0.402, + "step": 2759 + }, + { + "epoch": 0.736, + "grad_norm": 2.720619905585066, + "learning_rate": 8.354082261593982e-07, + "loss": 0.4011, + "step": 2760 + }, + { + "epoch": 0.7362666666666666, + "grad_norm": 4.384956310186125, + "learning_rate": 8.338220872442637e-07, + "loss": 0.3897, + "step": 2761 + }, + { + "epoch": 0.7365333333333334, + "grad_norm": 2.8057075586533946, + "learning_rate": 8.322371540935836e-07, + "loss": 0.4586, + "step": 2762 + }, + { + "epoch": 0.7368, + "grad_norm": 2.6586854319330873, + "learning_rate": 8.306534278543287e-07, + "loss": 0.4194, + "step": 2763 + }, + { + "epoch": 0.7370666666666666, + "grad_norm": 2.349732784209399, + "learning_rate": 8.290709096725955e-07, + "loss": 0.3739, + "step": 2764 + }, + { + "epoch": 0.7373333333333333, + "grad_norm": 2.569808707213451, + "learning_rate": 8.274896006936056e-07, + "loss": 0.372, + "step": 2765 + }, + { + "epoch": 0.7376, + "grad_norm": 2.3684532613445035, + "learning_rate": 8.259095020617066e-07, + "loss": 0.3775, + "step": 2766 + }, + { + "epoch": 0.7378666666666667, + "grad_norm": 2.6078061452446257, + "learning_rate": 8.2433061492037e-07, + "loss": 0.4117, + "step": 2767 + }, + { + "epoch": 0.7381333333333333, + "grad_norm": 2.310764562699799, + "learning_rate": 8.227529404121903e-07, + "loss": 0.3707, + "step": 2768 + }, + { + "epoch": 0.7384, + "grad_norm": 2.4328178938418894, + "learning_rate": 8.211764796788841e-07, + "loss": 0.3967, + "step": 2769 + }, + { + "epoch": 0.7386666666666667, + "grad_norm": 2.7080570268568662, + "learning_rate": 8.196012338612922e-07, + "loss": 0.4629, + "step": 2770 + }, + { + "epoch": 0.7389333333333333, + "grad_norm": 3.0059101124219367, + "learning_rate": 8.180272040993709e-07, + "loss": 0.4244, + "step": 2771 + }, + { + "epoch": 0.7392, + "grad_norm": 2.845113216755147, + "learning_rate": 8.164543915322026e-07, + "loss": 0.4226, + "step": 2772 + }, + { + "epoch": 0.7394666666666667, + "grad_norm": 2.448613091383591, + "learning_rate": 8.148827972979848e-07, + "loss": 0.369, + "step": 2773 + }, + { + "epoch": 0.7397333333333334, + "grad_norm": 2.687630002640376, + "learning_rate": 8.133124225340344e-07, + "loss": 0.4011, + "step": 2774 + }, + { + "epoch": 0.74, + "grad_norm": 2.852196330609617, + "learning_rate": 8.117432683767854e-07, + "loss": 0.4302, + "step": 2775 + }, + { + "epoch": 0.7402666666666666, + "grad_norm": 2.540627553299391, + "learning_rate": 8.101753359617903e-07, + "loss": 0.3801, + "step": 2776 + }, + { + "epoch": 0.7405333333333334, + "grad_norm": 2.744990899603702, + "learning_rate": 8.086086264237156e-07, + "loss": 0.3959, + "step": 2777 + }, + { + "epoch": 0.7408, + "grad_norm": 2.7859786940682367, + "learning_rate": 8.070431408963434e-07, + "loss": 0.4451, + "step": 2778 + }, + { + "epoch": 0.7410666666666667, + "grad_norm": 2.9102290936647233, + "learning_rate": 8.054788805125699e-07, + "loss": 0.377, + "step": 2779 + }, + { + "epoch": 0.7413333333333333, + "grad_norm": 2.404319632804378, + "learning_rate": 8.039158464044047e-07, + "loss": 0.3632, + "step": 2780 + }, + { + "epoch": 0.7416, + "grad_norm": 2.212079870773194, + "learning_rate": 8.023540397029703e-07, + "loss": 0.338, + "step": 2781 + }, + { + "epoch": 0.7418666666666667, + "grad_norm": 2.1933005869590754, + "learning_rate": 8.007934615384996e-07, + "loss": 0.3216, + "step": 2782 + }, + { + "epoch": 0.7421333333333333, + "grad_norm": 3.4130506817966775, + "learning_rate": 7.992341130403402e-07, + "loss": 0.4712, + "step": 2783 + }, + { + "epoch": 0.7424, + "grad_norm": 2.564058542044049, + "learning_rate": 7.976759953369445e-07, + "loss": 0.384, + "step": 2784 + }, + { + "epoch": 0.7426666666666667, + "grad_norm": 2.633866827975255, + "learning_rate": 7.961191095558785e-07, + "loss": 0.3839, + "step": 2785 + }, + { + "epoch": 0.7429333333333333, + "grad_norm": 2.214558296409854, + "learning_rate": 7.945634568238148e-07, + "loss": 0.3075, + "step": 2786 + }, + { + "epoch": 0.7432, + "grad_norm": 2.5370832992452286, + "learning_rate": 7.93009038266534e-07, + "loss": 0.3704, + "step": 2787 + }, + { + "epoch": 0.7434666666666667, + "grad_norm": 2.3511618508818852, + "learning_rate": 7.914558550089232e-07, + "loss": 0.3462, + "step": 2788 + }, + { + "epoch": 0.7437333333333334, + "grad_norm": 2.3300930463733764, + "learning_rate": 7.899039081749754e-07, + "loss": 0.3531, + "step": 2789 + }, + { + "epoch": 0.744, + "grad_norm": 2.266563256808987, + "learning_rate": 7.883531988877921e-07, + "loss": 0.3294, + "step": 2790 + }, + { + "epoch": 0.7442666666666666, + "grad_norm": 2.516984772828089, + "learning_rate": 7.868037282695726e-07, + "loss": 0.4018, + "step": 2791 + }, + { + "epoch": 0.7445333333333334, + "grad_norm": 2.5230098982229023, + "learning_rate": 7.852554974416263e-07, + "loss": 0.4012, + "step": 2792 + }, + { + "epoch": 0.7448, + "grad_norm": 2.7176021442109715, + "learning_rate": 7.837085075243623e-07, + "loss": 0.4159, + "step": 2793 + }, + { + "epoch": 0.7450666666666667, + "grad_norm": 2.6938145783021694, + "learning_rate": 7.821627596372916e-07, + "loss": 0.4465, + "step": 2794 + }, + { + "epoch": 0.7453333333333333, + "grad_norm": 2.657033959696116, + "learning_rate": 7.806182548990274e-07, + "loss": 0.3874, + "step": 2795 + }, + { + "epoch": 0.7456, + "grad_norm": 2.3547066142727666, + "learning_rate": 7.790749944272827e-07, + "loss": 0.3847, + "step": 2796 + }, + { + "epoch": 0.7458666666666667, + "grad_norm": 3.1959701736474404, + "learning_rate": 7.775329793388703e-07, + "loss": 0.4446, + "step": 2797 + }, + { + "epoch": 0.7461333333333333, + "grad_norm": 3.13326954148568, + "learning_rate": 7.759922107497006e-07, + "loss": 0.5241, + "step": 2798 + }, + { + "epoch": 0.7464, + "grad_norm": 4.024975143007024, + "learning_rate": 7.744526897747845e-07, + "loss": 0.4155, + "step": 2799 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 2.6277966758930877, + "learning_rate": 7.729144175282283e-07, + "loss": 0.4488, + "step": 2800 + }, + { + "epoch": 0.7469333333333333, + "grad_norm": 2.3408794295631035, + "learning_rate": 7.713773951232342e-07, + "loss": 0.3133, + "step": 2801 + }, + { + "epoch": 0.7472, + "grad_norm": 2.6139259910687134, + "learning_rate": 7.698416236721001e-07, + "loss": 0.4512, + "step": 2802 + }, + { + "epoch": 0.7474666666666666, + "grad_norm": 2.5859380530816027, + "learning_rate": 7.683071042862214e-07, + "loss": 0.4064, + "step": 2803 + }, + { + "epoch": 0.7477333333333334, + "grad_norm": 2.425563877218714, + "learning_rate": 7.66773838076082e-07, + "loss": 0.3532, + "step": 2804 + }, + { + "epoch": 0.748, + "grad_norm": 3.1621432859078005, + "learning_rate": 7.65241826151264e-07, + "loss": 0.4259, + "step": 2805 + }, + { + "epoch": 0.7482666666666666, + "grad_norm": 2.4842409081027212, + "learning_rate": 7.637110696204397e-07, + "loss": 0.3833, + "step": 2806 + }, + { + "epoch": 0.7485333333333334, + "grad_norm": 2.550549547613148, + "learning_rate": 7.621815695913728e-07, + "loss": 0.3777, + "step": 2807 + }, + { + "epoch": 0.7488, + "grad_norm": 2.7991106830113024, + "learning_rate": 7.606533271709177e-07, + "loss": 0.4538, + "step": 2808 + }, + { + "epoch": 0.7490666666666667, + "grad_norm": 2.4230686356061795, + "learning_rate": 7.591263434650192e-07, + "loss": 0.3782, + "step": 2809 + }, + { + "epoch": 0.7493333333333333, + "grad_norm": 3.030686541115548, + "learning_rate": 7.576006195787109e-07, + "loss": 0.4347, + "step": 2810 + }, + { + "epoch": 0.7496, + "grad_norm": 2.4658306494203717, + "learning_rate": 7.56076156616114e-07, + "loss": 0.3688, + "step": 2811 + }, + { + "epoch": 0.7498666666666667, + "grad_norm": 2.660438586481405, + "learning_rate": 7.545529556804393e-07, + "loss": 0.3657, + "step": 2812 + }, + { + "epoch": 0.7501333333333333, + "grad_norm": 2.9559762368374893, + "learning_rate": 7.530310178739828e-07, + "loss": 0.4576, + "step": 2813 + }, + { + "epoch": 0.7504, + "grad_norm": 2.6390952410003865, + "learning_rate": 7.515103442981259e-07, + "loss": 0.413, + "step": 2814 + }, + { + "epoch": 0.7506666666666667, + "grad_norm": 2.4921514827124933, + "learning_rate": 7.499909360533361e-07, + "loss": 0.3676, + "step": 2815 + }, + { + "epoch": 0.7509333333333333, + "grad_norm": 2.678309786668359, + "learning_rate": 7.48472794239165e-07, + "loss": 0.4388, + "step": 2816 + }, + { + "epoch": 0.7512, + "grad_norm": 2.521400194607578, + "learning_rate": 7.469559199542475e-07, + "loss": 0.3782, + "step": 2817 + }, + { + "epoch": 0.7514666666666666, + "grad_norm": 2.5739708800028396, + "learning_rate": 7.454403142963007e-07, + "loss": 0.4135, + "step": 2818 + }, + { + "epoch": 0.7517333333333334, + "grad_norm": 2.526303369463712, + "learning_rate": 7.439259783621267e-07, + "loss": 0.3422, + "step": 2819 + }, + { + "epoch": 0.752, + "grad_norm": 2.414697980697904, + "learning_rate": 7.424129132476027e-07, + "loss": 0.3806, + "step": 2820 + }, + { + "epoch": 0.7522666666666666, + "grad_norm": 2.6940734929936436, + "learning_rate": 7.409011200476928e-07, + "loss": 0.4025, + "step": 2821 + }, + { + "epoch": 0.7525333333333334, + "grad_norm": 3.6416498413438276, + "learning_rate": 7.393905998564369e-07, + "loss": 0.478, + "step": 2822 + }, + { + "epoch": 0.7528, + "grad_norm": 2.4014413364224865, + "learning_rate": 7.378813537669543e-07, + "loss": 0.3898, + "step": 2823 + }, + { + "epoch": 0.7530666666666667, + "grad_norm": 3.0153900028476555, + "learning_rate": 7.363733828714426e-07, + "loss": 0.4624, + "step": 2824 + }, + { + "epoch": 0.7533333333333333, + "grad_norm": 2.442705582069899, + "learning_rate": 7.348666882611752e-07, + "loss": 0.4067, + "step": 2825 + }, + { + "epoch": 0.7536, + "grad_norm": 2.9702435944295145, + "learning_rate": 7.333612710265062e-07, + "loss": 0.393, + "step": 2826 + }, + { + "epoch": 0.7538666666666667, + "grad_norm": 2.347824057776328, + "learning_rate": 7.318571322568588e-07, + "loss": 0.3798, + "step": 2827 + }, + { + "epoch": 0.7541333333333333, + "grad_norm": 2.789121210217956, + "learning_rate": 7.303542730407364e-07, + "loss": 0.4448, + "step": 2828 + }, + { + "epoch": 0.7544, + "grad_norm": 2.666054728566407, + "learning_rate": 7.288526944657142e-07, + "loss": 0.4006, + "step": 2829 + }, + { + "epoch": 0.7546666666666667, + "grad_norm": 2.6362514486467195, + "learning_rate": 7.27352397618441e-07, + "loss": 0.3875, + "step": 2830 + }, + { + "epoch": 0.7549333333333333, + "grad_norm": 2.730520804131372, + "learning_rate": 7.258533835846365e-07, + "loss": 0.4307, + "step": 2831 + }, + { + "epoch": 0.7552, + "grad_norm": 2.3685388400108427, + "learning_rate": 7.243556534490967e-07, + "loss": 0.3608, + "step": 2832 + }, + { + "epoch": 0.7554666666666666, + "grad_norm": 2.9539069287047433, + "learning_rate": 7.228592082956815e-07, + "loss": 0.4399, + "step": 2833 + }, + { + "epoch": 0.7557333333333334, + "grad_norm": 2.5409076835523896, + "learning_rate": 7.213640492073273e-07, + "loss": 0.3764, + "step": 2834 + }, + { + "epoch": 0.756, + "grad_norm": 2.435680796898176, + "learning_rate": 7.198701772660363e-07, + "loss": 0.4273, + "step": 2835 + }, + { + "epoch": 0.7562666666666666, + "grad_norm": 2.5065711175229772, + "learning_rate": 7.183775935528805e-07, + "loss": 0.3834, + "step": 2836 + }, + { + "epoch": 0.7565333333333333, + "grad_norm": 2.7587235004092063, + "learning_rate": 7.168862991479988e-07, + "loss": 0.4695, + "step": 2837 + }, + { + "epoch": 0.7568, + "grad_norm": 2.9995771188163878, + "learning_rate": 7.153962951305973e-07, + "loss": 0.4776, + "step": 2838 + }, + { + "epoch": 0.7570666666666667, + "grad_norm": 3.0977232884992474, + "learning_rate": 7.139075825789504e-07, + "loss": 0.4095, + "step": 2839 + }, + { + "epoch": 0.7573333333333333, + "grad_norm": 2.6667023587143435, + "learning_rate": 7.124201625703933e-07, + "loss": 0.4012, + "step": 2840 + }, + { + "epoch": 0.7576, + "grad_norm": 2.618886875525764, + "learning_rate": 7.109340361813305e-07, + "loss": 0.3779, + "step": 2841 + }, + { + "epoch": 0.7578666666666667, + "grad_norm": 3.8046197591597792, + "learning_rate": 7.094492044872281e-07, + "loss": 0.4269, + "step": 2842 + }, + { + "epoch": 0.7581333333333333, + "grad_norm": 3.1823659487560123, + "learning_rate": 7.079656685626152e-07, + "loss": 0.4995, + "step": 2843 + }, + { + "epoch": 0.7584, + "grad_norm": 2.466349631931825, + "learning_rate": 7.064834294810835e-07, + "loss": 0.3632, + "step": 2844 + }, + { + "epoch": 0.7586666666666667, + "grad_norm": 2.5058171602827297, + "learning_rate": 7.050024883152867e-07, + "loss": 0.374, + "step": 2845 + }, + { + "epoch": 0.7589333333333333, + "grad_norm": 2.682930014255041, + "learning_rate": 7.035228461369384e-07, + "loss": 0.4367, + "step": 2846 + }, + { + "epoch": 0.7592, + "grad_norm": 2.431480244730602, + "learning_rate": 7.020445040168122e-07, + "loss": 0.3727, + "step": 2847 + }, + { + "epoch": 0.7594666666666666, + "grad_norm": 2.586182423879681, + "learning_rate": 7.005674630247434e-07, + "loss": 0.3911, + "step": 2848 + }, + { + "epoch": 0.7597333333333334, + "grad_norm": 2.9288755873146215, + "learning_rate": 6.9909172422962e-07, + "loss": 0.4595, + "step": 2849 + }, + { + "epoch": 0.76, + "grad_norm": 3.040010570022961, + "learning_rate": 6.976172886993943e-07, + "loss": 0.4599, + "step": 2850 + }, + { + "epoch": 0.7602666666666666, + "grad_norm": 2.427847682686299, + "learning_rate": 6.961441575010703e-07, + "loss": 0.3762, + "step": 2851 + }, + { + "epoch": 0.7605333333333333, + "grad_norm": 2.253222603769582, + "learning_rate": 6.946723317007129e-07, + "loss": 0.3382, + "step": 2852 + }, + { + "epoch": 0.7608, + "grad_norm": 2.5276513212740634, + "learning_rate": 6.932018123634368e-07, + "loss": 0.3905, + "step": 2853 + }, + { + "epoch": 0.7610666666666667, + "grad_norm": 2.798415268721646, + "learning_rate": 6.917326005534145e-07, + "loss": 0.4595, + "step": 2854 + }, + { + "epoch": 0.7613333333333333, + "grad_norm": 2.79655534029136, + "learning_rate": 6.902646973338736e-07, + "loss": 0.397, + "step": 2855 + }, + { + "epoch": 0.7616, + "grad_norm": 2.380270333649334, + "learning_rate": 6.887981037670905e-07, + "loss": 0.3793, + "step": 2856 + }, + { + "epoch": 0.7618666666666667, + "grad_norm": 2.5067577809792247, + "learning_rate": 6.873328209143981e-07, + "loss": 0.3508, + "step": 2857 + }, + { + "epoch": 0.7621333333333333, + "grad_norm": 3.011023964039911, + "learning_rate": 6.858688498361785e-07, + "loss": 0.5086, + "step": 2858 + }, + { + "epoch": 0.7624, + "grad_norm": 2.7380345174140093, + "learning_rate": 6.844061915918646e-07, + "loss": 0.4725, + "step": 2859 + }, + { + "epoch": 0.7626666666666667, + "grad_norm": 2.7290795967967947, + "learning_rate": 6.829448472399388e-07, + "loss": 0.4548, + "step": 2860 + }, + { + "epoch": 0.7629333333333334, + "grad_norm": 2.4176937652267743, + "learning_rate": 6.814848178379357e-07, + "loss": 0.3791, + "step": 2861 + }, + { + "epoch": 0.7632, + "grad_norm": 2.3472737991677377, + "learning_rate": 6.800261044424344e-07, + "loss": 0.3348, + "step": 2862 + }, + { + "epoch": 0.7634666666666666, + "grad_norm": 3.0686143679969438, + "learning_rate": 6.785687081090642e-07, + "loss": 0.3918, + "step": 2863 + }, + { + "epoch": 0.7637333333333334, + "grad_norm": 2.6032249119397455, + "learning_rate": 6.771126298924996e-07, + "loss": 0.3864, + "step": 2864 + }, + { + "epoch": 0.764, + "grad_norm": 2.7178457281526054, + "learning_rate": 6.756578708464623e-07, + "loss": 0.4811, + "step": 2865 + }, + { + "epoch": 0.7642666666666666, + "grad_norm": 4.10140119634581, + "learning_rate": 6.742044320237193e-07, + "loss": 0.4098, + "step": 2866 + }, + { + "epoch": 0.7645333333333333, + "grad_norm": 2.751376038321396, + "learning_rate": 6.727523144760812e-07, + "loss": 0.4351, + "step": 2867 + }, + { + "epoch": 0.7648, + "grad_norm": 2.943271192272596, + "learning_rate": 6.713015192544051e-07, + "loss": 0.4574, + "step": 2868 + }, + { + "epoch": 0.7650666666666667, + "grad_norm": 2.602594648232443, + "learning_rate": 6.698520474085865e-07, + "loss": 0.4523, + "step": 2869 + }, + { + "epoch": 0.7653333333333333, + "grad_norm": 2.496545918502756, + "learning_rate": 6.684038999875683e-07, + "loss": 0.4019, + "step": 2870 + }, + { + "epoch": 0.7656, + "grad_norm": 2.8356012410622964, + "learning_rate": 6.669570780393317e-07, + "loss": 0.4242, + "step": 2871 + }, + { + "epoch": 0.7658666666666667, + "grad_norm": 2.3898107992025848, + "learning_rate": 6.655115826108999e-07, + "loss": 0.3994, + "step": 2872 + }, + { + "epoch": 0.7661333333333333, + "grad_norm": 2.836990126795909, + "learning_rate": 6.640674147483356e-07, + "loss": 0.4516, + "step": 2873 + }, + { + "epoch": 0.7664, + "grad_norm": 3.009453051218367, + "learning_rate": 6.626245754967403e-07, + "loss": 0.4449, + "step": 2874 + }, + { + "epoch": 0.7666666666666667, + "grad_norm": 2.3258995417936466, + "learning_rate": 6.611830659002572e-07, + "loss": 0.3673, + "step": 2875 + }, + { + "epoch": 0.7669333333333334, + "grad_norm": 2.979081208704945, + "learning_rate": 6.597428870020617e-07, + "loss": 0.4194, + "step": 2876 + }, + { + "epoch": 0.7672, + "grad_norm": 2.6867556498332315, + "learning_rate": 6.583040398443716e-07, + "loss": 0.4314, + "step": 2877 + }, + { + "epoch": 0.7674666666666666, + "grad_norm": 2.909911953120662, + "learning_rate": 6.568665254684382e-07, + "loss": 0.4467, + "step": 2878 + }, + { + "epoch": 0.7677333333333334, + "grad_norm": 2.8960689147012255, + "learning_rate": 6.554303449145483e-07, + "loss": 0.4355, + "step": 2879 + }, + { + "epoch": 0.768, + "grad_norm": 2.984410631845472, + "learning_rate": 6.539954992220235e-07, + "loss": 0.4033, + "step": 2880 + }, + { + "epoch": 0.7682666666666667, + "grad_norm": 2.9991775047115747, + "learning_rate": 6.525619894292224e-07, + "loss": 0.5272, + "step": 2881 + }, + { + "epoch": 0.7685333333333333, + "grad_norm": 2.5506311800580703, + "learning_rate": 6.511298165735317e-07, + "loss": 0.3911, + "step": 2882 + }, + { + "epoch": 0.7688, + "grad_norm": 2.347810907149197, + "learning_rate": 6.496989816913732e-07, + "loss": 0.3847, + "step": 2883 + }, + { + "epoch": 0.7690666666666667, + "grad_norm": 3.364365954641429, + "learning_rate": 6.482694858182029e-07, + "loss": 0.4728, + "step": 2884 + }, + { + "epoch": 0.7693333333333333, + "grad_norm": 2.940417494012912, + "learning_rate": 6.46841329988502e-07, + "loss": 0.4601, + "step": 2885 + }, + { + "epoch": 0.7696, + "grad_norm": 3.3834053532970936, + "learning_rate": 6.45414515235788e-07, + "loss": 0.5226, + "step": 2886 + }, + { + "epoch": 0.7698666666666667, + "grad_norm": 2.798554801307848, + "learning_rate": 6.439890425926035e-07, + "loss": 0.4251, + "step": 2887 + }, + { + "epoch": 0.7701333333333333, + "grad_norm": 2.3729133800489643, + "learning_rate": 6.425649130905237e-07, + "loss": 0.361, + "step": 2888 + }, + { + "epoch": 0.7704, + "grad_norm": 2.9662567913832945, + "learning_rate": 6.411421277601468e-07, + "loss": 0.4689, + "step": 2889 + }, + { + "epoch": 0.7706666666666667, + "grad_norm": 2.659865370379998, + "learning_rate": 6.397206876311032e-07, + "loss": 0.4312, + "step": 2890 + }, + { + "epoch": 0.7709333333333334, + "grad_norm": 2.4570112800680306, + "learning_rate": 6.383005937320474e-07, + "loss": 0.3736, + "step": 2891 + }, + { + "epoch": 0.7712, + "grad_norm": 2.6078482205038807, + "learning_rate": 6.368818470906598e-07, + "loss": 0.4167, + "step": 2892 + }, + { + "epoch": 0.7714666666666666, + "grad_norm": 2.4789616319321865, + "learning_rate": 6.354644487336459e-07, + "loss": 0.3992, + "step": 2893 + }, + { + "epoch": 0.7717333333333334, + "grad_norm": 2.5598297468900992, + "learning_rate": 6.340483996867356e-07, + "loss": 0.4321, + "step": 2894 + }, + { + "epoch": 0.772, + "grad_norm": 2.6744405032089413, + "learning_rate": 6.326337009746828e-07, + "loss": 0.3812, + "step": 2895 + }, + { + "epoch": 0.7722666666666667, + "grad_norm": 2.811962695917034, + "learning_rate": 6.312203536212625e-07, + "loss": 0.4133, + "step": 2896 + }, + { + "epoch": 0.7725333333333333, + "grad_norm": 2.8969582810853636, + "learning_rate": 6.298083586492757e-07, + "loss": 0.4346, + "step": 2897 + }, + { + "epoch": 0.7728, + "grad_norm": 2.663028285155219, + "learning_rate": 6.283977170805386e-07, + "loss": 0.3979, + "step": 2898 + }, + { + "epoch": 0.7730666666666667, + "grad_norm": 2.7050132071365525, + "learning_rate": 6.269884299358942e-07, + "loss": 0.41, + "step": 2899 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 2.705984935195955, + "learning_rate": 6.255804982352015e-07, + "loss": 0.4209, + "step": 2900 + }, + { + "epoch": 0.7736, + "grad_norm": 2.7446412264383384, + "learning_rate": 6.2417392299734e-07, + "loss": 0.4238, + "step": 2901 + }, + { + "epoch": 0.7738666666666667, + "grad_norm": 2.774258686857121, + "learning_rate": 6.227687052402071e-07, + "loss": 0.4445, + "step": 2902 + }, + { + "epoch": 0.7741333333333333, + "grad_norm": 2.4375222113069968, + "learning_rate": 6.21364845980717e-07, + "loss": 0.3635, + "step": 2903 + }, + { + "epoch": 0.7744, + "grad_norm": 2.571474148453655, + "learning_rate": 6.199623462348042e-07, + "loss": 0.3739, + "step": 2904 + }, + { + "epoch": 0.7746666666666666, + "grad_norm": 2.947001029914485, + "learning_rate": 6.18561207017414e-07, + "loss": 0.4687, + "step": 2905 + }, + { + "epoch": 0.7749333333333334, + "grad_norm": 2.7833175361661486, + "learning_rate": 6.171614293425124e-07, + "loss": 0.4199, + "step": 2906 + }, + { + "epoch": 0.7752, + "grad_norm": 2.959306159040219, + "learning_rate": 6.157630142230767e-07, + "loss": 0.4115, + "step": 2907 + }, + { + "epoch": 0.7754666666666666, + "grad_norm": 2.613815185402988, + "learning_rate": 6.143659626710996e-07, + "loss": 0.4179, + "step": 2908 + }, + { + "epoch": 0.7757333333333334, + "grad_norm": 2.5819532665634575, + "learning_rate": 6.129702756975856e-07, + "loss": 0.4153, + "step": 2909 + }, + { + "epoch": 0.776, + "grad_norm": 2.7624106584780033, + "learning_rate": 6.115759543125552e-07, + "loss": 0.3734, + "step": 2910 + }, + { + "epoch": 0.7762666666666667, + "grad_norm": 3.0743968604390313, + "learning_rate": 6.101829995250355e-07, + "loss": 0.4665, + "step": 2911 + }, + { + "epoch": 0.7765333333333333, + "grad_norm": 2.9343329283504813, + "learning_rate": 6.08791412343068e-07, + "loss": 0.4616, + "step": 2912 + }, + { + "epoch": 0.7768, + "grad_norm": 2.860965148425165, + "learning_rate": 6.074011937737049e-07, + "loss": 0.4599, + "step": 2913 + }, + { + "epoch": 0.7770666666666667, + "grad_norm": 2.562995630251855, + "learning_rate": 6.060123448230062e-07, + "loss": 0.4255, + "step": 2914 + }, + { + "epoch": 0.7773333333333333, + "grad_norm": 2.4784623209611305, + "learning_rate": 6.046248664960417e-07, + "loss": 0.3989, + "step": 2915 + }, + { + "epoch": 0.7776, + "grad_norm": 2.4508932392214082, + "learning_rate": 6.032387597968881e-07, + "loss": 0.3476, + "step": 2916 + }, + { + "epoch": 0.7778666666666667, + "grad_norm": 3.0301032095312643, + "learning_rate": 6.018540257286326e-07, + "loss": 0.4129, + "step": 2917 + }, + { + "epoch": 0.7781333333333333, + "grad_norm": 2.5781891361399945, + "learning_rate": 6.004706652933643e-07, + "loss": 0.3924, + "step": 2918 + }, + { + "epoch": 0.7784, + "grad_norm": 2.2026528115853923, + "learning_rate": 5.990886794921827e-07, + "loss": 0.3442, + "step": 2919 + }, + { + "epoch": 0.7786666666666666, + "grad_norm": 2.4984988439674383, + "learning_rate": 5.977080693251902e-07, + "loss": 0.3761, + "step": 2920 + }, + { + "epoch": 0.7789333333333334, + "grad_norm": 3.009557861218217, + "learning_rate": 5.963288357914943e-07, + "loss": 0.4665, + "step": 2921 + }, + { + "epoch": 0.7792, + "grad_norm": 2.7553385348744173, + "learning_rate": 5.949509798892058e-07, + "loss": 0.4441, + "step": 2922 + }, + { + "epoch": 0.7794666666666666, + "grad_norm": 2.538373118963494, + "learning_rate": 5.935745026154394e-07, + "loss": 0.3991, + "step": 2923 + }, + { + "epoch": 0.7797333333333333, + "grad_norm": 2.6812763501307812, + "learning_rate": 5.921994049663113e-07, + "loss": 0.4243, + "step": 2924 + }, + { + "epoch": 0.78, + "grad_norm": 2.6328954231959374, + "learning_rate": 5.90825687936939e-07, + "loss": 0.3674, + "step": 2925 + }, + { + "epoch": 0.7802666666666667, + "grad_norm": 2.514843997260084, + "learning_rate": 5.89453352521443e-07, + "loss": 0.3698, + "step": 2926 + }, + { + "epoch": 0.7805333333333333, + "grad_norm": 2.212848318311014, + "learning_rate": 5.880823997129417e-07, + "loss": 0.3427, + "step": 2927 + }, + { + "epoch": 0.7808, + "grad_norm": 2.680059977579938, + "learning_rate": 5.867128305035538e-07, + "loss": 0.445, + "step": 2928 + }, + { + "epoch": 0.7810666666666667, + "grad_norm": 2.6246933147637104, + "learning_rate": 5.853446458843964e-07, + "loss": 0.4042, + "step": 2929 + }, + { + "epoch": 0.7813333333333333, + "grad_norm": 2.622882319448965, + "learning_rate": 5.839778468455853e-07, + "loss": 0.4213, + "step": 2930 + }, + { + "epoch": 0.7816, + "grad_norm": 2.689720568330337, + "learning_rate": 5.826124343762332e-07, + "loss": 0.4254, + "step": 2931 + }, + { + "epoch": 0.7818666666666667, + "grad_norm": 2.488571267107362, + "learning_rate": 5.812484094644483e-07, + "loss": 0.3826, + "step": 2932 + }, + { + "epoch": 0.7821333333333333, + "grad_norm": 2.7307527569016674, + "learning_rate": 5.798857730973379e-07, + "loss": 0.3942, + "step": 2933 + }, + { + "epoch": 0.7824, + "grad_norm": 2.282197771200289, + "learning_rate": 5.785245262609995e-07, + "loss": 0.3404, + "step": 2934 + }, + { + "epoch": 0.7826666666666666, + "grad_norm": 2.684711451114457, + "learning_rate": 5.7716466994053e-07, + "loss": 0.4397, + "step": 2935 + }, + { + "epoch": 0.7829333333333334, + "grad_norm": 2.2845538094564652, + "learning_rate": 5.758062051200166e-07, + "loss": 0.3555, + "step": 2936 + }, + { + "epoch": 0.7832, + "grad_norm": 2.502563991123121, + "learning_rate": 5.744491327825425e-07, + "loss": 0.3764, + "step": 2937 + }, + { + "epoch": 0.7834666666666666, + "grad_norm": 2.7425445697830577, + "learning_rate": 5.73093453910179e-07, + "loss": 0.3861, + "step": 2938 + }, + { + "epoch": 0.7837333333333333, + "grad_norm": 2.7859393727939854, + "learning_rate": 5.71739169483993e-07, + "loss": 0.4288, + "step": 2939 + }, + { + "epoch": 0.784, + "grad_norm": 2.623564064765194, + "learning_rate": 5.703862804840408e-07, + "loss": 0.3895, + "step": 2940 + }, + { + "epoch": 0.7842666666666667, + "grad_norm": 2.7692085006850906, + "learning_rate": 5.690347878893679e-07, + "loss": 0.3867, + "step": 2941 + }, + { + "epoch": 0.7845333333333333, + "grad_norm": 2.654590511241293, + "learning_rate": 5.676846926780108e-07, + "loss": 0.4028, + "step": 2942 + }, + { + "epoch": 0.7848, + "grad_norm": 2.8091491084267664, + "learning_rate": 5.663359958269937e-07, + "loss": 0.4562, + "step": 2943 + }, + { + "epoch": 0.7850666666666667, + "grad_norm": 2.6835488910866703, + "learning_rate": 5.649886983123298e-07, + "loss": 0.4337, + "step": 2944 + }, + { + "epoch": 0.7853333333333333, + "grad_norm": 2.978481290463809, + "learning_rate": 5.636428011090178e-07, + "loss": 0.4823, + "step": 2945 + }, + { + "epoch": 0.7856, + "grad_norm": 2.565605902092165, + "learning_rate": 5.622983051910466e-07, + "loss": 0.3983, + "step": 2946 + }, + { + "epoch": 0.7858666666666667, + "grad_norm": 2.3041766355102284, + "learning_rate": 5.609552115313863e-07, + "loss": 0.352, + "step": 2947 + }, + { + "epoch": 0.7861333333333334, + "grad_norm": 2.5266509773924124, + "learning_rate": 5.596135211019962e-07, + "loss": 0.4039, + "step": 2948 + }, + { + "epoch": 0.7864, + "grad_norm": 2.767004925648691, + "learning_rate": 5.582732348738185e-07, + "loss": 0.4245, + "step": 2949 + }, + { + "epoch": 0.7866666666666666, + "grad_norm": 2.3175753214763484, + "learning_rate": 5.569343538167791e-07, + "loss": 0.3618, + "step": 2950 + }, + { + "epoch": 0.7869333333333334, + "grad_norm": 2.5264844354839173, + "learning_rate": 5.55596878899787e-07, + "loss": 0.3512, + "step": 2951 + }, + { + "epoch": 0.7872, + "grad_norm": 2.3100655843978393, + "learning_rate": 5.542608110907333e-07, + "loss": 0.3241, + "step": 2952 + }, + { + "epoch": 0.7874666666666666, + "grad_norm": 3.1487539711308767, + "learning_rate": 5.529261513564938e-07, + "loss": 0.4613, + "step": 2953 + }, + { + "epoch": 0.7877333333333333, + "grad_norm": 2.805973870717925, + "learning_rate": 5.515929006629194e-07, + "loss": 0.4399, + "step": 2954 + }, + { + "epoch": 0.788, + "grad_norm": 2.4809670219099185, + "learning_rate": 5.502610599748478e-07, + "loss": 0.3494, + "step": 2955 + }, + { + "epoch": 0.7882666666666667, + "grad_norm": 2.8674142864338634, + "learning_rate": 5.48930630256092e-07, + "loss": 0.4538, + "step": 2956 + }, + { + "epoch": 0.7885333333333333, + "grad_norm": 2.7233729273836422, + "learning_rate": 5.476016124694455e-07, + "loss": 0.4162, + "step": 2957 + }, + { + "epoch": 0.7888, + "grad_norm": 2.8273509285087255, + "learning_rate": 5.462740075766798e-07, + "loss": 0.4133, + "step": 2958 + }, + { + "epoch": 0.7890666666666667, + "grad_norm": 2.5336598412029225, + "learning_rate": 5.449478165385439e-07, + "loss": 0.3822, + "step": 2959 + }, + { + "epoch": 0.7893333333333333, + "grad_norm": 2.5665999779840667, + "learning_rate": 5.436230403147635e-07, + "loss": 0.3762, + "step": 2960 + }, + { + "epoch": 0.7896, + "grad_norm": 2.3938459829887684, + "learning_rate": 5.422996798640401e-07, + "loss": 0.3853, + "step": 2961 + }, + { + "epoch": 0.7898666666666667, + "grad_norm": 2.9201155764312614, + "learning_rate": 5.409777361440524e-07, + "loss": 0.4318, + "step": 2962 + }, + { + "epoch": 0.7901333333333334, + "grad_norm": 2.5158948189122303, + "learning_rate": 5.39657210111452e-07, + "loss": 0.348, + "step": 2963 + }, + { + "epoch": 0.7904, + "grad_norm": 2.695232212215225, + "learning_rate": 5.383381027218648e-07, + "loss": 0.3763, + "step": 2964 + }, + { + "epoch": 0.7906666666666666, + "grad_norm": 3.228999205365549, + "learning_rate": 5.370204149298902e-07, + "loss": 0.4951, + "step": 2965 + }, + { + "epoch": 0.7909333333333334, + "grad_norm": 2.9758506651321612, + "learning_rate": 5.357041476891025e-07, + "loss": 0.4361, + "step": 2966 + }, + { + "epoch": 0.7912, + "grad_norm": 3.0650764051653505, + "learning_rate": 5.34389301952043e-07, + "loss": 0.4341, + "step": 2967 + }, + { + "epoch": 0.7914666666666667, + "grad_norm": 2.4142176909934183, + "learning_rate": 5.330758786702295e-07, + "loss": 0.4066, + "step": 2968 + }, + { + "epoch": 0.7917333333333333, + "grad_norm": 5.07257596862862, + "learning_rate": 5.317638787941474e-07, + "loss": 0.4056, + "step": 2969 + }, + { + "epoch": 0.792, + "grad_norm": 2.7645878276192324, + "learning_rate": 5.304533032732529e-07, + "loss": 0.3889, + "step": 2970 + }, + { + "epoch": 0.7922666666666667, + "grad_norm": 2.5345797919802573, + "learning_rate": 5.291441530559713e-07, + "loss": 0.3808, + "step": 2971 + }, + { + "epoch": 0.7925333333333333, + "grad_norm": 2.502018317581386, + "learning_rate": 5.278364290896964e-07, + "loss": 0.3633, + "step": 2972 + }, + { + "epoch": 0.7928, + "grad_norm": 2.4136393498617554, + "learning_rate": 5.265301323207905e-07, + "loss": 0.3959, + "step": 2973 + }, + { + "epoch": 0.7930666666666667, + "grad_norm": 2.2407331911040633, + "learning_rate": 5.252252636945812e-07, + "loss": 0.3461, + "step": 2974 + }, + { + "epoch": 0.7933333333333333, + "grad_norm": 2.44336393258173, + "learning_rate": 5.239218241553656e-07, + "loss": 0.3929, + "step": 2975 + }, + { + "epoch": 0.7936, + "grad_norm": 2.59498690903291, + "learning_rate": 5.226198146464043e-07, + "loss": 0.3822, + "step": 2976 + }, + { + "epoch": 0.7938666666666667, + "grad_norm": 2.659270098768909, + "learning_rate": 5.213192361099237e-07, + "loss": 0.4021, + "step": 2977 + }, + { + "epoch": 0.7941333333333334, + "grad_norm": 2.5671665662050827, + "learning_rate": 5.200200894871146e-07, + "loss": 0.4142, + "step": 2978 + }, + { + "epoch": 0.7944, + "grad_norm": 2.7138657641736055, + "learning_rate": 5.187223757181314e-07, + "loss": 0.449, + "step": 2979 + }, + { + "epoch": 0.7946666666666666, + "grad_norm": 2.3178298984056527, + "learning_rate": 5.17426095742092e-07, + "loss": 0.3481, + "step": 2980 + }, + { + "epoch": 0.7949333333333334, + "grad_norm": 5.227212483964543, + "learning_rate": 5.161312504970759e-07, + "loss": 0.4401, + "step": 2981 + }, + { + "epoch": 0.7952, + "grad_norm": 2.873513553342811, + "learning_rate": 5.148378409201266e-07, + "loss": 0.437, + "step": 2982 + }, + { + "epoch": 0.7954666666666667, + "grad_norm": 3.1268114854186133, + "learning_rate": 5.135458679472443e-07, + "loss": 0.476, + "step": 2983 + }, + { + "epoch": 0.7957333333333333, + "grad_norm": 2.6041157829282398, + "learning_rate": 5.122553325133947e-07, + "loss": 0.4023, + "step": 2984 + }, + { + "epoch": 0.796, + "grad_norm": 2.8273639657731624, + "learning_rate": 5.109662355524997e-07, + "loss": 0.4279, + "step": 2985 + }, + { + "epoch": 0.7962666666666667, + "grad_norm": 2.778178574714288, + "learning_rate": 5.096785779974411e-07, + "loss": 0.4197, + "step": 2986 + }, + { + "epoch": 0.7965333333333333, + "grad_norm": 2.56448282555024, + "learning_rate": 5.083923607800597e-07, + "loss": 0.4038, + "step": 2987 + }, + { + "epoch": 0.7968, + "grad_norm": 2.874080034341411, + "learning_rate": 5.071075848311524e-07, + "loss": 0.4532, + "step": 2988 + }, + { + "epoch": 0.7970666666666667, + "grad_norm": 2.5442419440181583, + "learning_rate": 5.058242510804762e-07, + "loss": 0.3899, + "step": 2989 + }, + { + "epoch": 0.7973333333333333, + "grad_norm": 2.6950831538067743, + "learning_rate": 5.045423604567396e-07, + "loss": 0.3972, + "step": 2990 + }, + { + "epoch": 0.7976, + "grad_norm": 2.900638543258604, + "learning_rate": 5.032619138876119e-07, + "loss": 0.4117, + "step": 2991 + }, + { + "epoch": 0.7978666666666666, + "grad_norm": 2.4529848944791373, + "learning_rate": 5.019829122997139e-07, + "loss": 0.4092, + "step": 2992 + }, + { + "epoch": 0.7981333333333334, + "grad_norm": 2.3295934635292626, + "learning_rate": 5.007053566186223e-07, + "loss": 0.3469, + "step": 2993 + }, + { + "epoch": 0.7984, + "grad_norm": 2.6783059938592717, + "learning_rate": 4.994292477688658e-07, + "loss": 0.4365, + "step": 2994 + }, + { + "epoch": 0.7986666666666666, + "grad_norm": 2.5653132769475167, + "learning_rate": 4.981545866739295e-07, + "loss": 0.3626, + "step": 2995 + }, + { + "epoch": 0.7989333333333334, + "grad_norm": 2.9164522461623155, + "learning_rate": 4.968813742562461e-07, + "loss": 0.406, + "step": 2996 + }, + { + "epoch": 0.7992, + "grad_norm": 2.793201889802583, + "learning_rate": 4.956096114372039e-07, + "loss": 0.4351, + "step": 2997 + }, + { + "epoch": 0.7994666666666667, + "grad_norm": 2.6691039188528114, + "learning_rate": 4.943392991371402e-07, + "loss": 0.4168, + "step": 2998 + }, + { + "epoch": 0.7997333333333333, + "grad_norm": 2.838472088491379, + "learning_rate": 4.930704382753429e-07, + "loss": 0.4066, + "step": 2999 + }, + { + "epoch": 0.8, + "grad_norm": 2.8853687991618755, + "learning_rate": 4.918030297700499e-07, + "loss": 0.4265, + "step": 3000 + }, + { + "epoch": 0.8002666666666667, + "grad_norm": 2.326677008495504, + "learning_rate": 4.905370745384469e-07, + "loss": 0.3534, + "step": 3001 + }, + { + "epoch": 0.8005333333333333, + "grad_norm": 2.4923901285980805, + "learning_rate": 4.892725734966711e-07, + "loss": 0.3831, + "step": 3002 + }, + { + "epoch": 0.8008, + "grad_norm": 2.7622948679972525, + "learning_rate": 4.880095275598023e-07, + "loss": 0.432, + "step": 3003 + }, + { + "epoch": 0.8010666666666667, + "grad_norm": 2.5722089106329262, + "learning_rate": 4.867479376418721e-07, + "loss": 0.3944, + "step": 3004 + }, + { + "epoch": 0.8013333333333333, + "grad_norm": 2.510194299436287, + "learning_rate": 4.854878046558556e-07, + "loss": 0.3566, + "step": 3005 + }, + { + "epoch": 0.8016, + "grad_norm": 2.6242055253807464, + "learning_rate": 4.842291295136747e-07, + "loss": 0.3781, + "step": 3006 + }, + { + "epoch": 0.8018666666666666, + "grad_norm": 2.491862037001128, + "learning_rate": 4.829719131261957e-07, + "loss": 0.3843, + "step": 3007 + }, + { + "epoch": 0.8021333333333334, + "grad_norm": 2.9676691606500314, + "learning_rate": 4.817161564032294e-07, + "loss": 0.4451, + "step": 3008 + }, + { + "epoch": 0.8024, + "grad_norm": 2.4929893694377108, + "learning_rate": 4.804618602535308e-07, + "loss": 0.3871, + "step": 3009 + }, + { + "epoch": 0.8026666666666666, + "grad_norm": 2.6700055602887294, + "learning_rate": 4.792090255847964e-07, + "loss": 0.37, + "step": 3010 + }, + { + "epoch": 0.8029333333333334, + "grad_norm": 2.583160012755656, + "learning_rate": 4.779576533036676e-07, + "loss": 0.4318, + "step": 3011 + }, + { + "epoch": 0.8032, + "grad_norm": 2.2216132078632587, + "learning_rate": 4.767077443157259e-07, + "loss": 0.3366, + "step": 3012 + }, + { + "epoch": 0.8034666666666667, + "grad_norm": 2.770968989138659, + "learning_rate": 4.7545929952549336e-07, + "loss": 0.4489, + "step": 3013 + }, + { + "epoch": 0.8037333333333333, + "grad_norm": 2.343797322210326, + "learning_rate": 4.7421231983643345e-07, + "loss": 0.4089, + "step": 3014 + }, + { + "epoch": 0.804, + "grad_norm": 2.4275736202610116, + "learning_rate": 4.729668061509493e-07, + "loss": 0.3677, + "step": 3015 + }, + { + "epoch": 0.8042666666666667, + "grad_norm": 2.9789658513554276, + "learning_rate": 4.717227593703824e-07, + "loss": 0.3984, + "step": 3016 + }, + { + "epoch": 0.8045333333333333, + "grad_norm": 2.6344563538365686, + "learning_rate": 4.704801803950132e-07, + "loss": 0.3961, + "step": 3017 + }, + { + "epoch": 0.8048, + "grad_norm": 2.5063916914208746, + "learning_rate": 4.692390701240612e-07, + "loss": 0.3911, + "step": 3018 + }, + { + "epoch": 0.8050666666666667, + "grad_norm": 2.547390941228231, + "learning_rate": 4.6799942945567943e-07, + "loss": 0.3834, + "step": 3019 + }, + { + "epoch": 0.8053333333333333, + "grad_norm": 2.4228022194702445, + "learning_rate": 4.667612592869622e-07, + "loss": 0.3877, + "step": 3020 + }, + { + "epoch": 0.8056, + "grad_norm": 2.967942825005316, + "learning_rate": 4.655245605139358e-07, + "loss": 0.399, + "step": 3021 + }, + { + "epoch": 0.8058666666666666, + "grad_norm": 2.657279575770166, + "learning_rate": 4.642893340315635e-07, + "loss": 0.3919, + "step": 3022 + }, + { + "epoch": 0.8061333333333334, + "grad_norm": 2.984625456682371, + "learning_rate": 4.6305558073374195e-07, + "loss": 0.411, + "step": 3023 + }, + { + "epoch": 0.8064, + "grad_norm": 2.2307335765286527, + "learning_rate": 4.618233015133042e-07, + "loss": 0.3511, + "step": 3024 + }, + { + "epoch": 0.8066666666666666, + "grad_norm": 3.0627782305824405, + "learning_rate": 4.605924972620138e-07, + "loss": 0.4915, + "step": 3025 + }, + { + "epoch": 0.8069333333333333, + "grad_norm": 2.3881060939763543, + "learning_rate": 4.59363168870568e-07, + "loss": 0.3636, + "step": 3026 + }, + { + "epoch": 0.8072, + "grad_norm": 2.5342760026421582, + "learning_rate": 4.58135317228596e-07, + "loss": 0.3996, + "step": 3027 + }, + { + "epoch": 0.8074666666666667, + "grad_norm": 2.6921049753262625, + "learning_rate": 4.5690894322465845e-07, + "loss": 0.3997, + "step": 3028 + }, + { + "epoch": 0.8077333333333333, + "grad_norm": 2.516530192127829, + "learning_rate": 4.5568404774624654e-07, + "loss": 0.3581, + "step": 3029 + }, + { + "epoch": 0.808, + "grad_norm": 2.725364717450899, + "learning_rate": 4.544606316797806e-07, + "loss": 0.4011, + "step": 3030 + }, + { + "epoch": 0.8082666666666667, + "grad_norm": 3.710758305491939, + "learning_rate": 4.53238695910613e-07, + "loss": 0.501, + "step": 3031 + }, + { + "epoch": 0.8085333333333333, + "grad_norm": 2.500296097235069, + "learning_rate": 4.5201824132302117e-07, + "loss": 0.386, + "step": 3032 + }, + { + "epoch": 0.8088, + "grad_norm": 2.5854979449298936, + "learning_rate": 4.5079926880021387e-07, + "loss": 0.387, + "step": 3033 + }, + { + "epoch": 0.8090666666666667, + "grad_norm": 2.786619690918435, + "learning_rate": 4.4958177922432564e-07, + "loss": 0.4357, + "step": 3034 + }, + { + "epoch": 0.8093333333333333, + "grad_norm": 2.8933251986305515, + "learning_rate": 4.4836577347641824e-07, + "loss": 0.41, + "step": 3035 + }, + { + "epoch": 0.8096, + "grad_norm": 2.6829285440101804, + "learning_rate": 4.471512524364796e-07, + "loss": 0.4338, + "step": 3036 + }, + { + "epoch": 0.8098666666666666, + "grad_norm": 2.7417552122326487, + "learning_rate": 4.4593821698342253e-07, + "loss": 0.4688, + "step": 3037 + }, + { + "epoch": 0.8101333333333334, + "grad_norm": 2.3299775019748203, + "learning_rate": 4.447266679950876e-07, + "loss": 0.3606, + "step": 3038 + }, + { + "epoch": 0.8104, + "grad_norm": 2.693854033340989, + "learning_rate": 4.435166063482349e-07, + "loss": 0.4062, + "step": 3039 + }, + { + "epoch": 0.8106666666666666, + "grad_norm": 2.924354761825199, + "learning_rate": 4.423080329185525e-07, + "loss": 0.4106, + "step": 3040 + }, + { + "epoch": 0.8109333333333333, + "grad_norm": 2.19407633352933, + "learning_rate": 4.411009485806497e-07, + "loss": 0.337, + "step": 3041 + }, + { + "epoch": 0.8112, + "grad_norm": 2.939573484499129, + "learning_rate": 4.398953542080578e-07, + "loss": 0.4025, + "step": 3042 + }, + { + "epoch": 0.8114666666666667, + "grad_norm": 2.3629579234453306, + "learning_rate": 4.3869125067323047e-07, + "loss": 0.3698, + "step": 3043 + }, + { + "epoch": 0.8117333333333333, + "grad_norm": 2.5232786982893862, + "learning_rate": 4.3748863884754246e-07, + "loss": 0.4061, + "step": 3044 + }, + { + "epoch": 0.812, + "grad_norm": 2.4516802934773727, + "learning_rate": 4.362875196012889e-07, + "loss": 0.3609, + "step": 3045 + }, + { + "epoch": 0.8122666666666667, + "grad_norm": 2.597731896345142, + "learning_rate": 4.350878938036843e-07, + "loss": 0.3845, + "step": 3046 + }, + { + "epoch": 0.8125333333333333, + "grad_norm": 3.0035944337575415, + "learning_rate": 4.3388976232286494e-07, + "loss": 0.4532, + "step": 3047 + }, + { + "epoch": 0.8128, + "grad_norm": 2.7385798688500937, + "learning_rate": 4.326931260258807e-07, + "loss": 0.4059, + "step": 3048 + }, + { + "epoch": 0.8130666666666667, + "grad_norm": 2.3654460744559165, + "learning_rate": 4.3149798577870467e-07, + "loss": 0.3503, + "step": 3049 + }, + { + "epoch": 0.8133333333333334, + "grad_norm": 2.8081383972611595, + "learning_rate": 4.303043424462239e-07, + "loss": 0.43, + "step": 3050 + }, + { + "epoch": 0.8136, + "grad_norm": 2.5506635281520134, + "learning_rate": 4.2911219689224485e-07, + "loss": 0.3765, + "step": 3051 + }, + { + "epoch": 0.8138666666666666, + "grad_norm": 2.938556887959325, + "learning_rate": 4.2792154997948613e-07, + "loss": 0.3905, + "step": 3052 + }, + { + "epoch": 0.8141333333333334, + "grad_norm": 2.622108981670773, + "learning_rate": 4.2673240256958655e-07, + "loss": 0.4333, + "step": 3053 + }, + { + "epoch": 0.8144, + "grad_norm": 2.480598879686512, + "learning_rate": 4.255447555230963e-07, + "loss": 0.4001, + "step": 3054 + }, + { + "epoch": 0.8146666666666667, + "grad_norm": 2.9731198255108153, + "learning_rate": 4.2435860969948146e-07, + "loss": 0.4714, + "step": 3055 + }, + { + "epoch": 0.8149333333333333, + "grad_norm": 2.8509175360397077, + "learning_rate": 4.2317396595712074e-07, + "loss": 0.4117, + "step": 3056 + }, + { + "epoch": 0.8152, + "grad_norm": 2.594576027249067, + "learning_rate": 4.219908251533067e-07, + "loss": 0.3923, + "step": 3057 + }, + { + "epoch": 0.8154666666666667, + "grad_norm": 2.5622566314245594, + "learning_rate": 4.208091881442439e-07, + "loss": 0.4133, + "step": 3058 + }, + { + "epoch": 0.8157333333333333, + "grad_norm": 2.9836903571628928, + "learning_rate": 4.196290557850477e-07, + "loss": 0.3815, + "step": 3059 + }, + { + "epoch": 0.816, + "grad_norm": 2.509290184470619, + "learning_rate": 4.1845042892974726e-07, + "loss": 0.3831, + "step": 3060 + }, + { + "epoch": 0.8162666666666667, + "grad_norm": 2.420320941088841, + "learning_rate": 4.172733084312794e-07, + "loss": 0.3424, + "step": 3061 + }, + { + "epoch": 0.8165333333333333, + "grad_norm": 2.6306784667680034, + "learning_rate": 4.1609769514149217e-07, + "loss": 0.409, + "step": 3062 + }, + { + "epoch": 0.8168, + "grad_norm": 2.8701124687929034, + "learning_rate": 4.1492358991114287e-07, + "loss": 0.4854, + "step": 3063 + }, + { + "epoch": 0.8170666666666667, + "grad_norm": 2.5606675707134765, + "learning_rate": 4.13750993589897e-07, + "loss": 0.4003, + "step": 3064 + }, + { + "epoch": 0.8173333333333334, + "grad_norm": 2.5795083889327075, + "learning_rate": 4.125799070263287e-07, + "loss": 0.4001, + "step": 3065 + }, + { + "epoch": 0.8176, + "grad_norm": 3.1367159565639646, + "learning_rate": 4.114103310679182e-07, + "loss": 0.4206, + "step": 3066 + }, + { + "epoch": 0.8178666666666666, + "grad_norm": 2.4348193773609585, + "learning_rate": 4.102422665610556e-07, + "loss": 0.3978, + "step": 3067 + }, + { + "epoch": 0.8181333333333334, + "grad_norm": 2.667006359814481, + "learning_rate": 4.090757143510329e-07, + "loss": 0.4002, + "step": 3068 + }, + { + "epoch": 0.8184, + "grad_norm": 2.4983942727555544, + "learning_rate": 4.079106752820516e-07, + "loss": 0.3721, + "step": 3069 + }, + { + "epoch": 0.8186666666666667, + "grad_norm": 2.501974179099744, + "learning_rate": 4.0674715019721616e-07, + "loss": 0.3977, + "step": 3070 + }, + { + "epoch": 0.8189333333333333, + "grad_norm": 2.7377578912880813, + "learning_rate": 4.0558513993853576e-07, + "loss": 0.395, + "step": 3071 + }, + { + "epoch": 0.8192, + "grad_norm": 2.3838281278017854, + "learning_rate": 4.044246453469231e-07, + "loss": 0.3838, + "step": 3072 + }, + { + "epoch": 0.8194666666666667, + "grad_norm": 2.4265977352448176, + "learning_rate": 4.03265667262194e-07, + "loss": 0.3784, + "step": 3073 + }, + { + "epoch": 0.8197333333333333, + "grad_norm": 2.85866944555653, + "learning_rate": 4.021082065230689e-07, + "loss": 0.3959, + "step": 3074 + }, + { + "epoch": 0.82, + "grad_norm": 2.620549900827815, + "learning_rate": 4.009522639671662e-07, + "loss": 0.3752, + "step": 3075 + }, + { + "epoch": 0.8202666666666667, + "grad_norm": 2.4070090700511706, + "learning_rate": 3.997978404310096e-07, + "loss": 0.3655, + "step": 3076 + }, + { + "epoch": 0.8205333333333333, + "grad_norm": 2.819236120858561, + "learning_rate": 3.986449367500209e-07, + "loss": 0.4356, + "step": 3077 + }, + { + "epoch": 0.8208, + "grad_norm": 2.9312860664860185, + "learning_rate": 3.9749355375852337e-07, + "loss": 0.4122, + "step": 3078 + }, + { + "epoch": 0.8210666666666666, + "grad_norm": 2.6163283117185943, + "learning_rate": 3.9634369228973843e-07, + "loss": 0.4043, + "step": 3079 + }, + { + "epoch": 0.8213333333333334, + "grad_norm": 3.02480936824398, + "learning_rate": 3.951953531757893e-07, + "loss": 0.4875, + "step": 3080 + }, + { + "epoch": 0.8216, + "grad_norm": 2.6242500143340384, + "learning_rate": 3.940485372476935e-07, + "loss": 0.4066, + "step": 3081 + }, + { + "epoch": 0.8218666666666666, + "grad_norm": 3.2621169393405496, + "learning_rate": 3.9290324533536956e-07, + "loss": 0.4267, + "step": 3082 + }, + { + "epoch": 0.8221333333333334, + "grad_norm": 2.723887224925732, + "learning_rate": 3.917594782676315e-07, + "loss": 0.3949, + "step": 3083 + }, + { + "epoch": 0.8224, + "grad_norm": 2.7268344743094444, + "learning_rate": 3.9061723687219027e-07, + "loss": 0.4708, + "step": 3084 + }, + { + "epoch": 0.8226666666666667, + "grad_norm": 2.585996997022254, + "learning_rate": 3.89476521975653e-07, + "loss": 0.3968, + "step": 3085 + }, + { + "epoch": 0.8229333333333333, + "grad_norm": 2.6572303318828294, + "learning_rate": 3.88337334403521e-07, + "loss": 0.3732, + "step": 3086 + }, + { + "epoch": 0.8232, + "grad_norm": 2.7585012689731774, + "learning_rate": 3.871996749801926e-07, + "loss": 0.4069, + "step": 3087 + }, + { + "epoch": 0.8234666666666667, + "grad_norm": 2.550543893582769, + "learning_rate": 3.8606354452895704e-07, + "loss": 0.4014, + "step": 3088 + }, + { + "epoch": 0.8237333333333333, + "grad_norm": 2.868433247658423, + "learning_rate": 3.8492894387200054e-07, + "loss": 0.4409, + "step": 3089 + }, + { + "epoch": 0.824, + "grad_norm": 2.8248107784611864, + "learning_rate": 3.8379587383039954e-07, + "loss": 0.444, + "step": 3090 + }, + { + "epoch": 0.8242666666666667, + "grad_norm": 2.5574405571198358, + "learning_rate": 3.826643352241241e-07, + "loss": 0.4073, + "step": 3091 + }, + { + "epoch": 0.8245333333333333, + "grad_norm": 2.5555259571320437, + "learning_rate": 3.8153432887203607e-07, + "loss": 0.3885, + "step": 3092 + }, + { + "epoch": 0.8248, + "grad_norm": 2.3388020678340613, + "learning_rate": 3.8040585559188767e-07, + "loss": 0.3636, + "step": 3093 + }, + { + "epoch": 0.8250666666666666, + "grad_norm": 2.2967082289989205, + "learning_rate": 3.792789162003224e-07, + "loss": 0.3138, + "step": 3094 + }, + { + "epoch": 0.8253333333333334, + "grad_norm": 2.308334622689365, + "learning_rate": 3.781535115128729e-07, + "loss": 0.349, + "step": 3095 + }, + { + "epoch": 0.8256, + "grad_norm": 2.7053456274361625, + "learning_rate": 3.7702964234396346e-07, + "loss": 0.391, + "step": 3096 + }, + { + "epoch": 0.8258666666666666, + "grad_norm": 2.380889868981662, + "learning_rate": 3.7590730950690323e-07, + "loss": 0.3629, + "step": 3097 + }, + { + "epoch": 0.8261333333333334, + "grad_norm": 4.416567937637563, + "learning_rate": 3.7478651381389367e-07, + "loss": 0.4894, + "step": 3098 + }, + { + "epoch": 0.8264, + "grad_norm": 2.4978557966411805, + "learning_rate": 3.736672560760207e-07, + "loss": 0.4035, + "step": 3099 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 3.2144386017983764, + "learning_rate": 3.7254953710326004e-07, + "loss": 0.4192, + "step": 3100 + }, + { + "epoch": 0.8269333333333333, + "grad_norm": 2.8216710605380038, + "learning_rate": 3.7143335770447125e-07, + "loss": 0.4092, + "step": 3101 + }, + { + "epoch": 0.8272, + "grad_norm": 2.8284581622908003, + "learning_rate": 3.703187186874002e-07, + "loss": 0.4681, + "step": 3102 + }, + { + "epoch": 0.8274666666666667, + "grad_norm": 2.5989415874622894, + "learning_rate": 3.692056208586808e-07, + "loss": 0.3938, + "step": 3103 + }, + { + "epoch": 0.8277333333333333, + "grad_norm": 2.5659075092004113, + "learning_rate": 3.680940650238274e-07, + "loss": 0.3859, + "step": 3104 + }, + { + "epoch": 0.828, + "grad_norm": 2.5778274473874716, + "learning_rate": 3.6698405198724194e-07, + "loss": 0.4014, + "step": 3105 + }, + { + "epoch": 0.8282666666666667, + "grad_norm": 2.664668665616601, + "learning_rate": 3.658755825522084e-07, + "loss": 0.4181, + "step": 3106 + }, + { + "epoch": 0.8285333333333333, + "grad_norm": 2.5515120133364646, + "learning_rate": 3.6476865752089334e-07, + "loss": 0.4132, + "step": 3107 + }, + { + "epoch": 0.8288, + "grad_norm": 2.291801599071358, + "learning_rate": 3.6366327769434604e-07, + "loss": 0.3268, + "step": 3108 + }, + { + "epoch": 0.8290666666666666, + "grad_norm": 2.804153688942232, + "learning_rate": 3.6255944387249913e-07, + "loss": 0.4156, + "step": 3109 + }, + { + "epoch": 0.8293333333333334, + "grad_norm": 2.360114603549388, + "learning_rate": 3.614571568541631e-07, + "loss": 0.3771, + "step": 3110 + }, + { + "epoch": 0.8296, + "grad_norm": 2.682158449660243, + "learning_rate": 3.603564174370322e-07, + "loss": 0.3853, + "step": 3111 + }, + { + "epoch": 0.8298666666666666, + "grad_norm": 2.9674502907576707, + "learning_rate": 3.5925722641767914e-07, + "loss": 0.4565, + "step": 3112 + }, + { + "epoch": 0.8301333333333333, + "grad_norm": 2.365076192769702, + "learning_rate": 3.581595845915567e-07, + "loss": 0.3386, + "step": 3113 + }, + { + "epoch": 0.8304, + "grad_norm": 2.737684350924757, + "learning_rate": 3.570634927529959e-07, + "loss": 0.424, + "step": 3114 + }, + { + "epoch": 0.8306666666666667, + "grad_norm": 2.361359012041748, + "learning_rate": 3.559689516952064e-07, + "loss": 0.4041, + "step": 3115 + }, + { + "epoch": 0.8309333333333333, + "grad_norm": 2.8012083757485504, + "learning_rate": 3.548759622102768e-07, + "loss": 0.4265, + "step": 3116 + }, + { + "epoch": 0.8312, + "grad_norm": 3.222833508115907, + "learning_rate": 3.5378452508917027e-07, + "loss": 0.4664, + "step": 3117 + }, + { + "epoch": 0.8314666666666667, + "grad_norm": 3.1713210185302287, + "learning_rate": 3.5269464112172913e-07, + "loss": 0.4806, + "step": 3118 + }, + { + "epoch": 0.8317333333333333, + "grad_norm": 2.6809857873627574, + "learning_rate": 3.5160631109667025e-07, + "loss": 0.4121, + "step": 3119 + }, + { + "epoch": 0.832, + "grad_norm": 2.6563191798330346, + "learning_rate": 3.505195358015867e-07, + "loss": 0.4414, + "step": 3120 + }, + { + "epoch": 0.8322666666666667, + "grad_norm": 2.462385355001219, + "learning_rate": 3.4943431602294576e-07, + "loss": 0.4086, + "step": 3121 + }, + { + "epoch": 0.8325333333333333, + "grad_norm": 2.5389160994101827, + "learning_rate": 3.4835065254608977e-07, + "loss": 0.3945, + "step": 3122 + }, + { + "epoch": 0.8328, + "grad_norm": 2.6081717866942924, + "learning_rate": 3.472685461552341e-07, + "loss": 0.3864, + "step": 3123 + }, + { + "epoch": 0.8330666666666666, + "grad_norm": 2.4964666544468983, + "learning_rate": 3.461879976334673e-07, + "loss": 0.3604, + "step": 3124 + }, + { + "epoch": 0.8333333333333334, + "grad_norm": 2.576607366791878, + "learning_rate": 3.4510900776275195e-07, + "loss": 0.4174, + "step": 3125 + }, + { + "epoch": 0.8336, + "grad_norm": 2.5227918491243124, + "learning_rate": 3.4403157732392085e-07, + "loss": 0.4229, + "step": 3126 + }, + { + "epoch": 0.8338666666666666, + "grad_norm": 2.7455066808412267, + "learning_rate": 3.429557070966794e-07, + "loss": 0.4058, + "step": 3127 + }, + { + "epoch": 0.8341333333333333, + "grad_norm": 2.7615162160329483, + "learning_rate": 3.418813978596025e-07, + "loss": 0.3818, + "step": 3128 + }, + { + "epoch": 0.8344, + "grad_norm": 2.569269209166574, + "learning_rate": 3.4080865039013895e-07, + "loss": 0.3807, + "step": 3129 + }, + { + "epoch": 0.8346666666666667, + "grad_norm": 2.865299459252496, + "learning_rate": 3.397374654646024e-07, + "loss": 0.4264, + "step": 3130 + }, + { + "epoch": 0.8349333333333333, + "grad_norm": 2.397822667116492, + "learning_rate": 3.3866784385817864e-07, + "loss": 0.3731, + "step": 3131 + }, + { + "epoch": 0.8352, + "grad_norm": 2.6873816056609803, + "learning_rate": 3.3759978634492317e-07, + "loss": 0.4155, + "step": 3132 + }, + { + "epoch": 0.8354666666666667, + "grad_norm": 2.601571200087339, + "learning_rate": 3.365332936977558e-07, + "loss": 0.3672, + "step": 3133 + }, + { + "epoch": 0.8357333333333333, + "grad_norm": 2.7118279285290554, + "learning_rate": 3.354683666884684e-07, + "loss": 0.4542, + "step": 3134 + }, + { + "epoch": 0.836, + "grad_norm": 2.366282468178098, + "learning_rate": 3.3440500608771575e-07, + "loss": 0.3553, + "step": 3135 + }, + { + "epoch": 0.8362666666666667, + "grad_norm": 2.460329834389282, + "learning_rate": 3.333432126650235e-07, + "loss": 0.4447, + "step": 3136 + }, + { + "epoch": 0.8365333333333334, + "grad_norm": 2.5706420983425433, + "learning_rate": 3.3228298718877785e-07, + "loss": 0.3841, + "step": 3137 + }, + { + "epoch": 0.8368, + "grad_norm": 2.3918113243602903, + "learning_rate": 3.312243304262347e-07, + "loss": 0.351, + "step": 3138 + }, + { + "epoch": 0.8370666666666666, + "grad_norm": 2.918347869990177, + "learning_rate": 3.3016724314351295e-07, + "loss": 0.3955, + "step": 3139 + }, + { + "epoch": 0.8373333333333334, + "grad_norm": 3.2729718953952442, + "learning_rate": 3.2911172610559565e-07, + "loss": 0.3897, + "step": 3140 + }, + { + "epoch": 0.8376, + "grad_norm": 2.479814068796348, + "learning_rate": 3.2805778007633014e-07, + "loss": 0.3621, + "step": 3141 + }, + { + "epoch": 0.8378666666666666, + "grad_norm": 2.411715832950565, + "learning_rate": 3.2700540581842576e-07, + "loss": 0.3963, + "step": 3142 + }, + { + "epoch": 0.8381333333333333, + "grad_norm": 2.4617793964870693, + "learning_rate": 3.259546040934558e-07, + "loss": 0.3774, + "step": 3143 + }, + { + "epoch": 0.8384, + "grad_norm": 2.9830554410385886, + "learning_rate": 3.249053756618542e-07, + "loss": 0.4386, + "step": 3144 + }, + { + "epoch": 0.8386666666666667, + "grad_norm": 2.3713761528017283, + "learning_rate": 3.238577212829183e-07, + "loss": 0.3632, + "step": 3145 + }, + { + "epoch": 0.8389333333333333, + "grad_norm": 2.4355016139520274, + "learning_rate": 3.2281164171480336e-07, + "loss": 0.3795, + "step": 3146 + }, + { + "epoch": 0.8392, + "grad_norm": 3.215455766737583, + "learning_rate": 3.2176713771452787e-07, + "loss": 0.4678, + "step": 3147 + }, + { + "epoch": 0.8394666666666667, + "grad_norm": 2.759713613774461, + "learning_rate": 3.20724210037969e-07, + "loss": 0.4395, + "step": 3148 + }, + { + "epoch": 0.8397333333333333, + "grad_norm": 2.5773859344354024, + "learning_rate": 3.196828594398627e-07, + "loss": 0.3723, + "step": 3149 + }, + { + "epoch": 0.84, + "grad_norm": 2.5402271485147025, + "learning_rate": 3.186430866738041e-07, + "loss": 0.3781, + "step": 3150 + }, + { + "epoch": 0.8402666666666667, + "grad_norm": 2.5978140916738406, + "learning_rate": 3.176048924922462e-07, + "loss": 0.4426, + "step": 3151 + }, + { + "epoch": 0.8405333333333334, + "grad_norm": 2.5337671778157342, + "learning_rate": 3.165682776465015e-07, + "loss": 0.4071, + "step": 3152 + }, + { + "epoch": 0.8408, + "grad_norm": 2.7556990892821505, + "learning_rate": 3.1553324288673553e-07, + "loss": 0.4035, + "step": 3153 + }, + { + "epoch": 0.8410666666666666, + "grad_norm": 2.75717621289889, + "learning_rate": 3.14499788961975e-07, + "loss": 0.3619, + "step": 3154 + }, + { + "epoch": 0.8413333333333334, + "grad_norm": 2.744218217867386, + "learning_rate": 3.134679166200991e-07, + "loss": 0.4254, + "step": 3155 + }, + { + "epoch": 0.8416, + "grad_norm": 2.3570127728530905, + "learning_rate": 3.1243762660784464e-07, + "loss": 0.3532, + "step": 3156 + }, + { + "epoch": 0.8418666666666667, + "grad_norm": 2.3502959213930588, + "learning_rate": 3.114089196708012e-07, + "loss": 0.3465, + "step": 3157 + }, + { + "epoch": 0.8421333333333333, + "grad_norm": 2.5970925979204056, + "learning_rate": 3.103817965534162e-07, + "loss": 0.3903, + "step": 3158 + }, + { + "epoch": 0.8424, + "grad_norm": 2.83321717764484, + "learning_rate": 3.09356257998987e-07, + "loss": 0.4455, + "step": 3159 + }, + { + "epoch": 0.8426666666666667, + "grad_norm": 2.6255353912864825, + "learning_rate": 3.083323047496659e-07, + "loss": 0.4055, + "step": 3160 + }, + { + "epoch": 0.8429333333333333, + "grad_norm": 2.5693294645387192, + "learning_rate": 3.0730993754645944e-07, + "loss": 0.4167, + "step": 3161 + }, + { + "epoch": 0.8432, + "grad_norm": 2.45655143872533, + "learning_rate": 3.0628915712922397e-07, + "loss": 0.3732, + "step": 3162 + }, + { + "epoch": 0.8434666666666667, + "grad_norm": 2.4156117932980585, + "learning_rate": 3.0526996423666885e-07, + "loss": 0.3834, + "step": 3163 + }, + { + "epoch": 0.8437333333333333, + "grad_norm": 2.5552803857079684, + "learning_rate": 3.0425235960635375e-07, + "loss": 0.3635, + "step": 3164 + }, + { + "epoch": 0.844, + "grad_norm": 2.5033856805816557, + "learning_rate": 3.0323634397469106e-07, + "loss": 0.3572, + "step": 3165 + }, + { + "epoch": 0.8442666666666667, + "grad_norm": 3.2490823948465968, + "learning_rate": 3.022219180769398e-07, + "loss": 0.4586, + "step": 3166 + }, + { + "epoch": 0.8445333333333334, + "grad_norm": 2.9836344362619163, + "learning_rate": 3.0120908264721167e-07, + "loss": 0.4447, + "step": 3167 + }, + { + "epoch": 0.8448, + "grad_norm": 2.84311963701449, + "learning_rate": 3.001978384184662e-07, + "loss": 0.4243, + "step": 3168 + }, + { + "epoch": 0.8450666666666666, + "grad_norm": 2.340818222499845, + "learning_rate": 2.991881861225107e-07, + "loss": 0.3912, + "step": 3169 + }, + { + "epoch": 0.8453333333333334, + "grad_norm": 3.259921225251522, + "learning_rate": 2.9818012649000165e-07, + "loss": 0.487, + "step": 3170 + }, + { + "epoch": 0.8456, + "grad_norm": 3.1490295656905394, + "learning_rate": 2.971736602504427e-07, + "loss": 0.4634, + "step": 3171 + }, + { + "epoch": 0.8458666666666667, + "grad_norm": 2.5343155004980997, + "learning_rate": 2.961687881321834e-07, + "loss": 0.4063, + "step": 3172 + }, + { + "epoch": 0.8461333333333333, + "grad_norm": 2.8965422252981936, + "learning_rate": 2.9516551086242045e-07, + "loss": 0.412, + "step": 3173 + }, + { + "epoch": 0.8464, + "grad_norm": 2.713395224107103, + "learning_rate": 2.941638291671975e-07, + "loss": 0.3895, + "step": 3174 + }, + { + "epoch": 0.8466666666666667, + "grad_norm": 2.527737100275072, + "learning_rate": 2.931637437714016e-07, + "loss": 0.4173, + "step": 3175 + }, + { + "epoch": 0.8469333333333333, + "grad_norm": 2.58815073951803, + "learning_rate": 2.921652553987656e-07, + "loss": 0.4118, + "step": 3176 + }, + { + "epoch": 0.8472, + "grad_norm": 2.8500476354364825, + "learning_rate": 2.911683647718666e-07, + "loss": 0.3892, + "step": 3177 + }, + { + "epoch": 0.8474666666666667, + "grad_norm": 2.530030167768666, + "learning_rate": 2.901730726121252e-07, + "loss": 0.3962, + "step": 3178 + }, + { + "epoch": 0.8477333333333333, + "grad_norm": 2.607657078722488, + "learning_rate": 2.8917937963980514e-07, + "loss": 0.4016, + "step": 3179 + }, + { + "epoch": 0.848, + "grad_norm": 2.3016263591525923, + "learning_rate": 2.881872865740129e-07, + "loss": 0.3512, + "step": 3180 + }, + { + "epoch": 0.8482666666666666, + "grad_norm": 2.740969014957987, + "learning_rate": 2.8719679413269893e-07, + "loss": 0.4095, + "step": 3181 + }, + { + "epoch": 0.8485333333333334, + "grad_norm": 2.5372907902587793, + "learning_rate": 2.8620790303265146e-07, + "loss": 0.3743, + "step": 3182 + }, + { + "epoch": 0.8488, + "grad_norm": 2.2551871317153043, + "learning_rate": 2.852206139895039e-07, + "loss": 0.3442, + "step": 3183 + }, + { + "epoch": 0.8490666666666666, + "grad_norm": 2.624883711843122, + "learning_rate": 2.842349277177281e-07, + "loss": 0.394, + "step": 3184 + }, + { + "epoch": 0.8493333333333334, + "grad_norm": 2.390725969531797, + "learning_rate": 2.8325084493063647e-07, + "loss": 0.4332, + "step": 3185 + }, + { + "epoch": 0.8496, + "grad_norm": 2.4827245843317094, + "learning_rate": 2.822683663403805e-07, + "loss": 0.3913, + "step": 3186 + }, + { + "epoch": 0.8498666666666667, + "grad_norm": 2.8375786612161678, + "learning_rate": 2.812874926579523e-07, + "loss": 0.42, + "step": 3187 + }, + { + "epoch": 0.8501333333333333, + "grad_norm": 2.5132237433747275, + "learning_rate": 2.8030822459318153e-07, + "loss": 0.3432, + "step": 3188 + }, + { + "epoch": 0.8504, + "grad_norm": 2.9405221441596323, + "learning_rate": 2.7933056285473547e-07, + "loss": 0.393, + "step": 3189 + }, + { + "epoch": 0.8506666666666667, + "grad_norm": 2.6404572843665104, + "learning_rate": 2.783545081501196e-07, + "loss": 0.397, + "step": 3190 + }, + { + "epoch": 0.8509333333333333, + "grad_norm": 2.9467121204287707, + "learning_rate": 2.773800611856764e-07, + "loss": 0.433, + "step": 3191 + }, + { + "epoch": 0.8512, + "grad_norm": 2.593027181216789, + "learning_rate": 2.764072226665848e-07, + "loss": 0.4044, + "step": 3192 + }, + { + "epoch": 0.8514666666666667, + "grad_norm": 2.8045863289834774, + "learning_rate": 2.754359932968592e-07, + "loss": 0.4061, + "step": 3193 + }, + { + "epoch": 0.8517333333333333, + "grad_norm": 2.2862490468445245, + "learning_rate": 2.7446637377935154e-07, + "loss": 0.3337, + "step": 3194 + }, + { + "epoch": 0.852, + "grad_norm": 2.7609880121654706, + "learning_rate": 2.734983648157452e-07, + "loss": 0.3588, + "step": 3195 + }, + { + "epoch": 0.8522666666666666, + "grad_norm": 3.105710449291612, + "learning_rate": 2.7253196710656125e-07, + "loss": 0.4354, + "step": 3196 + }, + { + "epoch": 0.8525333333333334, + "grad_norm": 2.5491667449638387, + "learning_rate": 2.7156718135115364e-07, + "loss": 0.3919, + "step": 3197 + }, + { + "epoch": 0.8528, + "grad_norm": 2.9832830441031155, + "learning_rate": 2.706040082477096e-07, + "loss": 0.4276, + "step": 3198 + }, + { + "epoch": 0.8530666666666666, + "grad_norm": 3.1185849860093366, + "learning_rate": 2.6964244849324916e-07, + "loss": 0.4255, + "step": 3199 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 2.420668436275142, + "learning_rate": 2.686825027836248e-07, + "loss": 0.394, + "step": 3200 + }, + { + "epoch": 0.8536, + "grad_norm": 2.7588708294361277, + "learning_rate": 2.6772417181352317e-07, + "loss": 0.4122, + "step": 3201 + }, + { + "epoch": 0.8538666666666667, + "grad_norm": 3.0378298219973168, + "learning_rate": 2.667674562764577e-07, + "loss": 0.4597, + "step": 3202 + }, + { + "epoch": 0.8541333333333333, + "grad_norm": 2.953098241616933, + "learning_rate": 2.6581235686477775e-07, + "loss": 0.4273, + "step": 3203 + }, + { + "epoch": 0.8544, + "grad_norm": 2.220901665153803, + "learning_rate": 2.6485887426966035e-07, + "loss": 0.3221, + "step": 3204 + }, + { + "epoch": 0.8546666666666667, + "grad_norm": 2.9688675082340064, + "learning_rate": 2.6390700918111273e-07, + "loss": 0.4369, + "step": 3205 + }, + { + "epoch": 0.8549333333333333, + "grad_norm": 2.946793869626384, + "learning_rate": 2.629567622879722e-07, + "loss": 0.4924, + "step": 3206 + }, + { + "epoch": 0.8552, + "grad_norm": 2.4549354658499665, + "learning_rate": 2.620081342779049e-07, + "loss": 0.3798, + "step": 3207 + }, + { + "epoch": 0.8554666666666667, + "grad_norm": 2.823715269468484, + "learning_rate": 2.610611258374052e-07, + "loss": 0.3982, + "step": 3208 + }, + { + "epoch": 0.8557333333333333, + "grad_norm": 2.6574765008532046, + "learning_rate": 2.6011573765179516e-07, + "loss": 0.4088, + "step": 3209 + }, + { + "epoch": 0.856, + "grad_norm": 3.2365971847082595, + "learning_rate": 2.5917197040522534e-07, + "loss": 0.4715, + "step": 3210 + }, + { + "epoch": 0.8562666666666666, + "grad_norm": 2.366620120190183, + "learning_rate": 2.582298247806722e-07, + "loss": 0.3743, + "step": 3211 + }, + { + "epoch": 0.8565333333333334, + "grad_norm": 2.5157695430117126, + "learning_rate": 2.5728930145993953e-07, + "loss": 0.3972, + "step": 3212 + }, + { + "epoch": 0.8568, + "grad_norm": 2.78905654216402, + "learning_rate": 2.563504011236556e-07, + "loss": 0.3922, + "step": 3213 + }, + { + "epoch": 0.8570666666666666, + "grad_norm": 2.7114847284683714, + "learning_rate": 2.554131244512773e-07, + "loss": 0.3948, + "step": 3214 + }, + { + "epoch": 0.8573333333333333, + "grad_norm": 3.6862462961209146, + "learning_rate": 2.5447747212108217e-07, + "loss": 0.4548, + "step": 3215 + }, + { + "epoch": 0.8576, + "grad_norm": 2.8536544587845474, + "learning_rate": 2.535434448101762e-07, + "loss": 0.4233, + "step": 3216 + }, + { + "epoch": 0.8578666666666667, + "grad_norm": 2.8874281192398192, + "learning_rate": 2.52611043194487e-07, + "loss": 0.4439, + "step": 3217 + }, + { + "epoch": 0.8581333333333333, + "grad_norm": 2.632760331963513, + "learning_rate": 2.5168026794876674e-07, + "loss": 0.4066, + "step": 3218 + }, + { + "epoch": 0.8584, + "grad_norm": 2.628455455892437, + "learning_rate": 2.5075111974659006e-07, + "loss": 0.4125, + "step": 3219 + }, + { + "epoch": 0.8586666666666667, + "grad_norm": 2.665657105638292, + "learning_rate": 2.498235992603551e-07, + "loss": 0.3656, + "step": 3220 + }, + { + "epoch": 0.8589333333333333, + "grad_norm": 2.787755822598452, + "learning_rate": 2.488977071612808e-07, + "loss": 0.4197, + "step": 3221 + }, + { + "epoch": 0.8592, + "grad_norm": 2.5844344152607235, + "learning_rate": 2.4797344411940816e-07, + "loss": 0.4015, + "step": 3222 + }, + { + "epoch": 0.8594666666666667, + "grad_norm": 2.2227151175803503, + "learning_rate": 2.470508108036002e-07, + "loss": 0.3186, + "step": 3223 + }, + { + "epoch": 0.8597333333333333, + "grad_norm": 2.9097907037870647, + "learning_rate": 2.461298078815394e-07, + "loss": 0.4134, + "step": 3224 + }, + { + "epoch": 0.86, + "grad_norm": 2.518293007913514, + "learning_rate": 2.4521043601972883e-07, + "loss": 0.3822, + "step": 3225 + }, + { + "epoch": 0.8602666666666666, + "grad_norm": 2.473582797653398, + "learning_rate": 2.4429269588349126e-07, + "loss": 0.3619, + "step": 3226 + }, + { + "epoch": 0.8605333333333334, + "grad_norm": 2.7305338771572036, + "learning_rate": 2.433765881369682e-07, + "loss": 0.3676, + "step": 3227 + }, + { + "epoch": 0.8608, + "grad_norm": 2.729718231708357, + "learning_rate": 2.424621134431204e-07, + "loss": 0.3814, + "step": 3228 + }, + { + "epoch": 0.8610666666666666, + "grad_norm": 2.4772336263131027, + "learning_rate": 2.4154927246372613e-07, + "loss": 0.4237, + "step": 3229 + }, + { + "epoch": 0.8613333333333333, + "grad_norm": 2.382496645237156, + "learning_rate": 2.4063806585938294e-07, + "loss": 0.364, + "step": 3230 + }, + { + "epoch": 0.8616, + "grad_norm": 2.683073744669998, + "learning_rate": 2.397284942895028e-07, + "loss": 0.4111, + "step": 3231 + }, + { + "epoch": 0.8618666666666667, + "grad_norm": 2.173941578625788, + "learning_rate": 2.3882055841231767e-07, + "loss": 0.3278, + "step": 3232 + }, + { + "epoch": 0.8621333333333333, + "grad_norm": 3.2307718866962354, + "learning_rate": 2.3791425888487402e-07, + "loss": 0.4164, + "step": 3233 + }, + { + "epoch": 0.8624, + "grad_norm": 2.7462881297684354, + "learning_rate": 2.3700959636303395e-07, + "loss": 0.3875, + "step": 3234 + }, + { + "epoch": 0.8626666666666667, + "grad_norm": 2.5325930243671326, + "learning_rate": 2.3610657150147597e-07, + "loss": 0.3936, + "step": 3235 + }, + { + "epoch": 0.8629333333333333, + "grad_norm": 2.552196951051083, + "learning_rate": 2.352051849536918e-07, + "loss": 0.3932, + "step": 3236 + }, + { + "epoch": 0.8632, + "grad_norm": 2.709236053574483, + "learning_rate": 2.343054373719905e-07, + "loss": 0.4177, + "step": 3237 + }, + { + "epoch": 0.8634666666666667, + "grad_norm": 3.0142186955914516, + "learning_rate": 2.3340732940749121e-07, + "loss": 0.4532, + "step": 3238 + }, + { + "epoch": 0.8637333333333334, + "grad_norm": 2.5597273790363078, + "learning_rate": 2.3251086171013014e-07, + "loss": 0.3767, + "step": 3239 + }, + { + "epoch": 0.864, + "grad_norm": 2.417005513752467, + "learning_rate": 2.3161603492865393e-07, + "loss": 0.3806, + "step": 3240 + }, + { + "epoch": 0.8642666666666666, + "grad_norm": 2.813745128487116, + "learning_rate": 2.3072284971062287e-07, + "loss": 0.4306, + "step": 3241 + }, + { + "epoch": 0.8645333333333334, + "grad_norm": 2.2542280975325446, + "learning_rate": 2.2983130670240883e-07, + "loss": 0.339, + "step": 3242 + }, + { + "epoch": 0.8648, + "grad_norm": 2.596730022161963, + "learning_rate": 2.2894140654919655e-07, + "loss": 0.4037, + "step": 3243 + }, + { + "epoch": 0.8650666666666667, + "grad_norm": 2.735814658184686, + "learning_rate": 2.280531498949795e-07, + "loss": 0.4342, + "step": 3244 + }, + { + "epoch": 0.8653333333333333, + "grad_norm": 2.818711396167196, + "learning_rate": 2.2716653738256405e-07, + "loss": 0.4461, + "step": 3245 + }, + { + "epoch": 0.8656, + "grad_norm": 2.9865059352920533, + "learning_rate": 2.2628156965356584e-07, + "loss": 0.4084, + "step": 3246 + }, + { + "epoch": 0.8658666666666667, + "grad_norm": 2.7533812916210207, + "learning_rate": 2.253982473484101e-07, + "loss": 0.4022, + "step": 3247 + }, + { + "epoch": 0.8661333333333333, + "grad_norm": 2.7688582985521943, + "learning_rate": 2.245165711063313e-07, + "loss": 0.4263, + "step": 3248 + }, + { + "epoch": 0.8664, + "grad_norm": 3.553065175127651, + "learning_rate": 2.236365415653727e-07, + "loss": 0.4793, + "step": 3249 + }, + { + "epoch": 0.8666666666666667, + "grad_norm": 3.3426862030283657, + "learning_rate": 2.2275815936238704e-07, + "loss": 0.4449, + "step": 3250 + }, + { + "epoch": 0.8669333333333333, + "grad_norm": 2.5530246241242303, + "learning_rate": 2.2188142513303257e-07, + "loss": 0.368, + "step": 3251 + }, + { + "epoch": 0.8672, + "grad_norm": 2.586223109832651, + "learning_rate": 2.2100633951177757e-07, + "loss": 0.3955, + "step": 3252 + }, + { + "epoch": 0.8674666666666667, + "grad_norm": 2.8074215691670488, + "learning_rate": 2.2013290313189523e-07, + "loss": 0.4224, + "step": 3253 + }, + { + "epoch": 0.8677333333333334, + "grad_norm": 3.3556540010673555, + "learning_rate": 2.1926111662546656e-07, + "loss": 0.4414, + "step": 3254 + }, + { + "epoch": 0.868, + "grad_norm": 2.416985881526, + "learning_rate": 2.1839098062337776e-07, + "loss": 0.3683, + "step": 3255 + }, + { + "epoch": 0.8682666666666666, + "grad_norm": 2.4796291351031603, + "learning_rate": 2.1752249575532096e-07, + "loss": 0.4001, + "step": 3256 + }, + { + "epoch": 0.8685333333333334, + "grad_norm": 2.485063862454248, + "learning_rate": 2.1665566264979343e-07, + "loss": 0.3685, + "step": 3257 + }, + { + "epoch": 0.8688, + "grad_norm": 2.4844249211658336, + "learning_rate": 2.1579048193409642e-07, + "loss": 0.3512, + "step": 3258 + }, + { + "epoch": 0.8690666666666667, + "grad_norm": 2.3575417304239763, + "learning_rate": 2.1492695423433714e-07, + "loss": 0.3524, + "step": 3259 + }, + { + "epoch": 0.8693333333333333, + "grad_norm": 3.0226692812516256, + "learning_rate": 2.1406508017542516e-07, + "loss": 0.3845, + "step": 3260 + }, + { + "epoch": 0.8696, + "grad_norm": 3.346540784755848, + "learning_rate": 2.1320486038107324e-07, + "loss": 0.4666, + "step": 3261 + }, + { + "epoch": 0.8698666666666667, + "grad_norm": 2.6924440375670757, + "learning_rate": 2.1234629547379786e-07, + "loss": 0.379, + "step": 3262 + }, + { + "epoch": 0.8701333333333333, + "grad_norm": 2.5946764765432704, + "learning_rate": 2.1148938607491675e-07, + "loss": 0.4079, + "step": 3263 + }, + { + "epoch": 0.8704, + "grad_norm": 2.4232063739446894, + "learning_rate": 2.1063413280455108e-07, + "loss": 0.371, + "step": 3264 + }, + { + "epoch": 0.8706666666666667, + "grad_norm": 2.50350477860827, + "learning_rate": 2.0978053628162186e-07, + "loss": 0.3721, + "step": 3265 + }, + { + "epoch": 0.8709333333333333, + "grad_norm": 2.449648838620864, + "learning_rate": 2.089285971238536e-07, + "loss": 0.3922, + "step": 3266 + }, + { + "epoch": 0.8712, + "grad_norm": 2.4816124323728976, + "learning_rate": 2.080783159477681e-07, + "loss": 0.3547, + "step": 3267 + }, + { + "epoch": 0.8714666666666666, + "grad_norm": 2.954675936932765, + "learning_rate": 2.0722969336869016e-07, + "loss": 0.4529, + "step": 3268 + }, + { + "epoch": 0.8717333333333334, + "grad_norm": 2.5351630070701336, + "learning_rate": 2.0638273000074288e-07, + "loss": 0.3377, + "step": 3269 + }, + { + "epoch": 0.872, + "grad_norm": 2.4394057394340947, + "learning_rate": 2.055374264568491e-07, + "loss": 0.3387, + "step": 3270 + }, + { + "epoch": 0.8722666666666666, + "grad_norm": 2.995368904037047, + "learning_rate": 2.0469378334872974e-07, + "loss": 0.4506, + "step": 3271 + }, + { + "epoch": 0.8725333333333334, + "grad_norm": 2.682256026018375, + "learning_rate": 2.038518012869059e-07, + "loss": 0.3835, + "step": 3272 + }, + { + "epoch": 0.8728, + "grad_norm": 2.578518445735943, + "learning_rate": 2.0301148088069516e-07, + "loss": 0.3913, + "step": 3273 + }, + { + "epoch": 0.8730666666666667, + "grad_norm": 2.7256926841374844, + "learning_rate": 2.021728227382125e-07, + "loss": 0.4754, + "step": 3274 + }, + { + "epoch": 0.8733333333333333, + "grad_norm": 2.4672584790950145, + "learning_rate": 2.013358274663707e-07, + "loss": 0.4147, + "step": 3275 + }, + { + "epoch": 0.8736, + "grad_norm": 2.736156278616206, + "learning_rate": 2.0050049567087892e-07, + "loss": 0.3942, + "step": 3276 + }, + { + "epoch": 0.8738666666666667, + "grad_norm": 2.7631538331491527, + "learning_rate": 1.996668279562422e-07, + "loss": 0.4034, + "step": 3277 + }, + { + "epoch": 0.8741333333333333, + "grad_norm": 2.7192513079360707, + "learning_rate": 1.9883482492576155e-07, + "loss": 0.4097, + "step": 3278 + }, + { + "epoch": 0.8744, + "grad_norm": 2.6614119416911906, + "learning_rate": 1.9800448718153425e-07, + "loss": 0.4343, + "step": 3279 + }, + { + "epoch": 0.8746666666666667, + "grad_norm": 2.6506002807558433, + "learning_rate": 1.971758153244499e-07, + "loss": 0.3578, + "step": 3280 + }, + { + "epoch": 0.8749333333333333, + "grad_norm": 2.286961878753403, + "learning_rate": 1.9634880995419575e-07, + "loss": 0.3552, + "step": 3281 + }, + { + "epoch": 0.8752, + "grad_norm": 2.7515542520859286, + "learning_rate": 1.9552347166925085e-07, + "loss": 0.4256, + "step": 3282 + }, + { + "epoch": 0.8754666666666666, + "grad_norm": 2.6239285556393455, + "learning_rate": 1.946998010668885e-07, + "loss": 0.4008, + "step": 3283 + }, + { + "epoch": 0.8757333333333334, + "grad_norm": 2.689213622248854, + "learning_rate": 1.938777987431753e-07, + "loss": 0.4445, + "step": 3284 + }, + { + "epoch": 0.876, + "grad_norm": 2.854569097440557, + "learning_rate": 1.9305746529296982e-07, + "loss": 0.3776, + "step": 3285 + }, + { + "epoch": 0.8762666666666666, + "grad_norm": 2.9473523680846165, + "learning_rate": 1.9223880130992496e-07, + "loss": 0.4057, + "step": 3286 + }, + { + "epoch": 0.8765333333333334, + "grad_norm": 2.9810099158710983, + "learning_rate": 1.914218073864821e-07, + "loss": 0.3865, + "step": 3287 + }, + { + "epoch": 0.8768, + "grad_norm": 2.899832788166525, + "learning_rate": 1.9060648411387716e-07, + "loss": 0.4628, + "step": 3288 + }, + { + "epoch": 0.8770666666666667, + "grad_norm": 2.5696976333679897, + "learning_rate": 1.8979283208213574e-07, + "loss": 0.3727, + "step": 3289 + }, + { + "epoch": 0.8773333333333333, + "grad_norm": 2.3659503604995695, + "learning_rate": 1.88980851880074e-07, + "loss": 0.3316, + "step": 3290 + }, + { + "epoch": 0.8776, + "grad_norm": 3.0483522255100977, + "learning_rate": 1.8817054409529829e-07, + "loss": 0.4363, + "step": 3291 + }, + { + "epoch": 0.8778666666666667, + "grad_norm": 2.8973268628196998, + "learning_rate": 1.8736190931420483e-07, + "loss": 0.4097, + "step": 3292 + }, + { + "epoch": 0.8781333333333333, + "grad_norm": 2.5749209399786808, + "learning_rate": 1.8655494812197917e-07, + "loss": 0.3847, + "step": 3293 + }, + { + "epoch": 0.8784, + "grad_norm": 2.4956485631830736, + "learning_rate": 1.8574966110259524e-07, + "loss": 0.3751, + "step": 3294 + }, + { + "epoch": 0.8786666666666667, + "grad_norm": 2.836166671107596, + "learning_rate": 1.849460488388169e-07, + "loss": 0.3946, + "step": 3295 + }, + { + "epoch": 0.8789333333333333, + "grad_norm": 2.437373653164744, + "learning_rate": 1.8414411191219312e-07, + "loss": 0.3483, + "step": 3296 + }, + { + "epoch": 0.8792, + "grad_norm": 4.4001050917141455, + "learning_rate": 1.8334385090306385e-07, + "loss": 0.3623, + "step": 3297 + }, + { + "epoch": 0.8794666666666666, + "grad_norm": 2.8218945947842613, + "learning_rate": 1.8254526639055388e-07, + "loss": 0.4098, + "step": 3298 + }, + { + "epoch": 0.8797333333333334, + "grad_norm": 2.7341414951431826, + "learning_rate": 1.8174835895257674e-07, + "loss": 0.4042, + "step": 3299 + }, + { + "epoch": 0.88, + "grad_norm": 2.9820462361986024, + "learning_rate": 1.8095312916582953e-07, + "loss": 0.4304, + "step": 3300 + }, + { + "epoch": 0.8802666666666666, + "grad_norm": 2.8704081686487983, + "learning_rate": 1.8015957760579793e-07, + "loss": 0.4291, + "step": 3301 + }, + { + "epoch": 0.8805333333333333, + "grad_norm": 2.3191127221331964, + "learning_rate": 1.7936770484675208e-07, + "loss": 0.342, + "step": 3302 + }, + { + "epoch": 0.8808, + "grad_norm": 2.5420975974787927, + "learning_rate": 1.7857751146174662e-07, + "loss": 0.3914, + "step": 3303 + }, + { + "epoch": 0.8810666666666667, + "grad_norm": 2.761893747434971, + "learning_rate": 1.7778899802262218e-07, + "loss": 0.4065, + "step": 3304 + }, + { + "epoch": 0.8813333333333333, + "grad_norm": 2.653899220475779, + "learning_rate": 1.7700216510000286e-07, + "loss": 0.3794, + "step": 3305 + }, + { + "epoch": 0.8816, + "grad_norm": 2.397647539378242, + "learning_rate": 1.762170132632962e-07, + "loss": 0.3481, + "step": 3306 + }, + { + "epoch": 0.8818666666666667, + "grad_norm": 2.7382435809717, + "learning_rate": 1.7543354308069388e-07, + "loss": 0.3971, + "step": 3307 + }, + { + "epoch": 0.8821333333333333, + "grad_norm": 2.6345579984001115, + "learning_rate": 1.7465175511917148e-07, + "loss": 0.3963, + "step": 3308 + }, + { + "epoch": 0.8824, + "grad_norm": 2.71966778470371, + "learning_rate": 1.7387164994448452e-07, + "loss": 0.3756, + "step": 3309 + }, + { + "epoch": 0.8826666666666667, + "grad_norm": 2.553220433235879, + "learning_rate": 1.730932281211739e-07, + "loss": 0.3916, + "step": 3310 + }, + { + "epoch": 0.8829333333333333, + "grad_norm": 2.626528930144365, + "learning_rate": 1.7231649021256014e-07, + "loss": 0.416, + "step": 3311 + }, + { + "epoch": 0.8832, + "grad_norm": 2.435365881193696, + "learning_rate": 1.715414367807458e-07, + "loss": 0.3745, + "step": 3312 + }, + { + "epoch": 0.8834666666666666, + "grad_norm": 2.756721368443525, + "learning_rate": 1.7076806838661476e-07, + "loss": 0.3914, + "step": 3313 + }, + { + "epoch": 0.8837333333333334, + "grad_norm": 3.0911877913026515, + "learning_rate": 1.6999638558983068e-07, + "loss": 0.4642, + "step": 3314 + }, + { + "epoch": 0.884, + "grad_norm": 2.7243545735863086, + "learning_rate": 1.692263889488391e-07, + "loss": 0.3923, + "step": 3315 + }, + { + "epoch": 0.8842666666666666, + "grad_norm": 2.982793099159781, + "learning_rate": 1.684580790208626e-07, + "loss": 0.4726, + "step": 3316 + }, + { + "epoch": 0.8845333333333333, + "grad_norm": 2.5734635395359264, + "learning_rate": 1.6769145636190587e-07, + "loss": 0.4198, + "step": 3317 + }, + { + "epoch": 0.8848, + "grad_norm": 2.69342679931977, + "learning_rate": 1.6692652152675127e-07, + "loss": 0.3762, + "step": 3318 + }, + { + "epoch": 0.8850666666666667, + "grad_norm": 2.7311225255079568, + "learning_rate": 1.6616327506895957e-07, + "loss": 0.3796, + "step": 3319 + }, + { + "epoch": 0.8853333333333333, + "grad_norm": 2.617327940622262, + "learning_rate": 1.6540171754087008e-07, + "loss": 0.3601, + "step": 3320 + }, + { + "epoch": 0.8856, + "grad_norm": 2.8466761803327194, + "learning_rate": 1.6464184949359975e-07, + "loss": 0.437, + "step": 3321 + }, + { + "epoch": 0.8858666666666667, + "grad_norm": 3.1325066307895852, + "learning_rate": 1.638836714770431e-07, + "loss": 0.439, + "step": 3322 + }, + { + "epoch": 0.8861333333333333, + "grad_norm": 2.798294801607777, + "learning_rate": 1.6312718403987128e-07, + "loss": 0.4361, + "step": 3323 + }, + { + "epoch": 0.8864, + "grad_norm": 2.4285928816262556, + "learning_rate": 1.6237238772953274e-07, + "loss": 0.3922, + "step": 3324 + }, + { + "epoch": 0.8866666666666667, + "grad_norm": 2.3838343372646946, + "learning_rate": 1.616192830922511e-07, + "loss": 0.3531, + "step": 3325 + }, + { + "epoch": 0.8869333333333334, + "grad_norm": 2.6196981748091708, + "learning_rate": 1.6086787067302656e-07, + "loss": 0.415, + "step": 3326 + }, + { + "epoch": 0.8872, + "grad_norm": 3.025861789977464, + "learning_rate": 1.6011815101563382e-07, + "loss": 0.4562, + "step": 3327 + }, + { + "epoch": 0.8874666666666666, + "grad_norm": 2.733991576853505, + "learning_rate": 1.5937012466262448e-07, + "loss": 0.3993, + "step": 3328 + }, + { + "epoch": 0.8877333333333334, + "grad_norm": 2.626373421540736, + "learning_rate": 1.586237921553216e-07, + "loss": 0.3983, + "step": 3329 + }, + { + "epoch": 0.888, + "grad_norm": 2.622431557515372, + "learning_rate": 1.5787915403382593e-07, + "loss": 0.386, + "step": 3330 + }, + { + "epoch": 0.8882666666666666, + "grad_norm": 2.755973686013132, + "learning_rate": 1.5713621083700975e-07, + "loss": 0.4588, + "step": 3331 + }, + { + "epoch": 0.8885333333333333, + "grad_norm": 2.7959380702711223, + "learning_rate": 1.563949631025194e-07, + "loss": 0.446, + "step": 3332 + }, + { + "epoch": 0.8888, + "grad_norm": 2.5426345710504044, + "learning_rate": 1.556554113667741e-07, + "loss": 0.3759, + "step": 3333 + }, + { + "epoch": 0.8890666666666667, + "grad_norm": 2.3726044367473236, + "learning_rate": 1.54917556164966e-07, + "loss": 0.3552, + "step": 3334 + }, + { + "epoch": 0.8893333333333333, + "grad_norm": 3.3638424151360735, + "learning_rate": 1.5418139803106026e-07, + "loss": 0.3853, + "step": 3335 + }, + { + "epoch": 0.8896, + "grad_norm": 2.837031981247287, + "learning_rate": 1.534469374977915e-07, + "loss": 0.3991, + "step": 3336 + }, + { + "epoch": 0.8898666666666667, + "grad_norm": 2.5325314998020114, + "learning_rate": 1.5271417509666904e-07, + "loss": 0.3844, + "step": 3337 + }, + { + "epoch": 0.8901333333333333, + "grad_norm": 2.4328728452682022, + "learning_rate": 1.5198311135797063e-07, + "loss": 0.3685, + "step": 3338 + }, + { + "epoch": 0.8904, + "grad_norm": 2.2891976696162146, + "learning_rate": 1.512537468107464e-07, + "loss": 0.3614, + "step": 3339 + }, + { + "epoch": 0.8906666666666667, + "grad_norm": 2.6150837289053483, + "learning_rate": 1.505260819828158e-07, + "loss": 0.4053, + "step": 3340 + }, + { + "epoch": 0.8909333333333334, + "grad_norm": 2.661284016916046, + "learning_rate": 1.4980011740076904e-07, + "loss": 0.4661, + "step": 3341 + }, + { + "epoch": 0.8912, + "grad_norm": 2.7881469193319863, + "learning_rate": 1.4907585358996557e-07, + "loss": 0.3946, + "step": 3342 + }, + { + "epoch": 0.8914666666666666, + "grad_norm": 2.2708031500062478, + "learning_rate": 1.4835329107453334e-07, + "loss": 0.3425, + "step": 3343 + }, + { + "epoch": 0.8917333333333334, + "grad_norm": 3.006631117734822, + "learning_rate": 1.4763243037737102e-07, + "loss": 0.4348, + "step": 3344 + }, + { + "epoch": 0.892, + "grad_norm": 2.6322624004041355, + "learning_rate": 1.46913272020143e-07, + "loss": 0.4403, + "step": 3345 + }, + { + "epoch": 0.8922666666666667, + "grad_norm": 3.034436348951999, + "learning_rate": 1.4619581652328464e-07, + "loss": 0.4484, + "step": 3346 + }, + { + "epoch": 0.8925333333333333, + "grad_norm": 2.6479433244930948, + "learning_rate": 1.454800644059967e-07, + "loss": 0.3963, + "step": 3347 + }, + { + "epoch": 0.8928, + "grad_norm": 2.6592143660551106, + "learning_rate": 1.447660161862491e-07, + "loss": 0.4366, + "step": 3348 + }, + { + "epoch": 0.8930666666666667, + "grad_norm": 2.857430218240617, + "learning_rate": 1.44053672380777e-07, + "loss": 0.4677, + "step": 3349 + }, + { + "epoch": 0.8933333333333333, + "grad_norm": 2.3409012105315012, + "learning_rate": 1.4334303350508255e-07, + "loss": 0.3419, + "step": 3350 + }, + { + "epoch": 0.8936, + "grad_norm": 2.380427044738951, + "learning_rate": 1.4263410007343548e-07, + "loss": 0.3934, + "step": 3351 + }, + { + "epoch": 0.8938666666666667, + "grad_norm": 2.285527343225356, + "learning_rate": 1.41926872598869e-07, + "loss": 0.3436, + "step": 3352 + }, + { + "epoch": 0.8941333333333333, + "grad_norm": 2.707059352609682, + "learning_rate": 1.412213515931843e-07, + "loss": 0.4038, + "step": 3353 + }, + { + "epoch": 0.8944, + "grad_norm": 3.096255427952246, + "learning_rate": 1.405175375669457e-07, + "loss": 0.4347, + "step": 3354 + }, + { + "epoch": 0.8946666666666667, + "grad_norm": 2.319392266836252, + "learning_rate": 1.3981543102948303e-07, + "loss": 0.3197, + "step": 3355 + }, + { + "epoch": 0.8949333333333334, + "grad_norm": 2.5439902993770054, + "learning_rate": 1.3911503248888986e-07, + "loss": 0.3715, + "step": 3356 + }, + { + "epoch": 0.8952, + "grad_norm": 3.058159056595082, + "learning_rate": 1.3841634245202573e-07, + "loss": 0.4645, + "step": 3357 + }, + { + "epoch": 0.8954666666666666, + "grad_norm": 2.3788514844379267, + "learning_rate": 1.3771936142451036e-07, + "loss": 0.3666, + "step": 3358 + }, + { + "epoch": 0.8957333333333334, + "grad_norm": 2.586415407701313, + "learning_rate": 1.370240899107303e-07, + "loss": 0.3397, + "step": 3359 + }, + { + "epoch": 0.896, + "grad_norm": 2.5889802722260655, + "learning_rate": 1.363305284138322e-07, + "loss": 0.4181, + "step": 3360 + }, + { + "epoch": 0.8962666666666667, + "grad_norm": 2.58753154828537, + "learning_rate": 1.3563867743572683e-07, + "loss": 0.396, + "step": 3361 + }, + { + "epoch": 0.8965333333333333, + "grad_norm": 2.6117172869281737, + "learning_rate": 1.3494853747708648e-07, + "loss": 0.3946, + "step": 3362 + }, + { + "epoch": 0.8968, + "grad_norm": 2.8419953775246176, + "learning_rate": 1.3426010903734493e-07, + "loss": 0.3889, + "step": 3363 + }, + { + "epoch": 0.8970666666666667, + "grad_norm": 2.922662754886384, + "learning_rate": 1.3357339261469898e-07, + "loss": 0.4161, + "step": 3364 + }, + { + "epoch": 0.8973333333333333, + "grad_norm": 2.4244757542974553, + "learning_rate": 1.3288838870610387e-07, + "loss": 0.3692, + "step": 3365 + }, + { + "epoch": 0.8976, + "grad_norm": 2.593254195411819, + "learning_rate": 1.322050978072778e-07, + "loss": 0.4152, + "step": 3366 + }, + { + "epoch": 0.8978666666666667, + "grad_norm": 2.5728700777044473, + "learning_rate": 1.3152352041269855e-07, + "loss": 0.4407, + "step": 3367 + }, + { + "epoch": 0.8981333333333333, + "grad_norm": 2.619119198503521, + "learning_rate": 1.308436570156038e-07, + "loss": 0.3865, + "step": 3368 + }, + { + "epoch": 0.8984, + "grad_norm": 2.4982547164075766, + "learning_rate": 1.3016550810799055e-07, + "loss": 0.3892, + "step": 3369 + }, + { + "epoch": 0.8986666666666666, + "grad_norm": 2.5855167453568337, + "learning_rate": 1.2948907418061567e-07, + "loss": 0.3949, + "step": 3370 + }, + { + "epoch": 0.8989333333333334, + "grad_norm": 2.489761094976563, + "learning_rate": 1.2881435572299484e-07, + "loss": 0.3648, + "step": 3371 + }, + { + "epoch": 0.8992, + "grad_norm": 3.146979133712614, + "learning_rate": 1.2814135322340133e-07, + "loss": 0.4978, + "step": 3372 + }, + { + "epoch": 0.8994666666666666, + "grad_norm": 2.861896902391274, + "learning_rate": 1.274700671688686e-07, + "loss": 0.4141, + "step": 3373 + }, + { + "epoch": 0.8997333333333334, + "grad_norm": 2.7960668299964326, + "learning_rate": 1.2680049804518646e-07, + "loss": 0.4566, + "step": 3374 + }, + { + "epoch": 0.9, + "grad_norm": 2.863694618219217, + "learning_rate": 1.2613264633690253e-07, + "loss": 0.4113, + "step": 3375 + }, + { + "epoch": 0.9002666666666667, + "grad_norm": 2.5267883230819583, + "learning_rate": 1.2546651252732105e-07, + "loss": 0.3434, + "step": 3376 + }, + { + "epoch": 0.9005333333333333, + "grad_norm": 2.960681132662007, + "learning_rate": 1.2480209709850505e-07, + "loss": 0.3834, + "step": 3377 + }, + { + "epoch": 0.9008, + "grad_norm": 2.5384814626267476, + "learning_rate": 1.2413940053127155e-07, + "loss": 0.3828, + "step": 3378 + }, + { + "epoch": 0.9010666666666667, + "grad_norm": 2.8196944094856815, + "learning_rate": 1.2347842330519472e-07, + "loss": 0.4084, + "step": 3379 + }, + { + "epoch": 0.9013333333333333, + "grad_norm": 2.7155647373352165, + "learning_rate": 1.2281916589860526e-07, + "loss": 0.39, + "step": 3380 + }, + { + "epoch": 0.9016, + "grad_norm": 2.434928462235479, + "learning_rate": 1.2216162878858768e-07, + "loss": 0.3675, + "step": 3381 + }, + { + "epoch": 0.9018666666666667, + "grad_norm": 3.1284034212858707, + "learning_rate": 1.2150581245098325e-07, + "loss": 0.4432, + "step": 3382 + }, + { + "epoch": 0.9021333333333333, + "grad_norm": 2.6063873223418654, + "learning_rate": 1.2085171736038653e-07, + "loss": 0.3902, + "step": 3383 + }, + { + "epoch": 0.9024, + "grad_norm": 2.794509924817432, + "learning_rate": 1.2019934399014777e-07, + "loss": 0.4347, + "step": 3384 + }, + { + "epoch": 0.9026666666666666, + "grad_norm": 2.7101681800261233, + "learning_rate": 1.1954869281236958e-07, + "loss": 0.3932, + "step": 3385 + }, + { + "epoch": 0.9029333333333334, + "grad_norm": 2.6013375780671555, + "learning_rate": 1.1889976429791061e-07, + "loss": 0.3889, + "step": 3386 + }, + { + "epoch": 0.9032, + "grad_norm": 2.3364503476879737, + "learning_rate": 1.1825255891638049e-07, + "loss": 0.3435, + "step": 3387 + }, + { + "epoch": 0.9034666666666666, + "grad_norm": 2.410736223372257, + "learning_rate": 1.1760707713614345e-07, + "loss": 0.3518, + "step": 3388 + }, + { + "epoch": 0.9037333333333334, + "grad_norm": 3.361837081925775, + "learning_rate": 1.1696331942431555e-07, + "loss": 0.3909, + "step": 3389 + }, + { + "epoch": 0.904, + "grad_norm": 2.4815445704670966, + "learning_rate": 1.1632128624676581e-07, + "loss": 0.3615, + "step": 3390 + }, + { + "epoch": 0.9042666666666667, + "grad_norm": 2.7974774796299053, + "learning_rate": 1.1568097806811451e-07, + "loss": 0.4272, + "step": 3391 + }, + { + "epoch": 0.9045333333333333, + "grad_norm": 2.2485781536799263, + "learning_rate": 1.1504239535173433e-07, + "loss": 0.3143, + "step": 3392 + }, + { + "epoch": 0.9048, + "grad_norm": 3.0654899957357222, + "learning_rate": 1.1440553855974923e-07, + "loss": 0.4818, + "step": 3393 + }, + { + "epoch": 0.9050666666666667, + "grad_norm": 2.8456851962552165, + "learning_rate": 1.1377040815303331e-07, + "loss": 0.3832, + "step": 3394 + }, + { + "epoch": 0.9053333333333333, + "grad_norm": 2.5238224163275795, + "learning_rate": 1.1313700459121252e-07, + "loss": 0.3868, + "step": 3395 + }, + { + "epoch": 0.9056, + "grad_norm": 2.659958590481764, + "learning_rate": 1.1250532833266242e-07, + "loss": 0.3974, + "step": 3396 + }, + { + "epoch": 0.9058666666666667, + "grad_norm": 2.441922683948359, + "learning_rate": 1.1187537983450874e-07, + "loss": 0.3414, + "step": 3397 + }, + { + "epoch": 0.9061333333333333, + "grad_norm": 2.921254762702188, + "learning_rate": 1.1124715955262683e-07, + "loss": 0.4322, + "step": 3398 + }, + { + "epoch": 0.9064, + "grad_norm": 2.3936480313115944, + "learning_rate": 1.1062066794164105e-07, + "loss": 0.3571, + "step": 3399 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 2.6925571803484027, + "learning_rate": 1.09995905454926e-07, + "loss": 0.373, + "step": 3400 + }, + { + "epoch": 0.9069333333333334, + "grad_norm": 2.702355588578171, + "learning_rate": 1.0937287254460332e-07, + "loss": 0.4149, + "step": 3401 + }, + { + "epoch": 0.9072, + "grad_norm": 2.805335816573016, + "learning_rate": 1.0875156966154404e-07, + "loss": 0.4211, + "step": 3402 + }, + { + "epoch": 0.9074666666666666, + "grad_norm": 2.387774702256839, + "learning_rate": 1.081319972553671e-07, + "loss": 0.3584, + "step": 3403 + }, + { + "epoch": 0.9077333333333333, + "grad_norm": 2.8267727458230314, + "learning_rate": 1.0751415577443914e-07, + "loss": 0.4183, + "step": 3404 + }, + { + "epoch": 0.908, + "grad_norm": 2.636510039685159, + "learning_rate": 1.0689804566587331e-07, + "loss": 0.4118, + "step": 3405 + }, + { + "epoch": 0.9082666666666667, + "grad_norm": 3.247981796949848, + "learning_rate": 1.0628366737553187e-07, + "loss": 0.4054, + "step": 3406 + }, + { + "epoch": 0.9085333333333333, + "grad_norm": 2.3588600363838927, + "learning_rate": 1.0567102134802081e-07, + "loss": 0.3501, + "step": 3407 + }, + { + "epoch": 0.9088, + "grad_norm": 2.41911462033397, + "learning_rate": 1.050601080266958e-07, + "loss": 0.344, + "step": 3408 + }, + { + "epoch": 0.9090666666666667, + "grad_norm": 2.5982730323845797, + "learning_rate": 1.0445092785365624e-07, + "loss": 0.3907, + "step": 3409 + }, + { + "epoch": 0.9093333333333333, + "grad_norm": 2.2989077542464758, + "learning_rate": 1.0384348126974808e-07, + "loss": 0.3545, + "step": 3410 + }, + { + "epoch": 0.9096, + "grad_norm": 2.5437183493347226, + "learning_rate": 1.0323776871456304e-07, + "loss": 0.3719, + "step": 3411 + }, + { + "epoch": 0.9098666666666667, + "grad_norm": 2.9509192480647033, + "learning_rate": 1.0263379062643714e-07, + "loss": 0.4444, + "step": 3412 + }, + { + "epoch": 0.9101333333333333, + "grad_norm": 2.619200035625233, + "learning_rate": 1.0203154744245298e-07, + "loss": 0.4037, + "step": 3413 + }, + { + "epoch": 0.9104, + "grad_norm": 2.623231820536228, + "learning_rate": 1.0143103959843443e-07, + "loss": 0.3709, + "step": 3414 + }, + { + "epoch": 0.9106666666666666, + "grad_norm": 2.584262219727804, + "learning_rate": 1.0083226752895331e-07, + "loss": 0.4076, + "step": 3415 + }, + { + "epoch": 0.9109333333333334, + "grad_norm": 2.5577806408042787, + "learning_rate": 1.0023523166732275e-07, + "loss": 0.3774, + "step": 3416 + }, + { + "epoch": 0.9112, + "grad_norm": 2.7619905024418276, + "learning_rate": 9.963993244560044e-08, + "loss": 0.3673, + "step": 3417 + }, + { + "epoch": 0.9114666666666666, + "grad_norm": 3.0253022026766, + "learning_rate": 9.90463702945868e-08, + "loss": 0.4375, + "step": 3418 + }, + { + "epoch": 0.9117333333333333, + "grad_norm": 2.5096595069216434, + "learning_rate": 9.8454545643826e-08, + "loss": 0.3793, + "step": 3419 + }, + { + "epoch": 0.912, + "grad_norm": 2.547525360077352, + "learning_rate": 9.786445892160378e-08, + "loss": 0.3845, + "step": 3420 + }, + { + "epoch": 0.9122666666666667, + "grad_norm": 2.1691048007126916, + "learning_rate": 9.727611055494857e-08, + "loss": 0.3384, + "step": 3421 + }, + { + "epoch": 0.9125333333333333, + "grad_norm": 2.5521228519820216, + "learning_rate": 9.66895009696317e-08, + "loss": 0.3999, + "step": 3422 + }, + { + "epoch": 0.9128, + "grad_norm": 2.18151585229125, + "learning_rate": 9.610463059016528e-08, + "loss": 0.3133, + "step": 3423 + }, + { + "epoch": 0.9130666666666667, + "grad_norm": 2.844254398132889, + "learning_rate": 9.552149983980242e-08, + "loss": 0.4323, + "step": 3424 + }, + { + "epoch": 0.9133333333333333, + "grad_norm": 3.19263139155863, + "learning_rate": 9.494010914053858e-08, + "loss": 0.4903, + "step": 3425 + }, + { + "epoch": 0.9136, + "grad_norm": 2.8925850230724492, + "learning_rate": 9.436045891310864e-08, + "loss": 0.432, + "step": 3426 + }, + { + "epoch": 0.9138666666666667, + "grad_norm": 2.8549749058082345, + "learning_rate": 9.378254957698924e-08, + "loss": 0.4401, + "step": 3427 + }, + { + "epoch": 0.9141333333333334, + "grad_norm": 2.5052938142427648, + "learning_rate": 9.320638155039558e-08, + "loss": 0.3636, + "step": 3428 + }, + { + "epoch": 0.9144, + "grad_norm": 2.8610015793484216, + "learning_rate": 9.263195525028495e-08, + "loss": 0.448, + "step": 3429 + }, + { + "epoch": 0.9146666666666666, + "grad_norm": 2.761085256404884, + "learning_rate": 9.20592710923518e-08, + "loss": 0.4089, + "step": 3430 + }, + { + "epoch": 0.9149333333333334, + "grad_norm": 2.1171333834238983, + "learning_rate": 9.148832949103181e-08, + "loss": 0.3254, + "step": 3431 + }, + { + "epoch": 0.9152, + "grad_norm": 2.803970698659416, + "learning_rate": 9.091913085949838e-08, + "loss": 0.3997, + "step": 3432 + }, + { + "epoch": 0.9154666666666667, + "grad_norm": 2.4172146441875153, + "learning_rate": 9.035167560966395e-08, + "loss": 0.371, + "step": 3433 + }, + { + "epoch": 0.9157333333333333, + "grad_norm": 2.830538389089287, + "learning_rate": 8.97859641521795e-08, + "loss": 0.4415, + "step": 3434 + }, + { + "epoch": 0.916, + "grad_norm": 2.254215023438137, + "learning_rate": 8.922199689643391e-08, + "loss": 0.3227, + "step": 3435 + }, + { + "epoch": 0.9162666666666667, + "grad_norm": 2.8424771568857996, + "learning_rate": 8.865977425055433e-08, + "loss": 0.4152, + "step": 3436 + }, + { + "epoch": 0.9165333333333333, + "grad_norm": 2.5920601441654907, + "learning_rate": 8.80992966214042e-08, + "loss": 0.385, + "step": 3437 + }, + { + "epoch": 0.9168, + "grad_norm": 2.7446165435150216, + "learning_rate": 8.75405644145852e-08, + "loss": 0.4681, + "step": 3438 + }, + { + "epoch": 0.9170666666666667, + "grad_norm": 2.4311609978021678, + "learning_rate": 8.698357803443525e-08, + "loss": 0.3621, + "step": 3439 + }, + { + "epoch": 0.9173333333333333, + "grad_norm": 3.025017649897863, + "learning_rate": 8.642833788402971e-08, + "loss": 0.5049, + "step": 3440 + }, + { + "epoch": 0.9176, + "grad_norm": 2.538114834410985, + "learning_rate": 8.58748443651794e-08, + "loss": 0.416, + "step": 3441 + }, + { + "epoch": 0.9178666666666667, + "grad_norm": 2.6384190691599825, + "learning_rate": 8.532309787843169e-08, + "loss": 0.411, + "step": 3442 + }, + { + "epoch": 0.9181333333333334, + "grad_norm": 2.9431096992146584, + "learning_rate": 8.477309882306884e-08, + "loss": 0.41, + "step": 3443 + }, + { + "epoch": 0.9184, + "grad_norm": 2.7046316601626468, + "learning_rate": 8.422484759710998e-08, + "loss": 0.3878, + "step": 3444 + }, + { + "epoch": 0.9186666666666666, + "grad_norm": 2.3145507171301367, + "learning_rate": 8.367834459730828e-08, + "loss": 0.362, + "step": 3445 + }, + { + "epoch": 0.9189333333333334, + "grad_norm": 2.9003135186101714, + "learning_rate": 8.313359021915157e-08, + "loss": 0.3985, + "step": 3446 + }, + { + "epoch": 0.9192, + "grad_norm": 2.6322328485430115, + "learning_rate": 8.259058485686339e-08, + "loss": 0.405, + "step": 3447 + }, + { + "epoch": 0.9194666666666667, + "grad_norm": 2.7196512863031024, + "learning_rate": 8.204932890340051e-08, + "loss": 0.3928, + "step": 3448 + }, + { + "epoch": 0.9197333333333333, + "grad_norm": 2.8147696268366382, + "learning_rate": 8.15098227504546e-08, + "loss": 0.412, + "step": 3449 + }, + { + "epoch": 0.92, + "grad_norm": 2.7528155451027185, + "learning_rate": 8.097206678844948e-08, + "loss": 0.412, + "step": 3450 + }, + { + "epoch": 0.9202666666666667, + "grad_norm": 2.7987675394840124, + "learning_rate": 8.04360614065447e-08, + "loss": 0.4487, + "step": 3451 + }, + { + "epoch": 0.9205333333333333, + "grad_norm": 2.45156031176913, + "learning_rate": 7.990180699263134e-08, + "loss": 0.3802, + "step": 3452 + }, + { + "epoch": 0.9208, + "grad_norm": 2.999165550381656, + "learning_rate": 7.936930393333347e-08, + "loss": 0.3689, + "step": 3453 + }, + { + "epoch": 0.9210666666666667, + "grad_norm": 3.1520590875717724, + "learning_rate": 7.883855261400841e-08, + "loss": 0.4113, + "step": 3454 + }, + { + "epoch": 0.9213333333333333, + "grad_norm": 2.531865832510428, + "learning_rate": 7.83095534187453e-08, + "loss": 0.3433, + "step": 3455 + }, + { + "epoch": 0.9216, + "grad_norm": 2.810804561507447, + "learning_rate": 7.778230673036541e-08, + "loss": 0.3953, + "step": 3456 + }, + { + "epoch": 0.9218666666666666, + "grad_norm": 3.1716900512500246, + "learning_rate": 7.725681293042159e-08, + "loss": 0.4341, + "step": 3457 + }, + { + "epoch": 0.9221333333333334, + "grad_norm": 2.8089539162471078, + "learning_rate": 7.673307239919908e-08, + "loss": 0.4121, + "step": 3458 + }, + { + "epoch": 0.9224, + "grad_norm": 2.4763963910461806, + "learning_rate": 7.621108551571332e-08, + "loss": 0.3986, + "step": 3459 + }, + { + "epoch": 0.9226666666666666, + "grad_norm": 2.7080164522178483, + "learning_rate": 7.569085265771075e-08, + "loss": 0.4444, + "step": 3460 + }, + { + "epoch": 0.9229333333333334, + "grad_norm": 2.6750155246602367, + "learning_rate": 7.517237420166884e-08, + "loss": 0.3668, + "step": 3461 + }, + { + "epoch": 0.9232, + "grad_norm": 2.69090942696542, + "learning_rate": 7.465565052279578e-08, + "loss": 0.3821, + "step": 3462 + }, + { + "epoch": 0.9234666666666667, + "grad_norm": 2.43826772922536, + "learning_rate": 7.414068199502883e-08, + "loss": 0.3992, + "step": 3463 + }, + { + "epoch": 0.9237333333333333, + "grad_norm": 3.0173972222526797, + "learning_rate": 7.362746899103628e-08, + "loss": 0.4358, + "step": 3464 + }, + { + "epoch": 0.924, + "grad_norm": 2.551490552116599, + "learning_rate": 7.311601188221523e-08, + "loss": 0.3883, + "step": 3465 + }, + { + "epoch": 0.9242666666666667, + "grad_norm": 2.623588527232749, + "learning_rate": 7.260631103869237e-08, + "loss": 0.38, + "step": 3466 + }, + { + "epoch": 0.9245333333333333, + "grad_norm": 2.6032401902176576, + "learning_rate": 7.20983668293232e-08, + "loss": 0.3649, + "step": 3467 + }, + { + "epoch": 0.9248, + "grad_norm": 2.871728504368792, + "learning_rate": 7.15921796216923e-08, + "loss": 0.4523, + "step": 3468 + }, + { + "epoch": 0.9250666666666667, + "grad_norm": 2.7157085095104314, + "learning_rate": 7.108774978211247e-08, + "loss": 0.3794, + "step": 3469 + }, + { + "epoch": 0.9253333333333333, + "grad_norm": 2.370499585293355, + "learning_rate": 7.058507767562451e-08, + "loss": 0.3347, + "step": 3470 + }, + { + "epoch": 0.9256, + "grad_norm": 2.5437726606972926, + "learning_rate": 7.008416366599852e-08, + "loss": 0.4211, + "step": 3471 + }, + { + "epoch": 0.9258666666666666, + "grad_norm": 3.065449052123195, + "learning_rate": 6.958500811573093e-08, + "loss": 0.4366, + "step": 3472 + }, + { + "epoch": 0.9261333333333334, + "grad_norm": 3.1096906092667878, + "learning_rate": 6.908761138604614e-08, + "loss": 0.4673, + "step": 3473 + }, + { + "epoch": 0.9264, + "grad_norm": 2.871346866590779, + "learning_rate": 6.859197383689565e-08, + "loss": 0.4312, + "step": 3474 + }, + { + "epoch": 0.9266666666666666, + "grad_norm": 2.831796956224638, + "learning_rate": 6.809809582695781e-08, + "loss": 0.4152, + "step": 3475 + }, + { + "epoch": 0.9269333333333334, + "grad_norm": 2.6782879978647234, + "learning_rate": 6.760597771363786e-08, + "loss": 0.3701, + "step": 3476 + }, + { + "epoch": 0.9272, + "grad_norm": 2.5239185630345284, + "learning_rate": 6.71156198530673e-08, + "loss": 0.4164, + "step": 3477 + }, + { + "epoch": 0.9274666666666667, + "grad_norm": 3.1085036090476166, + "learning_rate": 6.662702260010423e-08, + "loss": 0.488, + "step": 3478 + }, + { + "epoch": 0.9277333333333333, + "grad_norm": 3.8905487417775833, + "learning_rate": 6.614018630833136e-08, + "loss": 0.4527, + "step": 3479 + }, + { + "epoch": 0.928, + "grad_norm": 3.3651765133555585, + "learning_rate": 6.565511133005881e-08, + "loss": 0.446, + "step": 3480 + }, + { + "epoch": 0.9282666666666667, + "grad_norm": 3.911233270513516, + "learning_rate": 6.517179801632106e-08, + "loss": 0.4294, + "step": 3481 + }, + { + "epoch": 0.9285333333333333, + "grad_norm": 2.986727019024398, + "learning_rate": 6.469024671687752e-08, + "loss": 0.4118, + "step": 3482 + }, + { + "epoch": 0.9288, + "grad_norm": 2.6822196165518872, + "learning_rate": 6.421045778021301e-08, + "loss": 0.4006, + "step": 3483 + }, + { + "epoch": 0.9290666666666667, + "grad_norm": 2.4858390150764693, + "learning_rate": 6.373243155353675e-08, + "loss": 0.3883, + "step": 3484 + }, + { + "epoch": 0.9293333333333333, + "grad_norm": 2.558705842177176, + "learning_rate": 6.325616838278314e-08, + "loss": 0.4013, + "step": 3485 + }, + { + "epoch": 0.9296, + "grad_norm": 2.56235673326509, + "learning_rate": 6.27816686126087e-08, + "loss": 0.3613, + "step": 3486 + }, + { + "epoch": 0.9298666666666666, + "grad_norm": 2.76051848927449, + "learning_rate": 6.230893258639597e-08, + "loss": 0.4134, + "step": 3487 + }, + { + "epoch": 0.9301333333333334, + "grad_norm": 2.4983606332299138, + "learning_rate": 6.18379606462502e-08, + "loss": 0.3788, + "step": 3488 + }, + { + "epoch": 0.9304, + "grad_norm": 2.387748908536571, + "learning_rate": 6.136875313299983e-08, + "loss": 0.3878, + "step": 3489 + }, + { + "epoch": 0.9306666666666666, + "grad_norm": 2.529213017836541, + "learning_rate": 6.090131038619662e-08, + "loss": 0.3557, + "step": 3490 + }, + { + "epoch": 0.9309333333333333, + "grad_norm": 2.967960833527445, + "learning_rate": 6.043563274411606e-08, + "loss": 0.4228, + "step": 3491 + }, + { + "epoch": 0.9312, + "grad_norm": 2.758488638663761, + "learning_rate": 5.997172054375417e-08, + "loss": 0.3874, + "step": 3492 + }, + { + "epoch": 0.9314666666666667, + "grad_norm": 2.6011313996101135, + "learning_rate": 5.9509574120831524e-08, + "loss": 0.3875, + "step": 3493 + }, + { + "epoch": 0.9317333333333333, + "grad_norm": 2.526990720938518, + "learning_rate": 5.9049193809790073e-08, + "loss": 0.3834, + "step": 3494 + }, + { + "epoch": 0.932, + "grad_norm": 2.265408261916482, + "learning_rate": 5.859057994379358e-08, + "loss": 0.3319, + "step": 3495 + }, + { + "epoch": 0.9322666666666667, + "grad_norm": 2.4260163819313876, + "learning_rate": 5.81337328547274e-08, + "loss": 0.3525, + "step": 3496 + }, + { + "epoch": 0.9325333333333333, + "grad_norm": 2.7099420887296475, + "learning_rate": 5.7678652873198184e-08, + "loss": 0.4024, + "step": 3497 + }, + { + "epoch": 0.9328, + "grad_norm": 2.5684076577443458, + "learning_rate": 5.7225340328535e-08, + "loss": 0.3919, + "step": 3498 + }, + { + "epoch": 0.9330666666666667, + "grad_norm": 2.597777133154891, + "learning_rate": 5.6773795548785705e-08, + "loss": 0.3856, + "step": 3499 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 2.79589455937171, + "learning_rate": 5.632401886072114e-08, + "loss": 0.437, + "step": 3500 + }, + { + "epoch": 0.9336, + "grad_norm": 2.6906090145247097, + "learning_rate": 5.58760105898315e-08, + "loss": 0.4175, + "step": 3501 + }, + { + "epoch": 0.9338666666666666, + "grad_norm": 2.4448463575094967, + "learning_rate": 5.54297710603266e-08, + "loss": 0.3837, + "step": 3502 + }, + { + "epoch": 0.9341333333333334, + "grad_norm": 2.8513827252225434, + "learning_rate": 5.4985300595137844e-08, + "loss": 0.4026, + "step": 3503 + }, + { + "epoch": 0.9344, + "grad_norm": 2.849224293494483, + "learning_rate": 5.454259951591489e-08, + "loss": 0.3948, + "step": 3504 + }, + { + "epoch": 0.9346666666666666, + "grad_norm": 2.5350827895482184, + "learning_rate": 5.410166814302814e-08, + "loss": 0.3972, + "step": 3505 + }, + { + "epoch": 0.9349333333333333, + "grad_norm": 2.52152727939573, + "learning_rate": 5.366250679556623e-08, + "loss": 0.3743, + "step": 3506 + }, + { + "epoch": 0.9352, + "grad_norm": 2.7432756228897586, + "learning_rate": 5.322511579133826e-08, + "loss": 0.4383, + "step": 3507 + }, + { + "epoch": 0.9354666666666667, + "grad_norm": 3.30667210798587, + "learning_rate": 5.278949544687023e-08, + "loss": 0.5007, + "step": 3508 + }, + { + "epoch": 0.9357333333333333, + "grad_norm": 2.6818935204694427, + "learning_rate": 5.235564607740912e-08, + "loss": 0.4296, + "step": 3509 + }, + { + "epoch": 0.936, + "grad_norm": 2.483357539450612, + "learning_rate": 5.19235679969185e-08, + "loss": 0.3129, + "step": 3510 + }, + { + "epoch": 0.9362666666666667, + "grad_norm": 2.4808157202379117, + "learning_rate": 5.1493261518080486e-08, + "loss": 0.4148, + "step": 3511 + }, + { + "epoch": 0.9365333333333333, + "grad_norm": 2.7475254864039864, + "learning_rate": 5.1064726952295697e-08, + "loss": 0.4831, + "step": 3512 + }, + { + "epoch": 0.9368, + "grad_norm": 3.147850733379495, + "learning_rate": 5.06379646096819e-08, + "loss": 0.438, + "step": 3513 + }, + { + "epoch": 0.9370666666666667, + "grad_norm": 2.613731743025861, + "learning_rate": 5.021297479907511e-08, + "loss": 0.4102, + "step": 3514 + }, + { + "epoch": 0.9373333333333334, + "grad_norm": 2.7142094260277467, + "learning_rate": 4.9789757828027086e-08, + "loss": 0.412, + "step": 3515 + }, + { + "epoch": 0.9376, + "grad_norm": 2.584430348731399, + "learning_rate": 4.936831400280867e-08, + "loss": 0.4082, + "step": 3516 + }, + { + "epoch": 0.9378666666666666, + "grad_norm": 2.431962040197288, + "learning_rate": 4.89486436284059e-08, + "loss": 0.3556, + "step": 3517 + }, + { + "epoch": 0.9381333333333334, + "grad_norm": 2.73954023952469, + "learning_rate": 4.8530747008522225e-08, + "loss": 0.408, + "step": 3518 + }, + { + "epoch": 0.9384, + "grad_norm": 2.694715052980313, + "learning_rate": 4.811462444557713e-08, + "loss": 0.4088, + "step": 3519 + }, + { + "epoch": 0.9386666666666666, + "grad_norm": 2.3743808119759953, + "learning_rate": 4.770027624070639e-08, + "loss": 0.3618, + "step": 3520 + }, + { + "epoch": 0.9389333333333333, + "grad_norm": 2.688037677899341, + "learning_rate": 4.7287702693761817e-08, + "loss": 0.3861, + "step": 3521 + }, + { + "epoch": 0.9392, + "grad_norm": 2.6440097762669827, + "learning_rate": 4.6876904103310973e-08, + "loss": 0.3766, + "step": 3522 + }, + { + "epoch": 0.9394666666666667, + "grad_norm": 2.6554018557477694, + "learning_rate": 4.6467880766636886e-08, + "loss": 0.4088, + "step": 3523 + }, + { + "epoch": 0.9397333333333333, + "grad_norm": 2.7800349420179407, + "learning_rate": 4.6060632979737506e-08, + "loss": 0.4562, + "step": 3524 + }, + { + "epoch": 0.94, + "grad_norm": 2.731552335299105, + "learning_rate": 4.5655161037326256e-08, + "loss": 0.4082, + "step": 3525 + }, + { + "epoch": 0.9402666666666667, + "grad_norm": 2.7018000938516757, + "learning_rate": 4.525146523283147e-08, + "loss": 0.3655, + "step": 3526 + }, + { + "epoch": 0.9405333333333333, + "grad_norm": 2.4991761899371987, + "learning_rate": 4.484954585839668e-08, + "loss": 0.3496, + "step": 3527 + }, + { + "epoch": 0.9408, + "grad_norm": 2.6089104041006492, + "learning_rate": 4.444940320487784e-08, + "loss": 0.374, + "step": 3528 + }, + { + "epoch": 0.9410666666666667, + "grad_norm": 2.562748701125774, + "learning_rate": 4.405103756184775e-08, + "loss": 0.3868, + "step": 3529 + }, + { + "epoch": 0.9413333333333334, + "grad_norm": 2.4422018904046023, + "learning_rate": 4.3654449217591656e-08, + "loss": 0.3797, + "step": 3530 + }, + { + "epoch": 0.9416, + "grad_norm": 2.830603140975244, + "learning_rate": 4.325963845910913e-08, + "loss": 0.441, + "step": 3531 + }, + { + "epoch": 0.9418666666666666, + "grad_norm": 2.8760333976602723, + "learning_rate": 4.286660557211275e-08, + "loss": 0.3979, + "step": 3532 + }, + { + "epoch": 0.9421333333333334, + "grad_norm": 2.443509106990942, + "learning_rate": 4.247535084102916e-08, + "loss": 0.3969, + "step": 3533 + }, + { + "epoch": 0.9424, + "grad_norm": 2.9041088745308543, + "learning_rate": 4.2085874548998816e-08, + "loss": 0.4558, + "step": 3534 + }, + { + "epoch": 0.9426666666666667, + "grad_norm": 2.81021974520016, + "learning_rate": 4.1698176977872926e-08, + "loss": 0.4627, + "step": 3535 + }, + { + "epoch": 0.9429333333333333, + "grad_norm": 2.91555006318277, + "learning_rate": 4.1312258408218174e-08, + "loss": 0.4121, + "step": 3536 + }, + { + "epoch": 0.9432, + "grad_norm": 2.6167236655453348, + "learning_rate": 4.092811911931199e-08, + "loss": 0.3839, + "step": 3537 + }, + { + "epoch": 0.9434666666666667, + "grad_norm": 2.9654545109487174, + "learning_rate": 4.0545759389145065e-08, + "loss": 0.4444, + "step": 3538 + }, + { + "epoch": 0.9437333333333333, + "grad_norm": 2.460211189099431, + "learning_rate": 4.016517949441995e-08, + "loss": 0.42, + "step": 3539 + }, + { + "epoch": 0.944, + "grad_norm": 2.4217900192465516, + "learning_rate": 3.9786379710551046e-08, + "loss": 0.3949, + "step": 3540 + }, + { + "epoch": 0.9442666666666667, + "grad_norm": 4.188016039028772, + "learning_rate": 3.940936031166492e-08, + "loss": 0.4628, + "step": 3541 + }, + { + "epoch": 0.9445333333333333, + "grad_norm": 3.2323993543594884, + "learning_rate": 3.903412157059916e-08, + "loss": 0.4774, + "step": 3542 + }, + { + "epoch": 0.9448, + "grad_norm": 3.1386982751614143, + "learning_rate": 3.866066375890404e-08, + "loss": 0.4552, + "step": 3543 + }, + { + "epoch": 0.9450666666666667, + "grad_norm": 3.0698475548499866, + "learning_rate": 3.828898714683893e-08, + "loss": 0.4409, + "step": 3544 + }, + { + "epoch": 0.9453333333333334, + "grad_norm": 2.8499645233368636, + "learning_rate": 3.791909200337618e-08, + "loss": 0.4243, + "step": 3545 + }, + { + "epoch": 0.9456, + "grad_norm": 3.103431491781728, + "learning_rate": 3.75509785961975e-08, + "loss": 0.399, + "step": 3546 + }, + { + "epoch": 0.9458666666666666, + "grad_norm": 2.974620680435709, + "learning_rate": 3.718464719169701e-08, + "loss": 0.4405, + "step": 3547 + }, + { + "epoch": 0.9461333333333334, + "grad_norm": 2.5965490099613793, + "learning_rate": 3.6820098054976825e-08, + "loss": 0.4052, + "step": 3548 + }, + { + "epoch": 0.9464, + "grad_norm": 2.244068274494723, + "learning_rate": 3.6457331449851194e-08, + "loss": 0.3602, + "step": 3549 + }, + { + "epoch": 0.9466666666666667, + "grad_norm": 2.5603168782878245, + "learning_rate": 3.6096347638843455e-08, + "loss": 0.3857, + "step": 3550 + }, + { + "epoch": 0.9469333333333333, + "grad_norm": 2.390944421008176, + "learning_rate": 3.5737146883187415e-08, + "loss": 0.3442, + "step": 3551 + }, + { + "epoch": 0.9472, + "grad_norm": 2.5181936305676706, + "learning_rate": 3.537972944282597e-08, + "loss": 0.4011, + "step": 3552 + }, + { + "epoch": 0.9474666666666667, + "grad_norm": 2.7249424719220032, + "learning_rate": 3.5024095576411675e-08, + "loss": 0.4159, + "step": 3553 + }, + { + "epoch": 0.9477333333333333, + "grad_norm": 2.7901473501148377, + "learning_rate": 3.4670245541306716e-08, + "loss": 0.4324, + "step": 3554 + }, + { + "epoch": 0.948, + "grad_norm": 2.536619242901851, + "learning_rate": 3.431817959358152e-08, + "loss": 0.366, + "step": 3555 + }, + { + "epoch": 0.9482666666666667, + "grad_norm": 2.778767344082939, + "learning_rate": 3.396789798801647e-08, + "loss": 0.4314, + "step": 3556 + }, + { + "epoch": 0.9485333333333333, + "grad_norm": 2.650223941834241, + "learning_rate": 3.36194009780999e-08, + "loss": 0.3978, + "step": 3557 + }, + { + "epoch": 0.9488, + "grad_norm": 2.4679137164102403, + "learning_rate": 3.327268881602924e-08, + "loss": 0.3662, + "step": 3558 + }, + { + "epoch": 0.9490666666666666, + "grad_norm": 2.388868948333549, + "learning_rate": 3.292776175270962e-08, + "loss": 0.3393, + "step": 3559 + }, + { + "epoch": 0.9493333333333334, + "grad_norm": 2.5238553025838253, + "learning_rate": 3.258462003775498e-08, + "loss": 0.3802, + "step": 3560 + }, + { + "epoch": 0.9496, + "grad_norm": 2.6217591812389385, + "learning_rate": 3.224326391948668e-08, + "loss": 0.3848, + "step": 3561 + }, + { + "epoch": 0.9498666666666666, + "grad_norm": 2.6900662558378317, + "learning_rate": 3.190369364493462e-08, + "loss": 0.4007, + "step": 3562 + }, + { + "epoch": 0.9501333333333334, + "grad_norm": 3.022265643654705, + "learning_rate": 3.1565909459835844e-08, + "loss": 0.4789, + "step": 3563 + }, + { + "epoch": 0.9504, + "grad_norm": 2.9972209200813333, + "learning_rate": 3.1229911608634535e-08, + "loss": 0.4153, + "step": 3564 + }, + { + "epoch": 0.9506666666666667, + "grad_norm": 2.748641489315122, + "learning_rate": 3.089570033448286e-08, + "loss": 0.3879, + "step": 3565 + }, + { + "epoch": 0.9509333333333333, + "grad_norm": 2.553944940506227, + "learning_rate": 3.056327587923985e-08, + "loss": 0.4069, + "step": 3566 + }, + { + "epoch": 0.9512, + "grad_norm": 2.62511887644279, + "learning_rate": 3.023263848347141e-08, + "loss": 0.3759, + "step": 3567 + }, + { + "epoch": 0.9514666666666667, + "grad_norm": 2.4349140115587637, + "learning_rate": 2.990378838645003e-08, + "loss": 0.3322, + "step": 3568 + }, + { + "epoch": 0.9517333333333333, + "grad_norm": 3.0008154865237735, + "learning_rate": 2.9576725826155063e-08, + "loss": 0.4407, + "step": 3569 + }, + { + "epoch": 0.952, + "grad_norm": 3.0507481497298072, + "learning_rate": 2.9251451039272183e-08, + "loss": 0.4413, + "step": 3570 + }, + { + "epoch": 0.9522666666666667, + "grad_norm": 2.30170497465666, + "learning_rate": 2.892796426119282e-08, + "loss": 0.3312, + "step": 3571 + }, + { + "epoch": 0.9525333333333333, + "grad_norm": 2.5810805844408815, + "learning_rate": 2.8606265726015825e-08, + "loss": 0.3666, + "step": 3572 + }, + { + "epoch": 0.9528, + "grad_norm": 2.6485006922742778, + "learning_rate": 2.8286355666544417e-08, + "loss": 0.412, + "step": 3573 + }, + { + "epoch": 0.9530666666666666, + "grad_norm": 2.7597786198914065, + "learning_rate": 2.7968234314288413e-08, + "loss": 0.3905, + "step": 3574 + }, + { + "epoch": 0.9533333333333334, + "grad_norm": 2.589103519900476, + "learning_rate": 2.7651901899462818e-08, + "loss": 0.3786, + "step": 3575 + }, + { + "epoch": 0.9536, + "grad_norm": 2.883312384585019, + "learning_rate": 2.7337358650988687e-08, + "loss": 0.426, + "step": 3576 + }, + { + "epoch": 0.9538666666666666, + "grad_norm": 3.460702879198339, + "learning_rate": 2.7024604796490883e-08, + "loss": 0.5208, + "step": 3577 + }, + { + "epoch": 0.9541333333333334, + "grad_norm": 2.687687211373116, + "learning_rate": 2.6713640562301136e-08, + "loss": 0.4145, + "step": 3578 + }, + { + "epoch": 0.9544, + "grad_norm": 2.558298983393364, + "learning_rate": 2.640446617345499e-08, + "loss": 0.3684, + "step": 3579 + }, + { + "epoch": 0.9546666666666667, + "grad_norm": 2.858427850731316, + "learning_rate": 2.609708185369264e-08, + "loss": 0.4396, + "step": 3580 + }, + { + "epoch": 0.9549333333333333, + "grad_norm": 2.4676851412387504, + "learning_rate": 2.5791487825459483e-08, + "loss": 0.3928, + "step": 3581 + }, + { + "epoch": 0.9552, + "grad_norm": 2.495549059476647, + "learning_rate": 2.5487684309905005e-08, + "loss": 0.3869, + "step": 3582 + }, + { + "epoch": 0.9554666666666667, + "grad_norm": 2.5995109160094656, + "learning_rate": 2.5185671526882782e-08, + "loss": 0.3864, + "step": 3583 + }, + { + "epoch": 0.9557333333333333, + "grad_norm": 2.645572343276888, + "learning_rate": 2.488544969495077e-08, + "loss": 0.4221, + "step": 3584 + }, + { + "epoch": 0.956, + "grad_norm": 2.079628903806613, + "learning_rate": 2.458701903137073e-08, + "loss": 0.3096, + "step": 3585 + }, + { + "epoch": 0.9562666666666667, + "grad_norm": 2.245424431234214, + "learning_rate": 2.429037975210824e-08, + "loss": 0.3471, + "step": 3586 + }, + { + "epoch": 0.9565333333333333, + "grad_norm": 2.541356187555057, + "learning_rate": 2.3995532071832694e-08, + "loss": 0.383, + "step": 3587 + }, + { + "epoch": 0.9568, + "grad_norm": 2.8872736044943967, + "learning_rate": 2.3702476203916746e-08, + "loss": 0.4312, + "step": 3588 + }, + { + "epoch": 0.9570666666666666, + "grad_norm": 2.5252058399429953, + "learning_rate": 2.341121236043603e-08, + "loss": 0.3752, + "step": 3589 + }, + { + "epoch": 0.9573333333333334, + "grad_norm": 2.497246133617172, + "learning_rate": 2.3121740752170273e-08, + "loss": 0.4448, + "step": 3590 + }, + { + "epoch": 0.9576, + "grad_norm": 2.541316798993406, + "learning_rate": 2.2834061588600797e-08, + "loss": 0.3699, + "step": 3591 + }, + { + "epoch": 0.9578666666666666, + "grad_norm": 3.2514435780898783, + "learning_rate": 2.2548175077913847e-08, + "loss": 0.4182, + "step": 3592 + }, + { + "epoch": 0.9581333333333333, + "grad_norm": 2.9837026460259404, + "learning_rate": 2.2264081426996154e-08, + "loss": 0.4447, + "step": 3593 + }, + { + "epoch": 0.9584, + "grad_norm": 2.6157638585327296, + "learning_rate": 2.1981780841438537e-08, + "loss": 0.4402, + "step": 3594 + }, + { + "epoch": 0.9586666666666667, + "grad_norm": 2.730157352278339, + "learning_rate": 2.1701273525533417e-08, + "loss": 0.4136, + "step": 3595 + }, + { + "epoch": 0.9589333333333333, + "grad_norm": 3.3907173040400806, + "learning_rate": 2.142255968227619e-08, + "loss": 0.4062, + "step": 3596 + }, + { + "epoch": 0.9592, + "grad_norm": 3.0933563431059388, + "learning_rate": 2.1145639513363293e-08, + "loss": 0.4986, + "step": 3597 + }, + { + "epoch": 0.9594666666666667, + "grad_norm": 2.626161408702991, + "learning_rate": 2.087051321919442e-08, + "loss": 0.387, + "step": 3598 + }, + { + "epoch": 0.9597333333333333, + "grad_norm": 3.131452866694248, + "learning_rate": 2.0597180998870313e-08, + "loss": 0.4577, + "step": 3599 + }, + { + "epoch": 0.96, + "grad_norm": 3.0663741897703343, + "learning_rate": 2.03256430501933e-08, + "loss": 0.4514, + "step": 3600 + }, + { + "epoch": 0.9602666666666667, + "grad_norm": 2.3379985300628583, + "learning_rate": 2.005589956966758e-08, + "loss": 0.3442, + "step": 3601 + }, + { + "epoch": 0.9605333333333334, + "grad_norm": 2.375919010390897, + "learning_rate": 1.9787950752498676e-08, + "loss": 0.368, + "step": 3602 + }, + { + "epoch": 0.9608, + "grad_norm": 2.5520296359104506, + "learning_rate": 1.9521796792593695e-08, + "loss": 0.38, + "step": 3603 + }, + { + "epoch": 0.9610666666666666, + "grad_norm": 2.743424005727974, + "learning_rate": 1.925743788255996e-08, + "loss": 0.4119, + "step": 3604 + }, + { + "epoch": 0.9613333333333334, + "grad_norm": 2.6308999778328186, + "learning_rate": 1.899487421370666e-08, + "loss": 0.3928, + "step": 3605 + }, + { + "epoch": 0.9616, + "grad_norm": 2.4986363518122343, + "learning_rate": 1.8734105976043193e-08, + "loss": 0.342, + "step": 3606 + }, + { + "epoch": 0.9618666666666666, + "grad_norm": 2.670163668196974, + "learning_rate": 1.8475133358280273e-08, + "loss": 0.3821, + "step": 3607 + }, + { + "epoch": 0.9621333333333333, + "grad_norm": 2.7679187958291203, + "learning_rate": 1.821795654782882e-08, + "loss": 0.4158, + "step": 3608 + }, + { + "epoch": 0.9624, + "grad_norm": 2.9202983823307362, + "learning_rate": 1.796257573079996e-08, + "loss": 0.4303, + "step": 3609 + }, + { + "epoch": 0.9626666666666667, + "grad_norm": 2.896779982942162, + "learning_rate": 1.770899109200558e-08, + "loss": 0.4251, + "step": 3610 + }, + { + "epoch": 0.9629333333333333, + "grad_norm": 2.4528119830189348, + "learning_rate": 1.745720281495722e-08, + "loss": 0.3435, + "step": 3611 + }, + { + "epoch": 0.9632, + "grad_norm": 2.751236833707184, + "learning_rate": 1.720721108186718e-08, + "loss": 0.3993, + "step": 3612 + }, + { + "epoch": 0.9634666666666667, + "grad_norm": 2.7818600378446967, + "learning_rate": 1.6959016073646585e-08, + "loss": 0.4484, + "step": 3613 + }, + { + "epoch": 0.9637333333333333, + "grad_norm": 2.60616443094772, + "learning_rate": 1.6712617969907586e-08, + "loss": 0.4131, + "step": 3614 + }, + { + "epoch": 0.964, + "grad_norm": 2.9930127700850098, + "learning_rate": 1.6468016948960886e-08, + "loss": 0.3601, + "step": 3615 + }, + { + "epoch": 0.9642666666666667, + "grad_norm": 2.560932712364199, + "learning_rate": 1.622521318781739e-08, + "loss": 0.4002, + "step": 3616 + }, + { + "epoch": 0.9645333333333334, + "grad_norm": 2.45618318397649, + "learning_rate": 1.5984206862186825e-08, + "loss": 0.4041, + "step": 3617 + }, + { + "epoch": 0.9648, + "grad_norm": 2.7383178177152727, + "learning_rate": 1.574499814647884e-08, + "loss": 0.3998, + "step": 3618 + }, + { + "epoch": 0.9650666666666666, + "grad_norm": 3.001823962828929, + "learning_rate": 1.5507587213801356e-08, + "loss": 0.4573, + "step": 3619 + }, + { + "epoch": 0.9653333333333334, + "grad_norm": 2.9737819449008756, + "learning_rate": 1.527197423596194e-08, + "loss": 0.4427, + "step": 3620 + }, + { + "epoch": 0.9656, + "grad_norm": 2.258535342063506, + "learning_rate": 1.5038159383466976e-08, + "loss": 0.3149, + "step": 3621 + }, + { + "epoch": 0.9658666666666667, + "grad_norm": 2.6075591106563065, + "learning_rate": 1.4806142825521397e-08, + "loss": 0.3849, + "step": 3622 + }, + { + "epoch": 0.9661333333333333, + "grad_norm": 2.500157593761285, + "learning_rate": 1.4575924730028946e-08, + "loss": 0.3999, + "step": 3623 + }, + { + "epoch": 0.9664, + "grad_norm": 2.4595814543232946, + "learning_rate": 1.4347505263591354e-08, + "loss": 0.3798, + "step": 3624 + }, + { + "epoch": 0.9666666666666667, + "grad_norm": 2.6112277782482707, + "learning_rate": 1.4120884591509731e-08, + "loss": 0.3906, + "step": 3625 + }, + { + "epoch": 0.9669333333333333, + "grad_norm": 2.334783502741938, + "learning_rate": 1.3896062877782335e-08, + "loss": 0.3334, + "step": 3626 + }, + { + "epoch": 0.9672, + "grad_norm": 2.8591409834388464, + "learning_rate": 1.3673040285106243e-08, + "loss": 0.4493, + "step": 3627 + }, + { + "epoch": 0.9674666666666667, + "grad_norm": 2.5906665633471935, + "learning_rate": 1.3451816974876797e-08, + "loss": 0.4241, + "step": 3628 + }, + { + "epoch": 0.9677333333333333, + "grad_norm": 2.391084489332109, + "learning_rate": 1.3232393107186214e-08, + "loss": 0.3325, + "step": 3629 + }, + { + "epoch": 0.968, + "grad_norm": 2.3578945791678008, + "learning_rate": 1.301476884082553e-08, + "loss": 0.3396, + "step": 3630 + }, + { + "epoch": 0.9682666666666667, + "grad_norm": 2.2769133764454046, + "learning_rate": 1.2798944333283215e-08, + "loss": 0.3534, + "step": 3631 + }, + { + "epoch": 0.9685333333333334, + "grad_norm": 2.441507137985032, + "learning_rate": 1.2584919740744883e-08, + "loss": 0.3505, + "step": 3632 + }, + { + "epoch": 0.9688, + "grad_norm": 2.5339922316123373, + "learning_rate": 1.2372695218094144e-08, + "loss": 0.3454, + "step": 3633 + }, + { + "epoch": 0.9690666666666666, + "grad_norm": 2.3275817706031443, + "learning_rate": 1.2162270918911478e-08, + "loss": 0.3304, + "step": 3634 + }, + { + "epoch": 0.9693333333333334, + "grad_norm": 3.0345874660646457, + "learning_rate": 1.1953646995475076e-08, + "loss": 0.4143, + "step": 3635 + }, + { + "epoch": 0.9696, + "grad_norm": 2.5157489731630758, + "learning_rate": 1.1746823598759726e-08, + "loss": 0.3701, + "step": 3636 + }, + { + "epoch": 0.9698666666666667, + "grad_norm": 2.1862842771842264, + "learning_rate": 1.1541800878437925e-08, + "loss": 0.3457, + "step": 3637 + }, + { + "epoch": 0.9701333333333333, + "grad_norm": 2.5046672219681, + "learning_rate": 1.1338578982878213e-08, + "loss": 0.3801, + "step": 3638 + }, + { + "epoch": 0.9704, + "grad_norm": 2.6226410841290932, + "learning_rate": 1.1137158059146559e-08, + "loss": 0.3917, + "step": 3639 + }, + { + "epoch": 0.9706666666666667, + "grad_norm": 2.5419758606264384, + "learning_rate": 1.0937538253004976e-08, + "loss": 0.4015, + "step": 3640 + }, + { + "epoch": 0.9709333333333333, + "grad_norm": 2.4684808002032104, + "learning_rate": 1.0739719708913466e-08, + "loss": 0.344, + "step": 3641 + }, + { + "epoch": 0.9712, + "grad_norm": 2.7310209307367384, + "learning_rate": 1.0543702570026682e-08, + "loss": 0.4139, + "step": 3642 + }, + { + "epoch": 0.9714666666666667, + "grad_norm": 2.9285947210870935, + "learning_rate": 1.0349486978196987e-08, + "loss": 0.4607, + "step": 3643 + }, + { + "epoch": 0.9717333333333333, + "grad_norm": 3.0471708776548785, + "learning_rate": 1.0157073073972234e-08, + "loss": 0.4674, + "step": 3644 + }, + { + "epoch": 0.972, + "grad_norm": 2.904230669985872, + "learning_rate": 9.966460996597149e-09, + "loss": 0.4336, + "step": 3645 + }, + { + "epoch": 0.9722666666666666, + "grad_norm": 2.848900495714319, + "learning_rate": 9.777650884011669e-09, + "loss": 0.4229, + "step": 3646 + }, + { + "epoch": 0.9725333333333334, + "grad_norm": 3.000860142498328, + "learning_rate": 9.590642872852607e-09, + "loss": 0.4196, + "step": 3647 + }, + { + "epoch": 0.9728, + "grad_norm": 2.510482231333724, + "learning_rate": 9.405437098451985e-09, + "loss": 0.3563, + "step": 3648 + }, + { + "epoch": 0.9730666666666666, + "grad_norm": 2.591547991172249, + "learning_rate": 9.222033694837872e-09, + "loss": 0.4076, + "step": 3649 + }, + { + "epoch": 0.9733333333333334, + "grad_norm": 2.786829276950838, + "learning_rate": 9.0404327947341e-09, + "loss": 0.3939, + "step": 3650 + }, + { + "epoch": 0.9736, + "grad_norm": 2.5272076039558877, + "learning_rate": 8.860634529559708e-09, + "loss": 0.3757, + "step": 3651 + }, + { + "epoch": 0.9738666666666667, + "grad_norm": 2.215401993536567, + "learning_rate": 8.682639029429784e-09, + "loss": 0.3337, + "step": 3652 + }, + { + "epoch": 0.9741333333333333, + "grad_norm": 2.561378777758312, + "learning_rate": 8.50644642315407e-09, + "loss": 0.4023, + "step": 3653 + }, + { + "epoch": 0.9744, + "grad_norm": 2.287779115524206, + "learning_rate": 8.332056838238344e-09, + "loss": 0.3488, + "step": 3654 + }, + { + "epoch": 0.9746666666666667, + "grad_norm": 2.9486470591776097, + "learning_rate": 8.15947040088333e-09, + "loss": 0.4185, + "step": 3655 + }, + { + "epoch": 0.9749333333333333, + "grad_norm": 2.752952880088581, + "learning_rate": 7.988687235984394e-09, + "loss": 0.4181, + "step": 3656 + }, + { + "epoch": 0.9752, + "grad_norm": 2.6305667360538507, + "learning_rate": 7.819707467132954e-09, + "loss": 0.4217, + "step": 3657 + }, + { + "epoch": 0.9754666666666667, + "grad_norm": 2.8636296242834507, + "learning_rate": 7.652531216614245e-09, + "loss": 0.3985, + "step": 3658 + }, + { + "epoch": 0.9757333333333333, + "grad_norm": 2.928734057716164, + "learning_rate": 7.487158605408996e-09, + "loss": 0.4205, + "step": 3659 + }, + { + "epoch": 0.976, + "grad_norm": 2.9216581029601225, + "learning_rate": 7.323589753192584e-09, + "loss": 0.4716, + "step": 3660 + }, + { + "epoch": 0.9762666666666666, + "grad_norm": 2.4521911940521397, + "learning_rate": 7.161824778335047e-09, + "loss": 0.3854, + "step": 3661 + }, + { + "epoch": 0.9765333333333334, + "grad_norm": 2.534250692745915, + "learning_rate": 7.001863797901076e-09, + "loss": 0.3884, + "step": 3662 + }, + { + "epoch": 0.9768, + "grad_norm": 2.7002574910558654, + "learning_rate": 6.843706927649462e-09, + "loss": 0.3963, + "step": 3663 + }, + { + "epoch": 0.9770666666666666, + "grad_norm": 2.5581559547874213, + "learning_rate": 6.687354282033931e-09, + "loss": 0.3949, + "step": 3664 + }, + { + "epoch": 0.9773333333333334, + "grad_norm": 2.455892002952352, + "learning_rate": 6.532805974202583e-09, + "loss": 0.3668, + "step": 3665 + }, + { + "epoch": 0.9776, + "grad_norm": 3.0358431089730087, + "learning_rate": 6.380062115997066e-09, + "loss": 0.5026, + "step": 3666 + }, + { + "epoch": 0.9778666666666667, + "grad_norm": 3.5574504221720358, + "learning_rate": 6.229122817953959e-09, + "loss": 0.5412, + "step": 3667 + }, + { + "epoch": 0.9781333333333333, + "grad_norm": 2.504434291927375, + "learning_rate": 6.079988189303665e-09, + "loss": 0.3841, + "step": 3668 + }, + { + "epoch": 0.9784, + "grad_norm": 2.7441477877403315, + "learning_rate": 5.9326583379701316e-09, + "loss": 0.4022, + "step": 3669 + }, + { + "epoch": 0.9786666666666667, + "grad_norm": 2.6191878050475337, + "learning_rate": 5.78713337057224e-09, + "loss": 0.3987, + "step": 3670 + }, + { + "epoch": 0.9789333333333333, + "grad_norm": 2.5845675033137443, + "learning_rate": 5.643413392421859e-09, + "loss": 0.3838, + "step": 3671 + }, + { + "epoch": 0.9792, + "grad_norm": 2.9130359453268806, + "learning_rate": 5.5014985075252384e-09, + "loss": 0.4444, + "step": 3672 + }, + { + "epoch": 0.9794666666666667, + "grad_norm": 2.773265838138167, + "learning_rate": 5.361388818581892e-09, + "loss": 0.3978, + "step": 3673 + }, + { + "epoch": 0.9797333333333333, + "grad_norm": 2.674837228546706, + "learning_rate": 5.223084426984881e-09, + "loss": 0.4317, + "step": 3674 + }, + { + "epoch": 0.98, + "grad_norm": 3.585218872591551, + "learning_rate": 5.086585432821367e-09, + "loss": 0.4461, + "step": 3675 + }, + { + "epoch": 0.9802666666666666, + "grad_norm": 2.702632414355289, + "learning_rate": 4.9518919348715e-09, + "loss": 0.4213, + "step": 3676 + }, + { + "epoch": 0.9805333333333334, + "grad_norm": 2.5258357989302547, + "learning_rate": 4.819004030609531e-09, + "loss": 0.3893, + "step": 3677 + }, + { + "epoch": 0.9808, + "grad_norm": 2.291380428992264, + "learning_rate": 4.687921816201868e-09, + "loss": 0.3772, + "step": 3678 + }, + { + "epoch": 0.9810666666666666, + "grad_norm": 2.441480828326725, + "learning_rate": 4.558645386509297e-09, + "loss": 0.3692, + "step": 3679 + }, + { + "epoch": 0.9813333333333333, + "grad_norm": 2.7611910022386796, + "learning_rate": 4.431174835085317e-09, + "loss": 0.419, + "step": 3680 + }, + { + "epoch": 0.9816, + "grad_norm": 2.962621664257772, + "learning_rate": 4.305510254176692e-09, + "loss": 0.4424, + "step": 3681 + }, + { + "epoch": 0.9818666666666667, + "grad_norm": 3.1700626332121917, + "learning_rate": 4.181651734722903e-09, + "loss": 0.4358, + "step": 3682 + }, + { + "epoch": 0.9821333333333333, + "grad_norm": 2.5054422202957287, + "learning_rate": 4.059599366357525e-09, + "loss": 0.3578, + "step": 3683 + }, + { + "epoch": 0.9824, + "grad_norm": 2.6289468771216815, + "learning_rate": 3.939353237405464e-09, + "loss": 0.3655, + "step": 3684 + }, + { + "epoch": 0.9826666666666667, + "grad_norm": 2.7984813175440753, + "learning_rate": 3.820913434885998e-09, + "loss": 0.423, + "step": 3685 + }, + { + "epoch": 0.9829333333333333, + "grad_norm": 2.8166781397418763, + "learning_rate": 3.7042800445100113e-09, + "loss": 0.396, + "step": 3686 + }, + { + "epoch": 0.9832, + "grad_norm": 2.7930127120699715, + "learning_rate": 3.5894531506822094e-09, + "loss": 0.4065, + "step": 3687 + }, + { + "epoch": 0.9834666666666667, + "grad_norm": 2.8651533879096607, + "learning_rate": 3.4764328364988997e-09, + "loss": 0.4786, + "step": 3688 + }, + { + "epoch": 0.9837333333333333, + "grad_norm": 2.423862047452282, + "learning_rate": 3.3652191837502125e-09, + "loss": 0.3729, + "step": 3689 + }, + { + "epoch": 0.984, + "grad_norm": 2.7144165470673274, + "learning_rate": 3.2558122729178797e-09, + "loss": 0.4105, + "step": 3690 + }, + { + "epoch": 0.9842666666666666, + "grad_norm": 2.553387476002619, + "learning_rate": 3.1482121831763467e-09, + "loss": 0.3699, + "step": 3691 + }, + { + "epoch": 0.9845333333333334, + "grad_norm": 2.783322236192133, + "learning_rate": 3.042418992393048e-09, + "loss": 0.4121, + "step": 3692 + }, + { + "epoch": 0.9848, + "grad_norm": 2.2913131295286235, + "learning_rate": 2.9384327771270203e-09, + "loss": 0.329, + "step": 3693 + }, + { + "epoch": 0.9850666666666666, + "grad_norm": 2.531720574779831, + "learning_rate": 2.8362536126305685e-09, + "loss": 0.3729, + "step": 3694 + }, + { + "epoch": 0.9853333333333333, + "grad_norm": 3.0309324627716476, + "learning_rate": 2.7358815728473207e-09, + "loss": 0.4247, + "step": 3695 + }, + { + "epoch": 0.9856, + "grad_norm": 2.7215596446461436, + "learning_rate": 2.637316730413897e-09, + "loss": 0.3964, + "step": 3696 + }, + { + "epoch": 0.9858666666666667, + "grad_norm": 2.4603487879351693, + "learning_rate": 2.540559156658795e-09, + "loss": 0.3697, + "step": 3697 + }, + { + "epoch": 0.9861333333333333, + "grad_norm": 2.522658070927107, + "learning_rate": 2.4456089216023935e-09, + "loss": 0.3516, + "step": 3698 + }, + { + "epoch": 0.9864, + "grad_norm": 2.724312152219829, + "learning_rate": 2.3524660939577838e-09, + "loss": 0.408, + "step": 3699 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 2.4077052603210354, + "learning_rate": 2.2611307411291028e-09, + "loss": 0.3921, + "step": 3700 + }, + { + "epoch": 0.9869333333333333, + "grad_norm": 2.645787745813466, + "learning_rate": 2.1716029292137564e-09, + "loss": 0.3978, + "step": 3701 + }, + { + "epoch": 0.9872, + "grad_norm": 2.5569767815919313, + "learning_rate": 2.0838827230001967e-09, + "loss": 0.3966, + "step": 3702 + }, + { + "epoch": 0.9874666666666667, + "grad_norm": 2.319510455577243, + "learning_rate": 1.9979701859690336e-09, + "loss": 0.3406, + "step": 3703 + }, + { + "epoch": 0.9877333333333334, + "grad_norm": 2.4308892947726175, + "learning_rate": 1.913865380292479e-09, + "loss": 0.3512, + "step": 3704 + }, + { + "epoch": 0.988, + "grad_norm": 2.66878621922538, + "learning_rate": 1.8315683668346241e-09, + "loss": 0.3971, + "step": 3705 + }, + { + "epoch": 0.9882666666666666, + "grad_norm": 2.622027094678921, + "learning_rate": 1.7510792051517177e-09, + "loss": 0.3744, + "step": 3706 + }, + { + "epoch": 0.9885333333333334, + "grad_norm": 2.887316822874402, + "learning_rate": 1.6723979534916114e-09, + "loss": 0.4302, + "step": 3707 + }, + { + "epoch": 0.9888, + "grad_norm": 2.6022318963975852, + "learning_rate": 1.595524668792925e-09, + "loss": 0.426, + "step": 3708 + }, + { + "epoch": 0.9890666666666666, + "grad_norm": 2.97674644178224, + "learning_rate": 1.520459406687269e-09, + "loss": 0.3913, + "step": 3709 + }, + { + "epoch": 0.9893333333333333, + "grad_norm": 2.403698081837509, + "learning_rate": 1.447202221497024e-09, + "loss": 0.36, + "step": 3710 + }, + { + "epoch": 0.9896, + "grad_norm": 3.097506988041782, + "learning_rate": 1.3757531662361712e-09, + "loss": 0.4514, + "step": 3711 + }, + { + "epoch": 0.9898666666666667, + "grad_norm": 2.772634068731315, + "learning_rate": 1.3061122926102954e-09, + "loss": 0.43, + "step": 3712 + }, + { + "epoch": 0.9901333333333333, + "grad_norm": 2.6250139618570714, + "learning_rate": 1.2382796510168604e-09, + "loss": 0.4079, + "step": 3713 + }, + { + "epoch": 0.9904, + "grad_norm": 2.2069437690803224, + "learning_rate": 1.1722552905438222e-09, + "loss": 0.3105, + "step": 3714 + }, + { + "epoch": 0.9906666666666667, + "grad_norm": 2.471469796315984, + "learning_rate": 1.108039258971294e-09, + "loss": 0.4103, + "step": 3715 + }, + { + "epoch": 0.9909333333333333, + "grad_norm": 2.242845946259748, + "learning_rate": 1.045631602770436e-09, + "loss": 0.3419, + "step": 3716 + }, + { + "epoch": 0.9912, + "grad_norm": 2.5752283930604367, + "learning_rate": 9.850323671042883e-10, + "loss": 0.3663, + "step": 3717 + }, + { + "epoch": 0.9914666666666667, + "grad_norm": 2.879328751629154, + "learning_rate": 9.262415958263827e-10, + "loss": 0.3808, + "step": 3718 + }, + { + "epoch": 0.9917333333333334, + "grad_norm": 2.4709086123751014, + "learning_rate": 8.692593314818532e-10, + "loss": 0.3473, + "step": 3719 + }, + { + "epoch": 0.992, + "grad_norm": 2.6181906576491136, + "learning_rate": 8.140856153071586e-10, + "loss": 0.3846, + "step": 3720 + }, + { + "epoch": 0.9922666666666666, + "grad_norm": 2.815158337123703, + "learning_rate": 7.607204872300822e-10, + "loss": 0.4461, + "step": 3721 + }, + { + "epoch": 0.9925333333333334, + "grad_norm": 2.8645292882193534, + "learning_rate": 7.091639858694543e-10, + "loss": 0.4371, + "step": 3722 + }, + { + "epoch": 0.9928, + "grad_norm": 3.163913859274481, + "learning_rate": 6.594161485348749e-10, + "loss": 0.3979, + "step": 3723 + }, + { + "epoch": 0.9930666666666667, + "grad_norm": 3.3177698437390557, + "learning_rate": 6.114770112275459e-10, + "loss": 0.4634, + "step": 3724 + }, + { + "epoch": 0.9933333333333333, + "grad_norm": 3.405225652635982, + "learning_rate": 5.653466086399939e-10, + "loss": 0.4718, + "step": 3725 + }, + { + "epoch": 0.9936, + "grad_norm": 2.3778098462074073, + "learning_rate": 5.210249741546825e-10, + "loss": 0.3718, + "step": 3726 + }, + { + "epoch": 0.9938666666666667, + "grad_norm": 2.8606206489181636, + "learning_rate": 4.785121398467874e-10, + "loss": 0.4315, + "step": 3727 + }, + { + "epoch": 0.9941333333333333, + "grad_norm": 2.71364620412422, + "learning_rate": 4.3780813648086617e-10, + "loss": 0.3901, + "step": 3728 + }, + { + "epoch": 0.9944, + "grad_norm": 2.6396540998433604, + "learning_rate": 3.9891299351363375e-10, + "loss": 0.3471, + "step": 3729 + }, + { + "epoch": 0.9946666666666667, + "grad_norm": 2.685183060161541, + "learning_rate": 3.618267390920194e-10, + "loss": 0.4504, + "step": 3730 + }, + { + "epoch": 0.9949333333333333, + "grad_norm": 2.8706060238733473, + "learning_rate": 3.2654940005483193e-10, + "loss": 0.4188, + "step": 3731 + }, + { + "epoch": 0.9952, + "grad_norm": 3.0698366353774658, + "learning_rate": 2.9308100193053966e-10, + "loss": 0.4166, + "step": 3732 + }, + { + "epoch": 0.9954666666666667, + "grad_norm": 2.52540524945966, + "learning_rate": 2.6142156894004567e-10, + "loss": 0.3848, + "step": 3733 + }, + { + "epoch": 0.9957333333333334, + "grad_norm": 2.669592457394617, + "learning_rate": 2.3157112399363467e-10, + "loss": 0.3898, + "step": 3734 + }, + { + "epoch": 0.996, + "grad_norm": 2.4893870196031846, + "learning_rate": 2.0352968869374877e-10, + "loss": 0.3855, + "step": 3735 + }, + { + "epoch": 0.9962666666666666, + "grad_norm": 2.6186679208187877, + "learning_rate": 1.7729728333276686e-10, + "loss": 0.4102, + "step": 3736 + }, + { + "epoch": 0.9965333333333334, + "grad_norm": 2.5829254311720704, + "learning_rate": 1.528739268943924e-10, + "loss": 0.4217, + "step": 3737 + }, + { + "epoch": 0.9968, + "grad_norm": 2.1419484445506667, + "learning_rate": 1.3025963705337596e-10, + "loss": 0.3307, + "step": 3738 + }, + { + "epoch": 0.9970666666666667, + "grad_norm": 2.604272826007305, + "learning_rate": 1.094544301746825e-10, + "loss": 0.4022, + "step": 3739 + }, + { + "epoch": 0.9973333333333333, + "grad_norm": 2.6994140460947316, + "learning_rate": 9.045832131460152e-11, + "loss": 0.3946, + "step": 3740 + }, + { + "epoch": 0.9976, + "grad_norm": 2.953457056015797, + "learning_rate": 7.327132422019212e-11, + "loss": 0.4486, + "step": 3741 + }, + { + "epoch": 0.9978666666666667, + "grad_norm": 2.6341193451518503, + "learning_rate": 5.7893451328727703e-11, + "loss": 0.4342, + "step": 3742 + }, + { + "epoch": 0.9981333333333333, + "grad_norm": 3.0776591562423143, + "learning_rate": 4.4324713769361426e-11, + "loss": 0.3895, + "step": 3743 + }, + { + "epoch": 0.9984, + "grad_norm": 2.9152434126767903, + "learning_rate": 3.256512136062817e-11, + "loss": 0.3985, + "step": 3744 + }, + { + "epoch": 0.9986666666666667, + "grad_norm": 2.5938126257158887, + "learning_rate": 2.261468261349764e-11, + "loss": 0.378, + "step": 3745 + }, + { + "epoch": 0.9989333333333333, + "grad_norm": 2.410966789666778, + "learning_rate": 1.4473404728043704e-11, + "loss": 0.3465, + "step": 3746 + }, + { + "epoch": 0.9992, + "grad_norm": 2.8121442079307553, + "learning_rate": 8.141293596219957e-12, + "loss": 0.4019, + "step": 3747 + }, + { + "epoch": 0.9994666666666666, + "grad_norm": 2.811937136461409, + "learning_rate": 3.61835380047193e-12, + "loss": 0.3982, + "step": 3748 + }, + { + "epoch": 0.9997333333333334, + "grad_norm": 2.956444785935936, + "learning_rate": 9.045886137371007e-13, + "loss": 0.4205, + "step": 3749 + }, + { + "epoch": 1.0, + "grad_norm": 2.930016200517855, + "learning_rate": 0.0, + "loss": 0.4348, + "step": 3750 + }, + { + "epoch": 1.0, + "step": 3750, + "total_flos": 3318691213279232.0, + "train_loss": 0.4443156658411026, + "train_runtime": 19677.6476, + "train_samples_per_second": 4.574, + "train_steps_per_second": 0.191 + } + ], + "logging_steps": 1, + "max_steps": 3750, + "num_input_tokens_seen": 0, + "num_train_epochs": 1, + "save_steps": 800, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 3318691213279232.0, + "train_batch_size": 1, + "trial_name": null, + "trial_params": null +}