{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9992505620784412,
  "eval_steps": 500,
  "global_step": 1250,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0007994004496627529,
      "grad_norm": 29.08027928947176,
      "learning_rate": 0.0,
      "loss": 1.7209,
      "step": 1
    },
    {
      "epoch": 0.0015988008993255058,
      "grad_norm": 9.836200747540412,
      "learning_rate": 2.7023815442731975e-06,
      "loss": 1.2157,
      "step": 2
    },
    {
      "epoch": 0.002398201348988259,
      "grad_norm": 8.732062138142359,
      "learning_rate": 4.2831734103139475e-06,
      "loss": 1.2213,
      "step": 3
    },
    {
      "epoch": 0.0031976017986510116,
      "grad_norm": 8.98196608627301,
      "learning_rate": 5.404763088546395e-06,
      "loss": 1.3207,
      "step": 4
    },
    {
      "epoch": 0.003997002248313765,
      "grad_norm": 3.104558237084713,
      "learning_rate": 6.274735630753034e-06,
      "loss": 1.2009,
      "step": 5
    },
    {
      "epoch": 0.004796402697976518,
      "grad_norm": 2.9678718492236587,
      "learning_rate": 6.985554954587145e-06,
      "loss": 1.1976,
      "step": 6
    },
    {
      "epoch": 0.0055958031476392705,
      "grad_norm": 2.324032539210556,
      "learning_rate": 7.586544129592991e-06,
      "loss": 1.1668,
      "step": 7
    },
    {
      "epoch": 0.006395203597302023,
      "grad_norm": 2.422145845478249,
      "learning_rate": 8.107144632819592e-06,
      "loss": 1.1056,
      "step": 8
    },
    {
      "epoch": 0.007194604046964776,
      "grad_norm": 2.7795213648793236,
      "learning_rate": 8.566346820627895e-06,
      "loss": 1.1439,
      "step": 9
    },
    {
      "epoch": 0.00799400449662753,
      "grad_norm": 2.304173813168448,
      "learning_rate": 8.977117175026234e-06,
      "loss": 1.0859,
      "step": 10
    },
    {
      "epoch": 0.008793404946290282,
      "grad_norm": 2.531444418518243,
      "learning_rate": 9.348704159880588e-06,
      "loss": 1.1012,
      "step": 11
    },
    {
      "epoch": 0.009592805395953035,
      "grad_norm": 2.623744403178605,
      "learning_rate": 9.687936498860343e-06,
      "loss": 1.1248,
      "step": 12
    },
    {
      "epoch": 0.010392205845615787,
      "grad_norm": 2.174204408077499,
      "learning_rate": 1e-05,
      "loss": 1.0862,
      "step": 13
    },
    {
      "epoch": 0.011191606295278541,
      "grad_norm": 2.1375382895043553,
      "learning_rate": 1e-05,
      "loss": 1.0843,
      "step": 14
    },
    {
      "epoch": 0.011991006744941295,
      "grad_norm": 2.3409573740941245,
      "learning_rate": 1e-05,
      "loss": 1.1007,
      "step": 15
    },
    {
      "epoch": 0.012790407194604047,
      "grad_norm": 2.2321265748114443,
      "learning_rate": 1e-05,
      "loss": 1.0199,
      "step": 16
    },
    {
      "epoch": 0.0135898076442668,
      "grad_norm": 2.2607491323391997,
      "learning_rate": 1e-05,
      "loss": 1.1098,
      "step": 17
    },
    {
      "epoch": 0.014389208093929552,
      "grad_norm": 2.1345387966971328,
      "learning_rate": 1e-05,
      "loss": 1.0852,
      "step": 18
    },
    {
      "epoch": 0.015188608543592306,
      "grad_norm": 2.0836111411515224,
      "learning_rate": 1e-05,
      "loss": 1.0227,
      "step": 19
    },
    {
      "epoch": 0.01598800899325506,
      "grad_norm": 2.1200221376043826,
      "learning_rate": 1e-05,
      "loss": 1.0764,
      "step": 20
    },
    {
      "epoch": 0.016787409442917813,
      "grad_norm": 2.3277973958562947,
      "learning_rate": 1e-05,
      "loss": 1.0425,
      "step": 21
    },
    {
      "epoch": 0.017586809892580563,
      "grad_norm": 2.4310258538885523,
      "learning_rate": 1e-05,
      "loss": 1.0437,
      "step": 22
    },
    {
      "epoch": 0.018386210342243317,
      "grad_norm": 2.317560454038046,
      "learning_rate": 1e-05,
      "loss": 1.0027,
      "step": 23
    },
    {
      "epoch": 0.01918561079190607,
      "grad_norm": 2.1153613214468923,
      "learning_rate": 1e-05,
      "loss": 1.0878,
      "step": 24
    },
    {
      "epoch": 0.019985011241568824,
      "grad_norm": 2.1138684148369884,
      "learning_rate": 1e-05,
      "loss": 1.0797,
      "step": 25
    },
    {
      "epoch": 0.020784411691231575,
      "grad_norm": 2.3869844261967765,
      "learning_rate": 1e-05,
      "loss": 1.1126,
      "step": 26
    },
    {
      "epoch": 0.02158381214089433,
      "grad_norm": 1.9441687206265474,
      "learning_rate": 1e-05,
      "loss": 1.0356,
      "step": 27
    },
    {
      "epoch": 0.022383212590557082,
      "grad_norm": 1.8858684427680283,
      "learning_rate": 1e-05,
      "loss": 1.0112,
      "step": 28
    },
    {
      "epoch": 0.023182613040219836,
      "grad_norm": 2.0111908392780924,
      "learning_rate": 1e-05,
      "loss": 1.025,
      "step": 29
    },
    {
      "epoch": 0.02398201348988259,
      "grad_norm": 2.3223850597645885,
      "learning_rate": 1e-05,
      "loss": 1.0608,
      "step": 30
    },
    {
      "epoch": 0.02478141393954534,
      "grad_norm": 2.282704095464692,
      "learning_rate": 1e-05,
      "loss": 0.9884,
      "step": 31
    },
    {
      "epoch": 0.025580814389208093,
      "grad_norm": 2.2485551406767392,
      "learning_rate": 1e-05,
      "loss": 1.1609,
      "step": 32
    },
    {
      "epoch": 0.026380214838870847,
      "grad_norm": 1.9632420284716974,
      "learning_rate": 1e-05,
      "loss": 1.0541,
      "step": 33
    },
    {
      "epoch": 0.0271796152885336,
      "grad_norm": 2.7873694225738963,
      "learning_rate": 1e-05,
      "loss": 0.9917,
      "step": 34
    },
    {
      "epoch": 0.027979015738196354,
      "grad_norm": 2.048096411620949,
      "learning_rate": 1e-05,
      "loss": 1.012,
      "step": 35
    },
    {
      "epoch": 0.028778416187859104,
      "grad_norm": 2.0309944076384494,
      "learning_rate": 1e-05,
      "loss": 1.0212,
      "step": 36
    },
    {
      "epoch": 0.029577816637521858,
      "grad_norm": 2.0949849865314643,
      "learning_rate": 1e-05,
      "loss": 1.0659,
      "step": 37
    },
    {
      "epoch": 0.03037721708718461,
      "grad_norm": 2.059202087957289,
      "learning_rate": 1e-05,
      "loss": 1.0168,
      "step": 38
    },
    {
      "epoch": 0.031176617536847365,
      "grad_norm": 2.0975700429920923,
      "learning_rate": 1e-05,
      "loss": 1.0216,
      "step": 39
    },
    {
      "epoch": 0.03197601798651012,
      "grad_norm": 2.0062452254349714,
      "learning_rate": 1e-05,
      "loss": 1.0274,
      "step": 40
    },
    {
      "epoch": 0.03277541843617287,
      "grad_norm": 2.222854538118324,
      "learning_rate": 1e-05,
      "loss": 1.0656,
      "step": 41
    },
    {
      "epoch": 0.033574818885835626,
      "grad_norm": 1.943599598185592,
      "learning_rate": 1e-05,
      "loss": 1.0782,
      "step": 42
    },
    {
      "epoch": 0.03437421933549838,
      "grad_norm": 1.9956218218997503,
      "learning_rate": 1e-05,
      "loss": 1.0625,
      "step": 43
    },
    {
      "epoch": 0.03517361978516113,
      "grad_norm": 2.1611198939392096,
      "learning_rate": 1e-05,
      "loss": 1.041,
      "step": 44
    },
    {
      "epoch": 0.035973020234823884,
      "grad_norm": 1.9975085093102276,
      "learning_rate": 1e-05,
      "loss": 1.0046,
      "step": 45
    },
    {
      "epoch": 0.036772420684486634,
      "grad_norm": 1.8691307201375191,
      "learning_rate": 1e-05,
      "loss": 1.0243,
      "step": 46
    },
    {
      "epoch": 0.03757182113414939,
      "grad_norm": 2.1275630339366667,
      "learning_rate": 1e-05,
      "loss": 1.0565,
      "step": 47
    },
    {
      "epoch": 0.03837122158381214,
      "grad_norm": 1.998529171481795,
      "learning_rate": 1e-05,
      "loss": 0.972,
      "step": 48
    },
    {
      "epoch": 0.03917062203347489,
      "grad_norm": 2.039027660741352,
      "learning_rate": 1e-05,
      "loss": 0.9604,
      "step": 49
    },
    {
      "epoch": 0.03997002248313765,
      "grad_norm": 1.8761207165317535,
      "learning_rate": 1e-05,
      "loss": 0.9985,
      "step": 50
    },
    {
      "epoch": 0.0407694229328004,
      "grad_norm": 2.089454409239614,
      "learning_rate": 1e-05,
      "loss": 0.9963,
      "step": 51
    },
    {
      "epoch": 0.04156882338246315,
      "grad_norm": 2.0445251187040134,
      "learning_rate": 1e-05,
      "loss": 1.0192,
      "step": 52
    },
    {
      "epoch": 0.042368223832125906,
      "grad_norm": 2.205588684592072,
      "learning_rate": 1e-05,
      "loss": 0.9684,
      "step": 53
    },
    {
      "epoch": 0.04316762428178866,
      "grad_norm": 2.0208537418585957,
      "learning_rate": 1e-05,
      "loss": 1.0063,
      "step": 54
    },
    {
      "epoch": 0.043967024731451414,
      "grad_norm": 1.7869034029258606,
      "learning_rate": 1e-05,
      "loss": 1.0368,
      "step": 55
    },
    {
      "epoch": 0.044766425181114164,
      "grad_norm": 1.8924926601293262,
      "learning_rate": 1e-05,
      "loss": 1.011,
      "step": 56
    },
    {
      "epoch": 0.045565825630776914,
      "grad_norm": 2.151723728750191,
      "learning_rate": 1e-05,
      "loss": 1.0275,
      "step": 57
    },
    {
      "epoch": 0.04636522608043967,
      "grad_norm": 2.388300807396013,
      "learning_rate": 1e-05,
      "loss": 0.996,
      "step": 58
    },
    {
      "epoch": 0.04716462653010242,
      "grad_norm": 1.9793946104980729,
      "learning_rate": 1e-05,
      "loss": 1.028,
      "step": 59
    },
    {
      "epoch": 0.04796402697976518,
      "grad_norm": 2.050014939910642,
      "learning_rate": 1e-05,
      "loss": 1.0109,
      "step": 60
    },
    {
      "epoch": 0.04876342742942793,
      "grad_norm": 1.8842986029616882,
      "learning_rate": 1e-05,
      "loss": 0.9752,
      "step": 61
    },
    {
      "epoch": 0.04956282787909068,
      "grad_norm": 1.7444876770795246,
      "learning_rate": 1e-05,
      "loss": 1.0228,
      "step": 62
    },
    {
      "epoch": 0.050362228328753436,
      "grad_norm": 1.8304676501403103,
      "learning_rate": 1e-05,
      "loss": 0.9747,
      "step": 63
    },
    {
      "epoch": 0.051161628778416186,
      "grad_norm": 2.1540039062270164,
      "learning_rate": 1e-05,
      "loss": 0.9955,
      "step": 64
    },
    {
      "epoch": 0.051961029228078943,
      "grad_norm": 1.6953401550549316,
      "learning_rate": 1e-05,
      "loss": 0.9811,
      "step": 65
    },
    {
      "epoch": 0.052760429677741694,
      "grad_norm": 2.1460856566454987,
      "learning_rate": 1e-05,
      "loss": 1.0365,
      "step": 66
    },
    {
      "epoch": 0.053559830127404444,
      "grad_norm": 1.7390283863943892,
      "learning_rate": 1e-05,
      "loss": 1.0277,
      "step": 67
    },
    {
      "epoch": 0.0543592305770672,
      "grad_norm": 2.0836221978397442,
      "learning_rate": 1e-05,
      "loss": 0.9953,
      "step": 68
    },
    {
      "epoch": 0.05515863102672995,
      "grad_norm": 1.7905448109320714,
      "learning_rate": 1e-05,
      "loss": 0.9944,
      "step": 69
    },
    {
      "epoch": 0.05595803147639271,
      "grad_norm": 1.9504348528444273,
      "learning_rate": 1e-05,
      "loss": 0.9808,
      "step": 70
    },
    {
      "epoch": 0.05675743192605546,
      "grad_norm": 1.834972840275589,
      "learning_rate": 1e-05,
      "loss": 0.9992,
      "step": 71
    },
    {
      "epoch": 0.05755683237571821,
      "grad_norm": 1.845072042104488,
      "learning_rate": 1e-05,
      "loss": 0.9811,
      "step": 72
    },
    {
      "epoch": 0.058356232825380966,
      "grad_norm": 1.85534014854077,
      "learning_rate": 1e-05,
      "loss": 0.9864,
      "step": 73
    },
    {
      "epoch": 0.059155633275043716,
      "grad_norm": 1.8650405189842276,
      "learning_rate": 1e-05,
      "loss": 0.9925,
      "step": 74
    },
    {
      "epoch": 0.05995503372470647,
      "grad_norm": 1.862410414010068,
      "learning_rate": 1e-05,
      "loss": 1.0991,
      "step": 75
    },
    {
      "epoch": 0.06075443417436922,
      "grad_norm": 2.1389193269284625,
      "learning_rate": 1e-05,
      "loss": 1.0228,
      "step": 76
    },
    {
      "epoch": 0.061553834624031974,
      "grad_norm": 1.7408061970131428,
      "learning_rate": 1e-05,
      "loss": 1.0034,
      "step": 77
    },
    {
      "epoch": 0.06235323507369473,
      "grad_norm": 2.0783333855212653,
      "learning_rate": 1e-05,
      "loss": 1.0015,
      "step": 78
    },
    {
      "epoch": 0.06315263552335748,
      "grad_norm": 2.1794919181439507,
      "learning_rate": 1e-05,
      "loss": 1.0184,
      "step": 79
    },
    {
      "epoch": 0.06395203597302024,
      "grad_norm": 1.8799556566280435,
      "learning_rate": 1e-05,
      "loss": 0.9807,
      "step": 80
    },
    {
      "epoch": 0.06475143642268298,
      "grad_norm": 1.6068132265611528,
      "learning_rate": 1e-05,
      "loss": 1.0318,
      "step": 81
    },
    {
      "epoch": 0.06555083687234574,
      "grad_norm": 1.8404529509039422,
      "learning_rate": 1e-05,
      "loss": 0.9634,
      "step": 82
    },
    {
      "epoch": 0.0663502373220085,
      "grad_norm": 1.8490571137069702,
      "learning_rate": 1e-05,
      "loss": 0.9362,
      "step": 83
    },
    {
      "epoch": 0.06714963777167125,
      "grad_norm": 2.1048586741337485,
      "learning_rate": 1e-05,
      "loss": 1.051,
      "step": 84
    },
    {
      "epoch": 0.067949038221334,
      "grad_norm": 1.9361395487099815,
      "learning_rate": 1e-05,
      "loss": 0.9884,
      "step": 85
    },
    {
      "epoch": 0.06874843867099675,
      "grad_norm": 1.882438664110377,
      "learning_rate": 1e-05,
      "loss": 1.0338,
      "step": 86
    },
    {
      "epoch": 0.06954783912065951,
      "grad_norm": 1.9328301399003285,
      "learning_rate": 1e-05,
      "loss": 1.0123,
      "step": 87
    },
    {
      "epoch": 0.07034723957032225,
      "grad_norm": 1.9592492051372121,
      "learning_rate": 1e-05,
      "loss": 1.015,
      "step": 88
    },
    {
      "epoch": 0.07114664001998501,
      "grad_norm": 2.0637394818205035,
      "learning_rate": 1e-05,
      "loss": 1.0074,
      "step": 89
    },
    {
      "epoch": 0.07194604046964777,
      "grad_norm": 1.875788422779308,
      "learning_rate": 1e-05,
      "loss": 0.966,
      "step": 90
    },
    {
      "epoch": 0.07274544091931051,
      "grad_norm": 1.8409070357840667,
      "learning_rate": 1e-05,
      "loss": 1.0463,
      "step": 91
    },
    {
      "epoch": 0.07354484136897327,
      "grad_norm": 1.9103779504623786,
      "learning_rate": 1e-05,
      "loss": 0.9633,
      "step": 92
    },
    {
      "epoch": 0.07434424181863603,
      "grad_norm": 2.0590523934839307,
      "learning_rate": 1e-05,
      "loss": 1.0215,
      "step": 93
    },
    {
      "epoch": 0.07514364226829878,
      "grad_norm": 2.104785750263468,
      "learning_rate": 1e-05,
      "loss": 1.0025,
      "step": 94
    },
    {
      "epoch": 0.07594304271796153,
      "grad_norm": 2.1695447340449663,
      "learning_rate": 1e-05,
      "loss": 0.941,
      "step": 95
    },
    {
      "epoch": 0.07674244316762428,
      "grad_norm": 2.0465650220094203,
      "learning_rate": 1e-05,
      "loss": 1.0093,
      "step": 96
    },
    {
      "epoch": 0.07754184361728704,
      "grad_norm": 1.8941011997406154,
      "learning_rate": 1e-05,
      "loss": 1.064,
      "step": 97
    },
    {
      "epoch": 0.07834124406694978,
      "grad_norm": 1.9987845140787637,
      "learning_rate": 1e-05,
      "loss": 0.9793,
      "step": 98
    },
    {
      "epoch": 0.07914064451661254,
      "grad_norm": 1.8233385113626337,
      "learning_rate": 1e-05,
      "loss": 1.0176,
      "step": 99
    },
    {
      "epoch": 0.0799400449662753,
      "grad_norm": 1.8162210777833079,
      "learning_rate": 1e-05,
      "loss": 0.9699,
      "step": 100
    },
    {
      "epoch": 0.08073944541593804,
      "grad_norm": 1.8711808189743682,
      "learning_rate": 1e-05,
      "loss": 0.9865,
      "step": 101
    },
    {
      "epoch": 0.0815388458656008,
      "grad_norm": 1.974561488916405,
      "learning_rate": 1e-05,
      "loss": 0.9806,
      "step": 102
    },
    {
      "epoch": 0.08233824631526356,
      "grad_norm": 1.7095584582820083,
      "learning_rate": 1e-05,
      "loss": 0.9955,
      "step": 103
    },
    {
      "epoch": 0.0831376467649263,
      "grad_norm": 1.8952139824297942,
      "learning_rate": 1e-05,
      "loss": 0.9338,
      "step": 104
    },
    {
      "epoch": 0.08393704721458906,
      "grad_norm": 1.8058804845050307,
      "learning_rate": 1e-05,
      "loss": 1.0062,
      "step": 105
    },
    {
      "epoch": 0.08473644766425181,
      "grad_norm": 1.8103680215448428,
      "learning_rate": 1e-05,
      "loss": 0.9872,
      "step": 106
    },
    {
      "epoch": 0.08553584811391457,
      "grad_norm": 1.694736368233996,
      "learning_rate": 1e-05,
      "loss": 0.9359,
      "step": 107
    },
    {
      "epoch": 0.08633524856357731,
      "grad_norm": 1.9235533583641018,
      "learning_rate": 1e-05,
      "loss": 1.0611,
      "step": 108
    },
    {
      "epoch": 0.08713464901324007,
      "grad_norm": 1.619066977691127,
      "learning_rate": 1e-05,
      "loss": 0.9654,
      "step": 109
    },
    {
      "epoch": 0.08793404946290283,
      "grad_norm": 1.8050888311534128,
      "learning_rate": 1e-05,
      "loss": 1.004,
      "step": 110
    },
    {
      "epoch": 0.08873344991256557,
      "grad_norm": 1.9960924269335547,
      "learning_rate": 1e-05,
      "loss": 1.0118,
      "step": 111
    },
    {
      "epoch": 0.08953285036222833,
      "grad_norm": 1.9286201089638149,
      "learning_rate": 1e-05,
      "loss": 1.0025,
      "step": 112
    },
    {
      "epoch": 0.09033225081189108,
      "grad_norm": 2.1725480586787396,
      "learning_rate": 1e-05,
      "loss": 0.9558,
      "step": 113
    },
    {
      "epoch": 0.09113165126155383,
      "grad_norm": 1.857962422635593,
      "learning_rate": 1e-05,
      "loss": 0.9772,
      "step": 114
    },
    {
      "epoch": 0.09193105171121659,
      "grad_norm": 1.9166723424153935,
      "learning_rate": 1e-05,
      "loss": 0.9749,
      "step": 115
    },
    {
      "epoch": 0.09273045216087934,
      "grad_norm": 2.0124769392114854,
      "learning_rate": 1e-05,
      "loss": 0.9548,
      "step": 116
    },
    {
      "epoch": 0.0935298526105421,
      "grad_norm": 1.847426445728428,
      "learning_rate": 1e-05,
      "loss": 0.941,
      "step": 117
    },
    {
      "epoch": 0.09432925306020484,
      "grad_norm": 2.163992947673654,
      "learning_rate": 1e-05,
      "loss": 0.9617,
      "step": 118
    },
    {
      "epoch": 0.0951286535098676,
      "grad_norm": 1.8889979598709639,
      "learning_rate": 1e-05,
      "loss": 1.0272,
      "step": 119
    },
    {
      "epoch": 0.09592805395953036,
      "grad_norm": 1.844634955046446,
      "learning_rate": 1e-05,
      "loss": 0.9669,
      "step": 120
    },
    {
      "epoch": 0.0967274544091931,
      "grad_norm": 1.9301903181704618,
      "learning_rate": 1e-05,
      "loss": 0.9717,
      "step": 121
    },
    {
      "epoch": 0.09752685485885586,
      "grad_norm": 1.9564195723979845,
      "learning_rate": 1e-05,
      "loss": 0.9527,
      "step": 122
    },
    {
      "epoch": 0.09832625530851861,
      "grad_norm": 1.834090339470851,
      "learning_rate": 1e-05,
      "loss": 0.9794,
      "step": 123
    },
    {
      "epoch": 0.09912565575818136,
      "grad_norm": 1.7936104151665677,
      "learning_rate": 1e-05,
      "loss": 0.9042,
      "step": 124
    },
    {
      "epoch": 0.09992505620784412,
      "grad_norm": 1.7969263674080669,
      "learning_rate": 1e-05,
      "loss": 1.0397,
      "step": 125
    },
    {
      "epoch": 0.10072445665750687,
      "grad_norm": 1.7901986458192694,
      "learning_rate": 1e-05,
      "loss": 1.0043,
      "step": 126
    },
    {
      "epoch": 0.10152385710716963,
      "grad_norm": 1.8947234640723079,
      "learning_rate": 1e-05,
      "loss": 0.9761,
      "step": 127
    },
    {
      "epoch": 0.10232325755683237,
      "grad_norm": 1.8487696622255145,
      "learning_rate": 1e-05,
      "loss": 0.9899,
      "step": 128
    },
    {
      "epoch": 0.10312265800649513,
      "grad_norm": 1.8207862729527453,
      "learning_rate": 1e-05,
      "loss": 1.0272,
      "step": 129
    },
    {
      "epoch": 0.10392205845615789,
      "grad_norm": 1.9816716753688939,
      "learning_rate": 1e-05,
      "loss": 0.9202,
      "step": 130
    },
    {
      "epoch": 0.10472145890582063,
      "grad_norm": 1.8916365109275264,
      "learning_rate": 1e-05,
      "loss": 0.9629,
      "step": 131
    },
    {
      "epoch": 0.10552085935548339,
      "grad_norm": 1.9863329832931071,
      "learning_rate": 1e-05,
      "loss": 0.9976,
      "step": 132
    },
    {
      "epoch": 0.10632025980514614,
      "grad_norm": 1.9194816317308832,
      "learning_rate": 1e-05,
      "loss": 1.0043,
      "step": 133
    },
    {
      "epoch": 0.10711966025480889,
      "grad_norm": 1.9537595846189237,
      "learning_rate": 1e-05,
      "loss": 0.9453,
      "step": 134
    },
    {
      "epoch": 0.10791906070447164,
      "grad_norm": 2.0669579990783253,
      "learning_rate": 1e-05,
      "loss": 0.9865,
      "step": 135
    },
    {
      "epoch": 0.1087184611541344,
      "grad_norm": 1.9760934706997628,
      "learning_rate": 1e-05,
      "loss": 1.017,
      "step": 136
    },
    {
      "epoch": 0.10951786160379715,
      "grad_norm": 1.7260389446366302,
      "learning_rate": 1e-05,
      "loss": 0.963,
      "step": 137
    },
    {
      "epoch": 0.1103172620534599,
      "grad_norm": 1.9203242105800193,
      "learning_rate": 1e-05,
      "loss": 1.0157,
      "step": 138
    },
    {
      "epoch": 0.11111666250312266,
      "grad_norm": 1.9850822013474325,
      "learning_rate": 1e-05,
      "loss": 0.9438,
      "step": 139
    },
    {
      "epoch": 0.11191606295278542,
      "grad_norm": 1.9572946605976695,
      "learning_rate": 1e-05,
      "loss": 1.0029,
      "step": 140
    },
    {
      "epoch": 0.11271546340244816,
      "grad_norm": 1.5451741731912971,
      "learning_rate": 1e-05,
      "loss": 0.9225,
      "step": 141
    },
    {
      "epoch": 0.11351486385211092,
      "grad_norm": 2.0070450938810707,
      "learning_rate": 1e-05,
      "loss": 0.922,
      "step": 142
    },
    {
      "epoch": 0.11431426430177367,
      "grad_norm": 1.89832125508894,
      "learning_rate": 1e-05,
      "loss": 1.0401,
      "step": 143
    },
    {
      "epoch": 0.11511366475143642,
      "grad_norm": 1.950327724703524,
      "learning_rate": 1e-05,
      "loss": 0.9279,
      "step": 144
    },
    {
      "epoch": 0.11591306520109917,
      "grad_norm": 1.9700609199158468,
      "learning_rate": 1e-05,
      "loss": 0.9864,
      "step": 145
    },
    {
      "epoch": 0.11671246565076193,
      "grad_norm": 1.6727783834574599,
      "learning_rate": 1e-05,
      "loss": 0.9659,
      "step": 146
    },
    {
      "epoch": 0.11751186610042468,
      "grad_norm": 1.8484918243414765,
      "learning_rate": 1e-05,
      "loss": 0.9761,
      "step": 147
    },
    {
      "epoch": 0.11831126655008743,
      "grad_norm": 2.045306713844051,
      "learning_rate": 1e-05,
      "loss": 0.9788,
      "step": 148
    },
    {
      "epoch": 0.11911066699975019,
      "grad_norm": 1.8558407244018518,
      "learning_rate": 1e-05,
      "loss": 0.963,
      "step": 149
    },
    {
      "epoch": 0.11991006744941295,
      "grad_norm": 1.777504348074839,
      "learning_rate": 1e-05,
      "loss": 0.9898,
      "step": 150
    },
    {
      "epoch": 0.12070946789907569,
      "grad_norm": 1.7945306209083864,
      "learning_rate": 1e-05,
      "loss": 0.9475,
      "step": 151
    },
    {
      "epoch": 0.12150886834873845,
      "grad_norm": 1.612635014991482,
      "learning_rate": 1e-05,
      "loss": 0.981,
      "step": 152
    },
    {
      "epoch": 0.1223082687984012,
      "grad_norm": 1.5365653630331435,
      "learning_rate": 1e-05,
      "loss": 0.9336,
      "step": 153
    },
    {
      "epoch": 0.12310766924806395,
      "grad_norm": 1.7728163669560009,
      "learning_rate": 1e-05,
      "loss": 0.9786,
      "step": 154
    },
    {
      "epoch": 0.1239070696977267,
      "grad_norm": 1.6363907272750682,
      "learning_rate": 1e-05,
      "loss": 0.9499,
      "step": 155
    },
    {
      "epoch": 0.12470647014738946,
      "grad_norm": 1.8927548789352038,
      "learning_rate": 1e-05,
      "loss": 0.9537,
      "step": 156
    },
    {
      "epoch": 0.1255058705970522,
      "grad_norm": 1.576438438411652,
      "learning_rate": 1e-05,
      "loss": 0.9273,
      "step": 157
    },
    {
      "epoch": 0.12630527104671496,
      "grad_norm": 1.8750460465870347,
      "learning_rate": 1e-05,
      "loss": 0.9687,
      "step": 158
    },
    {
      "epoch": 0.12710467149637772,
      "grad_norm": 1.712737472716492,
      "learning_rate": 1e-05,
      "loss": 0.9981,
      "step": 159
    },
    {
      "epoch": 0.12790407194604048,
      "grad_norm": 1.8944147808763965,
      "learning_rate": 1e-05,
      "loss": 1.0316,
      "step": 160
    },
    {
      "epoch": 0.12870347239570323,
      "grad_norm": 1.6975154876149214,
      "learning_rate": 1e-05,
      "loss": 0.9921,
      "step": 161
    },
    {
      "epoch": 0.12950287284536596,
      "grad_norm": 1.7330196261933866,
      "learning_rate": 1e-05,
      "loss": 0.9567,
      "step": 162
    },
    {
      "epoch": 0.13030227329502872,
      "grad_norm": 2.004904627709956,
      "learning_rate": 1e-05,
      "loss": 0.9788,
      "step": 163
    },
    {
      "epoch": 0.13110167374469148,
      "grad_norm": 1.7565329263507932,
      "learning_rate": 1e-05,
      "loss": 0.9461,
      "step": 164
    },
    {
      "epoch": 0.13190107419435423,
      "grad_norm": 1.6976314021380359,
      "learning_rate": 1e-05,
      "loss": 0.9926,
      "step": 165
    },
    {
      "epoch": 0.132700474644017,
      "grad_norm": 1.573182719519626,
      "learning_rate": 1e-05,
      "loss": 0.982,
      "step": 166
    },
    {
      "epoch": 0.13349987509367975,
      "grad_norm": 1.5753994405016738,
      "learning_rate": 1e-05,
      "loss": 0.9745,
      "step": 167
    },
    {
      "epoch": 0.1342992755433425,
      "grad_norm": 1.9199549441489088,
      "learning_rate": 1e-05,
      "loss": 0.9916,
      "step": 168
    },
    {
      "epoch": 0.13509867599300523,
      "grad_norm": 1.7662832212098252,
      "learning_rate": 1e-05,
      "loss": 0.9717,
      "step": 169
    },
    {
      "epoch": 0.135898076442668,
      "grad_norm": 2.1972236756007506,
      "learning_rate": 1e-05,
      "loss": 0.9923,
      "step": 170
    },
    {
      "epoch": 0.13669747689233075,
      "grad_norm": 1.5845907178152914,
      "learning_rate": 1e-05,
      "loss": 1.041,
      "step": 171
    },
    {
      "epoch": 0.1374968773419935,
      "grad_norm": 1.9027156433363486,
      "learning_rate": 1e-05,
      "loss": 0.9986,
      "step": 172
    },
    {
      "epoch": 0.13829627779165626,
      "grad_norm": 1.938028025396952,
      "learning_rate": 1e-05,
      "loss": 0.9856,
      "step": 173
    },
    {
      "epoch": 0.13909567824131902,
      "grad_norm": 1.7615271251517497,
      "learning_rate": 1e-05,
      "loss": 0.9879,
      "step": 174
    },
    {
      "epoch": 0.13989507869098175,
      "grad_norm": 1.5753792433296703,
      "learning_rate": 1e-05,
      "loss": 0.9952,
      "step": 175
    },
    {
      "epoch": 0.1406944791406445,
      "grad_norm": 1.8071610796834736,
      "learning_rate": 1e-05,
      "loss": 0.9403,
      "step": 176
    },
    {
      "epoch": 0.14149387959030726,
      "grad_norm": 1.8188146399425127,
      "learning_rate": 1e-05,
      "loss": 0.9166,
      "step": 177
    },
    {
      "epoch": 0.14229328003997002,
      "grad_norm": 1.8998134327288991,
      "learning_rate": 1e-05,
      "loss": 0.9307,
      "step": 178
    },
    {
      "epoch": 0.14309268048963278,
      "grad_norm": 1.8148916923977343,
      "learning_rate": 1e-05,
      "loss": 0.964,
      "step": 179
    },
    {
      "epoch": 0.14389208093929554,
      "grad_norm": 1.8025702262604992,
      "learning_rate": 1e-05,
      "loss": 0.9636,
      "step": 180
    },
    {
      "epoch": 0.1446914813889583,
      "grad_norm": 1.8970561152549208,
      "learning_rate": 1e-05,
      "loss": 0.9446,
      "step": 181
    },
    {
      "epoch": 0.14549088183862102,
      "grad_norm": 1.774281514717804,
      "learning_rate": 1e-05,
      "loss": 0.9011,
      "step": 182
    },
    {
      "epoch": 0.14629028228828378,
      "grad_norm": 1.6697484592667877,
      "learning_rate": 1e-05,
      "loss": 0.9732,
      "step": 183
    },
    {
      "epoch": 0.14708968273794654,
      "grad_norm": 1.748314198924899,
      "learning_rate": 1e-05,
      "loss": 0.9294,
      "step": 184
    },
    {
      "epoch": 0.1478890831876093,
      "grad_norm": 1.5552333328333348,
      "learning_rate": 1e-05,
      "loss": 0.9207,
      "step": 185
    },
    {
      "epoch": 0.14868848363727205,
      "grad_norm": 1.819375156478493,
      "learning_rate": 1e-05,
      "loss": 0.9667,
      "step": 186
    },
    {
      "epoch": 0.1494878840869348,
      "grad_norm": 1.5853289567427034,
      "learning_rate": 1e-05,
      "loss": 0.9863,
      "step": 187
    },
    {
      "epoch": 0.15028728453659757,
      "grad_norm": 1.7338233390104778,
      "learning_rate": 1e-05,
      "loss": 0.9088,
      "step": 188
    },
    {
      "epoch": 0.1510866849862603,
      "grad_norm": 1.8735214816693204,
      "learning_rate": 1e-05,
      "loss": 0.9931,
      "step": 189
    },
    {
      "epoch": 0.15188608543592305,
      "grad_norm": 1.70836070926444,
      "learning_rate": 1e-05,
      "loss": 0.9774,
      "step": 190
    },
    {
      "epoch": 0.1526854858855858,
      "grad_norm": 1.68457840558557,
      "learning_rate": 1e-05,
      "loss": 0.9971,
      "step": 191
    },
    {
      "epoch": 0.15348488633524857,
      "grad_norm": 1.9974046657795066,
      "learning_rate": 1e-05,
      "loss": 1.0525,
      "step": 192
    },
    {
      "epoch": 0.15428428678491132,
      "grad_norm": 1.8637088407144724,
      "learning_rate": 1e-05,
      "loss": 0.9458,
      "step": 193
    },
    {
      "epoch": 0.15508368723457408,
      "grad_norm": 1.5472617342282928,
      "learning_rate": 1e-05,
      "loss": 0.9321,
      "step": 194
    },
    {
      "epoch": 0.1558830876842368,
      "grad_norm": 2.0278392859284224,
      "learning_rate": 1e-05,
      "loss": 0.9376,
      "step": 195
    },
    {
      "epoch": 0.15668248813389957,
      "grad_norm": 1.8610095483452973,
      "learning_rate": 1e-05,
      "loss": 0.9921,
      "step": 196
    },
    {
      "epoch": 0.15748188858356232,
      "grad_norm": 2.0375178580916016,
      "learning_rate": 1e-05,
      "loss": 0.9985,
      "step": 197
    },
    {
      "epoch": 0.15828128903322508,
      "grad_norm": 1.8219362402276909,
      "learning_rate": 1e-05,
      "loss": 0.924,
      "step": 198
    },
    {
      "epoch": 0.15908068948288784,
      "grad_norm": 1.4629250708658383,
      "learning_rate": 1e-05,
      "loss": 1.0201,
      "step": 199
    },
    {
      "epoch": 0.1598800899325506,
      "grad_norm": 1.5628287370754461,
      "learning_rate": 1e-05,
      "loss": 1.0002,
      "step": 200
    },
    {
      "epoch": 0.16067949038221335,
      "grad_norm": 1.8442311252983388,
      "learning_rate": 1e-05,
      "loss": 0.937,
      "step": 201
    },
    {
      "epoch": 0.16147889083187608,
      "grad_norm": 7.441197607810174,
      "learning_rate": 1e-05,
      "loss": 0.8768,
      "step": 202
    },
    {
      "epoch": 0.16227829128153884,
      "grad_norm": 1.7947899683379576,
      "learning_rate": 1e-05,
      "loss": 0.9524,
      "step": 203
    },
    {
      "epoch": 0.1630776917312016,
      "grad_norm": 1.656507654529954,
      "learning_rate": 1e-05,
      "loss": 0.8953,
      "step": 204
    },
    {
      "epoch": 0.16387709218086435,
      "grad_norm": 1.7462816982128921,
      "learning_rate": 1e-05,
      "loss": 0.9435,
      "step": 205
    },
    {
      "epoch": 0.1646764926305271,
      "grad_norm": 1.7013940298273953,
      "learning_rate": 1e-05,
      "loss": 0.9124,
      "step": 206
    },
    {
      "epoch": 0.16547589308018987,
      "grad_norm": 1.6379746843984113,
      "learning_rate": 1e-05,
      "loss": 0.9508,
      "step": 207
    },
    {
      "epoch": 0.1662752935298526,
      "grad_norm": 1.9314822402660798,
      "learning_rate": 1e-05,
      "loss": 1.0272,
      "step": 208
    },
    {
      "epoch": 0.16707469397951535,
      "grad_norm": 1.9961308842740637,
      "learning_rate": 1e-05,
      "loss": 0.9841,
      "step": 209
    },
    {
      "epoch": 0.1678740944291781,
      "grad_norm": 2.0382234178726537,
      "learning_rate": 1e-05,
      "loss": 0.9785,
      "step": 210
    },
    {
      "epoch": 0.16867349487884087,
      "grad_norm": 1.6901064034464468,
      "learning_rate": 1e-05,
      "loss": 0.9127,
      "step": 211
    },
    {
      "epoch": 0.16947289532850363,
      "grad_norm": 1.7273747898471865,
      "learning_rate": 1e-05,
      "loss": 0.9583,
      "step": 212
    },
    {
      "epoch": 0.17027229577816638,
      "grad_norm": 1.7457470216603739,
      "learning_rate": 1e-05,
      "loss": 0.9799,
      "step": 213
    },
    {
      "epoch": 0.17107169622782914,
      "grad_norm": 1.7313522722535573,
      "learning_rate": 1e-05,
      "loss": 0.9489,
      "step": 214
    },
    {
      "epoch": 0.17187109667749187,
      "grad_norm": 1.7762615948567715,
      "learning_rate": 1e-05,
      "loss": 0.9328,
      "step": 215
    },
    {
      "epoch": 0.17267049712715463,
      "grad_norm": 1.6331422537410691,
      "learning_rate": 1e-05,
      "loss": 0.9446,
      "step": 216
    },
    {
      "epoch": 0.17346989757681738,
      "grad_norm": 1.6778510604121997,
      "learning_rate": 1e-05,
      "loss": 0.9547,
      "step": 217
    },
    {
      "epoch": 0.17426929802648014,
      "grad_norm": 1.9041470899144908,
      "learning_rate": 1e-05,
      "loss": 0.9014,
      "step": 218
    },
    {
      "epoch": 0.1750686984761429,
      "grad_norm": 1.8662662755793453,
      "learning_rate": 1e-05,
      "loss": 0.9709,
      "step": 219
    },
    {
      "epoch": 0.17586809892580565,
      "grad_norm": 1.7045357754568997,
      "learning_rate": 1e-05,
      "loss": 0.9433,
      "step": 220
    },
    {
      "epoch": 0.1766674993754684,
      "grad_norm": 1.74409106945116,
      "learning_rate": 1e-05,
      "loss": 0.9153,
      "step": 221
    },
    {
      "epoch": 0.17746689982513114,
      "grad_norm": 1.8132234884702887,
      "learning_rate": 1e-05,
      "loss": 0.8909,
      "step": 222
    },
    {
      "epoch": 0.1782663002747939,
      "grad_norm": 1.6971296927642,
      "learning_rate": 1e-05,
      "loss": 0.9622,
      "step": 223
    },
    {
      "epoch": 0.17906570072445666,
      "grad_norm": 1.781912471031092,
      "learning_rate": 1e-05,
      "loss": 0.954,
      "step": 224
    },
    {
      "epoch": 0.1798651011741194,
      "grad_norm": 1.6629867774088771,
      "learning_rate": 1e-05,
      "loss": 0.96,
      "step": 225
    },
    {
      "epoch": 0.18066450162378217,
      "grad_norm": 2.0699033115205614,
      "learning_rate": 1e-05,
      "loss": 0.9284,
      "step": 226
    },
    {
      "epoch": 0.18146390207344493,
      "grad_norm": 1.7235146329911442,
      "learning_rate": 1e-05,
      "loss": 0.9456,
      "step": 227
    },
    {
      "epoch": 0.18226330252310766,
      "grad_norm": 1.7961113577108625,
      "learning_rate": 1e-05,
      "loss": 0.9454,
      "step": 228
    },
    {
      "epoch": 0.1830627029727704,
      "grad_norm": 1.6808904917909453,
      "learning_rate": 1e-05,
      "loss": 0.9524,
      "step": 229
    },
    {
      "epoch": 0.18386210342243317,
      "grad_norm": 1.5865303307652885,
      "learning_rate": 1e-05,
      "loss": 0.9863,
      "step": 230
    },
    {
      "epoch": 0.18466150387209593,
      "grad_norm": 1.6521878212504149,
      "learning_rate": 1e-05,
      "loss": 0.946,
      "step": 231
    },
    {
      "epoch": 0.18546090432175869,
      "grad_norm": 1.5619375597824243,
      "learning_rate": 1e-05,
      "loss": 1.0141,
      "step": 232
    },
    {
      "epoch": 0.18626030477142144,
      "grad_norm": 1.9668596679027701,
      "learning_rate": 1e-05,
      "loss": 0.9783,
      "step": 233
    },
    {
      "epoch": 0.1870597052210842,
      "grad_norm": 1.7004515677555856,
      "learning_rate": 1e-05,
      "loss": 0.939,
      "step": 234
    },
    {
      "epoch": 0.18785910567074693,
      "grad_norm": 1.8505586367786393,
      "learning_rate": 1e-05,
      "loss": 1.0186,
      "step": 235
    },
    {
      "epoch": 0.18865850612040969,
      "grad_norm": 1.8794093279833084,
      "learning_rate": 1e-05,
      "loss": 0.9748,
      "step": 236
    },
    {
      "epoch": 0.18945790657007244,
      "grad_norm": 1.970577363084186,
      "learning_rate": 1e-05,
      "loss": 0.9734,
      "step": 237
    },
    {
      "epoch": 0.1902573070197352,
      "grad_norm": 1.9827162568725265,
      "learning_rate": 1e-05,
      "loss": 0.9526,
      "step": 238
    },
    {
      "epoch": 0.19105670746939796,
      "grad_norm": 1.6777105787009272,
      "learning_rate": 1e-05,
      "loss": 1.0038,
      "step": 239
    },
    {
      "epoch": 0.19185610791906071,
      "grad_norm": 1.8547665670552458,
      "learning_rate": 1e-05,
      "loss": 0.9425,
      "step": 240
    },
    {
      "epoch": 0.19265550836872344,
      "grad_norm": 1.5739853104069792,
      "learning_rate": 1e-05,
      "loss": 0.9898,
      "step": 241
    },
    {
      "epoch": 0.1934549088183862,
      "grad_norm": 1.7991544252885405,
      "learning_rate": 1e-05,
      "loss": 0.9068,
      "step": 242
    },
    {
      "epoch": 0.19425430926804896,
      "grad_norm": 1.7278046505750493,
      "learning_rate": 1e-05,
      "loss": 0.9961,
      "step": 243
    },
    {
      "epoch": 0.19505370971771172,
      "grad_norm": 1.6738018924260079,
      "learning_rate": 1e-05,
      "loss": 0.9269,
      "step": 244
    },
    {
      "epoch": 0.19585311016737447,
      "grad_norm": 1.704113739011135,
      "learning_rate": 1e-05,
      "loss": 0.9384,
      "step": 245
    },
    {
      "epoch": 0.19665251061703723,
      "grad_norm": 1.953642878567139,
      "learning_rate": 1e-05,
      "loss": 0.9003,
      "step": 246
    },
    {
      "epoch": 0.1974519110667,
      "grad_norm": 1.8994714525376621,
      "learning_rate": 1e-05,
      "loss": 0.9384,
      "step": 247
    },
    {
      "epoch": 0.19825131151636272,
      "grad_norm": 1.7335277476681896,
      "learning_rate": 1e-05,
      "loss": 0.9164,
      "step": 248
    },
    {
      "epoch": 0.19905071196602547,
      "grad_norm": 1.8114996960442162,
      "learning_rate": 1e-05,
      "loss": 0.909,
      "step": 249
    },
    {
      "epoch": 0.19985011241568823,
      "grad_norm": 1.8399064962789757,
      "learning_rate": 1e-05,
      "loss": 0.9672,
      "step": 250
    },
    {
      "epoch": 0.200649512865351,
      "grad_norm": 1.8027482426913095,
      "learning_rate": 1e-05,
      "loss": 0.9294,
      "step": 251
    },
    {
      "epoch": 0.20144891331501374,
      "grad_norm": 1.7914653808525045,
      "learning_rate": 1e-05,
      "loss": 0.9709,
      "step": 252
    },
    {
      "epoch": 0.2022483137646765,
      "grad_norm": 1.8562700822437381,
      "learning_rate": 1e-05,
      "loss": 0.918,
      "step": 253
    },
    {
      "epoch": 0.20304771421433926,
      "grad_norm": 1.592298158180451,
      "learning_rate": 1e-05,
      "loss": 0.9874,
      "step": 254
    },
    {
      "epoch": 0.203847114664002,
      "grad_norm": 1.7885472103550304,
      "learning_rate": 1e-05,
      "loss": 0.9579,
      "step": 255
    },
    {
      "epoch": 0.20464651511366475,
      "grad_norm": 1.8835318053165766,
      "learning_rate": 1e-05,
      "loss": 0.97,
      "step": 256
    },
    {
      "epoch": 0.2054459155633275,
      "grad_norm": 2.2973670794805865,
      "learning_rate": 1e-05,
      "loss": 1.0196,
      "step": 257
    },
    {
      "epoch": 0.20624531601299026,
      "grad_norm": 2.059759101560068,
      "learning_rate": 1e-05,
      "loss": 0.9051,
      "step": 258
    },
    {
      "epoch": 0.20704471646265302,
      "grad_norm": 1.6379487643230517,
      "learning_rate": 1e-05,
      "loss": 0.9853,
      "step": 259
    },
    {
      "epoch": 0.20784411691231577,
      "grad_norm": 1.7739932086505867,
      "learning_rate": 1e-05,
      "loss": 0.9365,
      "step": 260
    },
    {
      "epoch": 0.2086435173619785,
      "grad_norm": 1.9378628413327441,
      "learning_rate": 1e-05,
      "loss": 0.9248,
      "step": 261
    },
    {
      "epoch": 0.20944291781164126,
      "grad_norm": 1.8631208677480777,
      "learning_rate": 1e-05,
      "loss": 0.9417,
      "step": 262
    },
    {
      "epoch": 0.21024231826130402,
      "grad_norm": 1.73049947808822,
      "learning_rate": 1e-05,
      "loss": 0.9039,
      "step": 263
    },
    {
      "epoch": 0.21104171871096677,
      "grad_norm": 1.6873959381280914,
      "learning_rate": 1e-05,
      "loss": 0.945,
      "step": 264
    },
    {
      "epoch": 0.21184111916062953,
      "grad_norm": 1.5105067176725349,
      "learning_rate": 1e-05,
      "loss": 0.9446,
      "step": 265
    },
    {
      "epoch": 0.2126405196102923,
      "grad_norm": 1.8337058320691813,
      "learning_rate": 1e-05,
      "loss": 0.9582,
      "step": 266
    },
    {
      "epoch": 0.21343992005995505,
      "grad_norm": 1.644955596385126,
      "learning_rate": 1e-05,
      "loss": 0.9055,
      "step": 267
    },
    {
      "epoch": 0.21423932050961778,
      "grad_norm": 2.0248942495461435,
      "learning_rate": 1e-05,
      "loss": 1.0207,
      "step": 268
    },
    {
      "epoch": 0.21503872095928053,
      "grad_norm": 1.746437687084402,
      "learning_rate": 1e-05,
      "loss": 1.0093,
      "step": 269
    },
    {
      "epoch": 0.2158381214089433,
      "grad_norm": 1.719648906171914,
      "learning_rate": 1e-05,
      "loss": 0.9533,
      "step": 270
    },
    {
      "epoch": 0.21663752185860605,
      "grad_norm": 1.8380592688711606,
      "learning_rate": 1e-05,
      "loss": 0.9275,
      "step": 271
    },
    {
      "epoch": 0.2174369223082688,
      "grad_norm": 1.8205169561312367,
      "learning_rate": 1e-05,
      "loss": 0.9745,
      "step": 272
    },
    {
      "epoch": 0.21823632275793156,
      "grad_norm": 2.326139141853857,
      "learning_rate": 1e-05,
      "loss": 0.9953,
      "step": 273
    },
    {
      "epoch": 0.2190357232075943,
      "grad_norm": 1.6381092977636662,
      "learning_rate": 1e-05,
      "loss": 0.9203,
      "step": 274
    },
    {
      "epoch": 0.21983512365725705,
      "grad_norm": 1.606867524589781,
      "learning_rate": 1e-05,
      "loss": 0.9007,
      "step": 275
    },
    {
      "epoch": 0.2206345241069198,
      "grad_norm": 1.7195338383934604,
      "learning_rate": 1e-05,
      "loss": 0.9611,
      "step": 276
    },
    {
      "epoch": 0.22143392455658256,
      "grad_norm": 1.3840546682546424,
      "learning_rate": 1e-05,
      "loss": 0.9614,
      "step": 277
    },
    {
      "epoch": 0.22223332500624532,
      "grad_norm": 1.6306949714534276,
      "learning_rate": 1e-05,
      "loss": 0.9271,
      "step": 278
    },
    {
      "epoch": 0.22303272545590808,
      "grad_norm": 1.5110189180438256,
      "learning_rate": 1e-05,
      "loss": 0.9528,
      "step": 279
    },
    {
      "epoch": 0.22383212590557083,
      "grad_norm": 1.8612974867734187,
      "learning_rate": 1e-05,
      "loss": 0.9587,
      "step": 280
    },
    {
      "epoch": 0.22463152635523356,
      "grad_norm": 1.664680974165204,
      "learning_rate": 1e-05,
      "loss": 0.9129,
      "step": 281
    },
    {
      "epoch": 0.22543092680489632,
      "grad_norm": 1.7746255109018692,
      "learning_rate": 1e-05,
      "loss": 0.939,
      "step": 282
    },
    {
      "epoch": 0.22623032725455908,
      "grad_norm": 1.575200440251585,
      "learning_rate": 1e-05,
      "loss": 0.9204,
      "step": 283
    },
    {
      "epoch": 0.22702972770422183,
      "grad_norm": 1.7516406660858301,
      "learning_rate": 1e-05,
      "loss": 0.9537,
      "step": 284
    },
    {
      "epoch": 0.2278291281538846,
      "grad_norm": 1.91803098110819,
      "learning_rate": 1e-05,
      "loss": 0.9363,
      "step": 285
    },
    {
      "epoch": 0.22862852860354735,
      "grad_norm": 1.6613035583173086,
      "learning_rate": 1e-05,
      "loss": 0.9634,
      "step": 286
    },
    {
      "epoch": 0.2294279290532101,
      "grad_norm": 1.5842290188976889,
      "learning_rate": 1e-05,
      "loss": 0.9551,
      "step": 287
    },
    {
      "epoch": 0.23022732950287284,
      "grad_norm": 1.9140569815192874,
      "learning_rate": 1e-05,
      "loss": 0.9512,
      "step": 288
    },
    {
      "epoch": 0.2310267299525356,
      "grad_norm": 1.5261307902201178,
      "learning_rate": 1e-05,
      "loss": 0.96,
      "step": 289
    },
    {
      "epoch": 0.23182613040219835,
      "grad_norm": 1.682573363812062,
      "learning_rate": 1e-05,
      "loss": 0.8925,
      "step": 290
    },
    {
      "epoch": 0.2326255308518611,
      "grad_norm": 1.6358092225364382,
      "learning_rate": 1e-05,
      "loss": 0.8815,
      "step": 291
    },
    {
      "epoch": 0.23342493130152386,
      "grad_norm": 1.5670506043722536,
      "learning_rate": 1e-05,
      "loss": 0.9876,
      "step": 292
    },
    {
      "epoch": 0.23422433175118662,
      "grad_norm": 1.6299839564753011,
      "learning_rate": 1e-05,
      "loss": 0.8892,
      "step": 293
    },
    {
      "epoch": 0.23502373220084935,
      "grad_norm": 1.6554910310702649,
      "learning_rate": 1e-05,
      "loss": 0.9216,
      "step": 294
    },
    {
      "epoch": 0.2358231326505121,
      "grad_norm": 1.8037159660461701,
      "learning_rate": 1e-05,
      "loss": 0.9575,
      "step": 295
    },
    {
      "epoch": 0.23662253310017486,
      "grad_norm": 1.629165333497563,
      "learning_rate": 1e-05,
      "loss": 0.947,
      "step": 296
    },
    {
      "epoch": 0.23742193354983762,
      "grad_norm": 1.8459614666127684,
      "learning_rate": 1e-05,
      "loss": 0.9263,
      "step": 297
    },
    {
      "epoch": 0.23822133399950038,
      "grad_norm": 1.5508274722576894,
      "learning_rate": 1e-05,
      "loss": 0.9002,
      "step": 298
    },
    {
      "epoch": 0.23902073444916314,
      "grad_norm": 1.6777079971899138,
      "learning_rate": 1e-05,
      "loss": 0.9508,
      "step": 299
    },
    {
      "epoch": 0.2398201348988259,
      "grad_norm": 1.7100079727592197,
      "learning_rate": 1e-05,
      "loss": 0.935,
      "step": 300
    },
    {
      "epoch": 0.24061953534848862,
      "grad_norm": 2.1307932039198425,
      "learning_rate": 1e-05,
      "loss": 0.9233,
      "step": 301
    },
    {
      "epoch": 0.24141893579815138,
      "grad_norm": 1.883290916019245,
      "learning_rate": 1e-05,
      "loss": 0.943,
      "step": 302
    },
    {
      "epoch": 0.24221833624781414,
      "grad_norm": 1.5909650854809918,
      "learning_rate": 1e-05,
      "loss": 0.9467,
      "step": 303
    },
    {
      "epoch": 0.2430177366974769,
      "grad_norm": 1.7792900727864842,
      "learning_rate": 1e-05,
      "loss": 0.9342,
      "step": 304
    },
    {
      "epoch": 0.24381713714713965,
      "grad_norm": 1.7111474699259361,
      "learning_rate": 1e-05,
      "loss": 0.9345,
      "step": 305
    },
    {
      "epoch": 0.2446165375968024,
      "grad_norm": 1.7771845797925385,
      "learning_rate": 1e-05,
      "loss": 0.9341,
      "step": 306
    },
    {
      "epoch": 0.24541593804646514,
      "grad_norm": 1.6148130323193988,
      "learning_rate": 1e-05,
      "loss": 0.8944,
      "step": 307
    },
    {
      "epoch": 0.2462153384961279,
      "grad_norm": 1.9162065213210437,
      "learning_rate": 1e-05,
      "loss": 0.9519,
      "step": 308
    },
    {
      "epoch": 0.24701473894579065,
      "grad_norm": 1.6110529009706316,
      "learning_rate": 1e-05,
      "loss": 0.8987,
      "step": 309
    },
    {
      "epoch": 0.2478141393954534,
      "grad_norm": 1.7475182646170053,
      "learning_rate": 1e-05,
      "loss": 0.885,
      "step": 310
    },
    {
      "epoch": 0.24861353984511617,
      "grad_norm": 1.8647125722982512,
      "learning_rate": 1e-05,
      "loss": 0.9214,
      "step": 311
    },
    {
      "epoch": 0.24941294029477892,
      "grad_norm": 1.6670715424606828,
      "learning_rate": 1e-05,
      "loss": 0.9462,
      "step": 312
    },
    {
      "epoch": 0.25021234074444165,
      "grad_norm": 1.5198974766775857,
      "learning_rate": 1e-05,
      "loss": 0.9632,
      "step": 313
    },
    {
      "epoch": 0.2510117411941044,
      "grad_norm": 1.5581495649662924,
      "learning_rate": 1e-05,
      "loss": 0.9602,
      "step": 314
    },
    {
      "epoch": 0.25181114164376717,
      "grad_norm": 1.5776975494668843,
      "learning_rate": 1e-05,
      "loss": 0.9794,
      "step": 315
    },
    {
      "epoch": 0.2526105420934299,
      "grad_norm": 1.6005787401081062,
      "learning_rate": 1e-05,
      "loss": 0.8655,
      "step": 316
    },
    {
      "epoch": 0.2534099425430927,
      "grad_norm": 1.7530297645251576,
      "learning_rate": 1e-05,
      "loss": 0.915,
      "step": 317
    },
    {
      "epoch": 0.25420934299275544,
      "grad_norm": 1.8516146569735892,
      "learning_rate": 1e-05,
      "loss": 0.8734,
      "step": 318
    },
    {
      "epoch": 0.2550087434424182,
      "grad_norm": 1.5925556861862051,
      "learning_rate": 1e-05,
      "loss": 0.9356,
      "step": 319
    },
    {
      "epoch": 0.25580814389208095,
      "grad_norm": 1.7942857409055468,
      "learning_rate": 1e-05,
      "loss": 0.925,
      "step": 320
    },
    {
      "epoch": 0.2566075443417437,
      "grad_norm": 1.7301914879145586,
      "learning_rate": 1e-05,
      "loss": 0.896,
      "step": 321
    },
    {
      "epoch": 0.25740694479140647,
      "grad_norm": 1.5868880054016326,
      "learning_rate": 1e-05,
      "loss": 0.9021,
      "step": 322
    },
    {
      "epoch": 0.2582063452410692,
      "grad_norm": 1.7680256022363232,
      "learning_rate": 1e-05,
      "loss": 0.9309,
      "step": 323
    },
    {
      "epoch": 0.2590057456907319,
      "grad_norm": 1.586312615898128,
      "learning_rate": 1e-05,
      "loss": 1.0129,
      "step": 324
    },
    {
      "epoch": 0.2598051461403947,
      "grad_norm": 1.8702172203637788,
      "learning_rate": 1e-05,
      "loss": 0.9423,
      "step": 325
    },
    {
      "epoch": 0.26060454659005744,
      "grad_norm": 1.6231753647103917,
      "learning_rate": 1e-05,
      "loss": 0.9192,
      "step": 326
    },
    {
      "epoch": 0.2614039470397202,
      "grad_norm": 1.6717011992423259,
      "learning_rate": 1e-05,
      "loss": 0.9214,
      "step": 327
    },
    {
      "epoch": 0.26220334748938295,
      "grad_norm": 1.6440233759725276,
      "learning_rate": 1e-05,
      "loss": 0.9525,
      "step": 328
    },
    {
      "epoch": 0.2630027479390457,
      "grad_norm": 1.6336229619568068,
      "learning_rate": 1e-05,
      "loss": 0.9072,
      "step": 329
    },
    {
      "epoch": 0.26380214838870847,
      "grad_norm": 1.794138937818925,
      "learning_rate": 1e-05,
      "loss": 0.9081,
      "step": 330
    },
    {
      "epoch": 0.2646015488383712,
      "grad_norm": 1.7000293714077805,
      "learning_rate": 1e-05,
      "loss": 0.9311,
      "step": 331
    },
    {
      "epoch": 0.265400949288034,
      "grad_norm": 1.7629207816569556,
      "learning_rate": 1e-05,
      "loss": 0.8942,
      "step": 332
    },
    {
      "epoch": 0.26620034973769674,
      "grad_norm": 1.7243708406916276,
      "learning_rate": 1e-05,
      "loss": 0.9009,
      "step": 333
    },
    {
      "epoch": 0.2669997501873595,
      "grad_norm": 1.5153725886830214,
      "learning_rate": 1e-05,
      "loss": 0.946,
      "step": 334
    },
    {
      "epoch": 0.26779915063702225,
      "grad_norm": 1.5897189873039888,
      "learning_rate": 1e-05,
      "loss": 0.8988,
      "step": 335
    },
    {
      "epoch": 0.268598551086685,
      "grad_norm": 1.7792011474569303,
      "learning_rate": 1e-05,
      "loss": 0.9075,
      "step": 336
    },
    {
      "epoch": 0.2693979515363477,
      "grad_norm": 1.715871716234354,
      "learning_rate": 1e-05,
      "loss": 0.9488,
      "step": 337
    },
    {
      "epoch": 0.27019735198601047,
      "grad_norm": 1.7421673985618036,
      "learning_rate": 1e-05,
      "loss": 0.9265,
      "step": 338
    },
    {
      "epoch": 0.2709967524356732,
      "grad_norm": 1.701591645181251,
      "learning_rate": 1e-05,
      "loss": 0.9134,
      "step": 339
    },
    {
      "epoch": 0.271796152885336,
      "grad_norm": 1.5763851776425317,
      "learning_rate": 1e-05,
      "loss": 0.9059,
      "step": 340
    },
    {
      "epoch": 0.27259555333499874,
      "grad_norm": 1.8860488547053122,
      "learning_rate": 1e-05,
      "loss": 0.9379,
      "step": 341
    },
    {
      "epoch": 0.2733949537846615,
      "grad_norm": 1.6278214908005035,
      "learning_rate": 1e-05,
      "loss": 0.9041,
      "step": 342
    },
    {
      "epoch": 0.27419435423432426,
      "grad_norm": 1.8591339922582193,
      "learning_rate": 1e-05,
      "loss": 0.9159,
      "step": 343
    },
    {
      "epoch": 0.274993754683987,
      "grad_norm": 1.6416932855404107,
      "learning_rate": 1e-05,
      "loss": 0.9334,
      "step": 344
    },
    {
      "epoch": 0.27579315513364977,
      "grad_norm": 1.5841499089670428,
      "learning_rate": 1e-05,
      "loss": 0.8758,
      "step": 345
    },
    {
      "epoch": 0.2765925555833125,
      "grad_norm": 1.4885385714768005,
      "learning_rate": 1e-05,
      "loss": 0.9482,
      "step": 346
    },
    {
      "epoch": 0.2773919560329753,
      "grad_norm": 1.652595269550327,
      "learning_rate": 1e-05,
      "loss": 0.9341,
      "step": 347
    },
    {
      "epoch": 0.27819135648263804,
      "grad_norm": 1.569292511449757,
      "learning_rate": 1e-05,
      "loss": 0.9395,
      "step": 348
    },
    {
      "epoch": 0.2789907569323008,
      "grad_norm": 1.8816669651120839,
      "learning_rate": 1e-05,
      "loss": 0.879,
      "step": 349
    },
    {
      "epoch": 0.2797901573819635,
      "grad_norm": 1.8044366358437511,
      "learning_rate": 1e-05,
      "loss": 0.9476,
      "step": 350
    },
    {
      "epoch": 0.28058955783162626,
      "grad_norm": 1.581864578938978,
      "learning_rate": 1e-05,
      "loss": 0.9443,
      "step": 351
    },
    {
      "epoch": 0.281388958281289,
      "grad_norm": 1.719778574188113,
      "learning_rate": 1e-05,
      "loss": 0.9682,
      "step": 352
    },
    {
      "epoch": 0.28218835873095177,
      "grad_norm": 1.7544745777196906,
      "learning_rate": 1e-05,
      "loss": 0.935,
      "step": 353
    },
    {
      "epoch": 0.28298775918061453,
      "grad_norm": 1.529692690903228,
      "learning_rate": 1e-05,
      "loss": 0.899,
      "step": 354
    },
    {
      "epoch": 0.2837871596302773,
      "grad_norm": 1.7002824332518707,
      "learning_rate": 1e-05,
      "loss": 0.9089,
      "step": 355
    },
    {
      "epoch": 0.28458656007994004,
      "grad_norm": 1.6960676218935922,
      "learning_rate": 1e-05,
      "loss": 0.9131,
      "step": 356
    },
    {
      "epoch": 0.2853859605296028,
      "grad_norm": 1.5467919520374653,
      "learning_rate": 1e-05,
      "loss": 0.9234,
      "step": 357
    },
    {
      "epoch": 0.28618536097926556,
      "grad_norm": 1.5401712398267708,
      "learning_rate": 1e-05,
      "loss": 0.8821,
      "step": 358
    },
    {
      "epoch": 0.2869847614289283,
      "grad_norm": 1.713197431966504,
      "learning_rate": 1e-05,
      "loss": 0.9755,
      "step": 359
    },
    {
      "epoch": 0.28778416187859107,
      "grad_norm": 1.5846038726149987,
      "learning_rate": 1e-05,
      "loss": 0.9637,
      "step": 360
    },
    {
      "epoch": 0.28858356232825383,
      "grad_norm": 1.9337936027301381,
      "learning_rate": 1e-05,
      "loss": 0.9208,
      "step": 361
    },
    {
      "epoch": 0.2893829627779166,
      "grad_norm": 1.6240977396645668,
      "learning_rate": 1e-05,
      "loss": 0.9235,
      "step": 362
    },
    {
      "epoch": 0.29018236322757934,
      "grad_norm": 1.7452206300395003,
      "learning_rate": 1e-05,
      "loss": 0.9553,
      "step": 363
    },
    {
      "epoch": 0.29098176367724204,
      "grad_norm": 1.7207282088148232,
      "learning_rate": 1e-05,
      "loss": 0.9996,
      "step": 364
    },
    {
      "epoch": 0.2917811641269048,
      "grad_norm": 1.6238156006165856,
      "learning_rate": 1e-05,
      "loss": 0.9492,
      "step": 365
    },
    {
      "epoch": 0.29258056457656756,
      "grad_norm": 1.7217996073600954,
      "learning_rate": 1e-05,
      "loss": 0.9659,
      "step": 366
    },
    {
      "epoch": 0.2933799650262303,
      "grad_norm": 1.7599545299893906,
      "learning_rate": 1e-05,
      "loss": 0.8954,
      "step": 367
    },
    {
      "epoch": 0.2941793654758931,
      "grad_norm": 1.8392526222961474,
      "learning_rate": 1e-05,
      "loss": 0.9028,
      "step": 368
    },
    {
      "epoch": 0.29497876592555583,
      "grad_norm": 1.4791987859922466,
      "learning_rate": 1e-05,
      "loss": 0.9207,
      "step": 369
    },
    {
      "epoch": 0.2957781663752186,
      "grad_norm": 1.4806074723615978,
      "learning_rate": 1e-05,
      "loss": 0.9419,
      "step": 370
    },
    {
      "epoch": 0.29657756682488134,
      "grad_norm": 1.7004917267851303,
      "learning_rate": 1e-05,
      "loss": 0.9354,
      "step": 371
    },
    {
      "epoch": 0.2973769672745441,
      "grad_norm": 1.6234361909723023,
      "learning_rate": 1e-05,
      "loss": 0.8969,
      "step": 372
    },
    {
      "epoch": 0.29817636772420686,
      "grad_norm": 1.5271331279708817,
      "learning_rate": 1e-05,
      "loss": 0.9455,
      "step": 373
    },
    {
      "epoch": 0.2989757681738696,
      "grad_norm": 1.622230251696962,
      "learning_rate": 1e-05,
      "loss": 0.9504,
      "step": 374
    },
    {
      "epoch": 0.2997751686235324,
      "grad_norm": 1.807073970989606,
      "learning_rate": 1e-05,
      "loss": 0.9,
      "step": 375
    },
    {
      "epoch": 0.30057456907319513,
      "grad_norm": 1.4951410146162138,
      "learning_rate": 1e-05,
      "loss": 0.9664,
      "step": 376
    },
    {
      "epoch": 0.30137396952285783,
      "grad_norm": 1.813020482613949,
      "learning_rate": 1e-05,
      "loss": 0.9441,
      "step": 377
    },
    {
      "epoch": 0.3021733699725206,
      "grad_norm": 2.0285660578298046,
      "learning_rate": 1e-05,
      "loss": 0.8861,
      "step": 378
    },
    {
      "epoch": 0.30297277042218335,
      "grad_norm": 1.6967916115297645,
      "learning_rate": 1e-05,
      "loss": 0.9321,
      "step": 379
    },
    {
      "epoch": 0.3037721708718461,
      "grad_norm": 1.7022095887528572,
      "learning_rate": 1e-05,
      "loss": 0.9613,
      "step": 380
    },
    {
      "epoch": 0.30457157132150886,
      "grad_norm": 1.719645739549248,
      "learning_rate": 1e-05,
      "loss": 0.9219,
      "step": 381
    },
    {
      "epoch": 0.3053709717711716,
      "grad_norm": 1.6526243786903378,
      "learning_rate": 1e-05,
      "loss": 0.9069,
      "step": 382
    },
    {
      "epoch": 0.3061703722208344,
      "grad_norm": 1.554593608182918,
      "learning_rate": 1e-05,
      "loss": 0.8863,
      "step": 383
    },
    {
      "epoch": 0.30696977267049713,
      "grad_norm": 1.7296741561953324,
      "learning_rate": 1e-05,
      "loss": 0.9965,
      "step": 384
    },
    {
      "epoch": 0.3077691731201599,
      "grad_norm": 1.7765959484743603,
      "learning_rate": 1e-05,
      "loss": 0.9024,
      "step": 385
    },
    {
      "epoch": 0.30856857356982265,
      "grad_norm": 1.7444591927862072,
      "learning_rate": 1e-05,
      "loss": 0.9491,
      "step": 386
    },
    {
      "epoch": 0.3093679740194854,
      "grad_norm": 1.6979650733135505,
      "learning_rate": 1e-05,
      "loss": 0.9633,
      "step": 387
    },
    {
      "epoch": 0.31016737446914816,
      "grad_norm": 1.6518215838203623,
      "learning_rate": 1e-05,
      "loss": 0.8594,
      "step": 388
    },
    {
      "epoch": 0.3109667749188109,
      "grad_norm": 1.597669753265097,
      "learning_rate": 1e-05,
      "loss": 0.8807,
      "step": 389
    },
    {
      "epoch": 0.3117661753684736,
      "grad_norm": 1.7005856529533696,
      "learning_rate": 1e-05,
      "loss": 0.9136,
      "step": 390
    },
    {
      "epoch": 0.3125655758181364,
      "grad_norm": 1.714793495031338,
      "learning_rate": 1e-05,
      "loss": 0.8969,
      "step": 391
    },
    {
      "epoch": 0.31336497626779913,
      "grad_norm": 1.5558141368768388,
      "learning_rate": 1e-05,
      "loss": 0.9257,
      "step": 392
    },
    {
      "epoch": 0.3141643767174619,
      "grad_norm": 1.5404155153049455,
      "learning_rate": 1e-05,
      "loss": 0.8779,
      "step": 393
    },
    {
      "epoch": 0.31496377716712465,
      "grad_norm": 1.5383972642859716,
      "learning_rate": 1e-05,
      "loss": 0.9707,
      "step": 394
    },
    {
      "epoch": 0.3157631776167874,
      "grad_norm": 1.7191998432330473,
      "learning_rate": 1e-05,
      "loss": 0.9126,
      "step": 395
    },
    {
      "epoch": 0.31656257806645016,
      "grad_norm": 1.6051194326495044,
      "learning_rate": 1e-05,
      "loss": 0.8822,
      "step": 396
    },
    {
      "epoch": 0.3173619785161129,
      "grad_norm": 1.6869656351879205,
      "learning_rate": 1e-05,
      "loss": 0.9343,
      "step": 397
    },
    {
      "epoch": 0.3181613789657757,
      "grad_norm": 1.6256734963382786,
      "learning_rate": 1e-05,
      "loss": 0.9156,
      "step": 398
    },
    {
      "epoch": 0.31896077941543843,
      "grad_norm": 1.5756449476038674,
      "learning_rate": 1e-05,
      "loss": 0.9807,
      "step": 399
    },
    {
      "epoch": 0.3197601798651012,
      "grad_norm": 1.6188490159724278,
      "learning_rate": 1e-05,
      "loss": 0.9644,
      "step": 400
    },
    {
      "epoch": 0.32055958031476395,
      "grad_norm": 1.94007311994945,
      "learning_rate": 1e-05,
      "loss": 0.9614,
      "step": 401
    },
    {
      "epoch": 0.3213589807644267,
      "grad_norm": 1.659086295612128,
      "learning_rate": 1e-05,
      "loss": 0.944,
      "step": 402
    },
    {
      "epoch": 0.3221583812140894,
      "grad_norm": 1.9235409755089947,
      "learning_rate": 1e-05,
      "loss": 0.9259,
      "step": 403
    },
    {
      "epoch": 0.32295778166375216,
      "grad_norm": 1.5880918105995026,
      "learning_rate": 1e-05,
      "loss": 0.9255,
      "step": 404
    },
    {
      "epoch": 0.3237571821134149,
      "grad_norm": 1.4948152435643522,
      "learning_rate": 1e-05,
      "loss": 0.926,
      "step": 405
    },
    {
      "epoch": 0.3245565825630777,
      "grad_norm": 1.5350941186461544,
      "learning_rate": 1e-05,
      "loss": 0.898,
      "step": 406
    },
    {
      "epoch": 0.32535598301274044,
      "grad_norm": 1.3466986686471294,
      "learning_rate": 1e-05,
      "loss": 0.8904,
      "step": 407
    },
    {
      "epoch": 0.3261553834624032,
      "grad_norm": 1.459891336046445,
      "learning_rate": 1e-05,
      "loss": 0.8817,
      "step": 408
    },
    {
      "epoch": 0.32695478391206595,
      "grad_norm": 1.4836727854431802,
      "learning_rate": 1e-05,
      "loss": 0.9216,
      "step": 409
    },
    {
      "epoch": 0.3277541843617287,
      "grad_norm": 1.6446226209440065,
      "learning_rate": 1e-05,
      "loss": 0.9249,
      "step": 410
    },
    {
      "epoch": 0.32855358481139146,
      "grad_norm": 1.5635297277867413,
      "learning_rate": 1e-05,
      "loss": 0.9122,
      "step": 411
    },
    {
      "epoch": 0.3293529852610542,
      "grad_norm": 1.6358281167528332,
      "learning_rate": 1e-05,
      "loss": 0.8843,
      "step": 412
    },
    {
      "epoch": 0.330152385710717,
      "grad_norm": 1.5404191221381782,
      "learning_rate": 1e-05,
      "loss": 0.9106,
      "step": 413
    },
    {
      "epoch": 0.33095178616037974,
      "grad_norm": 1.5879004668639547,
      "learning_rate": 1e-05,
      "loss": 0.9211,
      "step": 414
    },
    {
      "epoch": 0.3317511866100425,
      "grad_norm": 1.790797443056402,
      "learning_rate": 1e-05,
      "loss": 0.9211,
      "step": 415
    },
    {
      "epoch": 0.3325505870597052,
      "grad_norm": 1.8179861905661685,
      "learning_rate": 1e-05,
      "loss": 0.9391,
      "step": 416
    },
    {
      "epoch": 0.33334998750936795,
      "grad_norm": 1.4379165089707215,
      "learning_rate": 1e-05,
      "loss": 0.9021,
      "step": 417
    },
    {
      "epoch": 0.3341493879590307,
      "grad_norm": 1.7134688617321956,
      "learning_rate": 1e-05,
      "loss": 0.9833,
      "step": 418
    },
    {
      "epoch": 0.33494878840869347,
      "grad_norm": 1.4039431214440103,
      "learning_rate": 1e-05,
      "loss": 0.888,
      "step": 419
    },
    {
      "epoch": 0.3357481888583562,
      "grad_norm": 1.6586329038004721,
      "learning_rate": 1e-05,
      "loss": 0.9088,
      "step": 420
    },
    {
      "epoch": 0.336547589308019,
      "grad_norm": 1.900128933012227,
      "learning_rate": 1e-05,
      "loss": 0.9,
      "step": 421
    },
    {
      "epoch": 0.33734698975768174,
      "grad_norm": 1.5890662573554606,
      "learning_rate": 1e-05,
      "loss": 0.9029,
      "step": 422
    },
    {
      "epoch": 0.3381463902073445,
      "grad_norm": 1.495628306935103,
      "learning_rate": 1e-05,
      "loss": 0.919,
      "step": 423
    },
    {
      "epoch": 0.33894579065700725,
      "grad_norm": 1.4495521814015604,
      "learning_rate": 1e-05,
      "loss": 0.9967,
      "step": 424
    },
    {
      "epoch": 0.33974519110667,
      "grad_norm": 1.7055256640065686,
      "learning_rate": 1e-05,
      "loss": 0.9769,
      "step": 425
    },
    {
      "epoch": 0.34054459155633277,
      "grad_norm": 1.4909741619159311,
      "learning_rate": 1e-05,
      "loss": 0.9152,
      "step": 426
    },
    {
      "epoch": 0.3413439920059955,
      "grad_norm": 1.628227110908977,
      "learning_rate": 1e-05,
      "loss": 0.955,
      "step": 427
    },
    {
      "epoch": 0.3421433924556583,
      "grad_norm": 1.8220036868892047,
      "learning_rate": 1e-05,
      "loss": 0.8972,
      "step": 428
    },
    {
      "epoch": 0.34294279290532104,
      "grad_norm": 1.693415237669836,
      "learning_rate": 1e-05,
      "loss": 0.9063,
      "step": 429
    },
    {
      "epoch": 0.34374219335498374,
      "grad_norm": 1.5346322329118909,
      "learning_rate": 1e-05,
      "loss": 0.8737,
      "step": 430
    },
    {
      "epoch": 0.3445415938046465,
      "grad_norm": 1.523134303904886,
      "learning_rate": 1e-05,
      "loss": 0.9522,
      "step": 431
    },
    {
      "epoch": 0.34534099425430925,
      "grad_norm": 1.8163891768400675,
      "learning_rate": 1e-05,
      "loss": 0.9254,
      "step": 432
    },
    {
      "epoch": 0.346140394703972,
      "grad_norm": 1.6001042968512986,
      "learning_rate": 1e-05,
      "loss": 0.9393,
      "step": 433
    },
    {
      "epoch": 0.34693979515363477,
      "grad_norm": 1.4962110538157338,
      "learning_rate": 1e-05,
      "loss": 0.9016,
      "step": 434
    },
    {
      "epoch": 0.3477391956032975,
      "grad_norm": 1.7041821659704226,
      "learning_rate": 1e-05,
      "loss": 0.8586,
      "step": 435
    },
    {
      "epoch": 0.3485385960529603,
      "grad_norm": 1.6883017856053422,
      "learning_rate": 1e-05,
      "loss": 0.9729,
      "step": 436
    },
    {
      "epoch": 0.34933799650262304,
      "grad_norm": 1.6846925338485461,
      "learning_rate": 1e-05,
      "loss": 0.9379,
      "step": 437
    },
    {
      "epoch": 0.3501373969522858,
      "grad_norm": 1.8235246867955863,
      "learning_rate": 1e-05,
      "loss": 0.9248,
      "step": 438
    },
    {
      "epoch": 0.35093679740194855,
      "grad_norm": 1.935505500625835,
      "learning_rate": 1e-05,
      "loss": 0.9371,
      "step": 439
    },
    {
      "epoch": 0.3517361978516113,
      "grad_norm": 1.67613124761384,
      "learning_rate": 1e-05,
      "loss": 0.979,
      "step": 440
    },
    {
      "epoch": 0.35253559830127407,
      "grad_norm": 1.4449954490901646,
      "learning_rate": 1e-05,
      "loss": 0.968,
      "step": 441
    },
    {
      "epoch": 0.3533349987509368,
      "grad_norm": 1.5913830352404914,
      "learning_rate": 1e-05,
      "loss": 0.964,
      "step": 442
    },
    {
      "epoch": 0.3541343992005995,
      "grad_norm": 1.7168730495466147,
      "learning_rate": 1e-05,
      "loss": 0.9138,
      "step": 443
    },
    {
      "epoch": 0.3549337996502623,
      "grad_norm": 1.6307072180820321,
      "learning_rate": 1e-05,
      "loss": 0.9472,
      "step": 444
    },
    {
      "epoch": 0.35573320009992504,
      "grad_norm": 1.6118353409303823,
      "learning_rate": 1e-05,
      "loss": 0.9645,
      "step": 445
    },
    {
      "epoch": 0.3565326005495878,
      "grad_norm": 1.6940859087140694,
      "learning_rate": 1e-05,
      "loss": 0.9815,
      "step": 446
    },
    {
      "epoch": 0.35733200099925055,
      "grad_norm": 1.8606216696352482,
      "learning_rate": 1e-05,
      "loss": 0.9805,
      "step": 447
    },
    {
      "epoch": 0.3581314014489133,
      "grad_norm": 1.532089096889218,
      "learning_rate": 1e-05,
      "loss": 0.9393,
      "step": 448
    },
    {
      "epoch": 0.35893080189857607,
      "grad_norm": 1.6384290071957173,
      "learning_rate": 1e-05,
      "loss": 0.9459,
      "step": 449
    },
    {
      "epoch": 0.3597302023482388,
      "grad_norm": 1.5244481340256106,
      "learning_rate": 1e-05,
      "loss": 0.977,
      "step": 450
    },
    {
      "epoch": 0.3605296027979016,
      "grad_norm": 1.6337567843902518,
      "learning_rate": 1e-05,
      "loss": 0.8991,
      "step": 451
    },
    {
      "epoch": 0.36132900324756434,
      "grad_norm": 1.7963360988533934,
      "learning_rate": 1e-05,
      "loss": 0.9087,
      "step": 452
    },
    {
      "epoch": 0.3621284036972271,
      "grad_norm": 1.696315268595366,
      "learning_rate": 1e-05,
      "loss": 0.9242,
      "step": 453
    },
    {
      "epoch": 0.36292780414688985,
      "grad_norm": 1.710036005807286,
      "learning_rate": 1e-05,
      "loss": 0.8429,
      "step": 454
    },
    {
      "epoch": 0.3637272045965526,
      "grad_norm": 1.749452843653296,
      "learning_rate": 1e-05,
      "loss": 0.9133,
      "step": 455
    },
    {
      "epoch": 0.3645266050462153,
      "grad_norm": 1.4397928987828232,
      "learning_rate": 1e-05,
      "loss": 0.8427,
      "step": 456
    },
    {
      "epoch": 0.36532600549587807,
      "grad_norm": 1.6825466790780408,
      "learning_rate": 1e-05,
      "loss": 0.89,
      "step": 457
    },
    {
      "epoch": 0.3661254059455408,
      "grad_norm": 1.6056927709310882,
      "learning_rate": 1e-05,
      "loss": 0.9421,
      "step": 458
    },
    {
      "epoch": 0.3669248063952036,
      "grad_norm": 1.5861038676425987,
      "learning_rate": 1e-05,
      "loss": 0.9496,
      "step": 459
    },
    {
      "epoch": 0.36772420684486634,
      "grad_norm": 1.6684621776248278,
      "learning_rate": 1e-05,
      "loss": 0.884,
      "step": 460
    },
    {
      "epoch": 0.3685236072945291,
      "grad_norm": 1.758026110496432,
      "learning_rate": 1e-05,
      "loss": 0.9441,
      "step": 461
    },
    {
      "epoch": 0.36932300774419186,
      "grad_norm": 1.4763506224586516,
      "learning_rate": 1e-05,
      "loss": 0.9393,
      "step": 462
    },
    {
      "epoch": 0.3701224081938546,
      "grad_norm": 1.5509318071640712,
      "learning_rate": 1e-05,
      "loss": 0.8643,
      "step": 463
    },
    {
      "epoch": 0.37092180864351737,
      "grad_norm": 1.5607192206519345,
      "learning_rate": 1e-05,
      "loss": 0.9165,
      "step": 464
    },
    {
      "epoch": 0.3717212090931801,
      "grad_norm": 1.6511236719507991,
      "learning_rate": 1e-05,
      "loss": 0.9421,
      "step": 465
    },
    {
      "epoch": 0.3725206095428429,
      "grad_norm": 1.6501362966399429,
      "learning_rate": 1e-05,
      "loss": 0.915,
      "step": 466
    },
    {
      "epoch": 0.37332000999250564,
      "grad_norm": 1.5207720771291409,
      "learning_rate": 1e-05,
      "loss": 0.9454,
      "step": 467
    },
    {
      "epoch": 0.3741194104421684,
      "grad_norm": 1.5392735956515966,
      "learning_rate": 1e-05,
      "loss": 0.956,
      "step": 468
    },
    {
      "epoch": 0.3749188108918311,
      "grad_norm": 1.5940306759004237,
      "learning_rate": 1e-05,
      "loss": 0.8719,
      "step": 469
    },
    {
      "epoch": 0.37571821134149386,
      "grad_norm": 1.6908424326030602,
      "learning_rate": 1e-05,
      "loss": 0.9255,
      "step": 470
    },
    {
      "epoch": 0.3765176117911566,
      "grad_norm": 1.4928846149782238,
      "learning_rate": 1e-05,
      "loss": 0.9378,
      "step": 471
    },
    {
      "epoch": 0.37731701224081937,
      "grad_norm": 1.7041500499453686,
      "learning_rate": 1e-05,
      "loss": 0.8734,
      "step": 472
    },
    {
      "epoch": 0.37811641269048213,
      "grad_norm": 1.619189516937598,
      "learning_rate": 1e-05,
      "loss": 0.9063,
      "step": 473
    },
    {
      "epoch": 0.3789158131401449,
      "grad_norm": 1.6588364324248581,
      "learning_rate": 1e-05,
      "loss": 0.8701,
      "step": 474
    },
    {
      "epoch": 0.37971521358980764,
      "grad_norm": 1.5762727848791807,
      "learning_rate": 1e-05,
      "loss": 0.9497,
      "step": 475
    },
    {
      "epoch": 0.3805146140394704,
      "grad_norm": 1.5363970090025982,
      "learning_rate": 1e-05,
      "loss": 0.9918,
      "step": 476
    },
    {
      "epoch": 0.38131401448913316,
      "grad_norm": 1.6404231232106667,
      "learning_rate": 1e-05,
      "loss": 0.9056,
      "step": 477
    },
    {
      "epoch": 0.3821134149387959,
      "grad_norm": 1.6314596845516385,
      "learning_rate": 1e-05,
      "loss": 0.928,
      "step": 478
    },
    {
      "epoch": 0.38291281538845867,
      "grad_norm": 1.6126677835331522,
      "learning_rate": 1e-05,
      "loss": 0.9978,
      "step": 479
    },
    {
      "epoch": 0.38371221583812143,
      "grad_norm": 1.3173664389567725,
      "learning_rate": 1e-05,
      "loss": 0.9158,
      "step": 480
    },
    {
      "epoch": 0.3845116162877842,
      "grad_norm": 1.496540187325337,
      "learning_rate": 1e-05,
      "loss": 0.9378,
      "step": 481
    },
    {
      "epoch": 0.3853110167374469,
      "grad_norm": 1.5062068173629883,
      "learning_rate": 1e-05,
      "loss": 0.9159,
      "step": 482
    },
    {
      "epoch": 0.38611041718710964,
      "grad_norm": 1.529187603034289,
      "learning_rate": 1e-05,
      "loss": 0.951,
      "step": 483
    },
    {
      "epoch": 0.3869098176367724,
      "grad_norm": 1.5635118437005366,
      "learning_rate": 1e-05,
      "loss": 0.9291,
      "step": 484
    },
    {
      "epoch": 0.38770921808643516,
      "grad_norm": 1.6646247338291131,
      "learning_rate": 1e-05,
      "loss": 0.874,
      "step": 485
    },
    {
      "epoch": 0.3885086185360979,
      "grad_norm": 1.6470189371191908,
      "learning_rate": 1e-05,
      "loss": 0.9118,
      "step": 486
    },
    {
      "epoch": 0.3893080189857607,
      "grad_norm": 1.4041767343860398,
      "learning_rate": 1e-05,
      "loss": 0.9193,
      "step": 487
    },
    {
      "epoch": 0.39010741943542343,
      "grad_norm": 1.637354519439742,
      "learning_rate": 1e-05,
      "loss": 0.9622,
      "step": 488
    },
    {
      "epoch": 0.3909068198850862,
      "grad_norm": 1.6793914337693705,
      "learning_rate": 1e-05,
      "loss": 0.8591,
      "step": 489
    },
    {
      "epoch": 0.39170622033474894,
      "grad_norm": 1.631823843080509,
      "learning_rate": 1e-05,
      "loss": 0.9061,
      "step": 490
    },
    {
      "epoch": 0.3925056207844117,
      "grad_norm": 1.4551068376984746,
      "learning_rate": 1e-05,
      "loss": 0.886,
      "step": 491
    },
    {
      "epoch": 0.39330502123407446,
      "grad_norm": 1.843148583217912,
      "learning_rate": 1e-05,
      "loss": 0.8748,
      "step": 492
    },
    {
      "epoch": 0.3941044216837372,
      "grad_norm": 1.503885142875128,
      "learning_rate": 1e-05,
      "loss": 0.9208,
      "step": 493
    },
    {
      "epoch": 0.3949038221334,
      "grad_norm": 1.7406094685573732,
      "learning_rate": 1e-05,
      "loss": 0.8786,
      "step": 494
    },
    {
      "epoch": 0.39570322258306273,
      "grad_norm": 1.730586930891903,
      "learning_rate": 1e-05,
      "loss": 0.9157,
      "step": 495
    },
    {
      "epoch": 0.39650262303272543,
      "grad_norm": 1.5528810488930866,
      "learning_rate": 1e-05,
      "loss": 0.9142,
      "step": 496
    },
    {
      "epoch": 0.3973020234823882,
      "grad_norm": 1.5307301129466364,
      "learning_rate": 1e-05,
      "loss": 0.9415,
      "step": 497
    },
    {
      "epoch": 0.39810142393205095,
      "grad_norm": 1.5706393811203467,
      "learning_rate": 1e-05,
      "loss": 0.8912,
      "step": 498
    },
    {
      "epoch": 0.3989008243817137,
      "grad_norm": 1.6199448054984131,
      "learning_rate": 1e-05,
      "loss": 0.9175,
      "step": 499
    },
    {
      "epoch": 0.39970022483137646,
      "grad_norm": 1.4945708663613873,
      "learning_rate": 1e-05,
      "loss": 0.8961,
      "step": 500
    },
    {
      "epoch": 0.4004996252810392,
      "grad_norm": 1.5533154327294227,
      "learning_rate": 1e-05,
      "loss": 0.9356,
      "step": 501
    },
    {
      "epoch": 0.401299025730702,
      "grad_norm": 1.5325963522620767,
      "learning_rate": 1e-05,
      "loss": 0.965,
      "step": 502
    },
    {
      "epoch": 0.40209842618036473,
      "grad_norm": 1.671999510186726,
      "learning_rate": 1e-05,
      "loss": 0.8271,
      "step": 503
    },
    {
      "epoch": 0.4028978266300275,
      "grad_norm": 1.5355767548245969,
      "learning_rate": 1e-05,
      "loss": 0.9497,
      "step": 504
    },
    {
      "epoch": 0.40369722707969025,
      "grad_norm": 1.6030539969868434,
      "learning_rate": 1e-05,
      "loss": 0.9291,
      "step": 505
    },
    {
      "epoch": 0.404496627529353,
      "grad_norm": 1.6407538986876247,
      "learning_rate": 1e-05,
      "loss": 0.9878,
      "step": 506
    },
    {
      "epoch": 0.40529602797901576,
      "grad_norm": 1.7688356573735502,
      "learning_rate": 1e-05,
      "loss": 0.9665,
      "step": 507
    },
    {
      "epoch": 0.4060954284286785,
      "grad_norm": 1.5607970481443443,
      "learning_rate": 1e-05,
      "loss": 0.9488,
      "step": 508
    },
    {
      "epoch": 0.4068948288783412,
      "grad_norm": 1.6161754040719796,
      "learning_rate": 1e-05,
      "loss": 0.858,
      "step": 509
    },
    {
      "epoch": 0.407694229328004,
      "grad_norm": 1.5793085315204543,
      "learning_rate": 1e-05,
      "loss": 0.8956,
      "step": 510
    },
    {
      "epoch": 0.40849362977766673,
      "grad_norm": 1.5936599885814402,
      "learning_rate": 1e-05,
      "loss": 0.9348,
      "step": 511
    },
    {
      "epoch": 0.4092930302273295,
      "grad_norm": 1.5658605524297327,
      "learning_rate": 1e-05,
      "loss": 0.9389,
      "step": 512
    },
    {
      "epoch": 0.41009243067699225,
      "grad_norm": 1.5921115812648192,
      "learning_rate": 1e-05,
      "loss": 0.8438,
      "step": 513
    },
    {
      "epoch": 0.410891831126655,
      "grad_norm": 1.8163231036582868,
      "learning_rate": 1e-05,
      "loss": 0.9064,
      "step": 514
    },
    {
      "epoch": 0.41169123157631776,
      "grad_norm": 1.5950813731389535,
      "learning_rate": 1e-05,
      "loss": 0.9172,
      "step": 515
    },
    {
      "epoch": 0.4124906320259805,
      "grad_norm": 1.689588168520015,
      "learning_rate": 1e-05,
      "loss": 0.9265,
      "step": 516
    },
    {
      "epoch": 0.4132900324756433,
      "grad_norm": 1.540041600561803,
      "learning_rate": 1e-05,
      "loss": 0.9189,
      "step": 517
    },
    {
      "epoch": 0.41408943292530603,
      "grad_norm": 1.6662920193878612,
      "learning_rate": 1e-05,
      "loss": 0.9155,
      "step": 518
    },
    {
      "epoch": 0.4148888333749688,
      "grad_norm": 1.6860065883672692,
      "learning_rate": 1e-05,
      "loss": 0.9608,
      "step": 519
    },
    {
      "epoch": 0.41568823382463155,
      "grad_norm": 1.7503429857603447,
      "learning_rate": 1e-05,
      "loss": 0.8936,
      "step": 520
    },
    {
      "epoch": 0.4164876342742943,
      "grad_norm": 1.4349809774745903,
      "learning_rate": 1e-05,
      "loss": 0.9076,
      "step": 521
    },
    {
      "epoch": 0.417287034723957,
      "grad_norm": 1.6525870899508948,
      "learning_rate": 1e-05,
      "loss": 0.951,
      "step": 522
    },
    {
      "epoch": 0.41808643517361976,
      "grad_norm": 1.305941403451334,
      "learning_rate": 1e-05,
      "loss": 0.9039,
      "step": 523
    },
    {
      "epoch": 0.4188858356232825,
      "grad_norm": 1.5535189677415364,
      "learning_rate": 1e-05,
      "loss": 0.9101,
      "step": 524
    },
    {
      "epoch": 0.4196852360729453,
      "grad_norm": 1.390869042188358,
      "learning_rate": 1e-05,
      "loss": 0.8821,
      "step": 525
    },
    {
      "epoch": 0.42048463652260804,
      "grad_norm": 1.6086764868308612,
      "learning_rate": 1e-05,
      "loss": 0.9494,
      "step": 526
    },
    {
      "epoch": 0.4212840369722708,
      "grad_norm": 1.5277453444137763,
      "learning_rate": 1e-05,
      "loss": 0.9042,
      "step": 527
    },
    {
      "epoch": 0.42208343742193355,
      "grad_norm": 1.5037652064794895,
      "learning_rate": 1e-05,
      "loss": 0.8973,
      "step": 528
    },
    {
      "epoch": 0.4228828378715963,
      "grad_norm": 1.630788946234423,
      "learning_rate": 1e-05,
      "loss": 0.8868,
      "step": 529
    },
    {
      "epoch": 0.42368223832125906,
      "grad_norm": 1.476128500837339,
      "learning_rate": 1e-05,
      "loss": 0.9264,
      "step": 530
    },
    {
      "epoch": 0.4244816387709218,
      "grad_norm": 1.4082525457129158,
      "learning_rate": 1e-05,
      "loss": 0.9194,
      "step": 531
    },
    {
      "epoch": 0.4252810392205846,
      "grad_norm": 1.60560804137754,
      "learning_rate": 1e-05,
      "loss": 0.8596,
      "step": 532
    },
    {
      "epoch": 0.42608043967024734,
      "grad_norm": 1.5292853895222724,
      "learning_rate": 1e-05,
      "loss": 0.8933,
      "step": 533
    },
    {
      "epoch": 0.4268798401199101,
      "grad_norm": 1.6276199503503024,
      "learning_rate": 1e-05,
      "loss": 0.8905,
      "step": 534
    },
    {
      "epoch": 0.4276792405695728,
      "grad_norm": 1.6143026040200776,
      "learning_rate": 1e-05,
      "loss": 0.9017,
      "step": 535
    },
    {
      "epoch": 0.42847864101923555,
      "grad_norm": 1.492638575870208,
      "learning_rate": 1e-05,
      "loss": 0.8445,
      "step": 536
    },
    {
      "epoch": 0.4292780414688983,
      "grad_norm": 1.5992856689061312,
      "learning_rate": 1e-05,
      "loss": 0.8747,
      "step": 537
    },
    {
      "epoch": 0.43007744191856107,
      "grad_norm": 1.8376302395541704,
      "learning_rate": 1e-05,
      "loss": 0.8744,
      "step": 538
    },
    {
      "epoch": 0.4308768423682238,
      "grad_norm": 1.5083175238496622,
      "learning_rate": 1e-05,
      "loss": 0.8831,
      "step": 539
    },
    {
      "epoch": 0.4316762428178866,
      "grad_norm": 1.6391308804501599,
      "learning_rate": 1e-05,
      "loss": 0.9093,
      "step": 540
    },
    {
      "epoch": 0.43247564326754934,
      "grad_norm": 1.587896265231209,
      "learning_rate": 1e-05,
      "loss": 0.931,
      "step": 541
    },
    {
      "epoch": 0.4332750437172121,
      "grad_norm": 1.5174662595552115,
      "learning_rate": 1e-05,
      "loss": 0.9176,
      "step": 542
    },
    {
      "epoch": 0.43407444416687485,
      "grad_norm": 1.6000443436491891,
      "learning_rate": 1e-05,
      "loss": 0.8983,
      "step": 543
    },
    {
      "epoch": 0.4348738446165376,
      "grad_norm": 1.6311375389076388,
      "learning_rate": 1e-05,
      "loss": 0.9358,
      "step": 544
    },
    {
      "epoch": 0.43567324506620037,
      "grad_norm": 1.5311673613481407,
      "learning_rate": 1e-05,
      "loss": 0.9248,
      "step": 545
    },
    {
      "epoch": 0.4364726455158631,
      "grad_norm": 1.527296520797819,
      "learning_rate": 1e-05,
      "loss": 0.8941,
      "step": 546
    },
    {
      "epoch": 0.4372720459655259,
      "grad_norm": 1.3849530231908453,
      "learning_rate": 1e-05,
      "loss": 0.9206,
      "step": 547
    },
    {
      "epoch": 0.4380714464151886,
      "grad_norm": 1.6041978636707703,
      "learning_rate": 1e-05,
      "loss": 0.8933,
      "step": 548
    },
    {
      "epoch": 0.43887084686485134,
      "grad_norm": 1.5449273405092985,
      "learning_rate": 1e-05,
      "loss": 0.9157,
      "step": 549
    },
    {
      "epoch": 0.4396702473145141,
      "grad_norm": 1.5864452967308555,
      "learning_rate": 1e-05,
      "loss": 0.8443,
      "step": 550
    },
    {
      "epoch": 0.44046964776417685,
      "grad_norm": 1.4728488192211566,
      "learning_rate": 1e-05,
      "loss": 0.9108,
      "step": 551
    },
    {
      "epoch": 0.4412690482138396,
      "grad_norm": 1.4823924024202317,
      "learning_rate": 1e-05,
      "loss": 0.9336,
      "step": 552
    },
    {
      "epoch": 0.44206844866350237,
      "grad_norm": 1.4382359303688308,
      "learning_rate": 1e-05,
      "loss": 0.9271,
      "step": 553
    },
    {
      "epoch": 0.4428678491131651,
      "grad_norm": 1.5676768234957863,
      "learning_rate": 1e-05,
      "loss": 0.9705,
      "step": 554
    },
    {
      "epoch": 0.4436672495628279,
      "grad_norm": 1.5423184321680976,
      "learning_rate": 1e-05,
      "loss": 0.8464,
      "step": 555
    },
    {
      "epoch": 0.44446665001249064,
      "grad_norm": 1.6045659880625645,
      "learning_rate": 1e-05,
      "loss": 0.9303,
      "step": 556
    },
    {
      "epoch": 0.4452660504621534,
      "grad_norm": 1.9872755202696784,
      "learning_rate": 1e-05,
      "loss": 0.8687,
      "step": 557
    },
    {
      "epoch": 0.44606545091181615,
      "grad_norm": 1.4834070914943105,
      "learning_rate": 1e-05,
      "loss": 0.951,
      "step": 558
    },
    {
      "epoch": 0.4468648513614789,
      "grad_norm": 1.5310211273825027,
      "learning_rate": 1e-05,
      "loss": 0.9233,
      "step": 559
    },
    {
      "epoch": 0.44766425181114167,
      "grad_norm": 1.5815996536549406,
      "learning_rate": 1e-05,
      "loss": 0.9767,
      "step": 560
    },
    {
      "epoch": 0.4484636522608044,
      "grad_norm": 1.7688239075887118,
      "learning_rate": 1e-05,
      "loss": 0.8879,
      "step": 561
    },
    {
      "epoch": 0.4492630527104671,
      "grad_norm": 1.6482560554808632,
      "learning_rate": 1e-05,
      "loss": 0.9124,
      "step": 562
    },
    {
      "epoch": 0.4500624531601299,
      "grad_norm": 1.5404021166963555,
      "learning_rate": 1e-05,
      "loss": 0.9027,
      "step": 563
    },
    {
      "epoch": 0.45086185360979264,
      "grad_norm": 1.5195520813189534,
      "learning_rate": 1e-05,
      "loss": 0.9112,
      "step": 564
    },
    {
      "epoch": 0.4516612540594554,
      "grad_norm": 1.5192783031055126,
      "learning_rate": 1e-05,
      "loss": 0.8971,
      "step": 565
    },
    {
      "epoch": 0.45246065450911815,
      "grad_norm": 1.5618653033074856,
      "learning_rate": 1e-05,
      "loss": 0.9054,
      "step": 566
    },
    {
      "epoch": 0.4532600549587809,
      "grad_norm": 1.6064016663059253,
      "learning_rate": 1e-05,
      "loss": 0.9391,
      "step": 567
    },
    {
      "epoch": 0.45405945540844367,
      "grad_norm": 1.7240615287273162,
      "learning_rate": 1e-05,
      "loss": 0.8906,
      "step": 568
    },
    {
      "epoch": 0.4548588558581064,
      "grad_norm": 1.7149945179624295,
      "learning_rate": 1e-05,
      "loss": 0.8621,
      "step": 569
    },
    {
      "epoch": 0.4556582563077692,
      "grad_norm": 1.4856328376378898,
      "learning_rate": 1e-05,
      "loss": 0.8694,
      "step": 570
    },
    {
      "epoch": 0.45645765675743194,
      "grad_norm": 1.4702642174922036,
      "learning_rate": 1e-05,
      "loss": 0.9025,
      "step": 571
    },
    {
      "epoch": 0.4572570572070947,
      "grad_norm": 1.6088556169851551,
      "learning_rate": 1e-05,
      "loss": 0.868,
      "step": 572
    },
    {
      "epoch": 0.45805645765675745,
      "grad_norm": 1.5509844332733922,
      "learning_rate": 1e-05,
      "loss": 0.9513,
      "step": 573
    },
    {
      "epoch": 0.4588558581064202,
      "grad_norm": 1.5292949122902217,
      "learning_rate": 1e-05,
      "loss": 0.8845,
      "step": 574
    },
    {
      "epoch": 0.4596552585560829,
      "grad_norm": 1.6381076297979584,
      "learning_rate": 1e-05,
      "loss": 0.9386,
      "step": 575
    },
    {
      "epoch": 0.46045465900574567,
      "grad_norm": 1.6267004497668505,
      "learning_rate": 1e-05,
      "loss": 0.8987,
      "step": 576
    },
    {
      "epoch": 0.4612540594554084,
      "grad_norm": 1.5456142322307922,
      "learning_rate": 1e-05,
      "loss": 0.9121,
      "step": 577
    },
    {
      "epoch": 0.4620534599050712,
      "grad_norm": 1.5522043742149023,
      "learning_rate": 1e-05,
      "loss": 0.8914,
      "step": 578
    },
    {
      "epoch": 0.46285286035473394,
      "grad_norm": 1.633867715589152,
      "learning_rate": 1e-05,
      "loss": 0.8741,
      "step": 579
    },
    {
      "epoch": 0.4636522608043967,
      "grad_norm": 1.614894631262607,
      "learning_rate": 1e-05,
      "loss": 0.9171,
      "step": 580
    },
    {
      "epoch": 0.46445166125405946,
      "grad_norm": 1.386145144430922,
      "learning_rate": 1e-05,
      "loss": 0.8693,
      "step": 581
    },
    {
      "epoch": 0.4652510617037222,
      "grad_norm": 1.484841140261494,
      "learning_rate": 1e-05,
      "loss": 0.8966,
      "step": 582
    },
    {
      "epoch": 0.46605046215338497,
      "grad_norm": 1.6068617064880517,
      "learning_rate": 1e-05,
      "loss": 0.8818,
      "step": 583
    },
    {
      "epoch": 0.4668498626030477,
      "grad_norm": 1.6096786496184112,
      "learning_rate": 1e-05,
      "loss": 0.9123,
      "step": 584
    },
    {
      "epoch": 0.4676492630527105,
      "grad_norm": 1.4602535645871833,
      "learning_rate": 1e-05,
      "loss": 0.9143,
      "step": 585
    },
    {
      "epoch": 0.46844866350237324,
      "grad_norm": 1.7447912274361523,
      "learning_rate": 1e-05,
      "loss": 0.8966,
      "step": 586
    },
    {
      "epoch": 0.469248063952036,
      "grad_norm": 1.5775439912332734,
      "learning_rate": 1e-05,
      "loss": 0.8994,
      "step": 587
    },
    {
      "epoch": 0.4700474644016987,
      "grad_norm": 1.4031832068470533,
      "learning_rate": 1e-05,
      "loss": 0.9055,
      "step": 588
    },
    {
      "epoch": 0.47084686485136146,
      "grad_norm": 1.5789430313417314,
      "learning_rate": 1e-05,
      "loss": 0.9393,
      "step": 589
    },
    {
      "epoch": 0.4716462653010242,
      "grad_norm": 1.4655734741114497,
      "learning_rate": 1e-05,
      "loss": 0.8889,
      "step": 590
    },
    {
      "epoch": 0.47244566575068697,
      "grad_norm": 1.752804541715281,
      "learning_rate": 1e-05,
      "loss": 0.9166,
      "step": 591
    },
    {
      "epoch": 0.47324506620034973,
      "grad_norm": 1.6906678527664594,
      "learning_rate": 1e-05,
      "loss": 0.8673,
      "step": 592
    },
    {
      "epoch": 0.4740444666500125,
      "grad_norm": 1.5985802845452706,
      "learning_rate": 1e-05,
      "loss": 0.9435,
      "step": 593
    },
    {
      "epoch": 0.47484386709967524,
      "grad_norm": 1.6997316043068198,
      "learning_rate": 1e-05,
      "loss": 0.9112,
      "step": 594
    },
    {
      "epoch": 0.475643267549338,
      "grad_norm": 1.3896008701013607,
      "learning_rate": 1e-05,
      "loss": 0.8884,
      "step": 595
    },
    {
      "epoch": 0.47644266799900076,
      "grad_norm": 1.4232134469996818,
      "learning_rate": 1e-05,
      "loss": 0.8537,
      "step": 596
    },
    {
      "epoch": 0.4772420684486635,
      "grad_norm": 1.4962294604199373,
      "learning_rate": 1e-05,
      "loss": 0.8599,
      "step": 597
    },
    {
      "epoch": 0.47804146889832627,
      "grad_norm": 1.3445821960864492,
      "learning_rate": 1e-05,
      "loss": 0.8719,
      "step": 598
    },
    {
      "epoch": 0.47884086934798903,
      "grad_norm": 1.5426225615913305,
      "learning_rate": 1e-05,
      "loss": 0.9097,
      "step": 599
    },
    {
      "epoch": 0.4796402697976518,
      "grad_norm": 1.4650349809263883,
      "learning_rate": 1e-05,
      "loss": 0.8933,
      "step": 600
    },
    {
      "epoch": 0.4804396702473145,
      "grad_norm": 1.5753170073693514,
      "learning_rate": 1e-05,
      "loss": 0.9461,
      "step": 601
    },
    {
      "epoch": 0.48123907069697724,
      "grad_norm": 1.6207854665284498,
      "learning_rate": 1e-05,
      "loss": 0.8332,
      "step": 602
    },
    {
      "epoch": 0.48203847114664,
      "grad_norm": 1.6847020603077485,
      "learning_rate": 1e-05,
      "loss": 0.8902,
      "step": 603
    },
    {
      "epoch": 0.48283787159630276,
      "grad_norm": 1.746631687170473,
      "learning_rate": 1e-05,
      "loss": 0.852,
      "step": 604
    },
    {
      "epoch": 0.4836372720459655,
      "grad_norm": 1.5812097478750036,
      "learning_rate": 1e-05,
      "loss": 0.8875,
      "step": 605
    },
    {
      "epoch": 0.4844366724956283,
      "grad_norm": 1.664501332749721,
      "learning_rate": 1e-05,
      "loss": 0.9623,
      "step": 606
    },
    {
      "epoch": 0.48523607294529103,
      "grad_norm": 1.3887624769518734,
      "learning_rate": 1e-05,
      "loss": 0.8815,
      "step": 607
    },
    {
      "epoch": 0.4860354733949538,
      "grad_norm": 1.4487321005360188,
      "learning_rate": 1e-05,
      "loss": 0.8985,
      "step": 608
    },
    {
      "epoch": 0.48683487384461654,
      "grad_norm": 1.4789561071530237,
      "learning_rate": 1e-05,
      "loss": 0.9061,
      "step": 609
    },
    {
      "epoch": 0.4876342742942793,
      "grad_norm": 1.5069409156312008,
      "learning_rate": 1e-05,
      "loss": 0.9286,
      "step": 610
    },
    {
      "epoch": 0.48843367474394206,
      "grad_norm": 1.4663884880855809,
      "learning_rate": 1e-05,
      "loss": 0.9382,
      "step": 611
    },
    {
      "epoch": 0.4892330751936048,
      "grad_norm": 1.4795946008795262,
      "learning_rate": 1e-05,
      "loss": 0.9013,
      "step": 612
    },
    {
      "epoch": 0.4900324756432676,
      "grad_norm": 1.6550390075160482,
      "learning_rate": 1e-05,
      "loss": 0.8981,
      "step": 613
    },
    {
      "epoch": 0.4908318760929303,
      "grad_norm": 1.5252370570410794,
      "learning_rate": 1e-05,
      "loss": 0.9399,
      "step": 614
    },
    {
      "epoch": 0.49163127654259303,
      "grad_norm": 1.55342646595899,
      "learning_rate": 1e-05,
      "loss": 0.9369,
      "step": 615
    },
    {
      "epoch": 0.4924306769922558,
      "grad_norm": 1.3945867465343513,
      "learning_rate": 1e-05,
      "loss": 0.9739,
      "step": 616
    },
    {
      "epoch": 0.49323007744191855,
      "grad_norm": 1.8084042523739312,
      "learning_rate": 1e-05,
      "loss": 0.8568,
      "step": 617
    },
    {
      "epoch": 0.4940294778915813,
      "grad_norm": 1.3957730664102426,
      "learning_rate": 1e-05,
      "loss": 0.9212,
      "step": 618
    },
    {
      "epoch": 0.49482887834124406,
      "grad_norm": 1.576073681260172,
      "learning_rate": 1e-05,
      "loss": 0.9323,
      "step": 619
    },
    {
      "epoch": 0.4956282787909068,
      "grad_norm": 1.478562229589502,
      "learning_rate": 1e-05,
      "loss": 0.8784,
      "step": 620
    },
    {
      "epoch": 0.4964276792405696,
      "grad_norm": 1.5742856570618204,
      "learning_rate": 1e-05,
      "loss": 0.8949,
      "step": 621
    },
    {
      "epoch": 0.49722707969023233,
      "grad_norm": 1.7717496405831807,
      "learning_rate": 1e-05,
      "loss": 0.8882,
      "step": 622
    },
    {
      "epoch": 0.4980264801398951,
      "grad_norm": 1.512802542889935,
      "learning_rate": 1e-05,
      "loss": 0.9555,
      "step": 623
    },
    {
      "epoch": 0.49882588058955785,
      "grad_norm": 1.44305014112251,
      "learning_rate": 1e-05,
      "loss": 0.9058,
      "step": 624
    },
    {
      "epoch": 0.4996252810392206,
      "grad_norm": 1.6065628841661808,
      "learning_rate": 1e-05,
      "loss": 0.8697,
      "step": 625
    },
    {
      "epoch": 0.5004246814888833,
      "grad_norm": 1.5176075034291314,
      "learning_rate": 1e-05,
      "loss": 0.8774,
      "step": 626
    },
    {
      "epoch": 0.5012240819385461,
      "grad_norm": 1.4385224047152578,
      "learning_rate": 1e-05,
      "loss": 0.9092,
      "step": 627
    },
    {
      "epoch": 0.5020234823882088,
      "grad_norm": 1.5846911793271963,
      "learning_rate": 1e-05,
      "loss": 0.9333,
      "step": 628
    },
    {
      "epoch": 0.5028228828378716,
      "grad_norm": 1.6455364602527989,
      "learning_rate": 1e-05,
      "loss": 0.9412,
      "step": 629
    },
    {
      "epoch": 0.5036222832875343,
      "grad_norm": 1.6062811152199334,
      "learning_rate": 1e-05,
      "loss": 0.9091,
      "step": 630
    },
    {
      "epoch": 0.5044216837371971,
      "grad_norm": 1.4354611082735989,
      "learning_rate": 1e-05,
      "loss": 0.907,
      "step": 631
    },
    {
      "epoch": 0.5052210841868598,
      "grad_norm": 1.52829754540632,
      "learning_rate": 1e-05,
      "loss": 0.9195,
      "step": 632
    },
    {
      "epoch": 0.5060204846365226,
      "grad_norm": 1.6184765917993094,
      "learning_rate": 1e-05,
      "loss": 0.9452,
      "step": 633
    },
    {
      "epoch": 0.5068198850861854,
      "grad_norm": 1.5257888577090237,
      "learning_rate": 1e-05,
      "loss": 0.8772,
      "step": 634
    },
    {
      "epoch": 0.5076192855358481,
      "grad_norm": 1.4539514346389641,
      "learning_rate": 1e-05,
      "loss": 0.8898,
      "step": 635
    },
    {
      "epoch": 0.5084186859855109,
      "grad_norm": 1.6554813398137607,
      "learning_rate": 1e-05,
      "loss": 0.8987,
      "step": 636
    },
    {
      "epoch": 0.5092180864351736,
      "grad_norm": 1.4575833122082418,
      "learning_rate": 1e-05,
      "loss": 0.9455,
      "step": 637
    },
    {
      "epoch": 0.5100174868848364,
      "grad_norm": 1.651253682354515,
      "learning_rate": 1e-05,
      "loss": 0.8731,
      "step": 638
    },
    {
      "epoch": 0.5108168873344991,
      "grad_norm": 1.608007000762813,
      "learning_rate": 1e-05,
      "loss": 0.9068,
      "step": 639
    },
    {
      "epoch": 0.5116162877841619,
      "grad_norm": 1.4451823786722864,
      "learning_rate": 1e-05,
      "loss": 0.9363,
      "step": 640
    },
    {
      "epoch": 0.5124156882338247,
      "grad_norm": 1.585132398185237,
      "learning_rate": 1e-05,
      "loss": 0.8394,
      "step": 641
    },
    {
      "epoch": 0.5132150886834874,
      "grad_norm": 1.5460763577114784,
      "learning_rate": 1e-05,
      "loss": 0.8782,
      "step": 642
    },
    {
      "epoch": 0.5140144891331502,
      "grad_norm": 1.5336894539869739,
      "learning_rate": 1e-05,
      "loss": 0.8913,
      "step": 643
    },
    {
      "epoch": 0.5148138895828129,
      "grad_norm": 1.5563638706418883,
      "learning_rate": 1e-05,
      "loss": 0.891,
      "step": 644
    },
    {
      "epoch": 0.5156132900324757,
      "grad_norm": 1.6781793712825763,
      "learning_rate": 1e-05,
      "loss": 0.9243,
      "step": 645
    },
    {
      "epoch": 0.5164126904821384,
      "grad_norm": 1.555015563156278,
      "learning_rate": 1e-05,
      "loss": 0.8733,
      "step": 646
    },
    {
      "epoch": 0.5172120909318011,
      "grad_norm": 1.4725706386221917,
      "learning_rate": 1e-05,
      "loss": 0.8681,
      "step": 647
    },
    {
      "epoch": 0.5180114913814639,
      "grad_norm": 1.3268747875477092,
      "learning_rate": 1e-05,
      "loss": 0.8807,
      "step": 648
    },
    {
      "epoch": 0.5188108918311266,
      "grad_norm": 1.5451710380595707,
      "learning_rate": 1e-05,
      "loss": 0.9226,
      "step": 649
    },
    {
      "epoch": 0.5196102922807894,
      "grad_norm": 1.5573419054386046,
      "learning_rate": 1e-05,
      "loss": 0.9044,
      "step": 650
    },
    {
      "epoch": 0.5204096927304521,
      "grad_norm": 1.2989474126701601,
      "learning_rate": 1e-05,
      "loss": 0.8532,
      "step": 651
    },
    {
      "epoch": 0.5212090931801149,
      "grad_norm": 1.696305481260023,
      "learning_rate": 1e-05,
      "loss": 0.8595,
      "step": 652
    },
    {
      "epoch": 0.5220084936297776,
      "grad_norm": 1.4451028681658686,
      "learning_rate": 1e-05,
      "loss": 0.933,
      "step": 653
    },
    {
      "epoch": 0.5228078940794404,
      "grad_norm": 1.5925002414772222,
      "learning_rate": 1e-05,
      "loss": 0.9286,
      "step": 654
    },
    {
      "epoch": 0.5236072945291032,
      "grad_norm": 1.4716559853454252,
      "learning_rate": 1e-05,
      "loss": 0.8943,
      "step": 655
    },
    {
      "epoch": 0.5244066949787659,
      "grad_norm": 1.7475122640309384,
      "learning_rate": 1e-05,
      "loss": 0.9523,
      "step": 656
    },
    {
      "epoch": 0.5252060954284287,
      "grad_norm": 1.645603067269987,
      "learning_rate": 1e-05,
      "loss": 0.9075,
      "step": 657
    },
    {
      "epoch": 0.5260054958780914,
      "grad_norm": 1.6726736025945501,
      "learning_rate": 1e-05,
      "loss": 0.9039,
      "step": 658
    },
    {
      "epoch": 0.5268048963277542,
      "grad_norm": 1.518938137250405,
      "learning_rate": 1e-05,
      "loss": 0.8761,
      "step": 659
    },
    {
      "epoch": 0.5276042967774169,
      "grad_norm": 1.7083121838298914,
      "learning_rate": 1e-05,
      "loss": 0.8697,
      "step": 660
    },
    {
      "epoch": 0.5284036972270797,
      "grad_norm": 1.5499463775414077,
      "learning_rate": 1e-05,
      "loss": 0.8976,
      "step": 661
    },
    {
      "epoch": 0.5292030976767425,
      "grad_norm": 1.4098782407183605,
      "learning_rate": 1e-05,
      "loss": 0.8753,
      "step": 662
    },
    {
      "epoch": 0.5300024981264052,
      "grad_norm": 1.7641918962063994,
      "learning_rate": 1e-05,
      "loss": 0.9194,
      "step": 663
    },
    {
      "epoch": 0.530801898576068,
      "grad_norm": 1.5469637110527181,
      "learning_rate": 1e-05,
      "loss": 0.9059,
      "step": 664
    },
    {
      "epoch": 0.5316012990257307,
      "grad_norm": 1.6487062365426841,
      "learning_rate": 1e-05,
      "loss": 0.8897,
      "step": 665
    },
    {
      "epoch": 0.5324006994753935,
      "grad_norm": 1.5205006643304535,
      "learning_rate": 1e-05,
      "loss": 0.9216,
      "step": 666
    },
    {
      "epoch": 0.5332000999250562,
      "grad_norm": 1.5325976583230465,
      "learning_rate": 1e-05,
      "loss": 0.8957,
      "step": 667
    },
    {
      "epoch": 0.533999500374719,
      "grad_norm": 1.720042040656152,
      "learning_rate": 1e-05,
      "loss": 0.8832,
      "step": 668
    },
    {
      "epoch": 0.5347989008243818,
      "grad_norm": 1.4435271985771057,
      "learning_rate": 1e-05,
      "loss": 0.8587,
      "step": 669
    },
    {
      "epoch": 0.5355983012740445,
      "grad_norm": 1.7309862738667545,
      "learning_rate": 1e-05,
      "loss": 0.8801,
      "step": 670
    },
    {
      "epoch": 0.5363977017237073,
      "grad_norm": 1.51553026472629,
      "learning_rate": 1e-05,
      "loss": 0.8948,
      "step": 671
    },
    {
      "epoch": 0.53719710217337,
      "grad_norm": 1.5034966185821361,
      "learning_rate": 1e-05,
      "loss": 0.8825,
      "step": 672
    },
    {
      "epoch": 0.5379965026230328,
      "grad_norm": 1.5085135625486585,
      "learning_rate": 1e-05,
      "loss": 0.8758,
      "step": 673
    },
    {
      "epoch": 0.5387959030726954,
      "grad_norm": 1.5419185376449267,
      "learning_rate": 1e-05,
      "loss": 0.9952,
      "step": 674
    },
    {
      "epoch": 0.5395953035223582,
      "grad_norm": 1.516360272741118,
      "learning_rate": 1e-05,
      "loss": 0.8744,
      "step": 675
    },
    {
      "epoch": 0.5403947039720209,
      "grad_norm": 1.6057277324687185,
      "learning_rate": 1e-05,
      "loss": 0.9379,
      "step": 676
    },
    {
      "epoch": 0.5411941044216837,
      "grad_norm": 1.5074825505125475,
      "learning_rate": 1e-05,
      "loss": 0.8687,
      "step": 677
    },
    {
      "epoch": 0.5419935048713465,
      "grad_norm": 1.564461484690962,
      "learning_rate": 1e-05,
      "loss": 0.928,
      "step": 678
    },
    {
      "epoch": 0.5427929053210092,
      "grad_norm": 1.5052766213063988,
      "learning_rate": 1e-05,
      "loss": 0.909,
      "step": 679
    },
    {
      "epoch": 0.543592305770672,
      "grad_norm": 1.3946507047858405,
      "learning_rate": 1e-05,
      "loss": 0.8984,
      "step": 680
    },
    {
      "epoch": 0.5443917062203347,
      "grad_norm": 1.524550146914044,
      "learning_rate": 1e-05,
      "loss": 0.9103,
      "step": 681
    },
    {
      "epoch": 0.5451911066699975,
      "grad_norm": 1.743015450167898,
      "learning_rate": 1e-05,
      "loss": 0.8817,
      "step": 682
    },
    {
      "epoch": 0.5459905071196602,
      "grad_norm": 1.2727179347293005,
      "learning_rate": 1e-05,
      "loss": 0.9565,
      "step": 683
    },
    {
      "epoch": 0.546789907569323,
      "grad_norm": 1.4218645212985512,
      "learning_rate": 1e-05,
      "loss": 0.9361,
      "step": 684
    },
    {
      "epoch": 0.5475893080189858,
      "grad_norm": 1.5827671331667068,
      "learning_rate": 1e-05,
      "loss": 0.9195,
      "step": 685
    },
    {
      "epoch": 0.5483887084686485,
      "grad_norm": 1.5111024964279403,
      "learning_rate": 1e-05,
      "loss": 0.8975,
      "step": 686
    },
    {
      "epoch": 0.5491881089183113,
      "grad_norm": 1.698526384803921,
      "learning_rate": 1e-05,
      "loss": 0.8693,
      "step": 687
    },
    {
      "epoch": 0.549987509367974,
      "grad_norm": 1.4499111433077698,
      "learning_rate": 1e-05,
      "loss": 0.9304,
      "step": 688
    },
    {
      "epoch": 0.5507869098176368,
      "grad_norm": 1.6198855701994876,
      "learning_rate": 1e-05,
      "loss": 0.9071,
      "step": 689
    },
    {
      "epoch": 0.5515863102672995,
      "grad_norm": 1.447799249815993,
      "learning_rate": 1e-05,
      "loss": 0.8577,
      "step": 690
    },
    {
      "epoch": 0.5523857107169623,
      "grad_norm": 1.4643912062350883,
      "learning_rate": 1e-05,
      "loss": 0.8841,
      "step": 691
    },
    {
      "epoch": 0.553185111166625,
      "grad_norm": 1.2539155232355081,
      "learning_rate": 1e-05,
      "loss": 0.902,
      "step": 692
    },
    {
      "epoch": 0.5539845116162878,
      "grad_norm": 1.547551258731981,
      "learning_rate": 1e-05,
      "loss": 0.9678,
      "step": 693
    },
    {
      "epoch": 0.5547839120659506,
      "grad_norm": 1.4727625062306167,
      "learning_rate": 1e-05,
      "loss": 0.8882,
      "step": 694
    },
    {
      "epoch": 0.5555833125156133,
      "grad_norm": 1.4776645587359942,
      "learning_rate": 1e-05,
      "loss": 0.8921,
      "step": 695
    },
    {
      "epoch": 0.5563827129652761,
      "grad_norm": 1.4858467571616956,
      "learning_rate": 1e-05,
      "loss": 0.9032,
      "step": 696
    },
    {
      "epoch": 0.5571821134149388,
      "grad_norm": 1.6272094570109954,
      "learning_rate": 1e-05,
      "loss": 0.8754,
      "step": 697
    },
    {
      "epoch": 0.5579815138646016,
      "grad_norm": 1.5209165879169078,
      "learning_rate": 1e-05,
      "loss": 0.8892,
      "step": 698
    },
    {
      "epoch": 0.5587809143142644,
      "grad_norm": 1.5534555948764655,
      "learning_rate": 1e-05,
      "loss": 0.8518,
      "step": 699
    },
    {
      "epoch": 0.559580314763927,
      "grad_norm": 1.7199439771989053,
      "learning_rate": 1e-05,
      "loss": 0.9232,
      "step": 700
    },
    {
      "epoch": 0.5603797152135898,
      "grad_norm": 1.3598124896967667,
      "learning_rate": 1e-05,
      "loss": 0.9486,
      "step": 701
    },
    {
      "epoch": 0.5611791156632525,
      "grad_norm": 1.612574738886904,
      "learning_rate": 1e-05,
      "loss": 0.8794,
      "step": 702
    },
    {
      "epoch": 0.5619785161129153,
      "grad_norm": 1.3832262396852995,
      "learning_rate": 1e-05,
      "loss": 0.9321,
      "step": 703
    },
    {
      "epoch": 0.562777916562578,
      "grad_norm": 1.5923071651772416,
      "learning_rate": 1e-05,
      "loss": 0.8793,
      "step": 704
    },
    {
      "epoch": 0.5635773170122408,
      "grad_norm": 1.5489614624229269,
      "learning_rate": 1e-05,
      "loss": 0.8701,
      "step": 705
    },
    {
      "epoch": 0.5643767174619035,
      "grad_norm": 1.4485859965980266,
      "learning_rate": 1e-05,
      "loss": 0.8911,
      "step": 706
    },
    {
      "epoch": 0.5651761179115663,
      "grad_norm": 1.3786799015631879,
      "learning_rate": 1e-05,
      "loss": 0.9122,
      "step": 707
    },
    {
      "epoch": 0.5659755183612291,
      "grad_norm": 1.5342699233246582,
      "learning_rate": 1e-05,
      "loss": 0.8847,
      "step": 708
    },
    {
      "epoch": 0.5667749188108918,
      "grad_norm": 1.5871051701796994,
      "learning_rate": 1e-05,
      "loss": 0.884,
      "step": 709
    },
    {
      "epoch": 0.5675743192605546,
      "grad_norm": 1.5660069308536273,
      "learning_rate": 1e-05,
      "loss": 0.8551,
      "step": 710
    },
    {
      "epoch": 0.5683737197102173,
      "grad_norm": 1.429596069400543,
      "learning_rate": 1e-05,
      "loss": 0.8957,
      "step": 711
    },
    {
      "epoch": 0.5691731201598801,
      "grad_norm": 1.4491964477267238,
      "learning_rate": 1e-05,
      "loss": 0.8531,
      "step": 712
    },
    {
      "epoch": 0.5699725206095428,
      "grad_norm": 1.4365928694753973,
      "learning_rate": 1e-05,
      "loss": 0.8761,
      "step": 713
    },
    {
      "epoch": 0.5707719210592056,
      "grad_norm": 1.5578122539795014,
      "learning_rate": 1e-05,
      "loss": 0.8804,
      "step": 714
    },
    {
      "epoch": 0.5715713215088684,
      "grad_norm": 1.5327160301768794,
      "learning_rate": 1e-05,
      "loss": 0.8559,
      "step": 715
    },
    {
      "epoch": 0.5723707219585311,
      "grad_norm": 1.530442187113109,
      "learning_rate": 1e-05,
      "loss": 0.8689,
      "step": 716
    },
    {
      "epoch": 0.5731701224081939,
      "grad_norm": 1.5680317221543405,
      "learning_rate": 1e-05,
      "loss": 0.8969,
      "step": 717
    },
    {
      "epoch": 0.5739695228578566,
      "grad_norm": 1.5241288570093494,
      "learning_rate": 1e-05,
      "loss": 0.9161,
      "step": 718
    },
    {
      "epoch": 0.5747689233075194,
      "grad_norm": 1.3731985273369733,
      "learning_rate": 1e-05,
      "loss": 0.8568,
      "step": 719
    },
    {
      "epoch": 0.5755683237571821,
      "grad_norm": 1.4645302822523454,
      "learning_rate": 1e-05,
      "loss": 0.899,
      "step": 720
    },
    {
      "epoch": 0.5763677242068449,
      "grad_norm": 1.429554718936312,
      "learning_rate": 1e-05,
      "loss": 0.9161,
      "step": 721
    },
    {
      "epoch": 0.5771671246565077,
      "grad_norm": 1.3621850244930958,
      "learning_rate": 1e-05,
      "loss": 0.9169,
      "step": 722
    },
    {
      "epoch": 0.5779665251061704,
      "grad_norm": 1.485846183303666,
      "learning_rate": 1e-05,
      "loss": 0.9811,
      "step": 723
    },
    {
      "epoch": 0.5787659255558332,
      "grad_norm": 1.4036480667947844,
      "learning_rate": 1e-05,
      "loss": 0.8841,
      "step": 724
    },
    {
      "epoch": 0.5795653260054959,
      "grad_norm": 1.3680437907081195,
      "learning_rate": 1e-05,
      "loss": 0.861,
      "step": 725
    },
    {
      "epoch": 0.5803647264551587,
      "grad_norm": 1.4902900528640177,
      "learning_rate": 1e-05,
      "loss": 0.9022,
      "step": 726
    },
    {
      "epoch": 0.5811641269048213,
      "grad_norm": 1.367169701352056,
      "learning_rate": 1e-05,
      "loss": 0.9091,
      "step": 727
    },
    {
      "epoch": 0.5819635273544841,
      "grad_norm": 1.6487586565871948,
      "learning_rate": 1e-05,
      "loss": 0.9328,
      "step": 728
    },
    {
      "epoch": 0.5827629278041468,
      "grad_norm": 1.6567920316755664,
      "learning_rate": 1e-05,
      "loss": 0.8662,
      "step": 729
    },
    {
      "epoch": 0.5835623282538096,
      "grad_norm": 1.3391698664356693,
      "learning_rate": 1e-05,
      "loss": 0.8993,
      "step": 730
    },
    {
      "epoch": 0.5843617287034724,
      "grad_norm": 1.3695456445124472,
      "learning_rate": 1e-05,
      "loss": 0.8371,
      "step": 731
    },
    {
      "epoch": 0.5851611291531351,
      "grad_norm": 1.418306336363921,
      "learning_rate": 1e-05,
      "loss": 0.9092,
      "step": 732
    },
    {
      "epoch": 0.5859605296027979,
      "grad_norm": 1.7580509988769806,
      "learning_rate": 1e-05,
      "loss": 0.9117,
      "step": 733
    },
    {
      "epoch": 0.5867599300524606,
      "grad_norm": 1.4969730064494027,
      "learning_rate": 1e-05,
      "loss": 0.8777,
      "step": 734
    },
    {
      "epoch": 0.5875593305021234,
      "grad_norm": 1.5311661672699555,
      "learning_rate": 1e-05,
      "loss": 0.8633,
      "step": 735
    },
    {
      "epoch": 0.5883587309517861,
      "grad_norm": 1.4485040495772017,
      "learning_rate": 1e-05,
      "loss": 0.9358,
      "step": 736
    },
    {
      "epoch": 0.5891581314014489,
      "grad_norm": 1.4826514641684152,
      "learning_rate": 1e-05,
      "loss": 0.852,
      "step": 737
    },
    {
      "epoch": 0.5899575318511117,
      "grad_norm": 1.48791832285035,
      "learning_rate": 1e-05,
      "loss": 0.8782,
      "step": 738
    },
    {
      "epoch": 0.5907569323007744,
      "grad_norm": 1.6057041771896603,
      "learning_rate": 1e-05,
      "loss": 0.8316,
      "step": 739
    },
    {
      "epoch": 0.5915563327504372,
      "grad_norm": 2.1038688962784593,
      "learning_rate": 1e-05,
      "loss": 0.8521,
      "step": 740
    },
    {
      "epoch": 0.5923557332000999,
      "grad_norm": 1.621521996919619,
      "learning_rate": 1e-05,
      "loss": 0.8843,
      "step": 741
    },
    {
      "epoch": 0.5931551336497627,
      "grad_norm": 1.471365198038119,
      "learning_rate": 1e-05,
      "loss": 0.8784,
      "step": 742
    },
    {
      "epoch": 0.5939545340994254,
      "grad_norm": 1.4957177407162774,
      "learning_rate": 1e-05,
      "loss": 0.9049,
      "step": 743
    },
    {
      "epoch": 0.5947539345490882,
      "grad_norm": 1.4767129920631528,
      "learning_rate": 1e-05,
      "loss": 0.8556,
      "step": 744
    },
    {
      "epoch": 0.595553334998751,
      "grad_norm": 1.4751091109435195,
      "learning_rate": 1e-05,
      "loss": 0.8525,
      "step": 745
    },
    {
      "epoch": 0.5963527354484137,
      "grad_norm": 1.5180861867428592,
      "learning_rate": 1e-05,
      "loss": 0.8986,
      "step": 746
    },
    {
      "epoch": 0.5971521358980765,
      "grad_norm": 1.716833225193397,
      "learning_rate": 1e-05,
      "loss": 0.9396,
      "step": 747
    },
    {
      "epoch": 0.5979515363477392,
      "grad_norm": 1.662846684061582,
      "learning_rate": 1e-05,
      "loss": 0.8806,
      "step": 748
    },
    {
      "epoch": 0.598750936797402,
      "grad_norm": 1.5397292686479351,
      "learning_rate": 1e-05,
      "loss": 0.9085,
      "step": 749
    },
    {
      "epoch": 0.5995503372470647,
      "grad_norm": 1.3571032049534457,
      "learning_rate": 1e-05,
      "loss": 0.9406,
      "step": 750
    },
    {
      "epoch": 0.6003497376967275,
      "grad_norm": 1.384922018598161,
      "learning_rate": 1e-05,
      "loss": 0.8956,
      "step": 751
    },
    {
      "epoch": 0.6011491381463903,
      "grad_norm": 1.496498809863047,
      "learning_rate": 1e-05,
      "loss": 0.8918,
      "step": 752
    },
    {
      "epoch": 0.6019485385960529,
      "grad_norm": 1.4830953787172334,
      "learning_rate": 1e-05,
      "loss": 0.8431,
      "step": 753
    },
    {
      "epoch": 0.6027479390457157,
      "grad_norm": 1.6829833333195696,
      "learning_rate": 1e-05,
      "loss": 0.8561,
      "step": 754
    },
    {
      "epoch": 0.6035473394953784,
      "grad_norm": 1.3654050365320536,
      "learning_rate": 1e-05,
      "loss": 0.9101,
      "step": 755
    },
    {
      "epoch": 0.6043467399450412,
      "grad_norm": 1.5240419337473992,
      "learning_rate": 1e-05,
      "loss": 0.8338,
      "step": 756
    },
    {
      "epoch": 0.6051461403947039,
      "grad_norm": 1.5491861960420192,
      "learning_rate": 1e-05,
      "loss": 0.8921,
      "step": 757
    },
    {
      "epoch": 0.6059455408443667,
      "grad_norm": 1.4148317529647148,
      "learning_rate": 1e-05,
      "loss": 0.8677,
      "step": 758
    },
    {
      "epoch": 0.6067449412940294,
      "grad_norm": 1.469343003903587,
      "learning_rate": 1e-05,
      "loss": 0.8734,
      "step": 759
    },
    {
      "epoch": 0.6075443417436922,
      "grad_norm": 1.319737814833517,
      "learning_rate": 1e-05,
      "loss": 0.8688,
      "step": 760
    },
    {
      "epoch": 0.608343742193355,
      "grad_norm": 1.4581636035714403,
      "learning_rate": 1e-05,
      "loss": 0.8753,
      "step": 761
    },
    {
      "epoch": 0.6091431426430177,
      "grad_norm": 1.8427778000120836,
      "learning_rate": 1e-05,
      "loss": 0.9185,
      "step": 762
    },
    {
      "epoch": 0.6099425430926805,
      "grad_norm": 1.4013027241862714,
      "learning_rate": 1e-05,
      "loss": 0.9376,
      "step": 763
    },
    {
      "epoch": 0.6107419435423432,
      "grad_norm": 1.5267045554235308,
      "learning_rate": 1e-05,
      "loss": 0.8835,
      "step": 764
    },
    {
      "epoch": 0.611541343992006,
      "grad_norm": 1.4715893506156257,
      "learning_rate": 1e-05,
      "loss": 0.8676,
      "step": 765
    },
    {
      "epoch": 0.6123407444416687,
      "grad_norm": 1.4577005776877618,
      "learning_rate": 1e-05,
      "loss": 0.8796,
      "step": 766
    },
    {
      "epoch": 0.6131401448913315,
      "grad_norm": 1.4934814897272444,
      "learning_rate": 1e-05,
      "loss": 0.8458,
      "step": 767
    },
    {
      "epoch": 0.6139395453409943,
      "grad_norm": 1.5364809951583207,
      "learning_rate": 1e-05,
      "loss": 0.8316,
      "step": 768
    },
    {
      "epoch": 0.614738945790657,
      "grad_norm": 1.4992439555873935,
      "learning_rate": 1e-05,
      "loss": 0.9177,
      "step": 769
    },
    {
      "epoch": 0.6155383462403198,
      "grad_norm": 1.4324130065382474,
      "learning_rate": 1e-05,
      "loss": 0.9105,
      "step": 770
    },
    {
      "epoch": 0.6163377466899825,
      "grad_norm": 1.372488633970353,
      "learning_rate": 1e-05,
      "loss": 0.9365,
      "step": 771
    },
    {
      "epoch": 0.6171371471396453,
      "grad_norm": 1.3430055625087858,
      "learning_rate": 1e-05,
      "loss": 0.887,
      "step": 772
    },
    {
      "epoch": 0.617936547589308,
      "grad_norm": 1.4070687341497352,
      "learning_rate": 1e-05,
      "loss": 0.918,
      "step": 773
    },
    {
      "epoch": 0.6187359480389708,
      "grad_norm": 1.4126858378429896,
      "learning_rate": 1e-05,
      "loss": 0.8249,
      "step": 774
    },
    {
      "epoch": 0.6195353484886336,
      "grad_norm": 1.5659156867498283,
      "learning_rate": 1e-05,
      "loss": 0.8313,
      "step": 775
    },
    {
      "epoch": 0.6203347489382963,
      "grad_norm": 1.4546097055174756,
      "learning_rate": 1e-05,
      "loss": 0.8701,
      "step": 776
    },
    {
      "epoch": 0.6211341493879591,
      "grad_norm": 1.4487557061202467,
      "learning_rate": 1e-05,
      "loss": 0.9272,
      "step": 777
    },
    {
      "epoch": 0.6219335498376218,
      "grad_norm": 1.6276489271011279,
      "learning_rate": 1e-05,
      "loss": 0.9506,
      "step": 778
    },
    {
      "epoch": 0.6227329502872845,
      "grad_norm": 1.6078488944139557,
      "learning_rate": 1e-05,
      "loss": 0.9327,
      "step": 779
    },
    {
      "epoch": 0.6235323507369472,
      "grad_norm": 1.4508829251993478,
      "learning_rate": 1e-05,
      "loss": 0.9369,
      "step": 780
    },
    {
      "epoch": 0.62433175118661,
      "grad_norm": 1.612776765629144,
      "learning_rate": 1e-05,
      "loss": 0.9124,
      "step": 781
    },
    {
      "epoch": 0.6251311516362728,
      "grad_norm": 1.5608370989668476,
      "learning_rate": 1e-05,
      "loss": 0.8758,
      "step": 782
    },
    {
      "epoch": 0.6259305520859355,
      "grad_norm": 1.5129857913859477,
      "learning_rate": 1e-05,
      "loss": 0.891,
      "step": 783
    },
    {
      "epoch": 0.6267299525355983,
      "grad_norm": 1.4321443280452155,
      "learning_rate": 1e-05,
      "loss": 0.865,
      "step": 784
    },
    {
      "epoch": 0.627529352985261,
      "grad_norm": 1.5058564295604038,
      "learning_rate": 1e-05,
      "loss": 0.8721,
      "step": 785
    },
    {
      "epoch": 0.6283287534349238,
      "grad_norm": 1.3807849349968864,
      "learning_rate": 1e-05,
      "loss": 0.886,
      "step": 786
    },
    {
      "epoch": 0.6291281538845865,
      "grad_norm": 1.544883025432354,
      "learning_rate": 1e-05,
      "loss": 0.9102,
      "step": 787
    },
    {
      "epoch": 0.6299275543342493,
      "grad_norm": 1.4150356335689325,
      "learning_rate": 1e-05,
      "loss": 0.9361,
      "step": 788
    },
    {
      "epoch": 0.630726954783912,
      "grad_norm": 1.5188112447723208,
      "learning_rate": 1e-05,
      "loss": 0.8874,
      "step": 789
    },
    {
      "epoch": 0.6315263552335748,
      "grad_norm": 1.5441059644669919,
      "learning_rate": 1e-05,
      "loss": 0.9105,
      "step": 790
    },
    {
      "epoch": 0.6323257556832376,
      "grad_norm": 1.7469333936594207,
      "learning_rate": 1e-05,
      "loss": 0.8572,
      "step": 791
    },
    {
      "epoch": 0.6331251561329003,
      "grad_norm": 1.6602103078622925,
      "learning_rate": 1e-05,
      "loss": 0.9294,
      "step": 792
    },
    {
      "epoch": 0.6339245565825631,
      "grad_norm": 1.5925807734316682,
      "learning_rate": 1e-05,
      "loss": 0.9744,
      "step": 793
    },
    {
      "epoch": 0.6347239570322258,
      "grad_norm": 1.5394065631369533,
      "learning_rate": 1e-05,
      "loss": 0.9164,
      "step": 794
    },
    {
      "epoch": 0.6355233574818886,
      "grad_norm": 1.5935047510060332,
      "learning_rate": 1e-05,
      "loss": 0.8769,
      "step": 795
    },
    {
      "epoch": 0.6363227579315514,
      "grad_norm": 1.344142047079821,
      "learning_rate": 1e-05,
      "loss": 0.9317,
      "step": 796
    },
    {
      "epoch": 0.6371221583812141,
      "grad_norm": 1.6200454224138392,
      "learning_rate": 1e-05,
      "loss": 0.8334,
      "step": 797
    },
    {
      "epoch": 0.6379215588308769,
      "grad_norm": 1.5204016202631034,
      "learning_rate": 1e-05,
      "loss": 0.9006,
      "step": 798
    },
    {
      "epoch": 0.6387209592805396,
      "grad_norm": 1.4920314496701772,
      "learning_rate": 1e-05,
      "loss": 0.8501,
      "step": 799
    },
    {
      "epoch": 0.6395203597302024,
      "grad_norm": 1.3209265560951622,
      "learning_rate": 1e-05,
      "loss": 0.9025,
      "step": 800
    },
    {
      "epoch": 0.6403197601798651,
      "grad_norm": 1.5701927388007535,
      "learning_rate": 1e-05,
      "loss": 0.8747,
      "step": 801
    },
    {
      "epoch": 0.6411191606295279,
      "grad_norm": 1.3344795038412969,
      "learning_rate": 1e-05,
      "loss": 0.9104,
      "step": 802
    },
    {
      "epoch": 0.6419185610791907,
      "grad_norm": 1.3938320762656133,
      "learning_rate": 1e-05,
      "loss": 0.8409,
      "step": 803
    },
    {
      "epoch": 0.6427179615288534,
      "grad_norm": 1.4249626741383923,
      "learning_rate": 1e-05,
      "loss": 0.8727,
      "step": 804
    },
    {
      "epoch": 0.6435173619785162,
      "grad_norm": 1.6691646244578324,
      "learning_rate": 1e-05,
      "loss": 0.8903,
      "step": 805
    },
    {
      "epoch": 0.6443167624281788,
      "grad_norm": 1.665931296408499,
      "learning_rate": 1e-05,
      "loss": 0.8787,
      "step": 806
    },
    {
      "epoch": 0.6451161628778416,
      "grad_norm": 1.693200235102736,
      "learning_rate": 1e-05,
      "loss": 0.8462,
      "step": 807
    },
    {
      "epoch": 0.6459155633275043,
      "grad_norm": 1.4005335152598601,
      "learning_rate": 1e-05,
      "loss": 0.8637,
      "step": 808
    },
    {
      "epoch": 0.6467149637771671,
      "grad_norm": 1.5270196926285917,
      "learning_rate": 1e-05,
      "loss": 0.86,
      "step": 809
    },
    {
      "epoch": 0.6475143642268298,
      "grad_norm": 1.4150346179433293,
      "learning_rate": 1e-05,
      "loss": 0.8734,
      "step": 810
    },
    {
      "epoch": 0.6483137646764926,
      "grad_norm": 1.53091696763508,
      "learning_rate": 1e-05,
      "loss": 0.8754,
      "step": 811
    },
    {
      "epoch": 0.6491131651261554,
      "grad_norm": 1.474027558315905,
      "learning_rate": 1e-05,
      "loss": 0.9586,
      "step": 812
    },
    {
      "epoch": 0.6499125655758181,
      "grad_norm": 1.485859581480546,
      "learning_rate": 1e-05,
      "loss": 0.9106,
      "step": 813
    },
    {
      "epoch": 0.6507119660254809,
      "grad_norm": 1.568460720361032,
      "learning_rate": 1e-05,
      "loss": 0.8803,
      "step": 814
    },
    {
      "epoch": 0.6515113664751436,
      "grad_norm": 1.5563031313131295,
      "learning_rate": 1e-05,
      "loss": 0.9097,
      "step": 815
    },
    {
      "epoch": 0.6523107669248064,
      "grad_norm": 1.5440917854626373,
      "learning_rate": 1e-05,
      "loss": 0.9062,
      "step": 816
    },
    {
      "epoch": 0.6531101673744691,
      "grad_norm": 1.5083755089979098,
      "learning_rate": 1e-05,
      "loss": 0.8674,
      "step": 817
    },
    {
      "epoch": 0.6539095678241319,
      "grad_norm": 1.508645000565019,
      "learning_rate": 1e-05,
      "loss": 0.8815,
      "step": 818
    },
    {
      "epoch": 0.6547089682737947,
      "grad_norm": 1.6098529049906811,
      "learning_rate": 1e-05,
      "loss": 0.8344,
      "step": 819
    },
    {
      "epoch": 0.6555083687234574,
      "grad_norm": 1.711843405154856,
      "learning_rate": 1e-05,
      "loss": 0.9035,
      "step": 820
    },
    {
      "epoch": 0.6563077691731202,
      "grad_norm": 1.4578793644862615,
      "learning_rate": 1e-05,
      "loss": 0.8953,
      "step": 821
    },
    {
      "epoch": 0.6571071696227829,
      "grad_norm": 1.5916969602134543,
      "learning_rate": 1e-05,
      "loss": 0.8868,
      "step": 822
    },
    {
      "epoch": 0.6579065700724457,
      "grad_norm": 1.7747741238079355,
      "learning_rate": 1e-05,
      "loss": 0.8762,
      "step": 823
    },
    {
      "epoch": 0.6587059705221084,
      "grad_norm": 1.610938375922778,
      "learning_rate": 1e-05,
      "loss": 0.9062,
      "step": 824
    },
    {
      "epoch": 0.6595053709717712,
      "grad_norm": 1.6873519485834756,
      "learning_rate": 1e-05,
      "loss": 0.8631,
      "step": 825
    },
    {
      "epoch": 0.660304771421434,
      "grad_norm": 1.430821156429654,
      "learning_rate": 1e-05,
      "loss": 0.9604,
      "step": 826
    },
    {
      "epoch": 0.6611041718710967,
      "grad_norm": 1.457720171628577,
      "learning_rate": 1e-05,
      "loss": 0.8823,
      "step": 827
    },
    {
      "epoch": 0.6619035723207595,
      "grad_norm": 1.3817461766649617,
      "learning_rate": 1e-05,
      "loss": 0.9294,
      "step": 828
    },
    {
      "epoch": 0.6627029727704222,
      "grad_norm": 1.4095998527286095,
      "learning_rate": 1e-05,
      "loss": 0.8562,
      "step": 829
    },
    {
      "epoch": 0.663502373220085,
      "grad_norm": 1.4396424977428872,
      "learning_rate": 1e-05,
      "loss": 0.8256,
      "step": 830
    },
    {
      "epoch": 0.6643017736697477,
      "grad_norm": 1.38822130860778,
      "learning_rate": 1e-05,
      "loss": 0.8717,
      "step": 831
    },
    {
      "epoch": 0.6651011741194104,
      "grad_norm": 1.4057148558281964,
      "learning_rate": 1e-05,
      "loss": 0.9041,
      "step": 832
    },
    {
      "epoch": 0.6659005745690731,
      "grad_norm": 1.4772530181187606,
      "learning_rate": 1e-05,
      "loss": 0.9316,
      "step": 833
    },
    {
      "epoch": 0.6666999750187359,
      "grad_norm": 1.5248374759511425,
      "learning_rate": 1e-05,
      "loss": 0.8771,
      "step": 834
    },
    {
      "epoch": 0.6674993754683987,
      "grad_norm": 1.5352948925732954,
      "learning_rate": 1e-05,
      "loss": 0.9223,
      "step": 835
    },
    {
      "epoch": 0.6682987759180614,
      "grad_norm": 1.7695375410960146,
      "learning_rate": 1e-05,
      "loss": 0.8801,
      "step": 836
    },
    {
      "epoch": 0.6690981763677242,
      "grad_norm": 1.3579372966834742,
      "learning_rate": 1e-05,
      "loss": 0.8714,
      "step": 837
    },
    {
      "epoch": 0.6698975768173869,
      "grad_norm": 1.5174930728786662,
      "learning_rate": 1e-05,
      "loss": 0.8513,
      "step": 838
    },
    {
      "epoch": 0.6706969772670497,
      "grad_norm": 1.5225177134174273,
      "learning_rate": 1e-05,
      "loss": 0.8947,
      "step": 839
    },
    {
      "epoch": 0.6714963777167124,
      "grad_norm": 1.773009293174373,
      "learning_rate": 1e-05,
      "loss": 0.8279,
      "step": 840
    },
    {
      "epoch": 0.6722957781663752,
      "grad_norm": 1.5784630095216696,
      "learning_rate": 1e-05,
      "loss": 0.8764,
      "step": 841
    },
    {
      "epoch": 0.673095178616038,
      "grad_norm": 1.4708285523723468,
      "learning_rate": 1e-05,
      "loss": 0.8816,
      "step": 842
    },
    {
      "epoch": 0.6738945790657007,
      "grad_norm": 1.43983591742943,
      "learning_rate": 1e-05,
      "loss": 0.9482,
      "step": 843
    },
    {
      "epoch": 0.6746939795153635,
      "grad_norm": 1.4485915743374498,
      "learning_rate": 1e-05,
      "loss": 0.9028,
      "step": 844
    },
    {
      "epoch": 0.6754933799650262,
      "grad_norm": 1.5016530521995441,
      "learning_rate": 1e-05,
      "loss": 0.8731,
      "step": 845
    },
    {
      "epoch": 0.676292780414689,
      "grad_norm": 1.3809441111375442,
      "learning_rate": 1e-05,
      "loss": 0.9214,
      "step": 846
    },
    {
      "epoch": 0.6770921808643517,
      "grad_norm": 1.7240170055604878,
      "learning_rate": 1e-05,
      "loss": 0.8947,
      "step": 847
    },
    {
      "epoch": 0.6778915813140145,
      "grad_norm": 1.3301304611766438,
      "learning_rate": 1e-05,
      "loss": 0.9231,
      "step": 848
    },
    {
      "epoch": 0.6786909817636773,
      "grad_norm": 1.4218727212100182,
      "learning_rate": 1e-05,
      "loss": 0.8962,
      "step": 849
    },
    {
      "epoch": 0.67949038221334,
      "grad_norm": 1.63010423786957,
      "learning_rate": 1e-05,
      "loss": 0.8939,
      "step": 850
    },
    {
      "epoch": 0.6802897826630028,
      "grad_norm": 1.4495140324549352,
      "learning_rate": 1e-05,
      "loss": 0.8875,
      "step": 851
    },
    {
      "epoch": 0.6810891831126655,
      "grad_norm": 1.5626000543974294,
      "learning_rate": 1e-05,
      "loss": 0.8814,
      "step": 852
    },
    {
      "epoch": 0.6818885835623283,
      "grad_norm": 1.5909709047210767,
      "learning_rate": 1e-05,
      "loss": 0.883,
      "step": 853
    },
    {
      "epoch": 0.682687984011991,
      "grad_norm": 1.388722303171786,
      "learning_rate": 1e-05,
      "loss": 0.8748,
      "step": 854
    },
    {
      "epoch": 0.6834873844616538,
      "grad_norm": 1.385369830792288,
      "learning_rate": 1e-05,
      "loss": 0.8989,
      "step": 855
    },
    {
      "epoch": 0.6842867849113166,
      "grad_norm": 1.4882389241813443,
      "learning_rate": 1e-05,
      "loss": 0.8844,
      "step": 856
    },
    {
      "epoch": 0.6850861853609793,
      "grad_norm": 1.5186240399620652,
      "learning_rate": 1e-05,
      "loss": 0.8171,
      "step": 857
    },
    {
      "epoch": 0.6858855858106421,
      "grad_norm": 1.6078033804533332,
      "learning_rate": 1e-05,
      "loss": 0.8521,
      "step": 858
    },
    {
      "epoch": 0.6866849862603047,
      "grad_norm": 1.5272879309131646,
      "learning_rate": 1e-05,
      "loss": 0.8721,
      "step": 859
    },
    {
      "epoch": 0.6874843867099675,
      "grad_norm": 1.3931816328350173,
      "learning_rate": 1e-05,
      "loss": 0.8932,
      "step": 860
    },
    {
      "epoch": 0.6882837871596302,
      "grad_norm": 1.907029791689304,
      "learning_rate": 1e-05,
      "loss": 0.8905,
      "step": 861
    },
    {
      "epoch": 0.689083187609293,
      "grad_norm": 1.556416461497499,
      "learning_rate": 1e-05,
      "loss": 0.8986,
      "step": 862
    },
    {
      "epoch": 0.6898825880589557,
      "grad_norm": 1.4869019645563188,
      "learning_rate": 1e-05,
      "loss": 0.877,
      "step": 863
    },
    {
      "epoch": 0.6906819885086185,
      "grad_norm": 1.3740940835208075,
      "learning_rate": 1e-05,
      "loss": 0.9277,
      "step": 864
    },
    {
      "epoch": 0.6914813889582813,
      "grad_norm": 1.4834340760108946,
      "learning_rate": 1e-05,
      "loss": 0.9176,
      "step": 865
    },
    {
      "epoch": 0.692280789407944,
      "grad_norm": 1.4499951936894326,
      "learning_rate": 1e-05,
      "loss": 0.8522,
      "step": 866
    },
    {
      "epoch": 0.6930801898576068,
      "grad_norm": 1.3889909352429337,
      "learning_rate": 1e-05,
      "loss": 0.8675,
      "step": 867
    },
    {
      "epoch": 0.6938795903072695,
      "grad_norm": 1.3995933987812776,
      "learning_rate": 1e-05,
      "loss": 0.8729,
      "step": 868
    },
    {
      "epoch": 0.6946789907569323,
      "grad_norm": 1.4764512256041193,
      "learning_rate": 1e-05,
      "loss": 0.8209,
      "step": 869
    },
    {
      "epoch": 0.695478391206595,
      "grad_norm": 1.465237648051072,
      "learning_rate": 1e-05,
      "loss": 0.8008,
      "step": 870
    },
    {
      "epoch": 0.6962777916562578,
      "grad_norm": 1.3466097106594175,
      "learning_rate": 1e-05,
      "loss": 0.8931,
      "step": 871
    },
    {
      "epoch": 0.6970771921059206,
      "grad_norm": 1.5104958792040775,
      "learning_rate": 1e-05,
      "loss": 0.8828,
      "step": 872
    },
    {
      "epoch": 0.6978765925555833,
      "grad_norm": 1.5720653267427949,
      "learning_rate": 1e-05,
      "loss": 0.9531,
      "step": 873
    },
    {
      "epoch": 0.6986759930052461,
      "grad_norm": 1.5492614550562422,
      "learning_rate": 1e-05,
      "loss": 0.9313,
      "step": 874
    },
    {
      "epoch": 0.6994753934549088,
      "grad_norm": 1.303038024217404,
      "learning_rate": 1e-05,
      "loss": 0.9034,
      "step": 875
    },
    {
      "epoch": 0.7002747939045716,
      "grad_norm": 1.4497112842693025,
      "learning_rate": 1e-05,
      "loss": 0.8917,
      "step": 876
    },
    {
      "epoch": 0.7010741943542343,
      "grad_norm": 1.530596911055762,
      "learning_rate": 1e-05,
      "loss": 0.8814,
      "step": 877
    },
    {
      "epoch": 0.7018735948038971,
      "grad_norm": 1.5261791959543383,
      "learning_rate": 1e-05,
      "loss": 0.8853,
      "step": 878
    },
    {
      "epoch": 0.7026729952535599,
      "grad_norm": 1.527060521262994,
      "learning_rate": 1e-05,
      "loss": 0.8882,
      "step": 879
    },
    {
      "epoch": 0.7034723957032226,
      "grad_norm": 1.4906207672568565,
      "learning_rate": 1e-05,
      "loss": 0.8723,
      "step": 880
    },
    {
      "epoch": 0.7042717961528854,
      "grad_norm": 1.480851718176504,
      "learning_rate": 1e-05,
      "loss": 0.8692,
      "step": 881
    },
    {
      "epoch": 0.7050711966025481,
      "grad_norm": 1.47139179353177,
      "learning_rate": 1e-05,
      "loss": 0.888,
      "step": 882
    },
    {
      "epoch": 0.7058705970522109,
      "grad_norm": 1.4278237515234393,
      "learning_rate": 1e-05,
      "loss": 0.9221,
      "step": 883
    },
    {
      "epoch": 0.7066699975018736,
      "grad_norm": 1.573532967010904,
      "learning_rate": 1e-05,
      "loss": 0.9087,
      "step": 884
    },
    {
      "epoch": 0.7074693979515363,
      "grad_norm": 1.590669913446065,
      "learning_rate": 1e-05,
      "loss": 0.8771,
      "step": 885
    },
    {
      "epoch": 0.708268798401199,
      "grad_norm": 1.5285176052901992,
      "learning_rate": 1e-05,
      "loss": 0.8884,
      "step": 886
    },
    {
      "epoch": 0.7090681988508618,
      "grad_norm": 1.5768609209939375,
      "learning_rate": 1e-05,
      "loss": 0.8715,
      "step": 887
    },
    {
      "epoch": 0.7098675993005246,
      "grad_norm": 1.7625584577995699,
      "learning_rate": 1e-05,
      "loss": 0.936,
      "step": 888
    },
    {
      "epoch": 0.7106669997501873,
      "grad_norm": 1.6615792785808772,
      "learning_rate": 1e-05,
      "loss": 0.8865,
      "step": 889
    },
    {
      "epoch": 0.7114664001998501,
      "grad_norm": 1.3836071347408263,
      "learning_rate": 1e-05,
      "loss": 0.861,
      "step": 890
    },
    {
      "epoch": 0.7122658006495128,
      "grad_norm": 1.5374171878390779,
      "learning_rate": 1e-05,
      "loss": 0.8533,
      "step": 891
    },
    {
      "epoch": 0.7130652010991756,
      "grad_norm": 1.4960191138124015,
      "learning_rate": 1e-05,
      "loss": 0.8971,
      "step": 892
    },
    {
      "epoch": 0.7138646015488384,
      "grad_norm": 1.3462286304870854,
      "learning_rate": 1e-05,
      "loss": 0.9002,
      "step": 893
    },
    {
      "epoch": 0.7146640019985011,
      "grad_norm": 1.516533149153394,
      "learning_rate": 1e-05,
      "loss": 0.8495,
      "step": 894
    },
    {
      "epoch": 0.7154634024481639,
      "grad_norm": 1.4741671333939332,
      "learning_rate": 1e-05,
      "loss": 0.8702,
      "step": 895
    },
    {
      "epoch": 0.7162628028978266,
      "grad_norm": 1.412230967356979,
      "learning_rate": 1e-05,
      "loss": 0.8839,
      "step": 896
    },
    {
      "epoch": 0.7170622033474894,
      "grad_norm": 1.508657424433702,
      "learning_rate": 1e-05,
      "loss": 0.9207,
      "step": 897
    },
    {
      "epoch": 0.7178616037971521,
      "grad_norm": 1.5335780024625871,
      "learning_rate": 1e-05,
      "loss": 0.9414,
      "step": 898
    },
    {
      "epoch": 0.7186610042468149,
      "grad_norm": 1.522192545285303,
      "learning_rate": 1e-05,
      "loss": 0.85,
      "step": 899
    },
    {
      "epoch": 0.7194604046964777,
      "grad_norm": 1.433190511112366,
      "learning_rate": 1e-05,
      "loss": 0.8603,
      "step": 900
    },
    {
      "epoch": 0.7202598051461404,
      "grad_norm": 1.505735858560805,
      "learning_rate": 1e-05,
      "loss": 0.9305,
      "step": 901
    },
    {
      "epoch": 0.7210592055958032,
      "grad_norm": 1.3709122596783658,
      "learning_rate": 1e-05,
      "loss": 0.9035,
      "step": 902
    },
    {
      "epoch": 0.7218586060454659,
      "grad_norm": 1.4784407355636868,
      "learning_rate": 1e-05,
      "loss": 0.8133,
      "step": 903
    },
    {
      "epoch": 0.7226580064951287,
      "grad_norm": 1.4139431509162406,
      "learning_rate": 1e-05,
      "loss": 0.8757,
      "step": 904
    },
    {
      "epoch": 0.7234574069447914,
      "grad_norm": 1.483920166289949,
      "learning_rate": 1e-05,
      "loss": 0.8908,
      "step": 905
    },
    {
      "epoch": 0.7242568073944542,
      "grad_norm": 1.355169839026166,
      "learning_rate": 1e-05,
      "loss": 0.8778,
      "step": 906
    },
    {
      "epoch": 0.725056207844117,
      "grad_norm": 1.5849754730542471,
      "learning_rate": 1e-05,
      "loss": 0.8126,
      "step": 907
    },
    {
      "epoch": 0.7258556082937797,
      "grad_norm": 1.4415392226295947,
      "learning_rate": 1e-05,
      "loss": 0.9533,
      "step": 908
    },
    {
      "epoch": 0.7266550087434425,
      "grad_norm": 1.423271400925077,
      "learning_rate": 1e-05,
      "loss": 0.8991,
      "step": 909
    },
    {
      "epoch": 0.7274544091931052,
      "grad_norm": 1.2581118411370464,
      "learning_rate": 1e-05,
      "loss": 0.8691,
      "step": 910
    },
    {
      "epoch": 0.7282538096427679,
      "grad_norm": 1.6042455117982117,
      "learning_rate": 1e-05,
      "loss": 0.9323,
      "step": 911
    },
    {
      "epoch": 0.7290532100924306,
      "grad_norm": 1.7219536250131735,
      "learning_rate": 1e-05,
      "loss": 0.9108,
      "step": 912
    },
    {
      "epoch": 0.7298526105420934,
      "grad_norm": 1.39448532764431,
      "learning_rate": 1e-05,
      "loss": 0.8465,
      "step": 913
    },
    {
      "epoch": 0.7306520109917561,
      "grad_norm": 1.3967526960492356,
      "learning_rate": 1e-05,
      "loss": 0.8673,
      "step": 914
    },
    {
      "epoch": 0.7314514114414189,
      "grad_norm": 1.6077994734490668,
      "learning_rate": 1e-05,
      "loss": 0.8955,
      "step": 915
    },
    {
      "epoch": 0.7322508118910817,
      "grad_norm": 1.3203640300504973,
      "learning_rate": 1e-05,
      "loss": 0.7997,
      "step": 916
    },
    {
      "epoch": 0.7330502123407444,
      "grad_norm": 1.4566518226470033,
      "learning_rate": 1e-05,
      "loss": 0.8296,
      "step": 917
    },
    {
      "epoch": 0.7338496127904072,
      "grad_norm": 1.7293187013351636,
      "learning_rate": 1e-05,
      "loss": 0.9021,
      "step": 918
    },
    {
      "epoch": 0.7346490132400699,
      "grad_norm": 1.5383747305896551,
      "learning_rate": 1e-05,
      "loss": 0.8973,
      "step": 919
    },
    {
      "epoch": 0.7354484136897327,
      "grad_norm": 1.4275975245981607,
      "learning_rate": 1e-05,
      "loss": 0.8612,
      "step": 920
    },
    {
      "epoch": 0.7362478141393954,
      "grad_norm": 1.472214485322947,
      "learning_rate": 1e-05,
      "loss": 0.9005,
      "step": 921
    },
    {
      "epoch": 0.7370472145890582,
      "grad_norm": 1.4170406969180516,
      "learning_rate": 1e-05,
      "loss": 0.8952,
      "step": 922
    },
    {
      "epoch": 0.737846615038721,
      "grad_norm": 1.4134994732170305,
      "learning_rate": 1e-05,
      "loss": 0.8427,
      "step": 923
    },
    {
      "epoch": 0.7386460154883837,
      "grad_norm": 1.5810245176397593,
      "learning_rate": 1e-05,
      "loss": 0.8873,
      "step": 924
    },
    {
      "epoch": 0.7394454159380465,
      "grad_norm": 1.572493026866151,
      "learning_rate": 1e-05,
      "loss": 0.8999,
      "step": 925
    },
    {
      "epoch": 0.7402448163877092,
      "grad_norm": 1.4558846312035074,
      "learning_rate": 1e-05,
      "loss": 0.9221,
      "step": 926
    },
    {
      "epoch": 0.741044216837372,
      "grad_norm": 1.41669477168302,
      "learning_rate": 1e-05,
      "loss": 0.8994,
      "step": 927
    },
    {
      "epoch": 0.7418436172870347,
      "grad_norm": 1.433461160216514,
      "learning_rate": 1e-05,
      "loss": 0.8749,
      "step": 928
    },
    {
      "epoch": 0.7426430177366975,
      "grad_norm": 1.5673163590141157,
      "learning_rate": 1e-05,
      "loss": 0.8586,
      "step": 929
    },
    {
      "epoch": 0.7434424181863603,
      "grad_norm": 1.4736635147050137,
      "learning_rate": 1e-05,
      "loss": 0.9211,
      "step": 930
    },
    {
      "epoch": 0.744241818636023,
      "grad_norm": 1.4647228645746486,
      "learning_rate": 1e-05,
      "loss": 0.8332,
      "step": 931
    },
    {
      "epoch": 0.7450412190856858,
      "grad_norm": 1.3876657153509906,
      "learning_rate": 1e-05,
      "loss": 0.8481,
      "step": 932
    },
    {
      "epoch": 0.7458406195353485,
      "grad_norm": 1.469313389155329,
      "learning_rate": 1e-05,
      "loss": 0.9234,
      "step": 933
    },
    {
      "epoch": 0.7466400199850113,
      "grad_norm": 1.415959193503077,
      "learning_rate": 1e-05,
      "loss": 0.8794,
      "step": 934
    },
    {
      "epoch": 0.747439420434674,
      "grad_norm": 1.4597571617980725,
      "learning_rate": 1e-05,
      "loss": 0.8565,
      "step": 935
    },
    {
      "epoch": 0.7482388208843368,
      "grad_norm": 1.5271437643331571,
      "learning_rate": 1e-05,
      "loss": 0.8826,
      "step": 936
    },
    {
      "epoch": 0.7490382213339996,
      "grad_norm": 1.4956114964893394,
      "learning_rate": 1e-05,
      "loss": 0.9085,
      "step": 937
    },
    {
      "epoch": 0.7498376217836622,
      "grad_norm": 1.4732612528806723,
      "learning_rate": 1e-05,
      "loss": 0.8247,
      "step": 938
    },
    {
      "epoch": 0.750637022233325,
      "grad_norm": 1.4787986640658028,
      "learning_rate": 1e-05,
      "loss": 0.9317,
      "step": 939
    },
    {
      "epoch": 0.7514364226829877,
      "grad_norm": 1.7252017457319206,
      "learning_rate": 1e-05,
      "loss": 0.8741,
      "step": 940
    },
    {
      "epoch": 0.7522358231326505,
      "grad_norm": 1.4487217007150137,
      "learning_rate": 1e-05,
      "loss": 0.8629,
      "step": 941
    },
    {
      "epoch": 0.7530352235823132,
      "grad_norm": 1.5157039585564798,
      "learning_rate": 1e-05,
      "loss": 0.897,
      "step": 942
    },
    {
      "epoch": 0.753834624031976,
      "grad_norm": 1.611412160953887,
      "learning_rate": 1e-05,
      "loss": 0.9021,
      "step": 943
    },
    {
      "epoch": 0.7546340244816387,
      "grad_norm": 1.4394146060850934,
      "learning_rate": 1e-05,
      "loss": 0.8281,
      "step": 944
    },
    {
      "epoch": 0.7554334249313015,
      "grad_norm": 1.453348907195491,
      "learning_rate": 1e-05,
      "loss": 0.8928,
      "step": 945
    },
    {
      "epoch": 0.7562328253809643,
      "grad_norm": 1.4907250315835585,
      "learning_rate": 1e-05,
      "loss": 0.7856,
      "step": 946
    },
    {
      "epoch": 0.757032225830627,
      "grad_norm": 1.49481328462233,
      "learning_rate": 1e-05,
      "loss": 0.9155,
      "step": 947
    },
    {
      "epoch": 0.7578316262802898,
      "grad_norm": 1.3751698030196142,
      "learning_rate": 1e-05,
      "loss": 0.9301,
      "step": 948
    },
    {
      "epoch": 0.7586310267299525,
      "grad_norm": 1.4444725328440537,
      "learning_rate": 1e-05,
      "loss": 0.8655,
      "step": 949
    },
    {
      "epoch": 0.7594304271796153,
      "grad_norm": 1.5456042887758088,
      "learning_rate": 1e-05,
      "loss": 0.8901,
      "step": 950
    },
    {
      "epoch": 0.760229827629278,
      "grad_norm": 1.4949432017846453,
      "learning_rate": 1e-05,
      "loss": 0.916,
      "step": 951
    },
    {
      "epoch": 0.7610292280789408,
      "grad_norm": 1.6011034169877894,
      "learning_rate": 1e-05,
      "loss": 0.891,
      "step": 952
    },
    {
      "epoch": 0.7618286285286036,
      "grad_norm": 1.3042950526088992,
      "learning_rate": 1e-05,
      "loss": 0.9446,
      "step": 953
    },
    {
      "epoch": 0.7626280289782663,
      "grad_norm": 1.5837586059992244,
      "learning_rate": 1e-05,
      "loss": 0.91,
      "step": 954
    },
    {
      "epoch": 0.7634274294279291,
      "grad_norm": 1.4339719484551816,
      "learning_rate": 1e-05,
      "loss": 0.9016,
      "step": 955
    },
    {
      "epoch": 0.7642268298775918,
      "grad_norm": 1.5025550156701537,
      "learning_rate": 1e-05,
      "loss": 0.879,
      "step": 956
    },
    {
      "epoch": 0.7650262303272546,
      "grad_norm": 1.5378372958159126,
      "learning_rate": 1e-05,
      "loss": 0.9063,
      "step": 957
    },
    {
      "epoch": 0.7658256307769173,
      "grad_norm": 1.5230827569900542,
      "learning_rate": 1e-05,
      "loss": 0.8989,
      "step": 958
    },
    {
      "epoch": 0.7666250312265801,
      "grad_norm": 1.5291223084053325,
      "learning_rate": 1e-05,
      "loss": 0.8616,
      "step": 959
    },
    {
      "epoch": 0.7674244316762429,
      "grad_norm": 1.4773136700451888,
      "learning_rate": 1e-05,
      "loss": 0.8424,
      "step": 960
    },
    {
      "epoch": 0.7682238321259056,
      "grad_norm": 1.2093245102672463,
      "learning_rate": 1e-05,
      "loss": 0.8848,
      "step": 961
    },
    {
      "epoch": 0.7690232325755684,
      "grad_norm": 1.8571716921307402,
      "learning_rate": 1e-05,
      "loss": 0.8495,
      "step": 962
    },
    {
      "epoch": 0.7698226330252311,
      "grad_norm": 1.4472646694433717,
      "learning_rate": 1e-05,
      "loss": 0.867,
      "step": 963
    },
    {
      "epoch": 0.7706220334748938,
      "grad_norm": 1.4580828263402077,
      "learning_rate": 1e-05,
      "loss": 0.9002,
      "step": 964
    },
    {
      "epoch": 0.7714214339245565,
      "grad_norm": 1.499450946544706,
      "learning_rate": 1e-05,
      "loss": 0.9073,
      "step": 965
    },
    {
      "epoch": 0.7722208343742193,
      "grad_norm": 1.4461364940439836,
      "learning_rate": 1e-05,
      "loss": 0.8778,
      "step": 966
    },
    {
      "epoch": 0.773020234823882,
      "grad_norm": 1.506316728494387,
      "learning_rate": 1e-05,
      "loss": 0.845,
      "step": 967
    },
    {
      "epoch": 0.7738196352735448,
      "grad_norm": 1.3561052135711964,
      "learning_rate": 1e-05,
      "loss": 0.8722,
      "step": 968
    },
    {
      "epoch": 0.7746190357232076,
      "grad_norm": 1.4017997594585556,
      "learning_rate": 1e-05,
      "loss": 0.8602,
      "step": 969
    },
    {
      "epoch": 0.7754184361728703,
      "grad_norm": 1.4673374430145514,
      "learning_rate": 1e-05,
      "loss": 0.8503,
      "step": 970
    },
    {
      "epoch": 0.7762178366225331,
      "grad_norm": 1.6150949805416606,
      "learning_rate": 1e-05,
      "loss": 0.8194,
      "step": 971
    },
    {
      "epoch": 0.7770172370721958,
      "grad_norm": 1.4293495610183653,
      "learning_rate": 1e-05,
      "loss": 0.8719,
      "step": 972
    },
    {
      "epoch": 0.7778166375218586,
      "grad_norm": 1.34711255646197,
      "learning_rate": 1e-05,
      "loss": 0.9134,
      "step": 973
    },
    {
      "epoch": 0.7786160379715213,
      "grad_norm": 1.486875510521667,
      "learning_rate": 1e-05,
      "loss": 0.8282,
      "step": 974
    },
    {
      "epoch": 0.7794154384211841,
      "grad_norm": 1.3975406817023381,
      "learning_rate": 1e-05,
      "loss": 0.8696,
      "step": 975
    },
    {
      "epoch": 0.7802148388708469,
      "grad_norm": 1.590401419774706,
      "learning_rate": 1e-05,
      "loss": 0.8639,
      "step": 976
    },
    {
      "epoch": 0.7810142393205096,
      "grad_norm": 1.6348383990486186,
      "learning_rate": 1e-05,
      "loss": 0.8747,
      "step": 977
    },
    {
      "epoch": 0.7818136397701724,
      "grad_norm": 1.316266061656018,
      "learning_rate": 1e-05,
      "loss": 0.8912,
      "step": 978
    },
    {
      "epoch": 0.7826130402198351,
      "grad_norm": 1.4071917948886756,
      "learning_rate": 1e-05,
      "loss": 0.8258,
      "step": 979
    },
    {
      "epoch": 0.7834124406694979,
      "grad_norm": 1.4469880221919649,
      "learning_rate": 1e-05,
      "loss": 0.8354,
      "step": 980
    },
    {
      "epoch": 0.7842118411191606,
      "grad_norm": 1.2870843290387057,
      "learning_rate": 1e-05,
      "loss": 0.895,
      "step": 981
    },
    {
      "epoch": 0.7850112415688234,
      "grad_norm": 1.3149196281524491,
      "learning_rate": 1e-05,
      "loss": 0.8512,
      "step": 982
    },
    {
      "epoch": 0.7858106420184862,
      "grad_norm": 1.4704086234102491,
      "learning_rate": 1e-05,
      "loss": 0.9012,
      "step": 983
    },
    {
      "epoch": 0.7866100424681489,
      "grad_norm": 1.3828361638550721,
      "learning_rate": 1e-05,
      "loss": 0.8971,
      "step": 984
    },
    {
      "epoch": 0.7874094429178117,
      "grad_norm": 1.6052079287723495,
      "learning_rate": 1e-05,
      "loss": 0.8577,
      "step": 985
    },
    {
      "epoch": 0.7882088433674744,
      "grad_norm": 1.6793204061607632,
      "learning_rate": 1e-05,
      "loss": 0.876,
      "step": 986
    },
    {
      "epoch": 0.7890082438171372,
      "grad_norm": 1.4036184553448683,
      "learning_rate": 1e-05,
      "loss": 0.8983,
      "step": 987
    },
    {
      "epoch": 0.7898076442668,
      "grad_norm": 1.3858819411819097,
      "learning_rate": 1e-05,
      "loss": 0.8535,
      "step": 988
    },
    {
      "epoch": 0.7906070447164627,
      "grad_norm": 1.549784899074943,
      "learning_rate": 1e-05,
      "loss": 0.8849,
      "step": 989
    },
    {
      "epoch": 0.7914064451661255,
      "grad_norm": 1.4777960666446712,
      "learning_rate": 1e-05,
      "loss": 0.8666,
      "step": 990
    },
    {
      "epoch": 0.7922058456157881,
      "grad_norm": 1.9201257825258455,
      "learning_rate": 1e-05,
      "loss": 0.8409,
      "step": 991
    },
    {
      "epoch": 0.7930052460654509,
      "grad_norm": 1.5498417440527896,
      "learning_rate": 1e-05,
      "loss": 0.8805,
      "step": 992
    },
    {
      "epoch": 0.7938046465151136,
      "grad_norm": 1.4317539743714072,
      "learning_rate": 1e-05,
      "loss": 0.8635,
      "step": 993
    },
    {
      "epoch": 0.7946040469647764,
      "grad_norm": 1.5358225135776136,
      "learning_rate": 1e-05,
      "loss": 0.8708,
      "step": 994
    },
    {
      "epoch": 0.7954034474144391,
      "grad_norm": 1.4138952398073754,
      "learning_rate": 1e-05,
      "loss": 0.9169,
      "step": 995
    },
    {
      "epoch": 0.7962028478641019,
      "grad_norm": 1.306882525453356,
      "learning_rate": 1e-05,
      "loss": 0.8839,
      "step": 996
    },
    {
      "epoch": 0.7970022483137646,
      "grad_norm": 1.4151969180638062,
      "learning_rate": 1e-05,
      "loss": 0.9003,
      "step": 997
    },
    {
      "epoch": 0.7978016487634274,
      "grad_norm": 1.275880598076204,
      "learning_rate": 1e-05,
      "loss": 0.8549,
      "step": 998
    },
    {
      "epoch": 0.7986010492130902,
      "grad_norm": 1.4001477420212065,
      "learning_rate": 1e-05,
      "loss": 0.8505,
      "step": 999
    },
    {
      "epoch": 0.7994004496627529,
      "grad_norm": 1.4186294121350504,
      "learning_rate": 1e-05,
      "loss": 0.9215,
      "step": 1000
    },
    {
      "epoch": 0.8001998501124157,
      "grad_norm": 1.2933825079861516,
      "learning_rate": 1e-05,
      "loss": 0.851,
      "step": 1001
    },
    {
      "epoch": 0.8009992505620784,
      "grad_norm": 1.3844838762102727,
      "learning_rate": 1e-05,
      "loss": 0.8491,
      "step": 1002
    },
    {
      "epoch": 0.8017986510117412,
      "grad_norm": 1.424315745643642,
      "learning_rate": 1e-05,
      "loss": 0.8568,
      "step": 1003
    },
    {
      "epoch": 0.802598051461404,
      "grad_norm": 1.536779666402137,
      "learning_rate": 1e-05,
      "loss": 0.8616,
      "step": 1004
    },
    {
      "epoch": 0.8033974519110667,
      "grad_norm": 1.5821296355398455,
      "learning_rate": 1e-05,
      "loss": 0.8527,
      "step": 1005
    },
    {
      "epoch": 0.8041968523607295,
      "grad_norm": 1.4455856617071001,
      "learning_rate": 1e-05,
      "loss": 0.8713,
      "step": 1006
    },
    {
      "epoch": 0.8049962528103922,
      "grad_norm": 1.2354619055674243,
      "learning_rate": 1e-05,
      "loss": 0.8993,
      "step": 1007
    },
    {
      "epoch": 0.805795653260055,
      "grad_norm": 1.6070375123923897,
      "learning_rate": 1e-05,
      "loss": 0.8743,
      "step": 1008
    },
    {
      "epoch": 0.8065950537097177,
      "grad_norm": 1.4541848794736738,
      "learning_rate": 1e-05,
      "loss": 0.8581,
      "step": 1009
    },
    {
      "epoch": 0.8073944541593805,
      "grad_norm": 1.4226597509638712,
      "learning_rate": 1e-05,
      "loss": 0.8627,
      "step": 1010
    },
    {
      "epoch": 0.8081938546090432,
      "grad_norm": 1.4541863541400335,
      "learning_rate": 1e-05,
      "loss": 0.895,
      "step": 1011
    },
    {
      "epoch": 0.808993255058706,
      "grad_norm": 1.5062531375485146,
      "learning_rate": 1e-05,
      "loss": 0.8703,
      "step": 1012
    },
    {
      "epoch": 0.8097926555083688,
      "grad_norm": 1.4276851237794737,
      "learning_rate": 1e-05,
      "loss": 0.9105,
      "step": 1013
    },
    {
      "epoch": 0.8105920559580315,
      "grad_norm": 1.4788273876522071,
      "learning_rate": 1e-05,
      "loss": 0.8367,
      "step": 1014
    },
    {
      "epoch": 0.8113914564076943,
      "grad_norm": 1.407145240499365,
      "learning_rate": 1e-05,
      "loss": 0.8145,
      "step": 1015
    },
    {
      "epoch": 0.812190856857357,
      "grad_norm": 1.8014438432061057,
      "learning_rate": 1e-05,
      "loss": 0.8819,
      "step": 1016
    },
    {
      "epoch": 0.8129902573070197,
      "grad_norm": 1.372209038359735,
      "learning_rate": 1e-05,
      "loss": 0.868,
      "step": 1017
    },
    {
      "epoch": 0.8137896577566824,
      "grad_norm": 1.5495856867435909,
      "learning_rate": 1e-05,
      "loss": 0.8626,
      "step": 1018
    },
    {
      "epoch": 0.8145890582063452,
      "grad_norm": 1.617836176498916,
      "learning_rate": 1e-05,
      "loss": 0.802,
      "step": 1019
    },
    {
      "epoch": 0.815388458656008,
      "grad_norm": 1.4721686410259016,
      "learning_rate": 1e-05,
      "loss": 0.8835,
      "step": 1020
    },
    {
      "epoch": 0.8161878591056707,
      "grad_norm": 1.5756457858641464,
      "learning_rate": 1e-05,
      "loss": 0.903,
      "step": 1021
    },
    {
      "epoch": 0.8169872595553335,
      "grad_norm": 1.5229101192600658,
      "learning_rate": 1e-05,
      "loss": 0.9111,
      "step": 1022
    },
    {
      "epoch": 0.8177866600049962,
      "grad_norm": 1.3993305196243857,
      "learning_rate": 1e-05,
      "loss": 0.8218,
      "step": 1023
    },
    {
      "epoch": 0.818586060454659,
      "grad_norm": 1.760678360532871,
      "learning_rate": 1e-05,
      "loss": 0.8942,
      "step": 1024
    },
    {
      "epoch": 0.8193854609043217,
      "grad_norm": 1.5000785334067135,
      "learning_rate": 1e-05,
      "loss": 0.8791,
      "step": 1025
    },
    {
      "epoch": 0.8201848613539845,
      "grad_norm": 1.6674955223352013,
      "learning_rate": 1e-05,
      "loss": 0.8626,
      "step": 1026
    },
    {
      "epoch": 0.8209842618036473,
      "grad_norm": 1.6318940473847319,
      "learning_rate": 1e-05,
      "loss": 0.9127,
      "step": 1027
    },
    {
      "epoch": 0.82178366225331,
      "grad_norm": 1.3538540553221186,
      "learning_rate": 1e-05,
      "loss": 0.8845,
      "step": 1028
    },
    {
      "epoch": 0.8225830627029728,
      "grad_norm": 1.6241141376741397,
      "learning_rate": 1e-05,
      "loss": 0.9048,
      "step": 1029
    },
    {
      "epoch": 0.8233824631526355,
      "grad_norm": 1.6076201928103848,
      "learning_rate": 1e-05,
      "loss": 0.911,
      "step": 1030
    },
    {
      "epoch": 0.8241818636022983,
      "grad_norm": 1.6514943246242055,
      "learning_rate": 1e-05,
      "loss": 0.9161,
      "step": 1031
    },
    {
      "epoch": 0.824981264051961,
      "grad_norm": 1.4757470594102153,
      "learning_rate": 1e-05,
      "loss": 0.8522,
      "step": 1032
    },
    {
      "epoch": 0.8257806645016238,
      "grad_norm": 1.6550497620549556,
      "learning_rate": 1e-05,
      "loss": 0.8821,
      "step": 1033
    },
    {
      "epoch": 0.8265800649512866,
      "grad_norm": 1.416433208923937,
      "learning_rate": 1e-05,
      "loss": 0.8757,
      "step": 1034
    },
    {
      "epoch": 0.8273794654009493,
      "grad_norm": 1.2778570567318692,
      "learning_rate": 1e-05,
      "loss": 0.9259,
      "step": 1035
    },
    {
      "epoch": 0.8281788658506121,
      "grad_norm": 1.5852330201994453,
      "learning_rate": 1e-05,
      "loss": 0.833,
      "step": 1036
    },
    {
      "epoch": 0.8289782663002748,
      "grad_norm": 1.5240272977432132,
      "learning_rate": 1e-05,
      "loss": 0.8842,
      "step": 1037
    },
    {
      "epoch": 0.8297776667499376,
      "grad_norm": 1.2798050681953308,
      "learning_rate": 1e-05,
      "loss": 0.8338,
      "step": 1038
    },
    {
      "epoch": 0.8305770671996003,
      "grad_norm": 1.5489648653630288,
      "learning_rate": 1e-05,
      "loss": 0.8501,
      "step": 1039
    },
    {
      "epoch": 0.8313764676492631,
      "grad_norm": 1.435906811134758,
      "learning_rate": 1e-05,
      "loss": 0.867,
      "step": 1040
    },
    {
      "epoch": 0.8321758680989259,
      "grad_norm": 1.4702097962874583,
      "learning_rate": 1e-05,
      "loss": 0.8378,
      "step": 1041
    },
    {
      "epoch": 0.8329752685485886,
      "grad_norm": 1.594108179583473,
      "learning_rate": 1e-05,
      "loss": 0.8765,
      "step": 1042
    },
    {
      "epoch": 0.8337746689982513,
      "grad_norm": 1.5200902751808993,
      "learning_rate": 1e-05,
      "loss": 0.877,
      "step": 1043
    },
    {
      "epoch": 0.834574069447914,
      "grad_norm": 1.438298229451603,
      "learning_rate": 1e-05,
      "loss": 0.8663,
      "step": 1044
    },
    {
      "epoch": 0.8353734698975768,
      "grad_norm": 1.454018494694832,
      "learning_rate": 1e-05,
      "loss": 0.8918,
      "step": 1045
    },
    {
      "epoch": 0.8361728703472395,
      "grad_norm": 1.5005502708015002,
      "learning_rate": 1e-05,
      "loss": 0.8373,
      "step": 1046
    },
    {
      "epoch": 0.8369722707969023,
      "grad_norm": 1.291500552799284,
      "learning_rate": 1e-05,
      "loss": 0.8418,
      "step": 1047
    },
    {
      "epoch": 0.837771671246565,
      "grad_norm": 1.464971545003121,
      "learning_rate": 1e-05,
      "loss": 0.8986,
      "step": 1048
    },
    {
      "epoch": 0.8385710716962278,
      "grad_norm": 1.3970450556504503,
      "learning_rate": 1e-05,
      "loss": 0.8829,
      "step": 1049
    },
    {
      "epoch": 0.8393704721458906,
      "grad_norm": 1.4873155145975965,
      "learning_rate": 1e-05,
      "loss": 0.9039,
      "step": 1050
    },
    {
      "epoch": 0.8401698725955533,
      "grad_norm": 1.4116749220099283,
      "learning_rate": 1e-05,
      "loss": 0.8392,
      "step": 1051
    },
    {
      "epoch": 0.8409692730452161,
      "grad_norm": 1.375469878009426,
      "learning_rate": 1e-05,
      "loss": 0.8463,
      "step": 1052
    },
    {
      "epoch": 0.8417686734948788,
      "grad_norm": 1.2984722488631455,
      "learning_rate": 1e-05,
      "loss": 0.8578,
      "step": 1053
    },
    {
      "epoch": 0.8425680739445416,
      "grad_norm": 1.377137242087716,
      "learning_rate": 1e-05,
      "loss": 0.8753,
      "step": 1054
    },
    {
      "epoch": 0.8433674743942043,
      "grad_norm": 1.513617649555769,
      "learning_rate": 1e-05,
      "loss": 0.9161,
      "step": 1055
    },
    {
      "epoch": 0.8441668748438671,
      "grad_norm": 1.3943343336302483,
      "learning_rate": 1e-05,
      "loss": 0.8984,
      "step": 1056
    },
    {
      "epoch": 0.8449662752935299,
      "grad_norm": 1.4829273034743662,
      "learning_rate": 1e-05,
      "loss": 0.9456,
      "step": 1057
    },
    {
      "epoch": 0.8457656757431926,
      "grad_norm": 1.300813156773205,
      "learning_rate": 1e-05,
      "loss": 0.8848,
      "step": 1058
    },
    {
      "epoch": 0.8465650761928554,
      "grad_norm": 1.6171681830366456,
      "learning_rate": 1e-05,
      "loss": 0.8825,
      "step": 1059
    },
    {
      "epoch": 0.8473644766425181,
      "grad_norm": 1.4746785824924948,
      "learning_rate": 1e-05,
      "loss": 0.8782,
      "step": 1060
    },
    {
      "epoch": 0.8481638770921809,
      "grad_norm": 1.4773421322909972,
      "learning_rate": 1e-05,
      "loss": 0.8511,
      "step": 1061
    },
    {
      "epoch": 0.8489632775418436,
      "grad_norm": 1.2712734121324603,
      "learning_rate": 1e-05,
      "loss": 0.8512,
      "step": 1062
    },
    {
      "epoch": 0.8497626779915064,
      "grad_norm": 1.4673347511942942,
      "learning_rate": 1e-05,
      "loss": 0.9082,
      "step": 1063
    },
    {
      "epoch": 0.8505620784411692,
      "grad_norm": 1.3648492502704213,
      "learning_rate": 1e-05,
      "loss": 0.8857,
      "step": 1064
    },
    {
      "epoch": 0.8513614788908319,
      "grad_norm": 1.4139141501508512,
      "learning_rate": 1e-05,
      "loss": 0.862,
      "step": 1065
    },
    {
      "epoch": 0.8521608793404947,
      "grad_norm": 1.477130924813934,
      "learning_rate": 1e-05,
      "loss": 0.9706,
      "step": 1066
    },
    {
      "epoch": 0.8529602797901574,
      "grad_norm": 1.4482250453004122,
      "learning_rate": 1e-05,
      "loss": 0.906,
      "step": 1067
    },
    {
      "epoch": 0.8537596802398202,
      "grad_norm": 1.522992168116749,
      "learning_rate": 1e-05,
      "loss": 0.9545,
      "step": 1068
    },
    {
      "epoch": 0.8545590806894829,
      "grad_norm": 1.5261726249592624,
      "learning_rate": 1e-05,
      "loss": 0.9238,
      "step": 1069
    },
    {
      "epoch": 0.8553584811391456,
      "grad_norm": 1.4267309300725217,
      "learning_rate": 1e-05,
      "loss": 0.8925,
      "step": 1070
    },
    {
      "epoch": 0.8561578815888083,
      "grad_norm": 1.4527959506992734,
      "learning_rate": 1e-05,
      "loss": 0.8994,
      "step": 1071
    },
    {
      "epoch": 0.8569572820384711,
      "grad_norm": 1.5030190804190187,
      "learning_rate": 1e-05,
      "loss": 0.9301,
      "step": 1072
    },
    {
      "epoch": 0.8577566824881339,
      "grad_norm": 1.2235265071589685,
      "learning_rate": 1e-05,
      "loss": 0.8509,
      "step": 1073
    },
    {
      "epoch": 0.8585560829377966,
      "grad_norm": 1.4074654499219896,
      "learning_rate": 1e-05,
      "loss": 0.889,
      "step": 1074
    },
    {
      "epoch": 0.8593554833874594,
      "grad_norm": 1.2944008535061877,
      "learning_rate": 1e-05,
      "loss": 0.8966,
      "step": 1075
    },
    {
      "epoch": 0.8601548838371221,
      "grad_norm": 1.3310895995556136,
      "learning_rate": 1e-05,
      "loss": 0.8138,
      "step": 1076
    },
    {
      "epoch": 0.8609542842867849,
      "grad_norm": 1.427408631037752,
      "learning_rate": 1e-05,
      "loss": 0.8852,
      "step": 1077
    },
    {
      "epoch": 0.8617536847364476,
      "grad_norm": 1.4692371711172514,
      "learning_rate": 1e-05,
      "loss": 0.8797,
      "step": 1078
    },
    {
      "epoch": 0.8625530851861104,
      "grad_norm": 1.541692282374257,
      "learning_rate": 1e-05,
      "loss": 0.8589,
      "step": 1079
    },
    {
      "epoch": 0.8633524856357732,
      "grad_norm": 1.5815910403079887,
      "learning_rate": 1e-05,
      "loss": 0.8625,
      "step": 1080
    },
    {
      "epoch": 0.8641518860854359,
      "grad_norm": 1.4959179824929254,
      "learning_rate": 1e-05,
      "loss": 0.9189,
      "step": 1081
    },
    {
      "epoch": 0.8649512865350987,
      "grad_norm": 1.5319580336293697,
      "learning_rate": 1e-05,
      "loss": 0.8267,
      "step": 1082
    },
    {
      "epoch": 0.8657506869847614,
      "grad_norm": 1.486040602833083,
      "learning_rate": 1e-05,
      "loss": 0.8625,
      "step": 1083
    },
    {
      "epoch": 0.8665500874344242,
      "grad_norm": 1.424254094608181,
      "learning_rate": 1e-05,
      "loss": 0.8943,
      "step": 1084
    },
    {
      "epoch": 0.867349487884087,
      "grad_norm": 1.643630623556634,
      "learning_rate": 1e-05,
      "loss": 0.9188,
      "step": 1085
    },
    {
      "epoch": 0.8681488883337497,
      "grad_norm": 1.452534027382345,
      "learning_rate": 1e-05,
      "loss": 0.88,
      "step": 1086
    },
    {
      "epoch": 0.8689482887834125,
      "grad_norm": 1.5479604306192913,
      "learning_rate": 1e-05,
      "loss": 0.7943,
      "step": 1087
    },
    {
      "epoch": 0.8697476892330752,
      "grad_norm": 1.363070121645927,
      "learning_rate": 1e-05,
      "loss": 0.8416,
      "step": 1088
    },
    {
      "epoch": 0.870547089682738,
      "grad_norm": 1.4551924760921788,
      "learning_rate": 1e-05,
      "loss": 0.8748,
      "step": 1089
    },
    {
      "epoch": 0.8713464901324007,
      "grad_norm": 1.8072081219985316,
      "learning_rate": 1e-05,
      "loss": 0.8955,
      "step": 1090
    },
    {
      "epoch": 0.8721458905820635,
      "grad_norm": 1.480345916799882,
      "learning_rate": 1e-05,
      "loss": 0.8984,
      "step": 1091
    },
    {
      "epoch": 0.8729452910317262,
      "grad_norm": 1.513951237735827,
      "learning_rate": 1e-05,
      "loss": 0.8573,
      "step": 1092
    },
    {
      "epoch": 0.873744691481389,
      "grad_norm": 1.4012284095364107,
      "learning_rate": 1e-05,
      "loss": 0.8448,
      "step": 1093
    },
    {
      "epoch": 0.8745440919310518,
      "grad_norm": 1.4316182193855909,
      "learning_rate": 1e-05,
      "loss": 0.8778,
      "step": 1094
    },
    {
      "epoch": 0.8753434923807145,
      "grad_norm": 1.4767564148326937,
      "learning_rate": 1e-05,
      "loss": 0.8769,
      "step": 1095
    },
    {
      "epoch": 0.8761428928303772,
      "grad_norm": 1.4996522495810245,
      "learning_rate": 1e-05,
      "loss": 0.8928,
      "step": 1096
    },
    {
      "epoch": 0.8769422932800399,
      "grad_norm": 1.4836247078704627,
      "learning_rate": 1e-05,
      "loss": 0.8657,
      "step": 1097
    },
    {
      "epoch": 0.8777416937297027,
      "grad_norm": 1.4148846725052078,
      "learning_rate": 1e-05,
      "loss": 0.8763,
      "step": 1098
    },
    {
      "epoch": 0.8785410941793654,
      "grad_norm": 1.8564930284795111,
      "learning_rate": 1e-05,
      "loss": 0.8362,
      "step": 1099
    },
    {
      "epoch": 0.8793404946290282,
      "grad_norm": 1.3887316999375894,
      "learning_rate": 1e-05,
      "loss": 0.8692,
      "step": 1100
    },
    {
      "epoch": 0.880139895078691,
      "grad_norm": 4.721320996449426,
      "learning_rate": 1e-05,
      "loss": 0.8951,
      "step": 1101
    },
    {
      "epoch": 0.8809392955283537,
      "grad_norm": 1.801959602001512,
      "learning_rate": 1e-05,
      "loss": 0.9127,
      "step": 1102
    },
    {
      "epoch": 0.8817386959780165,
      "grad_norm": 1.4999059990761596,
      "learning_rate": 1e-05,
      "loss": 0.8277,
      "step": 1103
    },
    {
      "epoch": 0.8825380964276792,
      "grad_norm": 1.580749043430391,
      "learning_rate": 1e-05,
      "loss": 0.8532,
      "step": 1104
    },
    {
      "epoch": 0.883337496877342,
      "grad_norm": 4.723585804015321,
      "learning_rate": 1e-05,
      "loss": 0.8846,
      "step": 1105
    },
    {
      "epoch": 0.8841368973270047,
      "grad_norm": 10.533804682370834,
      "learning_rate": 1e-05,
      "loss": 0.915,
      "step": 1106
    },
    {
      "epoch": 0.8849362977766675,
      "grad_norm": 2.7074849652786948,
      "learning_rate": 1e-05,
      "loss": 0.8588,
      "step": 1107
    },
    {
      "epoch": 0.8857356982263302,
      "grad_norm": 1.8291875456761892,
      "learning_rate": 1e-05,
      "loss": 0.8274,
      "step": 1108
    },
    {
      "epoch": 0.886535098675993,
      "grad_norm": 4.390203546717027,
      "learning_rate": 1e-05,
      "loss": 0.908,
      "step": 1109
    },
    {
      "epoch": 0.8873344991256558,
      "grad_norm": 3.8103014314112156,
      "learning_rate": 1e-05,
      "loss": 0.9094,
      "step": 1110
    },
    {
      "epoch": 0.8881338995753185,
      "grad_norm": 455.28682152314866,
      "learning_rate": 1e-05,
      "loss": 0.8881,
      "step": 1111
    },
    {
      "epoch": 0.8889333000249813,
      "grad_norm": 4.4477324217626295,
      "learning_rate": 1e-05,
      "loss": 0.891,
      "step": 1112
    },
    {
      "epoch": 0.889732700474644,
      "grad_norm": 1.3884130302591122,
      "learning_rate": 1e-05,
      "loss": 0.8485,
      "step": 1113
    },
    {
      "epoch": 0.8905321009243068,
      "grad_norm": 1.4938176798235159,
      "learning_rate": 1e-05,
      "loss": 0.8438,
      "step": 1114
    },
    {
      "epoch": 0.8913315013739695,
      "grad_norm": 1.5434085929606869,
      "learning_rate": 1e-05,
      "loss": 0.8977,
      "step": 1115
    },
    {
      "epoch": 0.8921309018236323,
      "grad_norm": 1.3286197641197046,
      "learning_rate": 1e-05,
      "loss": 0.8355,
      "step": 1116
    },
    {
      "epoch": 0.8929303022732951,
      "grad_norm": 1.4646146883912168,
      "learning_rate": 1e-05,
      "loss": 0.8735,
      "step": 1117
    },
    {
      "epoch": 0.8937297027229578,
      "grad_norm": 8.122892577298567,
      "learning_rate": 1e-05,
      "loss": 0.9016,
      "step": 1118
    },
    {
      "epoch": 0.8945291031726206,
      "grad_norm": 1.4376773752975496,
      "learning_rate": 1e-05,
      "loss": 0.913,
      "step": 1119
    },
    {
      "epoch": 0.8953285036222833,
      "grad_norm": 2.146749128485352,
      "learning_rate": 1e-05,
      "loss": 0.8643,
      "step": 1120
    },
    {
      "epoch": 0.8961279040719461,
      "grad_norm": 1.7549423766927372,
      "learning_rate": 1e-05,
      "loss": 0.8559,
      "step": 1121
    },
    {
      "epoch": 0.8969273045216088,
      "grad_norm": 1.6784215753386844,
      "learning_rate": 1e-05,
      "loss": 0.8467,
      "step": 1122
    },
    {
      "epoch": 0.8977267049712715,
      "grad_norm": 1.5205155953208587,
      "learning_rate": 1e-05,
      "loss": 0.8918,
      "step": 1123
    },
    {
      "epoch": 0.8985261054209343,
      "grad_norm": 1.439844948580554,
      "learning_rate": 1e-05,
      "loss": 0.846,
      "step": 1124
    },
    {
      "epoch": 0.899325505870597,
      "grad_norm": 1.3494413427515104,
      "learning_rate": 1e-05,
      "loss": 0.8701,
      "step": 1125
    },
    {
      "epoch": 0.9001249063202598,
      "grad_norm": 1.4785482334232822,
      "learning_rate": 1e-05,
      "loss": 0.8762,
      "step": 1126
    },
    {
      "epoch": 0.9009243067699225,
      "grad_norm": 1.6204723133056338,
      "learning_rate": 1e-05,
      "loss": 0.8618,
      "step": 1127
    },
    {
      "epoch": 0.9017237072195853,
      "grad_norm": 1.5410838002577578,
      "learning_rate": 1e-05,
      "loss": 0.8352,
      "step": 1128
    },
    {
      "epoch": 0.902523107669248,
      "grad_norm": 1.408368948793772,
      "learning_rate": 1e-05,
      "loss": 0.8143,
      "step": 1129
    },
    {
      "epoch": 0.9033225081189108,
      "grad_norm": 1.3840905876298821,
      "learning_rate": 1e-05,
      "loss": 0.8497,
      "step": 1130
    },
    {
      "epoch": 0.9041219085685736,
      "grad_norm": 1.7756397607717793,
      "learning_rate": 1e-05,
      "loss": 0.9065,
      "step": 1131
    },
    {
      "epoch": 0.9049213090182363,
      "grad_norm": 1.3699433150113711,
      "learning_rate": 1e-05,
      "loss": 0.8455,
      "step": 1132
    },
    {
      "epoch": 0.9057207094678991,
      "grad_norm": 1.4303100795006611,
      "learning_rate": 1e-05,
      "loss": 0.8574,
      "step": 1133
    },
    {
      "epoch": 0.9065201099175618,
      "grad_norm": 1.3913259705586178,
      "learning_rate": 1e-05,
      "loss": 0.8615,
      "step": 1134
    },
    {
      "epoch": 0.9073195103672246,
      "grad_norm": 1.4143231716945688,
      "learning_rate": 1e-05,
      "loss": 0.9084,
      "step": 1135
    },
    {
      "epoch": 0.9081189108168873,
      "grad_norm": 1.3947073651825206,
      "learning_rate": 1e-05,
      "loss": 0.8926,
      "step": 1136
    },
    {
      "epoch": 0.9089183112665501,
      "grad_norm": 1.415175153929991,
      "learning_rate": 1e-05,
      "loss": 0.8153,
      "step": 1137
    },
    {
      "epoch": 0.9097177117162129,
      "grad_norm": 1.3554176947555092,
      "learning_rate": 1e-05,
      "loss": 0.9018,
      "step": 1138
    },
    {
      "epoch": 0.9105171121658756,
      "grad_norm": 1.3676437829569341,
      "learning_rate": 1e-05,
      "loss": 0.8339,
      "step": 1139
    },
    {
      "epoch": 0.9113165126155384,
      "grad_norm": 1.2248182189476722,
      "learning_rate": 1e-05,
      "loss": 0.8865,
      "step": 1140
    },
    {
      "epoch": 0.9121159130652011,
      "grad_norm": 1.5759658066895652,
      "learning_rate": 1e-05,
      "loss": 0.8736,
      "step": 1141
    },
    {
      "epoch": 0.9129153135148639,
      "grad_norm": 1.2978962092251058,
      "learning_rate": 1e-05,
      "loss": 0.9114,
      "step": 1142
    },
    {
      "epoch": 0.9137147139645266,
      "grad_norm": 1.3829867839638308,
      "learning_rate": 1e-05,
      "loss": 0.8636,
      "step": 1143
    },
    {
      "epoch": 0.9145141144141894,
      "grad_norm": 1.4786554185436886,
      "learning_rate": 1e-05,
      "loss": 0.9103,
      "step": 1144
    },
    {
      "epoch": 0.9153135148638522,
      "grad_norm": 1.5247139561552725,
      "learning_rate": 1e-05,
      "loss": 0.8403,
      "step": 1145
    },
    {
      "epoch": 0.9161129153135149,
      "grad_norm": 1.3888872413761024,
      "learning_rate": 1e-05,
      "loss": 0.8457,
      "step": 1146
    },
    {
      "epoch": 0.9169123157631777,
      "grad_norm": 1.426097741347822,
      "learning_rate": 1e-05,
      "loss": 0.8769,
      "step": 1147
    },
    {
      "epoch": 0.9177117162128404,
      "grad_norm": 1.5560059286195493,
      "learning_rate": 1e-05,
      "loss": 0.864,
      "step": 1148
    },
    {
      "epoch": 0.9185111166625031,
      "grad_norm": 1.4406955993681905,
      "learning_rate": 1e-05,
      "loss": 0.8668,
      "step": 1149
    },
    {
      "epoch": 0.9193105171121658,
      "grad_norm": 1.489597707567999,
      "learning_rate": 1e-05,
      "loss": 0.855,
      "step": 1150
    },
    {
      "epoch": 0.9201099175618286,
      "grad_norm": 1.379157014673917,
      "learning_rate": 1e-05,
      "loss": 0.935,
      "step": 1151
    },
    {
      "epoch": 0.9209093180114913,
      "grad_norm": 1.4949181541382415,
      "learning_rate": 1e-05,
      "loss": 0.8664,
      "step": 1152
    },
    {
      "epoch": 0.9217087184611541,
      "grad_norm": 1.4980233869730157,
      "learning_rate": 1e-05,
      "loss": 0.8224,
      "step": 1153
    },
    {
      "epoch": 0.9225081189108169,
      "grad_norm": 1.4050924624234455,
      "learning_rate": 1e-05,
      "loss": 0.891,
      "step": 1154
    },
    {
      "epoch": 0.9233075193604796,
      "grad_norm": 1.6467240441672264,
      "learning_rate": 1e-05,
      "loss": 0.834,
      "step": 1155
    },
    {
      "epoch": 0.9241069198101424,
      "grad_norm": 1.3421364569781595,
      "learning_rate": 1e-05,
      "loss": 0.8436,
      "step": 1156
    },
    {
      "epoch": 0.9249063202598051,
      "grad_norm": 1.246062501997166,
      "learning_rate": 1e-05,
      "loss": 0.869,
      "step": 1157
    },
    {
      "epoch": 0.9257057207094679,
      "grad_norm": 1.4858806518325938,
      "learning_rate": 1e-05,
      "loss": 0.9168,
      "step": 1158
    },
    {
      "epoch": 0.9265051211591306,
      "grad_norm": 1.4777896246461322,
      "learning_rate": 1e-05,
      "loss": 0.8593,
      "step": 1159
    },
    {
      "epoch": 0.9273045216087934,
      "grad_norm": 1.4266934813336434,
      "learning_rate": 1e-05,
      "loss": 0.8943,
      "step": 1160
    },
    {
      "epoch": 0.9281039220584562,
      "grad_norm": 1.4729608886697982,
      "learning_rate": 1e-05,
      "loss": 0.8981,
      "step": 1161
    },
    {
      "epoch": 0.9289033225081189,
      "grad_norm": 1.4856931952636183,
      "learning_rate": 1e-05,
      "loss": 0.8623,
      "step": 1162
    },
    {
      "epoch": 0.9297027229577817,
      "grad_norm": 1.4313714774475765,
      "learning_rate": 1e-05,
      "loss": 0.8441,
      "step": 1163
    },
    {
      "epoch": 0.9305021234074444,
      "grad_norm": 1.3975576369260547,
      "learning_rate": 1e-05,
      "loss": 0.8337,
      "step": 1164
    },
    {
      "epoch": 0.9313015238571072,
      "grad_norm": 1.4706185165998424,
      "learning_rate": 1e-05,
      "loss": 0.8336,
      "step": 1165
    },
    {
      "epoch": 0.9321009243067699,
      "grad_norm": 1.3837948320627937,
      "learning_rate": 1e-05,
      "loss": 0.8741,
      "step": 1166
    },
    {
      "epoch": 0.9329003247564327,
      "grad_norm": 1.3855675072168605,
      "learning_rate": 1e-05,
      "loss": 0.9235,
      "step": 1167
    },
    {
      "epoch": 0.9336997252060955,
      "grad_norm": 1.5034589343394933,
      "learning_rate": 1e-05,
      "loss": 0.8267,
      "step": 1168
    },
    {
      "epoch": 0.9344991256557582,
      "grad_norm": 1.5081619715031618,
      "learning_rate": 1e-05,
      "loss": 0.8912,
      "step": 1169
    },
    {
      "epoch": 0.935298526105421,
      "grad_norm": 1.570365541340616,
      "learning_rate": 1e-05,
      "loss": 0.8589,
      "step": 1170
    },
    {
      "epoch": 0.9360979265550837,
      "grad_norm": 1.368058151600139,
      "learning_rate": 1e-05,
      "loss": 0.8669,
      "step": 1171
    },
    {
      "epoch": 0.9368973270047465,
      "grad_norm": 1.4254090126900538,
      "learning_rate": 1e-05,
      "loss": 0.8997,
      "step": 1172
    },
    {
      "epoch": 0.9376967274544092,
      "grad_norm": 1.4563379308659208,
      "learning_rate": 1e-05,
      "loss": 0.8378,
      "step": 1173
    },
    {
      "epoch": 0.938496127904072,
      "grad_norm": 1.480841767300247,
      "learning_rate": 1e-05,
      "loss": 0.8428,
      "step": 1174
    },
    {
      "epoch": 0.9392955283537348,
      "grad_norm": 1.4441769797776909,
      "learning_rate": 1e-05,
      "loss": 0.8308,
      "step": 1175
    },
    {
      "epoch": 0.9400949288033974,
      "grad_norm": 1.5331892724720704,
      "learning_rate": 1e-05,
      "loss": 0.8733,
      "step": 1176
    },
    {
      "epoch": 0.9408943292530602,
      "grad_norm": 1.3897737412131999,
      "learning_rate": 1e-05,
      "loss": 0.8255,
      "step": 1177
    },
    {
      "epoch": 0.9416937297027229,
      "grad_norm": 1.4328437965242162,
      "learning_rate": 1e-05,
      "loss": 0.842,
      "step": 1178
    },
    {
      "epoch": 0.9424931301523857,
      "grad_norm": 1.1601633219334695,
      "learning_rate": 1e-05,
      "loss": 0.8528,
      "step": 1179
    },
    {
      "epoch": 0.9432925306020484,
      "grad_norm": 1.3663250801686486,
      "learning_rate": 1e-05,
      "loss": 0.8325,
      "step": 1180
    },
    {
      "epoch": 0.9440919310517112,
      "grad_norm": 1.4998097326159285,
      "learning_rate": 1e-05,
      "loss": 0.9421,
      "step": 1181
    },
    {
      "epoch": 0.9448913315013739,
      "grad_norm": 1.4608832729340682,
      "learning_rate": 1e-05,
      "loss": 0.8508,
      "step": 1182
    },
    {
      "epoch": 0.9456907319510367,
      "grad_norm": 1.562661791032361,
      "learning_rate": 1e-05,
      "loss": 0.9003,
      "step": 1183
    },
    {
      "epoch": 0.9464901324006995,
      "grad_norm": 1.4455704359698196,
      "learning_rate": 1e-05,
      "loss": 0.964,
      "step": 1184
    },
    {
      "epoch": 0.9472895328503622,
      "grad_norm": 1.5776281729460202,
      "learning_rate": 1e-05,
      "loss": 0.8575,
      "step": 1185
    },
    {
      "epoch": 0.948088933300025,
      "grad_norm": 1.549921877625713,
      "learning_rate": 1e-05,
      "loss": 0.8504,
      "step": 1186
    },
    {
      "epoch": 0.9488883337496877,
      "grad_norm": 1.3389592770549843,
      "learning_rate": 1e-05,
      "loss": 0.8488,
      "step": 1187
    },
    {
      "epoch": 0.9496877341993505,
      "grad_norm": 1.4429492254870946,
      "learning_rate": 1e-05,
      "loss": 0.8246,
      "step": 1188
    },
    {
      "epoch": 0.9504871346490132,
      "grad_norm": 1.4238306426926814,
      "learning_rate": 1e-05,
      "loss": 0.8696,
      "step": 1189
    },
    {
      "epoch": 0.951286535098676,
      "grad_norm": 1.4646305779731619,
      "learning_rate": 1e-05,
      "loss": 0.8502,
      "step": 1190
    },
    {
      "epoch": 0.9520859355483388,
      "grad_norm": 1.494347031973423,
      "learning_rate": 1e-05,
      "loss": 0.8642,
      "step": 1191
    },
    {
      "epoch": 0.9528853359980015,
      "grad_norm": 1.963685019515452,
      "learning_rate": 1e-05,
      "loss": 0.8507,
      "step": 1192
    },
    {
      "epoch": 0.9536847364476643,
      "grad_norm": 1.3925026944755527,
      "learning_rate": 1e-05,
      "loss": 0.833,
      "step": 1193
    },
    {
      "epoch": 0.954484136897327,
      "grad_norm": 1.4062902940189372,
      "learning_rate": 1e-05,
      "loss": 0.9028,
      "step": 1194
    },
    {
      "epoch": 0.9552835373469898,
      "grad_norm": 1.2343971080574194,
      "learning_rate": 1e-05,
      "loss": 0.8522,
      "step": 1195
    },
    {
      "epoch": 0.9560829377966525,
      "grad_norm": 1.4221098313944995,
      "learning_rate": 1e-05,
      "loss": 0.8577,
      "step": 1196
    },
    {
      "epoch": 0.9568823382463153,
      "grad_norm": 1.5290533732550755,
      "learning_rate": 1e-05,
      "loss": 0.8093,
      "step": 1197
    },
    {
      "epoch": 0.9576817386959781,
      "grad_norm": 1.3961174339920084,
      "learning_rate": 1e-05,
      "loss": 0.8647,
      "step": 1198
    },
    {
      "epoch": 0.9584811391456408,
      "grad_norm": 1.4151475464959773,
      "learning_rate": 1e-05,
      "loss": 0.8868,
      "step": 1199
    },
    {
      "epoch": 0.9592805395953036,
      "grad_norm": 1.513441275615894,
      "learning_rate": 1e-05,
      "loss": 0.8647,
      "step": 1200
    },
    {
      "epoch": 0.9600799400449663,
      "grad_norm": 1.3820417006090109,
      "learning_rate": 1e-05,
      "loss": 0.8477,
      "step": 1201
    },
    {
      "epoch": 0.960879340494629,
      "grad_norm": 1.4387974434664792,
      "learning_rate": 1e-05,
      "loss": 0.8536,
      "step": 1202
    },
    {
      "epoch": 0.9616787409442917,
      "grad_norm": 1.5784176967006853,
      "learning_rate": 1e-05,
      "loss": 0.8778,
      "step": 1203
    },
    {
      "epoch": 0.9624781413939545,
      "grad_norm": 1.4269915386314171,
      "learning_rate": 1e-05,
      "loss": 0.8572,
      "step": 1204
    },
    {
      "epoch": 0.9632775418436172,
      "grad_norm": 1.3866388696845584,
      "learning_rate": 1e-05,
      "loss": 0.8086,
      "step": 1205
    },
    {
      "epoch": 0.96407694229328,
      "grad_norm": 1.432076302146608,
      "learning_rate": 1e-05,
      "loss": 0.8454,
      "step": 1206
    },
    {
      "epoch": 0.9648763427429428,
      "grad_norm": 1.4992577974774581,
      "learning_rate": 1e-05,
      "loss": 0.7908,
      "step": 1207
    },
    {
      "epoch": 0.9656757431926055,
      "grad_norm": 1.497039314194387,
      "learning_rate": 1e-05,
      "loss": 0.8544,
      "step": 1208
    },
    {
      "epoch": 0.9664751436422683,
      "grad_norm": 1.3007974080201803,
      "learning_rate": 1e-05,
      "loss": 0.8477,
      "step": 1209
    },
    {
      "epoch": 0.967274544091931,
      "grad_norm": 1.5618516258742383,
      "learning_rate": 1e-05,
      "loss": 0.835,
      "step": 1210
    },
    {
      "epoch": 0.9680739445415938,
      "grad_norm": 1.4210670398569833,
      "learning_rate": 1e-05,
      "loss": 0.832,
      "step": 1211
    },
    {
      "epoch": 0.9688733449912565,
      "grad_norm": 1.5510313623384935,
      "learning_rate": 1e-05,
      "loss": 0.8602,
      "step": 1212
    },
    {
      "epoch": 0.9696727454409193,
      "grad_norm": 1.521288522133268,
      "learning_rate": 1e-05,
      "loss": 0.8861,
      "step": 1213
    },
    {
      "epoch": 0.9704721458905821,
      "grad_norm": 1.5884079297863427,
      "learning_rate": 1e-05,
      "loss": 0.8258,
      "step": 1214
    },
    {
      "epoch": 0.9712715463402448,
      "grad_norm": 1.3385008591661527,
      "learning_rate": 1e-05,
      "loss": 0.8272,
      "step": 1215
    },
    {
      "epoch": 0.9720709467899076,
      "grad_norm": 1.3382297608246647,
      "learning_rate": 1e-05,
      "loss": 0.8984,
      "step": 1216
    },
    {
      "epoch": 0.9728703472395703,
      "grad_norm": 1.548407496139496,
      "learning_rate": 1e-05,
      "loss": 0.8649,
      "step": 1217
    },
    {
      "epoch": 0.9736697476892331,
      "grad_norm": 1.336053175129197,
      "learning_rate": 1e-05,
      "loss": 0.8958,
      "step": 1218
    },
    {
      "epoch": 0.9744691481388958,
      "grad_norm": 1.3748017255834115,
      "learning_rate": 1e-05,
      "loss": 0.8486,
      "step": 1219
    },
    {
      "epoch": 0.9752685485885586,
      "grad_norm": 1.5234383744628233,
      "learning_rate": 1e-05,
      "loss": 0.8617,
      "step": 1220
    },
    {
      "epoch": 0.9760679490382214,
      "grad_norm": 1.4764432977833921,
      "learning_rate": 1e-05,
      "loss": 0.9367,
      "step": 1221
    },
    {
      "epoch": 0.9768673494878841,
      "grad_norm": 1.3631292544649363,
      "learning_rate": 1e-05,
      "loss": 0.8714,
      "step": 1222
    },
    {
      "epoch": 0.9776667499375469,
      "grad_norm": 1.3171008529103865,
      "learning_rate": 1e-05,
      "loss": 0.8285,
      "step": 1223
    },
    {
      "epoch": 0.9784661503872096,
      "grad_norm": 1.4354745441705121,
      "learning_rate": 1e-05,
      "loss": 0.9037,
      "step": 1224
    },
    {
      "epoch": 0.9792655508368724,
      "grad_norm": 1.3919378193960412,
      "learning_rate": 1e-05,
      "loss": 0.9309,
      "step": 1225
    },
    {
      "epoch": 0.9800649512865351,
      "grad_norm": 1.4461454394492737,
      "learning_rate": 1e-05,
      "loss": 0.8928,
      "step": 1226
    },
    {
      "epoch": 0.9808643517361979,
      "grad_norm": 1.3724038374747247,
      "learning_rate": 1e-05,
      "loss": 0.9014,
      "step": 1227
    },
    {
      "epoch": 0.9816637521858605,
      "grad_norm": 1.351928124821094,
      "learning_rate": 1e-05,
      "loss": 0.8343,
      "step": 1228
    },
    {
      "epoch": 0.9824631526355233,
      "grad_norm": 1.3143104444611924,
      "learning_rate": 1e-05,
      "loss": 0.8804,
      "step": 1229
    },
    {
      "epoch": 0.9832625530851861,
      "grad_norm": 1.5074208283788533,
      "learning_rate": 1e-05,
      "loss": 0.8708,
      "step": 1230
    },
    {
      "epoch": 0.9840619535348488,
      "grad_norm": 1.4675362219576862,
      "learning_rate": 1e-05,
      "loss": 0.8545,
      "step": 1231
    },
    {
      "epoch": 0.9848613539845116,
      "grad_norm": 1.4044134991072301,
      "learning_rate": 1e-05,
      "loss": 0.852,
      "step": 1232
    },
    {
      "epoch": 0.9856607544341743,
      "grad_norm": 1.4731748400546958,
      "learning_rate": 1e-05,
      "loss": 0.9222,
      "step": 1233
    },
    {
      "epoch": 0.9864601548838371,
      "grad_norm": 1.4128661942086913,
      "learning_rate": 1e-05,
      "loss": 0.8997,
      "step": 1234
    },
    {
      "epoch": 0.9872595553334998,
      "grad_norm": 1.4368853581391632,
      "learning_rate": 1e-05,
      "loss": 0.8672,
      "step": 1235
    },
    {
      "epoch": 0.9880589557831626,
      "grad_norm": 1.453673257213547,
      "learning_rate": 1e-05,
      "loss": 0.8779,
      "step": 1236
    },
    {
      "epoch": 0.9888583562328254,
      "grad_norm": 1.7470099861196207,
      "learning_rate": 1e-05,
      "loss": 0.9028,
      "step": 1237
    },
    {
      "epoch": 0.9896577566824881,
      "grad_norm": 1.2697243063535835,
      "learning_rate": 1e-05,
      "loss": 0.8677,
      "step": 1238
    },
    {
      "epoch": 0.9904571571321509,
      "grad_norm": 1.5282634647109214,
      "learning_rate": 1e-05,
      "loss": 0.8824,
      "step": 1239
    },
    {
      "epoch": 0.9912565575818136,
      "grad_norm": 1.5236456464951182,
      "learning_rate": 1e-05,
      "loss": 0.875,
      "step": 1240
    },
    {
      "epoch": 0.9920559580314764,
      "grad_norm": 1.2831857679108445,
      "learning_rate": 1e-05,
      "loss": 0.9118,
      "step": 1241
    },
    {
      "epoch": 0.9928553584811391,
      "grad_norm": 1.4427270743757334,
      "learning_rate": 1e-05,
      "loss": 0.8488,
      "step": 1242
    },
    {
      "epoch": 0.9936547589308019,
      "grad_norm": 1.6145144060086711,
      "learning_rate": 1e-05,
      "loss": 0.8594,
      "step": 1243
    },
    {
      "epoch": 0.9944541593804647,
      "grad_norm": 1.5536788191330388,
      "learning_rate": 1e-05,
      "loss": 0.8736,
      "step": 1244
    },
    {
      "epoch": 0.9952535598301274,
      "grad_norm": 1.488891430752203,
      "learning_rate": 1e-05,
      "loss": 0.8824,
      "step": 1245
    },
    {
      "epoch": 0.9960529602797902,
      "grad_norm": 1.7670913427025423,
      "learning_rate": 1e-05,
      "loss": 0.8481,
      "step": 1246
    },
    {
      "epoch": 0.9968523607294529,
      "grad_norm": 1.4017507511502658,
      "learning_rate": 1e-05,
      "loss": 0.8422,
      "step": 1247
    },
    {
      "epoch": 0.9976517611791157,
      "grad_norm": 1.3372936110607956,
      "learning_rate": 1e-05,
      "loss": 0.842,
      "step": 1248
    },
    {
      "epoch": 0.9984511616287784,
      "grad_norm": 1.3328353321262152,
      "learning_rate": 1e-05,
      "loss": 0.8982,
      "step": 1249
    },
    {
      "epoch": 0.9992505620784412,
      "grad_norm": 1.4055115515472896,
      "learning_rate": 1e-05,
      "loss": 0.8433,
      "step": 1250
    },
    {
      "epoch": 0.9992505620784412,
      "step": 1250,
      "total_flos": 826404337876992.0,
      "train_loss": 0.9163284823417663,
      "train_runtime": 166824.9366,
      "train_samples_per_second": 0.48,
      "train_steps_per_second": 0.007
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 1250,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 826404337876992.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}