Epoch... (1/30 | Step: 10 | Loss: 3.4405534267425537, Learning Rate: 2.999609750986565e-05)
Epoch... (1/30 | Step: 20 | Loss: 3.218325614929199, Learning Rate: 2.9991762858117e-05)
Epoch... (1/30 | Step: 30 | Loss: 3.1018149852752686, Learning Rate: 2.998742820636835e-05)
Epoch... (1/30 | Step: 40 | Loss: 3.022020101547241, Learning Rate: 2.99830935546197e-05)
Epoch... (1/30 | Step: 50 | Loss: 2.981201648712158, Learning Rate: 2.997875890287105e-05)
Epoch... (1/30 | Step: 60 | Loss: 2.8424253463745117, Learning Rate: 2.9974426070111804e-05)
Epoch... (1/30 | Step: 70 | Loss: 2.907778263092041, Learning Rate: 2.9970091418363154e-05)
Epoch... (1/30 | Step: 80 | Loss: 2.7866015434265137, Learning Rate: 2.9965756766614504e-05)
Epoch... (1/30 | Step: 90 | Loss: 2.8242785930633545, Learning Rate: 2.996142029587645e-05)
Epoch... (1/30 | Step: 100 | Loss: 2.706552028656006, Learning Rate: 2.99570856441278e-05)
Epoch... (1/30 | Step: 110 | Loss: 2.611888885498047, Learning Rate: 2.995275099237915e-05)
Epoch... (1/30 | Step: 120 | Loss: 2.595040798187256, Learning Rate: 2.99484163406305e-05)
Epoch... (1/30 | Step: 130 | Loss: 2.6346092224121094, Learning Rate: 2.9944081688881852e-05)
Epoch... (1/30 | Step: 140 | Loss: 2.608229160308838, Learning Rate: 2.9939747037133202e-05)
Epoch... (1/30 | Step: 150 | Loss: 2.628932476043701, Learning Rate: 2.9935414204373956e-05)
Epoch... (1/30 | Step: 160 | Loss: 2.4869046211242676, Learning Rate: 2.9931079552625306e-05)
Epoch... (1/30 | Step: 170 | Loss: 2.5518672466278076, Learning Rate: 2.9926744900876656e-05)
Epoch... (1/30 | Step: 180 | Loss: 2.475501298904419, Learning Rate: 2.9922410249128006e-05)
Epoch... (1/30 | Step: 190 | Loss: 2.7231974601745605, Learning Rate: 2.9918073778389953e-05)
Epoch... (1/30 | Step: 200 | Loss: 2.500187873840332, Learning Rate: 2.9913739126641303e-05)
Epoch... (1/30 | Step: 210 | Loss: 2.5470097064971924, Learning Rate: 2.9909404474892654e-05)
Epoch... (1/30 | Step: 220 | Loss: 2.3819117546081543, Learning Rate: 2.9905069823144004e-05)
Epoch... (1/30 | Step: 230 | Loss: 2.5723557472229004, Learning Rate: 2.9900735171395354e-05)
Epoch... (1/30 | Step: 240 | Loss: 2.440537929534912, Learning Rate: 2.9896402338636108e-05)
Epoch... (1/30 | Step: 250 | Loss: 2.559695243835449, Learning Rate: 2.9892067686887458e-05)
Epoch... (1/30 | Step: 260 | Loss: 2.5182833671569824, Learning Rate: 2.9887733035138808e-05)
Epoch... (1/30 | Step: 270 | Loss: 2.405858039855957, Learning Rate: 2.988339838339016e-05)
Epoch... (1/30 | Step: 280 | Loss: 2.4234917163848877, Learning Rate: 2.987906373164151e-05)
Epoch... (1/30 | Step: 290 | Loss: 2.36462140083313, Learning Rate: 2.9874727260903455e-05)
Epoch... (1/30 | Step: 300 | Loss: 2.4654769897460938, Learning Rate: 2.9870392609154806e-05)
Epoch... (1/30 | Step: 300 | Loss: 2.4654769897460938, Learning Rate: 2.9870392609154806e-05)
Epoch... (1/30 | Step: 300 | Eval Loss: 2.3369832038879395 | Eval rouge1: 36.6481 | Eval rouge2: 12.0172 | Eval rougeL: 33.4031 | Eval rougeLsum: 33.4031 | Eval gen_len: 10.6758 |)
Epoch... (1/30 | Step: 310 | Loss: 2.2441658973693848, Learning Rate: 2.9866057957406156e-05)
Epoch... (1/30 | Step: 320 | Loss: 2.381657361984253, Learning Rate: 2.986172512464691e-05)
Epoch... (1/30 | Step: 330 | Loss: 2.39951753616333, Learning Rate: 2.985739047289826e-05)
Epoch... (1/30 | Step: 340 | Loss: 2.4004015922546387, Learning Rate: 2.985305582114961e-05)
Epoch... (1/30 | Step: 350 | Loss: 2.3319690227508545, Learning Rate: 2.984872116940096e-05)
Epoch... (1/30 | Step: 360 | Loss: 2.3237192630767822, Learning Rate: 2.984438651765231e-05)
Epoch... (1/30 | Step: 370 | Loss: 2.381218671798706, Learning Rate: 2.984005186590366e-05)
Epoch... (1/30 | Step: 380 | Loss: 2.309722900390625, Learning Rate: 2.9835715395165607e-05)
Epoch... (1/30 | Step: 390 | Loss: 2.3941807746887207, Learning Rate: 2.9831380743416958e-05)
Epoch... (1/30 | Step: 400 | Loss: 2.3451006412506104, Learning Rate: 2.9827046091668308e-05)
Epoch... (1/30 | Step: 410 | Loss: 2.278620719909668, Learning Rate: 2.982271325890906e-05)
Epoch... (1/30 | Step: 420 | Loss: 2.258894920349121, Learning Rate: 2.9818378607160412e-05)
Epoch... (1/30 | Step: 430 | Loss: 2.334801197052002, Learning Rate: 2.9814043955411762e-05)
Epoch... (1/30 | Step: 440 | Loss: 2.358175754547119, Learning Rate: 2.9809709303663112e-05)
Epoch... (1/30 | Step: 450 | Loss: 2.342679977416992, Learning Rate: 2.9805374651914462e-05)
Epoch... (1/30 | Step: 460 | Loss: 2.3427581787109375, Learning Rate: 2.9801040000165813e-05)
Epoch... (1/30 | Step: 470 | Loss: 2.2662670612335205, Learning Rate: 2.9796705348417163e-05)
Epoch... (1/30 | Step: 480 | Loss: 2.3363449573516846, Learning Rate: 2.979236887767911e-05)
Epoch... (1/30 | Step: 490 | Loss: 2.3524205684661865, Learning Rate: 2.978803422593046e-05)
Epoch... (1/30 | Step: 500 | Loss: 2.33699369430542, Learning Rate: 2.9783701393171214e-05)
Epoch... (1/30 | Step: 510 | Loss: 2.254800319671631, Learning Rate: 2.9779366741422564e-05)
Epoch... (1/30 | Step: 520 | Loss: 2.2564821243286133, Learning Rate: 2.9775032089673914e-05)
Epoch... (1/30 | Step: 530 | Loss: 2.312403678894043, Learning Rate: 2.9770697437925264e-05)
Epoch... (1/30 | Step: 540 | Loss: 2.361353874206543, Learning Rate: 2.9766362786176614e-05)
Epoch... (1/30 | Step: 550 | Loss: 2.231563091278076, Learning Rate: 2.9762028134427965e-05)
Epoch... (1/30 | Step: 560 | Loss: 2.23984956741333, Learning Rate: 2.9757693482679315e-05)
Epoch... (1/30 | Step: 570 | Loss: 2.294980049133301, Learning Rate: 2.9753358830930665e-05)
Epoch... (1/30 | Step: 580 | Loss: 2.234550952911377, Learning Rate: 2.9749022360192612e-05)
Epoch... (1/30 | Step: 590 | Loss: 2.2543816566467285, Learning Rate: 2.9744689527433366e-05)
Epoch... (1/30 | Step: 600 | Loss: 2.249704360961914, Learning Rate: 2.9740354875684716e-05)
Epoch... (1/30 | Step: 600 | Loss: 2.249704360961914, Learning Rate: 2.9740354875684716e-05)
Epoch... (1/30 | Step: 600 | Eval Loss: 2.2133584022521973 | Eval rouge1: 38.2794 | Eval rouge2: 13.1501 | Eval rougeL: 34.8961 | Eval rougeLsum: 34.8948 | Eval gen_len: 11.0128 |)
Epoch... (1/30 | Step: 610 | Loss: 2.2616004943847656, Learning Rate: 2.9736020223936066e-05)
Epoch... (1/30 | Step: 620 | Loss: 2.280752658843994, Learning Rate: 2.9731685572187416e-05)
Epoch... (1/30 | Step: 630 | Loss: 2.1695902347564697, Learning Rate: 2.9727350920438766e-05)
Epoch... (1/30 | Step: 640 | Loss: 2.3159074783325195, Learning Rate: 2.9723016268690117e-05)
Epoch... (1/30 | Step: 650 | Loss: 2.2354726791381836, Learning Rate: 2.9718681616941467e-05)
Epoch... (1/30 | Step: 660 | Loss: 2.2967095375061035, Learning Rate: 2.9714346965192817e-05)
Epoch... (1/30 | Step: 670 | Loss: 2.3010551929473877, Learning Rate: 2.9710012313444167e-05)
Epoch... (1/30 | Step: 680 | Loss: 2.292668342590332, Learning Rate: 2.9705677661695518e-05)
Epoch... (1/30 | Step: 690 | Loss: 2.195081949234009, Learning Rate: 2.9701343009946868e-05)
Epoch... (1/30 | Step: 700 | Loss: 2.296633720397949, Learning Rate: 2.9697008358198218e-05)
Epoch... (1/30 | Step: 710 | Loss: 2.149764060974121, Learning Rate: 2.9692673706449568e-05)
Epoch... (1/30 | Step: 720 | Loss: 2.2461729049682617, Learning Rate: 2.968833905470092e-05)
Epoch... (1/30 | Step: 730 | Loss: 2.2976291179656982, Learning Rate: 2.968400440295227e-05)
Epoch... (1/30 | Step: 740 | Loss: 2.2700982093811035, Learning Rate: 2.967966975120362e-05)
Epoch... (1/30 | Step: 750 | Loss: 2.2898383140563965, Learning Rate: 2.967533509945497e-05)
Epoch... (1/30 | Step: 760 | Loss: 2.2785892486572266, Learning Rate: 2.967100044770632e-05)
Epoch... (1/30 | Step: 770 | Loss: 2.1977713108062744, Learning Rate: 2.966666579595767e-05)
Epoch... (1/30 | Step: 780 | Loss: 2.214864730834961, Learning Rate: 2.966233114420902e-05)
Epoch... (1/30 | Step: 790 | Loss: 2.2334184646606445, Learning Rate: 2.965799649246037e-05)
Epoch... (1/30 | Step: 800 | Loss: 2.2037973403930664, Learning Rate: 2.965366184071172e-05)
Epoch... (1/30 | Step: 810 | Loss: 2.174184560775757, Learning Rate: 2.964932718896307e-05)
Epoch... (1/30 | Step: 820 | Loss: 2.2716355323791504, Learning Rate: 2.964499253721442e-05)
Epoch... (1/30 | Step: 830 | Loss: 2.193842887878418, Learning Rate: 2.964065788546577e-05)
Epoch... (1/30 | Step: 840 | Loss: 2.249634265899658, Learning Rate: 2.963632323371712e-05)
Epoch... (1/30 | Step: 850 | Loss: 2.237217426300049, Learning Rate: 2.963198858196847e-05)
Epoch... (1/30 | Step: 860 | Loss: 2.172455310821533, Learning Rate: 2.9627655749209225e-05)
Epoch... (1/30 | Step: 870 | Loss: 2.05983829498291, Learning Rate: 2.9623319278471172e-05)
Epoch... (1/30 | Step: 880 | Loss: 2.3632073402404785, Learning Rate: 2.9618984626722522e-05)
Epoch... (1/30 | Step: 890 | Loss: 2.254265785217285, Learning Rate: 2.9614649974973872e-05)
Epoch... (1/30 | Step: 900 | Loss: 2.2401223182678223, Learning Rate: 2.9610315323225223e-05)
Epoch... (1/30 | Step: 900 | Loss: 2.2401223182678223, Learning Rate: 2.9610315323225223e-05)
Epoch... (1/30 | Step: 900 | Eval Loss: 2.152062177658081 | Eval rouge1: 39.5335 | Eval rouge2: 14.3557 | Eval rougeL: 35.8974 | Eval rougeLsum: 35.9057 | Eval gen_len: 10.8698 |)