Training in progress, epoch 0

Browse files

Files changed (4) hide show

all_results.json +4 -4
runs/Jan27_17-20-31_db1093ce036b/events.out.tfevents.1737998575.db1093ce036b.224.8 +3 -0
train_results.json +4 -4
trainer_state.json +155 -155

all_results.json CHANGED Viewed

@@ -6,8 +6,8 @@
     "eval_samples_per_second": 219.608,
     "eval_steps_per_second": 4.64,
     "total_flos": 2.3842598606630093e+17,
-    "train_loss": 0.43006805419921873,
-    "train_runtime": 133.481,
-    "train_samples_per_second": 159.573,
-    "train_steps_per_second": 0.375
 }

     "eval_samples_per_second": 219.608,
     "eval_steps_per_second": 4.64,
     "total_flos": 2.3842598606630093e+17,
+    "train_loss": 0.4234132957458496,
+    "train_runtime": 127.7102,
+    "train_samples_per_second": 166.784,
+    "train_steps_per_second": 0.392
 }

runs/Jan27_17-20-31_db1093ce036b/events.out.tfevents.1737998575.db1093ce036b.224.8 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b935feb436edc9cff1ff1f1ac12b260ede9c85e9955568a4d743fba19250e8a5
+size 5469

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 28.571428571428573,
     "total_flos": 2.3842598606630093e+17,
-    "train_loss": 0.43006805419921873,
-    "train_runtime": 133.481,
-    "train_samples_per_second": 159.573,
-    "train_steps_per_second": 0.375
 }

 {
     "epoch": 28.571428571428573,
     "total_flos": 2.3842598606630093e+17,
+    "train_loss": 0.4234132957458496,
+    "train_runtime": 127.7102,
+    "train_samples_per_second": 166.784,
+    "train_steps_per_second": 0.392
 }

trainer_state.json CHANGED Viewed

@@ -12,306 +12,306 @@
       "epoch": 0.5714285714285714,
       "eval_accuracy": 0.8873239436619719,
       "eval_loss": 0.5122641324996948,
-      "eval_runtime": 0.6171,
-      "eval_samples_per_second": 230.122,
-      "eval_steps_per_second": 4.862,
       "step": 1
     },
     {
       "epoch": 1.7142857142857144,
-      "eval_accuracy": 0.8873239436619719,
-      "eval_loss": 0.5147784352302551,
-      "eval_runtime": 0.6598,
-      "eval_samples_per_second": 215.204,
-      "eval_steps_per_second": 4.547,
       "step": 3
     },
     {
       "epoch": 2.857142857142857,
-      "eval_accuracy": 0.8802816901408451,
-      "eval_loss": 0.5251544117927551,
-      "eval_runtime": 0.6418,
-      "eval_samples_per_second": 221.266,
-      "eval_steps_per_second": 4.675,
       "step": 5
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.8732394366197183,
-      "eval_loss": 0.5443845987319946,
-      "eval_runtime": 0.6346,
-      "eval_samples_per_second": 223.776,
-      "eval_steps_per_second": 4.728,
       "step": 7
     },
     {
       "epoch": 4.571428571428571,
-      "eval_accuracy": 0.8661971830985915,
-      "eval_loss": 0.5492467880249023,
-      "eval_runtime": 0.6927,
-      "eval_samples_per_second": 205.003,
-      "eval_steps_per_second": 4.331,
       "step": 8
     },
     {
       "epoch": 5.714285714285714,
-      "grad_norm": 4.707674503326416,
-      "learning_rate": 5.882352941176471e-06,
-      "loss": 0.4298,
       "step": 10
     },
     {
       "epoch": 5.714285714285714,
-      "eval_accuracy": 0.8732394366197183,
-      "eval_loss": 0.5351986885070801,
-      "eval_runtime": 0.6614,
-      "eval_samples_per_second": 214.708,
-      "eval_steps_per_second": 4.536,
       "step": 10
     },
     {
       "epoch": 6.857142857142857,
-      "eval_accuracy": 0.8873239436619719,
-      "eval_loss": 0.5188462734222412,
-      "eval_runtime": 0.6476,
-      "eval_samples_per_second": 219.267,
-      "eval_steps_per_second": 4.632,
       "step": 12
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.8661971830985915,
-      "eval_loss": 0.5232783555984497,
-      "eval_runtime": 0.7088,
-      "eval_samples_per_second": 200.352,
-      "eval_steps_per_second": 4.233,
       "step": 14
     },
     {
       "epoch": 8.571428571428571,
-      "eval_accuracy": 0.8661971830985915,
-      "eval_loss": 0.5288649797439575,
-      "eval_runtime": 0.6695,
-      "eval_samples_per_second": 212.105,
-      "eval_steps_per_second": 4.481,
       "step": 15
     },
     {
       "epoch": 9.714285714285714,
       "eval_accuracy": 0.8732394366197183,
-      "eval_loss": 0.5420739650726318,
-      "eval_runtime": 0.6577,
-      "eval_samples_per_second": 215.895,
-      "eval_steps_per_second": 4.561,
       "step": 17
     },
     {
       "epoch": 10.857142857142858,
-      "eval_accuracy": 0.8732394366197183,
-      "eval_loss": 0.5347268581390381,
-      "eval_runtime": 0.6856,
-      "eval_samples_per_second": 207.114,
-      "eval_steps_per_second": 4.376,
       "step": 19
     },
     {
       "epoch": 11.428571428571429,
-      "grad_norm": 5.313747406005859,
-      "learning_rate": 9.090909090909091e-06,
-      "loss": 0.4391,
       "step": 20
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.8661971830985915,
-      "eval_loss": 0.5349283218383789,
-      "eval_runtime": 0.6896,
-      "eval_samples_per_second": 205.928,
-      "eval_steps_per_second": 4.351,
       "step": 21
     },
     {
       "epoch": 12.571428571428571,
-      "eval_accuracy": 0.8732394366197183,
-      "eval_loss": 0.5352901816368103,
-      "eval_runtime": 0.6312,
-      "eval_samples_per_second": 224.979,
-      "eval_steps_per_second": 4.753,
       "step": 22
     },
     {
       "epoch": 13.714285714285714,
-      "eval_accuracy": 0.8661971830985915,
-      "eval_loss": 0.5447791218757629,
-      "eval_runtime": 0.6774,
-      "eval_samples_per_second": 209.633,
-      "eval_steps_per_second": 4.429,
       "step": 24
     },
     {
       "epoch": 14.857142857142858,
-      "eval_accuracy": 0.8661971830985915,
-      "eval_loss": 0.5444144606590271,
-      "eval_runtime": 0.6007,
-      "eval_samples_per_second": 236.372,
-      "eval_steps_per_second": 4.994,
       "step": 26
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.8661971830985915,
-      "eval_loss": 0.5298991799354553,
-      "eval_runtime": 0.6208,
-      "eval_samples_per_second": 228.755,
-      "eval_steps_per_second": 4.833,
       "step": 28
     },
     {
       "epoch": 16.571428571428573,
-      "eval_accuracy": 0.8591549295774648,
-      "eval_loss": 0.5249254703521729,
-      "eval_runtime": 0.6039,
-      "eval_samples_per_second": 235.151,
-      "eval_steps_per_second": 4.968,
       "step": 29
     },
     {
       "epoch": 17.142857142857142,
-      "grad_norm": 3.9186484813690186,
-      "learning_rate": 6.060606060606061e-06,
-      "loss": 0.4348,
       "step": 30
     },
     {
       "epoch": 17.714285714285715,
       "eval_accuracy": 0.8591549295774648,
-      "eval_loss": 0.5255550146102905,
-      "eval_runtime": 0.6614,
-      "eval_samples_per_second": 214.707,
-      "eval_steps_per_second": 4.536,
       "step": 31
     },
     {
       "epoch": 18.857142857142858,
-      "eval_accuracy": 0.8732394366197183,
-      "eval_loss": 0.5453279614448547,
-      "eval_runtime": 0.6071,
-      "eval_samples_per_second": 233.902,
-      "eval_steps_per_second": 4.942,
       "step": 33
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.8450704225352113,
-      "eval_loss": 0.5723636746406555,
-      "eval_runtime": 0.6423,
-      "eval_samples_per_second": 221.073,
-      "eval_steps_per_second": 4.671,
       "step": 35
     },
     {
       "epoch": 20.571428571428573,
-      "eval_accuracy": 0.8380281690140845,
-      "eval_loss": 0.5856302976608276,
-      "eval_runtime": 0.6907,
-      "eval_samples_per_second": 205.587,
-      "eval_steps_per_second": 4.343,
       "step": 36
     },
     {
       "epoch": 21.714285714285715,
-      "eval_accuracy": 0.8380281690140845,
-      "eval_loss": 0.5778520703315735,
-      "eval_runtime": 0.6662,
-      "eval_samples_per_second": 213.133,
-      "eval_steps_per_second": 4.503,
       "step": 38
     },
     {
       "epoch": 22.857142857142858,
-      "grad_norm": 4.591593265533447,
-      "learning_rate": 3.0303030303030305e-06,
-      "loss": 0.4205,
       "step": 40
     },
     {
       "epoch": 22.857142857142858,
       "eval_accuracy": 0.8732394366197183,
-      "eval_loss": 0.5520436763763428,
-      "eval_runtime": 0.6121,
-      "eval_samples_per_second": 231.98,
-      "eval_steps_per_second": 4.901,
       "step": 40
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.8732394366197183,
-      "eval_loss": 0.544434130191803,
-      "eval_runtime": 0.6358,
-      "eval_samples_per_second": 223.341,
-      "eval_steps_per_second": 4.718,
       "step": 42
     },
     {
       "epoch": 24.571428571428573,
       "eval_accuracy": 0.8732394366197183,
-      "eval_loss": 0.5434026718139648,
-      "eval_runtime": 0.6377,
-      "eval_samples_per_second": 222.659,
-      "eval_steps_per_second": 4.704,
       "step": 43
     },
     {
       "epoch": 25.714285714285715,
-      "eval_accuracy": 0.8661971830985915,
-      "eval_loss": 0.5475932359695435,
-      "eval_runtime": 0.609,
-      "eval_samples_per_second": 233.187,
-      "eval_steps_per_second": 4.926,
       "step": 45
     },
     {
       "epoch": 26.857142857142858,
-      "eval_accuracy": 0.8661971830985915,
-      "eval_loss": 0.5497847199440002,
-      "eval_runtime": 0.6371,
-      "eval_samples_per_second": 222.9,
-      "eval_steps_per_second": 4.709,
       "step": 47
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.8661971830985915,
-      "eval_loss": 0.550537109375,
-      "eval_runtime": 0.6661,
-      "eval_samples_per_second": 213.178,
-      "eval_steps_per_second": 4.504,
       "step": 49
     },
     {
       "epoch": 28.571428571428573,
-      "grad_norm": 4.016228675842285,
       "learning_rate": 0.0,
-      "loss": 0.4262,
       "step": 50
     },
     {
       "epoch": 28.571428571428573,
-      "eval_accuracy": 0.8661971830985915,
-      "eval_loss": 0.5505328178405762,
-      "eval_runtime": 0.6191,
-      "eval_samples_per_second": 229.376,
-      "eval_steps_per_second": 4.846,
       "step": 50
     },
     {
       "epoch": 28.571428571428573,
       "step": 50,
       "total_flos": 2.3842598606630093e+17,
-      "train_loss": 0.43006805419921873,
-      "train_runtime": 133.481,
-      "train_samples_per_second": 159.573,
-      "train_steps_per_second": 0.375
     }
   ],
   "logging_steps": 10,

       "epoch": 0.5714285714285714,
       "eval_accuracy": 0.8873239436619719,
       "eval_loss": 0.5122641324996948,
+      "eval_runtime": 0.5861,
+      "eval_samples_per_second": 242.264,
+      "eval_steps_per_second": 5.118,
       "step": 1
     },
     {
       "epoch": 1.7142857142857144,
+      "eval_accuracy": 0.8661971830985915,
+      "eval_loss": 0.5494502186775208,
+      "eval_runtime": 0.5821,
+      "eval_samples_per_second": 243.962,
+      "eval_steps_per_second": 5.154,
       "step": 3
     },
     {
       "epoch": 2.857142857142857,
+      "eval_accuracy": 0.8591549295774648,
+      "eval_loss": 0.6079620122909546,
+      "eval_runtime": 0.5831,
+      "eval_samples_per_second": 243.534,
+      "eval_steps_per_second": 5.145,
       "step": 5
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.5590734481811523,
+      "eval_runtime": 0.6248,
+      "eval_samples_per_second": 227.269,
+      "eval_steps_per_second": 4.801,
       "step": 7
     },
     {
       "epoch": 4.571428571428571,
+      "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.5464029312133789,
+      "eval_runtime": 0.6237,
+      "eval_samples_per_second": 227.68,
+      "eval_steps_per_second": 4.81,
       "step": 8
     },
     {
       "epoch": 5.714285714285714,
+      "grad_norm": 4.793102264404297,
+      "learning_rate": 9.523809523809525e-06,
+      "loss": 0.4241,
       "step": 10
     },
     {
       "epoch": 5.714285714285714,
+      "eval_accuracy": 0.8450704225352113,
+      "eval_loss": 0.5981650352478027,
+      "eval_runtime": 0.6008,
+      "eval_samples_per_second": 236.347,
+      "eval_steps_per_second": 4.993,
       "step": 10
     },
     {
       "epoch": 6.857142857142857,
+      "eval_accuracy": 0.8169014084507042,
+      "eval_loss": 0.6497244238853455,
+      "eval_runtime": 0.6066,
+      "eval_samples_per_second": 234.109,
+      "eval_steps_per_second": 4.946,
       "step": 12
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.852112676056338,
+      "eval_loss": 0.5927726030349731,
+      "eval_runtime": 0.627,
+      "eval_samples_per_second": 226.478,
+      "eval_steps_per_second": 4.785,
       "step": 14
     },
     {
       "epoch": 8.571428571428571,
+      "eval_accuracy": 0.852112676056338,
+      "eval_loss": 0.5711137056350708,
+      "eval_runtime": 0.6061,
+      "eval_samples_per_second": 234.301,
+      "eval_steps_per_second": 4.95,
       "step": 15
     },
     {
       "epoch": 9.714285714285714,
       "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.5468315482139587,
+      "eval_runtime": 0.5742,
+      "eval_samples_per_second": 247.304,
+      "eval_steps_per_second": 5.225,
       "step": 17
     },
     {
       "epoch": 10.857142857142858,
+      "eval_accuracy": 0.852112676056338,
+      "eval_loss": 0.5482771992683411,
+      "eval_runtime": 0.5841,
+      "eval_samples_per_second": 243.112,
+      "eval_steps_per_second": 5.136,
       "step": 19
     },
     {
       "epoch": 11.428571428571429,
+      "grad_norm": 5.585962772369385,
+      "learning_rate": 7.1428571428571436e-06,
+      "loss": 0.4152,
       "step": 20
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.8450704225352113,
+      "eval_loss": 0.5783097147941589,
+      "eval_runtime": 0.5721,
+      "eval_samples_per_second": 248.198,
+      "eval_steps_per_second": 5.244,
       "step": 21
     },
     {
       "epoch": 12.571428571428571,
+      "eval_accuracy": 0.8450704225352113,
+      "eval_loss": 0.5835375785827637,
+      "eval_runtime": 0.6296,
+      "eval_samples_per_second": 225.543,
+      "eval_steps_per_second": 4.765,
       "step": 22
     },
     {
       "epoch": 13.714285714285714,
+      "eval_accuracy": 0.8450704225352113,
+      "eval_loss": 0.5668258666992188,
+      "eval_runtime": 0.5869,
+      "eval_samples_per_second": 241.934,
+      "eval_steps_per_second": 5.111,
       "step": 24
     },
     {
       "epoch": 14.857142857142858,
+      "eval_accuracy": 0.8450704225352113,
+      "eval_loss": 0.555620014667511,
+      "eval_runtime": 0.5858,
+      "eval_samples_per_second": 242.413,
+      "eval_steps_per_second": 5.121,
       "step": 26
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.8450704225352113,
+      "eval_loss": 0.5564189553260803,
+      "eval_runtime": 0.5987,
+      "eval_samples_per_second": 237.192,
+      "eval_steps_per_second": 5.011,
       "step": 28
     },
     {
       "epoch": 16.571428571428573,
+      "eval_accuracy": 0.8450704225352113,
+      "eval_loss": 0.5590547919273376,
+      "eval_runtime": 0.6483,
+      "eval_samples_per_second": 219.036,
+      "eval_steps_per_second": 4.628,
       "step": 29
     },
     {
       "epoch": 17.142857142857142,
+      "grad_norm": 5.258753299713135,
+      "learning_rate": 4.761904761904762e-06,
+      "loss": 0.4367,
       "step": 30
     },
     {
       "epoch": 17.714285714285715,
       "eval_accuracy": 0.8591549295774648,
+      "eval_loss": 0.5619198679924011,
+      "eval_runtime": 0.6281,
+      "eval_samples_per_second": 226.062,
+      "eval_steps_per_second": 4.776,
       "step": 31
     },
     {
       "epoch": 18.857142857142858,
+      "eval_accuracy": 0.8591549295774648,
+      "eval_loss": 0.5809253454208374,
+      "eval_runtime": 0.5953,
+      "eval_samples_per_second": 238.516,
+      "eval_steps_per_second": 5.039,
       "step": 33
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.8661971830985915,
+      "eval_loss": 0.5810067057609558,
+      "eval_runtime": 0.626,
+      "eval_samples_per_second": 226.835,
+      "eval_steps_per_second": 4.792,
       "step": 35
     },
     {
       "epoch": 20.571428571428573,
+      "eval_accuracy": 0.8661971830985915,
+      "eval_loss": 0.5768489837646484,
+      "eval_runtime": 0.682,
+      "eval_samples_per_second": 208.199,
+      "eval_steps_per_second": 4.399,
       "step": 36
     },
     {
       "epoch": 21.714285714285715,
+      "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.5590782761573792,
+      "eval_runtime": 0.665,
+      "eval_samples_per_second": 213.54,
+      "eval_steps_per_second": 4.511,
       "step": 38
     },
     {
       "epoch": 22.857142857142858,
+      "grad_norm": 4.620666027069092,
+      "learning_rate": 2.380952380952381e-06,
+      "loss": 0.4241,
       "step": 40
     },
     {
       "epoch": 22.857142857142858,
       "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.5452097654342651,
+      "eval_runtime": 0.5858,
+      "eval_samples_per_second": 242.391,
+      "eval_steps_per_second": 5.121,
       "step": 40
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.5387392640113831,
+      "eval_runtime": 0.5833,
+      "eval_samples_per_second": 243.447,
+      "eval_steps_per_second": 5.143,
       "step": 42
     },
     {
       "epoch": 24.571428571428573,
       "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.5397770404815674,
+      "eval_runtime": 0.6666,
+      "eval_samples_per_second": 213.023,
+      "eval_steps_per_second": 4.5,
       "step": 43
     },
     {
       "epoch": 25.714285714285715,
+      "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.5457538962364197,
+      "eval_runtime": 0.5797,
+      "eval_samples_per_second": 244.962,
+      "eval_steps_per_second": 5.175,
       "step": 45
     },
     {
       "epoch": 26.857142857142858,
+      "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.5509300827980042,
+      "eval_runtime": 0.6395,
+      "eval_samples_per_second": 222.035,
+      "eval_steps_per_second": 4.691,
       "step": 47
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.5549753904342651,
+      "eval_runtime": 0.5878,
+      "eval_samples_per_second": 241.566,
+      "eval_steps_per_second": 5.103,
       "step": 49
     },
     {
       "epoch": 28.571428571428573,
+      "grad_norm": 4.701329708099365,
       "learning_rate": 0.0,
+      "loss": 0.4171,
       "step": 50
     },
     {
       "epoch": 28.571428571428573,
+      "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.5557973980903625,
+      "eval_runtime": 0.5942,
+      "eval_samples_per_second": 238.984,
+      "eval_steps_per_second": 5.049,
       "step": 50
     },
     {
       "epoch": 28.571428571428573,
       "step": 50,
       "total_flos": 2.3842598606630093e+17,
+      "train_loss": 0.4234132957458496,
+      "train_runtime": 127.7102,
+      "train_samples_per_second": 166.784,
+      "train_steps_per_second": 0.392
     }
   ],
   "logging_steps": 10,