End of training

Files changed (5) hide show

all_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
     "epoch": 3.0,
-    "eval_loss": 1.8828033208847046,
-    "eval_runtime": 235.0465,
-    "eval_samples_per_second": 85.09,
-    "eval_steps_per_second": 1.774,
-    "train_loss": 0.6835632873535156,
-    "train_runtime": 4876.546,
-    "train_samples_per_second": 36.911,
-    "train_steps_per_second": 0.769
 }

 {
     "epoch": 3.0,
+    "eval_loss": 2.000882148742676,
+    "eval_runtime": 235.8424,
+    "eval_samples_per_second": 84.802,
+    "eval_steps_per_second": 1.768,
+    "train_loss": 0.27894207763671874,
+    "train_runtime": 4884.0553,
+    "train_samples_per_second": 36.855,
+    "train_steps_per_second": 0.768
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 3.0,
-    "eval_loss": 1.8828033208847046,
-    "eval_runtime": 235.0465,
-    "eval_samples_per_second": 85.09,
-    "eval_steps_per_second": 1.774
 }

 {
     "epoch": 3.0,
+    "eval_loss": 2.000882148742676,
+    "eval_runtime": 235.8424,
+    "eval_samples_per_second": 84.802,
+    "eval_steps_per_second": 1.768
 }

runs/Jul30_21-32-32_cvrl-flynn-ws2/events.out.tfevents.1690772400.cvrl-flynn-ws2.5335.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:8cdfb2ee6851e95be317e28e33c99172b18799db66b6177583fccf9fe238b7ad
+size 359

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.6835632873535156,
-    "train_runtime": 4876.546,
-    "train_samples_per_second": 36.911,
-    "train_steps_per_second": 0.769
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.27894207763671874,
+    "train_runtime": 4884.0553,
+    "train_samples_per_second": 36.855,
+    "train_steps_per_second": 0.768
 }

trainer_state.json CHANGED Viewed

@@ -10,53 +10,53 @@
     {
       "epoch": 0.4,
       "learning_rate": 4.3333333333333334e-05,
-      "loss": 1.2685,
       "step": 500
     },
     {
       "epoch": 0.8,
       "learning_rate": 3.6666666666666666e-05,
-      "loss": 1.1982,
       "step": 1000
     },
     {
       "epoch": 1.2,
       "learning_rate": 3e-05,
-      "loss": 0.8293,
       "step": 1500
     },
     {
       "epoch": 1.6,
       "learning_rate": 2.3333333333333336e-05,
-      "loss": 0.5996,
       "step": 2000
     },
     {
       "epoch": 2.0,
       "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.5457,
       "step": 2500
     },
     {
       "epoch": 2.4,
       "learning_rate": 1e-05,
-      "loss": 0.2705,
       "step": 3000
     },
     {
       "epoch": 2.8,
       "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.2712,
       "step": 3500
     },
     {
       "epoch": 3.0,
       "step": 3750,
       "total_flos": 2.40331104e+16,
-      "train_loss": 0.6835632873535156,
-      "train_runtime": 4876.546,
-      "train_samples_per_second": 36.911,
-      "train_steps_per_second": 0.769
     }
   ],
   "max_steps": 3750,

     {
       "epoch": 0.4,
       "learning_rate": 4.3333333333333334e-05,
+      "loss": 0.4395,
       "step": 500
     },
     {
       "epoch": 0.8,
       "learning_rate": 3.6666666666666666e-05,
+      "loss": 0.4735,
       "step": 1000
     },
     {
       "epoch": 1.2,
       "learning_rate": 3e-05,
+      "loss": 0.3482,
       "step": 1500
     },
     {
       "epoch": 1.6,
       "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.2636,
       "step": 2000
     },
     {
       "epoch": 2.0,
       "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.2316,
       "step": 2500
     },
     {
       "epoch": 2.4,
       "learning_rate": 1e-05,
+      "loss": 0.1222,
       "step": 3000
     },
     {
       "epoch": 2.8,
       "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.1307,
       "step": 3500
     },
     {
       "epoch": 3.0,
       "step": 3750,
       "total_flos": 2.40331104e+16,
+      "train_loss": 0.27894207763671874,
+      "train_runtime": 4884.0553,
+      "train_samples_per_second": 36.855,
+      "train_steps_per_second": 0.768
     }
   ],
   "max_steps": 3750,