End of training

Files changed (4) hide show

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 0.99,
-    "eval_accuracy": 0.03542682926829268,
-    "eval_loss": 3.253744602203369,
-    "eval_runtime": 7.9335,
     "eval_samples": 100,
-    "eval_samples_per_second": 12.605,
-    "eval_steps_per_second": 0.504,
-    "perplexity": 25.887095523441527,
-    "train_loss": 1.0375519144919612,
-    "train_runtime": 120.7864,
     "train_samples": 1000,
-    "train_samples_per_second": 8.279,
-    "train_steps_per_second": 0.257
 }

 {
     "epoch": 0.99,
+    "eval_accuracy": 0.037317073170731706,
+    "eval_loss": 3.0486419200897217,
+    "eval_runtime": 2.253,
     "eval_samples": 100,
+    "eval_samples_per_second": 44.386,
+    "eval_steps_per_second": 1.775,
+    "perplexity": 21.086687561040215,
+    "train_loss": 3.260736426999492,
+    "train_runtime": 119.8588,
     "train_samples": 1000,
+    "train_samples_per_second": 8.343,
+    "train_steps_per_second": 0.259
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,10 @@
 {
-    "eval_accuracy": 0.03542682926829268,
-    "eval_loss": 3.253744602203369,
-    "eval_runtime": 7.9335,
     "eval_samples": 100,
-    "eval_samples_per_second": 12.605,
-    "eval_steps_per_second": 0.504,
-    "perplexity": 25.887095523441527
 }

 {
+    "epoch": 0.99,
+    "eval_accuracy": 0.037317073170731706,
+    "eval_loss": 3.0486419200897217,
+    "eval_runtime": 2.253,
     "eval_samples": 100,
+    "eval_samples_per_second": 44.386,
+    "eval_steps_per_second": 1.775,
+    "perplexity": 21.086687561040215
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.99,
-    "train_loss": 1.0375519144919612,
-    "train_runtime": 120.7864,
     "train_samples": 1000,
-    "train_samples_per_second": 8.279,
-    "train_steps_per_second": 0.257
 }

 {
     "epoch": 0.99,
+    "train_loss": 3.260736426999492,
+    "train_runtime": 119.8588,
     "train_samples": 1000,
+    "train_samples_per_second": 8.343,
+    "train_steps_per_second": 0.259
 }

trainer_state.json CHANGED Viewed

@@ -9,33 +9,33 @@
   "log_history": [
     {
       "epoch": 0.03,
-      "learning_rate": 5e-05,
-      "loss": 13.7576,
       "step": 1
     },
     {
       "epoch": 0.8,
-      "learning_rate": 1.129032258064516e-05,
-      "loss": 0.761,
       "step": 25
     },
     {
       "epoch": 0.8,
-      "eval_accuracy": 0.0851829268292683,
-      "eval_loss": 0.21037571132183075,
-      "eval_runtime": 2.0103,
-      "eval_samples_per_second": 49.743,
-      "eval_steps_per_second": 1.99,
       "step": 25
     },
     {
       "epoch": 0.99,
       "step": 31,
       "total_flos": 938904995758080.0,
-      "train_loss": 1.0375519144919612,
-      "train_runtime": 120.7864,
-      "train_samples_per_second": 8.279,
-      "train_steps_per_second": 0.257
     }
   ],
   "max_steps": 31,

   "log_history": [
     {
       "epoch": 0.03,
+      "learning_rate": 4.8387096774193554e-05,
+      "loss": 3.5576,
       "step": 1
     },
     {
       "epoch": 0.8,
+      "learning_rate": 9.67741935483871e-06,
+      "loss": 3.2766,
       "step": 25
     },
     {
       "epoch": 0.8,
+      "eval_accuracy": 0.03723577235772358,
+      "eval_loss": 3.0587494373321533,
+      "eval_runtime": 2.0061,
+      "eval_samples_per_second": 49.847,
+      "eval_steps_per_second": 1.994,
       "step": 25
     },
     {
       "epoch": 0.99,
       "step": 31,
       "total_flos": 938904995758080.0,
+      "train_loss": 3.260736426999492,
+      "train_runtime": 119.8588,
+      "train_samples_per_second": 8.343,
+      "train_steps_per_second": 0.259
     }
   ],
   "max_steps": 31,