Model save

Browse files

Files changed (5) hide show

README.md +1 -1
all_results.json +2 -2
train_results.json +2 -2
trainer_state.json +20 -20
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yuerlong-western-digital/huggingface/runs/31zqiu2r)
 This model was trained with SFT.

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yuerlong-western-digital/huggingface/runs/hh5gta2p)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -2,8 +2,8 @@
     "epoch": 0.999259807549963,
     "total_flos": 76888336760832.0,
     "train_loss": 0.7676667234632704,
-    "train_runtime": 26434.6474,
     "train_samples": 16610,
-    "train_samples_per_second": 0.817,
     "train_steps_per_second": 0.026
 }

     "epoch": 0.999259807549963,
     "total_flos": 76888336760832.0,
     "train_loss": 0.7676667234632704,
+    "train_runtime": 26097.2515,
     "train_samples": 16610,
+    "train_samples_per_second": 0.828,
     "train_steps_per_second": 0.026
 }

train_results.json CHANGED Viewed

@@ -2,8 +2,8 @@
     "epoch": 0.999259807549963,
     "total_flos": 76888336760832.0,
     "train_loss": 0.7676667234632704,
-    "train_runtime": 26434.6474,
     "train_samples": 16610,
-    "train_samples_per_second": 0.817,
     "train_steps_per_second": 0.026
 }

     "epoch": 0.999259807549963,
     "total_flos": 76888336760832.0,
     "train_loss": 0.7676667234632704,
+    "train_runtime": 26097.2515,
     "train_samples": 16610,
+    "train_samples_per_second": 0.828,
     "train_steps_per_second": 0.026
 }

trainer_state.json CHANGED Viewed

@@ -151,9 +151,9 @@
     {
       "epoch": 0.14803849000740193,
       "eval_loss": 0.8196535110473633,
-      "eval_runtime": 41.9255,
-      "eval_samples_per_second": 3.053,
-      "eval_steps_per_second": 0.382,
       "step": 100
     },
     {
@@ -299,9 +299,9 @@
     {
       "epoch": 0.29607698001480387,
       "eval_loss": 0.7897325754165649,
-      "eval_runtime": 42.8407,
-      "eval_samples_per_second": 2.988,
-      "eval_steps_per_second": 0.373,
       "step": 200
     },
     {
@@ -447,9 +447,9 @@
     {
       "epoch": 0.44411547002220575,
       "eval_loss": 0.7756889462471008,
-      "eval_runtime": 42.6329,
-      "eval_samples_per_second": 3.002,
-      "eval_steps_per_second": 0.375,
       "step": 300
     },
     {
@@ -595,9 +595,9 @@
     {
       "epoch": 0.5921539600296077,
       "eval_loss": 0.7637075781822205,
-      "eval_runtime": 41.453,
-      "eval_samples_per_second": 3.088,
-      "eval_steps_per_second": 0.386,
       "step": 400
     },
     {
@@ -743,9 +743,9 @@
     {
       "epoch": 0.7401924500370096,
       "eval_loss": 0.7563657164573669,
-      "eval_runtime": 41.8297,
-      "eval_samples_per_second": 3.06,
-      "eval_steps_per_second": 0.383,
       "step": 500
     },
     {
@@ -891,9 +891,9 @@
     {
       "epoch": 0.8882309400444115,
       "eval_loss": 0.7532988786697388,
-      "eval_runtime": 41.2008,
-      "eval_samples_per_second": 3.107,
-      "eval_steps_per_second": 0.388,
       "step": 600
     },
     {
@@ -1006,8 +1006,8 @@
       "step": 675,
       "total_flos": 76888336760832.0,
       "train_loss": 0.7676667234632704,
-      "train_runtime": 26434.6474,
-      "train_samples_per_second": 0.817,
       "train_steps_per_second": 0.026
     }
   ],

     {
       "epoch": 0.14803849000740193,
       "eval_loss": 0.8196535110473633,
+      "eval_runtime": 40.7418,
+      "eval_samples_per_second": 3.142,
+      "eval_steps_per_second": 0.393,
       "step": 100
     },
     {
     {
       "epoch": 0.29607698001480387,
       "eval_loss": 0.7897325754165649,
+      "eval_runtime": 41.2408,
+      "eval_samples_per_second": 3.104,
+      "eval_steps_per_second": 0.388,
       "step": 200
     },
     {
     {
       "epoch": 0.44411547002220575,
       "eval_loss": 0.7756889462471008,
+      "eval_runtime": 41.747,
+      "eval_samples_per_second": 3.066,
+      "eval_steps_per_second": 0.383,
       "step": 300
     },
     {
     {
       "epoch": 0.5921539600296077,
       "eval_loss": 0.7637075781822205,
+      "eval_runtime": 41.5052,
+      "eval_samples_per_second": 3.084,
+      "eval_steps_per_second": 0.385,
       "step": 400
     },
     {
     {
       "epoch": 0.7401924500370096,
       "eval_loss": 0.7563657164573669,
+      "eval_runtime": 42.1127,
+      "eval_samples_per_second": 3.039,
+      "eval_steps_per_second": 0.38,
       "step": 500
     },
     {
     {
       "epoch": 0.8882309400444115,
       "eval_loss": 0.7532988786697388,
+      "eval_runtime": 40.9176,
+      "eval_samples_per_second": 3.128,
+      "eval_steps_per_second": 0.391,
       "step": 600
     },
     {
       "step": 675,
       "total_flos": 76888336760832.0,
       "train_loss": 0.7676667234632704,
+      "train_runtime": 26097.2515,
+      "train_samples_per_second": 0.828,
       "train_steps_per_second": 0.026
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c53af33dfbb02c81c7b0dd682da80d9aaa24f63d866344d12ed5a3982db7b8a6
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba8f0a151e7b6f259d7ca3385ef4acb6544739b6cfe0638270e86115f16b13b4
 size 7352