Upload fine-tuned model

Browse files

Files changed (6) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +62 -4

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4e7083f46f247845da972853910d8680ca649ab8c902c99ae0aef8b98f13b94
 size 4943274328

 version https://git-lfs.github.com/spec/v1
+oid sha256:25c1ab1d72c24bfe28dcd99393d47713be6eac6f12ab34a9cfaffff70d0f94c7
 size 4943274328

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d79a6afb2552fb1cf64796402d4e175b61bc5b99be45450ff790ca57d1cdf3c8
 size 2510808826

 version https://git-lfs.github.com/spec/v1
+oid sha256:72797521203759b3fa484f53336a7892a7039282c777c88bfe269ff51ac8884f
 size 2510808826

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c062f7f375beded48b5337f5a3f3a5cb38807fa3e85dbf3e294c0ab6b627bfc2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9899ccda7f0d8d9511991180b93aab508ce6e8489de708c88ad1188e7e1d90d6
 size 14244

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7ab928fb6fc03d23ed0a52a122112f8e7b9f1b5afe619387db540b707cec3ec
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2499e0399fbf93134f32089f43a54b542db105fd8163905b5ca10492c93f08c
 size 988

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b81ef4084acb220d4aa4aaf816f556a4e6f57487225003cd5fc278dd5e90c942
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:502fc0646817f7b28f50f0797fbf78aca9985ff1902e46adf8c295619f5e8837
 size 1064

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.191904047976012,
   "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -103,6 +103,64 @@
       "eval_samples_per_second": 5.521,
       "eval_steps_per_second": 1.844,
       "step": 100
     }
   ],
   "logging_steps": 11,
@@ -117,12 +175,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.4253959153713152e+17,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9835082458770614,
   "eval_steps": 25,
+  "global_step": 166,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.521,
       "eval_steps_per_second": 1.844,
       "step": 100
+    },
+    {
+      "epoch": 1.3118440779610194,
+      "grad_norm": 69.37840270996094,
+      "learning_rate": 6.266385446673791e-06,
+      "loss": 50.3322,
+      "step": 110
+    },
+    {
+      "epoch": 1.4437781109445278,
+      "grad_norm": 65.35021209716797,
+      "learning_rate": 4.319352532688444e-06,
+      "loss": 50.1113,
+      "step": 121
+    },
+    {
+      "epoch": 1.4917541229385307,
+      "eval_loss": 3.19496488571167,
+      "eval_runtime": 90.6364,
+      "eval_samples_per_second": 5.517,
+      "eval_steps_per_second": 1.843,
+      "step": 125
+    },
+    {
+      "epoch": 1.575712143928036,
+      "grad_norm": 70.10005187988281,
+      "learning_rate": 2.6499436440367165e-06,
+      "loss": 50.1493,
+      "step": 132
+    },
+    {
+      "epoch": 1.707646176911544,
+      "grad_norm": 68.84884643554688,
+      "learning_rate": 1.339745962155613e-06,
+      "loss": 50.1588,
+      "step": 143
+    },
+    {
+      "epoch": 1.7916041979010495,
+      "eval_loss": 3.176970958709717,
+      "eval_runtime": 89.1443,
+      "eval_samples_per_second": 5.609,
+      "eval_steps_per_second": 1.873,
+      "step": 150
+    },
+    {
+      "epoch": 1.8395802098950524,
+      "grad_norm": 84.58167266845703,
+      "learning_rate": 4.5279133491454406e-07,
+      "loss": 49.9598,
+      "step": 154
+    },
+    {
+      "epoch": 1.9715142428785608,
+      "grad_norm": 62.91596984863281,
+      "learning_rate": 3.242691865790071e-08,
+      "loss": 49.826,
+      "step": 165
     }
   ],
   "logging_steps": 11,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.3724710537723904e+17,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null