Upload fine-tuned model

Browse files

Files changed (7) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +85 -131
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25c1ab1d72c24bfe28dcd99393d47713be6eac6f12ab34a9cfaffff70d0f94c7
 size 4943274328

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5ae1252eb009de5f4ffae322b888fd760512993d43e9d623a032eaf86042404
 size 4943274328

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72797521203759b3fa484f53336a7892a7039282c777c88bfe269ff51ac8884f
 size 2510808826

 version https://git-lfs.github.com/spec/v1
+oid sha256:153d74c362568635276812279c9b2262cfde40fddaa6794f820202bd3a4a2b37
 size 2510808826

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9899ccda7f0d8d9511991180b93aab508ce6e8489de708c88ad1188e7e1d90d6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b3ee827a7a00012c0a116546df467feee35e70376d81a7a85b1a70eb90414d3
 size 14244

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2499e0399fbf93134f32089f43a54b542db105fd8163905b5ca10492c93f08c
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc401fda741476ac85311d689253b63b3cab7dd7e757753c00d7432b308b4a77
 size 988

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:502fc0646817f7b28f50f0797fbf78aca9985ff1902e46adf8c295619f5e8837
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:973c2ea88782fa3ec32fbffa7f9f3938091abd7d9b495e680068b46093ff8ffb
 size 1064

trainer_state.json CHANGED Viewed

@@ -2,172 +2,126 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9835082458770614,
-  "eval_steps": 25,
-  "global_step": 166,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.13193403298350825,
-      "grad_norm": 119.62747955322266,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 60.0685,
-      "step": 11
     },
     {
-      "epoch": 0.2638680659670165,
-      "grad_norm": 76.251220703125,
-      "learning_rate": 1.983619906947144e-05,
-      "loss": 53.8545,
-      "step": 22
-    },
-    {
-      "epoch": 0.29985007496251875,
-      "eval_loss": 3.3249454498291016,
-      "eval_runtime": 89.9708,
-      "eval_samples_per_second": 5.557,
-      "eval_steps_per_second": 1.856,
-      "step": 25
-    },
-    {
-      "epoch": 0.39580209895052476,
-      "grad_norm": 67.91344451904297,
-      "learning_rate": 1.9199794436588244e-05,
-      "loss": 52.8293,
-      "step": 33
-    },
-    {
-      "epoch": 0.527736131934033,
-      "grad_norm": 75.1031265258789,
-      "learning_rate": 1.811377838556573e-05,
-      "loss": 52.3377,
-      "step": 44
     },
     {
-      "epoch": 0.5997001499250375,
-      "eval_loss": 3.2520751953125,
-      "eval_runtime": 89.7398,
-      "eval_samples_per_second": 5.572,
-      "eval_steps_per_second": 1.861,
-      "step": 50
     },
     {
-      "epoch": 0.6596701649175413,
-      "grad_norm": 70.66634368896484,
-      "learning_rate": 1.6631226582407954e-05,
-      "loss": 52.2969,
-      "step": 55
     },
     {
-      "epoch": 0.7916041979010495,
-      "grad_norm": 74.07559204101562,
-      "learning_rate": 1.4824594148071936e-05,
-      "loss": 51.8169,
-      "step": 66
     },
     {
-      "epoch": 0.8995502248875562,
-      "eval_loss": 3.2324743270874023,
-      "eval_runtime": 90.1521,
-      "eval_samples_per_second": 5.546,
-      "eval_steps_per_second": 1.852,
-      "step": 75
     },
     {
-      "epoch": 0.9235382308845578,
-      "grad_norm": 72.83753967285156,
-      "learning_rate": 1.2782174639164528e-05,
-      "loss": 51.5118,
-      "step": 77
     },
     {
-      "epoch": 1.047976011994003,
-      "grad_norm": 79.93111419677734,
-      "learning_rate": 1.0603784974222862e-05,
-      "loss": 48.0834,
-      "step": 88
     },
     {
-      "epoch": 1.1799100449775113,
-      "grad_norm": 89.3459243774414,
-      "learning_rate": 8.395887191422397e-06,
-      "loss": 50.378,
-      "step": 99
     },
     {
-      "epoch": 1.191904047976012,
-      "eval_loss": 3.2021567821502686,
-      "eval_runtime": 90.5661,
-      "eval_samples_per_second": 5.521,
-      "eval_steps_per_second": 1.844,
-      "step": 100
     },
     {
-      "epoch": 1.3118440779610194,
-      "grad_norm": 69.37840270996094,
-      "learning_rate": 6.266385446673791e-06,
-      "loss": 50.3322,
-      "step": 110
     },
     {
-      "epoch": 1.4437781109445278,
-      "grad_norm": 65.35021209716797,
-      "learning_rate": 4.319352532688444e-06,
-      "loss": 50.1113,
-      "step": 121
     },
     {
-      "epoch": 1.4917541229385307,
-      "eval_loss": 3.19496488571167,
-      "eval_runtime": 90.6364,
-      "eval_samples_per_second": 5.517,
-      "eval_steps_per_second": 1.843,
-      "step": 125
-    },
-    {
-      "epoch": 1.575712143928036,
-      "grad_norm": 70.10005187988281,
-      "learning_rate": 2.6499436440367165e-06,
-      "loss": 50.1493,
-      "step": 132
-    },
-    {
-      "epoch": 1.707646176911544,
-      "grad_norm": 68.84884643554688,
-      "learning_rate": 1.339745962155613e-06,
-      "loss": 50.1588,
-      "step": 143
-    },
-    {
-      "epoch": 1.7916041979010495,
-      "eval_loss": 3.176970958709717,
-      "eval_runtime": 89.1443,
-      "eval_samples_per_second": 5.609,
-      "eval_steps_per_second": 1.873,
-      "step": 150
     },
     {
-      "epoch": 1.8395802098950524,
-      "grad_norm": 84.58167266845703,
-      "learning_rate": 4.5279133491454406e-07,
-      "loss": 49.9598,
-      "step": 154
     },
     {
-      "epoch": 1.9715142428785608,
-      "grad_norm": 62.91596984863281,
-      "learning_rate": 3.242691865790071e-08,
-      "loss": 49.826,
-      "step": 165
     }
   ],
-  "logging_steps": 11,
-  "max_steps": 166,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
-  "save_steps": 50,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -180,7 +134,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.3724710537723904e+17,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.96,
+  "eval_steps": 10,
+  "global_step": 27,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.21333333333333335,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 63.3011,
+      "step": 2
     },
     {
+      "epoch": 0.4266666666666667,
+      "grad_norm": Infinity,
+      "learning_rate": 0.0,
+      "loss": 61.3878,
+      "step": 4
     },
     {
+      "epoch": 0.64,
+      "grad_norm": 611.62060546875,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 64.6879,
+      "step": 6
     },
     {
+      "epoch": 0.8533333333333334,
+      "grad_norm": 343.85888671875,
+      "learning_rate": 6e-06,
+      "loss": 59.1893,
+      "step": 8
     },
     {
+      "epoch": 1.1066666666666667,
+      "grad_norm": 286.243408203125,
+      "learning_rate": 1e-05,
+      "loss": 61.2499,
+      "step": 10
     },
     {
+      "epoch": 1.1066666666666667,
+      "eval_loss": 3.3731160163879395,
+      "eval_runtime": 3.4128,
+      "eval_samples_per_second": 5.86,
+      "eval_steps_per_second": 2.051,
+      "step": 10
     },
     {
+      "epoch": 1.32,
+      "grad_norm": 289.30523681640625,
+      "learning_rate": 1.4e-05,
+      "loss": 55.2484,
+      "step": 12
     },
     {
+      "epoch": 1.5333333333333332,
+      "grad_norm": 334.54632568359375,
+      "learning_rate": 1.8e-05,
+      "loss": 56.5117,
+      "step": 14
     },
     {
+      "epoch": 1.7466666666666666,
+      "grad_norm": 328.0875549316406,
+      "learning_rate": 1.982973099683902e-05,
+      "loss": 54.6102,
+      "step": 16
     },
     {
+      "epoch": 1.96,
+      "grad_norm": 249.81207275390625,
+      "learning_rate": 1.8502171357296144e-05,
+      "loss": 55.2078,
+      "step": 18
     },
     {
+      "epoch": 2.2133333333333334,
+      "grad_norm": 240.95912170410156,
+      "learning_rate": 1.6026346363792565e-05,
+      "loss": 56.2904,
+      "step": 20
     },
     {
+      "epoch": 2.2133333333333334,
+      "eval_loss": 3.224900007247925,
+      "eval_runtime": 3.438,
+      "eval_samples_per_second": 5.817,
+      "eval_steps_per_second": 2.036,
+      "step": 20
     },
     {
+      "epoch": 2.4266666666666667,
+      "grad_norm": 274.64892578125,
+      "learning_rate": 1.2736629900720832e-05,
+      "loss": 52.4623,
+      "step": 22
     },
     {
+      "epoch": 2.64,
+      "grad_norm": 275.81597900390625,
+      "learning_rate": 9.07731640536698e-06,
+      "loss": 53.445,
+      "step": 24
     },
     {
+      "epoch": 2.8533333333333335,
+      "grad_norm": 252.26492309570312,
+      "learning_rate": 5.542616442234618e-06,
+      "loss": 53.8146,
+      "step": 26
     }
   ],
+  "logging_steps": 2,
+  "max_steps": 27,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 3.910272351731712e+16,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16d296347945cb67bfa6c7229aa45967a046d5ff07369d05446b90a909c9721c
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8fc01af08c4c1686a979c57f0a67b791f460dc8eb9b636ec98728fcd1562cee
 size 5368