Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +178 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7199032c0bb48f4e3f23675b3a1c970189d67c15cf1579dd23df3488b0b3e3a
 size 1852600

 version https://git-lfs.github.com/spec/v1
+oid sha256:68515ff14478a14351e1265d123ac6741eff44f2f63af0a047a64557a1804a24
 size 1852600

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16fe1bcbf22a34222feeabd157ef29f7b3cb2ec9206af80fc10023f9386bae86
 size 1108346

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8882111f3043041d033f9112061c110352ce387874ac96764552fdc55b6ce27
 size 1108346

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59d953226bc417945899e87f53a6081640f34a8b71d67a0b1cf564824efa9463
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e24cea9fa51a4c228cf33d03c76744682a85d2067e0b76c9d2a550bf503d1f19
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30e95e5f44861e8059ee6a3a64cda7d8ed399274b958454ac1793d881fa8c44c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:daee553adc9caeda3de85213cc0cd43f6e5927682a944ecc5ea1008fcff66b1b
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.4405125076266017,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -182,6 +182,181 @@
       "learning_rate": 0.00019737704918032788,
       "loss": 1.3822,
       "step": 500
     }
   ],
   "logging_steps": 20,
@@ -201,7 +376,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6429114251698176.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.881025015253203,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00019737704918032788,
       "loss": 1.3822,
       "step": 500
+    },
+    {
+      "epoch": 2.5381330079316657,
+      "grad_norm": 2.5370113849639893,
+      "learning_rate": 0.00019724590163934427,
+      "loss": 1.2652,
+      "step": 520
+    },
+    {
+      "epoch": 2.63575350823673,
+      "grad_norm": 2.0484936237335205,
+      "learning_rate": 0.00019711475409836066,
+      "loss": 1.2971,
+      "step": 540
+    },
+    {
+      "epoch": 2.733374008541794,
+      "grad_norm": 1.699357509613037,
+      "learning_rate": 0.00019698360655737707,
+      "loss": 1.3195,
+      "step": 560
+    },
+    {
+      "epoch": 2.830994508846858,
+      "grad_norm": 2.4636785984039307,
+      "learning_rate": 0.00019685245901639344,
+      "loss": 1.2474,
+      "step": 580
+    },
+    {
+      "epoch": 2.9286150091519216,
+      "grad_norm": 3.6711232662200928,
+      "learning_rate": 0.00019672131147540985,
+      "loss": 1.3091,
+      "step": 600
+    },
+    {
+      "epoch": 3.026235509456986,
+      "grad_norm": 1.9547876119613647,
+      "learning_rate": 0.00019659016393442624,
+      "loss": 1.2966,
+      "step": 620
+    },
+    {
+      "epoch": 3.1238560097620502,
+      "grad_norm": 2.135209560394287,
+      "learning_rate": 0.00019645901639344263,
+      "loss": 1.2201,
+      "step": 640
+    },
+    {
+      "epoch": 3.221476510067114,
+      "grad_norm": 2.2378487586975098,
+      "learning_rate": 0.00019632786885245902,
+      "loss": 1.2226,
+      "step": 660
+    },
+    {
+      "epoch": 3.319097010372178,
+      "grad_norm": 2.5407207012176514,
+      "learning_rate": 0.0001961967213114754,
+      "loss": 1.224,
+      "step": 680
+    },
+    {
+      "epoch": 3.416717510677242,
+      "grad_norm": 2.5137102603912354,
+      "learning_rate": 0.00019606557377049183,
+      "loss": 1.271,
+      "step": 700
+    },
+    {
+      "epoch": 3.514338010982306,
+      "grad_norm": 2.5121419429779053,
+      "learning_rate": 0.00019593442622950822,
+      "loss": 1.2469,
+      "step": 720
+    },
+    {
+      "epoch": 3.61195851128737,
+      "grad_norm": 2.5250003337860107,
+      "learning_rate": 0.0001958032786885246,
+      "loss": 1.1799,
+      "step": 740
+    },
+    {
+      "epoch": 3.7095790115924343,
+      "grad_norm": 1.8390239477157593,
+      "learning_rate": 0.000195672131147541,
+      "loss": 1.2629,
+      "step": 760
+    },
+    {
+      "epoch": 3.8071995118974984,
+      "grad_norm": 2.065147638320923,
+      "learning_rate": 0.00019554098360655738,
+      "loss": 1.2158,
+      "step": 780
+    },
+    {
+      "epoch": 3.9048200122025625,
+      "grad_norm": 2.7138381004333496,
+      "learning_rate": 0.00019540983606557377,
+      "loss": 1.1778,
+      "step": 800
+    },
+    {
+      "epoch": 4.002440512507627,
+      "grad_norm": 3.124082565307617,
+      "learning_rate": 0.00019527868852459016,
+      "loss": 1.2258,
+      "step": 820
+    },
+    {
+      "epoch": 4.100061012812691,
+      "grad_norm": 2.8344528675079346,
+      "learning_rate": 0.00019514754098360658,
+      "loss": 1.1718,
+      "step": 840
+    },
+    {
+      "epoch": 4.197681513117755,
+      "grad_norm": 2.2852656841278076,
+      "learning_rate": 0.00019501639344262297,
+      "loss": 1.132,
+      "step": 860
+    },
+    {
+      "epoch": 4.295302013422819,
+      "grad_norm": 2.662973642349243,
+      "learning_rate": 0.00019488524590163936,
+      "loss": 1.158,
+      "step": 880
+    },
+    {
+      "epoch": 4.392922513727883,
+      "grad_norm": 2.1522879600524902,
+      "learning_rate": 0.00019475409836065575,
+      "loss": 1.1263,
+      "step": 900
+    },
+    {
+      "epoch": 4.490543014032947,
+      "grad_norm": 2.541273832321167,
+      "learning_rate": 0.00019462295081967214,
+      "loss": 1.1807,
+      "step": 920
+    },
+    {
+      "epoch": 4.588163514338011,
+      "grad_norm": 2.0520172119140625,
+      "learning_rate": 0.00019449180327868855,
+      "loss": 1.1164,
+      "step": 940
+    },
+    {
+      "epoch": 4.685784014643075,
+      "grad_norm": 2.2306621074676514,
+      "learning_rate": 0.00019436065573770491,
+      "loss": 1.117,
+      "step": 960
+    },
+    {
+      "epoch": 4.783404514948139,
+      "grad_norm": 3.0042741298675537,
+      "learning_rate": 0.00019422950819672133,
+      "loss": 1.2039,
+      "step": 980
+    },
+    {
+      "epoch": 4.881025015253203,
+      "grad_norm": 2.1427409648895264,
+      "learning_rate": 0.00019409836065573772,
+      "loss": 1.1225,
+      "step": 1000
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 1.2862153546924032e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null