Upload fine-tuned model

Browse files

Files changed (10) hide show

model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
rng_state.pth +1 -1
scaler.pt +1 -1
scheduler.pt +1 -1
special_tokens_map.json +1 -7
tokenizer_config.json +1 -0
trainer_state.json +4 -385

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80090c0ec5dfe7066377a3cc545ac216fd6741d8d88895f37ecff26a25a72237
 size 4961852416

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb37d1d98e407541ac5be48089f1dbd65004ec4e7ee30371a1fa3beb3edf5978
 size 4961852416

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0656a1cc2e04850b6ef2963e0250cd620faecdbf88b58071d4c3757934aa8a43
 size 4983111176

 version https://git-lfs.github.com/spec/v1
+oid sha256:635ab5605f4deaba09610a2821eaf9f0c43f07e8b28e26f02bfb355b32f4aa67
 size 4983111176

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16511ee7337aa20595cd6e4025396bb209c1e34dee938838ec739fb48a7dcf0a
 size 4945374704

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8879fd1f45aff078cc7e8485e6220488fa7cbce98eb7f5bc2dd78a6a37bff06
 size 4945374704

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b900f38794888826263302802614491ebb47c32f22ddc42bbb09e072e8680f3c
 size 394002560

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c9b6f3523afb0a206fc5faba27884c901665eabe8582d441f7edb814c161048
 size 394002560

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:285abb08886d14c329c3145cd21092c92a575d4647731c4c6bacdc52838df314
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbac4f1ced44f35e7f915b7cb8080e25aa99a3afe0491b4e7972091465d885e3
 size 14244

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34d01644342e74e4c6b26bcf6157d30b6c7b4ae37f6998df0a4f5e710352b706
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:431d359aac953011e8b3e0aa259323346617a3406f926e81cc0a0de1f9b0c6eb
 size 988

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42ac1193d9afd5e9e6a069954ba46bddc93f719e87099011fc640726439b771c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7de6d366951b9cf0a0e3642f86d07125dd936b019bbfd2f2b8a0cccee56b9442
 size 1064

special_tokens_map.json CHANGED Viewed

@@ -13,13 +13,7 @@
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,

     "rstrip": false,
     "single_word": false
   },
+  "pad_token": "<|endoftext|>",
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,

tokenizer_config.json CHANGED Viewed

@@ -120,6 +120,7 @@
   "chat_template": "{% for message in messages %}{% if message['role'] == 'system' %}{{'<|system|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'user' %}{{'<|user|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'assistant' %}{{'<|assistant|>\n' + message['content'] + '<|end|>\n'}}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>\n' }}{% else %}{{ eos_token }}{% endif %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<|endoftext|>",
   "legacy": false,
   "model_max_length": 131072,
   "pad_token": "<|endoftext|>",

   "chat_template": "{% for message in messages %}{% if message['role'] == 'system' %}{{'<|system|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'user' %}{{'<|user|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'assistant' %}{{'<|assistant|>\n' + message['content'] + '<|end|>\n'}}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>\n' }}{% else %}{{ eos_token }}{% endif %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
   "legacy": false,
   "model_max_length": 131072,
   "pad_token": "<|endoftext|>",

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 10,
-  "global_step": 625,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -998,387 +998,6 @@
       "eval_samples_per_second": 4.539,
       "eval_steps_per_second": 4.539,
       "step": 450
-    },
-    {
-      "epoch": 0.728,
-      "grad_norm": 4.757038593292236,
-      "learning_rate": 3.657301224942098e-06,
-      "loss": 3.7008,
-      "step": 455
-    },
-    {
-      "epoch": 0.736,
-      "grad_norm": 4.461075305938721,
-      "learning_rate": 3.4619278695411495e-06,
-      "loss": 3.651,
-      "step": 460
-    },
-    {
-      "epoch": 0.736,
-      "eval_loss": 3.6577467918395996,
-      "eval_runtime": 110.5987,
-      "eval_samples_per_second": 4.521,
-      "eval_steps_per_second": 4.521,
-      "step": 460
-    },
-    {
-      "epoch": 0.744,
-      "grad_norm": 3.8970530033111572,
-      "learning_rate": 3.2708194805996252e-06,
-      "loss": 3.6794,
-      "step": 465
-    },
-    {
-      "epoch": 0.752,
-      "grad_norm": 4.632080554962158,
-      "learning_rate": 3.0841007234397655e-06,
-      "loss": 3.6475,
-      "step": 470
-    },
-    {
-      "epoch": 0.752,
-      "eval_loss": 3.661729574203491,
-      "eval_runtime": 112.6803,
-      "eval_samples_per_second": 4.437,
-      "eval_steps_per_second": 4.437,
-      "step": 470
-    },
-    {
-      "epoch": 0.76,
-      "grad_norm": 5.098201751708984,
-      "learning_rate": 2.901893399904797e-06,
-      "loss": 3.6647,
-      "step": 475
-    },
-    {
-      "epoch": 0.768,
-      "grad_norm": 4.249239921569824,
-      "learning_rate": 2.724316368904201e-06,
-      "loss": 3.694,
-      "step": 480
-    },
-    {
-      "epoch": 0.768,
-      "eval_loss": 3.652348041534424,
-      "eval_runtime": 111.7392,
-      "eval_samples_per_second": 4.475,
-      "eval_steps_per_second": 4.475,
-      "step": 480
-    },
-    {
-      "epoch": 0.776,
-      "grad_norm": 4.952099800109863,
-      "learning_rate": 2.5514854688787406e-06,
-      "loss": 3.6771,
-      "step": 485
-    },
-    {
-      "epoch": 0.784,
-      "grad_norm": 4.995110034942627,
-      "learning_rate": 2.383513442235812e-06,
-      "loss": 3.6666,
-      "step": 490
-    },
-    {
-      "epoch": 0.784,
-      "eval_loss": 3.653099298477173,
-      "eval_runtime": 111.5607,
-      "eval_samples_per_second": 4.482,
-      "eval_steps_per_second": 4.482,
-      "step": 490
-    },
-    {
-      "epoch": 0.792,
-      "grad_norm": 5.493462085723877,
-      "learning_rate": 2.2205098618044584e-06,
-      "loss": 3.6716,
-      "step": 495
-    },
-    {
-      "epoch": 0.8,
-      "grad_norm": 4.578746795654297,
-      "learning_rate": 2.0625810593579286e-06,
-      "loss": 3.64,
-      "step": 500
-    },
-    {
-      "epoch": 0.8,
-      "eval_loss": 3.6576831340789795,
-      "eval_runtime": 109.6662,
-      "eval_samples_per_second": 4.559,
-      "eval_steps_per_second": 4.559,
-      "step": 500
-    },
-    {
-      "epoch": 0.808,
-      "grad_norm": 4.769631385803223,
-      "learning_rate": 1.9098300562505266e-06,
-      "loss": 3.6298,
-      "step": 505
-    },
-    {
-      "epoch": 0.816,
-      "grad_norm": 5.270910263061523,
-      "learning_rate": 1.7623564962139061e-06,
-      "loss": 3.6375,
-      "step": 510
-    },
-    {
-      "epoch": 0.816,
-      "eval_loss": 3.658618211746216,
-      "eval_runtime": 112.7334,
-      "eval_samples_per_second": 4.435,
-      "eval_steps_per_second": 4.435,
-      "step": 510
-    },
-    {
-      "epoch": 0.824,
-      "grad_norm": 4.440089225769043,
-      "learning_rate": 1.6202565803566917e-06,
-      "loss": 3.6672,
-      "step": 515
-    },
-    {
-      "epoch": 0.832,
-      "grad_norm": 4.2689337730407715,
-      "learning_rate": 1.4836230044098164e-06,
-      "loss": 3.6544,
-      "step": 520
-    },
-    {
-      "epoch": 0.832,
-      "eval_loss": 3.6577441692352295,
-      "eval_runtime": 111.1537,
-      "eval_samples_per_second": 4.498,
-      "eval_steps_per_second": 4.498,
-      "step": 520
-    },
-    {
-      "epoch": 0.84,
-      "grad_norm": 7.282012939453125,
-      "learning_rate": 1.352544898258511e-06,
-      "loss": 3.6416,
-      "step": 525
-    },
-    {
-      "epoch": 0.848,
-      "grad_norm": 5.834847927093506,
-      "learning_rate": 1.2271077678004084e-06,
-      "loss": 3.653,
-      "step": 530
-    },
-    {
-      "epoch": 0.848,
-      "eval_loss": 3.6557505130767822,
-      "eval_runtime": 111.4698,
-      "eval_samples_per_second": 4.486,
-      "eval_steps_per_second": 4.486,
-      "step": 530
-    },
-    {
-      "epoch": 0.856,
-      "grad_norm": 4.881261825561523,
-      "learning_rate": 1.1073934391676666e-06,
-      "loss": 3.6859,
-      "step": 535
-    },
-    {
-      "epoch": 0.864,
-      "grad_norm": 4.997443675994873,
-      "learning_rate": 9.934800053494886e-07,
-      "loss": 3.6678,
-      "step": 540
-    },
-    {
-      "epoch": 0.864,
-      "eval_loss": 3.6547605991363525,
-      "eval_runtime": 112.6768,
-      "eval_samples_per_second": 4.437,
-      "eval_steps_per_second": 4.437,
-      "step": 540
-    },
-    {
-      "epoch": 0.872,
-      "grad_norm": 5.601071834564209,
-      "learning_rate": 8.854417752499112e-07,
-      "loss": 3.6535,
-      "step": 545
-    },
-    {
-      "epoch": 0.88,
-      "grad_norm": 5.277810573577881,
-      "learning_rate": 7.833492252140284e-07,
-      "loss": 3.6455,
-      "step": 550
-    },
-    {
-      "epoch": 0.88,
-      "eval_loss": 3.6565444469451904,
-      "eval_runtime": 111.5954,
-      "eval_samples_per_second": 4.48,
-      "eval_steps_per_second": 4.48,
-      "step": 550
-    },
-    {
-      "epoch": 0.888,
-      "grad_norm": 4.55835485458374,
-      "learning_rate": 6.872689530543087e-07,
-      "loss": 3.6681,
-      "step": 555
-    },
-    {
-      "epoch": 0.896,
-      "grad_norm": 4.985684871673584,
-      "learning_rate": 5.972636346069949e-07,
-      "loss": 3.6437,
-      "step": 560
-    },
-    {
-      "epoch": 0.896,
-      "eval_loss": 3.656482696533203,
-      "eval_runtime": 111.9622,
-      "eval_samples_per_second": 4.466,
-      "eval_steps_per_second": 4.466,
-      "step": 560
-    },
-    {
-      "epoch": 0.904,
-      "grad_norm": 5.561159133911133,
-      "learning_rate": 5.133919828468992e-07,
-      "loss": 3.6635,
-      "step": 565
-    },
-    {
-      "epoch": 0.912,
-      "grad_norm": 5.3784003257751465,
-      "learning_rate": 4.357087095873136e-07,
-      "loss": 3.6519,
-      "step": 570
-    },
-    {
-      "epoch": 0.912,
-      "eval_loss": 3.656426429748535,
-      "eval_runtime": 110.8291,
-      "eval_samples_per_second": 4.511,
-      "eval_steps_per_second": 4.511,
-      "step": 570
-    },
-    {
-      "epoch": 0.92,
-      "grad_norm": 5.003520965576172,
-      "learning_rate": 3.6426448978995054e-07,
-      "loss": 3.6271,
-      "step": 575
-    },
-    {
-      "epoch": 0.928,
-      "grad_norm": 4.7706403732299805,
-      "learning_rate": 2.9910592850826983e-07,
-      "loss": 3.7089,
-      "step": 580
-    },
-    {
-      "epoch": 0.928,
-      "eval_loss": 3.6552963256835938,
-      "eval_runtime": 111.738,
-      "eval_samples_per_second": 4.475,
-      "eval_steps_per_second": 4.475,
-      "step": 580
-    },
-    {
-      "epoch": 0.936,
-      "grad_norm": 5.243898391723633,
-      "learning_rate": 2.402755304856974e-07,
-      "loss": 3.6502,
-      "step": 585
-    },
-    {
-      "epoch": 0.944,
-      "grad_norm": 5.9423298835754395,
-      "learning_rate": 1.8781167242860276e-07,
-      "loss": 3.6603,
-      "step": 590
-    },
-    {
-      "epoch": 0.944,
-      "eval_loss": 3.656373977661133,
-      "eval_runtime": 110.7007,
-      "eval_samples_per_second": 4.517,
-      "eval_steps_per_second": 4.517,
-      "step": 590
-    },
-    {
-      "epoch": 0.952,
-      "grad_norm": 4.393427848815918,
-      "learning_rate": 1.4174857797209951e-07,
-      "loss": 3.6765,
-      "step": 595
-    },
-    {
-      "epoch": 0.96,
-      "grad_norm": 4.435468673706055,
-      "learning_rate": 1.0211629535501811e-07,
-      "loss": 3.6715,
-      "step": 600
-    },
-    {
-      "epoch": 0.96,
-      "eval_loss": 3.6557369232177734,
-      "eval_runtime": 111.0884,
-      "eval_samples_per_second": 4.501,
-      "eval_steps_per_second": 4.501,
-      "step": 600
-    },
-    {
-      "epoch": 0.968,
-      "grad_norm": 4.849489212036133,
-      "learning_rate": 6.894067781860636e-08,
-      "loss": 3.6554,
-      "step": 605
-    },
-    {
-      "epoch": 0.976,
-      "grad_norm": 6.290756702423096,
-      "learning_rate": 4.2243366741735457e-08,
-      "loss": 3.6473,
-      "step": 610
-    },
-    {
-      "epoch": 0.976,
-      "eval_loss": 3.6551318168640137,
-      "eval_runtime": 111.5978,
-      "eval_samples_per_second": 4.48,
-      "eval_steps_per_second": 4.48,
-      "step": 610
-    },
-    {
-      "epoch": 0.984,
-      "grad_norm": 5.660240650177002,
-      "learning_rate": 2.2041777523627018e-08,
-      "loss": 3.6221,
-      "step": 615
-    },
-    {
-      "epoch": 0.992,
-      "grad_norm": 5.215294361114502,
-      "learning_rate": 8.349088223306157e-09,
-      "loss": 3.6463,
-      "step": 620
-    },
-    {
-      "epoch": 0.992,
-      "eval_loss": 3.655787944793701,
-      "eval_runtime": 111.9272,
-      "eval_samples_per_second": 4.467,
-      "eval_steps_per_second": 4.467,
-      "step": 620
-    },
-    {
-      "epoch": 1.0,
-      "grad_norm": 5.055933475494385,
-      "learning_rate": 1.1742309631845861e-09,
-      "loss": 3.6125,
-      "step": 625
     }
   ],
   "logging_steps": 5,
@@ -1393,12 +1012,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.8614575095808e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.72,
   "eval_steps": 10,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.539,
       "eval_steps_per_second": 4.539,
       "step": 450
     }
   ],
   "logging_steps": 5,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.940249406898176e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null