Upload 8 files

Browse files

Files changed (7) hide show

config.json +2 -2
model.safetensors +1 -1
optimizer.pt +3 -0
rng_state.pth +1 -1
scheduler.pt +3 -0
trainer_state.json +579 -43
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -13,9 +13,9 @@
   "max_position_embeddings": 2048,
   "mlp_bias": false,
   "model_type": "llama",
-  "num_attention_heads": 8,
   "num_hidden_layers": 8,
-  "num_key_value_heads": 8,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,

   "max_position_embeddings": 2048,
   "mlp_bias": false,
   "model_type": "llama",
+  "num_attention_heads": 16,
   "num_hidden_layers": 8,
+  "num_key_value_heads": 16,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45a823b3b13b4b9e9a6aafe0472d4fad914f6f7e62545377835609a764415eff
 size 18494040

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d3c2e20e14ad149e73575ba64b05ad353625b797ea427a99990d68008d3d3cb
 size 18494040

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bda737f67c64070b80a0458ecda2fcea611bd2d8344185d36fb69035c97d221
+size 37035002

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:386fcc8cc1089aade9450d86fb239ea3483f455fd2d78d8378645feecfec9d69
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ff264f99d31b522cc7e2a4eac9d38606d0c58a34c0adc74d71e0ca8b371dc36
 size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1af92ed44d240f5ab8a8e4f68304482a678ec63e16e1ccdf7c4a711760c469a9
+size 1064

trainer_state.json CHANGED Viewed

@@ -1,121 +1,657 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2507601166034542,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.018807008745259066,
-      "grad_norm": 0.7771628499031067,
-      "learning_rate": 1.9877931524601816e-05,
-      "loss": 10.1462,
       "num_input_tokens_seen": 19660800,
       "step": 150
     },
     {
       "epoch": 0.03761401749051813,
-      "grad_norm": 0.841651201248169,
-      "learning_rate": 1.97525187074119e-05,
-      "loss": 9.8974,
       "num_input_tokens_seen": 39321600,
       "step": 300
     },
     {
       "epoch": 0.0564210262357772,
-      "grad_norm": 0.7740743160247803,
-      "learning_rate": 1.9627105890221982e-05,
-      "loss": 9.6653,
       "num_input_tokens_seen": 58982400,
       "step": 450
     },
     {
       "epoch": 0.07522803498103627,
-      "grad_norm": 0.8001583218574524,
-      "learning_rate": 1.9501693073032066e-05,
-      "loss": 9.4506,
       "num_input_tokens_seen": 78643200,
       "step": 600
     },
     {
       "epoch": 0.09403504372629533,
-      "grad_norm": 0.8240243792533875,
-      "learning_rate": 1.937628025584215e-05,
-      "loss": 9.2539,
       "num_input_tokens_seen": 98304000,
       "step": 750
     },
     {
       "epoch": 0.1128420524715544,
-      "grad_norm": 0.7667157053947449,
-      "learning_rate": 1.9250867438652233e-05,
-      "loss": 9.0693,
       "num_input_tokens_seen": 117964800,
       "step": 900
     },
     {
       "epoch": 0.13164906121681347,
-      "grad_norm": 0.8228150010108948,
-      "learning_rate": 1.9125454621462316e-05,
-      "loss": 8.8967,
       "num_input_tokens_seen": 137625600,
       "step": 1050
     },
     {
       "epoch": 0.15045606996207253,
-      "grad_norm": 0.8424794673919678,
-      "learning_rate": 1.9000041804272396e-05,
-      "loss": 8.7364,
       "num_input_tokens_seen": 157286400,
       "step": 1200
     },
     {
       "epoch": 0.1692630787073316,
-      "grad_norm": 0.7859320640563965,
-      "learning_rate": 1.8874628987082483e-05,
-      "loss": 8.5903,
       "num_input_tokens_seen": 176947200,
       "step": 1350
     },
     {
       "epoch": 0.18807008745259066,
-      "grad_norm": 0.7881995439529419,
-      "learning_rate": 1.8749216169892567e-05,
-      "loss": 8.4497,
       "num_input_tokens_seen": 196608000,
       "step": 1500
     },
     {
       "epoch": 0.20687709619784972,
-      "grad_norm": 0.8333655595779419,
-      "learning_rate": 1.8623803352702647e-05,
-      "loss": 8.3184,
       "num_input_tokens_seen": 216268800,
       "step": 1650
     },
     {
       "epoch": 0.2256841049431088,
-      "grad_norm": 0.7956089973449707,
-      "learning_rate": 1.849839053551273e-05,
-      "loss": 8.1998,
       "num_input_tokens_seen": 235929600,
       "step": 1800
     },
     {
       "epoch": 0.24449111368836787,
-      "grad_norm": 0.8068310022354126,
-      "learning_rate": 1.8372977718322814e-05,
-      "loss": 8.0871,
       "num_input_tokens_seen": 255590400,
       "step": 1950
     }
   ],
   "logging_steps": 150,
   "max_steps": 23925,
-  "num_input_tokens_seen": 262144000,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
@@ -130,7 +666,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4047671132160000.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5045606996207255,
   "eval_steps": 500,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.018807008745259066,
+      "grad_norm": 0.8045865297317505,
+      "learning_rate": 0.00015902345219681452,
+      "loss": 9.3828,
       "num_input_tokens_seen": 19660800,
       "step": 150
     },
     {
       "epoch": 0.03761401749051813,
+      "grad_norm": 0.8349803686141968,
+      "learning_rate": 0.0001580201496592952,
+      "loss": 8.0829,
       "num_input_tokens_seen": 39321600,
       "step": 300
     },
     {
       "epoch": 0.0564210262357772,
+      "grad_norm": 0.6253471374511719,
+      "learning_rate": 0.00015701684712177586,
+      "loss": 7.4091,
       "num_input_tokens_seen": 58982400,
       "step": 450
     },
     {
       "epoch": 0.07522803498103627,
+      "grad_norm": 0.5699061751365662,
+      "learning_rate": 0.00015601354458425653,
+      "loss": 7.0279,
       "num_input_tokens_seen": 78643200,
       "step": 600
     },
     {
       "epoch": 0.09403504372629533,
+      "grad_norm": 0.6017518043518066,
+      "learning_rate": 0.0001550102420467372,
+      "loss": 6.732,
       "num_input_tokens_seen": 98304000,
       "step": 750
     },
     {
       "epoch": 0.1128420524715544,
+      "grad_norm": 0.6045653223991394,
+      "learning_rate": 0.00015400693950921786,
+      "loss": 6.4612,
       "num_input_tokens_seen": 117964800,
       "step": 900
     },
     {
       "epoch": 0.13164906121681347,
+      "grad_norm": 0.8820130825042725,
+      "learning_rate": 0.00015300363697169853,
+      "loss": 6.2193,
       "num_input_tokens_seen": 137625600,
       "step": 1050
     },
     {
       "epoch": 0.15045606996207253,
+      "grad_norm": 0.8934310674667358,
+      "learning_rate": 0.00015200033443417917,
+      "loss": 6.0184,
       "num_input_tokens_seen": 157286400,
       "step": 1200
     },
     {
       "epoch": 0.1692630787073316,
+      "grad_norm": 1.082834243774414,
+      "learning_rate": 0.00015099703189665986,
+      "loss": 5.8664,
       "num_input_tokens_seen": 176947200,
       "step": 1350
     },
     {
       "epoch": 0.18807008745259066,
+      "grad_norm": 1.1755659580230713,
+      "learning_rate": 0.00014999372935914053,
+      "loss": 5.7258,
       "num_input_tokens_seen": 196608000,
       "step": 1500
     },
     {
       "epoch": 0.20687709619784972,
+      "grad_norm": 1.1867622137069702,
+      "learning_rate": 0.00014899042682162117,
+      "loss": 5.6018,
       "num_input_tokens_seen": 216268800,
       "step": 1650
     },
     {
       "epoch": 0.2256841049431088,
+      "grad_norm": 1.2599449157714844,
+      "learning_rate": 0.00014798712428410184,
+      "loss": 5.5016,
       "num_input_tokens_seen": 235929600,
       "step": 1800
     },
     {
       "epoch": 0.24449111368836787,
+      "grad_norm": 1.292974591255188,
+      "learning_rate": 0.0001469838217465825,
+      "loss": 5.413,
       "num_input_tokens_seen": 255590400,
       "step": 1950
+    },
+    {
+      "epoch": 0.26329812243362694,
+      "grad_norm": 1.325179100036621,
+      "learning_rate": 0.00014598051920906318,
+      "loss": 5.3436,
+      "num_input_tokens_seen": 275251200,
+      "step": 2100
+    },
+    {
+      "epoch": 0.28210513117888597,
+      "grad_norm": 1.3993710279464722,
+      "learning_rate": 0.00014497721667154384,
+      "loss": 5.2768,
+      "num_input_tokens_seen": 294912000,
+      "step": 2250
+    },
+    {
+      "epoch": 0.30091213992414506,
+      "grad_norm": 1.5274803638458252,
+      "learning_rate": 0.0001439739141340245,
+      "loss": 5.2122,
+      "num_input_tokens_seen": 314572800,
+      "step": 2400
+    },
+    {
+      "epoch": 0.31971914866940415,
+      "grad_norm": 1.475855827331543,
+      "learning_rate": 0.00014297061159650518,
+      "loss": 5.1714,
+      "num_input_tokens_seen": 334233600,
+      "step": 2550
+    },
+    {
+      "epoch": 0.3385261574146632,
+      "grad_norm": 1.5435775518417358,
+      "learning_rate": 0.00014196730905898585,
+      "loss": 5.1111,
+      "num_input_tokens_seen": 353894400,
+      "step": 2700
+    },
+    {
+      "epoch": 0.3573331661599223,
+      "grad_norm": 1.6586663722991943,
+      "learning_rate": 0.0001409640065214665,
+      "loss": 5.0548,
+      "num_input_tokens_seen": 373555200,
+      "step": 2850
+    },
+    {
+      "epoch": 0.3761401749051813,
+      "grad_norm": 1.5785890817642212,
+      "learning_rate": 0.00013996070398394718,
+      "loss": 5.0055,
+      "num_input_tokens_seen": 393216000,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3949471836504404,
+      "grad_norm": 1.6534926891326904,
+      "learning_rate": 0.00013895740144642785,
+      "loss": 4.973,
+      "num_input_tokens_seen": 412876800,
+      "step": 3150
+    },
+    {
+      "epoch": 0.41375419239569944,
+      "grad_norm": 1.82899010181427,
+      "learning_rate": 0.0001379540989089085,
+      "loss": 4.9336,
+      "num_input_tokens_seen": 432537600,
+      "step": 3300
+    },
+    {
+      "epoch": 0.43256120114095853,
+      "grad_norm": 1.7137963771820068,
+      "learning_rate": 0.00013695079637138916,
+      "loss": 4.9158,
+      "num_input_tokens_seen": 452198400,
+      "step": 3450
+    },
+    {
+      "epoch": 0.4513682098862176,
+      "grad_norm": 2.001296043395996,
+      "learning_rate": 0.00013594749383386985,
+      "loss": 4.8633,
+      "num_input_tokens_seen": 471859200,
+      "step": 3600
+    },
+    {
+      "epoch": 0.47017521863147665,
+      "grad_norm": 1.7802987098693848,
+      "learning_rate": 0.0001349441912963505,
+      "loss": 4.8431,
+      "num_input_tokens_seen": 491520000,
+      "step": 3750
+    },
+    {
+      "epoch": 0.48898222737673575,
+      "grad_norm": 1.8677113056182861,
+      "learning_rate": 0.00013394088875883116,
+      "loss": 4.8243,
+      "num_input_tokens_seen": 511180800,
+      "step": 3900
+    },
+    {
+      "epoch": 0.5077892361219948,
+      "grad_norm": 1.9465229511260986,
+      "learning_rate": 0.00013293758622131183,
+      "loss": 4.7799,
+      "num_input_tokens_seen": 530841600,
+      "step": 4050
+    },
+    {
+      "epoch": 0.5265962448672539,
+      "grad_norm": 1.9226826429367065,
+      "learning_rate": 0.0001319342836837925,
+      "loss": 4.7513,
+      "num_input_tokens_seen": 550502400,
+      "step": 4200
+    },
+    {
+      "epoch": 0.545403253612513,
+      "grad_norm": 2.018714666366577,
+      "learning_rate": 0.00013093098114627316,
+      "loss": 4.7226,
+      "num_input_tokens_seen": 570163200,
+      "step": 4350
+    },
+    {
+      "epoch": 0.5642102623577719,
+      "grad_norm": 1.975203275680542,
+      "learning_rate": 0.00012992767860875383,
+      "loss": 4.7069,
+      "num_input_tokens_seen": 589824000,
+      "step": 4500
+    },
+    {
+      "epoch": 0.583017271103031,
+      "grad_norm": 1.9473543167114258,
+      "learning_rate": 0.0001289243760712345,
+      "loss": 4.6781,
+      "num_input_tokens_seen": 609484800,
+      "step": 4650
+    },
+    {
+      "epoch": 0.6018242798482901,
+      "grad_norm": 1.9783662557601929,
+      "learning_rate": 0.00012792107353371517,
+      "loss": 4.653,
+      "num_input_tokens_seen": 629145600,
+      "step": 4800
+    },
+    {
+      "epoch": 0.6206312885935492,
+      "grad_norm": 2.184589147567749,
+      "learning_rate": 0.00012691777099619583,
+      "loss": 4.6403,
+      "num_input_tokens_seen": 648806400,
+      "step": 4950
+    },
+    {
+      "epoch": 0.6394382973388083,
+      "grad_norm": 2.109097480773926,
+      "learning_rate": 0.00012591446845867647,
+      "loss": 4.613,
+      "num_input_tokens_seen": 668467200,
+      "step": 5100
+    },
+    {
+      "epoch": 0.6582453060840673,
+      "grad_norm": 2.1296463012695312,
+      "learning_rate": 0.00012491116592115717,
+      "loss": 4.5984,
+      "num_input_tokens_seen": 688128000,
+      "step": 5250
+    },
+    {
+      "epoch": 0.6770523148293264,
+      "grad_norm": 2.2577426433563232,
+      "learning_rate": 0.0001239078633836378,
+      "loss": 4.5816,
+      "num_input_tokens_seen": 707788800,
+      "step": 5400
+    },
+    {
+      "epoch": 0.6958593235745855,
+      "grad_norm": 2.186983585357666,
+      "learning_rate": 0.00012290456084611848,
+      "loss": 4.5545,
+      "num_input_tokens_seen": 727449600,
+      "step": 5550
+    },
+    {
+      "epoch": 0.7146663323198446,
+      "grad_norm": 2.1596477031707764,
+      "learning_rate": 0.00012190125830859916,
+      "loss": 4.5328,
+      "num_input_tokens_seen": 747110400,
+      "step": 5700
+    },
+    {
+      "epoch": 0.7334733410651036,
+      "grad_norm": 2.112995147705078,
+      "learning_rate": 0.00012089795577107981,
+      "loss": 4.5176,
+      "num_input_tokens_seen": 766771200,
+      "step": 5850
+    },
+    {
+      "epoch": 0.7522803498103626,
+      "grad_norm": 2.322986125946045,
+      "learning_rate": 0.00011989465323356048,
+      "loss": 4.5145,
+      "num_input_tokens_seen": 786432000,
+      "step": 6000
+    },
+    {
+      "epoch": 0.7710873585556217,
+      "grad_norm": 2.2006442546844482,
+      "learning_rate": 0.00011889135069604115,
+      "loss": 4.4968,
+      "num_input_tokens_seen": 806092800,
+      "step": 6150
+    },
+    {
+      "epoch": 0.7898943673008808,
+      "grad_norm": 2.222529411315918,
+      "learning_rate": 0.0001178880481585218,
+      "loss": 4.4817,
+      "num_input_tokens_seen": 825753600,
+      "step": 6300
+    },
+    {
+      "epoch": 0.8087013760461399,
+      "grad_norm": 2.286618947982788,
+      "learning_rate": 0.00011688474562100248,
+      "loss": 4.4596,
+      "num_input_tokens_seen": 845414400,
+      "step": 6450
+    },
+    {
+      "epoch": 0.8275083847913989,
+      "grad_norm": 2.36089825630188,
+      "learning_rate": 0.0001158881317670666,
+      "loss": 4.4455,
+      "num_input_tokens_seen": 865075200,
+      "step": 6600
+    },
+    {
+      "epoch": 0.846315393536658,
+      "grad_norm": 2.4029579162597656,
+      "learning_rate": 0.00011488482922954726,
+      "loss": 4.4359,
+      "num_input_tokens_seen": 884736000,
+      "step": 6750
+    },
+    {
+      "epoch": 0.8651224022819171,
+      "grad_norm": 2.3895576000213623,
+      "learning_rate": 0.00011388152669202794,
+      "loss": 4.4152,
+      "num_input_tokens_seen": 904396800,
+      "step": 6900
+    },
+    {
+      "epoch": 0.8839294110271761,
+      "grad_norm": 2.2175564765930176,
+      "learning_rate": 0.0001128782241545086,
+      "loss": 4.4096,
+      "num_input_tokens_seen": 924057600,
+      "step": 7050
+    },
+    {
+      "epoch": 0.9027364197724352,
+      "grad_norm": 2.4382975101470947,
+      "learning_rate": 0.00011187492161698926,
+      "loss": 4.3976,
+      "num_input_tokens_seen": 943718400,
+      "step": 7200
+    },
+    {
+      "epoch": 0.9215434285176942,
+      "grad_norm": 2.533416986465454,
+      "learning_rate": 0.00011087161907946993,
+      "loss": 4.384,
+      "num_input_tokens_seen": 963379200,
+      "step": 7350
+    },
+    {
+      "epoch": 0.9403504372629533,
+      "grad_norm": 2.362147808074951,
+      "learning_rate": 0.00010986831654195061,
+      "loss": 4.3608,
+      "num_input_tokens_seen": 983040000,
+      "step": 7500
+    },
+    {
+      "epoch": 0.9591574460082124,
+      "grad_norm": 2.4153311252593994,
+      "learning_rate": 0.00010886501400443126,
+      "loss": 4.3604,
+      "num_input_tokens_seen": 1002700800,
+      "step": 7650
+    },
+    {
+      "epoch": 0.9779644547534715,
+      "grad_norm": 2.541653871536255,
+      "learning_rate": 0.00010786171146691193,
+      "loss": 4.3495,
+      "num_input_tokens_seen": 1022361600,
+      "step": 7800
+    },
+    {
+      "epoch": 0.9967714634987306,
+      "grad_norm": 2.507594108581543,
+      "learning_rate": 0.0001068584089293926,
+      "loss": 4.3303,
+      "num_input_tokens_seen": 1042022400,
+      "step": 7950
+    },
+    {
+      "epoch": 1.0155784722439896,
+      "grad_norm": 2.4842772483825684,
+      "learning_rate": 0.00010585510639187325,
+      "loss": 4.3045,
+      "num_input_tokens_seen": 1061654528,
+      "step": 8100
+    },
+    {
+      "epoch": 1.0343854809892488,
+      "grad_norm": 2.3852617740631104,
+      "learning_rate": 0.00010485180385435392,
+      "loss": 4.3033,
+      "num_input_tokens_seen": 1081315328,
+      "step": 8250
+    },
+    {
+      "epoch": 1.0531924897345077,
+      "grad_norm": 2.6390843391418457,
+      "learning_rate": 0.00010384850131683457,
+      "loss": 4.2792,
+      "num_input_tokens_seen": 1100976128,
+      "step": 8400
+    },
+    {
+      "epoch": 1.0719994984797667,
+      "grad_norm": 2.5094408988952637,
+      "learning_rate": 0.00010284519877931526,
+      "loss": 4.2826,
+      "num_input_tokens_seen": 1120636928,
+      "step": 8550
+    },
+    {
+      "epoch": 1.090806507225026,
+      "grad_norm": 2.564629554748535,
+      "learning_rate": 0.00010184858492537939,
+      "loss": 4.2866,
+      "num_input_tokens_seen": 1140297728,
+      "step": 8700
+    },
+    {
+      "epoch": 1.109613515970285,
+      "grad_norm": 2.6148977279663086,
+      "learning_rate": 0.00010084528238786004,
+      "loss": 4.2614,
+      "num_input_tokens_seen": 1159958528,
+      "step": 8850
+    },
+    {
+      "epoch": 1.128420524715544,
+      "grad_norm": 2.5449106693267822,
+      "learning_rate": 9.984197985034071e-05,
+      "loss": 4.2622,
+      "num_input_tokens_seen": 1179619328,
+      "step": 9000
+    },
+    {
+      "epoch": 1.147227533460803,
+      "grad_norm": 2.903010129928589,
+      "learning_rate": 9.883867731282138e-05,
+      "loss": 4.2427,
+      "num_input_tokens_seen": 1199280128,
+      "step": 9150
+    },
+    {
+      "epoch": 1.166034542206062,
+      "grad_norm": 2.6503586769104004,
+      "learning_rate": 9.783537477530203e-05,
+      "loss": 4.2433,
+      "num_input_tokens_seen": 1218940928,
+      "step": 9300
+    },
+    {
+      "epoch": 1.1848415509513213,
+      "grad_norm": 2.6648051738739014,
+      "learning_rate": 9.68320722377827e-05,
+      "loss": 4.223,
+      "num_input_tokens_seen": 1238601728,
+      "step": 9450
+    },
+    {
+      "epoch": 1.2036485596965802,
+      "grad_norm": 2.688499689102173,
+      "learning_rate": 9.582876970026338e-05,
+      "loss": 4.2232,
+      "num_input_tokens_seen": 1258262528,
+      "step": 9600
+    },
+    {
+      "epoch": 1.2224555684418394,
+      "grad_norm": 2.5007975101470947,
+      "learning_rate": 9.482546716274404e-05,
+      "loss": 4.2098,
+      "num_input_tokens_seen": 1277923328,
+      "step": 9750
+    },
+    {
+      "epoch": 1.2412625771870984,
+      "grad_norm": 2.682922124862671,
+      "learning_rate": 9.38221646252247e-05,
+      "loss": 4.2144,
+      "num_input_tokens_seen": 1297584128,
+      "step": 9900
+    },
+    {
+      "epoch": 1.2600695859323574,
+      "grad_norm": 2.683807611465454,
+      "learning_rate": 9.281886208770537e-05,
+      "loss": 4.1964,
+      "num_input_tokens_seen": 1317244928,
+      "step": 10050
+    },
+    {
+      "epoch": 1.2788765946776166,
+      "grad_norm": 2.7165095806121826,
+      "learning_rate": 9.181555955018603e-05,
+      "loss": 4.1939,
+      "num_input_tokens_seen": 1336905728,
+      "step": 10200
+    },
+    {
+      "epoch": 1.2976836034228756,
+      "grad_norm": 2.791292667388916,
+      "learning_rate": 9.081225701266671e-05,
+      "loss": 4.1796,
+      "num_input_tokens_seen": 1356566528,
+      "step": 10350
+    },
+    {
+      "epoch": 1.3164906121681348,
+      "grad_norm": 2.750148057937622,
+      "learning_rate": 8.980895447514737e-05,
+      "loss": 4.1778,
+      "num_input_tokens_seen": 1376227328,
+      "step": 10500
+    },
+    {
+      "epoch": 1.3352976209133938,
+      "grad_norm": 2.673332929611206,
+      "learning_rate": 8.880565193762803e-05,
+      "loss": 4.1669,
+      "num_input_tokens_seen": 1395888128,
+      "step": 10650
+    },
+    {
+      "epoch": 1.3541046296586527,
+      "grad_norm": 2.8640031814575195,
+      "learning_rate": 8.780903808369216e-05,
+      "loss": 4.167,
+      "num_input_tokens_seen": 1415548928,
+      "step": 10800
+    },
+    {
+      "epoch": 1.3729116384039117,
+      "grad_norm": 2.737783432006836,
+      "learning_rate": 8.680573554617283e-05,
+      "loss": 4.1697,
+      "num_input_tokens_seen": 1435209728,
+      "step": 10950
+    },
+    {
+      "epoch": 1.391718647149171,
+      "grad_norm": 2.7067887783050537,
+      "learning_rate": 8.580243300865349e-05,
+      "loss": 4.1542,
+      "num_input_tokens_seen": 1454870528,
+      "step": 11100
+    },
+    {
+      "epoch": 1.41052565589443,
+      "grad_norm": 2.843256711959839,
+      "learning_rate": 8.479913047113415e-05,
+      "loss": 4.1566,
+      "num_input_tokens_seen": 1474531328,
+      "step": 11250
+    },
+    {
+      "epoch": 1.429332664639689,
+      "grad_norm": 2.783827543258667,
+      "learning_rate": 8.379582793361483e-05,
+      "loss": 4.1527,
+      "num_input_tokens_seen": 1494192128,
+      "step": 11400
+    },
+    {
+      "epoch": 1.448139673384948,
+      "grad_norm": 2.912080764770508,
+      "learning_rate": 8.279252539609549e-05,
+      "loss": 4.1308,
+      "num_input_tokens_seen": 1513852928,
+      "step": 11550
+    },
+    {
+      "epoch": 1.466946682130207,
+      "grad_norm": 2.7934062480926514,
+      "learning_rate": 8.178922285857616e-05,
+      "loss": 4.134,
+      "num_input_tokens_seen": 1533513728,
+      "step": 11700
+    },
+    {
+      "epoch": 1.4857536908754663,
+      "grad_norm": 3.1042609214782715,
+      "learning_rate": 8.078592032105681e-05,
+      "loss": 4.1365,
+      "num_input_tokens_seen": 1553174528,
+      "step": 11850
+    },
+    {
+      "epoch": 1.5045606996207255,
+      "grad_norm": 3.0361480712890625,
+      "learning_rate": 7.978261778353748e-05,
+      "loss": 4.1343,
+      "num_input_tokens_seen": 1572835328,
+      "step": 12000
     }
   ],
   "logging_steps": 150,
   "max_steps": 23925,
+  "num_input_tokens_seen": 1572835328,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 2.428558407892992e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cde99b26e6ad0be4341c488ddc29911f5c5e44dd52e53c785a43dc3f89cfc61e
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e1abd80795eaf5b1bdba294c57094293cff0723779ae399c08b79b9b31e5ed2
 size 5112