Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +393 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3bdd31848289a0579c8d938f83d9aa2c79d7376eb33a9f734b7580e4c7abc03
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:17ba270b888a201fead48ad37c2c2e228e832cc5e2304c9d48ddcc2a4ab95b9d
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b763425d9fd22fe996ab8b1879038cdbd99d1f1e8fd06082bf71de44f3876eb0
 size 591203178

 version https://git-lfs.github.com/spec/v1
+oid sha256:94ad12c53cb7962a72e2d80a27249286394dc06a5b1f83bd4257087da8221ea0
 size 591203178

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c062f7f375beded48b5337f5a3f3a5cb38807fa3e85dbf3e294c0ab6b627bfc2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5edb34d031c0c2b447f3eaadb401a4c1e7e7e6d8c096e28b7092e01a8bd48c92
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fa6230140a4b6b6dc7109e0de23ef0ecf8212f6adf804ca0ad2c134b70f1b5e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7a13d6eba883692f8ed583bb8ce176c7e7a1118cd4c39d5498dbe981adfa197
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.35727045373347627,
   "eval_steps": 100,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -397,6 +397,396 @@
       "eval_news_finetune_val_samples_per_second": 1.396,
       "eval_news_finetune_val_steps_per_second": 1.396,
       "step": 500
     }
   ],
   "logging_steps": 10,
@@ -416,7 +806,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.392907957026816e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7145409074669525,
   "eval_steps": 100,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_news_finetune_val_samples_per_second": 1.396,
       "eval_news_finetune_val_steps_per_second": 1.396,
       "step": 500
+    },
+    {
+      "epoch": 0.36441586280814575,
+      "grad_norm": 1.282714605331421,
+      "learning_rate": 9.985996777749747e-05,
+      "loss": 0.3636,
+      "step": 510
+    },
+    {
+      "epoch": 0.3715612718828153,
+      "grad_norm": 2.0360989570617676,
+      "learning_rate": 9.982713965133122e-05,
+      "loss": 0.4467,
+      "step": 520
+    },
+    {
+      "epoch": 0.37870668095748483,
+      "grad_norm": 1.7432626485824585,
+      "learning_rate": 9.979086430335417e-05,
+      "loss": 0.3875,
+      "step": 530
+    },
+    {
+      "epoch": 0.3858520900321543,
+      "grad_norm": 1.6053438186645508,
+      "learning_rate": 9.975114424322609e-05,
+      "loss": 0.3646,
+      "step": 540
+    },
+    {
+      "epoch": 0.39299749910682386,
+      "grad_norm": 1.2323070764541626,
+      "learning_rate": 9.970798221892452e-05,
+      "loss": 0.353,
+      "step": 550
+    },
+    {
+      "epoch": 0.4001429081814934,
+      "grad_norm": 1.16932213306427,
+      "learning_rate": 9.966138121655445e-05,
+      "loss": 0.331,
+      "step": 560
+    },
+    {
+      "epoch": 0.40728831725616294,
+      "grad_norm": 1.8134998083114624,
+      "learning_rate": 9.961134446014184e-05,
+      "loss": 0.3132,
+      "step": 570
+    },
+    {
+      "epoch": 0.4144337263308324,
+      "grad_norm": 1.4292124509811401,
+      "learning_rate": 9.955787541141055e-05,
+      "loss": 0.3017,
+      "step": 580
+    },
+    {
+      "epoch": 0.42157913540550196,
+      "grad_norm": 1.4605034589767456,
+      "learning_rate": 9.950097776954284e-05,
+      "loss": 0.3596,
+      "step": 590
+    },
+    {
+      "epoch": 0.4287245444801715,
+      "grad_norm": 1.2365972995758057,
+      "learning_rate": 9.944065547092345e-05,
+      "loss": 0.3399,
+      "step": 600
+    },
+    {
+      "epoch": 0.4287245444801715,
+      "eval_news_finetune_val_loss": 0.36549311876296997,
+      "eval_news_finetune_val_runtime": 1002.8044,
+      "eval_news_finetune_val_samples_per_second": 1.396,
+      "eval_news_finetune_val_steps_per_second": 1.396,
+      "step": 600
+    },
+    {
+      "epoch": 0.43586995355484104,
+      "grad_norm": 1.0590678453445435,
+      "learning_rate": 9.937691268886725e-05,
+      "loss": 0.3747,
+      "step": 610
+    },
+    {
+      "epoch": 0.4430153626295105,
+      "grad_norm": 0.9111473560333252,
+      "learning_rate": 9.930975383333056e-05,
+      "loss": 0.2868,
+      "step": 620
+    },
+    {
+      "epoch": 0.45016077170418006,
+      "grad_norm": 2.0456018447875977,
+      "learning_rate": 9.923918355060599e-05,
+      "loss": 0.3289,
+      "step": 630
+    },
+    {
+      "epoch": 0.4573061807788496,
+      "grad_norm": 1.5998501777648926,
+      "learning_rate": 9.916520672300107e-05,
+      "loss": 0.3664,
+      "step": 640
+    },
+    {
+      "epoch": 0.4644515898535191,
+      "grad_norm": 1.0773181915283203,
+      "learning_rate": 9.908782846850037e-05,
+      "loss": 0.3432,
+      "step": 650
+    },
+    {
+      "epoch": 0.4715969989281886,
+      "grad_norm": 1.244042158126831,
+      "learning_rate": 9.900705414041154e-05,
+      "loss": 0.3242,
+      "step": 660
+    },
+    {
+      "epoch": 0.47874240800285817,
+      "grad_norm": 1.8120310306549072,
+      "learning_rate": 9.892288932699484e-05,
+      "loss": 0.317,
+      "step": 670
+    },
+    {
+      "epoch": 0.4858878170775277,
+      "grad_norm": 0.7863224148750305,
+      "learning_rate": 9.883533985107663e-05,
+      "loss": 0.322,
+      "step": 680
+    },
+    {
+      "epoch": 0.4930332261521972,
+      "grad_norm": 1.223832130432129,
+      "learning_rate": 9.874441176964642e-05,
+      "loss": 0.343,
+      "step": 690
+    },
+    {
+      "epoch": 0.5001786352268668,
+      "grad_norm": 0.9870743155479431,
+      "learning_rate": 9.865011137343787e-05,
+      "loss": 0.3278,
+      "step": 700
+    },
+    {
+      "epoch": 0.5001786352268668,
+      "eval_news_finetune_val_loss": 0.35386842489242554,
+      "eval_news_finetune_val_runtime": 1003.4109,
+      "eval_news_finetune_val_samples_per_second": 1.395,
+      "eval_news_finetune_val_steps_per_second": 1.395,
+      "step": 700
+    },
+    {
+      "epoch": 0.5073240443015362,
+      "grad_norm": 1.3699963092803955,
+      "learning_rate": 9.85524451864936e-05,
+      "loss": 0.3902,
+      "step": 710
+    },
+    {
+      "epoch": 0.5144694533762058,
+      "grad_norm": 1.7188071012496948,
+      "learning_rate": 9.845141996571384e-05,
+      "loss": 0.369,
+      "step": 720
+    },
+    {
+      "epoch": 0.5216148624508753,
+      "grad_norm": 0.4889034628868103,
+      "learning_rate": 9.834704270038888e-05,
+      "loss": 0.3174,
+      "step": 730
+    },
+    {
+      "epoch": 0.5287602715255448,
+      "grad_norm": 0.8782143592834473,
+      "learning_rate": 9.823932061171561e-05,
+      "loss": 0.3501,
+      "step": 740
+    },
+    {
+      "epoch": 0.5359056806002144,
+      "grad_norm": 2.4089126586914062,
+      "learning_rate": 9.812826115229789e-05,
+      "loss": 0.3292,
+      "step": 750
+    },
+    {
+      "epoch": 0.5430510896748839,
+      "grad_norm": 1.6382787227630615,
+      "learning_rate": 9.801387200563096e-05,
+      "loss": 0.459,
+      "step": 760
+    },
+    {
+      "epoch": 0.5501964987495535,
+      "grad_norm": 1.443916916847229,
+      "learning_rate": 9.789616108556992e-05,
+      "loss": 0.3409,
+      "step": 770
+    },
+    {
+      "epoch": 0.5573419078242229,
+      "grad_norm": 1.632278323173523,
+      "learning_rate": 9.77751365357821e-05,
+      "loss": 0.281,
+      "step": 780
+    },
+    {
+      "epoch": 0.5644873168988924,
+      "grad_norm": 2.1452109813690186,
+      "learning_rate": 9.765080672918374e-05,
+      "loss": 0.3511,
+      "step": 790
+    },
+    {
+      "epoch": 0.571632725973562,
+      "grad_norm": 1.2721842527389526,
+      "learning_rate": 9.752318026736078e-05,
+      "loss": 0.2298,
+      "step": 800
+    },
+    {
+      "epoch": 0.571632725973562,
+      "eval_news_finetune_val_loss": 0.34554028511047363,
+      "eval_news_finetune_val_runtime": 1003.3342,
+      "eval_news_finetune_val_samples_per_second": 1.395,
+      "eval_news_finetune_val_steps_per_second": 1.395,
+      "step": 800
+    },
+    {
+      "epoch": 0.5787781350482315,
+      "grad_norm": 2.5264174938201904,
+      "learning_rate": 9.739226597997359e-05,
+      "loss": 0.3214,
+      "step": 810
+    },
+    {
+      "epoch": 0.585923544122901,
+      "grad_norm": 1.4553183317184448,
+      "learning_rate": 9.725807292414629e-05,
+      "loss": 0.2697,
+      "step": 820
+    },
+    {
+      "epoch": 0.5930689531975706,
+      "grad_norm": 2.2111873626708984,
+      "learning_rate": 9.712061038384002e-05,
+      "loss": 0.3315,
+      "step": 830
+    },
+    {
+      "epoch": 0.6002143622722401,
+      "grad_norm": 1.4308302402496338,
+      "learning_rate": 9.697988786921071e-05,
+      "loss": 0.4036,
+      "step": 840
+    },
+    {
+      "epoch": 0.6073597713469097,
+      "grad_norm": 1.8136054277420044,
+      "learning_rate": 9.683591511595107e-05,
+      "loss": 0.2946,
+      "step": 850
+    },
+    {
+      "epoch": 0.6145051804215791,
+      "grad_norm": 1.8586084842681885,
+      "learning_rate": 9.668870208461713e-05,
+      "loss": 0.2259,
+      "step": 860
+    },
+    {
+      "epoch": 0.6216505894962486,
+      "grad_norm": 1.1640444993972778,
+      "learning_rate": 9.653825895993908e-05,
+      "loss": 0.4,
+      "step": 870
+    },
+    {
+      "epoch": 0.6287959985709182,
+      "grad_norm": 1.386013388633728,
+      "learning_rate": 9.63845961501166e-05,
+      "loss": 0.2804,
+      "step": 880
+    },
+    {
+      "epoch": 0.6359414076455877,
+      "grad_norm": 2.1413650512695312,
+      "learning_rate": 9.622772428609887e-05,
+      "loss": 0.3593,
+      "step": 890
+    },
+    {
+      "epoch": 0.6430868167202572,
+      "grad_norm": 1.5462217330932617,
+      "learning_rate": 9.606765422084908e-05,
+      "loss": 0.3058,
+      "step": 900
+    },
+    {
+      "epoch": 0.6430868167202572,
+      "eval_news_finetune_val_loss": 0.3292103707790375,
+      "eval_news_finetune_val_runtime": 1003.4558,
+      "eval_news_finetune_val_samples_per_second": 1.395,
+      "eval_news_finetune_val_steps_per_second": 1.395,
+      "step": 900
+    },
+    {
+      "epoch": 0.6502322257949268,
+      "grad_norm": 1.0373942852020264,
+      "learning_rate": 9.590439702859351e-05,
+      "loss": 0.3318,
+      "step": 910
+    },
+    {
+      "epoch": 0.6573776348695963,
+      "grad_norm": 1.2724213600158691,
+      "learning_rate": 9.573796400405544e-05,
+      "loss": 0.3328,
+      "step": 920
+    },
+    {
+      "epoch": 0.6645230439442658,
+      "grad_norm": 0.8528966903686523,
+      "learning_rate": 9.55683666616737e-05,
+      "loss": 0.2673,
+      "step": 930
+    },
+    {
+      "epoch": 0.6716684530189353,
+      "grad_norm": 1.65499746799469,
+      "learning_rate": 9.539561673480612e-05,
+      "loss": 0.3538,
+      "step": 940
+    },
+    {
+      "epoch": 0.6788138620936048,
+      "grad_norm": 2.341379404067993,
+      "learning_rate": 9.521972617491767e-05,
+      "loss": 0.3228,
+      "step": 950
+    },
+    {
+      "epoch": 0.6859592711682744,
+      "grad_norm": 1.4938244819641113,
+      "learning_rate": 9.504070715075372e-05,
+      "loss": 0.3974,
+      "step": 960
+    },
+    {
+      "epoch": 0.6931046802429439,
+      "grad_norm": 1.0390361547470093,
+      "learning_rate": 9.485857204749811e-05,
+      "loss": 0.3236,
+      "step": 970
+    },
+    {
+      "epoch": 0.7002500893176135,
+      "grad_norm": 3.8845393657684326,
+      "learning_rate": 9.467333346591632e-05,
+      "loss": 0.3027,
+      "step": 980
+    },
+    {
+      "epoch": 0.707395498392283,
+      "grad_norm": 1.3295674324035645,
+      "learning_rate": 9.448500422148364e-05,
+      "loss": 0.3005,
+      "step": 990
+    },
+    {
+      "epoch": 0.7145409074669525,
+      "grad_norm": 1.0146369934082031,
+      "learning_rate": 9.429359734349863e-05,
+      "loss": 0.294,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7145409074669525,
+      "eval_news_finetune_val_loss": 0.3208242654800415,
+      "eval_news_finetune_val_runtime": 1003.2491,
+      "eval_news_finetune_val_samples_per_second": 1.395,
+      "eval_news_finetune_val_steps_per_second": 1.395,
+      "step": 1000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.760906963972096e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null