Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

.gitattributes +1 -0
adapter_config.json +26 -0
adapter_model.safetensors +3 -0
checkpoint-2038/adapter_config.json +26 -0
checkpoint-2038/adapter_model.safetensors +3 -0
checkpoint-2038/optimizer.pt +3 -0
checkpoint-2038/rng_state.pth +3 -0
checkpoint-2038/scheduler.pt +3 -0
checkpoint-2038/trainer_state.json +1774 -0
checkpoint-2038/training_args.bin +3 -0
git_hash.txt +1 -0
preprocessor_config.json +25 -0
special_tokens_map.json +39 -0
tokenizer.json +3 -0
tokenizer_config.json +0 -0
training_config.yml +42 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "google/paligemma-3b-ft-ocrvqa-224",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_lora_weights": "gaussian",
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "(.*(language_model).*(down_proj|gate_proj|up_proj|k_proj|q_proj|v_proj|o_proj).*$|.*(custom_text_proj).*$)",
+  "task_type": "FEATURE_EXTRACTION",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64a4d0d1f5e613119f032fbc4a3b6a0d62aaee2634abf22f6b6ad2bc84859593
+size 78625112

checkpoint-2038/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "google/paligemma-3b-ft-ocrvqa-224",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_lora_weights": "gaussian",
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "(.*(language_model).*(down_proj|gate_proj|up_proj|k_proj|q_proj|v_proj|o_proj).*$|.*(custom_text_proj).*$)",
+  "task_type": "FEATURE_EXTRACTION",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-2038/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64a4d0d1f5e613119f032fbc4a3b6a0d62aaee2634abf22f6b6ad2bc84859593
+size 78625112

checkpoint-2038/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:978ec9ed25c8ea6730d56610c8a2578b214830c406b61921287cc49a444dcba7
+size 157385722

checkpoint-2038/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:906c2ebcdd63712eb93ba4d5ca89b84214a092db8695e20fb9dba7a51ee94810
+size 14244

checkpoint-2038/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:710f1e838b86ac5bb44884b1d784027122ce88b38e3dac79571ad7a4758c4f9f
+size 1064

checkpoint-2038/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1774 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 50,
+  "global_step": 2038,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004906771344455349,
+      "grad_norm": 0.1728515625,
+      "learning_rate": 5e-06,
+      "loss": 0.6955,
+      "step": 10
+    },
+    {
+      "epoch": 0.009813542688910697,
+      "grad_norm": 0.291015625,
+      "learning_rate": 1e-05,
+      "loss": 0.6952,
+      "step": 20
+    },
+    {
+      "epoch": 0.014720314033366046,
+      "grad_norm": 0.25,
+      "learning_rate": 1.5e-05,
+      "loss": 0.6964,
+      "step": 30
+    },
+    {
+      "epoch": 0.019627085377821395,
+      "grad_norm": 0.212890625,
+      "learning_rate": 2e-05,
+      "loss": 0.6966,
+      "step": 40
+    },
+    {
+      "epoch": 0.02453385672227674,
+      "grad_norm": 0.302734375,
+      "learning_rate": 2.5e-05,
+      "loss": 0.6944,
+      "step": 50
+    },
+    {
+      "epoch": 0.02453385672227674,
+      "eval_loss": 0.6937512159347534,
+      "eval_runtime": 28.3512,
+      "eval_samples_per_second": 7.054,
+      "eval_steps_per_second": 1.764,
+      "step": 50
+    },
+    {
+      "epoch": 0.029440628066732092,
+      "grad_norm": 0.2353515625,
+      "learning_rate": 3e-05,
+      "loss": 0.6944,
+      "step": 60
+    },
+    {
+      "epoch": 0.03434739941118744,
+      "grad_norm": 0.14453125,
+      "learning_rate": 3.5e-05,
+      "loss": 0.694,
+      "step": 70
+    },
+    {
+      "epoch": 0.03925417075564279,
+      "grad_norm": 0.26953125,
+      "learning_rate": 4e-05,
+      "loss": 0.6938,
+      "step": 80
+    },
+    {
+      "epoch": 0.04416094210009813,
+      "grad_norm": 0.279296875,
+      "learning_rate": 4.5e-05,
+      "loss": 0.6928,
+      "step": 90
+    },
+    {
+      "epoch": 0.04906771344455348,
+      "grad_norm": 0.2490234375,
+      "learning_rate": 5e-05,
+      "loss": 0.6928,
+      "step": 100
+    },
+    {
+      "epoch": 0.04906771344455348,
+      "eval_loss": 0.6929062008857727,
+      "eval_runtime": 28.6139,
+      "eval_samples_per_second": 6.99,
+      "eval_steps_per_second": 1.747,
+      "step": 100
+    },
+    {
+      "epoch": 0.053974484789008834,
+      "grad_norm": 0.296875,
+      "learning_rate": 4.974200206398349e-05,
+      "loss": 0.692,
+      "step": 110
+    },
+    {
+      "epoch": 0.058881256133464184,
+      "grad_norm": 0.33984375,
+      "learning_rate": 4.948400412796697e-05,
+      "loss": 0.6924,
+      "step": 120
+    },
+    {
+      "epoch": 0.06378802747791953,
+      "grad_norm": 0.3359375,
+      "learning_rate": 4.922600619195047e-05,
+      "loss": 0.6921,
+      "step": 130
+    },
+    {
+      "epoch": 0.06869479882237488,
+      "grad_norm": 0.267578125,
+      "learning_rate": 4.896800825593396e-05,
+      "loss": 0.6927,
+      "step": 140
+    },
+    {
+      "epoch": 0.07360157016683022,
+      "grad_norm": 0.2236328125,
+      "learning_rate": 4.8710010319917446e-05,
+      "loss": 0.6914,
+      "step": 150
+    },
+    {
+      "epoch": 0.07360157016683022,
+      "eval_loss": 0.6915245056152344,
+      "eval_runtime": 28.6003,
+      "eval_samples_per_second": 6.993,
+      "eval_steps_per_second": 1.748,
+      "step": 150
+    },
+    {
+      "epoch": 0.07850834151128558,
+      "grad_norm": 0.345703125,
+      "learning_rate": 4.845201238390093e-05,
+      "loss": 0.6923,
+      "step": 160
+    },
+    {
+      "epoch": 0.08341511285574092,
+      "grad_norm": 0.3046875,
+      "learning_rate": 4.819401444788442e-05,
+      "loss": 0.6893,
+      "step": 170
+    },
+    {
+      "epoch": 0.08832188420019627,
+      "grad_norm": 0.28125,
+      "learning_rate": 4.793601651186791e-05,
+      "loss": 0.6865,
+      "step": 180
+    },
+    {
+      "epoch": 0.09322865554465162,
+      "grad_norm": 0.43359375,
+      "learning_rate": 4.7678018575851394e-05,
+      "loss": 0.6877,
+      "step": 190
+    },
+    {
+      "epoch": 0.09813542688910697,
+      "grad_norm": 0.42578125,
+      "learning_rate": 4.742002063983488e-05,
+      "loss": 0.6852,
+      "step": 200
+    },
+    {
+      "epoch": 0.09813542688910697,
+      "eval_loss": 0.6849114894866943,
+      "eval_runtime": 28.416,
+      "eval_samples_per_second": 7.038,
+      "eval_steps_per_second": 1.76,
+      "step": 200
+    },
+    {
+      "epoch": 0.10304219823356231,
+      "grad_norm": 0.39453125,
+      "learning_rate": 4.716202270381837e-05,
+      "loss": 0.6767,
+      "step": 210
+    },
+    {
+      "epoch": 0.10794896957801767,
+      "grad_norm": 0.45703125,
+      "learning_rate": 4.690402476780186e-05,
+      "loss": 0.6804,
+      "step": 220
+    },
+    {
+      "epoch": 0.11285574092247301,
+      "grad_norm": 0.78125,
+      "learning_rate": 4.664602683178535e-05,
+      "loss": 0.6814,
+      "step": 230
+    },
+    {
+      "epoch": 0.11776251226692837,
+      "grad_norm": 2.046875,
+      "learning_rate": 4.638802889576884e-05,
+      "loss": 0.6586,
+      "step": 240
+    },
+    {
+      "epoch": 0.12266928361138371,
+      "grad_norm": 1.828125,
+      "learning_rate": 4.613003095975233e-05,
+      "loss": 0.6478,
+      "step": 250
+    },
+    {
+      "epoch": 0.12266928361138371,
+      "eval_loss": 0.6532555222511292,
+      "eval_runtime": 28.4259,
+      "eval_samples_per_second": 7.036,
+      "eval_steps_per_second": 1.759,
+      "step": 250
+    },
+    {
+      "epoch": 0.12757605495583907,
+      "grad_norm": 1.90625,
+      "learning_rate": 4.587203302373581e-05,
+      "loss": 0.6473,
+      "step": 260
+    },
+    {
+      "epoch": 0.1324828263002944,
+      "grad_norm": 1.84375,
+      "learning_rate": 4.56140350877193e-05,
+      "loss": 0.6397,
+      "step": 270
+    },
+    {
+      "epoch": 0.13738959764474976,
+      "grad_norm": 2.046875,
+      "learning_rate": 4.535603715170279e-05,
+      "loss": 0.6243,
+      "step": 280
+    },
+    {
+      "epoch": 0.1422963689892051,
+      "grad_norm": 1.640625,
+      "learning_rate": 4.5098039215686275e-05,
+      "loss": 0.6304,
+      "step": 290
+    },
+    {
+      "epoch": 0.14720314033366044,
+      "grad_norm": 1.84375,
+      "learning_rate": 4.4840041279669764e-05,
+      "loss": 0.6278,
+      "step": 300
+    },
+    {
+      "epoch": 0.14720314033366044,
+      "eval_loss": 0.6153883337974548,
+      "eval_runtime": 28.6968,
+      "eval_samples_per_second": 6.969,
+      "eval_steps_per_second": 1.742,
+      "step": 300
+    },
+    {
+      "epoch": 0.1521099116781158,
+      "grad_norm": 1.5,
+      "learning_rate": 4.458204334365325e-05,
+      "loss": 0.6067,
+      "step": 310
+    },
+    {
+      "epoch": 0.15701668302257116,
+      "grad_norm": 1.7734375,
+      "learning_rate": 4.432404540763674e-05,
+      "loss": 0.5956,
+      "step": 320
+    },
+    {
+      "epoch": 0.1619234543670265,
+      "grad_norm": 1.640625,
+      "learning_rate": 4.406604747162023e-05,
+      "loss": 0.6263,
+      "step": 330
+    },
+    {
+      "epoch": 0.16683022571148184,
+      "grad_norm": 1.5,
+      "learning_rate": 4.380804953560372e-05,
+      "loss": 0.5947,
+      "step": 340
+    },
+    {
+      "epoch": 0.1717369970559372,
+      "grad_norm": 1.0390625,
+      "learning_rate": 4.355005159958721e-05,
+      "loss": 0.609,
+      "step": 350
+    },
+    {
+      "epoch": 0.1717369970559372,
+      "eval_loss": 0.6010438799858093,
+      "eval_runtime": 28.6965,
+      "eval_samples_per_second": 6.969,
+      "eval_steps_per_second": 1.742,
+      "step": 350
+    },
+    {
+      "epoch": 0.17664376840039253,
+      "grad_norm": 1.90625,
+      "learning_rate": 4.329205366357069e-05,
+      "loss": 0.5948,
+      "step": 360
+    },
+    {
+      "epoch": 0.1815505397448479,
+      "grad_norm": 1.546875,
+      "learning_rate": 4.303405572755418e-05,
+      "loss": 0.6043,
+      "step": 370
+    },
+    {
+      "epoch": 0.18645731108930325,
+      "grad_norm": 1.71875,
+      "learning_rate": 4.2776057791537674e-05,
+      "loss": 0.5791,
+      "step": 380
+    },
+    {
+      "epoch": 0.19136408243375858,
+      "grad_norm": 1.2109375,
+      "learning_rate": 4.2518059855521156e-05,
+      "loss": 0.56,
+      "step": 390
+    },
+    {
+      "epoch": 0.19627085377821393,
+      "grad_norm": 1.7734375,
+      "learning_rate": 4.2260061919504645e-05,
+      "loss": 0.5801,
+      "step": 400
+    },
+    {
+      "epoch": 0.19627085377821393,
+      "eval_loss": 0.5847232937812805,
+      "eval_runtime": 28.6639,
+      "eval_samples_per_second": 6.977,
+      "eval_steps_per_second": 1.744,
+      "step": 400
+    },
+    {
+      "epoch": 0.2011776251226693,
+      "grad_norm": 1.703125,
+      "learning_rate": 4.200206398348813e-05,
+      "loss": 0.5517,
+      "step": 410
+    },
+    {
+      "epoch": 0.20608439646712462,
+      "grad_norm": 1.296875,
+      "learning_rate": 4.174406604747162e-05,
+      "loss": 0.5799,
+      "step": 420
+    },
+    {
+      "epoch": 0.21099116781157998,
+      "grad_norm": 1.1953125,
+      "learning_rate": 4.148606811145511e-05,
+      "loss": 0.54,
+      "step": 430
+    },
+    {
+      "epoch": 0.21589793915603533,
+      "grad_norm": 3.859375,
+      "learning_rate": 4.12280701754386e-05,
+      "loss": 0.5591,
+      "step": 440
+    },
+    {
+      "epoch": 0.22080471050049066,
+      "grad_norm": 1.1484375,
+      "learning_rate": 4.097007223942209e-05,
+      "loss": 0.5558,
+      "step": 450
+    },
+    {
+      "epoch": 0.22080471050049066,
+      "eval_loss": 0.5724604725837708,
+      "eval_runtime": 28.6438,
+      "eval_samples_per_second": 6.982,
+      "eval_steps_per_second": 1.746,
+      "step": 450
+    },
+    {
+      "epoch": 0.22571148184494602,
+      "grad_norm": 1.2265625,
+      "learning_rate": 4.071207430340557e-05,
+      "loss": 0.6203,
+      "step": 460
+    },
+    {
+      "epoch": 0.23061825318940138,
+      "grad_norm": 1.5234375,
+      "learning_rate": 4.0454076367389066e-05,
+      "loss": 0.5813,
+      "step": 470
+    },
+    {
+      "epoch": 0.23552502453385674,
+      "grad_norm": 2.5,
+      "learning_rate": 4.0196078431372555e-05,
+      "loss": 0.5946,
+      "step": 480
+    },
+    {
+      "epoch": 0.24043179587831207,
+      "grad_norm": 1.671875,
+      "learning_rate": 3.9938080495356037e-05,
+      "loss": 0.5635,
+      "step": 490
+    },
+    {
+      "epoch": 0.24533856722276742,
+      "grad_norm": 1.3125,
+      "learning_rate": 3.9680082559339525e-05,
+      "loss": 0.5625,
+      "step": 500
+    },
+    {
+      "epoch": 0.24533856722276742,
+      "eval_loss": 0.5732089877128601,
+      "eval_runtime": 28.6521,
+      "eval_samples_per_second": 6.98,
+      "eval_steps_per_second": 1.745,
+      "step": 500
+    },
+    {
+      "epoch": 0.25024533856722275,
+      "grad_norm": 1.453125,
+      "learning_rate": 3.9422084623323014e-05,
+      "loss": 0.5378,
+      "step": 510
+    },
+    {
+      "epoch": 0.25515210991167814,
+      "grad_norm": 1.046875,
+      "learning_rate": 3.91640866873065e-05,
+      "loss": 0.5908,
+      "step": 520
+    },
+    {
+      "epoch": 0.26005888125613347,
+      "grad_norm": 1.2421875,
+      "learning_rate": 3.890608875128999e-05,
+      "loss": 0.576,
+      "step": 530
+    },
+    {
+      "epoch": 0.2649656526005888,
+      "grad_norm": 0.87109375,
+      "learning_rate": 3.864809081527348e-05,
+      "loss": 0.5248,
+      "step": 540
+    },
+    {
+      "epoch": 0.2698724239450442,
+      "grad_norm": 2.046875,
+      "learning_rate": 3.839009287925697e-05,
+      "loss": 0.5448,
+      "step": 550
+    },
+    {
+      "epoch": 0.2698724239450442,
+      "eval_loss": 0.5607851147651672,
+      "eval_runtime": 28.5118,
+      "eval_samples_per_second": 7.015,
+      "eval_steps_per_second": 1.754,
+      "step": 550
+    },
+    {
+      "epoch": 0.2747791952894995,
+      "grad_norm": 1.828125,
+      "learning_rate": 3.813209494324045e-05,
+      "loss": 0.5693,
+      "step": 560
+    },
+    {
+      "epoch": 0.27968596663395484,
+      "grad_norm": 0.65234375,
+      "learning_rate": 3.7874097007223946e-05,
+      "loss": 0.5248,
+      "step": 570
+    },
+    {
+      "epoch": 0.2845927379784102,
+      "grad_norm": 1.4453125,
+      "learning_rate": 3.7616099071207435e-05,
+      "loss": 0.5815,
+      "step": 580
+    },
+    {
+      "epoch": 0.28949950932286556,
+      "grad_norm": 1.0078125,
+      "learning_rate": 3.735810113519092e-05,
+      "loss": 0.5524,
+      "step": 590
+    },
+    {
+      "epoch": 0.2944062806673209,
+      "grad_norm": 1.3984375,
+      "learning_rate": 3.7100103199174406e-05,
+      "loss": 0.5517,
+      "step": 600
+    },
+    {
+      "epoch": 0.2944062806673209,
+      "eval_loss": 0.5586492419242859,
+      "eval_runtime": 28.5258,
+      "eval_samples_per_second": 7.011,
+      "eval_steps_per_second": 1.753,
+      "step": 600
+    },
+    {
+      "epoch": 0.29931305201177627,
+      "grad_norm": 1.375,
+      "learning_rate": 3.6842105263157895e-05,
+      "loss": 0.5308,
+      "step": 610
+    },
+    {
+      "epoch": 0.3042198233562316,
+      "grad_norm": 1.3046875,
+      "learning_rate": 3.658410732714139e-05,
+      "loss": 0.5938,
+      "step": 620
+    },
+    {
+      "epoch": 0.30912659470068693,
+      "grad_norm": 1.78125,
+      "learning_rate": 3.632610939112487e-05,
+      "loss": 0.5611,
+      "step": 630
+    },
+    {
+      "epoch": 0.3140333660451423,
+      "grad_norm": 0.74609375,
+      "learning_rate": 3.606811145510836e-05,
+      "loss": 0.5709,
+      "step": 640
+    },
+    {
+      "epoch": 0.31894013738959764,
+      "grad_norm": 0.99609375,
+      "learning_rate": 3.581011351909185e-05,
+      "loss": 0.6033,
+      "step": 650
+    },
+    {
+      "epoch": 0.31894013738959764,
+      "eval_loss": 0.564706027507782,
+      "eval_runtime": 28.5712,
+      "eval_samples_per_second": 7.0,
+      "eval_steps_per_second": 1.75,
+      "step": 650
+    },
+    {
+      "epoch": 0.323846908734053,
+      "grad_norm": 1.2578125,
+      "learning_rate": 3.555211558307533e-05,
+      "loss": 0.5123,
+      "step": 660
+    },
+    {
+      "epoch": 0.32875368007850836,
+      "grad_norm": 0.97265625,
+      "learning_rate": 3.529411764705883e-05,
+      "loss": 0.5205,
+      "step": 670
+    },
+    {
+      "epoch": 0.3336604514229637,
+      "grad_norm": 1.6953125,
+      "learning_rate": 3.5036119711042316e-05,
+      "loss": 0.5854,
+      "step": 680
+    },
+    {
+      "epoch": 0.338567222767419,
+      "grad_norm": 1.453125,
+      "learning_rate": 3.4778121775025805e-05,
+      "loss": 0.5375,
+      "step": 690
+    },
+    {
+      "epoch": 0.3434739941118744,
+      "grad_norm": 1.03125,
+      "learning_rate": 3.452012383900929e-05,
+      "loss": 0.5336,
+      "step": 700
+    },
+    {
+      "epoch": 0.3434739941118744,
+      "eval_loss": 0.5557608008384705,
+      "eval_runtime": 28.4609,
+      "eval_samples_per_second": 7.027,
+      "eval_steps_per_second": 1.757,
+      "step": 700
+    },
+    {
+      "epoch": 0.34838076545632973,
+      "grad_norm": 1.5859375,
+      "learning_rate": 3.4262125902992775e-05,
+      "loss": 0.5533,
+      "step": 710
+    },
+    {
+      "epoch": 0.35328753680078506,
+      "grad_norm": 0.8984375,
+      "learning_rate": 3.400412796697627e-05,
+      "loss": 0.5333,
+      "step": 720
+    },
+    {
+      "epoch": 0.35819430814524045,
+      "grad_norm": 1.09375,
+      "learning_rate": 3.374613003095975e-05,
+      "loss": 0.5536,
+      "step": 730
+    },
+    {
+      "epoch": 0.3631010794896958,
+      "grad_norm": 1.1171875,
+      "learning_rate": 3.348813209494324e-05,
+      "loss": 0.5448,
+      "step": 740
+    },
+    {
+      "epoch": 0.3680078508341511,
+      "grad_norm": 0.96875,
+      "learning_rate": 3.323013415892673e-05,
+      "loss": 0.532,
+      "step": 750
+    },
+    {
+      "epoch": 0.3680078508341511,
+      "eval_loss": 0.5521541833877563,
+      "eval_runtime": 28.4595,
+      "eval_samples_per_second": 7.028,
+      "eval_steps_per_second": 1.757,
+      "step": 750
+    },
+    {
+      "epoch": 0.3729146221786065,
+      "grad_norm": 0.90625,
+      "learning_rate": 3.297213622291022e-05,
+      "loss": 0.565,
+      "step": 760
+    },
+    {
+      "epoch": 0.3778213935230618,
+      "grad_norm": 1.4140625,
+      "learning_rate": 3.271413828689371e-05,
+      "loss": 0.5278,
+      "step": 770
+    },
+    {
+      "epoch": 0.38272816486751715,
+      "grad_norm": 1.3359375,
+      "learning_rate": 3.24561403508772e-05,
+      "loss": 0.5582,
+      "step": 780
+    },
+    {
+      "epoch": 0.38763493621197254,
+      "grad_norm": 0.84375,
+      "learning_rate": 3.2198142414860685e-05,
+      "loss": 0.5253,
+      "step": 790
+    },
+    {
+      "epoch": 0.39254170755642787,
+      "grad_norm": 1.4296875,
+      "learning_rate": 3.194014447884417e-05,
+      "loss": 0.5596,
+      "step": 800
+    },
+    {
+      "epoch": 0.39254170755642787,
+      "eval_loss": 0.551950216293335,
+      "eval_runtime": 28.6541,
+      "eval_samples_per_second": 6.98,
+      "eval_steps_per_second": 1.745,
+      "step": 800
+    },
+    {
+      "epoch": 0.3974484789008832,
+      "grad_norm": 1.484375,
+      "learning_rate": 3.1682146542827656e-05,
+      "loss": 0.5513,
+      "step": 810
+    },
+    {
+      "epoch": 0.4023552502453386,
+      "grad_norm": 1.21875,
+      "learning_rate": 3.142414860681115e-05,
+      "loss": 0.5023,
+      "step": 820
+    },
+    {
+      "epoch": 0.4072620215897939,
+      "grad_norm": 1.109375,
+      "learning_rate": 3.1166150670794634e-05,
+      "loss": 0.5519,
+      "step": 830
+    },
+    {
+      "epoch": 0.41216879293424924,
+      "grad_norm": 1.3984375,
+      "learning_rate": 3.090815273477812e-05,
+      "loss": 0.51,
+      "step": 840
+    },
+    {
+      "epoch": 0.4170755642787046,
+      "grad_norm": 1.0859375,
+      "learning_rate": 3.065015479876161e-05,
+      "loss": 0.5496,
+      "step": 850
+    },
+    {
+      "epoch": 0.4170755642787046,
+      "eval_loss": 0.5526400208473206,
+      "eval_runtime": 28.572,
+      "eval_samples_per_second": 7.0,
+      "eval_steps_per_second": 1.75,
+      "step": 850
+    },
+    {
+      "epoch": 0.42198233562315995,
+      "grad_norm": 1.2265625,
+      "learning_rate": 3.0392156862745097e-05,
+      "loss": 0.5372,
+      "step": 860
+    },
+    {
+      "epoch": 0.4268891069676153,
+      "grad_norm": 1.9140625,
+      "learning_rate": 3.013415892672859e-05,
+      "loss": 0.5384,
+      "step": 870
+    },
+    {
+      "epoch": 0.43179587831207067,
+      "grad_norm": 0.99609375,
+      "learning_rate": 2.9876160990712077e-05,
+      "loss": 0.4739,
+      "step": 880
+    },
+    {
+      "epoch": 0.436702649656526,
+      "grad_norm": 1.15625,
+      "learning_rate": 2.9618163054695563e-05,
+      "loss": 0.4766,
+      "step": 890
+    },
+    {
+      "epoch": 0.44160942100098133,
+      "grad_norm": 1.7734375,
+      "learning_rate": 2.936016511867905e-05,
+      "loss": 0.5321,
+      "step": 900
+    },
+    {
+      "epoch": 0.44160942100098133,
+      "eval_loss": 0.5481389164924622,
+      "eval_runtime": 28.6453,
+      "eval_samples_per_second": 6.982,
+      "eval_steps_per_second": 1.745,
+      "step": 900
+    },
+    {
+      "epoch": 0.4465161923454367,
+      "grad_norm": 0.9453125,
+      "learning_rate": 2.9102167182662537e-05,
+      "loss": 0.5654,
+      "step": 910
+    },
+    {
+      "epoch": 0.45142296368989204,
+      "grad_norm": 1.09375,
+      "learning_rate": 2.884416924664603e-05,
+      "loss": 0.5514,
+      "step": 920
+    },
+    {
+      "epoch": 0.4563297350343474,
+      "grad_norm": 1.1875,
+      "learning_rate": 2.8586171310629518e-05,
+      "loss": 0.4833,
+      "step": 930
+    },
+    {
+      "epoch": 0.46123650637880276,
+      "grad_norm": 1.4609375,
+      "learning_rate": 2.8328173374613003e-05,
+      "loss": 0.549,
+      "step": 940
+    },
+    {
+      "epoch": 0.4661432777232581,
+      "grad_norm": 0.9453125,
+      "learning_rate": 2.8070175438596492e-05,
+      "loss": 0.5194,
+      "step": 950
+    },
+    {
+      "epoch": 0.4661432777232581,
+      "eval_loss": 0.5417376160621643,
+      "eval_runtime": 28.3949,
+      "eval_samples_per_second": 7.044,
+      "eval_steps_per_second": 1.761,
+      "step": 950
+    },
+    {
+      "epoch": 0.47105004906771347,
+      "grad_norm": 1.4296875,
+      "learning_rate": 2.7812177502579977e-05,
+      "loss": 0.5468,
+      "step": 960
+    },
+    {
+      "epoch": 0.4759568204121688,
+      "grad_norm": 0.859375,
+      "learning_rate": 2.755417956656347e-05,
+      "loss": 0.5307,
+      "step": 970
+    },
+    {
+      "epoch": 0.48086359175662413,
+      "grad_norm": 1.6640625,
+      "learning_rate": 2.7296181630546958e-05,
+      "loss": 0.5379,
+      "step": 980
+    },
+    {
+      "epoch": 0.4857703631010795,
+      "grad_norm": 1.8828125,
+      "learning_rate": 2.7038183694530443e-05,
+      "loss": 0.5197,
+      "step": 990
+    },
+    {
+      "epoch": 0.49067713444553485,
+      "grad_norm": 1.265625,
+      "learning_rate": 2.6780185758513932e-05,
+      "loss": 0.5557,
+      "step": 1000
+    },
+    {
+      "epoch": 0.49067713444553485,
+      "eval_loss": 0.5419167876243591,
+      "eval_runtime": 28.5704,
+      "eval_samples_per_second": 7.0,
+      "eval_steps_per_second": 1.75,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4955839057899902,
+      "grad_norm": 0.984375,
+      "learning_rate": 2.6522187822497424e-05,
+      "loss": 0.5121,
+      "step": 1010
+    },
+    {
+      "epoch": 0.5004906771344455,
+      "grad_norm": 1.7421875,
+      "learning_rate": 2.626418988648091e-05,
+      "loss": 0.4932,
+      "step": 1020
+    },
+    {
+      "epoch": 0.5053974484789009,
+      "grad_norm": 1.1015625,
+      "learning_rate": 2.60061919504644e-05,
+      "loss": 0.5361,
+      "step": 1030
+    },
+    {
+      "epoch": 0.5103042198233563,
+      "grad_norm": 1.1015625,
+      "learning_rate": 2.5748194014447884e-05,
+      "loss": 0.5107,
+      "step": 1040
+    },
+    {
+      "epoch": 0.5152109911678115,
+      "grad_norm": 1.359375,
+      "learning_rate": 2.5490196078431373e-05,
+      "loss": 0.5111,
+      "step": 1050
+    },
+    {
+      "epoch": 0.5152109911678115,
+      "eval_loss": 0.5413140654563904,
+      "eval_runtime": 28.49,
+      "eval_samples_per_second": 7.02,
+      "eval_steps_per_second": 1.755,
+      "step": 1050
+    },
+    {
+      "epoch": 0.5201177625122669,
+      "grad_norm": 0.57421875,
+      "learning_rate": 2.5232198142414865e-05,
+      "loss": 0.5302,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5250245338567223,
+      "grad_norm": 1.859375,
+      "learning_rate": 2.497420020639835e-05,
+      "loss": 0.5089,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5299313052011776,
+      "grad_norm": 1.78125,
+      "learning_rate": 2.471620227038184e-05,
+      "loss": 0.5451,
+      "step": 1080
+    },
+    {
+      "epoch": 0.534838076545633,
+      "grad_norm": 1.0546875,
+      "learning_rate": 2.4458204334365324e-05,
+      "loss": 0.5736,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5397448478900884,
+      "grad_norm": 1.28125,
+      "learning_rate": 2.4200206398348816e-05,
+      "loss": 0.5065,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5397448478900884,
+      "eval_loss": 0.5397326350212097,
+      "eval_runtime": 28.806,
+      "eval_samples_per_second": 6.943,
+      "eval_steps_per_second": 1.736,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5446516192345436,
+      "grad_norm": 1.046875,
+      "learning_rate": 2.39422084623323e-05,
+      "loss": 0.5719,
+      "step": 1110
+    },
+    {
+      "epoch": 0.549558390578999,
+      "grad_norm": 0.75390625,
+      "learning_rate": 2.368421052631579e-05,
+      "loss": 0.5343,
+      "step": 1120
+    },
+    {
+      "epoch": 0.5544651619234544,
+      "grad_norm": 1.6484375,
+      "learning_rate": 2.342621259029928e-05,
+      "loss": 0.523,
+      "step": 1130
+    },
+    {
+      "epoch": 0.5593719332679097,
+      "grad_norm": 0.9765625,
+      "learning_rate": 2.3168214654282765e-05,
+      "loss": 0.5345,
+      "step": 1140
+    },
+    {
+      "epoch": 0.5642787046123651,
+      "grad_norm": 0.8359375,
+      "learning_rate": 2.2910216718266257e-05,
+      "loss": 0.5264,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5642787046123651,
+      "eval_loss": 0.5375524759292603,
+      "eval_runtime": 28.5508,
+      "eval_samples_per_second": 7.005,
+      "eval_steps_per_second": 1.751,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5691854759568205,
+      "grad_norm": 0.9609375,
+      "learning_rate": 2.2652218782249742e-05,
+      "loss": 0.4863,
+      "step": 1160
+    },
+    {
+      "epoch": 0.5740922473012757,
+      "grad_norm": 1.6875,
+      "learning_rate": 2.2394220846233234e-05,
+      "loss": 0.4676,
+      "step": 1170
+    },
+    {
+      "epoch": 0.5789990186457311,
+      "grad_norm": 1.3984375,
+      "learning_rate": 2.213622291021672e-05,
+      "loss": 0.5751,
+      "step": 1180
+    },
+    {
+      "epoch": 0.5839057899901865,
+      "grad_norm": 2.15625,
+      "learning_rate": 2.1878224974200205e-05,
+      "loss": 0.5694,
+      "step": 1190
+    },
+    {
+      "epoch": 0.5888125613346418,
+      "grad_norm": 0.98828125,
+      "learning_rate": 2.1620227038183697e-05,
+      "loss": 0.5529,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5888125613346418,
+      "eval_loss": 0.5384119153022766,
+      "eval_runtime": 28.624,
+      "eval_samples_per_second": 6.987,
+      "eval_steps_per_second": 1.747,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5937193326790972,
+      "grad_norm": 1.984375,
+      "learning_rate": 2.1362229102167182e-05,
+      "loss": 0.5438,
+      "step": 1210
+    },
+    {
+      "epoch": 0.5986261040235525,
+      "grad_norm": 1.3203125,
+      "learning_rate": 2.1104231166150675e-05,
+      "loss": 0.5174,
+      "step": 1220
+    },
+    {
+      "epoch": 0.6035328753680078,
+      "grad_norm": 1.5078125,
+      "learning_rate": 2.084623323013416e-05,
+      "loss": 0.5421,
+      "step": 1230
+    },
+    {
+      "epoch": 0.6084396467124632,
+      "grad_norm": 1.234375,
+      "learning_rate": 2.058823529411765e-05,
+      "loss": 0.5427,
+      "step": 1240
+    },
+    {
+      "epoch": 0.6133464180569186,
+      "grad_norm": 0.95703125,
+      "learning_rate": 2.0330237358101137e-05,
+      "loss": 0.5356,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6133464180569186,
+      "eval_loss": 0.5382110476493835,
+      "eval_runtime": 28.6288,
+      "eval_samples_per_second": 6.986,
+      "eval_steps_per_second": 1.746,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6182531894013739,
+      "grad_norm": 1.53125,
+      "learning_rate": 2.0072239422084623e-05,
+      "loss": 0.5667,
+      "step": 1260
+    },
+    {
+      "epoch": 0.6231599607458292,
+      "grad_norm": 1.5078125,
+      "learning_rate": 1.9814241486068115e-05,
+      "loss": 0.5421,
+      "step": 1270
+    },
+    {
+      "epoch": 0.6280667320902846,
+      "grad_norm": 1.6015625,
+      "learning_rate": 1.95562435500516e-05,
+      "loss": 0.4955,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6329735034347399,
+      "grad_norm": 1.2890625,
+      "learning_rate": 1.929824561403509e-05,
+      "loss": 0.4995,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6378802747791953,
+      "grad_norm": 1.4140625,
+      "learning_rate": 1.9040247678018578e-05,
+      "loss": 0.5029,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6378802747791953,
+      "eval_loss": 0.5337280035018921,
+      "eval_runtime": 28.4662,
+      "eval_samples_per_second": 7.026,
+      "eval_steps_per_second": 1.756,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6427870461236507,
+      "grad_norm": 1.3203125,
+      "learning_rate": 1.8782249742002063e-05,
+      "loss": 0.5149,
+      "step": 1310
+    },
+    {
+      "epoch": 0.647693817468106,
+      "grad_norm": 0.91796875,
+      "learning_rate": 1.8524251805985555e-05,
+      "loss": 0.5011,
+      "step": 1320
+    },
+    {
+      "epoch": 0.6526005888125613,
+      "grad_norm": 1.2890625,
+      "learning_rate": 1.826625386996904e-05,
+      "loss": 0.5474,
+      "step": 1330
+    },
+    {
+      "epoch": 0.6575073601570167,
+      "grad_norm": 1.4375,
+      "learning_rate": 1.800825593395253e-05,
+      "loss": 0.5195,
+      "step": 1340
+    },
+    {
+      "epoch": 0.662414131501472,
+      "grad_norm": 1.375,
+      "learning_rate": 1.7750257997936018e-05,
+      "loss": 0.4843,
+      "step": 1350
+    },
+    {
+      "epoch": 0.662414131501472,
+      "eval_loss": 0.5355111360549927,
+      "eval_runtime": 28.5183,
+      "eval_samples_per_second": 7.013,
+      "eval_steps_per_second": 1.753,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6673209028459274,
+      "grad_norm": 1.4140625,
+      "learning_rate": 1.7492260061919503e-05,
+      "loss": 0.5007,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6722276741903828,
+      "grad_norm": 1.640625,
+      "learning_rate": 1.7234262125902996e-05,
+      "loss": 0.5328,
+      "step": 1370
+    },
+    {
+      "epoch": 0.677134445534838,
+      "grad_norm": 0.921875,
+      "learning_rate": 1.697626418988648e-05,
+      "loss": 0.5312,
+      "step": 1380
+    },
+    {
+      "epoch": 0.6820412168792934,
+      "grad_norm": 1.8359375,
+      "learning_rate": 1.671826625386997e-05,
+      "loss": 0.5863,
+      "step": 1390
+    },
+    {
+      "epoch": 0.6869479882237488,
+      "grad_norm": 0.87109375,
+      "learning_rate": 1.646026831785346e-05,
+      "loss": 0.5408,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6869479882237488,
+      "eval_loss": 0.5326699614524841,
+      "eval_runtime": 28.6461,
+      "eval_samples_per_second": 6.982,
+      "eval_steps_per_second": 1.745,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6918547595682041,
+      "grad_norm": 1.203125,
+      "learning_rate": 1.6202270381836944e-05,
+      "loss": 0.4963,
+      "step": 1410
+    },
+    {
+      "epoch": 0.6967615309126595,
+      "grad_norm": 1.2734375,
+      "learning_rate": 1.5944272445820436e-05,
+      "loss": 0.5244,
+      "step": 1420
+    },
+    {
+      "epoch": 0.7016683022571149,
+      "grad_norm": 1.328125,
+      "learning_rate": 1.568627450980392e-05,
+      "loss": 0.5301,
+      "step": 1430
+    },
+    {
+      "epoch": 0.7065750736015701,
+      "grad_norm": 0.8984375,
+      "learning_rate": 1.542827657378741e-05,
+      "loss": 0.4815,
+      "step": 1440
+    },
+    {
+      "epoch": 0.7114818449460255,
+      "grad_norm": 0.56640625,
+      "learning_rate": 1.5170278637770899e-05,
+      "loss": 0.5156,
+      "step": 1450
+    },
+    {
+      "epoch": 0.7114818449460255,
+      "eval_loss": 0.532850980758667,
+      "eval_runtime": 28.7098,
+      "eval_samples_per_second": 6.966,
+      "eval_steps_per_second": 1.742,
+      "step": 1450
+    },
+    {
+      "epoch": 0.7163886162904809,
+      "grad_norm": 1.203125,
+      "learning_rate": 1.4912280701754386e-05,
+      "loss": 0.5187,
+      "step": 1460
+    },
+    {
+      "epoch": 0.7212953876349362,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.4654282765737876e-05,
+      "loss": 0.4884,
+      "step": 1470
+    },
+    {
+      "epoch": 0.7262021589793916,
+      "grad_norm": 1.2109375,
+      "learning_rate": 1.4396284829721363e-05,
+      "loss": 0.5434,
+      "step": 1480
+    },
+    {
+      "epoch": 0.7311089303238469,
+      "grad_norm": 0.96875,
+      "learning_rate": 1.4138286893704852e-05,
+      "loss": 0.5154,
+      "step": 1490
+    },
+    {
+      "epoch": 0.7360157016683022,
+      "grad_norm": 1.1640625,
+      "learning_rate": 1.388028895768834e-05,
+      "loss": 0.5312,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7360157016683022,
+      "eval_loss": 0.5351821184158325,
+      "eval_runtime": 28.5695,
+      "eval_samples_per_second": 7.0,
+      "eval_steps_per_second": 1.75,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7409224730127576,
+      "grad_norm": 1.328125,
+      "learning_rate": 1.3622291021671826e-05,
+      "loss": 0.5394,
+      "step": 1510
+    },
+    {
+      "epoch": 0.745829244357213,
+      "grad_norm": 2.078125,
+      "learning_rate": 1.3364293085655317e-05,
+      "loss": 0.5081,
+      "step": 1520
+    },
+    {
+      "epoch": 0.7507360157016683,
+      "grad_norm": 1.09375,
+      "learning_rate": 1.3106295149638804e-05,
+      "loss": 0.5498,
+      "step": 1530
+    },
+    {
+      "epoch": 0.7556427870461236,
+      "grad_norm": 0.71484375,
+      "learning_rate": 1.2848297213622292e-05,
+      "loss": 0.4704,
+      "step": 1540
+    },
+    {
+      "epoch": 0.760549558390579,
+      "grad_norm": 1.0078125,
+      "learning_rate": 1.259029927760578e-05,
+      "loss": 0.5095,
+      "step": 1550
+    },
+    {
+      "epoch": 0.760549558390579,
+      "eval_loss": 0.5329477787017822,
+      "eval_runtime": 28.5741,
+      "eval_samples_per_second": 6.999,
+      "eval_steps_per_second": 1.75,
+      "step": 1550
+    },
+    {
+      "epoch": 0.7654563297350343,
+      "grad_norm": 0.86328125,
+      "learning_rate": 1.2332301341589268e-05,
+      "loss": 0.5021,
+      "step": 1560
+    },
+    {
+      "epoch": 0.7703631010794897,
+      "grad_norm": 1.3671875,
+      "learning_rate": 1.2074303405572757e-05,
+      "loss": 0.5578,
+      "step": 1570
+    },
+    {
+      "epoch": 0.7752698724239451,
+      "grad_norm": 1.296875,
+      "learning_rate": 1.1816305469556244e-05,
+      "loss": 0.5031,
+      "step": 1580
+    },
+    {
+      "epoch": 0.7801766437684003,
+      "grad_norm": 0.87890625,
+      "learning_rate": 1.1558307533539733e-05,
+      "loss": 0.5225,
+      "step": 1590
+    },
+    {
+      "epoch": 0.7850834151128557,
+      "grad_norm": 1.34375,
+      "learning_rate": 1.130030959752322e-05,
+      "loss": 0.4909,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7850834151128557,
+      "eval_loss": 0.5333244204521179,
+      "eval_runtime": 28.4593,
+      "eval_samples_per_second": 7.028,
+      "eval_steps_per_second": 1.757,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7899901864573111,
+      "grad_norm": 1.2734375,
+      "learning_rate": 1.1042311661506709e-05,
+      "loss": 0.5154,
+      "step": 1610
+    },
+    {
+      "epoch": 0.7948969578017664,
+      "grad_norm": 2.0,
+      "learning_rate": 1.0784313725490197e-05,
+      "loss": 0.5048,
+      "step": 1620
+    },
+    {
+      "epoch": 0.7998037291462218,
+      "grad_norm": 1.078125,
+      "learning_rate": 1.0526315789473684e-05,
+      "loss": 0.4927,
+      "step": 1630
+    },
+    {
+      "epoch": 0.8047105004906772,
+      "grad_norm": 1.2265625,
+      "learning_rate": 1.0268317853457173e-05,
+      "loss": 0.5636,
+      "step": 1640
+    },
+    {
+      "epoch": 0.8096172718351324,
+      "grad_norm": 1.1796875,
+      "learning_rate": 1.001031991744066e-05,
+      "loss": 0.5423,
+      "step": 1650
+    },
+    {
+      "epoch": 0.8096172718351324,
+      "eval_loss": 0.5323337316513062,
+      "eval_runtime": 28.6741,
+      "eval_samples_per_second": 6.975,
+      "eval_steps_per_second": 1.744,
+      "step": 1650
+    },
+    {
+      "epoch": 0.8145240431795878,
+      "grad_norm": 1.546875,
+      "learning_rate": 9.752321981424149e-06,
+      "loss": 0.4747,
+      "step": 1660
+    },
+    {
+      "epoch": 0.8194308145240432,
+      "grad_norm": 1.0078125,
+      "learning_rate": 9.494324045407638e-06,
+      "loss": 0.4759,
+      "step": 1670
+    },
+    {
+      "epoch": 0.8243375858684985,
+      "grad_norm": 0.87890625,
+      "learning_rate": 9.236326109391125e-06,
+      "loss": 0.5072,
+      "step": 1680
+    },
+    {
+      "epoch": 0.8292443572129539,
+      "grad_norm": 0.83984375,
+      "learning_rate": 8.978328173374614e-06,
+      "loss": 0.4662,
+      "step": 1690
+    },
+    {
+      "epoch": 0.8341511285574092,
+      "grad_norm": 0.95703125,
+      "learning_rate": 8.7203302373581e-06,
+      "loss": 0.5161,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8341511285574092,
+      "eval_loss": 0.5313096046447754,
+      "eval_runtime": 28.6753,
+      "eval_samples_per_second": 6.975,
+      "eval_steps_per_second": 1.744,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8390578999018645,
+      "grad_norm": 1.3203125,
+      "learning_rate": 8.46233230134159e-06,
+      "loss": 0.4837,
+      "step": 1710
+    },
+    {
+      "epoch": 0.8439646712463199,
+      "grad_norm": 1.1171875,
+      "learning_rate": 8.204334365325078e-06,
+      "loss": 0.49,
+      "step": 1720
+    },
+    {
+      "epoch": 0.8488714425907753,
+      "grad_norm": 1.515625,
+      "learning_rate": 7.946336429308567e-06,
+      "loss": 0.5959,
+      "step": 1730
+    },
+    {
+      "epoch": 0.8537782139352306,
+      "grad_norm": 1.1171875,
+      "learning_rate": 7.688338493292054e-06,
+      "loss": 0.5113,
+      "step": 1740
+    },
+    {
+      "epoch": 0.858684985279686,
+      "grad_norm": 1.4375,
+      "learning_rate": 7.430340557275542e-06,
+      "loss": 0.5343,
+      "step": 1750
+    },
+    {
+      "epoch": 0.858684985279686,
+      "eval_loss": 0.530957043170929,
+      "eval_runtime": 28.7519,
+      "eval_samples_per_second": 6.956,
+      "eval_steps_per_second": 1.739,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8635917566241413,
+      "grad_norm": 1.109375,
+      "learning_rate": 7.1723426212590306e-06,
+      "loss": 0.5282,
+      "step": 1760
+    },
+    {
+      "epoch": 0.8684985279685966,
+      "grad_norm": 1.5,
+      "learning_rate": 6.9143446852425185e-06,
+      "loss": 0.4993,
+      "step": 1770
+    },
+    {
+      "epoch": 0.873405299313052,
+      "grad_norm": 1.1328125,
+      "learning_rate": 6.656346749226007e-06,
+      "loss": 0.4911,
+      "step": 1780
+    },
+    {
+      "epoch": 0.8783120706575074,
+      "grad_norm": 1.1640625,
+      "learning_rate": 6.398348813209494e-06,
+      "loss": 0.4945,
+      "step": 1790
+    },
+    {
+      "epoch": 0.8832188420019627,
+      "grad_norm": 0.6796875,
+      "learning_rate": 6.140350877192982e-06,
+      "loss": 0.5435,
+      "step": 1800
+    },
+    {
+      "epoch": 0.8832188420019627,
+      "eval_loss": 0.5307140350341797,
+      "eval_runtime": 28.6268,
+      "eval_samples_per_second": 6.986,
+      "eval_steps_per_second": 1.747,
+      "step": 1800
+    },
+    {
+      "epoch": 0.888125613346418,
+      "grad_norm": 0.7890625,
+      "learning_rate": 5.882352941176471e-06,
+      "loss": 0.5001,
+      "step": 1810
+    },
+    {
+      "epoch": 0.8930323846908734,
+      "grad_norm": 1.265625,
+      "learning_rate": 5.624355005159959e-06,
+      "loss": 0.5042,
+      "step": 1820
+    },
+    {
+      "epoch": 0.8979391560353287,
+      "grad_norm": 1.1875,
+      "learning_rate": 5.366357069143447e-06,
+      "loss": 0.5642,
+      "step": 1830
+    },
+    {
+      "epoch": 0.9028459273797841,
+      "grad_norm": 1.2265625,
+      "learning_rate": 5.1083591331269355e-06,
+      "loss": 0.5587,
+      "step": 1840
+    },
+    {
+      "epoch": 0.9077526987242395,
+      "grad_norm": 1.921875,
+      "learning_rate": 4.850361197110423e-06,
+      "loss": 0.539,
+      "step": 1850
+    },
+    {
+      "epoch": 0.9077526987242395,
+      "eval_loss": 0.5304572582244873,
+      "eval_runtime": 28.4933,
+      "eval_samples_per_second": 7.019,
+      "eval_steps_per_second": 1.755,
+      "step": 1850
+    },
+    {
+      "epoch": 0.9126594700686947,
+      "grad_norm": 1.375,
+      "learning_rate": 4.592363261093911e-06,
+      "loss": 0.5004,
+      "step": 1860
+    },
+    {
+      "epoch": 0.9175662414131501,
+      "grad_norm": 1.234375,
+      "learning_rate": 4.3343653250774e-06,
+      "loss": 0.4948,
+      "step": 1870
+    },
+    {
+      "epoch": 0.9224730127576055,
+      "grad_norm": 1.2109375,
+      "learning_rate": 4.076367389060888e-06,
+      "loss": 0.5392,
+      "step": 1880
+    },
+    {
+      "epoch": 0.9273797841020608,
+      "grad_norm": 1.1171875,
+      "learning_rate": 3.818369453044376e-06,
+      "loss": 0.5441,
+      "step": 1890
+    },
+    {
+      "epoch": 0.9322865554465162,
+      "grad_norm": 2.65625,
+      "learning_rate": 3.560371517027864e-06,
+      "loss": 0.5096,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9322865554465162,
+      "eval_loss": 0.5307794809341431,
+      "eval_runtime": 28.4936,
+      "eval_samples_per_second": 7.019,
+      "eval_steps_per_second": 1.755,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9371933267909716,
+      "grad_norm": 0.46875,
+      "learning_rate": 3.3023735810113516e-06,
+      "loss": 0.5092,
+      "step": 1910
+    },
+    {
+      "epoch": 0.9421000981354269,
+      "grad_norm": 1.0546875,
+      "learning_rate": 3.0443756449948404e-06,
+      "loss": 0.5825,
+      "step": 1920
+    },
+    {
+      "epoch": 0.9470068694798822,
+      "grad_norm": 1.5078125,
+      "learning_rate": 2.7863777089783283e-06,
+      "loss": 0.5331,
+      "step": 1930
+    },
+    {
+      "epoch": 0.9519136408243376,
+      "grad_norm": 1.03125,
+      "learning_rate": 2.5283797729618166e-06,
+      "loss": 0.5464,
+      "step": 1940
+    },
+    {
+      "epoch": 0.956820412168793,
+      "grad_norm": 1.1640625,
+      "learning_rate": 2.2703818369453045e-06,
+      "loss": 0.5155,
+      "step": 1950
+    },
+    {
+      "epoch": 0.956820412168793,
+      "eval_loss": 0.5306495428085327,
+      "eval_runtime": 28.7357,
+      "eval_samples_per_second": 6.96,
+      "eval_steps_per_second": 1.74,
+      "step": 1950
+    },
+    {
+      "epoch": 0.9617271835132483,
+      "grad_norm": 0.9921875,
+      "learning_rate": 2.012383900928793e-06,
+      "loss": 0.5282,
+      "step": 1960
+    },
+    {
+      "epoch": 0.9666339548577036,
+      "grad_norm": 0.40234375,
+      "learning_rate": 1.7543859649122807e-06,
+      "loss": 0.5208,
+      "step": 1970
+    },
+    {
+      "epoch": 0.971540726202159,
+      "grad_norm": 0.78515625,
+      "learning_rate": 1.4963880288957689e-06,
+      "loss": 0.5216,
+      "step": 1980
+    },
+    {
+      "epoch": 0.9764474975466143,
+      "grad_norm": 1.3359375,
+      "learning_rate": 1.2383900928792572e-06,
+      "loss": 0.516,
+      "step": 1990
+    },
+    {
+      "epoch": 0.9813542688910697,
+      "grad_norm": 3.125,
+      "learning_rate": 9.80392156862745e-07,
+      "loss": 0.529,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9813542688910697,
+      "eval_loss": 0.5309420228004456,
+      "eval_runtime": 28.7264,
+      "eval_samples_per_second": 6.962,
+      "eval_steps_per_second": 1.741,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9862610402355251,
+      "grad_norm": 1.3046875,
+      "learning_rate": 7.223942208462333e-07,
+      "loss": 0.5101,
+      "step": 2010
+    },
+    {
+      "epoch": 0.9911678115799804,
+      "grad_norm": 1.109375,
+      "learning_rate": 4.6439628482972136e-07,
+      "loss": 0.4883,
+      "step": 2020
+    },
+    {
+      "epoch": 0.9960745829244357,
+      "grad_norm": 0.71484375,
+      "learning_rate": 2.0639834881320948e-07,
+      "loss": 0.5151,
+      "step": 2030
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2038,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.79578628062624e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2038/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34c4857badce80c70f064f21ad667b2f5f1313b4d2fe2b5a59ca22c17dde065c
+size 5176

git_hash.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ 55b2dde274ae08820ed112e2e52dcff41853bd34

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "SiglipImageProcessor",
+  "image_seq_length": 256,
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "processor_class": "PaliGemmaProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1df2ab04780faccf51a881d7c5a7026cc6f979083af2eebf709d051b8d47134b
+size 17763458

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training_config.yml ADDED Viewed

	@@ -0,0 +1,42 @@

+config:
+  (): colpali_engine.utils.train_colpali_engine_models.ColModelTrainingConfig
+  output_dir: !path ../../../models/without_tabfquad/train_colpali-3b-ft-ocrvqa-224
+  processor:
+    () : colpali_engine.utils.wrapper.AutoProcessorWrapper
+    pretrained_model_name_or_path: "google/paligemma-3b-ft-ocrvqa-224"
+    max_length: 50
+  model:
+    (): colpali_engine.utils.wrapper.AutoColModelWrapper
+    pretrained_model_name_or_path: "google/paligemma-3b-ft-ocrvqa-224"
+    training_objective: "colbertv1"
+    # attn_implementation: "eager"
+    # attn_implementation: "flash_attention_2"
+    torch_dtype:  !ext torch.bfloat16
+#    device_map: "auto"
+#    quantization_config:
+#      (): transformers.BitsAndBytesConfig
+#      load_in_4bit: true
+#      bnb_4bit_quant_type: "nf4"
+#      bnb_4bit_compute_dtype:  "bfloat16"
+#      bnb_4bit_use_double_quant: true
+  dataset_loading_func: !ext colpali_engine.utils.dataset_transformation.load_docvqa_dataset
+  eval_dataset_loader: !import ../data/test_data.yaml
+  max_length: 50
+  run_eval: true
+  add_suffix: true
+  loss_func:
+    (): colpali_engine.loss.colbert_loss.XtrPairwiseCELoss
+  tr_args: !import ../tr_args/default_tr_args.yaml
+  peft_config:
+    (): peft.LoraConfig
+    r: 32
+    lora_alpha: 32
+    lora_dropout: 0.1
+    init_lora_weights: "gaussian"
+    bias: "none"
+    task_type: "FEATURE_EXTRACTION"
+    target_modules: '(.*(language_model).*(down_proj|gate_proj|up_proj|k_proj|q_proj|v_proj|o_proj).*$|.*(custom_text_proj).*$)'
+    # target_modules: '(.*(language_model).*(down_proj|gate_proj|up_proj|k_proj|q_proj|v_proj|o_proj).*$|.*(custom_text_proj).*$)'