🍻 cheers

Browse files

Files changed (11) hide show

README.md +80 -0
all_results.json +13 -0
config.json +42 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +36 -0
runs/Apr28_09-24-43_8de383cac982/events.out.tfevents.1714296294.8de383cac982.2041.0 +3 -0
runs/Apr28_09-24-43_8de383cac982/events.out.tfevents.1714296828.8de383cac982.2041.1 +3 -0
train_results.json +8 -0
trainer_state.json +1559 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,80 @@

+---
+license: apache-2.0
+base_model: google/vit-base-patch16-224-in21k
+tags:
+- image-classification
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: finetuned-clothes
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# finetuned-clothes
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the clothes_simplifiedv2 dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.2225
+- Accuracy: 0.9417
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 4
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Accuracy |
+|:-------------:|:------:|:----:|:---------------:|:--------:|
+| 0.7725        | 0.2058 | 100  | 0.7008          | 0.8178   |
+| 0.5535        | 0.4115 | 200  | 0.4494          | 0.8994   |
+| 0.4334        | 0.6173 | 300  | 0.3649          | 0.9169   |
+| 0.3921        | 0.8230 | 400  | 0.3085          | 0.9184   |
+| 0.3695        | 1.0288 | 500  | 0.3091          | 0.9184   |
+| 0.2634        | 1.2346 | 600  | 0.3339          | 0.9082   |
+| 0.4788        | 1.4403 | 700  | 0.2827          | 0.9257   |
+| 0.3337        | 1.6461 | 800  | 0.2499          | 0.9344   |
+| 0.34          | 1.8519 | 900  | 0.2586          | 0.9315   |
+| 0.2424        | 2.0576 | 1000 | 0.2248          | 0.9402   |
+| 0.1559        | 2.2634 | 1100 | 0.2333          | 0.9344   |
+| 0.351         | 2.4691 | 1200 | 0.2495          | 0.9359   |
+| 0.2206        | 2.6749 | 1300 | 0.2622          | 0.9242   |
+| 0.3814        | 2.8807 | 1400 | 0.3138          | 0.9155   |
+| 0.2141        | 3.0864 | 1500 | 0.2613          | 0.9315   |
+| 0.112         | 3.2922 | 1600 | 0.2266          | 0.9402   |
+| 0.0631        | 3.4979 | 1700 | 0.2255          | 0.9402   |
+| 0.1986        | 3.7037 | 1800 | 0.2225          | 0.9417   |
+| 0.2345        | 3.9095 | 1900 | 0.2235          | 0.9373   |
+### Framework versions
+- Transformers 4.40.1
+- Pytorch 2.2.1+cu121
+- Datasets 2.19.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 4.0,
+    "eval_accuracy": 0.9416909620991254,
+    "eval_loss": 0.22252099215984344,
+    "eval_runtime": 7.4442,
+    "eval_samples_per_second": 92.153,
+    "eval_steps_per_second": 11.553,
+    "total_flos": 1.2048994477712425e+18,
+    "train_loss": 0.3544519797212793,
+    "train_runtime": 505.606,
+    "train_samples_per_second": 30.751,
+    "train_steps_per_second": 3.845
+}

config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "google/vit-base-patch16-224-in21k",
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "encoder_stride": 16,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Hat",
+    "1": "Longsleeve",
+    "2": "Outwear",
+    "3": "Pants",
+    "4": "Shoes",
+    "5": "Shorts",
+    "6": "Shortsleeve"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Hat": "0",
+    "Longsleeve": "1",
+    "Outwear": "2",
+    "Pants": "3",
+    "Shoes": "4",
+    "Shorts": "5",
+    "Shortsleeve": "6"
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.1"
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 4.0,
+    "eval_accuracy": 0.9416909620991254,
+    "eval_loss": 0.22252099215984344,
+    "eval_runtime": 7.4442,
+    "eval_samples_per_second": 92.153,
+    "eval_steps_per_second": 11.553
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a63787376b3045c7867b265ce5ccec7f5bb76974b4a3ba8c554830f137febe9
+size 343239356

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_valid_processor_keys": [
+    "images",
+    "do_resize",
+    "size",
+    "resample",
+    "do_rescale",
+    "rescale_factor",
+    "do_normalize",
+    "image_mean",
+    "image_std",
+    "return_tensors",
+    "data_format",
+    "input_data_format"
+  ],
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

runs/Apr28_09-24-43_8de383cac982/events.out.tfevents.1714296294.8de383cac982.2041.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23cdb2859db0046112b6540028c4a9b2474bff43db913245c05f2a707637ffe0
+size 52226

runs/Apr28_09-24-43_8de383cac982/events.out.tfevents.1714296828.8de383cac982.2041.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9c357624e0844ac8993ddbfe88e442164e40e923ef5061ae3084c0f658d2422
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 4.0,
+    "total_flos": 1.2048994477712425e+18,
+    "train_loss": 0.3544519797212793,
+    "train_runtime": 505.606,
+    "train_samples_per_second": 30.751,
+    "train_steps_per_second": 3.845
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1559 @@

+{
+  "best_metric": 0.22252099215984344,
+  "best_model_checkpoint": "finetuned-clothes/checkpoint-1800",
+  "epoch": 4.0,
+  "eval_steps": 100,
+  "global_step": 1944,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0205761316872428,
+      "grad_norm": 2.173704147338867,
+      "learning_rate": 4.974279835390947e-05,
+      "loss": 1.8548,
+      "step": 10
+    },
+    {
+      "epoch": 0.0411522633744856,
+      "grad_norm": 4.239943981170654,
+      "learning_rate": 4.948559670781893e-05,
+      "loss": 1.6474,
+      "step": 20
+    },
+    {
+      "epoch": 0.06172839506172839,
+      "grad_norm": 3.0864417552948,
+      "learning_rate": 4.92283950617284e-05,
+      "loss": 1.4579,
+      "step": 30
+    },
+    {
+      "epoch": 0.0823045267489712,
+      "grad_norm": 2.301297187805176,
+      "learning_rate": 4.8971193415637865e-05,
+      "loss": 1.3241,
+      "step": 40
+    },
+    {
+      "epoch": 0.102880658436214,
+      "grad_norm": 2.933986186981201,
+      "learning_rate": 4.871399176954733e-05,
+      "loss": 1.1818,
+      "step": 50
+    },
+    {
+      "epoch": 0.12345679012345678,
+      "grad_norm": 2.552161931991577,
+      "learning_rate": 4.845679012345679e-05,
+      "loss": 1.0563,
+      "step": 60
+    },
+    {
+      "epoch": 0.1440329218106996,
+      "grad_norm": 2.6376731395721436,
+      "learning_rate": 4.819958847736626e-05,
+      "loss": 1.0264,
+      "step": 70
+    },
+    {
+      "epoch": 0.1646090534979424,
+      "grad_norm": 3.713806390762329,
+      "learning_rate": 4.794238683127572e-05,
+      "loss": 0.9449,
+      "step": 80
+    },
+    {
+      "epoch": 0.18518518518518517,
+      "grad_norm": 4.88785982131958,
+      "learning_rate": 4.768518518518519e-05,
+      "loss": 0.7746,
+      "step": 90
+    },
+    {
+      "epoch": 0.205761316872428,
+      "grad_norm": 2.0521767139434814,
+      "learning_rate": 4.742798353909465e-05,
+      "loss": 0.7725,
+      "step": 100
+    },
+    {
+      "epoch": 0.205761316872428,
+      "eval_accuracy": 0.8177842565597667,
+      "eval_loss": 0.7007715106010437,
+      "eval_runtime": 5.2424,
+      "eval_samples_per_second": 130.856,
+      "eval_steps_per_second": 16.405,
+      "step": 100
+    },
+    {
+      "epoch": 0.22633744855967078,
+      "grad_norm": 1.4839606285095215,
+      "learning_rate": 4.7170781893004116e-05,
+      "loss": 0.6586,
+      "step": 110
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 5.147204875946045,
+      "learning_rate": 4.691358024691358e-05,
+      "loss": 0.7189,
+      "step": 120
+    },
+    {
+      "epoch": 0.2674897119341564,
+      "grad_norm": 7.209930896759033,
+      "learning_rate": 4.665637860082305e-05,
+      "loss": 0.7384,
+      "step": 130
+    },
+    {
+      "epoch": 0.2880658436213992,
+      "grad_norm": 5.127917766571045,
+      "learning_rate": 4.639917695473252e-05,
+      "loss": 0.7484,
+      "step": 140
+    },
+    {
+      "epoch": 0.30864197530864196,
+      "grad_norm": 3.2841947078704834,
+      "learning_rate": 4.614197530864198e-05,
+      "loss": 0.6732,
+      "step": 150
+    },
+    {
+      "epoch": 0.3292181069958848,
+      "grad_norm": 5.1268110275268555,
+      "learning_rate": 4.5884773662551446e-05,
+      "loss": 0.6015,
+      "step": 160
+    },
+    {
+      "epoch": 0.3497942386831276,
+      "grad_norm": 5.863048553466797,
+      "learning_rate": 4.5627572016460906e-05,
+      "loss": 0.594,
+      "step": 170
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 2.000070095062256,
+      "learning_rate": 4.5370370370370374e-05,
+      "loss": 0.5165,
+      "step": 180
+    },
+    {
+      "epoch": 0.39094650205761317,
+      "grad_norm": 4.510650157928467,
+      "learning_rate": 4.5113168724279834e-05,
+      "loss": 0.621,
+      "step": 190
+    },
+    {
+      "epoch": 0.411522633744856,
+      "grad_norm": 2.4744088649749756,
+      "learning_rate": 4.48559670781893e-05,
+      "loss": 0.5535,
+      "step": 200
+    },
+    {
+      "epoch": 0.411522633744856,
+      "eval_accuracy": 0.8994169096209913,
+      "eval_loss": 0.44938138127326965,
+      "eval_runtime": 5.2054,
+      "eval_samples_per_second": 131.787,
+      "eval_steps_per_second": 16.521,
+      "step": 200
+    },
+    {
+      "epoch": 0.43209876543209874,
+      "grad_norm": 7.232150077819824,
+      "learning_rate": 4.459876543209877e-05,
+      "loss": 0.7554,
+      "step": 210
+    },
+    {
+      "epoch": 0.45267489711934156,
+      "grad_norm": 2.480642318725586,
+      "learning_rate": 4.4341563786008236e-05,
+      "loss": 0.6475,
+      "step": 220
+    },
+    {
+      "epoch": 0.4732510288065844,
+      "grad_norm": 6.75883150100708,
+      "learning_rate": 4.40843621399177e-05,
+      "loss": 0.4951,
+      "step": 230
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 2.3725767135620117,
+      "learning_rate": 4.3827160493827164e-05,
+      "loss": 0.5711,
+      "step": 240
+    },
+    {
+      "epoch": 0.51440329218107,
+      "grad_norm": 4.138972282409668,
+      "learning_rate": 4.3569958847736625e-05,
+      "loss": 0.5318,
+      "step": 250
+    },
+    {
+      "epoch": 0.5349794238683128,
+      "grad_norm": 11.300224304199219,
+      "learning_rate": 4.331275720164609e-05,
+      "loss": 0.5041,
+      "step": 260
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 6.57551383972168,
+      "learning_rate": 4.305555555555556e-05,
+      "loss": 0.5828,
+      "step": 270
+    },
+    {
+      "epoch": 0.5761316872427984,
+      "grad_norm": 4.986762523651123,
+      "learning_rate": 4.279835390946502e-05,
+      "loss": 0.491,
+      "step": 280
+    },
+    {
+      "epoch": 0.5967078189300411,
+      "grad_norm": 3.5556581020355225,
+      "learning_rate": 4.254115226337449e-05,
+      "loss": 0.4911,
+      "step": 290
+    },
+    {
+      "epoch": 0.6172839506172839,
+      "grad_norm": 0.6545975804328918,
+      "learning_rate": 4.230967078189301e-05,
+      "loss": 0.4334,
+      "step": 300
+    },
+    {
+      "epoch": 0.6172839506172839,
+      "eval_accuracy": 0.9169096209912536,
+      "eval_loss": 0.3648872971534729,
+      "eval_runtime": 5.389,
+      "eval_samples_per_second": 127.297,
+      "eval_steps_per_second": 15.959,
+      "step": 300
+    },
+    {
+      "epoch": 0.6378600823045267,
+      "grad_norm": 6.065480709075928,
+      "learning_rate": 4.205246913580247e-05,
+      "loss": 0.4079,
+      "step": 310
+    },
+    {
+      "epoch": 0.6584362139917695,
+      "grad_norm": 7.807397842407227,
+      "learning_rate": 4.1795267489711935e-05,
+      "loss": 0.5353,
+      "step": 320
+    },
+    {
+      "epoch": 0.6790123456790124,
+      "grad_norm": 4.977638244628906,
+      "learning_rate": 4.1563786008230455e-05,
+      "loss": 0.3977,
+      "step": 330
+    },
+    {
+      "epoch": 0.6995884773662552,
+      "grad_norm": 0.7537054419517517,
+      "learning_rate": 4.130658436213992e-05,
+      "loss": 0.4792,
+      "step": 340
+    },
+    {
+      "epoch": 0.720164609053498,
+      "grad_norm": 1.4330915212631226,
+      "learning_rate": 4.104938271604938e-05,
+      "loss": 0.3986,
+      "step": 350
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 3.951570510864258,
+      "learning_rate": 4.079218106995885e-05,
+      "loss": 0.4249,
+      "step": 360
+    },
+    {
+      "epoch": 0.7613168724279835,
+      "grad_norm": 6.858752727508545,
+      "learning_rate": 4.053497942386831e-05,
+      "loss": 0.4735,
+      "step": 370
+    },
+    {
+      "epoch": 0.7818930041152263,
+      "grad_norm": 7.806582927703857,
+      "learning_rate": 4.027777777777778e-05,
+      "loss": 0.4037,
+      "step": 380
+    },
+    {
+      "epoch": 0.8024691358024691,
+      "grad_norm": 5.925368309020996,
+      "learning_rate": 4.0020576131687245e-05,
+      "loss": 0.3997,
+      "step": 390
+    },
+    {
+      "epoch": 0.823045267489712,
+      "grad_norm": 15.64376163482666,
+      "learning_rate": 3.976337448559671e-05,
+      "loss": 0.3921,
+      "step": 400
+    },
+    {
+      "epoch": 0.823045267489712,
+      "eval_accuracy": 0.9183673469387755,
+      "eval_loss": 0.3085317313671112,
+      "eval_runtime": 5.5462,
+      "eval_samples_per_second": 123.689,
+      "eval_steps_per_second": 15.506,
+      "step": 400
+    },
+    {
+      "epoch": 0.8436213991769548,
+      "grad_norm": 0.49218544363975525,
+      "learning_rate": 3.950617283950617e-05,
+      "loss": 0.394,
+      "step": 410
+    },
+    {
+      "epoch": 0.8641975308641975,
+      "grad_norm": 0.5128059983253479,
+      "learning_rate": 3.924897119341564e-05,
+      "loss": 0.2721,
+      "step": 420
+    },
+    {
+      "epoch": 0.8847736625514403,
+      "grad_norm": 6.586925029754639,
+      "learning_rate": 3.89917695473251e-05,
+      "loss": 0.4608,
+      "step": 430
+    },
+    {
+      "epoch": 0.9053497942386831,
+      "grad_norm": 4.243907451629639,
+      "learning_rate": 3.873456790123457e-05,
+      "loss": 0.4534,
+      "step": 440
+    },
+    {
+      "epoch": 0.9259259259259259,
+      "grad_norm": 0.5013654828071594,
+      "learning_rate": 3.8477366255144036e-05,
+      "loss": 0.3535,
+      "step": 450
+    },
+    {
+      "epoch": 0.9465020576131687,
+      "grad_norm": 12.352477073669434,
+      "learning_rate": 3.8220164609053496e-05,
+      "loss": 0.3733,
+      "step": 460
+    },
+    {
+      "epoch": 0.9670781893004116,
+      "grad_norm": 7.122161865234375,
+      "learning_rate": 3.7962962962962964e-05,
+      "loss": 0.4486,
+      "step": 470
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 4.856133937835693,
+      "learning_rate": 3.770576131687243e-05,
+      "loss": 0.4629,
+      "step": 480
+    },
+    {
+      "epoch": 1.008230452674897,
+      "grad_norm": 0.6018617749214172,
+      "learning_rate": 3.74485596707819e-05,
+      "loss": 0.2749,
+      "step": 490
+    },
+    {
+      "epoch": 1.02880658436214,
+      "grad_norm": 8.492673873901367,
+      "learning_rate": 3.719135802469136e-05,
+      "loss": 0.3695,
+      "step": 500
+    },
+    {
+      "epoch": 1.02880658436214,
+      "eval_accuracy": 0.9183673469387755,
+      "eval_loss": 0.30907005071640015,
+      "eval_runtime": 5.8028,
+      "eval_samples_per_second": 118.218,
+      "eval_steps_per_second": 14.82,
+      "step": 500
+    },
+    {
+      "epoch": 1.0493827160493827,
+      "grad_norm": 2.352186679840088,
+      "learning_rate": 3.6934156378600826e-05,
+      "loss": 0.3995,
+      "step": 510
+    },
+    {
+      "epoch": 1.0699588477366255,
+      "grad_norm": 2.0695996284484863,
+      "learning_rate": 3.667695473251029e-05,
+      "loss": 0.2422,
+      "step": 520
+    },
+    {
+      "epoch": 1.0905349794238683,
+      "grad_norm": 0.4764484167098999,
+      "learning_rate": 3.6419753086419754e-05,
+      "loss": 0.3073,
+      "step": 530
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 2.4346959590911865,
+      "learning_rate": 3.6162551440329215e-05,
+      "loss": 0.279,
+      "step": 540
+    },
+    {
+      "epoch": 1.131687242798354,
+      "grad_norm": 1.6526964902877808,
+      "learning_rate": 3.590534979423868e-05,
+      "loss": 0.217,
+      "step": 550
+    },
+    {
+      "epoch": 1.1522633744855968,
+      "grad_norm": 1.5531551837921143,
+      "learning_rate": 3.564814814814815e-05,
+      "loss": 0.3906,
+      "step": 560
+    },
+    {
+      "epoch": 1.1728395061728394,
+      "grad_norm": 0.41519421339035034,
+      "learning_rate": 3.539094650205762e-05,
+      "loss": 0.1809,
+      "step": 570
+    },
+    {
+      "epoch": 1.1934156378600824,
+      "grad_norm": 8.064279556274414,
+      "learning_rate": 3.5133744855967084e-05,
+      "loss": 0.2767,
+      "step": 580
+    },
+    {
+      "epoch": 1.213991769547325,
+      "grad_norm": 0.4536079466342926,
+      "learning_rate": 3.4876543209876545e-05,
+      "loss": 0.4032,
+      "step": 590
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 12.668285369873047,
+      "learning_rate": 3.461934156378601e-05,
+      "loss": 0.2634,
+      "step": 600
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "eval_accuracy": 0.9081632653061225,
+      "eval_loss": 0.3338664472103119,
+      "eval_runtime": 5.3039,
+      "eval_samples_per_second": 129.338,
+      "eval_steps_per_second": 16.214,
+      "step": 600
+    },
+    {
+      "epoch": 1.2551440329218106,
+      "grad_norm": 3.9776062965393066,
+      "learning_rate": 3.436213991769547e-05,
+      "loss": 0.3071,
+      "step": 610
+    },
+    {
+      "epoch": 1.2757201646090535,
+      "grad_norm": 3.995609760284424,
+      "learning_rate": 3.410493827160494e-05,
+      "loss": 0.3862,
+      "step": 620
+    },
+    {
+      "epoch": 1.2962962962962963,
+      "grad_norm": 1.187232255935669,
+      "learning_rate": 3.38477366255144e-05,
+      "loss": 0.4498,
+      "step": 630
+    },
+    {
+      "epoch": 1.316872427983539,
+      "grad_norm": 17.8300724029541,
+      "learning_rate": 3.3590534979423874e-05,
+      "loss": 0.3186,
+      "step": 640
+    },
+    {
+      "epoch": 1.337448559670782,
+      "grad_norm": 1.6956249475479126,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.2368,
+      "step": 650
+    },
+    {
+      "epoch": 1.3580246913580247,
+      "grad_norm": 0.9367788434028625,
+      "learning_rate": 3.30761316872428e-05,
+      "loss": 0.4461,
+      "step": 660
+    },
+    {
+      "epoch": 1.3786008230452675,
+      "grad_norm": 3.084554433822632,
+      "learning_rate": 3.281893004115226e-05,
+      "loss": 0.3022,
+      "step": 670
+    },
+    {
+      "epoch": 1.3991769547325104,
+      "grad_norm": 1.4184356927871704,
+      "learning_rate": 3.256172839506173e-05,
+      "loss": 0.3542,
+      "step": 680
+    },
+    {
+      "epoch": 1.4197530864197532,
+      "grad_norm": 9.956780433654785,
+      "learning_rate": 3.230452674897119e-05,
+      "loss": 0.2772,
+      "step": 690
+    },
+    {
+      "epoch": 1.4403292181069958,
+      "grad_norm": 7.774564266204834,
+      "learning_rate": 3.204732510288066e-05,
+      "loss": 0.4788,
+      "step": 700
+    },
+    {
+      "epoch": 1.4403292181069958,
+      "eval_accuracy": 0.9256559766763849,
+      "eval_loss": 0.28270086646080017,
+      "eval_runtime": 5.1862,
+      "eval_samples_per_second": 132.274,
+      "eval_steps_per_second": 16.582,
+      "step": 700
+    },
+    {
+      "epoch": 1.4609053497942388,
+      "grad_norm": 1.6019172668457031,
+      "learning_rate": 3.1790123456790125e-05,
+      "loss": 0.3656,
+      "step": 710
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.32796138525009155,
+      "learning_rate": 3.153292181069959e-05,
+      "loss": 0.291,
+      "step": 720
+    },
+    {
+      "epoch": 1.5020576131687244,
+      "grad_norm": 6.803758144378662,
+      "learning_rate": 3.127572016460906e-05,
+      "loss": 0.2756,
+      "step": 730
+    },
+    {
+      "epoch": 1.522633744855967,
+      "grad_norm": 9.335061073303223,
+      "learning_rate": 3.101851851851852e-05,
+      "loss": 0.353,
+      "step": 740
+    },
+    {
+      "epoch": 1.5432098765432098,
+      "grad_norm": 11.15013599395752,
+      "learning_rate": 3.076131687242799e-05,
+      "loss": 0.3542,
+      "step": 750
+    },
+    {
+      "epoch": 1.5637860082304527,
+      "grad_norm": 7.025611400604248,
+      "learning_rate": 3.050411522633745e-05,
+      "loss": 0.3576,
+      "step": 760
+    },
+    {
+      "epoch": 1.5843621399176955,
+      "grad_norm": 4.891916275024414,
+      "learning_rate": 3.0246913580246916e-05,
+      "loss": 0.1898,
+      "step": 770
+    },
+    {
+      "epoch": 1.6049382716049383,
+      "grad_norm": 4.149532318115234,
+      "learning_rate": 2.998971193415638e-05,
+      "loss": 0.3467,
+      "step": 780
+    },
+    {
+      "epoch": 1.625514403292181,
+      "grad_norm": 4.81355094909668,
+      "learning_rate": 2.9732510288065847e-05,
+      "loss": 0.2927,
+      "step": 790
+    },
+    {
+      "epoch": 1.646090534979424,
+      "grad_norm": 5.665321350097656,
+      "learning_rate": 2.9475308641975308e-05,
+      "loss": 0.3337,
+      "step": 800
+    },
+    {
+      "epoch": 1.646090534979424,
+      "eval_accuracy": 0.934402332361516,
+      "eval_loss": 0.24985870718955994,
+      "eval_runtime": 11.5489,
+      "eval_samples_per_second": 59.4,
+      "eval_steps_per_second": 7.447,
+      "step": 800
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 5.743719100952148,
+      "learning_rate": 2.9218106995884775e-05,
+      "loss": 0.2494,
+      "step": 810
+    },
+    {
+      "epoch": 1.6872427983539096,
+      "grad_norm": 0.2070736289024353,
+      "learning_rate": 2.896090534979424e-05,
+      "loss": 0.3724,
+      "step": 820
+    },
+    {
+      "epoch": 1.7078189300411522,
+      "grad_norm": 0.6346050500869751,
+      "learning_rate": 2.8703703703703706e-05,
+      "loss": 0.4756,
+      "step": 830
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 10.402286529541016,
+      "learning_rate": 2.8446502057613174e-05,
+      "loss": 0.265,
+      "step": 840
+    },
+    {
+      "epoch": 1.7489711934156378,
+      "grad_norm": 10.685330390930176,
+      "learning_rate": 2.8189300411522634e-05,
+      "loss": 0.301,
+      "step": 850
+    },
+    {
+      "epoch": 1.7695473251028808,
+      "grad_norm": 8.265226364135742,
+      "learning_rate": 2.79320987654321e-05,
+      "loss": 0.3098,
+      "step": 860
+    },
+    {
+      "epoch": 1.7901234567901234,
+      "grad_norm": 8.33575439453125,
+      "learning_rate": 2.7674897119341565e-05,
+      "loss": 0.2974,
+      "step": 870
+    },
+    {
+      "epoch": 1.8106995884773662,
+      "grad_norm": 8.888866424560547,
+      "learning_rate": 2.7417695473251033e-05,
+      "loss": 0.1666,
+      "step": 880
+    },
+    {
+      "epoch": 1.831275720164609,
+      "grad_norm": 8.413542747497559,
+      "learning_rate": 2.7160493827160493e-05,
+      "loss": 0.2286,
+      "step": 890
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 1.5029722452163696,
+      "learning_rate": 2.690329218106996e-05,
+      "loss": 0.34,
+      "step": 900
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "eval_accuracy": 0.9314868804664723,
+      "eval_loss": 0.2585590183734894,
+      "eval_runtime": 6.5895,
+      "eval_samples_per_second": 104.105,
+      "eval_steps_per_second": 13.051,
+      "step": 900
+    },
+    {
+      "epoch": 1.8724279835390947,
+      "grad_norm": 0.20841029286384583,
+      "learning_rate": 2.6646090534979425e-05,
+      "loss": 0.275,
+      "step": 910
+    },
+    {
+      "epoch": 1.8930041152263375,
+      "grad_norm": 9.179852485656738,
+      "learning_rate": 2.6388888888888892e-05,
+      "loss": 0.2304,
+      "step": 920
+    },
+    {
+      "epoch": 1.9135802469135803,
+      "grad_norm": 0.9464486241340637,
+      "learning_rate": 2.6131687242798352e-05,
+      "loss": 0.2368,
+      "step": 930
+    },
+    {
+      "epoch": 1.934156378600823,
+      "grad_norm": 10.512286186218262,
+      "learning_rate": 2.587448559670782e-05,
+      "loss": 0.2969,
+      "step": 940
+    },
+    {
+      "epoch": 1.954732510288066,
+      "grad_norm": 3.54328989982605,
+      "learning_rate": 2.5617283950617287e-05,
+      "loss": 0.2327,
+      "step": 950
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 0.5239406824111938,
+      "learning_rate": 2.536008230452675e-05,
+      "loss": 0.3048,
+      "step": 960
+    },
+    {
+      "epoch": 1.9958847736625516,
+      "grad_norm": 0.25483438372612,
+      "learning_rate": 2.510288065843622e-05,
+      "loss": 0.3584,
+      "step": 970
+    },
+    {
+      "epoch": 2.016460905349794,
+      "grad_norm": 0.4868137538433075,
+      "learning_rate": 2.484567901234568e-05,
+      "loss": 0.3359,
+      "step": 980
+    },
+    {
+      "epoch": 2.037037037037037,
+      "grad_norm": 6.471540927886963,
+      "learning_rate": 2.4588477366255143e-05,
+      "loss": 0.4194,
+      "step": 990
+    },
+    {
+      "epoch": 2.05761316872428,
+      "grad_norm": 0.21457789838314056,
+      "learning_rate": 2.433127572016461e-05,
+      "loss": 0.2424,
+      "step": 1000
+    },
+    {
+      "epoch": 2.05761316872428,
+      "eval_accuracy": 0.9402332361516035,
+      "eval_loss": 0.2248041331768036,
+      "eval_runtime": 5.6496,
+      "eval_samples_per_second": 121.424,
+      "eval_steps_per_second": 15.222,
+      "step": 1000
+    },
+    {
+      "epoch": 2.078189300411523,
+      "grad_norm": 0.2115119844675064,
+      "learning_rate": 2.4074074074074074e-05,
+      "loss": 0.1537,
+      "step": 1010
+    },
+    {
+      "epoch": 2.0987654320987654,
+      "grad_norm": 0.7327996492385864,
+      "learning_rate": 2.381687242798354e-05,
+      "loss": 0.1881,
+      "step": 1020
+    },
+    {
+      "epoch": 2.119341563786008,
+      "grad_norm": 11.874442100524902,
+      "learning_rate": 2.3559670781893005e-05,
+      "loss": 0.2633,
+      "step": 1030
+    },
+    {
+      "epoch": 2.139917695473251,
+      "grad_norm": 0.2526969015598297,
+      "learning_rate": 2.3302469135802473e-05,
+      "loss": 0.1868,
+      "step": 1040
+    },
+    {
+      "epoch": 2.1604938271604937,
+      "grad_norm": 0.23793959617614746,
+      "learning_rate": 2.3045267489711937e-05,
+      "loss": 0.2138,
+      "step": 1050
+    },
+    {
+      "epoch": 2.1810699588477367,
+      "grad_norm": 0.319592148065567,
+      "learning_rate": 2.27880658436214e-05,
+      "loss": 0.1997,
+      "step": 1060
+    },
+    {
+      "epoch": 2.2016460905349793,
+      "grad_norm": 0.14912565052509308,
+      "learning_rate": 2.2530864197530865e-05,
+      "loss": 0.284,
+      "step": 1070
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 5.384796142578125,
+      "learning_rate": 2.2273662551440332e-05,
+      "loss": 0.299,
+      "step": 1080
+    },
+    {
+      "epoch": 2.242798353909465,
+      "grad_norm": 5.962587356567383,
+      "learning_rate": 2.2016460905349796e-05,
+      "loss": 0.18,
+      "step": 1090
+    },
+    {
+      "epoch": 2.263374485596708,
+      "grad_norm": 0.7156618237495422,
+      "learning_rate": 2.175925925925926e-05,
+      "loss": 0.1559,
+      "step": 1100
+    },
+    {
+      "epoch": 2.263374485596708,
+      "eval_accuracy": 0.934402332361516,
+      "eval_loss": 0.2332872599363327,
+      "eval_runtime": 5.7482,
+      "eval_samples_per_second": 119.342,
+      "eval_steps_per_second": 14.961,
+      "step": 1100
+    },
+    {
+      "epoch": 2.2839506172839505,
+      "grad_norm": 6.270691394805908,
+      "learning_rate": 2.152777777777778e-05,
+      "loss": 0.2359,
+      "step": 1110
+    },
+    {
+      "epoch": 2.3045267489711936,
+      "grad_norm": 2.6105377674102783,
+      "learning_rate": 2.1270576131687244e-05,
+      "loss": 0.3313,
+      "step": 1120
+    },
+    {
+      "epoch": 2.325102880658436,
+      "grad_norm": 0.20199181139469147,
+      "learning_rate": 2.101337448559671e-05,
+      "loss": 0.1454,
+      "step": 1130
+    },
+    {
+      "epoch": 2.3456790123456788,
+      "grad_norm": 11.37586498260498,
+      "learning_rate": 2.0756172839506175e-05,
+      "loss": 0.4299,
+      "step": 1140
+    },
+    {
+      "epoch": 2.366255144032922,
+      "grad_norm": 0.4003171920776367,
+      "learning_rate": 2.049897119341564e-05,
+      "loss": 0.1871,
+      "step": 1150
+    },
+    {
+      "epoch": 2.386831275720165,
+      "grad_norm": 0.5666722059249878,
+      "learning_rate": 2.0241769547325103e-05,
+      "loss": 0.3776,
+      "step": 1160
+    },
+    {
+      "epoch": 2.4074074074074074,
+      "grad_norm": 13.603349685668945,
+      "learning_rate": 1.998456790123457e-05,
+      "loss": 0.3819,
+      "step": 1170
+    },
+    {
+      "epoch": 2.42798353909465,
+      "grad_norm": 0.16143706440925598,
+      "learning_rate": 1.9727366255144034e-05,
+      "loss": 0.4033,
+      "step": 1180
+    },
+    {
+      "epoch": 2.448559670781893,
+      "grad_norm": 5.120613098144531,
+      "learning_rate": 1.9470164609053498e-05,
+      "loss": 0.2198,
+      "step": 1190
+    },
+    {
+      "epoch": 2.4691358024691357,
+      "grad_norm": 2.5423364639282227,
+      "learning_rate": 1.9212962962962962e-05,
+      "loss": 0.351,
+      "step": 1200
+    },
+    {
+      "epoch": 2.4691358024691357,
+      "eval_accuracy": 0.9358600583090378,
+      "eval_loss": 0.24949392676353455,
+      "eval_runtime": 5.7687,
+      "eval_samples_per_second": 118.918,
+      "eval_steps_per_second": 14.908,
+      "step": 1200
+    },
+    {
+      "epoch": 2.4897119341563787,
+      "grad_norm": 0.5970525741577148,
+      "learning_rate": 1.895576131687243e-05,
+      "loss": 0.0758,
+      "step": 1210
+    },
+    {
+      "epoch": 2.5102880658436213,
+      "grad_norm": 0.23254498839378357,
+      "learning_rate": 1.8698559670781893e-05,
+      "loss": 0.4038,
+      "step": 1220
+    },
+    {
+      "epoch": 2.5308641975308643,
+      "grad_norm": 0.7684284448623657,
+      "learning_rate": 1.8441358024691357e-05,
+      "loss": 0.3073,
+      "step": 1230
+    },
+    {
+      "epoch": 2.551440329218107,
+      "grad_norm": 2.35357403755188,
+      "learning_rate": 1.8184156378600824e-05,
+      "loss": 0.2705,
+      "step": 1240
+    },
+    {
+      "epoch": 2.57201646090535,
+      "grad_norm": 15.403181076049805,
+      "learning_rate": 1.792695473251029e-05,
+      "loss": 0.3099,
+      "step": 1250
+    },
+    {
+      "epoch": 2.5925925925925926,
+      "grad_norm": 9.536227226257324,
+      "learning_rate": 1.7669753086419756e-05,
+      "loss": 0.1969,
+      "step": 1260
+    },
+    {
+      "epoch": 2.613168724279835,
+      "grad_norm": 0.228355273604393,
+      "learning_rate": 1.741255144032922e-05,
+      "loss": 0.2381,
+      "step": 1270
+    },
+    {
+      "epoch": 2.633744855967078,
+      "grad_norm": 7.860360145568848,
+      "learning_rate": 1.7155349794238684e-05,
+      "loss": 0.3721,
+      "step": 1280
+    },
+    {
+      "epoch": 2.6543209876543212,
+      "grad_norm": 13.305447578430176,
+      "learning_rate": 1.6898148148148148e-05,
+      "loss": 0.2834,
+      "step": 1290
+    },
+    {
+      "epoch": 2.674897119341564,
+      "grad_norm": 0.13963976502418518,
+      "learning_rate": 1.6640946502057615e-05,
+      "loss": 0.2206,
+      "step": 1300
+    },
+    {
+      "epoch": 2.674897119341564,
+      "eval_accuracy": 0.924198250728863,
+      "eval_loss": 0.26219838857650757,
+      "eval_runtime": 5.6243,
+      "eval_samples_per_second": 121.97,
+      "eval_steps_per_second": 15.291,
+      "step": 1300
+    },
+    {
+      "epoch": 2.6954732510288064,
+      "grad_norm": 7.862311840057373,
+      "learning_rate": 1.638374485596708e-05,
+      "loss": 0.2344,
+      "step": 1310
+    },
+    {
+      "epoch": 2.7160493827160495,
+      "grad_norm": 2.6695802211761475,
+      "learning_rate": 1.6126543209876543e-05,
+      "loss": 0.3519,
+      "step": 1320
+    },
+    {
+      "epoch": 2.736625514403292,
+      "grad_norm": 1.0053679943084717,
+      "learning_rate": 1.5869341563786007e-05,
+      "loss": 0.1638,
+      "step": 1330
+    },
+    {
+      "epoch": 2.757201646090535,
+      "grad_norm": 9.059231758117676,
+      "learning_rate": 1.5612139917695474e-05,
+      "loss": 0.1577,
+      "step": 1340
+    },
+    {
+      "epoch": 2.7777777777777777,
+      "grad_norm": 6.931950569152832,
+      "learning_rate": 1.5354938271604938e-05,
+      "loss": 0.1858,
+      "step": 1350
+    },
+    {
+      "epoch": 2.7983539094650207,
+      "grad_norm": 2.1699206829071045,
+      "learning_rate": 1.5097736625514405e-05,
+      "loss": 0.1309,
+      "step": 1360
+    },
+    {
+      "epoch": 2.8189300411522633,
+      "grad_norm": 2.3047924041748047,
+      "learning_rate": 1.4840534979423871e-05,
+      "loss": 0.1979,
+      "step": 1370
+    },
+    {
+      "epoch": 2.8395061728395063,
+      "grad_norm": 6.254756927490234,
+      "learning_rate": 1.4583333333333335e-05,
+      "loss": 0.1391,
+      "step": 1380
+    },
+    {
+      "epoch": 2.860082304526749,
+      "grad_norm": 20.224390029907227,
+      "learning_rate": 1.43261316872428e-05,
+      "loss": 0.1719,
+      "step": 1390
+    },
+    {
+      "epoch": 2.8806584362139915,
+      "grad_norm": 17.755252838134766,
+      "learning_rate": 1.4068930041152264e-05,
+      "loss": 0.3814,
+      "step": 1400
+    },
+    {
+      "epoch": 2.8806584362139915,
+      "eval_accuracy": 0.9154518950437318,
+      "eval_loss": 0.31383997201919556,
+      "eval_runtime": 5.7706,
+      "eval_samples_per_second": 118.878,
+      "eval_steps_per_second": 14.903,
+      "step": 1400
+    },
+    {
+      "epoch": 2.9012345679012346,
+      "grad_norm": 9.217977523803711,
+      "learning_rate": 1.381172839506173e-05,
+      "loss": 0.4575,
+      "step": 1410
+    },
+    {
+      "epoch": 2.9218106995884776,
+      "grad_norm": 13.919651985168457,
+      "learning_rate": 1.3554526748971194e-05,
+      "loss": 0.2728,
+      "step": 1420
+    },
+    {
+      "epoch": 2.94238683127572,
+      "grad_norm": 1.9513192176818848,
+      "learning_rate": 1.329732510288066e-05,
+      "loss": 0.1897,
+      "step": 1430
+    },
+    {
+      "epoch": 2.962962962962963,
+      "grad_norm": 0.12064926326274872,
+      "learning_rate": 1.3040123456790124e-05,
+      "loss": 0.1415,
+      "step": 1440
+    },
+    {
+      "epoch": 2.983539094650206,
+      "grad_norm": 0.1655590832233429,
+      "learning_rate": 1.278292181069959e-05,
+      "loss": 0.1414,
+      "step": 1450
+    },
+    {
+      "epoch": 3.0041152263374484,
+      "grad_norm": 10.342666625976562,
+      "learning_rate": 1.2525720164609053e-05,
+      "loss": 0.2966,
+      "step": 1460
+    },
+    {
+      "epoch": 3.0246913580246915,
+      "grad_norm": 0.5797888040542603,
+      "learning_rate": 1.2268518518518519e-05,
+      "loss": 0.1845,
+      "step": 1470
+    },
+    {
+      "epoch": 3.045267489711934,
+      "grad_norm": 7.389481544494629,
+      "learning_rate": 1.2011316872427984e-05,
+      "loss": 0.2512,
+      "step": 1480
+    },
+    {
+      "epoch": 3.065843621399177,
+      "grad_norm": 0.2333269566297531,
+      "learning_rate": 1.1754115226337448e-05,
+      "loss": 0.4019,
+      "step": 1490
+    },
+    {
+      "epoch": 3.0864197530864197,
+      "grad_norm": 4.2674241065979,
+      "learning_rate": 1.1496913580246914e-05,
+      "loss": 0.2141,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0864197530864197,
+      "eval_accuracy": 0.9314868804664723,
+      "eval_loss": 0.261305034160614,
+      "eval_runtime": 5.7707,
+      "eval_samples_per_second": 118.877,
+      "eval_steps_per_second": 14.903,
+      "step": 1500
+    },
+    {
+      "epoch": 3.1069958847736627,
+      "grad_norm": 0.2830299437046051,
+      "learning_rate": 1.1239711934156378e-05,
+      "loss": 0.2904,
+      "step": 1510
+    },
+    {
+      "epoch": 3.1275720164609053,
+      "grad_norm": 0.17907337844371796,
+      "learning_rate": 1.0982510288065845e-05,
+      "loss": 0.1494,
+      "step": 1520
+    },
+    {
+      "epoch": 3.148148148148148,
+      "grad_norm": 9.283103942871094,
+      "learning_rate": 1.072530864197531e-05,
+      "loss": 0.0753,
+      "step": 1530
+    },
+    {
+      "epoch": 3.168724279835391,
+      "grad_norm": 0.2662203907966614,
+      "learning_rate": 1.0468106995884775e-05,
+      "loss": 0.2067,
+      "step": 1540
+    },
+    {
+      "epoch": 3.1893004115226335,
+      "grad_norm": 6.983056545257568,
+      "learning_rate": 1.0210905349794239e-05,
+      "loss": 0.173,
+      "step": 1550
+    },
+    {
+      "epoch": 3.2098765432098766,
+      "grad_norm": 4.426745414733887,
+      "learning_rate": 9.953703703703704e-06,
+      "loss": 0.2352,
+      "step": 1560
+    },
+    {
+      "epoch": 3.230452674897119,
+      "grad_norm": 2.4332549571990967,
+      "learning_rate": 9.696502057613168e-06,
+      "loss": 0.1356,
+      "step": 1570
+    },
+    {
+      "epoch": 3.251028806584362,
+      "grad_norm": 0.45729583501815796,
+      "learning_rate": 9.439300411522634e-06,
+      "loss": 0.3083,
+      "step": 1580
+    },
+    {
+      "epoch": 3.271604938271605,
+      "grad_norm": 0.12547095119953156,
+      "learning_rate": 9.1820987654321e-06,
+      "loss": 0.1432,
+      "step": 1590
+    },
+    {
+      "epoch": 3.292181069958848,
+      "grad_norm": 0.8154440522193909,
+      "learning_rate": 8.924897119341565e-06,
+      "loss": 0.112,
+      "step": 1600
+    },
+    {
+      "epoch": 3.292181069958848,
+      "eval_accuracy": 0.9402332361516035,
+      "eval_loss": 0.22655406594276428,
+      "eval_runtime": 5.8164,
+      "eval_samples_per_second": 117.942,
+      "eval_steps_per_second": 14.786,
+      "step": 1600
+    },
+    {
+      "epoch": 3.3127572016460904,
+      "grad_norm": 0.14023926854133606,
+      "learning_rate": 8.66769547325103e-06,
+      "loss": 0.1534,
+      "step": 1610
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 6.381242275238037,
+      "learning_rate": 8.410493827160495e-06,
+      "loss": 0.1949,
+      "step": 1620
+    },
+    {
+      "epoch": 3.353909465020576,
+      "grad_norm": 0.39883196353912354,
+      "learning_rate": 8.153292181069959e-06,
+      "loss": 0.1436,
+      "step": 1630
+    },
+    {
+      "epoch": 3.374485596707819,
+      "grad_norm": 3.331747055053711,
+      "learning_rate": 7.896090534979424e-06,
+      "loss": 0.2292,
+      "step": 1640
+    },
+    {
+      "epoch": 3.3950617283950617,
+      "grad_norm": 0.16310296952724457,
+      "learning_rate": 7.63888888888889e-06,
+      "loss": 0.1053,
+      "step": 1650
+    },
+    {
+      "epoch": 3.4156378600823043,
+      "grad_norm": 13.472603797912598,
+      "learning_rate": 7.381687242798355e-06,
+      "loss": 0.1804,
+      "step": 1660
+    },
+    {
+      "epoch": 3.4362139917695473,
+      "grad_norm": 5.14309549331665,
+      "learning_rate": 7.12448559670782e-06,
+      "loss": 0.1998,
+      "step": 1670
+    },
+    {
+      "epoch": 3.45679012345679,
+      "grad_norm": 6.7929511070251465,
+      "learning_rate": 6.8672839506172845e-06,
+      "loss": 0.2037,
+      "step": 1680
+    },
+    {
+      "epoch": 3.477366255144033,
+      "grad_norm": 1.212302327156067,
+      "learning_rate": 6.635802469135803e-06,
+      "loss": 0.0803,
+      "step": 1690
+    },
+    {
+      "epoch": 3.4979423868312756,
+      "grad_norm": 0.1481838822364807,
+      "learning_rate": 6.3786008230452675e-06,
+      "loss": 0.0631,
+      "step": 1700
+    },
+    {
+      "epoch": 3.4979423868312756,
+      "eval_accuracy": 0.9402332361516035,
+      "eval_loss": 0.22551974654197693,
+      "eval_runtime": 5.7428,
+      "eval_samples_per_second": 119.454,
+      "eval_steps_per_second": 14.975,
+      "step": 1700
+    },
+    {
+      "epoch": 3.5185185185185186,
+      "grad_norm": 0.26120343804359436,
+      "learning_rate": 6.121399176954733e-06,
+      "loss": 0.3273,
+      "step": 1710
+    },
+    {
+      "epoch": 3.539094650205761,
+      "grad_norm": 11.670561790466309,
+      "learning_rate": 5.864197530864198e-06,
+      "loss": 0.2464,
+      "step": 1720
+    },
+    {
+      "epoch": 3.5596707818930042,
+      "grad_norm": 3.529303550720215,
+      "learning_rate": 5.606995884773663e-06,
+      "loss": 0.2335,
+      "step": 1730
+    },
+    {
+      "epoch": 3.580246913580247,
+      "grad_norm": 5.341615200042725,
+      "learning_rate": 5.3497942386831275e-06,
+      "loss": 0.1774,
+      "step": 1740
+    },
+    {
+      "epoch": 3.60082304526749,
+      "grad_norm": 11.935771942138672,
+      "learning_rate": 5.092592592592592e-06,
+      "loss": 0.1993,
+      "step": 1750
+    },
+    {
+      "epoch": 3.6213991769547325,
+      "grad_norm": 7.190194606781006,
+      "learning_rate": 4.835390946502058e-06,
+      "loss": 0.2104,
+      "step": 1760
+    },
+    {
+      "epoch": 3.6419753086419755,
+      "grad_norm": 0.41313230991363525,
+      "learning_rate": 4.578189300411523e-06,
+      "loss": 0.193,
+      "step": 1770
+    },
+    {
+      "epoch": 3.662551440329218,
+      "grad_norm": 0.33850809931755066,
+      "learning_rate": 4.3209876543209875e-06,
+      "loss": 0.2527,
+      "step": 1780
+    },
+    {
+      "epoch": 3.6831275720164607,
+      "grad_norm": 7.03388786315918,
+      "learning_rate": 4.063786008230453e-06,
+      "loss": 0.2271,
+      "step": 1790
+    },
+    {
+      "epoch": 3.7037037037037037,
+      "grad_norm": 1.179168939590454,
+      "learning_rate": 3.806584362139918e-06,
+      "loss": 0.1986,
+      "step": 1800
+    },
+    {
+      "epoch": 3.7037037037037037,
+      "eval_accuracy": 0.9416909620991254,
+      "eval_loss": 0.22252099215984344,
+      "eval_runtime": 5.7883,
+      "eval_samples_per_second": 118.516,
+      "eval_steps_per_second": 14.858,
+      "step": 1800
+    },
+    {
+      "epoch": 3.7242798353909468,
+      "grad_norm": 5.670774459838867,
+      "learning_rate": 3.5493827160493827e-06,
+      "loss": 0.1168,
+      "step": 1810
+    },
+    {
+      "epoch": 3.7448559670781894,
+      "grad_norm": 2.660778045654297,
+      "learning_rate": 3.2921810699588483e-06,
+      "loss": 0.1296,
+      "step": 1820
+    },
+    {
+      "epoch": 3.765432098765432,
+      "grad_norm": 5.741485118865967,
+      "learning_rate": 3.034979423868313e-06,
+      "loss": 0.222,
+      "step": 1830
+    },
+    {
+      "epoch": 3.786008230452675,
+      "grad_norm": 18.328266143798828,
+      "learning_rate": 2.777777777777778e-06,
+      "loss": 0.1688,
+      "step": 1840
+    },
+    {
+      "epoch": 3.8065843621399176,
+      "grad_norm": 13.7136869430542,
+      "learning_rate": 2.5205761316872427e-06,
+      "loss": 0.2308,
+      "step": 1850
+    },
+    {
+      "epoch": 3.8271604938271606,
+      "grad_norm": 7.43013858795166,
+      "learning_rate": 2.263374485596708e-06,
+      "loss": 0.1076,
+      "step": 1860
+    },
+    {
+      "epoch": 3.847736625514403,
+      "grad_norm": 0.5525858402252197,
+      "learning_rate": 2.0061728395061727e-06,
+      "loss": 0.2191,
+      "step": 1870
+    },
+    {
+      "epoch": 3.8683127572016462,
+      "grad_norm": 17.919668197631836,
+      "learning_rate": 1.748971193415638e-06,
+      "loss": 0.3505,
+      "step": 1880
+    },
+    {
+      "epoch": 3.888888888888889,
+      "grad_norm": 0.1572398841381073,
+      "learning_rate": 1.491769547325103e-06,
+      "loss": 0.1558,
+      "step": 1890
+    },
+    {
+      "epoch": 3.909465020576132,
+      "grad_norm": 16.84402084350586,
+      "learning_rate": 1.234567901234568e-06,
+      "loss": 0.2345,
+      "step": 1900
+    },
+    {
+      "epoch": 3.909465020576132,
+      "eval_accuracy": 0.9373177842565598,
+      "eval_loss": 0.2235153466463089,
+      "eval_runtime": 5.8914,
+      "eval_samples_per_second": 116.44,
+      "eval_steps_per_second": 14.597,
+      "step": 1900
+    },
+    {
+      "epoch": 3.9300411522633745,
+      "grad_norm": 8.612730026245117,
+      "learning_rate": 9.773662551440331e-07,
+      "loss": 0.2431,
+      "step": 1910
+    },
+    {
+      "epoch": 3.950617283950617,
+      "grad_norm": 14.113691329956055,
+      "learning_rate": 7.20164609053498e-07,
+      "loss": 0.1582,
+      "step": 1920
+    },
+    {
+      "epoch": 3.97119341563786,
+      "grad_norm": 18.373720169067383,
+      "learning_rate": 4.6296296296296297e-07,
+      "loss": 0.3902,
+      "step": 1930
+    },
+    {
+      "epoch": 3.991769547325103,
+      "grad_norm": 0.15571478009223938,
+      "learning_rate": 2.0576131687242802e-07,
+      "loss": 0.1868,
+      "step": 1940
+    },
+    {
+      "epoch": 4.0,
+      "step": 1944,
+      "total_flos": 1.2048994477712425e+18,
+      "train_loss": 0.3544519797212793,
+      "train_runtime": 505.606,
+      "train_samples_per_second": 30.751,
+      "train_steps_per_second": 3.845
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1944,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 100,
+  "total_flos": 1.2048994477712425e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d007e07ddc3a1e8e5651fde477bf71022d14fbea752379650dc256c5d0cf134a
+size 4984