Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

added_tokens.json +5 -0
gliner_config.json +141 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
special_tokens_map.json +15 -0
spm.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +75 -0
trainer_state.json +1161 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "<<ENT>>": 128001,
+  "<<SEP>>": 128002,
+  "[MASK]": 128000
+}

gliner_config.json ADDED Viewed

	@@ -0,0 +1,141 @@

+{
+  "class_token_index": 128001,
+  "dropout": 0.3,
+  "embed_ent_token": true,
+  "encoder_config": {
+    "_attn_implementation_autoset": false,
+    "_name_or_path": "microsoft/deberta-v3-base",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-07,
+    "legacy": true,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "max_relative_positions": -1,
+    "min_length": 0,
+    "model_type": "deberta-v2",
+    "no_repeat_ngram_size": 0,
+    "norm_rel_ebd": "layer_norm",
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "pooler_dropout": 0,
+    "pooler_hidden_act": "gelu",
+    "pooler_hidden_size": 768,
+    "pos_att_type": [
+      "p2c",
+      "c2p"
+    ],
+    "position_biased_input": false,
+    "position_buckets": 256,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "relative_attention": true,
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "share_att_key": true,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "type_vocab_size": 0,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "vocab_size": 128003
+  },
+  "ent_token": "<<ENT>>",
+  "eval_every": 20000,
+  "fine_tune": true,
+  "freeze_token_rep": false,
+  "fuse_layers": false,
+  "has_rnn": true,
+  "hidden_size": 512,
+  "label_smoothing": 0,
+  "labels_encoder": null,
+  "labels_encoder_config": null,
+  "log_dir": "models/",
+  "loss_alpha": 0.75,
+  "loss_gamma": 2,
+  "loss_reduction": "sum",
+  "lr_encoder": "1e-5",
+  "lr_others": "5e-5",
+  "max_grad_norm": 1.0,
+  "max_len": 2048,
+  "max_neg_type_ratio": 1,
+  "max_types": 50,
+  "max_width": 12,
+  "model_name": "microsoft/deberta-v3-base",
+  "model_type": "gliner",
+  "name": "span level gliner",
+  "num_post_fusion_layers": 1,
+  "num_steps": 80000,
+  "post_fusion_schema": "",
+  "prev_path": null,
+  "random_drop": true,
+  "root_dir": "gliner_logs",
+  "save_total_limit": 3,
+  "scheduler_type": "cosine",
+  "sep_token": "<<SEP>>",
+  "shuffle_types": true,
+  "size_sup": -1,
+  "span_mode": "markerV0",
+  "subtoken_pooling": "first",
+  "train_batch_size": 4,
+  "train_data": "data/ie_batches_8b_tuned_100k.json",
+  "transformers_version": "4.48.1",
+  "val_data_dir": "none",
+  "vocab_size": 128003,
+  "warmup_ratio": 0.1,
+  "weight_decay_encoder": 0.01,
+  "weight_decay_other": 0.01,
+  "words_splitter_type": "whitespace"
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:410ff1697596cbde00d028ce8d62729ed890d23777c581e80267199b72a83a27
+size 780781742

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89dcd75d920ff072428a791c2583b85d087c6404d507d67693acb5112c77fbf0
+size 14244

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,75 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128001": {
+      "content": "<<ENT>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128002": {
+      "content": "<<SEP>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1161 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.802654408616688,
+  "eval_steps": 500,
+  "global_step": 80000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011266590053854301,
+      "grad_norm": 3268.47607421875,
+      "learning_rate": 3.125e-06,
+      "loss": 80243.872,
+      "step": 500
+    },
+    {
+      "epoch": 0.022533180107708602,
+      "grad_norm": 1101.09423828125,
+      "learning_rate": 6.25e-06,
+      "loss": 455.9426,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0337997701615629,
+      "grad_norm": 1345.1741943359375,
+      "learning_rate": 9.375000000000001e-06,
+      "loss": 398.2565,
+      "step": 1500
+    },
+    {
+      "epoch": 0.045066360215417205,
+      "grad_norm": 957.8522338867188,
+      "learning_rate": 1.25e-05,
+      "loss": 361.662,
+      "step": 2000
+    },
+    {
+      "epoch": 0.0563329502692715,
+      "grad_norm": 1153.3565673828125,
+      "learning_rate": 1.5625e-05,
+      "loss": 351.6057,
+      "step": 2500
+    },
+    {
+      "epoch": 0.0675995403231258,
+      "grad_norm": 3220.947021484375,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 324.4043,
+      "step": 3000
+    },
+    {
+      "epoch": 0.0788661303769801,
+      "grad_norm": 1318.7249755859375,
+      "learning_rate": 2.1875e-05,
+      "loss": 303.6339,
+      "step": 3500
+    },
+    {
+      "epoch": 0.09013272043083441,
+      "grad_norm": 1085.81982421875,
+      "learning_rate": 2.5e-05,
+      "loss": 290.8328,
+      "step": 4000
+    },
+    {
+      "epoch": 0.1013993104846887,
+      "grad_norm": 1732.97412109375,
+      "learning_rate": 2.8125000000000003e-05,
+      "loss": 286.8244,
+      "step": 4500
+    },
+    {
+      "epoch": 0.112665900538543,
+      "grad_norm": 1018.1327514648438,
+      "learning_rate": 3.125e-05,
+      "loss": 274.4126,
+      "step": 5000
+    },
+    {
+      "epoch": 0.1239324905923973,
+      "grad_norm": 1115.255859375,
+      "learning_rate": 3.4375e-05,
+      "loss": 258.1825,
+      "step": 5500
+    },
+    {
+      "epoch": 0.1351990806462516,
+      "grad_norm": 2264.675537109375,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 249.4162,
+      "step": 6000
+    },
+    {
+      "epoch": 0.1464656707001059,
+      "grad_norm": 1202.668212890625,
+      "learning_rate": 4.0625000000000005e-05,
+      "loss": 238.756,
+      "step": 6500
+    },
+    {
+      "epoch": 0.1577322607539602,
+      "grad_norm": 1271.8997802734375,
+      "learning_rate": 4.375e-05,
+      "loss": 234.6415,
+      "step": 7000
+    },
+    {
+      "epoch": 0.16899885080781452,
+      "grad_norm": 880.48291015625,
+      "learning_rate": 4.6875e-05,
+      "loss": 220.2277,
+      "step": 7500
+    },
+    {
+      "epoch": 0.18026544086166882,
+      "grad_norm": 1199.511962890625,
+      "learning_rate": 5e-05,
+      "loss": 212.284,
+      "step": 8000
+    },
+    {
+      "epoch": 0.19153203091552312,
+      "grad_norm": 885.7015991210938,
+      "learning_rate": 4.999405067699773e-05,
+      "loss": 197.9255,
+      "step": 8500
+    },
+    {
+      "epoch": 0.2027986209693774,
+      "grad_norm": 1130.3941650390625,
+      "learning_rate": 4.997620553954645e-05,
+      "loss": 201.8366,
+      "step": 9000
+    },
+    {
+      "epoch": 0.2140652110232317,
+      "grad_norm": 1032.0145263671875,
+      "learning_rate": 4.994647308096509e-05,
+      "loss": 195.4686,
+      "step": 9500
+    },
+    {
+      "epoch": 0.225331801077086,
+      "grad_norm": 1835.482666015625,
+      "learning_rate": 4.990486745229364e-05,
+      "loss": 186.7062,
+      "step": 10000
+    },
+    {
+      "epoch": 0.2365983911309403,
+      "grad_norm": 1477.0096435546875,
+      "learning_rate": 4.985140845555799e-05,
+      "loss": 188.2111,
+      "step": 10500
+    },
+    {
+      "epoch": 0.2478649811847946,
+      "grad_norm": 688.68310546875,
+      "learning_rate": 4.9786121534345265e-05,
+      "loss": 180.3121,
+      "step": 11000
+    },
+    {
+      "epoch": 0.2591315712386489,
+      "grad_norm": 1981.5882568359375,
+      "learning_rate": 4.970903776169402e-05,
+      "loss": 171.624,
+      "step": 11500
+    },
+    {
+      "epoch": 0.2703981612925032,
+      "grad_norm": 1986.2034912109375,
+      "learning_rate": 4.962019382530521e-05,
+      "loss": 178.433,
+      "step": 12000
+    },
+    {
+      "epoch": 0.2816647513463575,
+      "grad_norm": 1576.7353515625,
+      "learning_rate": 4.951963201008076e-05,
+      "loss": 164.5357,
+      "step": 12500
+    },
+    {
+      "epoch": 0.2929313414002118,
+      "grad_norm": 1520.091796875,
+      "learning_rate": 4.940740017799833e-05,
+      "loss": 162.9244,
+      "step": 13000
+    },
+    {
+      "epoch": 0.3041979314540661,
+      "grad_norm": 1361.819091796875,
+      "learning_rate": 4.9283551745331534e-05,
+      "loss": 164.2202,
+      "step": 13500
+    },
+    {
+      "epoch": 0.3154645215079204,
+      "grad_norm": 1085.12548828125,
+      "learning_rate": 4.914814565722671e-05,
+      "loss": 164.809,
+      "step": 14000
+    },
+    {
+      "epoch": 0.3267311115617747,
+      "grad_norm": 1452.0218505859375,
+      "learning_rate": 4.9001246359648224e-05,
+      "loss": 162.6041,
+      "step": 14500
+    },
+    {
+      "epoch": 0.33799770161562903,
+      "grad_norm": 1728.5352783203125,
+      "learning_rate": 4.884292376870567e-05,
+      "loss": 156.4712,
+      "step": 15000
+    },
+    {
+      "epoch": 0.3492642916694833,
+      "grad_norm": 1888.999267578125,
+      "learning_rate": 4.867325323737765e-05,
+      "loss": 151.6581,
+      "step": 15500
+    },
+    {
+      "epoch": 0.36053088172333764,
+      "grad_norm": 1127.0830078125,
+      "learning_rate": 4.849231551964771e-05,
+      "loss": 154.7625,
+      "step": 16000
+    },
+    {
+      "epoch": 0.3717974717771919,
+      "grad_norm": 1579.301513671875,
+      "learning_rate": 4.830019673206997e-05,
+      "loss": 158.3963,
+      "step": 16500
+    },
+    {
+      "epoch": 0.38306406183104624,
+      "grad_norm": 1466.5936279296875,
+      "learning_rate": 4.8096988312782174e-05,
+      "loss": 151.9632,
+      "step": 17000
+    },
+    {
+      "epoch": 0.3943306518849005,
+      "grad_norm": 1501.413330078125,
+      "learning_rate": 4.788278697798618e-05,
+      "loss": 152.0479,
+      "step": 17500
+    },
+    {
+      "epoch": 0.4055972419387548,
+      "grad_norm": 938.9967651367188,
+      "learning_rate": 4.765769467591625e-05,
+      "loss": 147.7795,
+      "step": 18000
+    },
+    {
+      "epoch": 0.4168638319926091,
+      "grad_norm": 1407.6708984375,
+      "learning_rate": 4.742181853831721e-05,
+      "loss": 145.714,
+      "step": 18500
+    },
+    {
+      "epoch": 0.4281304220464634,
+      "grad_norm": 1046.4781494140625,
+      "learning_rate": 4.717527082945554e-05,
+      "loss": 147.87,
+      "step": 19000
+    },
+    {
+      "epoch": 0.43939701210031773,
+      "grad_norm": 1437.9764404296875,
+      "learning_rate": 4.69181688926877e-05,
+      "loss": 139.7023,
+      "step": 19500
+    },
+    {
+      "epoch": 0.450663602154172,
+      "grad_norm": 1155.10595703125,
+      "learning_rate": 4.665063509461097e-05,
+      "loss": 146.1232,
+      "step": 20000
+    },
+    {
+      "epoch": 0.46193019220802634,
+      "grad_norm": 1317.321044921875,
+      "learning_rate": 4.637279676682367e-05,
+      "loss": 139.9448,
+      "step": 20500
+    },
+    {
+      "epoch": 0.4731967822618806,
+      "grad_norm": 1005.6251831054688,
+      "learning_rate": 4.608478614532215e-05,
+      "loss": 142.7613,
+      "step": 21000
+    },
+    {
+      "epoch": 0.48446337231573494,
+      "grad_norm": 2557.992919921875,
+      "learning_rate": 4.5786740307563636e-05,
+      "loss": 139.5429,
+      "step": 21500
+    },
+    {
+      "epoch": 0.4957299623695892,
+      "grad_norm": 1912.8707275390625,
+      "learning_rate": 4.54788011072248e-05,
+      "loss": 138.4188,
+      "step": 22000
+    },
+    {
+      "epoch": 0.5069965524234435,
+      "grad_norm": 1349.5655517578125,
+      "learning_rate": 4.516111510668707e-05,
+      "loss": 135.984,
+      "step": 22500
+    },
+    {
+      "epoch": 0.5182631424772978,
+      "grad_norm": 2255.250732421875,
+      "learning_rate": 4.4833833507280884e-05,
+      "loss": 136.2522,
+      "step": 23000
+    },
+    {
+      "epoch": 0.5295297325311521,
+      "grad_norm": 947.2132568359375,
+      "learning_rate": 4.4497112077322044e-05,
+      "loss": 135.873,
+      "step": 23500
+    },
+    {
+      "epoch": 0.5407963225850064,
+      "grad_norm": 1092.2021484375,
+      "learning_rate": 4.415111107797445e-05,
+      "loss": 136.0968,
+      "step": 24000
+    },
+    {
+      "epoch": 0.5520629126388608,
+      "grad_norm": 2551.856201171875,
+      "learning_rate": 4.379599518697444e-05,
+      "loss": 133.4127,
+      "step": 24500
+    },
+    {
+      "epoch": 0.563329502692715,
+      "grad_norm": 1087.750732421875,
+      "learning_rate": 4.34319334202531e-05,
+      "loss": 137.0111,
+      "step": 25000
+    },
+    {
+      "epoch": 0.5745960927465693,
+      "grad_norm": 710.9840698242188,
+      "learning_rate": 4.305909905149389e-05,
+      "loss": 128.7961,
+      "step": 25500
+    },
+    {
+      "epoch": 0.5858626828004236,
+      "grad_norm": 1028.0732421875,
+      "learning_rate": 4.267766952966369e-05,
+      "loss": 131.5538,
+      "step": 26000
+    },
+    {
+      "epoch": 0.597129272854278,
+      "grad_norm": 1650.9874267578125,
+      "learning_rate": 4.228782639455674e-05,
+      "loss": 131.9968,
+      "step": 26500
+    },
+    {
+      "epoch": 0.6083958629081322,
+      "grad_norm": 3326.53564453125,
+      "learning_rate": 4.188975519039151e-05,
+      "loss": 129.6315,
+      "step": 27000
+    },
+    {
+      "epoch": 0.6196624529619865,
+      "grad_norm": 2218.9794921875,
+      "learning_rate": 4.148364537750172e-05,
+      "loss": 126.7289,
+      "step": 27500
+    },
+    {
+      "epoch": 0.6309290430158409,
+      "grad_norm": 1092.4063720703125,
+      "learning_rate": 4.1069690242163484e-05,
+      "loss": 131.7434,
+      "step": 28000
+    },
+    {
+      "epoch": 0.6421956330696951,
+      "grad_norm": 1642.626220703125,
+      "learning_rate": 4.064808680460148e-05,
+      "loss": 131.2289,
+      "step": 28500
+    },
+    {
+      "epoch": 0.6534622231235494,
+      "grad_norm": 2752.57470703125,
+      "learning_rate": 4.021903572521802e-05,
+      "loss": 125.4669,
+      "step": 29000
+    },
+    {
+      "epoch": 0.6647288131774037,
+      "grad_norm": 2134.545654296875,
+      "learning_rate": 3.978274120908956e-05,
+      "loss": 128.8268,
+      "step": 29500
+    },
+    {
+      "epoch": 0.6759954032312581,
+      "grad_norm": 1844.7005615234375,
+      "learning_rate": 3.933941090877615e-05,
+      "loss": 126.0543,
+      "step": 30000
+    },
+    {
+      "epoch": 0.6872619932851123,
+      "grad_norm": 911.3765869140625,
+      "learning_rate": 3.888925582549006e-05,
+      "loss": 124.5692,
+      "step": 30500
+    },
+    {
+      "epoch": 0.6985285833389666,
+      "grad_norm": 1240.784423828125,
+      "learning_rate": 3.84324902086706e-05,
+      "loss": 129.9127,
+      "step": 31000
+    },
+    {
+      "epoch": 0.7097951733928209,
+      "grad_norm": 1387.1654052734375,
+      "learning_rate": 3.796933145401304e-05,
+      "loss": 128.229,
+      "step": 31500
+    },
+    {
+      "epoch": 0.7210617634466753,
+      "grad_norm": 5207.958984375,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 123.6102,
+      "step": 32000
+    },
+    {
+      "epoch": 0.7323283535005295,
+      "grad_norm": 1478.238525390625,
+      "learning_rate": 3.702471922298469e-05,
+      "loss": 122.5027,
+      "step": 32500
+    },
+    {
+      "epoch": 0.7435949435543838,
+      "grad_norm": 1219.868408203125,
+      "learning_rate": 3.654371533087586e-05,
+      "loss": 121.6549,
+      "step": 33000
+    },
+    {
+      "epoch": 0.7548615336082382,
+      "grad_norm": 1724.080078125,
+      "learning_rate": 3.6057217255475034e-05,
+      "loss": 122.2066,
+      "step": 33500
+    },
+    {
+      "epoch": 0.7661281236620925,
+      "grad_norm": 2315.779052734375,
+      "learning_rate": 3.556545654351749e-05,
+      "loss": 124.5871,
+      "step": 34000
+    },
+    {
+      "epoch": 0.7773947137159467,
+      "grad_norm": 1415.927978515625,
+      "learning_rate": 3.5068667246468436e-05,
+      "loss": 119.864,
+      "step": 34500
+    },
+    {
+      "epoch": 0.788661303769801,
+      "grad_norm": 2292.79736328125,
+      "learning_rate": 3.456708580912725e-05,
+      "loss": 124.4397,
+      "step": 35000
+    },
+    {
+      "epoch": 0.7999278938236554,
+      "grad_norm": 2198.923583984375,
+      "learning_rate": 3.406095095709254e-05,
+      "loss": 119.8706,
+      "step": 35500
+    },
+    {
+      "epoch": 0.8111944838775096,
+      "grad_norm": 774.8341064453125,
+      "learning_rate": 3.355050358314172e-05,
+      "loss": 122.3335,
+      "step": 36000
+    },
+    {
+      "epoch": 0.8224610739313639,
+      "grad_norm": 1356.7291259765625,
+      "learning_rate": 3.303598663257904e-05,
+      "loss": 117.6119,
+      "step": 36500
+    },
+    {
+      "epoch": 0.8337276639852182,
+      "grad_norm": 0.0,
+      "learning_rate": 3.251764498760683e-05,
+      "loss": 122.5679,
+      "step": 37000
+    },
+    {
+      "epoch": 0.8449942540390726,
+      "grad_norm": 0.0,
+      "learning_rate": 3.1995725350774806e-05,
+      "loss": 116.4365,
+      "step": 37500
+    },
+    {
+      "epoch": 0.8562608440929268,
+      "grad_norm": 1365.280517578125,
+      "learning_rate": 3.147047612756302e-05,
+      "loss": 119.871,
+      "step": 38000
+    },
+    {
+      "epoch": 0.8675274341467811,
+      "grad_norm": 1635.288330078125,
+      "learning_rate": 3.094214730815433e-05,
+      "loss": 116.4286,
+      "step": 38500
+    },
+    {
+      "epoch": 0.8787940242006355,
+      "grad_norm": 1430.511962890625,
+      "learning_rate": 3.0410990348452573e-05,
+      "loss": 113.9206,
+      "step": 39000
+    },
+    {
+      "epoch": 0.8900606142544898,
+      "grad_norm": 1990.450927734375,
+      "learning_rate": 2.9877258050403212e-05,
+      "loss": 118.977,
+      "step": 39500
+    },
+    {
+      "epoch": 0.901327204308344,
+      "grad_norm": 875.0726928710938,
+      "learning_rate": 2.9341204441673266e-05,
+      "loss": 114.4106,
+      "step": 40000
+    },
+    {
+      "epoch": 0.9125937943621983,
+      "grad_norm": 1655.7935791015625,
+      "learning_rate": 2.8803084654747918e-05,
+      "loss": 115.3111,
+      "step": 40500
+    },
+    {
+      "epoch": 0.9238603844160527,
+      "grad_norm": 1956.72216796875,
+      "learning_rate": 2.8263154805501297e-05,
+      "loss": 117.3135,
+      "step": 41000
+    },
+    {
+      "epoch": 0.9351269744699069,
+      "grad_norm": 937.9488525390625,
+      "learning_rate": 2.7721671871299116e-05,
+      "loss": 116.4852,
+      "step": 41500
+    },
+    {
+      "epoch": 0.9463935645237612,
+      "grad_norm": 1579.9736328125,
+      "learning_rate": 2.717889356869146e-05,
+      "loss": 118.1533,
+      "step": 42000
+    },
+    {
+      "epoch": 0.9576601545776156,
+      "grad_norm": 1284.749755859375,
+      "learning_rate": 2.663507823075358e-05,
+      "loss": 113.1541,
+      "step": 42500
+    },
+    {
+      "epoch": 0.9689267446314699,
+      "grad_norm": 1050.632080078125,
+      "learning_rate": 2.6090484684133404e-05,
+      "loss": 115.3209,
+      "step": 43000
+    },
+    {
+      "epoch": 0.9801933346853241,
+      "grad_norm": 1058.0616455078125,
+      "learning_rate": 2.5545372125864032e-05,
+      "loss": 119.323,
+      "step": 43500
+    },
+    {
+      "epoch": 0.9914599247391784,
+      "grad_norm": 1310.6236572265625,
+      "learning_rate": 2.5e-05,
+      "loss": 111.4601,
+      "step": 44000
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 114.70393371582031,
+      "eval_runtime": 1385.5714,
+      "eval_samples_per_second": 14.238,
+      "eval_steps_per_second": 3.56,
+      "step": 44379
+    },
+    {
+      "epoch": 1.0027265147930327,
+      "grad_norm": 1699.930419921875,
+      "learning_rate": 2.4454627874135974e-05,
+      "loss": 111.6484,
+      "step": 44500
+    },
+    {
+      "epoch": 1.013993104846887,
+      "grad_norm": 0.0,
+      "learning_rate": 2.3909515315866605e-05,
+      "loss": 111.7967,
+      "step": 45000
+    },
+    {
+      "epoch": 1.0252596949007413,
+      "grad_norm": 1440.404052734375,
+      "learning_rate": 2.3364921769246423e-05,
+      "loss": 107.7449,
+      "step": 45500
+    },
+    {
+      "epoch": 1.0365262849545958,
+      "grad_norm": 1180.1439208984375,
+      "learning_rate": 2.2821106431308544e-05,
+      "loss": 109.0394,
+      "step": 46000
+    },
+    {
+      "epoch": 1.04779287500845,
+      "grad_norm": 1600.07568359375,
+      "learning_rate": 2.2278328128700893e-05,
+      "loss": 104.1056,
+      "step": 46500
+    },
+    {
+      "epoch": 1.0590594650623042,
+      "grad_norm": 1731.480224609375,
+      "learning_rate": 2.173684519449872e-05,
+      "loss": 106.6714,
+      "step": 47000
+    },
+    {
+      "epoch": 1.0703260551161586,
+      "grad_norm": 955.4271240234375,
+      "learning_rate": 2.1196915345252084e-05,
+      "loss": 105.6627,
+      "step": 47500
+    },
+    {
+      "epoch": 1.0815926451700129,
+      "grad_norm": 2818.5283203125,
+      "learning_rate": 2.0658795558326743e-05,
+      "loss": 106.0866,
+      "step": 48000
+    },
+    {
+      "epoch": 1.092859235223867,
+      "grad_norm": 806.58447265625,
+      "learning_rate": 2.0122741949596797e-05,
+      "loss": 111.0945,
+      "step": 48500
+    },
+    {
+      "epoch": 1.1041258252777215,
+      "grad_norm": 1397.9573974609375,
+      "learning_rate": 1.958900965154743e-05,
+      "loss": 104.8343,
+      "step": 49000
+    },
+    {
+      "epoch": 1.1153924153315757,
+      "grad_norm": 827.4343872070312,
+      "learning_rate": 1.9057852691845677e-05,
+      "loss": 103.2378,
+      "step": 49500
+    },
+    {
+      "epoch": 1.12665900538543,
+      "grad_norm": 2430.602294921875,
+      "learning_rate": 1.852952387243698e-05,
+      "loss": 107.4349,
+      "step": 50000
+    },
+    {
+      "epoch": 1.1379255954392844,
+      "grad_norm": 1653.0751953125,
+      "learning_rate": 1.80042746492252e-05,
+      "loss": 111.0688,
+      "step": 50500
+    },
+    {
+      "epoch": 1.1491921854931386,
+      "grad_norm": 1318.4361572265625,
+      "learning_rate": 1.7482355012393177e-05,
+      "loss": 107.7423,
+      "step": 51000
+    },
+    {
+      "epoch": 1.160458775546993,
+      "grad_norm": 1956.568603515625,
+      "learning_rate": 1.6964013367420966e-05,
+      "loss": 103.8008,
+      "step": 51500
+    },
+    {
+      "epoch": 1.1717253656008473,
+      "grad_norm": 764.591552734375,
+      "learning_rate": 1.6449496416858284e-05,
+      "loss": 104.8202,
+      "step": 52000
+    },
+    {
+      "epoch": 1.1829919556547015,
+      "grad_norm": 1741.2701416015625,
+      "learning_rate": 1.5939049042907462e-05,
+      "loss": 107.5796,
+      "step": 52500
+    },
+    {
+      "epoch": 1.194258545708556,
+      "grad_norm": 2550.640625,
+      "learning_rate": 1.5432914190872757e-05,
+      "loss": 101.9078,
+      "step": 53000
+    },
+    {
+      "epoch": 1.2055251357624102,
+      "grad_norm": 698.9768676757812,
+      "learning_rate": 1.4931332753531574e-05,
+      "loss": 108.1872,
+      "step": 53500
+    },
+    {
+      "epoch": 1.2167917258162644,
+      "grad_norm": 3405.810546875,
+      "learning_rate": 1.443454345648252e-05,
+      "loss": 99.6448,
+      "step": 54000
+    },
+    {
+      "epoch": 1.2280583158701188,
+      "grad_norm": 3267.17236328125,
+      "learning_rate": 1.3942782744524973e-05,
+      "loss": 108.0154,
+      "step": 54500
+    },
+    {
+      "epoch": 1.239324905923973,
+      "grad_norm": 1127.849853515625,
+      "learning_rate": 1.3456284669124158e-05,
+      "loss": 100.0244,
+      "step": 55000
+    },
+    {
+      "epoch": 1.2505914959778273,
+      "grad_norm": 1082.1241455078125,
+      "learning_rate": 1.2975280777015314e-05,
+      "loss": 104.4581,
+      "step": 55500
+    },
+    {
+      "epoch": 1.2618580860316817,
+      "grad_norm": 1860.104248046875,
+      "learning_rate": 1.2500000000000006e-05,
+      "loss": 103.1496,
+      "step": 56000
+    },
+    {
+      "epoch": 1.273124676085536,
+      "grad_norm": 1682.26708984375,
+      "learning_rate": 1.2030668545986959e-05,
+      "loss": 107.3074,
+      "step": 56500
+    },
+    {
+      "epoch": 1.2843912661393904,
+      "grad_norm": 616.0757446289062,
+      "learning_rate": 1.1567509791329401e-05,
+      "loss": 102.4632,
+      "step": 57000
+    },
+    {
+      "epoch": 1.2956578561932446,
+      "grad_norm": 624.0526733398438,
+      "learning_rate": 1.1110744174509952e-05,
+      "loss": 100.0244,
+      "step": 57500
+    },
+    {
+      "epoch": 1.3069244462470988,
+      "grad_norm": 1387.1529541015625,
+      "learning_rate": 1.0660589091223855e-05,
+      "loss": 105.9446,
+      "step": 58000
+    },
+    {
+      "epoch": 1.318191036300953,
+      "grad_norm": 1828.0877685546875,
+      "learning_rate": 1.0217258790910448e-05,
+      "loss": 104.6986,
+      "step": 58500
+    },
+    {
+      "epoch": 1.3294576263548075,
+      "grad_norm": 650.5953369140625,
+      "learning_rate": 9.780964274781984e-06,
+      "loss": 105.4167,
+      "step": 59000
+    },
+    {
+      "epoch": 1.3407242164086617,
+      "grad_norm": 996.328125,
+      "learning_rate": 9.351913195398524e-06,
+      "loss": 103.2462,
+      "step": 59500
+    },
+    {
+      "epoch": 1.3519908064625161,
+      "grad_norm": 1035.3780517578125,
+      "learning_rate": 8.930309757836517e-06,
+      "loss": 103.7156,
+      "step": 60000
+    },
+    {
+      "epoch": 1.3632573965163703,
+      "grad_norm": 1865.9571533203125,
+      "learning_rate": 8.51635462249828e-06,
+      "loss": 105.3619,
+      "step": 60500
+    },
+    {
+      "epoch": 1.3745239865702246,
+      "grad_norm": 2139.88671875,
+      "learning_rate": 8.110244809608495e-06,
+      "loss": 103.2506,
+      "step": 61000
+    },
+    {
+      "epoch": 1.385790576624079,
+      "grad_norm": 2942.61083984375,
+      "learning_rate": 7.712173605443269e-06,
+      "loss": 102.9886,
+      "step": 61500
+    },
+    {
+      "epoch": 1.3970571666779332,
+      "grad_norm": 415.38153076171875,
+      "learning_rate": 7.3223304703363135e-06,
+      "loss": 102.6045,
+      "step": 62000
+    },
+    {
+      "epoch": 1.4083237567317877,
+      "grad_norm": 1247.396728515625,
+      "learning_rate": 6.940900948506113e-06,
+      "loss": 102.5344,
+      "step": 62500
+    },
+    {
+      "epoch": 1.4195903467856419,
+      "grad_norm": 740.3623046875,
+      "learning_rate": 6.568066579746901e-06,
+      "loss": 104.4504,
+      "step": 63000
+    },
+    {
+      "epoch": 1.430856936839496,
+      "grad_norm": 1221.581298828125,
+      "learning_rate": 6.204004813025568e-06,
+      "loss": 101.7631,
+      "step": 63500
+    },
+    {
+      "epoch": 1.4421235268933503,
+      "grad_norm": 1514.0115966796875,
+      "learning_rate": 5.848888922025553e-06,
+      "loss": 99.2285,
+      "step": 64000
+    },
+    {
+      "epoch": 1.4533901169472048,
+      "grad_norm": 821.0801391601562,
+      "learning_rate": 5.50288792267796e-06,
+      "loss": 102.3846,
+      "step": 64500
+    },
+    {
+      "epoch": 1.464656707001059,
+      "grad_norm": 1313.3104248046875,
+      "learning_rate": 5.166166492719124e-06,
+      "loss": 103.6035,
+      "step": 65000
+    },
+    {
+      "epoch": 1.4759232970549134,
+      "grad_norm": 1329.42919921875,
+      "learning_rate": 4.8388848933129335e-06,
+      "loss": 104.2133,
+      "step": 65500
+    },
+    {
+      "epoch": 1.4871898871087676,
+      "grad_norm": 3106.43505859375,
+      "learning_rate": 4.521198892775203e-06,
+      "loss": 100.1638,
+      "step": 66000
+    },
+    {
+      "epoch": 1.4984564771626219,
+      "grad_norm": 996.626220703125,
+      "learning_rate": 4.213259692436367e-06,
+      "loss": 97.5407,
+      "step": 66500
+    },
+    {
+      "epoch": 1.5097230672164763,
+      "grad_norm": 1821.3323974609375,
+      "learning_rate": 3.9152138546778625e-06,
+      "loss": 102.4095,
+      "step": 67000
+    },
+    {
+      "epoch": 1.5209896572703305,
+      "grad_norm": 1764.0323486328125,
+      "learning_rate": 3.6272032331763408e-06,
+      "loss": 96.4079,
+      "step": 67500
+    },
+    {
+      "epoch": 1.532256247324185,
+      "grad_norm": 1377.978271484375,
+      "learning_rate": 3.3493649053890326e-06,
+      "loss": 104.5846,
+      "step": 68000
+    },
+    {
+      "epoch": 1.5435228373780392,
+      "grad_norm": 1291.5908203125,
+      "learning_rate": 3.081831107312308e-06,
+      "loss": 100.9904,
+      "step": 68500
+    },
+    {
+      "epoch": 1.5547894274318934,
+      "grad_norm": 2216.6796875,
+      "learning_rate": 2.8247291705444575e-06,
+      "loss": 99.7059,
+      "step": 69000
+    },
+    {
+      "epoch": 1.5660560174857476,
+      "grad_norm": 1271.5609130859375,
+      "learning_rate": 2.578181461682794e-06,
+      "loss": 99.0976,
+      "step": 69500
+    },
+    {
+      "epoch": 1.577322607539602,
+      "grad_norm": 2712.908203125,
+      "learning_rate": 2.3423053240837515e-06,
+      "loss": 99.1392,
+      "step": 70000
+    },
+    {
+      "epoch": 1.5885891975934565,
+      "grad_norm": 1653.12890625,
+      "learning_rate": 2.1172130220138226e-06,
+      "loss": 101.0942,
+      "step": 70500
+    },
+    {
+      "epoch": 1.5998557876473107,
+      "grad_norm": 1816.012451171875,
+      "learning_rate": 1.9030116872178316e-06,
+      "loss": 99.6448,
+      "step": 71000
+    },
+    {
+      "epoch": 1.611122377701165,
+      "grad_norm": 1233.8719482421875,
+      "learning_rate": 1.6998032679300391e-06,
+      "loss": 101.785,
+      "step": 71500
+    },
+    {
+      "epoch": 1.6223889677550192,
+      "grad_norm": 988.7132568359375,
+      "learning_rate": 1.5076844803522922e-06,
+      "loss": 95.7829,
+      "step": 72000
+    },
+    {
+      "epoch": 1.6336555578088736,
+      "grad_norm": 1261.22021484375,
+      "learning_rate": 1.3267467626223606e-06,
+      "loss": 105.201,
+      "step": 72500
+    },
+    {
+      "epoch": 1.6449221478627278,
+      "grad_norm": 934.3240966796875,
+      "learning_rate": 1.1570762312943295e-06,
+      "loss": 98.9473,
+      "step": 73000
+    },
+    {
+      "epoch": 1.6561887379165823,
+      "grad_norm": 664.5089111328125,
+      "learning_rate": 9.98753640351785e-07,
+      "loss": 95.5199,
+      "step": 73500
+    },
+    {
+      "epoch": 1.6674553279704365,
+      "grad_norm": 1963.7371826171875,
+      "learning_rate": 8.51854342773295e-07,
+      "loss": 101.1854,
+      "step": 74000
+    },
+    {
+      "epoch": 1.6787219180242907,
+      "grad_norm": 2443.130126953125,
+      "learning_rate": 7.164482546684642e-07,
+      "loss": 97.2825,
+      "step": 74500
+    },
+    {
+      "epoch": 1.689988508078145,
+      "grad_norm": 1137.326416015625,
+      "learning_rate": 5.925998220016659e-07,
+      "loss": 100.3116,
+      "step": 75000
+    },
+    {
+      "epoch": 1.7012550981319994,
+      "grad_norm": 1520.0399169921875,
+      "learning_rate": 4.803679899192392e-07,
+      "loss": 100.4226,
+      "step": 75500
+    },
+    {
+      "epoch": 1.7125216881858538,
+      "grad_norm": 1065.4630126953125,
+      "learning_rate": 3.7980617469479953e-07,
+      "loss": 101.6046,
+      "step": 76000
+    },
+    {
+      "epoch": 1.723788278239708,
+      "grad_norm": 1042.942138671875,
+      "learning_rate": 2.909622383059835e-07,
+      "loss": 99.1135,
+      "step": 76500
+    },
+    {
+      "epoch": 1.7350548682935623,
+      "grad_norm": 841.5830078125,
+      "learning_rate": 2.1387846565474045e-07,
+      "loss": 101.7611,
+      "step": 77000
+    },
+    {
+      "epoch": 1.7463214583474165,
+      "grad_norm": 3369.8330078125,
+      "learning_rate": 1.4859154444200884e-07,
+      "loss": 99.4417,
+      "step": 77500
+    },
+    {
+      "epoch": 1.757588048401271,
+      "grad_norm": 2432.385498046875,
+      "learning_rate": 9.513254770636137e-08,
+      "loss": 100.2592,
+      "step": 78000
+    },
+    {
+      "epoch": 1.7688546384551251,
+      "grad_norm": 1680.1993408203125,
+      "learning_rate": 5.352691903491303e-08,
+      "loss": 98.8878,
+      "step": 78500
+    },
+    {
+      "epoch": 1.7801212285089796,
+      "grad_norm": 682.8377075195312,
+      "learning_rate": 2.3794460453555047e-08,
+      "loss": 97.455,
+      "step": 79000
+    },
+    {
+      "epoch": 1.7913878185628338,
+      "grad_norm": 0.0,
+      "learning_rate": 5.94932300227169e-09,
+      "loss": 102.4157,
+      "step": 79500
+    },
+    {
+      "epoch": 1.802654408616688,
+      "grad_norm": 3429.1298828125,
+      "learning_rate": 0.0,
+      "loss": 97.4711,
+      "step": 80000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 80000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 20000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}