Training in progress, step 716, checkpoint

Browse files

Files changed (16) hide show

checkpoint-716/1_Pooling/config.json +10 -0
checkpoint-716/added_tokens.json +3 -0
checkpoint-716/config.json +35 -0
checkpoint-716/config_sentence_transformers.json +10 -0
checkpoint-716/modules.json +14 -0
checkpoint-716/optimizer.pt +3 -0
checkpoint-716/pytorch_model.bin +3 -0
checkpoint-716/rng_state.pth +3 -0
checkpoint-716/scheduler.pt +3 -0
checkpoint-716/sentence_bert_config.json +4 -0
checkpoint-716/special_tokens_map.json +51 -0
checkpoint-716/spm.model +3 -0
checkpoint-716/tokenizer.json +0 -0
checkpoint-716/tokenizer_config.json +65 -0
checkpoint-716/trainer_state.json +858 -0
checkpoint-716/training_args.bin +3 -0

checkpoint-716/1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 768,
+  "pooling_mode_cls_token": false,
+  "pooling_mode_mean_tokens": true,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

checkpoint-716/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-716/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "bobox/DeBERTa-ST-AllLayers-v3-checkpoints-tmp",
+  "architectures": [
+    "DebertaV2Model"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-716/config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "3.0.1",
+    "transformers": "4.41.2",
+    "pytorch": "2.3.0+cu121"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": null
+}

checkpoint-716/modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  }
+]

checkpoint-716/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41596b0669a785028a6375835bf7dd69c5416745370e8e0c88cef703219a8abf
+size 1130520122

checkpoint-716/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:321e5203f313bcf7d364114ca08e3b34977f8816dc017487429467dd10658bc3
+size 565251810

checkpoint-716/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dea2550c7aaa22352b073afcd46bcc4207f5b341a2aef20a2620daa43b62f853
+size 14244

checkpoint-716/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:59aaab6983107b79b258f60a9fd2e0784eebfa8d3263a57407c94cd5178be0d7
+size 1064

checkpoint-716/sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

checkpoint-716/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-716/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-716/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-716/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "max_length": 512,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "stride": 0,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-716/trainer_state.json ADDED Viewed

	@@ -0,0 +1,858 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.2,
+  "eval_steps": 179,
+  "global_step": 716,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.005027932960893855,
+      "grad_norm": 28.300092697143555,
+      "learning_rate": 6.331471135940411e-07,
+      "loss": 1.0198,
+      "step": 18
+    },
+    {
+      "epoch": 0.01005586592178771,
+      "grad_norm": 1.059788465499878,
+      "learning_rate": 1.303538175046555e-06,
+      "loss": 0.8564,
+      "step": 36
+    },
+    {
+      "epoch": 0.015083798882681564,
+      "grad_norm": 9.368417739868164,
+      "learning_rate": 1.9739292364990693e-06,
+      "loss": 0.685,
+      "step": 54
+    },
+    {
+      "epoch": 0.02011173184357542,
+      "grad_norm": 3.4458816051483154,
+      "learning_rate": 2.644320297951583e-06,
+      "loss": 0.7667,
+      "step": 72
+    },
+    {
+      "epoch": 0.025139664804469275,
+      "grad_norm": 4.497154712677002,
+      "learning_rate": 3.314711359404097e-06,
+      "loss": 0.7907,
+      "step": 90
+    },
+    {
+      "epoch": 0.030167597765363128,
+      "grad_norm": 4.394736289978027,
+      "learning_rate": 3.985102420856611e-06,
+      "loss": 0.9719,
+      "step": 108
+    },
+    {
+      "epoch": 0.03519553072625698,
+      "grad_norm": 10.305765151977539,
+      "learning_rate": 4.655493482309125e-06,
+      "loss": 1.1097,
+      "step": 126
+    },
+    {
+      "epoch": 0.04022346368715084,
+      "grad_norm": 5.402688980102539,
+      "learning_rate": 5.325884543761639e-06,
+      "loss": 1.0463,
+      "step": 144
+    },
+    {
+      "epoch": 0.045251396648044694,
+      "grad_norm": 0.2811428904533386,
+      "learning_rate": 5.996275605214154e-06,
+      "loss": 0.8796,
+      "step": 162
+    },
+    {
+      "epoch": 0.05,
+      "eval_nli-pairs_loss": 0.9358150959014893,
+      "eval_nli-pairs_runtime": 3.7163,
+      "eval_nli-pairs_samples_per_second": 40.363,
+      "eval_nli-pairs_steps_per_second": 0.538,
+      "eval_sts-test_pearson_cosine": 0.7920907827756308,
+      "eval_sts-test_pearson_dot": 0.553905804338793,
+      "eval_sts-test_pearson_euclidean": 0.7477067417028286,
+      "eval_sts-test_pearson_manhattan": 0.7454637009944656,
+      "eval_sts-test_pearson_max": 0.7920907827756308,
+      "eval_sts-test_spearman_cosine": 0.8050902340286232,
+      "eval_sts-test_spearman_dot": 0.5325926730168974,
+      "eval_sts-test_spearman_euclidean": 0.73705041377373,
+      "eval_sts-test_spearman_manhattan": 0.7373939486807765,
+      "eval_sts-test_spearman_max": 0.8050902340286232,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_vitaminc-pairs_loss": 4.57532262802124,
+      "eval_vitaminc-pairs_runtime": 0.8386,
+      "eval_vitaminc-pairs_samples_per_second": 149.066,
+      "eval_vitaminc-pairs_steps_per_second": 2.385,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_qnli-contrastive_loss": 0.260235071182251,
+      "eval_qnli-contrastive_runtime": 0.1227,
+      "eval_qnli-contrastive_samples_per_second": 1222.824,
+      "eval_qnli-contrastive_steps_per_second": 16.304,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_scitail-pairs-qa_loss": 0.06116430461406708,
+      "eval_scitail-pairs-qa_runtime": 0.6972,
+      "eval_scitail-pairs-qa_samples_per_second": 215.142,
+      "eval_scitail-pairs-qa_steps_per_second": 2.869,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_scitail-pairs-pos_loss": 0.3001463711261749,
+      "eval_scitail-pairs-pos_runtime": 1.8226,
+      "eval_scitail-pairs-pos_samples_per_second": 82.299,
+      "eval_scitail-pairs-pos_steps_per_second": 1.097,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_xsum-pairs_loss": 0.43996042013168335,
+      "eval_xsum-pairs_runtime": 0.1548,
+      "eval_xsum-pairs_samples_per_second": 529.555,
+      "eval_xsum-pairs_steps_per_second": 6.458,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_compression-pairs_loss": 0.10088926553726196,
+      "eval_compression-pairs_runtime": 0.1051,
+      "eval_compression-pairs_samples_per_second": 1427.213,
+      "eval_compression-pairs_steps_per_second": 19.03,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_sciq_pairs_loss": 0.15509434044361115,
+      "eval_sciq_pairs_runtime": 4.9415,
+      "eval_sciq_pairs_samples_per_second": 30.355,
+      "eval_sciq_pairs_steps_per_second": 0.405,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_qasc_pairs_loss": 0.24072103202342987,
+      "eval_qasc_pairs_runtime": 0.6453,
+      "eval_qasc_pairs_samples_per_second": 232.455,
+      "eval_qasc_pairs_steps_per_second": 3.099,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_openbookqa_pairs_loss": 1.5241280794143677,
+      "eval_openbookqa_pairs_runtime": 0.7059,
+      "eval_openbookqa_pairs_samples_per_second": 212.48,
+      "eval_openbookqa_pairs_steps_per_second": 2.833,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_msmarco_pairs_loss": 0.6149919629096985,
+      "eval_msmarco_pairs_runtime": 1.2013,
+      "eval_msmarco_pairs_samples_per_second": 124.863,
+      "eval_msmarco_pairs_steps_per_second": 1.665,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_nq_pairs_loss": 0.591522216796875,
+      "eval_nq_pairs_runtime": 2.2917,
+      "eval_nq_pairs_samples_per_second": 65.455,
+      "eval_nq_pairs_steps_per_second": 0.873,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_trivia_pairs_loss": 1.0899044275283813,
+      "eval_trivia_pairs_runtime": 3.1583,
+      "eval_trivia_pairs_samples_per_second": 47.494,
+      "eval_trivia_pairs_steps_per_second": 0.633,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_quora_pairs_loss": 0.21252885460853577,
+      "eval_quora_pairs_runtime": 0.3861,
+      "eval_quora_pairs_samples_per_second": 388.452,
+      "eval_quora_pairs_steps_per_second": 5.179,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_gooaq_pairs_loss": 0.5593109130859375,
+      "eval_gooaq_pairs_runtime": 0.7918,
+      "eval_gooaq_pairs_samples_per_second": 189.449,
+      "eval_gooaq_pairs_steps_per_second": 2.526,
+      "step": 179
+    },
+    {
+      "epoch": 0.05,
+      "eval_mrpc_pairs_loss": 0.055620357394218445,
+      "eval_mrpc_pairs_runtime": 0.1048,
+      "eval_mrpc_pairs_samples_per_second": 1431.291,
+      "eval_mrpc_pairs_steps_per_second": 19.084,
+      "step": 179
+    },
+    {
+      "epoch": 0.05027932960893855,
+      "grad_norm": 9.769979476928711,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.7777,
+      "step": 180
+    },
+    {
+      "epoch": 0.0553072625698324,
+      "grad_norm": 9.294490814208984,
+      "learning_rate": 7.337057728119181e-06,
+      "loss": 0.9075,
+      "step": 198
+    },
+    {
+      "epoch": 0.060335195530726256,
+      "grad_norm": 0.6179952621459961,
+      "learning_rate": 8.007448789571696e-06,
+      "loss": 0.8239,
+      "step": 216
+    },
+    {
+      "epoch": 0.06536312849162011,
+      "grad_norm": 6.369142532348633,
+      "learning_rate": 8.677839851024209e-06,
+      "loss": 0.949,
+      "step": 234
+    },
+    {
+      "epoch": 0.07039106145251396,
+      "grad_norm": 1.7066636085510254,
+      "learning_rate": 9.348230912476724e-06,
+      "loss": 1.2046,
+      "step": 252
+    },
+    {
+      "epoch": 0.07541899441340782,
+      "grad_norm": 0.33892622590065,
+      "learning_rate": 1.0018621973929237e-05,
+      "loss": 0.8526,
+      "step": 270
+    },
+    {
+      "epoch": 0.08044692737430167,
+      "grad_norm": 24.46626091003418,
+      "learning_rate": 1.0689013035381753e-05,
+      "loss": 0.8629,
+      "step": 288
+    },
+    {
+      "epoch": 0.08547486033519552,
+      "grad_norm": 9.228001594543457,
+      "learning_rate": 1.1359404096834266e-05,
+      "loss": 1.1474,
+      "step": 306
+    },
+    {
+      "epoch": 0.09050279329608939,
+      "grad_norm": 3.441566228866577,
+      "learning_rate": 1.2029795158286779e-05,
+      "loss": 0.9141,
+      "step": 324
+    },
+    {
+      "epoch": 0.09553072625698324,
+      "grad_norm": 0.3621586859226227,
+      "learning_rate": 1.2700186219739294e-05,
+      "loss": 0.9756,
+      "step": 342
+    },
+    {
+      "epoch": 0.1,
+      "eval_nli-pairs_loss": 0.9455356001853943,
+      "eval_nli-pairs_runtime": 3.6115,
+      "eval_nli-pairs_samples_per_second": 41.533,
+      "eval_nli-pairs_steps_per_second": 0.554,
+      "eval_sts-test_pearson_cosine": 0.7944563743777492,
+      "eval_sts-test_pearson_dot": 0.554185693724103,
+      "eval_sts-test_pearson_euclidean": 0.7483225064388481,
+      "eval_sts-test_pearson_manhattan": 0.7454936340776467,
+      "eval_sts-test_pearson_max": 0.7944563743777492,
+      "eval_sts-test_spearman_cosine": 0.8064910811776218,
+      "eval_sts-test_spearman_dot": 0.5333761592947532,
+      "eval_sts-test_spearman_euclidean": 0.7382698586949932,
+      "eval_sts-test_spearman_manhattan": 0.7378149008082869,
+      "eval_sts-test_spearman_max": 0.8064910811776218,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_vitaminc-pairs_loss": 4.517832279205322,
+      "eval_vitaminc-pairs_runtime": 0.8908,
+      "eval_vitaminc-pairs_samples_per_second": 140.33,
+      "eval_vitaminc-pairs_steps_per_second": 2.245,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_qnli-contrastive_loss": 0.2627922296524048,
+      "eval_qnli-contrastive_runtime": 0.1229,
+      "eval_qnli-contrastive_samples_per_second": 1220.886,
+      "eval_qnli-contrastive_steps_per_second": 16.278,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_scitail-pairs-qa_loss": 0.06381849944591522,
+      "eval_scitail-pairs-qa_runtime": 0.7125,
+      "eval_scitail-pairs-qa_samples_per_second": 210.516,
+      "eval_scitail-pairs-qa_steps_per_second": 2.807,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_scitail-pairs-pos_loss": 0.30350035429000854,
+      "eval_scitail-pairs-pos_runtime": 1.877,
+      "eval_scitail-pairs-pos_samples_per_second": 79.916,
+      "eval_scitail-pairs-pos_steps_per_second": 1.066,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_xsum-pairs_loss": 0.44631534814834595,
+      "eval_xsum-pairs_runtime": 0.1512,
+      "eval_xsum-pairs_samples_per_second": 542.377,
+      "eval_xsum-pairs_steps_per_second": 6.614,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_compression-pairs_loss": 0.10376789420843124,
+      "eval_compression-pairs_runtime": 0.1034,
+      "eval_compression-pairs_samples_per_second": 1450.105,
+      "eval_compression-pairs_steps_per_second": 19.335,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_sciq_pairs_loss": 0.15615364909172058,
+      "eval_sciq_pairs_runtime": 5.1236,
+      "eval_sciq_pairs_samples_per_second": 29.276,
+      "eval_sciq_pairs_steps_per_second": 0.39,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_qasc_pairs_loss": 0.24106402695178986,
+      "eval_qasc_pairs_runtime": 0.6663,
+      "eval_qasc_pairs_samples_per_second": 225.133,
+      "eval_qasc_pairs_steps_per_second": 3.002,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_openbookqa_pairs_loss": 1.5405189990997314,
+      "eval_openbookqa_pairs_runtime": 0.7365,
+      "eval_openbookqa_pairs_samples_per_second": 203.658,
+      "eval_openbookqa_pairs_steps_per_second": 2.715,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_msmarco_pairs_loss": 0.6067730188369751,
+      "eval_msmarco_pairs_runtime": 1.2272,
+      "eval_msmarco_pairs_samples_per_second": 122.233,
+      "eval_msmarco_pairs_steps_per_second": 1.63,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_nq_pairs_loss": 0.5683658123016357,
+      "eval_nq_pairs_runtime": 2.3358,
+      "eval_nq_pairs_samples_per_second": 64.219,
+      "eval_nq_pairs_steps_per_second": 0.856,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_trivia_pairs_loss": 1.1103042364120483,
+      "eval_trivia_pairs_runtime": 3.2191,
+      "eval_trivia_pairs_samples_per_second": 46.596,
+      "eval_trivia_pairs_steps_per_second": 0.621,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_quora_pairs_loss": 0.2291153520345688,
+      "eval_quora_pairs_runtime": 0.39,
+      "eval_quora_pairs_samples_per_second": 384.605,
+      "eval_quora_pairs_steps_per_second": 5.128,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_gooaq_pairs_loss": 0.5594914555549622,
+      "eval_gooaq_pairs_runtime": 0.814,
+      "eval_gooaq_pairs_samples_per_second": 184.276,
+      "eval_gooaq_pairs_steps_per_second": 2.457,
+      "step": 358
+    },
+    {
+      "epoch": 0.1,
+      "eval_mrpc_pairs_loss": 0.056830935180187225,
+      "eval_mrpc_pairs_runtime": 0.1099,
+      "eval_mrpc_pairs_samples_per_second": 1364.673,
+      "eval_mrpc_pairs_steps_per_second": 18.196,
+      "step": 358
+    },
+    {
+      "epoch": 0.1005586592178771,
+      "grad_norm": 0.40709275007247925,
+      "learning_rate": 1.3370577281191808e-05,
+      "loss": 0.7904,
+      "step": 360
+    },
+    {
+      "epoch": 0.10558659217877095,
+      "grad_norm": 8.056321144104004,
+      "learning_rate": 1.4040968342644321e-05,
+      "loss": 1.2543,
+      "step": 378
+    },
+    {
+      "epoch": 0.1106145251396648,
+      "grad_norm": 6.643378257751465,
+      "learning_rate": 1.4711359404096834e-05,
+      "loss": 0.854,
+      "step": 396
+    },
+    {
+      "epoch": 0.11564245810055866,
+      "grad_norm": 7.473087310791016,
+      "learning_rate": 1.538175046554935e-05,
+      "loss": 0.4719,
+      "step": 414
+    },
+    {
+      "epoch": 0.12067039106145251,
+      "grad_norm": 8.68940258026123,
+      "learning_rate": 1.6052141527001864e-05,
+      "loss": 1.4229,
+      "step": 432
+    },
+    {
+      "epoch": 0.12569832402234637,
+      "grad_norm": 8.564693450927734,
+      "learning_rate": 1.6722532588454377e-05,
+      "loss": 0.7646,
+      "step": 450
+    },
+    {
+      "epoch": 0.13072625698324022,
+      "grad_norm": 0.39765194058418274,
+      "learning_rate": 1.7392923649906893e-05,
+      "loss": 0.8512,
+      "step": 468
+    },
+    {
+      "epoch": 0.13575418994413407,
+      "grad_norm": 7.3941192626953125,
+      "learning_rate": 1.8063314711359406e-05,
+      "loss": 1.1333,
+      "step": 486
+    },
+    {
+      "epoch": 0.14078212290502792,
+      "grad_norm": 3.183729410171509,
+      "learning_rate": 1.873370577281192e-05,
+      "loss": 0.4451,
+      "step": 504
+    },
+    {
+      "epoch": 0.1458100558659218,
+      "grad_norm": 1.2496144771575928,
+      "learning_rate": 1.9404096834264436e-05,
+      "loss": 0.8859,
+      "step": 522
+    },
+    {
+      "epoch": 0.15,
+      "eval_nli-pairs_loss": 0.9459429979324341,
+      "eval_nli-pairs_runtime": 3.418,
+      "eval_nli-pairs_samples_per_second": 43.886,
+      "eval_nli-pairs_steps_per_second": 0.585,
+      "eval_sts-test_pearson_cosine": 0.7949855875446147,
+      "eval_sts-test_pearson_dot": 0.5640384325880634,
+      "eval_sts-test_pearson_euclidean": 0.751389277231376,
+      "eval_sts-test_pearson_manhattan": 0.7487497192657817,
+      "eval_sts-test_pearson_max": 0.7949855875446147,
+      "eval_sts-test_spearman_cosine": 0.8064088099185094,
+      "eval_sts-test_spearman_dot": 0.5419498621910633,
+      "eval_sts-test_spearman_euclidean": 0.7411803691316964,
+      "eval_sts-test_spearman_manhattan": 0.7408925147897409,
+      "eval_sts-test_spearman_max": 0.8064088099185094,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_vitaminc-pairs_loss": 4.557371139526367,
+      "eval_vitaminc-pairs_runtime": 0.8813,
+      "eval_vitaminc-pairs_samples_per_second": 141.843,
+      "eval_vitaminc-pairs_steps_per_second": 2.269,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_qnli-contrastive_loss": 0.2963089942932129,
+      "eval_qnli-contrastive_runtime": 0.1173,
+      "eval_qnli-contrastive_samples_per_second": 1279.24,
+      "eval_qnli-contrastive_steps_per_second": 17.057,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_scitail-pairs-qa_loss": 0.06569412350654602,
+      "eval_scitail-pairs-qa_runtime": 0.6754,
+      "eval_scitail-pairs-qa_samples_per_second": 222.091,
+      "eval_scitail-pairs-qa_steps_per_second": 2.961,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_scitail-pairs-pos_loss": 0.3104495108127594,
+      "eval_scitail-pairs-pos_runtime": 1.7852,
+      "eval_scitail-pairs-pos_samples_per_second": 84.022,
+      "eval_scitail-pairs-pos_steps_per_second": 1.12,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_xsum-pairs_loss": 0.44305890798568726,
+      "eval_xsum-pairs_runtime": 0.1668,
+      "eval_xsum-pairs_samples_per_second": 491.658,
+      "eval_xsum-pairs_steps_per_second": 5.996,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_compression-pairs_loss": 0.10611961036920547,
+      "eval_compression-pairs_runtime": 0.1033,
+      "eval_compression-pairs_samples_per_second": 1451.474,
+      "eval_compression-pairs_steps_per_second": 19.353,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_sciq_pairs_loss": 0.15942400693893433,
+      "eval_sciq_pairs_runtime": 4.8457,
+      "eval_sciq_pairs_samples_per_second": 30.955,
+      "eval_sciq_pairs_steps_per_second": 0.413,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_qasc_pairs_loss": 0.2380143702030182,
+      "eval_qasc_pairs_runtime": 0.6528,
+      "eval_qasc_pairs_samples_per_second": 229.78,
+      "eval_qasc_pairs_steps_per_second": 3.064,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_openbookqa_pairs_loss": 1.556572437286377,
+      "eval_openbookqa_pairs_runtime": 0.6905,
+      "eval_openbookqa_pairs_samples_per_second": 217.246,
+      "eval_openbookqa_pairs_steps_per_second": 2.897,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_msmarco_pairs_loss": 0.5950079560279846,
+      "eval_msmarco_pairs_runtime": 1.1541,
+      "eval_msmarco_pairs_samples_per_second": 129.968,
+      "eval_msmarco_pairs_steps_per_second": 1.733,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_nq_pairs_loss": 0.5976797938346863,
+      "eval_nq_pairs_runtime": 2.2683,
+      "eval_nq_pairs_samples_per_second": 66.128,
+      "eval_nq_pairs_steps_per_second": 0.882,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_trivia_pairs_loss": 1.1377041339874268,
+      "eval_trivia_pairs_runtime": 3.1791,
+      "eval_trivia_pairs_samples_per_second": 47.183,
+      "eval_trivia_pairs_steps_per_second": 0.629,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_quora_pairs_loss": 0.20836791396141052,
+      "eval_quora_pairs_runtime": 0.374,
+      "eval_quora_pairs_samples_per_second": 401.115,
+      "eval_quora_pairs_steps_per_second": 5.348,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_gooaq_pairs_loss": 0.5545207262039185,
+      "eval_gooaq_pairs_runtime": 0.7667,
+      "eval_gooaq_pairs_samples_per_second": 195.642,
+      "eval_gooaq_pairs_steps_per_second": 2.609,
+      "step": 537
+    },
+    {
+      "epoch": 0.15,
+      "eval_mrpc_pairs_loss": 0.060290463268756866,
+      "eval_mrpc_pairs_runtime": 0.1026,
+      "eval_mrpc_pairs_samples_per_second": 1462.106,
+      "eval_mrpc_pairs_steps_per_second": 19.495,
+      "step": 537
+    },
+    {
+      "epoch": 0.15083798882681565,
+      "grad_norm": 1.3315377235412598,
+      "learning_rate": 1.9999898748390674e-05,
+      "loss": 0.9245,
+      "step": 540
+    },
+    {
+      "epoch": 0.1558659217877095,
+      "grad_norm": 8.015869140625,
+      "learning_rate": 1.9989876718445097e-05,
+      "loss": 1.0384,
+      "step": 558
+    },
+    {
+      "epoch": 0.16089385474860335,
+      "grad_norm": 1.3641886711120605,
+      "learning_rate": 1.9963472835306562e-05,
+      "loss": 0.8826,
+      "step": 576
+    },
+    {
+      "epoch": 0.1659217877094972,
+      "grad_norm": 7.676197528839111,
+      "learning_rate": 1.9920735213598995e-05,
+      "loss": 0.6693,
+      "step": 594
+    },
+    {
+      "epoch": 0.17094972067039105,
+      "grad_norm": 8.144271850585938,
+      "learning_rate": 1.9861741732192866e-05,
+      "loss": 0.8437,
+      "step": 612
+    },
+    {
+      "epoch": 0.17597765363128492,
+      "grad_norm": 11.723029136657715,
+      "learning_rate": 1.9786599892290035e-05,
+      "loss": 1.2241,
+      "step": 630
+    },
+    {
+      "epoch": 0.18100558659217877,
+      "grad_norm": 12.107389450073242,
+      "learning_rate": 1.9695446621529053e-05,
+      "loss": 0.7169,
+      "step": 648
+    },
+    {
+      "epoch": 0.18603351955307262,
+      "grad_norm": 0.671999454498291,
+      "learning_rate": 1.9588448024468015e-05,
+      "loss": 0.7937,
+      "step": 666
+    },
+    {
+      "epoch": 0.19106145251396647,
+      "grad_norm": 2.9247829914093018,
+      "learning_rate": 1.9465799079899608e-05,
+      "loss": 0.8666,
+      "step": 684
+    },
+    {
+      "epoch": 0.19608938547486032,
+      "grad_norm": 9.634854316711426,
+      "learning_rate": 1.932772328554989e-05,
+      "loss": 0.8002,
+      "step": 702
+    },
+    {
+      "epoch": 0.2,
+      "eval_nli-pairs_loss": 0.9524073004722595,
+      "eval_nli-pairs_runtime": 3.3652,
+      "eval_nli-pairs_samples_per_second": 44.573,
+      "eval_nli-pairs_steps_per_second": 0.594,
+      "eval_sts-test_pearson_cosine": 0.7960974627777679,
+      "eval_sts-test_pearson_dot": 0.5653927619143873,
+      "eval_sts-test_pearson_euclidean": 0.7510324476182012,
+      "eval_sts-test_pearson_manhattan": 0.7478581635465753,
+      "eval_sts-test_pearson_max": 0.7960974627777679,
+      "eval_sts-test_spearman_cosine": 0.8076217698074869,
+      "eval_sts-test_spearman_dot": 0.5437275169754562,
+      "eval_sts-test_spearman_euclidean": 0.7394612354069316,
+      "eval_sts-test_spearman_manhattan": 0.7383580125266631,
+      "eval_sts-test_spearman_max": 0.8076217698074869,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_vitaminc-pairs_loss": 4.544824600219727,
+      "eval_vitaminc-pairs_runtime": 0.8209,
+      "eval_vitaminc-pairs_samples_per_second": 152.27,
+      "eval_vitaminc-pairs_steps_per_second": 2.436,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_qnli-contrastive_loss": 0.2854141891002655,
+      "eval_qnli-contrastive_runtime": 0.116,
+      "eval_qnli-contrastive_samples_per_second": 1293.335,
+      "eval_qnli-contrastive_steps_per_second": 17.244,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_scitail-pairs-qa_loss": 0.06479831039905548,
+      "eval_scitail-pairs-qa_runtime": 0.6668,
+      "eval_scitail-pairs-qa_samples_per_second": 224.963,
+      "eval_scitail-pairs-qa_steps_per_second": 3.0,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_scitail-pairs-pos_loss": 0.30356064438819885,
+      "eval_scitail-pairs-pos_runtime": 1.7895,
+      "eval_scitail-pairs-pos_samples_per_second": 83.823,
+      "eval_scitail-pairs-pos_steps_per_second": 1.118,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_xsum-pairs_loss": 0.4510384202003479,
+      "eval_xsum-pairs_runtime": 0.1513,
+      "eval_xsum-pairs_samples_per_second": 541.869,
+      "eval_xsum-pairs_steps_per_second": 6.608,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_compression-pairs_loss": 0.10218393057584763,
+      "eval_compression-pairs_runtime": 0.1063,
+      "eval_compression-pairs_samples_per_second": 1410.495,
+      "eval_compression-pairs_steps_per_second": 18.807,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_sciq_pairs_loss": 0.16117030382156372,
+      "eval_sciq_pairs_runtime": 4.8842,
+      "eval_sciq_pairs_samples_per_second": 30.711,
+      "eval_sciq_pairs_steps_per_second": 0.409,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_qasc_pairs_loss": 0.25312450528144836,
+      "eval_qasc_pairs_runtime": 0.626,
+      "eval_qasc_pairs_samples_per_second": 239.619,
+      "eval_qasc_pairs_steps_per_second": 3.195,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_openbookqa_pairs_loss": 1.560429573059082,
+      "eval_openbookqa_pairs_runtime": 0.6856,
+      "eval_openbookqa_pairs_samples_per_second": 218.787,
+      "eval_openbookqa_pairs_steps_per_second": 2.917,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_msmarco_pairs_loss": 0.6264744997024536,
+      "eval_msmarco_pairs_runtime": 1.1496,
+      "eval_msmarco_pairs_samples_per_second": 130.479,
+      "eval_msmarco_pairs_steps_per_second": 1.74,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_nq_pairs_loss": 0.602968692779541,
+      "eval_nq_pairs_runtime": 2.2714,
+      "eval_nq_pairs_samples_per_second": 66.038,
+      "eval_nq_pairs_steps_per_second": 0.881,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_trivia_pairs_loss": 1.1763343811035156,
+      "eval_trivia_pairs_runtime": 3.1779,
+      "eval_trivia_pairs_samples_per_second": 47.201,
+      "eval_trivia_pairs_steps_per_second": 0.629,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_quora_pairs_loss": 0.25559327006340027,
+      "eval_quora_pairs_runtime": 0.3926,
+      "eval_quora_pairs_samples_per_second": 382.056,
+      "eval_quora_pairs_steps_per_second": 5.094,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_gooaq_pairs_loss": 0.5762031078338623,
+      "eval_gooaq_pairs_runtime": 0.7962,
+      "eval_gooaq_pairs_samples_per_second": 188.399,
+      "eval_gooaq_pairs_steps_per_second": 2.512,
+      "step": 716
+    },
+    {
+      "epoch": 0.2,
+      "eval_mrpc_pairs_loss": 0.05901935696601868,
+      "eval_mrpc_pairs_runtime": 0.1022,
+      "eval_mrpc_pairs_samples_per_second": 1467.265,
+      "eval_mrpc_pairs_steps_per_second": 19.564,
+      "step": 716
+    }
+  ],
+  "logging_steps": 18,
+  "max_steps": 7160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 716,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 82,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-716/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5ad0ebae5d54ccad20b596d9ef597aaa6d8c8f398f1064eecf9dd488a2646a3
+size 5688