Udith-Sandaruwan commited on 26 days ago

Commit

3475786

verified ·

1 Parent(s): 35bb519

Organize logs inside session_logs/

Browse files

Files changed (19) hide show

session_logs/cp_finetuning_hp.log +66 -0
session_logs/evaluation_results.json +504 -0
session_logs/hyperparameter_results.csv +17 -0
session_logs/logs/events.out.tfevents.1740319079.c7b23710d8e3.3460.0 +3 -0
session_logs/logs/events.out.tfevents.1740336746.c7b23710d8e3.3460.1 +3 -0
session_logs/logs/events.out.tfevents.1740354238.c7b23710d8e3.3460.2 +3 -0
session_logs/logs/events.out.tfevents.1740371740.c7b23710d8e3.3460.3 +3 -0
session_logs/logs/events.out.tfevents.1740389236.c7b23710d8e3.3460.4 +3 -0
session_logs/logs/events.out.tfevents.1740406717.c7b23710d8e3.3460.5 +3 -0
session_logs/logs/events.out.tfevents.1740424200.c7b23710d8e3.3460.6 +3 -0
session_logs/logs/events.out.tfevents.1740441669.c7b23710d8e3.3460.7 +3 -0
session_logs/logs/events.out.tfevents.1740459145.c7b23710d8e3.3460.8 +3 -0
session_logs/logs/events.out.tfevents.1740476626.c7b23710d8e3.3460.9 +3 -0
session_logs/logs/events.out.tfevents.1740494119.c7b23710d8e3.3460.10 +3 -0
session_logs/logs/events.out.tfevents.1740511606.c7b23710d8e3.3460.11 +3 -0
session_logs/logs/events.out.tfevents.1740529136.c7b23710d8e3.3460.12 +3 -0
session_logs/logs/events.out.tfevents.1740546623.c7b23710d8e3.3460.13 +3 -0
session_logs/logs/events.out.tfevents.1740564106.c7b23710d8e3.3460.14 +3 -0
session_logs/logs/events.out.tfevents.1740581607.c7b23710d8e3.3460.15 +3 -0

session_logs/cp_finetuning_hp.log ADDED Viewed

	@@ -0,0 +1,66 @@

+2025-02-23 13:18:37,366 - Logging initialized for session: a2a8bc30-81cc-493a-b5d0-027703ef6644
+2025-02-23 13:57:59,460 - Training with params:learning_rate=0.0002521627789110728, gradient_accumulation_steps=3
+2025-02-23 18:52:14,169 - Using default tokenizer.
+2025-02-23 18:52:20,179 - Evaluation Results: {'meteor_scores': {'meteor': 0.13681055469862474}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.03265459149664401, 'precisions': [0.08790593505039193, 0.041336353340883356, 0.023482245131729668, 0.013325608342989572], 'brevity_penalty': 1.0, 'length_ratio': 3.5436507936507935, 'translation_length': 1786, 'reference_length': 504}, 'perplexity': 46824568.0}
+2025-02-23 18:52:26,164 - Removed saved model artifacts from ./cont_pretrained_3_0.0002521627789110728
+2025-02-23 18:52:26,165 - Training with params:learning_rate=0.00023424666142554082, gradient_accumulation_steps=3
+2025-02-23 23:43:48,934 - Using default tokenizer.
+2025-02-23 23:43:52,221 - Evaluation Results: {'meteor_scores': {'meteor': 0.15479365471627002}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.04584003595004448, 'precisions': [0.12137823022709475, 0.05807478122513922, 0.033144704931285365, 0.018898931799506986], 'brevity_penalty': 1.0, 'length_ratio': 2.5337301587301586, 'translation_length': 1277, 'reference_length': 504}, 'perplexity': 14256515.0}
+2025-02-23 23:43:57,890 - Removed saved model artifacts from ./cont_pretrained_3_0.00023424666142554082
+2025-02-23 23:43:57,902 - Training with params:learning_rate=0.0004038905726999131, gradient_accumulation_steps=2
+2025-02-24 04:35:31,165 - Using default tokenizer.
+2025-02-24 04:35:34,536 - Evaluation Results: {'meteor_scores': {'meteor': 0.15189724535656285}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.04147465437788019, 'rougeLsum': 0.04147465437788019}, 'bleu_scores': {'bleu': 0.04315852976676815, 'precisions': [0.11275964391691394, 0.054969879518072286, 0.03134556574923547, 0.017857142857142856], 'brevity_penalty': 1.0, 'length_ratio': 2.6746031746031744, 'translation_length': 1348, 'reference_length': 504}, 'perplexity': 8112177.0}
+2025-02-24 04:35:39,861 - Removed saved model artifacts from ./cont_pretrained_2_0.0004038905726999131
+2025-02-24 04:35:39,875 - Training with params:learning_rate=0.0007026402144219669, gradient_accumulation_steps=2
+2025-02-24 09:27:07,661 - Using default tokenizer.
+2025-02-24 09:27:10,994 - Evaluation Results: {'meteor_scores': {'meteor': 0.1562446210181405}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.049508728443907975, 'precisions': [0.1289228159457167, 0.06298533218291631, 0.035996488147497806, 0.020554066130473638], 'brevity_penalty': 1.0, 'length_ratio': 2.3392857142857144, 'translation_length': 1179, 'reference_length': 504}, 'perplexity': 5523488.0}
+2025-02-24 09:27:16,330 - Removed saved model artifacts from ./cont_pretrained_2_0.0007026402144219669
+2025-02-24 09:27:16,344 - Training with params:learning_rate=0.00020653097601095523, gradient_accumulation_steps=3
+2025-02-24 14:18:29,370 - Using default tokenizer.
+2025-02-24 14:18:32,711 - Evaluation Results: {'meteor_scores': {'meteor': 0.15908333848043738}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.05901458903655539, 'precisions': [0.1529175050301811, 0.07494866529774127, 0.0429769392033543, 0.02462526766595289], 'brevity_penalty': 1.0, 'length_ratio': 1.9722222222222223, 'translation_length': 994, 'reference_length': 504}, 'perplexity': 4067049.25}
+2025-02-24 14:18:36,977 - Removed saved model artifacts from ./cont_pretrained_3_0.00020653097601095523
+2025-02-24 14:18:36,988 - Training with params:learning_rate=0.0008565126838518531, gradient_accumulation_steps=4
+2025-02-24 19:09:50,966 - Using default tokenizer.
+2025-02-24 19:09:54,285 - Evaluation Results: {'meteor_scores': {'meteor': 0.16168163616406164}, 'rouge_scores': {'rouge1': 0.07004608294930877, 'rouge2': 0.02, 'rougeL': 0.05965647255969838, 'rougeLsum': 0.06000000000000001}, 'bleu_scores': {'bleu': 0.058454273860187325, 'precisions': [0.15376984126984128, 0.07388663967611336, 0.042355371900826444, 0.024261603375527425], 'brevity_penalty': 1.0, 'length_ratio': 2.0, 'translation_length': 1008, 'reference_length': 504}, 'perplexity': 4530443.0}
+2025-02-24 19:09:59,453 - Removed saved model artifacts from ./cont_pretrained_4_0.0008565126838518531
+2025-02-24 19:09:59,639 - Training with params:learning_rate=0.00029985537229988896, gradient_accumulation_steps=3
+2025-02-25 00:01:00,201 - Using default tokenizer.
+2025-02-25 00:01:03,486 - Evaluation Results: {'meteor_scores': {'meteor': 0.1585074778231058}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06491375147389095, 'precisions': [0.16685082872928178, 0.08248587570621468, 0.047398843930635835, 0.027218934911242602], 'brevity_penalty': 1.0, 'length_ratio': 1.7956349206349207, 'translation_length': 905, 'reference_length': 504}, 'perplexity': 4327195.5}
+2025-02-25 00:01:08,838 - Removed saved model artifacts from ./cont_pretrained_3_0.00029985537229988896
+2025-02-25 00:01:09,010 - Training with params:learning_rate=0.0008550094708042585, gradient_accumulation_steps=4
+2025-02-25 04:52:16,738 - Using default tokenizer.
+2025-02-25 04:52:20,045 - Evaluation Results: {'meteor_scores': {'meteor': 0.15646599253419569}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06783137441554227, 'precisions': [0.17321016166281755, 0.08628841607565012, 0.04963680387409201, 0.028535980148883373], 'brevity_penalty': 1.0, 'length_ratio': 1.7182539682539681, 'translation_length': 866, 'reference_length': 504}, 'perplexity': 4576987.0}
+2025-02-25 04:52:25,047 - Removed saved model artifacts from ./cont_pretrained_4_0.0008550094708042585
+2025-02-25 04:52:25,331 - Training with params:learning_rate=0.00015842823132994197, gradient_accumulation_steps=3
+2025-02-25 09:43:36,419 - Using default tokenizer.
+2025-02-25 09:43:39,722 - Evaluation Results: {'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06758865797310103, 'precisions': [0.17261219792865362, 0.08598351001177856, 0.04945717732207479, 0.02843016069221261], 'brevity_penalty': 1.0, 'length_ratio': 1.7242063492063493, 'translation_length': 869, 'reference_length': 504}, 'perplexity': 3687402.75}
+2025-02-25 09:43:45,067 - Removed saved model artifacts from ./cont_pretrained_3_0.00015842823132994197
+2025-02-25 09:43:45,407 - Training with params:learning_rate=0.0006671750787537489, gradient_accumulation_steps=2
+2025-02-25 14:35:10,593 - Using default tokenizer.
+2025-02-25 14:35:13,902 - Evaluation Results: {'meteor_scores': {'meteor': 0.15646599253419569}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06783137441554227, 'precisions': [0.17321016166281755, 0.08628841607565012, 0.04963680387409201, 0.028535980148883373], 'brevity_penalty': 1.0, 'length_ratio': 1.7182539682539681, 'translation_length': 866, 'reference_length': 504}, 'perplexity': 3413910.5}
+2025-02-25 14:35:18,701 - Removed saved model artifacts from ./cont_pretrained_2_0.0006671750787537489
+2025-02-25 14:35:19,090 - Training with params:learning_rate=0.0007681823532549075, gradient_accumulation_steps=3
+2025-02-25 19:26:37,185 - Using default tokenizer.
+2025-02-25 19:26:40,483 - Evaluation Results: {'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06958047742513221, 'precisions': [0.17751479289940827, 0.08848484848484849, 0.05093167701863354, 0.02929936305732484], 'brevity_penalty': 1.0, 'length_ratio': 1.6765873015873016, 'translation_length': 845, 'reference_length': 504}, 'perplexity': 3161555.0}
+2025-02-25 19:26:45,452 - Removed saved model artifacts from ./cont_pretrained_3_0.0007681823532549075
+2025-02-25 19:26:45,787 - Training with params:learning_rate=0.0006461830095508175, gradient_accumulation_steps=4
+2025-02-26 00:18:46,498 - Using default tokenizer.
+2025-02-26 00:18:49,809 - Evaluation Results: {'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06726772615452566, 'precisions': [0.1718213058419244, 0.08558030480656506, 0.04921968787515006, 0.028290282902829027], 'brevity_penalty': 1.0, 'length_ratio': 1.7321428571428572, 'translation_length': 873, 'reference_length': 504}, 'perplexity': 3629504.5}
+2025-02-26 00:18:55,347 - Removed saved model artifacts from ./cont_pretrained_4_0.0006461830095508175
+2025-02-26 00:18:55,605 - Training with params:learning_rate=0.0006627784604231771, gradient_accumulation_steps=2
+2025-02-26 05:10:14,055 - Using default tokenizer.
+2025-02-26 05:10:17,362 - Evaluation Results: {'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06958047742513221, 'precisions': [0.17751479289940827, 0.08848484848484849, 0.05093167701863354, 0.02929936305732484], 'brevity_penalty': 1.0, 'length_ratio': 1.6765873015873016, 'translation_length': 845, 'reference_length': 504}, 'perplexity': 3930782.75}
+2025-02-26 05:10:22,805 - Removed saved model artifacts from ./cont_pretrained_2_0.0006627784604231771
+2025-02-26 05:10:23,214 - Training with params:learning_rate=0.0006313414373568891, gradient_accumulation_steps=4
+2025-02-26 10:01:37,686 - Using default tokenizer.
+2025-02-26 10:01:41,018 - Evaluation Results: {'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06532898537563, 'precisions': [0.16703786191536749, 0.08314350797266515, 0.047785547785547784, 0.027446300715990454], 'brevity_penalty': 1.0, 'length_ratio': 1.7817460317460319, 'translation_length': 898, 'reference_length': 504}, 'perplexity': 3531264.0}
+2025-02-26 10:01:45,714 - Removed saved model artifacts from ./cont_pretrained_4_0.0006313414373568891
+2025-02-26 10:01:46,019 - Training with params:learning_rate=0.000556438434253926, gradient_accumulation_steps=3
+2025-02-26 14:53:17,910 - Using default tokenizer.
+2025-02-26 14:53:21,225 - Evaluation Results: {'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06502911340827192, 'precisions': [0.1662971175166297, 0.08276643990929705, 0.04756380510440835, 0.027315914489311165], 'brevity_penalty': 1.0, 'length_ratio': 1.7896825396825398, 'translation_length': 902, 'reference_length': 504}, 'perplexity': 3744938.5}
+2025-02-26 14:53:26,536 - Removed saved model artifacts from ./cont_pretrained_3_0.000556438434253926
+2025-02-26 14:53:26,908 - Training with params:learning_rate=0.0006375506890882657, gradient_accumulation_steps=4
+2025-02-26 19:44:51,935 - Using default tokenizer.
+2025-02-26 19:44:55,240 - Evaluation Results: {'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06563163671591424, 'precisions': [0.16778523489932887, 0.08352402745995423, 0.04800936768149883, 0.027577937649880094], 'brevity_penalty': 1.0, 'length_ratio': 1.7738095238095237, 'translation_length': 894, 'reference_length': 504}, 'perplexity': 4116836.5}
+2025-02-26 19:44:59,657 - Removed saved model artifacts from ./cont_pretrained_4_0.0006375506890882657
+2025-02-26 19:44:59,668 - Best hyperparameters: {'gradient_accumulation_steps': 3.407447233099833, 'learning_rate': 0.0007681823532549075, 'lr_scheduler_type': 0.6366548752851425, 'warmup_steps': 267.3313548397547}

session_logs/evaluation_results.json ADDED Viewed

	@@ -0,0 +1,504 @@

+{
+    "1": {
+        "learning_rate": 0.0002521627789110728,
+        "gradient_accumulation_steps": 3,
+        "warmup_steps": 1539,
+        "lr_scheduler_type": "linear",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.13681055469862474
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.03265459149664401,
+                "precisions": [
+                    0.08790593505039193,
+                    0.041336353340883356,
+                    0.023482245131729668,
+                    0.013325608342989572
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 3.5436507936507935,
+                "translation_length": 1786,
+                "reference_length": 504
+            },
+            "perplexity": 46824568.0
+        }
+    },
+    "2": {
+        "learning_rate": 0.00023424666142554082,
+        "gradient_accumulation_steps": 3,
+        "warmup_steps": 840,
+        "lr_scheduler_type": "linear",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15479365471627002
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.04584003595004448,
+                "precisions": [
+                    0.12137823022709475,
+                    0.05807478122513922,
+                    0.033144704931285365,
+                    0.018898931799506986
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 2.5337301587301586,
+                "translation_length": 1277,
+                "reference_length": 504
+            },
+            "perplexity": 14256515.0
+        }
+    },
+    "3": {
+        "learning_rate": 0.0004038905726999131,
+        "gradient_accumulation_steps": 2,
+        "warmup_steps": 475,
+        "lr_scheduler_type": "cosine",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15189724535656285
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.04147465437788019,
+                "rougeLsum": 0.04147465437788019
+            },
+            "bleu_scores": {
+                "bleu": 0.04315852976676815,
+                "precisions": [
+                    0.11275964391691394,
+                    0.054969879518072286,
+                    0.03134556574923547,
+                    0.017857142857142856
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 2.6746031746031744,
+                "translation_length": 1348,
+                "reference_length": 504
+            },
+            "perplexity": 8112177.0
+        }
+    },
+    "4": {
+        "learning_rate": 0.0007026402144219669,
+        "gradient_accumulation_steps": 2,
+        "warmup_steps": 549,
+        "lr_scheduler_type": "cosine",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.1562446210181405
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.049508728443907975,
+                "precisions": [
+                    0.1289228159457167,
+                    0.06298533218291631,
+                    0.035996488147497806,
+                    0.020554066130473638
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 2.3392857142857144,
+                "translation_length": 1179,
+                "reference_length": 504
+            },
+            "perplexity": 5523488.0
+        }
+    },
+    "5": {
+        "learning_rate": 0.00020653097601095523,
+        "gradient_accumulation_steps": 3,
+        "warmup_steps": 1802,
+        "lr_scheduler_type": "linear",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15908333848043738
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.05901458903655539,
+                "precisions": [
+                    0.1529175050301811,
+                    0.07494866529774127,
+                    0.0429769392033543,
+                    0.02462526766595289
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 1.9722222222222223,
+                "translation_length": 994,
+                "reference_length": 504
+            },
+            "perplexity": 4067049.25
+        }
+    },
+    "6": {
+        "learning_rate": 0.0008565126838518531,
+        "gradient_accumulation_steps": 4,
+        "warmup_steps": 1982,
+        "lr_scheduler_type": "cosine",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.16168163616406164
+            },
+            "rouge_scores": {
+                "rouge1": 0.07004608294930877,
+                "rouge2": 0.02,
+                "rougeL": 0.05965647255969838,
+                "rougeLsum": 0.06000000000000001
+            },
+            "bleu_scores": {
+                "bleu": 0.058454273860187325,
+                "precisions": [
+                    0.15376984126984128,
+                    0.07388663967611336,
+                    0.042355371900826444,
+                    0.024261603375527425
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 2.0,
+                "translation_length": 1008,
+                "reference_length": 504
+            },
+            "perplexity": 4530443.0
+        }
+    },
+    "7": {
+        "learning_rate": 0.00029985537229988896,
+        "gradient_accumulation_steps": 3,
+        "warmup_steps": 0,
+        "lr_scheduler_type": "linear",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.1585074778231058
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.06491375147389095,
+                "precisions": [
+                    0.16685082872928178,
+                    0.08248587570621468,
+                    0.047398843930635835,
+                    0.027218934911242602
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 1.7956349206349207,
+                "translation_length": 905,
+                "reference_length": 504
+            },
+            "perplexity": 4327195.5
+        }
+    },
+    "8": {
+        "learning_rate": 0.0008550094708042585,
+        "gradient_accumulation_steps": 4,
+        "warmup_steps": 1803,
+        "lr_scheduler_type": "linear",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15646599253419569
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.06783137441554227,
+                "precisions": [
+                    0.17321016166281755,
+                    0.08628841607565012,
+                    0.04963680387409201,
+                    0.028535980148883373
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 1.7182539682539681,
+                "translation_length": 866,
+                "reference_length": 504
+            },
+            "perplexity": 4576987.0
+        }
+    },
+    "9": {
+        "learning_rate": 0.00015842823132994197,
+        "gradient_accumulation_steps": 3,
+        "warmup_steps": 1716,
+        "lr_scheduler_type": "linear",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15645022285051025
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.06758865797310103,
+                "precisions": [
+                    0.17261219792865362,
+                    0.08598351001177856,
+                    0.04945717732207479,
+                    0.02843016069221261
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 1.7242063492063493,
+                "translation_length": 869,
+                "reference_length": 504
+            },
+            "perplexity": 3687402.75
+        }
+    },
+    "10": {
+        "learning_rate": 0.0006671750787537489,
+        "gradient_accumulation_steps": 2,
+        "warmup_steps": 134,
+        "lr_scheduler_type": "linear",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15646599253419569
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.06783137441554227,
+                "precisions": [
+                    0.17321016166281755,
+                    0.08628841607565012,
+                    0.04963680387409201,
+                    0.028535980148883373
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 1.7182539682539681,
+                "translation_length": 866,
+                "reference_length": 504
+            },
+            "perplexity": 3413910.5
+        }
+    },
+    "11": {
+        "learning_rate": 0.0007681823532549075,
+        "gradient_accumulation_steps": 3,
+        "warmup_steps": 267,
+        "lr_scheduler_type": "cosine",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15645022285051025
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.06958047742513221,
+                "precisions": [
+                    0.17751479289940827,
+                    0.08848484848484849,
+                    0.05093167701863354,
+                    0.02929936305732484
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 1.6765873015873016,
+                "translation_length": 845,
+                "reference_length": 504
+            },
+            "perplexity": 3161555.0
+        }
+    },
+    "12": {
+        "learning_rate": 0.0006461830095508175,
+        "gradient_accumulation_steps": 4,
+        "warmup_steps": 1149,
+        "lr_scheduler_type": "linear",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15645022285051025
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.06726772615452566,
+                "precisions": [
+                    0.1718213058419244,
+                    0.08558030480656506,
+                    0.04921968787515006,
+                    0.028290282902829027
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 1.7321428571428572,
+                "translation_length": 873,
+                "reference_length": 504
+            },
+            "perplexity": 3629504.5
+        }
+    },
+    "13": {
+        "learning_rate": 0.0006627784604231771,
+        "gradient_accumulation_steps": 2,
+        "warmup_steps": 1269,
+        "lr_scheduler_type": "cosine",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15645022285051025
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.06958047742513221,
+                "precisions": [
+                    0.17751479289940827,
+                    0.08848484848484849,
+                    0.05093167701863354,
+                    0.02929936305732484
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 1.6765873015873016,
+                "translation_length": 845,
+                "reference_length": 504
+            },
+            "perplexity": 3930782.75
+        }
+    },
+    "14": {
+        "learning_rate": 0.0006313414373568891,
+        "gradient_accumulation_steps": 4,
+        "warmup_steps": 1028,
+        "lr_scheduler_type": "linear",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15645022285051025
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.06532898537563,
+                "precisions": [
+                    0.16703786191536749,
+                    0.08314350797266515,
+                    0.047785547785547784,
+                    0.027446300715990454
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 1.7817460317460319,
+                "translation_length": 898,
+                "reference_length": 504
+            },
+            "perplexity": 3531264.0
+        }
+    },
+    "15": {
+        "learning_rate": 0.000556438434253926,
+        "gradient_accumulation_steps": 3,
+        "warmup_steps": 671,
+        "lr_scheduler_type": "linear",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15645022285051025
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.06502911340827192,
+                "precisions": [
+                    0.1662971175166297,
+                    0.08276643990929705,
+                    0.04756380510440835,
+                    0.027315914489311165
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 1.7896825396825398,
+                "translation_length": 902,
+                "reference_length": 504
+            },
+            "perplexity": 3744938.5
+        }
+    },
+    "16": {
+        "learning_rate": 0.0006375506890882657,
+        "gradient_accumulation_steps": 4,
+        "warmup_steps": 360,
+        "lr_scheduler_type": "cosine",
+        "eval_results": {
+            "meteor_scores": {
+                "meteor": 0.15645022285051025
+            },
+            "rouge_scores": {
+                "rouge1": 0.05056556346878928,
+                "rouge2": 0.02,
+                "rougeL": 0.041474654377880185,
+                "rougeLsum": 0.041474654377880185
+            },
+            "bleu_scores": {
+                "bleu": 0.06563163671591424,
+                "precisions": [
+                    0.16778523489932887,
+                    0.08352402745995423,
+                    0.04800936768149883,
+                    0.027577937649880094
+                ],
+                "brevity_penalty": 1.0,
+                "length_ratio": 1.7738095238095237,
+                "translation_length": 894,
+                "reference_length": 504
+            },
+            "perplexity": 4116836.5
+        }
+    },
+    "best_param": {
+        "learning_rate": 0.0007681823532549075,
+        "gradient_accumulation_steps": 3,
+        "warmup_steps": 267,
+        "lr_scheduler_type": "cosine"
+    }
+}

session_logs/hyperparameter_results.csv ADDED Viewed

	@@ -0,0 +1,17 @@

+learning_rate,gradient_accumulation_steps,warmup_steps,lr_scheduler_type,eval_results
+0.0002521627789110728,3,1539,linear,"{'meteor_scores': {'meteor': 0.13681055469862474}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.03265459149664401, 'precisions': [0.08790593505039193, 0.041336353340883356, 0.023482245131729668, 0.013325608342989572], 'brevity_penalty': 1.0, 'length_ratio': 3.5436507936507935, 'translation_length': 1786, 'reference_length': 504}, 'perplexity': 46824568.0}"
+0.00023424666142554082,3,840,linear,"{'meteor_scores': {'meteor': 0.15479365471627002}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.04584003595004448, 'precisions': [0.12137823022709475, 0.05807478122513922, 0.033144704931285365, 0.018898931799506986], 'brevity_penalty': 1.0, 'length_ratio': 2.5337301587301586, 'translation_length': 1277, 'reference_length': 504}, 'perplexity': 14256515.0}"
+0.0004038905726999131,2,475,cosine,"{'meteor_scores': {'meteor': 0.15189724535656285}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.04147465437788019, 'rougeLsum': 0.04147465437788019}, 'bleu_scores': {'bleu': 0.04315852976676815, 'precisions': [0.11275964391691394, 0.054969879518072286, 0.03134556574923547, 0.017857142857142856], 'brevity_penalty': 1.0, 'length_ratio': 2.6746031746031744, 'translation_length': 1348, 'reference_length': 504}, 'perplexity': 8112177.0}"
+0.0007026402144219669,2,549,cosine,"{'meteor_scores': {'meteor': 0.1562446210181405}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.049508728443907975, 'precisions': [0.1289228159457167, 0.06298533218291631, 0.035996488147497806, 0.020554066130473638], 'brevity_penalty': 1.0, 'length_ratio': 2.3392857142857144, 'translation_length': 1179, 'reference_length': 504}, 'perplexity': 5523488.0}"
+0.00020653097601095523,3,1802,linear,"{'meteor_scores': {'meteor': 0.15908333848043738}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.05901458903655539, 'precisions': [0.1529175050301811, 0.07494866529774127, 0.0429769392033543, 0.02462526766595289], 'brevity_penalty': 1.0, 'length_ratio': 1.9722222222222223, 'translation_length': 994, 'reference_length': 504}, 'perplexity': 4067049.25}"
+0.0008565126838518531,4,1982,cosine,"{'meteor_scores': {'meteor': 0.16168163616406164}, 'rouge_scores': {'rouge1': 0.07004608294930877, 'rouge2': 0.02, 'rougeL': 0.05965647255969838, 'rougeLsum': 0.06000000000000001}, 'bleu_scores': {'bleu': 0.058454273860187325, 'precisions': [0.15376984126984128, 0.07388663967611336, 0.042355371900826444, 0.024261603375527425], 'brevity_penalty': 1.0, 'length_ratio': 2.0, 'translation_length': 1008, 'reference_length': 504}, 'perplexity': 4530443.0}"
+0.00029985537229988896,3,0,linear,"{'meteor_scores': {'meteor': 0.1585074778231058}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06491375147389095, 'precisions': [0.16685082872928178, 0.08248587570621468, 0.047398843930635835, 0.027218934911242602], 'brevity_penalty': 1.0, 'length_ratio': 1.7956349206349207, 'translation_length': 905, 'reference_length': 504}, 'perplexity': 4327195.5}"
+0.0008550094708042585,4,1803,linear,"{'meteor_scores': {'meteor': 0.15646599253419569}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06783137441554227, 'precisions': [0.17321016166281755, 0.08628841607565012, 0.04963680387409201, 0.028535980148883373], 'brevity_penalty': 1.0, 'length_ratio': 1.7182539682539681, 'translation_length': 866, 'reference_length': 504}, 'perplexity': 4576987.0}"
+0.00015842823132994197,3,1716,linear,"{'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06758865797310103, 'precisions': [0.17261219792865362, 0.08598351001177856, 0.04945717732207479, 0.02843016069221261], 'brevity_penalty': 1.0, 'length_ratio': 1.7242063492063493, 'translation_length': 869, 'reference_length': 504}, 'perplexity': 3687402.75}"
+0.0006671750787537489,2,134,linear,"{'meteor_scores': {'meteor': 0.15646599253419569}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06783137441554227, 'precisions': [0.17321016166281755, 0.08628841607565012, 0.04963680387409201, 0.028535980148883373], 'brevity_penalty': 1.0, 'length_ratio': 1.7182539682539681, 'translation_length': 866, 'reference_length': 504}, 'perplexity': 3413910.5}"
+0.0007681823532549075,3,267,cosine,"{'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06958047742513221, 'precisions': [0.17751479289940827, 0.08848484848484849, 0.05093167701863354, 0.02929936305732484], 'brevity_penalty': 1.0, 'length_ratio': 1.6765873015873016, 'translation_length': 845, 'reference_length': 504}, 'perplexity': 3161555.0}"
+0.0006461830095508175,4,1149,linear,"{'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06726772615452566, 'precisions': [0.1718213058419244, 0.08558030480656506, 0.04921968787515006, 0.028290282902829027], 'brevity_penalty': 1.0, 'length_ratio': 1.7321428571428572, 'translation_length': 873, 'reference_length': 504}, 'perplexity': 3629504.5}"
+0.0006627784604231771,2,1269,cosine,"{'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06958047742513221, 'precisions': [0.17751479289940827, 0.08848484848484849, 0.05093167701863354, 0.02929936305732484], 'brevity_penalty': 1.0, 'length_ratio': 1.6765873015873016, 'translation_length': 845, 'reference_length': 504}, 'perplexity': 3930782.75}"
+0.0006313414373568891,4,1028,linear,"{'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06532898537563, 'precisions': [0.16703786191536749, 0.08314350797266515, 0.047785547785547784, 0.027446300715990454], 'brevity_penalty': 1.0, 'length_ratio': 1.7817460317460319, 'translation_length': 898, 'reference_length': 504}, 'perplexity': 3531264.0}"
+0.000556438434253926,3,671,linear,"{'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06502911340827192, 'precisions': [0.1662971175166297, 0.08276643990929705, 0.04756380510440835, 0.027315914489311165], 'brevity_penalty': 1.0, 'length_ratio': 1.7896825396825398, 'translation_length': 902, 'reference_length': 504}, 'perplexity': 3744938.5}"
+0.0006375506890882657,4,360,cosine,"{'meteor_scores': {'meteor': 0.15645022285051025}, 'rouge_scores': {'rouge1': 0.05056556346878928, 'rouge2': 0.02, 'rougeL': 0.041474654377880185, 'rougeLsum': 0.041474654377880185}, 'bleu_scores': {'bleu': 0.06563163671591424, 'precisions': [0.16778523489932887, 0.08352402745995423, 0.04800936768149883, 0.027577937649880094], 'brevity_penalty': 1.0, 'length_ratio': 1.7738095238095237, 'translation_length': 894, 'reference_length': 504}, 'perplexity': 4116836.5}"

session_logs/logs/events.out.tfevents.1740319079.c7b23710d8e3.3460.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa1b1c03fefc5c6bcdd3be2c00c3d0fba1c5eb02e111bfaf30b1a2db73dc1fca
+size 851331

session_logs/logs/events.out.tfevents.1740336746.c7b23710d8e3.3460.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4161039262b4851a30202f6cdb352384fafb553c315869f2777c7079e080057f
+size 851292

session_logs/logs/events.out.tfevents.1740354238.c7b23710d8e3.3460.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:442284b71b2006207fdb07afd2b74be0c3da337c9145f67fc0d907380e4c5aca
+size 851290

session_logs/logs/events.out.tfevents.1740371740.c7b23710d8e3.3460.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:760ad1f7b9ef8c722cc3f16caa99f272b341618f503b1c2e30a6a3d9935407cc
+size 851290

session_logs/logs/events.out.tfevents.1740389236.c7b23710d8e3.3460.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da1f6acd6ef386adb8dd4546e4249c42b86f35099331f21408c6472a553f77cf
+size 851292

session_logs/logs/events.out.tfevents.1740406717.c7b23710d8e3.3460.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef11766c82a4c5211ad5626dd942f9f15b8a5d82cb1092a1e38c6c9d09955c4e
+size 851290

session_logs/logs/events.out.tfevents.1740424200.c7b23710d8e3.3460.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:486480e702791b2fffca679a538d1cf42d6763270c6a2e118bb21a42a6745cd6
+size 851292

session_logs/logs/events.out.tfevents.1740441669.c7b23710d8e3.3460.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e3597dd291d7aad9c8bb7d0b7c9de10121a182121cdbebfe07f8d6d2e3e28d5
+size 851290

session_logs/logs/events.out.tfevents.1740459145.c7b23710d8e3.3460.8 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4dd574974a44ece7a3f97978cc65420c14da02fdeb139672b00fb65b043294cd
+size 851292

session_logs/logs/events.out.tfevents.1740476626.c7b23710d8e3.3460.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a90b8d52576c107dcf0dc525f3ac9b7e438e002818c96c76f3f36c1b70a5ad3a
+size 851290

session_logs/logs/events.out.tfevents.1740494119.c7b23710d8e3.3460.10 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0016499d61fa491110022da91c500693998047e1917fe04ca9954e80e29e93d4
+size 851290

session_logs/logs/events.out.tfevents.1740511606.c7b23710d8e3.3460.11 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a80c0d843d4663f4449fb8e862d1d53b66bcd71cad06e524220837a0fc831c0
+size 851290

session_logs/logs/events.out.tfevents.1740529136.c7b23710d8e3.3460.12 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:974645fa6f18cfc9e7a784a4eea06f5fc0544e9c993b12b44daaa4ad8997723d
+size 851290

session_logs/logs/events.out.tfevents.1740546623.c7b23710d8e3.3460.13 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc1f03efd0a022889842bdd132314620ef196ee1d4cebdab7eb3cf9da05a1497
+size 851290

session_logs/logs/events.out.tfevents.1740564106.c7b23710d8e3.3460.14 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7cf8130e1bb2983656f9a8120e16af5151a03f0b2a93fe52b1ead35131c61f1f
+size 851288

session_logs/logs/events.out.tfevents.1740581607.c7b23710d8e3.3460.15 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:878970a34de66a086428478e437de6c04aad51421a6f4480cb5ecdf2c98353a0
+size 851290