metadata

library_name: transformers
tags:
  - generated_from_trainer
metrics:
  - rouge
model-index:
  - name: gpt22gpt2-gpt2-large-cnn-dailymail-seed42
    results: []

gpt22gpt2-gpt2-large-cnn-dailymail-seed42

This model is a fine-tuned version of on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 1.6842
Rouge1: 0.3500
Rouge2: 0.1477
Rougel: 0.2169
Rougelsum: 0.3306

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-05
train_batch_size: 8
eval_batch_size: 16
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 32
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 1000
num_epochs: 3.0

Training results

Training Loss	Epoch	Step	Validation Loss	Rouge1	Rouge2	Rougel	Rougelsum
2.6006	0.2229	2000	2.3891	0.1904	0.0449	0.1271	0.1782
2.1985	0.4458	4000	2.0162	0.2608	0.0874	0.1661	0.2452
1.9813	0.6687	6000	1.8433	0.2390	0.0798	0.1570	0.2267
1.8954	0.8916	8000	1.7652	0.2694	0.0968	0.1718	0.2533
1.5988	1.1145	10000	1.7400	0.3181	0.1275	0.1992	0.2998
1.5897	1.3374	12000	1.7119	0.3292	0.1351	0.2049	0.3107
1.5809	1.5603	14000	1.6926	0.3452	0.1451	0.2142	0.3262
1.575	1.7832	16000	1.6679	0.3440	0.1452	0.2149	0.3256
1.5302	2.0061	18000	1.6870	0.3512	0.1486	0.2168	0.3316
1.2726	2.2290	20000	1.7002	0.3484	0.1460	0.2149	0.3289
1.266	2.4519	22000	1.6969	0.3473	0.1461	0.2154	0.3279
1.2566	2.6748	24000	1.6878	0.3487	0.1469	0.2160	0.3296
1.2572	2.8977	26000	1.6842	0.3500	0.1477	0.2169	0.3306

Framework versions

Transformers 4.44.2
Pytorch 2.4.0
Datasets 2.21.0
Tokenizers 0.19.1