metadata

library_name: peft
license: other
base_model: deepseek-ai/deepseek-coder-1.3b-base
tags:
  - generated_from_trainer
model-index:
  - name: lemexp-task1-v2-template_small_notypes-deepseek-coder-1.3b-base-ddp-8lr-v2
    results: []

lemexp-task1-v2-template_small_notypes-deepseek-coder-1.3b-base-ddp-8lr-v2

This model is a fine-tuned version of deepseek-ai/deepseek-coder-1.3b-base on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.1620

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0008
train_batch_size: 2
eval_batch_size: 2
seed: 42
distributed_type: multi-GPU
num_devices: 8
total_train_batch_size: 16
total_eval_batch_size: 16
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
num_epochs: 12
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss
0.4455	0.2002	721	0.3234
0.3298	0.4003	1442	0.2983
0.2882	0.6005	2163	0.2751
0.279	0.8007	2884	0.2731
0.2666	1.0008	3605	0.2549
0.2514	1.2010	4326	0.2510
0.2473	1.4012	5047	0.2483
0.2414	1.6013	5768	0.2416
0.2392	1.8015	6489	0.2338
0.2344	2.0017	7210	0.2286
0.2249	2.2018	7931	0.2262
0.224	2.4020	8652	0.2282
0.2187	2.6022	9373	0.2221
0.2177	2.8023	10094	0.2160
0.2143	3.0025	10815	0.2136
0.2044	3.2027	11536	0.2131
0.2015	3.4028	12257	0.2073
0.2011	3.6030	12978	0.2110
0.1995	3.8032	13699	0.2024
0.1987	4.0033	14420	0.2046
0.187	4.2035	15141	0.2017
0.1858	4.4037	15862	0.1998
0.1859	4.6038	16583	0.1967
0.1859	4.8040	17304	0.1975
0.1851	5.0042	18025	0.1986
0.1708	5.2043	18746	0.1932
0.1723	5.4045	19467	0.1874
0.1708	5.6047	20188	0.1921
0.1727	5.8048	20909	0.1852
0.1709	6.0050	21630	0.1836
0.1594	6.2052	22351	0.1884
0.1589	6.4053	23072	0.1809
0.1576	6.6055	23793	0.1775
0.1585	6.8057	24514	0.1792
0.1558	7.0058	25235	0.1747
0.1488	7.2060	25956	0.1727
0.1464	7.4062	26677	0.1730
0.1451	7.6063	27398	0.1713
0.1432	7.8065	28119	0.1728
0.1431	8.0067	28840	0.1742
0.1307	8.2068	29561	0.1686
0.1315	8.4070	30282	0.1660
0.1308	8.6072	31003	0.1652
0.1308	8.8073	31724	0.1646
0.1305	9.0075	32445	0.1673
0.117	9.2077	33166	0.1676
0.1163	9.4078	33887	0.1640
0.1179	9.6080	34608	0.1595
0.1167	9.8082	35329	0.1601
0.1175	10.0083	36050	0.1644
0.1032	10.2085	36771	0.1647
0.103	10.4087	37492	0.1598
0.1039	10.6088	38213	0.1613
0.1042	10.8090	38934	0.1584
0.1022	11.0092	39655	0.1607
0.0948	11.2093	40376	0.1620
0.0925	11.4095	41097	0.1628
0.093	11.6097	41818	0.1623
0.0926	11.8098	42539	0.1620

Framework versions

PEFT 0.14.0
Transformers 4.47.0
Pytorch 2.5.1+cu124
Datasets 3.2.0
Tokenizers 0.21.0