lemexp-task1-v2-template_small_notypes_old_defs-deepseek-coder-1.3b-base-ddp-8lr-v2

This model is a fine-tuned version of deepseek-ai/deepseek-coder-1.3b-base on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.1621

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0008
train_batch_size: 2
eval_batch_size: 2
seed: 42
distributed_type: multi-GPU
num_devices: 8
total_train_batch_size: 16
total_eval_batch_size: 16
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
num_epochs: 12
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss
0.4452	0.2002	721	0.3364
0.335	0.4003	1442	0.3093
0.2934	0.6005	2163	0.2821
0.286	0.8007	2884	0.2838
0.2728	1.0008	3605	0.2613
0.256	1.2010	4326	0.2544
0.2532	1.4012	5047	0.2482
0.2454	1.6013	5768	0.2423
0.2446	1.8015	6489	0.2420
0.2397	2.0017	7210	0.2351
0.2294	2.2018	7931	0.2337
0.2279	2.4020	8652	0.2309
0.2234	2.6022	9373	0.2254
0.2219	2.8023	10094	0.2240
0.2203	3.0025	10815	0.2248
0.2068	3.2027	11536	0.2194
0.2066	3.4028	12257	0.2088
0.204	3.6030	12978	0.2115
0.204	3.8032	13699	0.2088
0.2018	4.0033	14420	0.2117
0.1913	4.2035	15141	0.2052
0.1893	4.4037	15862	0.2036
0.1889	4.6038	16583	0.1969
0.1891	4.8040	17304	0.1973
0.1868	5.0042	18025	0.1929
0.174	5.2043	18746	0.1938
0.1752	5.4045	19467	0.1938
0.1746	5.6047	20188	0.1941
0.175	5.8048	20909	0.1874
0.1732	6.0050	21630	0.1849
0.1623	6.2052	22351	0.1908
0.162	6.4053	23072	0.1886
0.1607	6.6055	23793	0.1846
0.162	6.8057	24514	0.1824
0.1585	7.0058	25235	0.1823
0.1511	7.2060	25956	0.1800
0.1479	7.4062	26677	0.1777
0.1481	7.6063	27398	0.1763
0.1458	7.8065	28119	0.1766
0.1455	8.0067	28840	0.1732
0.1326	8.2068	29561	0.1719
0.1337	8.4070	30282	0.1693
0.1326	8.6072	31003	0.1684
0.1337	8.8073	31724	0.1662
0.132	9.0075	32445	0.1665
0.1187	9.2077	33166	0.1686
0.1175	9.4078	33887	0.1634
0.1189	9.6080	34608	0.1663
0.1188	9.8082	35329	0.1616
0.1189	10.0083	36050	0.1624
0.105	10.2085	36771	0.1648
0.104	10.4087	37492	0.1617
0.1051	10.6088	38213	0.1618
0.1047	10.8090	38934	0.1598
0.1035	11.0092	39655	0.1619
0.0959	11.2093	40376	0.1658
0.0936	11.4095	41097	0.1642
0.094	11.6097	41818	0.1612
0.0937	11.8098	42539	0.1621

Framework versions

PEFT 0.14.0
Transformers 4.47.0
Pytorch 2.5.1+cu124
Datasets 3.2.0
Tokenizers 0.21.0

yalhessi
/

lemexp-task1-v2-template_small_notypes_old_defs-deepseek-coder-1.3b-base-ddp-8lr-v2

lemexp-task1-v2-template_small_notypes_old_defs-deepseek-coder-1.3b-base-ddp-8lr-v2

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for yalhessi/lemexp-task1-v2-template_small_notypes_old_defs-deepseek-coder-1.3b-base-ddp-8lr-v2

Evaluation results