WhartonDS_RegressionModel

This model is a fine-tuned version of on an unknown dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 1e-05
train_batch_size: 256
eval_batch_size: 64
seed: 42
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
num_epochs: 60

Training Loss	Epoch	Step	Validation Loss
0.0523	1.0	24	0.0548
0.0402	2.0	48	0.0443
0.0298	3.0	72	0.0396
0.0218	4.0	96	0.0325
0.0167	5.0	120	0.0253
0.0131	6.0	144	0.0204
0.0112	7.0	168	0.0153
0.0104	8.0	192	0.0119
0.0099	9.0	216	0.0110
0.0097	10.0	240	0.0101
0.0095	11.0	264	0.0126
0.0094	12.0	288	0.0097
0.0094	13.0	312	0.0104
0.0093	14.0	336	0.0096
0.0092	15.0	360	0.0095
0.0093	16.0	384	0.0095
0.0091	17.0	408	0.0097
0.0091	18.0	432	0.0091
0.0091	19.0	456	0.0098
0.0091	20.0	480	0.0090
0.0091	21.0	504	0.0092
0.009	22.0	528	0.0096
0.009	23.0	552	0.0090
0.009	24.0	576	0.0097
0.0089	25.0	600	0.0094
0.009	26.0	624	0.0091
0.009	27.0	648	0.0092
0.0089	28.0	672	0.0091
0.0088	29.0	696	0.0090
0.0089	30.0	720	0.0088
0.0088	31.0	744	0.0089
0.0089	32.0	768	0.0088
0.0089	33.0	792	0.0088
0.0089	34.0	816	0.0089
0.0089	35.0	840	0.0088
0.0088	36.0	864	0.0088
0.0088	37.0	888	0.0088
0.0088	38.0	912	0.0087
0.0088	39.0	936	0.0088
0.0088	40.0	960	0.0090
0.0088	41.0	984	0.0086
0.0087	42.0	1008	0.0086
0.0088	43.0	1032	0.0087
0.0088	44.0	1056	0.0086
0.0088	45.0	1080	0.0087
0.0088	46.0	1104	0.0086
0.0088	47.0	1128	0.0087
0.0088	48.0	1152	0.0086
0.0088	49.0	1176	0.0086
0.0088	50.0	1200	0.0086
0.0088	51.0	1224	0.0086
0.0087	52.0	1248	0.0086
0.0088	53.0	1272	0.0086
0.0088	54.0	1296	0.0086
0.0087	55.0	1320	0.0086
0.0088	56.0	1344	0.0086
0.0088	57.0	1368	0.0086
0.0088	58.0	1392	0.0086
0.0088	59.0	1416	0.0086
0.0088	60.0	1440	0.0086