mask2former / trainer_state.json

UTEL-UIUC/ft-aug-mask2former-swin-small-ade-semantic

101722a verified 3 months ago

18.3 kB

	{
	"best_metric": 28.4991512298584,
	"best_model_checkpoint": "mask2former/checkpoint-2000",
	"epoch": 6.197183098591549,
	"eval_steps": 50,
	"global_step": 2200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.14084507042253522,
	"grad_norm": 227.8921661376953,
	"learning_rate": 4.9935203966644134e-05,
	"loss": 50.7018,
	"step": 50
	},
	{
	"epoch": 0.14084507042253522,
	"eval_loss": 44.24353790283203,
	"eval_runtime": 135.6148,
	"eval_samples_per_second": 9.306,
	"eval_steps_per_second": 1.165,
	"step": 50
	},
	{
	"epoch": 0.28169014084507044,
	"grad_norm": 232.9764404296875,
	"learning_rate": 4.986477349560514e-05,
	"loss": 40.5877,
	"step": 100
	},
	{
	"epoch": 0.28169014084507044,
	"eval_loss": 39.646488189697266,
	"eval_runtime": 119.1324,
	"eval_samples_per_second": 10.593,
	"eval_steps_per_second": 1.326,
	"step": 100
	},
	{
	"epoch": 0.4225352112676056,
	"grad_norm": 375.6308898925781,
	"learning_rate": 4.979434302456615e-05,
	"loss": 37.4102,
	"step": 150
	},
	{
	"epoch": 0.4225352112676056,
	"eval_loss": 37.247108459472656,
	"eval_runtime": 119.6132,
	"eval_samples_per_second": 10.551,
	"eval_steps_per_second": 1.321,
	"step": 150
	},
	{
	"epoch": 0.5633802816901409,
	"grad_norm": 189.58392333984375,
	"learning_rate": 4.972391255352716e-05,
	"loss": 35.7502,
	"step": 200
	},
	{
	"epoch": 0.5633802816901409,
	"eval_loss": 36.34551239013672,
	"eval_runtime": 132.8881,
	"eval_samples_per_second": 9.497,
	"eval_steps_per_second": 1.189,
	"step": 200
	},
	{
	"epoch": 0.704225352112676,
	"grad_norm": 163.74330139160156,
	"learning_rate": 4.965348208248817e-05,
	"loss": 34.7067,
	"step": 250
	},
	{
	"epoch": 0.704225352112676,
	"eval_loss": 34.88238525390625,
	"eval_runtime": 120.2665,
	"eval_samples_per_second": 10.493,
	"eval_steps_per_second": 1.314,
	"step": 250
	},
	{
	"epoch": 0.8450704225352113,
	"grad_norm": 173.85494995117188,
	"learning_rate": 4.958305161144918e-05,
	"loss": 34.0798,
	"step": 300
	},
	{
	"epoch": 0.8450704225352113,
	"eval_loss": 34.85204315185547,
	"eval_runtime": 129.3353,
	"eval_samples_per_second": 9.758,
	"eval_steps_per_second": 1.222,
	"step": 300
	},
	{
	"epoch": 0.9859154929577465,
	"grad_norm": 167.4436492919922,
	"learning_rate": 4.951262114041019e-05,
	"loss": 33.3503,
	"step": 350
	},
	{
	"epoch": 0.9859154929577465,
	"eval_loss": 33.73210144042969,
	"eval_runtime": 143.3502,
	"eval_samples_per_second": 8.804,
	"eval_steps_per_second": 1.102,
	"step": 350
	},
	{
	"epoch": 1.1267605633802817,
	"grad_norm": 202.66012573242188,
	"learning_rate": 4.944219066937119e-05,
	"loss": 32.3436,
	"step": 400
	},
	{
	"epoch": 1.1267605633802817,
	"eval_loss": 33.15604782104492,
	"eval_runtime": 123.8826,
	"eval_samples_per_second": 10.187,
	"eval_steps_per_second": 1.275,
	"step": 400
	},
	{
	"epoch": 1.267605633802817,
	"grad_norm": 145.71310424804688,
	"learning_rate": 4.937176019833221e-05,
	"loss": 32.3845,
	"step": 450
	},
	{
	"epoch": 1.267605633802817,
	"eval_loss": 33.041107177734375,
	"eval_runtime": 125.7421,
	"eval_samples_per_second": 10.036,
	"eval_steps_per_second": 1.257,
	"step": 450
	},
	{
	"epoch": 1.408450704225352,
	"grad_norm": 143.16452026367188,
	"learning_rate": 4.930132972729321e-05,
	"loss": 30.8809,
	"step": 500
	},
	{
	"epoch": 1.408450704225352,
	"eval_loss": 32.785240173339844,
	"eval_runtime": 137.1907,
	"eval_samples_per_second": 9.199,
	"eval_steps_per_second": 1.152,
	"step": 500
	},
	{
	"epoch": 1.5492957746478875,
	"grad_norm": 159.82777404785156,
	"learning_rate": 4.9230899256254227e-05,
	"loss": 31.689,
	"step": 550
	},
	{
	"epoch": 1.5492957746478875,
	"eval_loss": 31.99137306213379,
	"eval_runtime": 129.225,
	"eval_samples_per_second": 9.766,
	"eval_steps_per_second": 1.223,
	"step": 550
	},
	{
	"epoch": 1.6901408450704225,
	"grad_norm": 160.78164672851562,
	"learning_rate": 4.916046878521523e-05,
	"loss": 31.036,
	"step": 600
	},
	{
	"epoch": 1.6901408450704225,
	"eval_loss": 32.72974395751953,
	"eval_runtime": 129.162,
	"eval_samples_per_second": 9.771,
	"eval_steps_per_second": 1.223,
	"step": 600
	},
	{
	"epoch": 1.8309859154929577,
	"grad_norm": 206.84974670410156,
	"learning_rate": 4.9090038314176246e-05,
	"loss": 30.9795,
	"step": 650
	},
	{
	"epoch": 1.8309859154929577,
	"eval_loss": 31.88483238220215,
	"eval_runtime": 126.8688,
	"eval_samples_per_second": 9.947,
	"eval_steps_per_second": 1.245,
	"step": 650
	},
	{
	"epoch": 1.971830985915493,
	"grad_norm": 128.7499237060547,
	"learning_rate": 4.901960784313725e-05,
	"loss": 30.7918,
	"step": 700
	},
	{
	"epoch": 1.971830985915493,
	"eval_loss": 31.528514862060547,
	"eval_runtime": 131.1893,
	"eval_samples_per_second": 9.62,
	"eval_steps_per_second": 1.204,
	"step": 700
	},
	{
	"epoch": 2.112676056338028,
	"grad_norm": 155.95223999023438,
	"learning_rate": 4.8949177372098266e-05,
	"loss": 30.1432,
	"step": 750
	},
	{
	"epoch": 2.112676056338028,
	"eval_loss": 32.06336212158203,
	"eval_runtime": 130.1706,
	"eval_samples_per_second": 9.695,
	"eval_steps_per_second": 1.214,
	"step": 750
	},
	{
	"epoch": 2.2535211267605635,
	"grad_norm": 122.61072540283203,
	"learning_rate": 4.887874690105927e-05,
	"loss": 29.7082,
	"step": 800
	},
	{
	"epoch": 2.2535211267605635,
	"eval_loss": 31.184894561767578,
	"eval_runtime": 121.0117,
	"eval_samples_per_second": 10.429,
	"eval_steps_per_second": 1.306,
	"step": 800
	},
	{
	"epoch": 2.3943661971830985,
	"grad_norm": 139.07225036621094,
	"learning_rate": 4.8808316430020286e-05,
	"loss": 28.7869,
	"step": 850
	},
	{
	"epoch": 2.3943661971830985,
	"eval_loss": 30.902196884155273,
	"eval_runtime": 127.2634,
	"eval_samples_per_second": 9.916,
	"eval_steps_per_second": 1.242,
	"step": 850
	},
	{
	"epoch": 2.535211267605634,
	"grad_norm": 188.21234130859375,
	"learning_rate": 4.873788595898129e-05,
	"loss": 29.4227,
	"step": 900
	},
	{
	"epoch": 2.535211267605634,
	"eval_loss": 30.5902099609375,
	"eval_runtime": 146.3048,
	"eval_samples_per_second": 8.626,
	"eval_steps_per_second": 1.08,
	"step": 900
	},
	{
	"epoch": 2.676056338028169,
	"grad_norm": 302.049560546875,
	"learning_rate": 4.8667455487942306e-05,
	"loss": 29.1865,
	"step": 950
	},
	{
	"epoch": 2.676056338028169,
	"eval_loss": 30.381799697875977,
	"eval_runtime": 118.3226,
	"eval_samples_per_second": 10.666,
	"eval_steps_per_second": 1.335,
	"step": 950
	},
	{
	"epoch": 2.816901408450704,
	"grad_norm": 151.5100860595703,
	"learning_rate": 4.859702501690331e-05,
	"loss": 29.2715,
	"step": 1000
	},
	{
	"epoch": 2.816901408450704,
	"eval_loss": 30.919567108154297,
	"eval_runtime": 128.7879,
	"eval_samples_per_second": 9.799,
	"eval_steps_per_second": 1.227,
	"step": 1000
	},
	{
	"epoch": 2.9577464788732395,
	"grad_norm": 135.14910888671875,
	"learning_rate": 4.8526594545864326e-05,
	"loss": 29.1941,
	"step": 1050
	},
	{
	"epoch": 2.9577464788732395,
	"eval_loss": 30.816268920898438,
	"eval_runtime": 127.4007,
	"eval_samples_per_second": 9.906,
	"eval_steps_per_second": 1.24,
	"step": 1050
	},
	{
	"epoch": 3.0985915492957745,
	"grad_norm": 121.41586303710938,
	"learning_rate": 4.845616407482533e-05,
	"loss": 28.5256,
	"step": 1100
	},
	{
	"epoch": 3.0985915492957745,
	"eval_loss": 30.472957611083984,
	"eval_runtime": 144.0632,
	"eval_samples_per_second": 8.76,
	"eval_steps_per_second": 1.097,
	"step": 1100
	},
	{
	"epoch": 3.23943661971831,
	"grad_norm": 217.75247192382812,
	"learning_rate": 4.8385733603786346e-05,
	"loss": 28.0419,
	"step": 1150
	},
	{
	"epoch": 3.23943661971831,
	"eval_loss": 30.653095245361328,
	"eval_runtime": 129.0443,
	"eval_samples_per_second": 9.78,
	"eval_steps_per_second": 1.224,
	"step": 1150
	},
	{
	"epoch": 3.380281690140845,
	"grad_norm": 129.21693420410156,
	"learning_rate": 4.831530313274735e-05,
	"loss": 28.0538,
	"step": 1200
	},
	{
	"epoch": 3.380281690140845,
	"eval_loss": 30.077850341796875,
	"eval_runtime": 119.4037,
	"eval_samples_per_second": 10.569,
	"eval_steps_per_second": 1.323,
	"step": 1200
	},
	{
	"epoch": 3.52112676056338,
	"grad_norm": 116.27620697021484,
	"learning_rate": 4.8244872661708365e-05,
	"loss": 27.9463,
	"step": 1250
	},
	{
	"epoch": 3.52112676056338,
	"eval_loss": 30.61139488220215,
	"eval_runtime": 132.5429,
	"eval_samples_per_second": 9.521,
	"eval_steps_per_second": 1.192,
	"step": 1250
	},
	{
	"epoch": 3.6619718309859155,
	"grad_norm": 149.399169921875,
	"learning_rate": 4.817444219066937e-05,
	"loss": 27.4152,
	"step": 1300
	},
	{
	"epoch": 3.6619718309859155,
	"eval_loss": 30.551870346069336,
	"eval_runtime": 130.4003,
	"eval_samples_per_second": 9.678,
	"eval_steps_per_second": 1.212,
	"step": 1300
	},
	{
	"epoch": 3.802816901408451,
	"grad_norm": 175.60769653320312,
	"learning_rate": 4.8104011719630385e-05,
	"loss": 27.7461,
	"step": 1350
	},
	{
	"epoch": 3.802816901408451,
	"eval_loss": 29.564067840576172,
	"eval_runtime": 131.8055,
	"eval_samples_per_second": 9.575,
	"eval_steps_per_second": 1.199,
	"step": 1350
	},
	{
	"epoch": 3.943661971830986,
	"grad_norm": 114.43487548828125,
	"learning_rate": 4.803358124859139e-05,
	"loss": 27.5604,
	"step": 1400
	},
	{
	"epoch": 3.943661971830986,
	"eval_loss": 30.12961769104004,
	"eval_runtime": 148.0714,
	"eval_samples_per_second": 8.523,
	"eval_steps_per_second": 1.067,
	"step": 1400
	},
	{
	"epoch": 4.084507042253521,
	"grad_norm": 189.4749298095703,
	"learning_rate": 4.79631507775524e-05,
	"loss": 27.381,
	"step": 1450
	},
	{
	"epoch": 4.084507042253521,
	"eval_loss": 30.50173568725586,
	"eval_runtime": 124.4448,
	"eval_samples_per_second": 10.141,
	"eval_steps_per_second": 1.27,
	"step": 1450
	},
	{
	"epoch": 4.225352112676056,
	"grad_norm": 129.88868713378906,
	"learning_rate": 4.789272030651341e-05,
	"loss": 26.3816,
	"step": 1500
	},
	{
	"epoch": 4.225352112676056,
	"eval_loss": 29.6898193359375,
	"eval_runtime": 129.216,
	"eval_samples_per_second": 9.767,
	"eval_steps_per_second": 1.223,
	"step": 1500
	},
	{
	"epoch": 4.366197183098592,
	"grad_norm": 138.11952209472656,
	"learning_rate": 4.782228983547442e-05,
	"loss": 26.5218,
	"step": 1550
	},
	{
	"epoch": 4.366197183098592,
	"eval_loss": 29.94746971130371,
	"eval_runtime": 132.27,
	"eval_samples_per_second": 9.541,
	"eval_steps_per_second": 1.195,
	"step": 1550
	},
	{
	"epoch": 4.507042253521127,
	"grad_norm": 185.40530395507812,
	"learning_rate": 4.775185936443543e-05,
	"loss": 26.9798,
	"step": 1600
	},
	{
	"epoch": 4.507042253521127,
	"eval_loss": 29.332275390625,
	"eval_runtime": 137.9492,
	"eval_samples_per_second": 9.148,
	"eval_steps_per_second": 1.145,
	"step": 1600
	},
	{
	"epoch": 4.647887323943662,
	"grad_norm": 135.86349487304688,
	"learning_rate": 4.768142889339644e-05,
	"loss": 26.8186,
	"step": 1650
	},
	{
	"epoch": 4.647887323943662,
	"eval_loss": 29.575531005859375,
	"eval_runtime": 135.1713,
	"eval_samples_per_second": 9.336,
	"eval_steps_per_second": 1.169,
	"step": 1650
	},
	{
	"epoch": 4.788732394366197,
	"grad_norm": 153.70196533203125,
	"learning_rate": 4.761099842235745e-05,
	"loss": 27.5111,
	"step": 1700
	},
	{
	"epoch": 4.788732394366197,
	"eval_loss": 30.7945499420166,
	"eval_runtime": 117.37,
	"eval_samples_per_second": 10.752,
	"eval_steps_per_second": 1.346,
	"step": 1700
	},
	{
	"epoch": 4.929577464788732,
	"grad_norm": 150.87384033203125,
	"learning_rate": 4.754056795131846e-05,
	"loss": 27.0839,
	"step": 1750
	},
	{
	"epoch": 4.929577464788732,
	"eval_loss": 29.414661407470703,
	"eval_runtime": 120.7787,
	"eval_samples_per_second": 10.449,
	"eval_steps_per_second": 1.308,
	"step": 1750
	},
	{
	"epoch": 5.070422535211268,
	"grad_norm": 140.32867431640625,
	"learning_rate": 4.747013748027947e-05,
	"loss": 26.6393,
	"step": 1800
	},
	{
	"epoch": 5.070422535211268,
	"eval_loss": 28.79827880859375,
	"eval_runtime": 126.6565,
	"eval_samples_per_second": 9.964,
	"eval_steps_per_second": 1.247,
	"step": 1800
	},
	{
	"epoch": 5.211267605633803,
	"grad_norm": 105.2396469116211,
	"learning_rate": 4.739970700924048e-05,
	"loss": 26.3564,
	"step": 1850
	},
	{
	"epoch": 5.211267605633803,
	"eval_loss": 29.22454261779785,
	"eval_runtime": 138.64,
	"eval_samples_per_second": 9.103,
	"eval_steps_per_second": 1.14,
	"step": 1850
	},
	{
	"epoch": 5.352112676056338,
	"grad_norm": 158.32907104492188,
	"learning_rate": 4.732927653820149e-05,
	"loss": 25.6174,
	"step": 1900
	},
	{
	"epoch": 5.352112676056338,
	"eval_loss": 28.933706283569336,
	"eval_runtime": 124.4051,
	"eval_samples_per_second": 10.144,
	"eval_steps_per_second": 1.27,
	"step": 1900
	},
	{
	"epoch": 5.492957746478873,
	"grad_norm": 209.70982360839844,
	"learning_rate": 4.72588460671625e-05,
	"loss": 25.8777,
	"step": 1950
	},
	{
	"epoch": 5.492957746478873,
	"eval_loss": 29.477840423583984,
	"eval_runtime": 138.0785,
	"eval_samples_per_second": 9.14,
	"eval_steps_per_second": 1.144,
	"step": 1950
	},
	{
	"epoch": 5.633802816901408,
	"grad_norm": 172.13571166992188,
	"learning_rate": 4.718841559612351e-05,
	"loss": 25.6848,
	"step": 2000
	},
	{
	"epoch": 5.633802816901408,
	"eval_loss": 28.4991512298584,
	"eval_runtime": 154.121,
	"eval_samples_per_second": 8.188,
	"eval_steps_per_second": 1.025,
	"step": 2000
	},
	{
	"epoch": 5.774647887323944,
	"grad_norm": 133.943115234375,
	"learning_rate": 4.711798512508452e-05,
	"loss": 26.4625,
	"step": 2050
	},
	{
	"epoch": 5.774647887323944,
	"eval_loss": 29.618194580078125,
	"eval_runtime": 118.4654,
	"eval_samples_per_second": 10.653,
	"eval_steps_per_second": 1.334,
	"step": 2050
	},
	{
	"epoch": 5.915492957746479,
	"grad_norm": 143.0037078857422,
	"learning_rate": 4.704755465404553e-05,
	"loss": 26.8448,
	"step": 2100
	},
	{
	"epoch": 5.915492957746479,
	"eval_loss": 29.537738800048828,
	"eval_runtime": 144.9122,
	"eval_samples_per_second": 8.709,
	"eval_steps_per_second": 1.09,
	"step": 2100
	},
	{
	"epoch": 6.056338028169014,
	"grad_norm": 127.10630798339844,
	"learning_rate": 4.697712418300654e-05,
	"loss": 26.0681,
	"step": 2150
	},
	{
	"epoch": 6.056338028169014,
	"eval_loss": 29.239002227783203,
	"eval_runtime": 131.0446,
	"eval_samples_per_second": 9.63,
	"eval_steps_per_second": 1.206,
	"step": 2150
	},
	{
	"epoch": 6.197183098591549,
	"grad_norm": 142.51170349121094,
	"learning_rate": 4.690669371196755e-05,
	"loss": 25.628,
	"step": 2200
	},
	{
	"epoch": 6.197183098591549,
	"eval_loss": 29.1112003326416,
	"eval_runtime": 119.9659,
	"eval_samples_per_second": 10.52,
	"eval_steps_per_second": 1.317,
	"step": 2200
	},
	{
	"epoch": 6.197183098591549,
	"step": 2200,
	"total_flos": 8.850907754333798e+18,
	"train_loss": 29.80798134543679,
	"train_runtime": 17574.1061,
	"train_samples_per_second": 64.612,
	"train_steps_per_second": 2.02
	}
	],
	"logging_steps": 50,
	"max_steps": 35500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 100,
	"save_steps": 100,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 4,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 4
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8.850907754333798e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}