blood34 commited on
Commit
d37465a
·
verified ·
1 Parent(s): 8b485c3

Training in progress, step 500, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d74c6baef789560733fa946e38e74b2be06c7078b3ed14eee73ce7d022c1f477
3
  size 138995824
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:05cf8c3cc02150b9ab839cae3cff4b0ac64e7418f3e3a7dd8342967d4ff228b4
3
  size 138995824
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6ecba67370d7c63ceae60f4c992bd6ccfa6bc9a5a3bb399885e20e13d29eeda4
3
  size 71078228
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a68f0691f92e4878c405d72e98f58a608b5a0d8eca69ca0d44a1a7af1fa2eb61
3
  size 71078228
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4c816665e8f875bf4084e64860734b6df57cbda2abaa223f5013be7e39890f6a
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:01e258152773e0c47fade2e9491672a9b92ef4bd4076bdedcd0ad5798e0cf3fc
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:505f9225762b105f8ca5168f44d99b2f8467174f4ade85f1cc95f684fbd828e0
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fe1d153de177b356f9e3a70d6e4ec979560b0c300994e71ca4cb89afc74c5b3a
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 1.1766536235809326,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-400",
4
- "epoch": 0.36488027366020526,
5
  "eval_steps": 100,
6
- "global_step": 400,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2847,6 +2847,714 @@
2847
  "eval_samples_per_second": 16.427,
2848
  "eval_steps_per_second": 4.111,
2849
  "step": 400
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2850
  }
2851
  ],
2852
  "logging_steps": 1,
@@ -2861,7 +3569,7 @@
2861
  "early_stopping_threshold": 0.0
2862
  },
2863
  "attributes": {
2864
- "early_stopping_patience_counter": 0
2865
  }
2866
  },
2867
  "TrainerControl": {
@@ -2870,12 +3578,12 @@
2870
  "should_evaluate": false,
2871
  "should_log": false,
2872
  "should_save": true,
2873
- "should_training_stop": false
2874
  },
2875
  "attributes": {}
2876
  }
2877
  },
2878
- "total_flos": 3.35716487528448e+16,
2879
  "train_batch_size": 8,
2880
  "trial_name": null,
2881
  "trial_params": null
 
1
  {
2
  "best_metric": 1.1766536235809326,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-400",
4
+ "epoch": 0.45610034207525657,
5
  "eval_steps": 100,
6
+ "global_step": 500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2847
  "eval_samples_per_second": 16.427,
2848
  "eval_steps_per_second": 4.111,
2849
  "step": 400
2850
+ },
2851
+ {
2852
+ "epoch": 0.36579247434435574,
2853
+ "grad_norm": 0.12196308374404907,
2854
+ "learning_rate": 1.013396731136465e-05,
2855
+ "loss": 1.0011,
2856
+ "step": 401
2857
+ },
2858
+ {
2859
+ "epoch": 0.3667046750285063,
2860
+ "grad_norm": 0.13182106614112854,
2861
+ "learning_rate": 9.937309365446973e-06,
2862
+ "loss": 1.1752,
2863
+ "step": 402
2864
+ },
2865
+ {
2866
+ "epoch": 0.3676168757126568,
2867
+ "grad_norm": 0.14486649632453918,
2868
+ "learning_rate": 9.742367571857091e-06,
2869
+ "loss": 1.1526,
2870
+ "step": 403
2871
+ },
2872
+ {
2873
+ "epoch": 0.3685290763968073,
2874
+ "grad_norm": 0.14698417484760284,
2875
+ "learning_rate": 9.549150281252633e-06,
2876
+ "loss": 1.2639,
2877
+ "step": 404
2878
+ },
2879
+ {
2880
+ "epoch": 0.3694412770809578,
2881
+ "grad_norm": 0.16532011330127716,
2882
+ "learning_rate": 9.357665770419244e-06,
2883
+ "loss": 1.3237,
2884
+ "step": 405
2885
+ },
2886
+ {
2887
+ "epoch": 0.3703534777651083,
2888
+ "grad_norm": 0.17021730542182922,
2889
+ "learning_rate": 9.167922241916055e-06,
2890
+ "loss": 1.3305,
2891
+ "step": 406
2892
+ },
2893
+ {
2894
+ "epoch": 0.37126567844925884,
2895
+ "grad_norm": 0.1707400232553482,
2896
+ "learning_rate": 8.97992782372432e-06,
2897
+ "loss": 1.1334,
2898
+ "step": 407
2899
+ },
2900
+ {
2901
+ "epoch": 0.37217787913340933,
2902
+ "grad_norm": 0.1890312284231186,
2903
+ "learning_rate": 8.793690568899216e-06,
2904
+ "loss": 1.2203,
2905
+ "step": 408
2906
+ },
2907
+ {
2908
+ "epoch": 0.37309007981755987,
2909
+ "grad_norm": 0.2785188555717468,
2910
+ "learning_rate": 8.609218455224893e-06,
2911
+ "loss": 1.3662,
2912
+ "step": 409
2913
+ },
2914
+ {
2915
+ "epoch": 0.37400228050171036,
2916
+ "grad_norm": 0.3217642307281494,
2917
+ "learning_rate": 8.426519384872733e-06,
2918
+ "loss": 1.5266,
2919
+ "step": 410
2920
+ },
2921
+ {
2922
+ "epoch": 0.3749144811858609,
2923
+ "grad_norm": 0.637722909450531,
2924
+ "learning_rate": 8.245601184062852e-06,
2925
+ "loss": 1.7853,
2926
+ "step": 411
2927
+ },
2928
+ {
2929
+ "epoch": 0.3758266818700114,
2930
+ "grad_norm": 0.15114322304725647,
2931
+ "learning_rate": 8.066471602728803e-06,
2932
+ "loss": 0.8234,
2933
+ "step": 412
2934
+ },
2935
+ {
2936
+ "epoch": 0.37673888255416194,
2937
+ "grad_norm": 0.15969091653823853,
2938
+ "learning_rate": 7.889138314185678e-06,
2939
+ "loss": 1.0191,
2940
+ "step": 413
2941
+ },
2942
+ {
2943
+ "epoch": 0.3776510832383124,
2944
+ "grad_norm": 0.16418735682964325,
2945
+ "learning_rate": 7.71360891480134e-06,
2946
+ "loss": 1.1389,
2947
+ "step": 414
2948
+ },
2949
+ {
2950
+ "epoch": 0.37856328392246297,
2951
+ "grad_norm": 0.15018145740032196,
2952
+ "learning_rate": 7.539890923671062e-06,
2953
+ "loss": 1.0788,
2954
+ "step": 415
2955
+ },
2956
+ {
2957
+ "epoch": 0.37947548460661346,
2958
+ "grad_norm": 0.14109903573989868,
2959
+ "learning_rate": 7.367991782295391e-06,
2960
+ "loss": 0.9719,
2961
+ "step": 416
2962
+ },
2963
+ {
2964
+ "epoch": 0.38038768529076394,
2965
+ "grad_norm": 0.1540416181087494,
2966
+ "learning_rate": 7.197918854261432e-06,
2967
+ "loss": 1.0884,
2968
+ "step": 417
2969
+ },
2970
+ {
2971
+ "epoch": 0.3812998859749145,
2972
+ "grad_norm": 0.14207249879837036,
2973
+ "learning_rate": 7.029679424927365e-06,
2974
+ "loss": 1.1356,
2975
+ "step": 418
2976
+ },
2977
+ {
2978
+ "epoch": 0.382212086659065,
2979
+ "grad_norm": 0.14175021648406982,
2980
+ "learning_rate": 6.863280701110408e-06,
2981
+ "loss": 0.8289,
2982
+ "step": 419
2983
+ },
2984
+ {
2985
+ "epoch": 0.3831242873432155,
2986
+ "grad_norm": 0.1370278298854828,
2987
+ "learning_rate": 6.698729810778065e-06,
2988
+ "loss": 0.9297,
2989
+ "step": 420
2990
+ },
2991
+ {
2992
+ "epoch": 0.384036488027366,
2993
+ "grad_norm": 0.2763122618198395,
2994
+ "learning_rate": 6.536033802742813e-06,
2995
+ "loss": 1.2414,
2996
+ "step": 421
2997
+ },
2998
+ {
2999
+ "epoch": 0.38494868871151655,
3000
+ "grad_norm": 0.15884122252464294,
3001
+ "learning_rate": 6.375199646360142e-06,
3002
+ "loss": 1.0608,
3003
+ "step": 422
3004
+ },
3005
+ {
3006
+ "epoch": 0.38586088939566704,
3007
+ "grad_norm": 0.14970403909683228,
3008
+ "learning_rate": 6.216234231230012e-06,
3009
+ "loss": 0.7528,
3010
+ "step": 423
3011
+ },
3012
+ {
3013
+ "epoch": 0.3867730900798176,
3014
+ "grad_norm": 0.15861846506595612,
3015
+ "learning_rate": 6.059144366901736e-06,
3016
+ "loss": 0.924,
3017
+ "step": 424
3018
+ },
3019
+ {
3020
+ "epoch": 0.38768529076396807,
3021
+ "grad_norm": 0.18967342376708984,
3022
+ "learning_rate": 5.903936782582253e-06,
3023
+ "loss": 1.0738,
3024
+ "step": 425
3025
+ },
3026
+ {
3027
+ "epoch": 0.38859749144811856,
3028
+ "grad_norm": 0.1890667825937271,
3029
+ "learning_rate": 5.750618126847912e-06,
3030
+ "loss": 1.0767,
3031
+ "step": 426
3032
+ },
3033
+ {
3034
+ "epoch": 0.3895096921322691,
3035
+ "grad_norm": 0.18360556662082672,
3036
+ "learning_rate": 5.599194967359639e-06,
3037
+ "loss": 1.137,
3038
+ "step": 427
3039
+ },
3040
+ {
3041
+ "epoch": 0.3904218928164196,
3042
+ "grad_norm": 0.2094428986310959,
3043
+ "learning_rate": 5.449673790581611e-06,
3044
+ "loss": 1.0618,
3045
+ "step": 428
3046
+ },
3047
+ {
3048
+ "epoch": 0.39133409350057013,
3049
+ "grad_norm": 0.17591425776481628,
3050
+ "learning_rate": 5.302061001503394e-06,
3051
+ "loss": 0.9315,
3052
+ "step": 429
3053
+ },
3054
+ {
3055
+ "epoch": 0.3922462941847206,
3056
+ "grad_norm": 0.19204486906528473,
3057
+ "learning_rate": 5.156362923365588e-06,
3058
+ "loss": 1.1151,
3059
+ "step": 430
3060
+ },
3061
+ {
3062
+ "epoch": 0.39315849486887117,
3063
+ "grad_norm": 0.19108223915100098,
3064
+ "learning_rate": 5.012585797388936e-06,
3065
+ "loss": 0.9007,
3066
+ "step": 431
3067
+ },
3068
+ {
3069
+ "epoch": 0.39407069555302165,
3070
+ "grad_norm": 0.24487371742725372,
3071
+ "learning_rate": 4.87073578250698e-06,
3072
+ "loss": 1.0956,
3073
+ "step": 432
3074
+ },
3075
+ {
3076
+ "epoch": 0.3949828962371722,
3077
+ "grad_norm": 0.36626699566841125,
3078
+ "learning_rate": 4.730818955102234e-06,
3079
+ "loss": 1.1817,
3080
+ "step": 433
3081
+ },
3082
+ {
3083
+ "epoch": 0.3958950969213227,
3084
+ "grad_norm": 0.20722968876361847,
3085
+ "learning_rate": 4.592841308745932e-06,
3086
+ "loss": 1.1693,
3087
+ "step": 434
3088
+ },
3089
+ {
3090
+ "epoch": 0.39680729760547323,
3091
+ "grad_norm": 0.18895329535007477,
3092
+ "learning_rate": 4.456808753941205e-06,
3093
+ "loss": 1.2137,
3094
+ "step": 435
3095
+ },
3096
+ {
3097
+ "epoch": 0.3977194982896237,
3098
+ "grad_norm": 0.11202345043420792,
3099
+ "learning_rate": 4.322727117869951e-06,
3100
+ "loss": 1.1175,
3101
+ "step": 436
3102
+ },
3103
+ {
3104
+ "epoch": 0.3986316989737742,
3105
+ "grad_norm": 0.10380493104457855,
3106
+ "learning_rate": 4.190602144143207e-06,
3107
+ "loss": 0.9969,
3108
+ "step": 437
3109
+ },
3110
+ {
3111
+ "epoch": 0.39954389965792475,
3112
+ "grad_norm": 0.10471412539482117,
3113
+ "learning_rate": 4.06043949255509e-06,
3114
+ "loss": 1.1972,
3115
+ "step": 438
3116
+ },
3117
+ {
3118
+ "epoch": 0.40045610034207524,
3119
+ "grad_norm": 0.10842544585466385,
3120
+ "learning_rate": 3.932244738840379e-06,
3121
+ "loss": 1.233,
3122
+ "step": 439
3123
+ },
3124
+ {
3125
+ "epoch": 0.4013683010262258,
3126
+ "grad_norm": 0.1057286411523819,
3127
+ "learning_rate": 3.8060233744356633e-06,
3128
+ "loss": 1.1387,
3129
+ "step": 440
3130
+ },
3131
+ {
3132
+ "epoch": 0.40228050171037627,
3133
+ "grad_norm": 0.13041551411151886,
3134
+ "learning_rate": 3.681780806244095e-06,
3135
+ "loss": 1.3469,
3136
+ "step": 441
3137
+ },
3138
+ {
3139
+ "epoch": 0.4031927023945268,
3140
+ "grad_norm": 0.14460065960884094,
3141
+ "learning_rate": 3.5595223564037884e-06,
3142
+ "loss": 1.2273,
3143
+ "step": 442
3144
+ },
3145
+ {
3146
+ "epoch": 0.4041049030786773,
3147
+ "grad_norm": 0.1310551017522812,
3148
+ "learning_rate": 3.4392532620598216e-06,
3149
+ "loss": 1.2728,
3150
+ "step": 443
3151
+ },
3152
+ {
3153
+ "epoch": 0.40501710376282785,
3154
+ "grad_norm": 0.15493756532669067,
3155
+ "learning_rate": 3.3209786751399187e-06,
3156
+ "loss": 1.2911,
3157
+ "step": 444
3158
+ },
3159
+ {
3160
+ "epoch": 0.40592930444697833,
3161
+ "grad_norm": 0.17276257276535034,
3162
+ "learning_rate": 3.2047036621337236e-06,
3163
+ "loss": 1.2539,
3164
+ "step": 445
3165
+ },
3166
+ {
3167
+ "epoch": 0.4068415051311288,
3168
+ "grad_norm": 0.19491133093833923,
3169
+ "learning_rate": 3.0904332038757977e-06,
3170
+ "loss": 1.3042,
3171
+ "step": 446
3172
+ },
3173
+ {
3174
+ "epoch": 0.40775370581527937,
3175
+ "grad_norm": 0.2031175196170807,
3176
+ "learning_rate": 2.978172195332263e-06,
3177
+ "loss": 1.3051,
3178
+ "step": 447
3179
+ },
3180
+ {
3181
+ "epoch": 0.40866590649942985,
3182
+ "grad_norm": 0.24767906963825226,
3183
+ "learning_rate": 2.8679254453910785e-06,
3184
+ "loss": 1.3451,
3185
+ "step": 448
3186
+ },
3187
+ {
3188
+ "epoch": 0.4095781071835804,
3189
+ "grad_norm": 0.3026193380355835,
3190
+ "learning_rate": 2.759697676656098e-06,
3191
+ "loss": 1.4116,
3192
+ "step": 449
3193
+ },
3194
+ {
3195
+ "epoch": 0.4104903078677309,
3196
+ "grad_norm": 0.8892145156860352,
3197
+ "learning_rate": 2.653493525244721e-06,
3198
+ "loss": 1.6982,
3199
+ "step": 450
3200
+ },
3201
+ {
3202
+ "epoch": 0.41140250855188143,
3203
+ "grad_norm": 0.13387838006019592,
3204
+ "learning_rate": 2.549317540589308e-06,
3205
+ "loss": 1.0503,
3206
+ "step": 451
3207
+ },
3208
+ {
3209
+ "epoch": 0.4123147092360319,
3210
+ "grad_norm": 0.12145627290010452,
3211
+ "learning_rate": 2.4471741852423237e-06,
3212
+ "loss": 0.9952,
3213
+ "step": 452
3214
+ },
3215
+ {
3216
+ "epoch": 0.41322690992018246,
3217
+ "grad_norm": 0.14256002008914948,
3218
+ "learning_rate": 2.3470678346851518e-06,
3219
+ "loss": 1.0721,
3220
+ "step": 453
3221
+ },
3222
+ {
3223
+ "epoch": 0.41413911060433295,
3224
+ "grad_norm": 0.13277588784694672,
3225
+ "learning_rate": 2.2490027771406687e-06,
3226
+ "loss": 1.0023,
3227
+ "step": 454
3228
+ },
3229
+ {
3230
+ "epoch": 0.4150513112884835,
3231
+ "grad_norm": 0.14663711190223694,
3232
+ "learning_rate": 2.152983213389559e-06,
3233
+ "loss": 1.335,
3234
+ "step": 455
3235
+ },
3236
+ {
3237
+ "epoch": 0.415963511972634,
3238
+ "grad_norm": 0.1930977702140808,
3239
+ "learning_rate": 2.0590132565903476e-06,
3240
+ "loss": 1.212,
3241
+ "step": 456
3242
+ },
3243
+ {
3244
+ "epoch": 0.41687571265678447,
3245
+ "grad_norm": 0.19310270249843597,
3246
+ "learning_rate": 1.9670969321032407e-06,
3247
+ "loss": 1.281,
3248
+ "step": 457
3249
+ },
3250
+ {
3251
+ "epoch": 0.417787913340935,
3252
+ "grad_norm": 0.20942994952201843,
3253
+ "learning_rate": 1.8772381773176417e-06,
3254
+ "loss": 1.5858,
3255
+ "step": 458
3256
+ },
3257
+ {
3258
+ "epoch": 0.4187001140250855,
3259
+ "grad_norm": 0.1741369217634201,
3260
+ "learning_rate": 1.7894408414835362e-06,
3261
+ "loss": 1.1413,
3262
+ "step": 459
3263
+ },
3264
+ {
3265
+ "epoch": 0.41961231470923605,
3266
+ "grad_norm": 0.2890353500843048,
3267
+ "learning_rate": 1.70370868554659e-06,
3268
+ "loss": 1.5824,
3269
+ "step": 460
3270
+ },
3271
+ {
3272
+ "epoch": 0.42052451539338653,
3273
+ "grad_norm": 0.38743922114372253,
3274
+ "learning_rate": 1.620045381987012e-06,
3275
+ "loss": 1.2338,
3276
+ "step": 461
3277
+ },
3278
+ {
3279
+ "epoch": 0.4214367160775371,
3280
+ "grad_norm": 0.4166823923587799,
3281
+ "learning_rate": 1.5384545146622852e-06,
3282
+ "loss": 1.4114,
3283
+ "step": 462
3284
+ },
3285
+ {
3286
+ "epoch": 0.42234891676168757,
3287
+ "grad_norm": 0.16984394192695618,
3288
+ "learning_rate": 1.4589395786535953e-06,
3289
+ "loss": 1.033,
3290
+ "step": 463
3291
+ },
3292
+ {
3293
+ "epoch": 0.4232611174458381,
3294
+ "grad_norm": 0.1662890464067459,
3295
+ "learning_rate": 1.3815039801161721e-06,
3296
+ "loss": 1.1955,
3297
+ "step": 464
3298
+ },
3299
+ {
3300
+ "epoch": 0.4241733181299886,
3301
+ "grad_norm": 0.15266531705856323,
3302
+ "learning_rate": 1.3061510361333185e-06,
3303
+ "loss": 1.0023,
3304
+ "step": 465
3305
+ },
3306
+ {
3307
+ "epoch": 0.4250855188141391,
3308
+ "grad_norm": 0.13052251935005188,
3309
+ "learning_rate": 1.232883974574367e-06,
3310
+ "loss": 0.7769,
3311
+ "step": 466
3312
+ },
3313
+ {
3314
+ "epoch": 0.42599771949828963,
3315
+ "grad_norm": 0.15434938669204712,
3316
+ "learning_rate": 1.1617059339563807e-06,
3317
+ "loss": 0.9081,
3318
+ "step": 467
3319
+ },
3320
+ {
3321
+ "epoch": 0.4269099201824401,
3322
+ "grad_norm": 0.1454930305480957,
3323
+ "learning_rate": 1.0926199633097157e-06,
3324
+ "loss": 0.8577,
3325
+ "step": 468
3326
+ },
3327
+ {
3328
+ "epoch": 0.42782212086659066,
3329
+ "grad_norm": 0.14353904128074646,
3330
+ "learning_rate": 1.0256290220474307e-06,
3331
+ "loss": 0.9633,
3332
+ "step": 469
3333
+ },
3334
+ {
3335
+ "epoch": 0.42873432155074115,
3336
+ "grad_norm": 0.136052668094635,
3337
+ "learning_rate": 9.607359798384785e-07,
3338
+ "loss": 0.8172,
3339
+ "step": 470
3340
+ },
3341
+ {
3342
+ "epoch": 0.4296465222348917,
3343
+ "grad_norm": 0.1676524579524994,
3344
+ "learning_rate": 8.979436164848088e-07,
3345
+ "loss": 1.0447,
3346
+ "step": 471
3347
+ },
3348
+ {
3349
+ "epoch": 0.4305587229190422,
3350
+ "grad_norm": 0.2036374807357788,
3351
+ "learning_rate": 8.372546218022747e-07,
3352
+ "loss": 0.9286,
3353
+ "step": 472
3354
+ },
3355
+ {
3356
+ "epoch": 0.4314709236031927,
3357
+ "grad_norm": 0.14977683126926422,
3358
+ "learning_rate": 7.786715955054203e-07,
3359
+ "loss": 0.9408,
3360
+ "step": 473
3361
+ },
3362
+ {
3363
+ "epoch": 0.4323831242873432,
3364
+ "grad_norm": 0.1696736216545105,
3365
+ "learning_rate": 7.221970470961125e-07,
3366
+ "loss": 0.9405,
3367
+ "step": 474
3368
+ },
3369
+ {
3370
+ "epoch": 0.43329532497149376,
3371
+ "grad_norm": 0.1618494838476181,
3372
+ "learning_rate": 6.678333957560512e-07,
3373
+ "loss": 1.0186,
3374
+ "step": 475
3375
+ },
3376
+ {
3377
+ "epoch": 0.43420752565564424,
3378
+ "grad_norm": 0.19542407989501953,
3379
+ "learning_rate": 6.15582970243117e-07,
3380
+ "loss": 0.9891,
3381
+ "step": 476
3382
+ },
3383
+ {
3384
+ "epoch": 0.43511972633979473,
3385
+ "grad_norm": 0.1792437881231308,
3386
+ "learning_rate": 5.654480087916303e-07,
3387
+ "loss": 0.786,
3388
+ "step": 477
3389
+ },
3390
+ {
3391
+ "epoch": 0.4360319270239453,
3392
+ "grad_norm": 0.19154495000839233,
3393
+ "learning_rate": 5.174306590164879e-07,
3394
+ "loss": 1.026,
3395
+ "step": 478
3396
+ },
3397
+ {
3398
+ "epoch": 0.43694412770809576,
3399
+ "grad_norm": 0.19262973964214325,
3400
+ "learning_rate": 4.715329778211375e-07,
3401
+ "loss": 1.1393,
3402
+ "step": 479
3403
+ },
3404
+ {
3405
+ "epoch": 0.4378563283922463,
3406
+ "grad_norm": 0.19536390900611877,
3407
+ "learning_rate": 4.277569313094809e-07,
3408
+ "loss": 1.0381,
3409
+ "step": 480
3410
+ },
3411
+ {
3412
+ "epoch": 0.4387685290763968,
3413
+ "grad_norm": 0.19628259539604187,
3414
+ "learning_rate": 3.8610439470164737e-07,
3415
+ "loss": 0.9981,
3416
+ "step": 481
3417
+ },
3418
+ {
3419
+ "epoch": 0.43968072976054734,
3420
+ "grad_norm": 0.19776402413845062,
3421
+ "learning_rate": 3.465771522536854e-07,
3422
+ "loss": 1.0142,
3423
+ "step": 482
3424
+ },
3425
+ {
3426
+ "epoch": 0.44059293044469783,
3427
+ "grad_norm": 0.21788012981414795,
3428
+ "learning_rate": 3.09176897181096e-07,
3429
+ "loss": 0.9793,
3430
+ "step": 483
3431
+ },
3432
+ {
3433
+ "epoch": 0.44150513112884837,
3434
+ "grad_norm": 0.2997768521308899,
3435
+ "learning_rate": 2.7390523158633554e-07,
3436
+ "loss": 1.0695,
3437
+ "step": 484
3438
+ },
3439
+ {
3440
+ "epoch": 0.44241733181299886,
3441
+ "grad_norm": 0.27953919768333435,
3442
+ "learning_rate": 2.407636663901591e-07,
3443
+ "loss": 1.3182,
3444
+ "step": 485
3445
+ },
3446
+ {
3447
+ "epoch": 0.44332953249714935,
3448
+ "grad_norm": 0.15639732778072357,
3449
+ "learning_rate": 2.0975362126691712e-07,
3450
+ "loss": 1.0899,
3451
+ "step": 486
3452
+ },
3453
+ {
3454
+ "epoch": 0.4442417331812999,
3455
+ "grad_norm": 0.12085293978452682,
3456
+ "learning_rate": 1.8087642458373134e-07,
3457
+ "loss": 1.3242,
3458
+ "step": 487
3459
+ },
3460
+ {
3461
+ "epoch": 0.4451539338654504,
3462
+ "grad_norm": 0.105677030980587,
3463
+ "learning_rate": 1.5413331334360182e-07,
3464
+ "loss": 1.2878,
3465
+ "step": 488
3466
+ },
3467
+ {
3468
+ "epoch": 0.4460661345496009,
3469
+ "grad_norm": 0.12019108980894089,
3470
+ "learning_rate": 1.2952543313240472e-07,
3471
+ "loss": 1.076,
3472
+ "step": 489
3473
+ },
3474
+ {
3475
+ "epoch": 0.4469783352337514,
3476
+ "grad_norm": 0.12178989499807358,
3477
+ "learning_rate": 1.0705383806982606e-07,
3478
+ "loss": 1.2949,
3479
+ "step": 490
3480
+ },
3481
+ {
3482
+ "epoch": 0.44789053591790196,
3483
+ "grad_norm": 0.13249683380126953,
3484
+ "learning_rate": 8.671949076420882e-08,
3485
+ "loss": 1.4278,
3486
+ "step": 491
3487
+ },
3488
+ {
3489
+ "epoch": 0.44880273660205244,
3490
+ "grad_norm": 0.13811670243740082,
3491
+ "learning_rate": 6.852326227130834e-08,
3492
+ "loss": 1.3262,
3493
+ "step": 492
3494
+ },
3495
+ {
3496
+ "epoch": 0.449714937286203,
3497
+ "grad_norm": 0.14182856678962708,
3498
+ "learning_rate": 5.246593205699424e-08,
3499
+ "loss": 1.3477,
3500
+ "step": 493
3501
+ },
3502
+ {
3503
+ "epoch": 0.4506271379703535,
3504
+ "grad_norm": 0.1499001681804657,
3505
+ "learning_rate": 3.8548187963854956e-08,
3506
+ "loss": 1.2677,
3507
+ "step": 494
3508
+ },
3509
+ {
3510
+ "epoch": 0.45153933865450396,
3511
+ "grad_norm": 0.16916415095329285,
3512
+ "learning_rate": 2.6770626181715773e-08,
3513
+ "loss": 1.3193,
3514
+ "step": 495
3515
+ },
3516
+ {
3517
+ "epoch": 0.4524515393386545,
3518
+ "grad_norm": 0.20377494394779205,
3519
+ "learning_rate": 1.7133751222137007e-08,
3520
+ "loss": 1.357,
3521
+ "step": 496
3522
+ },
3523
+ {
3524
+ "epoch": 0.453363740022805,
3525
+ "grad_norm": 0.2306216061115265,
3526
+ "learning_rate": 9.637975896759077e-09,
3527
+ "loss": 1.7053,
3528
+ "step": 497
3529
+ },
3530
+ {
3531
+ "epoch": 0.45427594070695554,
3532
+ "grad_norm": 0.2522677481174469,
3533
+ "learning_rate": 4.2836212996499865e-09,
3534
+ "loss": 1.3653,
3535
+ "step": 498
3536
+ },
3537
+ {
3538
+ "epoch": 0.455188141391106,
3539
+ "grad_norm": 0.33547061681747437,
3540
+ "learning_rate": 1.0709167935385455e-09,
3541
+ "loss": 1.4946,
3542
+ "step": 499
3543
+ },
3544
+ {
3545
+ "epoch": 0.45610034207525657,
3546
+ "grad_norm": 0.8273468017578125,
3547
+ "learning_rate": 0.0,
3548
+ "loss": 1.7554,
3549
+ "step": 500
3550
+ },
3551
+ {
3552
+ "epoch": 0.45610034207525657,
3553
+ "eval_loss": 1.195978045463562,
3554
+ "eval_runtime": 113.8887,
3555
+ "eval_samples_per_second": 16.209,
3556
+ "eval_steps_per_second": 4.057,
3557
+ "step": 500
3558
  }
3559
  ],
3560
  "logging_steps": 1,
 
3569
  "early_stopping_threshold": 0.0
3570
  },
3571
  "attributes": {
3572
+ "early_stopping_patience_counter": 1
3573
  }
3574
  },
3575
  "TrainerControl": {
 
3578
  "should_evaluate": false,
3579
  "should_log": false,
3580
  "should_save": true,
3581
+ "should_training_stop": true
3582
  },
3583
  "attributes": {}
3584
  }
3585
  },
3586
+ "total_flos": 4.202037058732032e+16,
3587
  "train_batch_size": 8,
3588
  "trial_name": null,
3589
  "trial_params": null